From 6e74fd4945f1b0ccf72fda35daeedc8d6e632d0f Mon Sep 17 00:00:00 2001
From: Alex Wu <alexwu@character.ai>
Date: Mon, 28 Apr 2025 15:15:58 -0700
Subject: [PATCH 001/461] Support loading transformers models with named
 parameters (#16868)

Signed-off-by: Alex <alexwu@character.ai>
---
 vllm/model_executor/models/transformers.py | 23 ++++++++++++++++++++++
 1 file changed, 23 insertions(+)

diff --git a/vllm/model_executor/models/transformers.py b/vllm/model_executor/models/transformers.py
index a37e88a38..ad7c07dc8 100644
--- a/vllm/model_executor/models/transformers.py
+++ b/vllm/model_executor/models/transformers.py
@@ -166,6 +166,9 @@ class TransformersModel(nn.Module):
         # Initialize buffers (e.g. rotary embedding inverse frequency)
         self.init_buffers(self.model)
 
+        # Initialize parameters
+        self.init_parameters(self.model)
+
         # Move remaining meta tensors to device (should happen last)
         self.meta_to_empty(self.model)
 
@@ -298,6 +301,25 @@ class TransformersModel(nn.Module):
         for child in module.children():
             self.init_buffers(child)
 
+    def init_parameters(self, module: nn.Module):
+        """
+        If a `parameter` is on the `meta` device, then its parent
+        `module` is the original module created by:
+
+        ```python
+        with torch.device("meta"):
+            self.model: PreTrainedModel = AutoModel.from_config(...)
+        ```
+        """
+        for name, param in module.named_parameters(recurse=False):
+            if param.device == torch.device("meta"):
+                new_param = nn.Parameter(
+                    torch.empty_like(param.data,
+                                     device=self.device_config.device))
+                setattr(module, name, new_param)
+        for child in module.children():
+            self.init_parameters(child)
+
     def meta_to_empty(self, module: nn.Module):
         tensors = list(chain(module.buffers(), module.parameters()))
         if tensors and all(t.device == torch.device("meta") for t in tensors):
@@ -342,6 +364,7 @@ class TransformersModel(nn.Module):
     def load_weights(self, weights: Iterable[tuple[str,
                                                    torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters())
+
         loaded_params = set[str]()
         for name, loaded_weight in weights:
             # Use "model" instead of base_model_prefix because
-- 
GitLab


From 8fc88d63f1163f119dd740b1666069535f052ff3 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Mon, 28 Apr 2025 16:20:24 -0600
Subject: [PATCH 002/461] [Model] Add tuned triton fused_moe configs for
 Qwen3Moe (#17328)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 benchmarks/kernels/benchmark_moe.py           |   8 +-
 ...192,device_name=NVIDIA_H100_80GB_HBM3.json | 146 ++++++++++++++++++
 .../E=128,N=192,device_name=NVIDIA_H20.json   | 146 ++++++++++++++++++
 .../E=128,N=192,device_name=NVIDIA_H200.json  | 146 ++++++++++++++++++
 ...,dtype=fp8_w8a8,block_shape=[128,128].json | 146 ++++++++++++++++++
 .../E=128,N=384,device_name=NVIDIA_H20.json   | 146 ++++++++++++++++++
 ...,dtype=fp8_w8a8,block_shape=[128,128].json | 146 ++++++++++++++++++
 .../E=128,N=384,device_name=NVIDIA_H200.json  | 146 ++++++++++++++++++
 ...512,device_name=NVIDIA_H100_80GB_HBM3.json | 146 ++++++++++++++++++
 ...,dtype=fp8_w8a8,block_shape=[128,128].json | 146 ++++++++++++++++++
 .../E=128,N=768,device_name=NVIDIA_H20.json   | 146 ++++++++++++++++++
 ...,dtype=fp8_w8a8,block_shape=[128,128].json | 146 ++++++++++++++++++
 .../E=128,N=768,device_name=NVIDIA_H200.json  | 146 ++++++++++++++++++
 .../E=128,N=96,device_name=NVIDIA_H20.json    | 146 ++++++++++++++++++
 .../layers/fused_moe/configs/README           |   3 +-
 15 files changed, 1904 insertions(+), 5 deletions(-)
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H20.json
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H200.json
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20.json
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H200.json
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=512,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20.json
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H200.json
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=96,device_name=NVIDIA_H20.json

diff --git a/benchmarks/kernels/benchmark_moe.py b/benchmarks/kernels/benchmark_moe.py
index 912470fad..a274537a6 100644
--- a/benchmarks/kernels/benchmark_moe.py
+++ b/benchmarks/kernels/benchmark_moe.py
@@ -527,7 +527,7 @@ def get_weight_block_size_safety(config, default_value=None):
 
 def main(args: argparse.Namespace):
     print(args)
-    block_quant_shape = None
+
     config = AutoConfig.from_pretrained(
         args.model, trust_remote_code=args.trust_remote_code)
     if config.architectures[0] == "DbrxForCausalLM":
@@ -546,8 +546,9 @@ def main(args: argparse.Namespace):
         topk = config.num_experts_per_tok
         intermediate_size = config.moe_intermediate_size
         shard_intermediate_size = 2 * intermediate_size // args.tp_size
-        block_quant_shape = get_weight_block_size_safety(config)
-    elif config.architectures[0] == "Qwen2MoeForCausalLM":
+    elif config.architectures[0] in [
+            "Qwen2MoeForCausalLM", "Qwen3MoeForCausalLM"
+    ]:
         E = config.num_experts
         topk = config.num_experts_per_tok
         intermediate_size = config.moe_intermediate_size
@@ -565,6 +566,7 @@ def main(args: argparse.Namespace):
     dtype = torch.float16 if current_platform.is_rocm() else config.torch_dtype
     use_fp8_w8a8 = args.dtype == "fp8_w8a8"
     use_int8_w8a16 = args.dtype == "int8_w8a16"
+    block_quant_shape = get_weight_block_size_safety(config)
 
     if args.batch_size is None:
         batch_sizes = [
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H100_80GB_HBM3.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 000000000..5de5605d4
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H20.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H20.json
new file mode 100644
index 000000000..2221e99cd
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H20.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H200.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H200.json
new file mode 100644
index 000000000..74374c573
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    }
+}
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 000000000..b34b6e4e8
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20.json
new file mode 100644
index 000000000..ab169a018
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H20.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 000000000..324ad7b22
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
\ No newline at end of file
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H200.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H200.json
new file mode 100644
index 000000000..ab6e15552
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=512,device_name=NVIDIA_H100_80GB_HBM3.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=512,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 000000000..249359fb9
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=512,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 000000000..b4efc9b7e
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20.json
new file mode 100644
index 000000000..03dfc73b6
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H20.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 000000000..9c07695ba
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
\ No newline at end of file
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H200.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H200.json
new file mode 100644
index 000000000..beaac7f64
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=NVIDIA_H200.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=96,device_name=NVIDIA_H20.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=96,device_name=NVIDIA_H20.json
new file mode 100644
index 000000000..ebff99e26
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=96,device_name=NVIDIA_H20.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    }
+}
diff --git a/vllm/model_executor/layers/fused_moe/configs/README b/vllm/model_executor/layers/fused_moe/configs/README
index 787bd0611..85970e2d1 100644
--- a/vllm/model_executor/layers/fused_moe/configs/README
+++ b/vllm/model_executor/layers/fused_moe/configs/README
@@ -9,5 +9,4 @@ The example configurations provided are for the Mixtral model for TP2 on H100
 and TP4 on A100. Mixtral has intermediate size N = 14336, i.e. for TP2 we have
 N = 7168 and for TP4 we have N = 3584.
 
-Please feel free to tune the configurations using scripts in `benchmarks/kernels/benchmark_moe.py`
-Some of the configurations files are copied from the SGLang repository. Thank you!
+See `benchmark/kernels/benchmark_moe.py` on how to generate these config files.
-- 
GitLab


From cfe45320931b7a1111ab7179a0ee473907b3f5ef Mon Sep 17 00:00:00 2001
From: Ekagra Ranjan <3116519+ekagra-ranjan@users.noreply.github.com>
Date: Mon, 28 Apr 2025 19:46:15 -0400
Subject: [PATCH 003/461] [Benchmark] Add single turn MTBench to Serving Bench
 (#17202)

---
 benchmarks/benchmark_dataset.py | 54 +++++++++++++++++++++++++++++++++
 benchmarks/benchmark_serving.py |  9 ++++--
 2 files changed, 60 insertions(+), 3 deletions(-)

diff --git a/benchmarks/benchmark_dataset.py b/benchmarks/benchmark_dataset.py
index ccbc6c022..9c614baf1 100644
--- a/benchmarks/benchmark_dataset.py
+++ b/benchmarks/benchmark_dataset.py
@@ -771,6 +771,60 @@ class InstructCoderDataset(HuggingFaceDataset):
         return sampled_requests
 
 
+# -----------------------------------------------------------------------------
+# MT-Bench Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+class MTBenchDataset(HuggingFaceDataset):
+    """
+    MT-Bench Dataset.
+    https://huggingface.co/datasets/philschmid/mt-bench
+
+    We create a single turn dataset for MT-Bench. 
+    This is similar to Spec decoding benchmark setup in vLLM
+    https://github.com/vllm-project/vllm/blob/9d98ab5ec/examples/offline_inference/eagle.py#L14-L18
+    """ # noqa: E501
+
+    DEFAULT_OUTPUT_LEN = 256  # avg len used in SD bench in vLLM
+    SUPPORTED_DATASET_PATHS = {
+        "philschmid/mt-bench",
+    }
+
+    def sample(self,
+               tokenizer: PreTrainedTokenizerBase,
+               num_requests: int,
+               output_len: Optional[int] = None,
+               enable_multimodal_chat: bool = False,
+               **kwargs) -> list:
+        output_len = (output_len
+                      if output_len is not None else self.DEFAULT_OUTPUT_LEN)
+        sampled_requests = []
+
+        for item in self.data:
+            if len(sampled_requests) >= num_requests:
+                break
+            prompt = item['turns'][0]
+
+            # apply template
+            prompt = tokenizer.apply_chat_template([{
+                "role": "user",
+                "content": prompt
+            }],
+                                                   add_generation_prompt=True,
+                                                   tokenize=False)
+
+            prompt_len = len(tokenizer(prompt).input_ids)
+            sampled_requests.append(
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=prompt_len,
+                    expected_output_len=output_len,
+                ))
+        self.maybe_oversample_requests(sampled_requests, num_requests)
+        return sampled_requests
+
+
 # -----------------------------------------------------------------------------
 # AIMO Dataset Implementation
 # -----------------------------------------------------------------------------
diff --git a/benchmarks/benchmark_serving.py b/benchmarks/benchmark_serving.py
index da124e1a8..c236d6426 100644
--- a/benchmarks/benchmark_serving.py
+++ b/benchmarks/benchmark_serving.py
@@ -52,9 +52,9 @@ except ImportError:
 
 from benchmark_dataset import (AIMODataset, ASRDataset, BurstGPTDataset,
                                ConversationDataset, HuggingFaceDataset,
-                               InstructCoderDataset, RandomDataset,
-                               SampleRequest, ShareGPTDataset, SonnetDataset,
-                               VisionArenaDataset)
+                               InstructCoderDataset, MTBenchDataset,
+                               RandomDataset, SampleRequest, ShareGPTDataset,
+                               SonnetDataset, VisionArenaDataset)
 from benchmark_utils import convert_to_pytorch_benchmark_format, write_to_json
 
 MILLISECONDS_TO_SECONDS_CONVERSION = 1000
@@ -595,6 +595,9 @@ def main(args: argparse.Namespace):
         elif args.dataset_path in InstructCoderDataset.SUPPORTED_DATASET_PATHS:
             dataset_class = InstructCoderDataset
             args.hf_split = "train"
+        elif args.dataset_path in MTBenchDataset.SUPPORTED_DATASET_PATHS:
+            dataset_class = MTBenchDataset
+            args.hf_split = "train"
         elif args.dataset_path in ConversationDataset.SUPPORTED_DATASET_PATHS:
             dataset_class = ConversationDataset
         elif args.dataset_path in AIMODataset.SUPPORTED_DATASET_PATHS:
-- 
GitLab


From 506475de5f1a48c225e7cd7f87efd40ad6f3c9c0 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Tue, 29 Apr 2025 09:40:35 +0800
Subject: [PATCH 004/461] [Optim] Compute multimodal hash only once per item
 (#17314)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 vllm/model_executor/models/deepseek_vl2.py |  16 +-
 vllm/model_executor/models/h2ovl.py        |  16 +-
 vllm/model_executor/models/llava.py        |   3 -
 vllm/model_executor/models/mistral3.py     |   2 -
 vllm/model_executor/models/pixtral.py      |  15 +-
 vllm/multimodal/processing.py              | 309 ++++++++++++++-------
 6 files changed, 233 insertions(+), 128 deletions(-)

diff --git a/vllm/model_executor/models/deepseek_vl2.py b/vllm/model_executor/models/deepseek_vl2.py
index ac136698e..6d8f27530 100644
--- a/vllm/model_executor/models/deepseek_vl2.py
+++ b/vllm/model_executor/models/deepseek_vl2.py
@@ -22,8 +22,8 @@ from vllm.multimodal.inputs import (MultiModalDataDict, MultiModalFieldConfig,
 from vllm.multimodal.parse import (ImageEmbeddingItems, ImageProcessorItems,
                                    ImageSize, MultiModalDataItems)
 from vllm.multimodal.processing import (BaseMultiModalProcessor,
-                                        BaseProcessingInfo, PromptReplacement,
-                                        PromptUpdate)
+                                        BaseProcessingInfo, MultiModalHashes,
+                                        PromptReplacement, PromptUpdate)
 from vllm.multimodal.profiling import BaseDummyInputsBuilder
 from vllm.sequence import IntermediateTensors
 from vllm.transformers_utils.configs.deepseek_vl2 import (DeepseekVLV2Config,
@@ -279,24 +279,26 @@ class DeepseekVL2MultiModalProcessor(
         prompt: Union[str, list[int]],
         mm_data_items: MultiModalDataItems,
         hf_processor_mm_kwargs: Mapping[str, object],
-    ) -> tuple[list[int], MultiModalKwargs, bool]:
+        *,
+        return_mm_hashes: bool,
+    ) -> tuple[list[int], MultiModalKwargs, Optional[MultiModalHashes], bool]:
         # The processor logic is different for len(images) <= 2 vs > 2
         # Since the processing cache assumes that the processor output is
         # invariant of how many images are passed per prompt, we only
         # perform caching for the most common case
         if mm_data_items.get_count("image", strict=False) > 2:
-            # This code path corresponds to the cache being disabled
-            return self._apply_hf_processor_main(
+            return self._apply_hf_processor(
                 prompt=prompt,
-                mm_items=mm_data_items,
+                mm_data_items=mm_data_items,
                 hf_processor_mm_kwargs=hf_processor_mm_kwargs,
-                enable_hf_prompt_update=True,
+                return_mm_hashes=return_mm_hashes,
             )
 
         return super()._cached_apply_hf_processor(
             prompt=prompt,
             mm_data_items=mm_data_items,
             hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            return_mm_hashes=return_mm_hashes,
         )
 
 
diff --git a/vllm/model_executor/models/h2ovl.py b/vllm/model_executor/models/h2ovl.py
index 15e126b0f..99c226439 100644
--- a/vllm/model_executor/models/h2ovl.py
+++ b/vllm/model_executor/models/h2ovl.py
@@ -19,8 +19,8 @@ from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.inputs import MultiModalKwargs
 from vllm.multimodal.parse import (ImageEmbeddingItems, ImageProcessorItems,
                                    MultiModalDataItems)
-from vllm.multimodal.processing import (PromptReplacement, PromptUpdate,
-                                        PromptUpdateDetails)
+from vllm.multimodal.processing import (MultiModalHashes, PromptReplacement,
+                                        PromptUpdate, PromptUpdateDetails)
 from vllm.transformers_utils.tokenizer import AnyTokenizer
 
 from .intern_vit import InternVisionModel
@@ -488,24 +488,26 @@ class H2OVLMultiModalProcessor(InternVLMultiModalProcessor[H2OVLProcessingInfo]
         prompt: Union[str, list[int]],
         mm_data_items: MultiModalDataItems,
         hf_processor_mm_kwargs: Mapping[str, object],
-    ) -> tuple[list[int], MultiModalKwargs, bool]:
+        *,
+        return_mm_hashes: bool,
+    ) -> tuple[list[int], MultiModalKwargs, Optional[MultiModalHashes], bool]:
         # The processor logic is different for len(images) <= 1 vs > 1
         # Since the processing cache assumes that the processor output is
         # invariant of how many images are passed per prompt, we only
         # perform caching for the most common case
         if mm_data_items.get_count("image", strict=False) > 1:
-            # This code path corresponds to the cache being disabled
-            return self._apply_hf_processor_main(
+            return self._apply_hf_processor(
                 prompt=prompt,
-                mm_items=mm_data_items,
+                mm_data_items=mm_data_items,
                 hf_processor_mm_kwargs=hf_processor_mm_kwargs,
-                enable_hf_prompt_update=True,
+                return_mm_hashes=return_mm_hashes,
             )
 
         return super()._cached_apply_hf_processor(
             prompt=prompt,
             mm_data_items=mm_data_items,
             hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            return_mm_hashes=return_mm_hashes,
         )
 
 
diff --git a/vllm/model_executor/models/llava.py b/vllm/model_executor/models/llava.py
index 8862b2679..16f5327ee 100644
--- a/vllm/model_executor/models/llava.py
+++ b/vllm/model_executor/models/llava.py
@@ -396,14 +396,12 @@ def _build_llava_or_pixtral_hf_processor(
     dummy_inputs: BaseDummyInputsBuilder[_I],
     *,
     cache: Optional[ProcessingCache] = None,
-    enable_sanity_checks: bool = True,
 ) -> BaseMultiModalProcessor:
     if isinstance(info, PixtralHFProcessingInfo):
         return PixtralHFMultiModalProcessor(
             info,
             dummy_inputs,  # type: ignore
             cache=cache,
-            enable_sanity_checks=enable_sanity_checks,
         )
 
     if isinstance(info, LlavaProcessingInfo):
@@ -411,7 +409,6 @@ def _build_llava_or_pixtral_hf_processor(
             info,
             dummy_inputs,  # type: ignore
             cache=cache,
-            enable_sanity_checks=enable_sanity_checks,
         )
 
     raise NotImplementedError(type(info))
diff --git a/vllm/model_executor/models/mistral3.py b/vllm/model_executor/models/mistral3.py
index f8e9e3181..12c87dc0f 100644
--- a/vllm/model_executor/models/mistral3.py
+++ b/vllm/model_executor/models/mistral3.py
@@ -312,14 +312,12 @@ def _build_mistral3_processor(
     dummy_inputs: BaseDummyInputsBuilder[_I],
     *,
     cache: Optional[ProcessingCache] = None,
-    enable_sanity_checks: bool = True,
 ) -> BaseMultiModalProcessor:
     assert isinstance(info, Mistral3ProcessingInfo)
     return Mistral3MultiModalProcessor(
         info,
         dummy_inputs,  # type: ignore
         cache=cache,
-        enable_sanity_checks=enable_sanity_checks,
     )
 
 
diff --git a/vllm/model_executor/models/pixtral.py b/vllm/model_executor/models/pixtral.py
index 73fd80146..d756b3b8a 100644
--- a/vllm/model_executor/models/pixtral.py
+++ b/vllm/model_executor/models/pixtral.py
@@ -36,8 +36,9 @@ from vllm.multimodal.inputs import (MultiModalDataDict, MultiModalFieldConfig,
 from vllm.multimodal.parse import (ImageProcessorItems, ImageSize,
                                    MultiModalDataItems)
 from vllm.multimodal.processing import (BaseMultiModalProcessor,
-                                        BaseProcessingInfo, PromptReplacement,
-                                        PromptUpdate, PromptUpdateDetails)
+                                        BaseProcessingInfo, MultiModalHashes,
+                                        PromptReplacement, PromptUpdate,
+                                        PromptUpdateDetails)
 from vllm.multimodal.profiling import BaseDummyInputsBuilder
 from vllm.sequence import IntermediateTensors
 from vllm.transformers_utils.tokenizer import (MistralTokenizer,
@@ -271,15 +272,19 @@ class PixtralMultiModalProcessor(BaseMultiModalProcessor[PixtralProcessingInfo]
         prompt: Union[str, list[int]],
         mm_data_items: MultiModalDataItems,
         hf_processor_mm_kwargs: Mapping[str, object],
-    ) -> tuple[list[int], MultiModalKwargs, bool]:
-        prompt_ids, mm_kwargs, _ = super()._cached_apply_hf_processor(
+        *,
+        return_mm_hashes: bool,
+    ) -> tuple[list[int], MultiModalKwargs, Optional[MultiModalHashes], bool]:
+        prompt_ids, mm_kwargs, mm_hashes, _ = super(
+        )._cached_apply_hf_processor(
             prompt=prompt,
             mm_data_items=mm_data_items,
             hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            return_mm_hashes=return_mm_hashes,
         )
 
         # NOTE: The tokens are already inserted by the chat template
-        return prompt_ids, mm_kwargs, True
+        return prompt_ids, mm_kwargs, mm_hashes, True
 
 
 @MULTIMODAL_REGISTRY.register_processor(PixtralMultiModalProcessor,
diff --git a/vllm/multimodal/processing.py b/vllm/multimodal/processing.py
index 87131122e..d6ba8f1bc 100644
--- a/vllm/multimodal/processing.py
+++ b/vllm/multimodal/processing.py
@@ -876,6 +876,16 @@ def find_mm_placeholders(
 _V = TypeVar("_V", bound="Union[MultiModalKwargs, MultiModalKwargsItem]")
 
 
+class ProcessingCacheOptionalItem(NamedTuple):
+    key: str
+    value: Optional[MultiModalKwargsItem]
+
+
+class ProcessingCacheItem(NamedTuple):
+    key: str
+    value: MultiModalKwargsItem
+
+
 class ProcessingCache:
 
     @staticmethod
@@ -980,6 +990,22 @@ class ProcessingCache:
 
         return self._cache.get(cache_key)
 
+    def get_item(
+        self,
+        model_id: str,
+        modality: str,
+        input_item: object,
+        input_kwargs: Mapping[str, object],
+    ) -> ProcessingCacheOptionalItem:
+        cache_key = MultiModalHasher.hash_kwargs(model_id=model_id,
+                                                 **{modality: input_item},
+                                                 **input_kwargs)
+
+        return ProcessingCacheOptionalItem(
+            key=cache_key,
+            value=self._cache.get(cache_key),
+        )
+
     def put(
         self,
         model_id: str,
@@ -997,6 +1023,9 @@ class ProcessingCache:
                                                  **input_kwargs)
         self._cache[cache_key] = output_kwargs
 
+    def put_item(self, item: ProcessingCacheItem) -> None:
+        self._cache[item.key] = item.value
+
 
 class BaseProcessingInfo:
     """Base class to provide the information necessary for data processing."""
@@ -1052,6 +1081,11 @@ class BaseProcessingInfo:
 
 _I = TypeVar("_I", bound=BaseProcessingInfo)
 
+MultiModalHashes = dict[str, list[str]]
+"""
+A collection of hashes with a similar structure as :class:`MultiModalKwargs`.
+"""
+
 
 class BaseMultiModalProcessor(ABC, Generic[_I]):
     """
@@ -1064,14 +1098,12 @@ class BaseMultiModalProcessor(ABC, Generic[_I]):
                  info: _I,
                  dummy_inputs: "BaseDummyInputsBuilder[_I]",
                  *,
-                 cache: Optional[ProcessingCache] = None,
-                 enable_sanity_checks: bool = True) -> None:
+                 cache: Optional[ProcessingCache] = None) -> None:
         super().__init__()
 
         self.info = info
         self.dummy_inputs = dummy_inputs
         self.cache = cache
-        self.enable_sanity_checks = enable_sanity_checks
 
         self.data_parser = self._get_data_parser()
 
@@ -1340,46 +1372,144 @@ class BaseMultiModalProcessor(ABC, Generic[_I]):
 
         return prompt_ids, mm_kwargs, False
 
+    def _get_cache_missing_items(
+        self,
+        cache: ProcessingCache,
+        mm_data_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> tuple[dict[str, list[ProcessingCacheOptionalItem]], dict[
+            str, list[object]]]:
+        model_id = self.info.model_id
+
+        mm_cache_items = {
+            modality: [
+                cache.get_item(model_id, modality, item,
+                               hf_processor_mm_kwargs) for item in items
+            ]
+            for modality, items in mm_data_items.items()
+        }
+
+        mm_missing_idxs = {
+            modality: [
+                idx for idx, item in enumerate(cache_items)
+                if item.value is None
+            ]
+            for modality, cache_items in mm_cache_items.items()
+        }
+        mm_missing_data = {
+            modality: [mm_data_items[modality][idx] for idx in idxs]
+            for modality, idxs in mm_missing_idxs.items()
+        }
+
+        return mm_cache_items, mm_missing_data
+
+    def _hash_mm_items(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> MultiModalHashes:
+        """Create MM hashes to be returned (only used in V1)."""
+        model_id = self.info.model_id
+
+        return {
+            modality: [
+                MultiModalHasher.hash_kwargs(model_id=model_id,
+                                             **{modality: item},
+                                             **hf_processor_mm_kwargs)
+                for item in items
+            ]
+            for modality, items in mm_items.items()
+        }
+
+    def _merge_mm_kwargs(
+        self,
+        cache: ProcessingCache,
+        mm_cache_items: dict[str, list[ProcessingCacheOptionalItem]],
+        mm_missing_data: dict[str, list[object]],
+        mm_missing_kwargs: MultiModalKwargs,
+    ) -> dict[str, list[ProcessingCacheItem]]:
+        mm_missing_next_idx = {modality: 0 for modality in mm_missing_data}
+
+        merged_items = defaultdict[str, list[ProcessingCacheItem]](list)
+        for modality, cache_items in mm_cache_items.items():
+            for cache_item in cache_items:
+                if cache_item.value is None:
+                    kw_item = mm_missing_kwargs.get_item(
+                        modality,
+                        mm_missing_next_idx[modality],
+                    )
+                    cache_item_new = ProcessingCacheItem(
+                        key=cache_item.key,
+                        value=kw_item,
+                    )
+
+                    cache.put_item(cache_item_new)
+                    mm_missing_next_idx[modality] += 1
+                else:
+                    cache_item_new = ProcessingCacheItem(
+                        key=cache_item.key,
+                        value=cache_item.value,
+                    )
+
+                merged_items[modality].append(cache_item_new)
+
+        return dict(merged_items)
+
+    def _apply_hf_processor(
+        self,
+        prompt: Union[str, list[int]],
+        mm_data_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        *,
+        return_mm_hashes: bool,
+    ) -> tuple[list[int], MultiModalKwargs, Optional[MultiModalHashes], bool]:
+        (
+            prompt_ids,
+            mm_kwargs,
+            is_update_applied,
+        ) = self._apply_hf_processor_main(
+            prompt=prompt,
+            mm_items=mm_data_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+            enable_hf_prompt_update=True,
+        )
+
+        mm_hashes = (self._hash_mm_items(mm_data_items, hf_processor_mm_kwargs)
+                     if return_mm_hashes else None)
+
+        return prompt_ids, mm_kwargs, mm_hashes, is_update_applied
+
     def _cached_apply_hf_processor(
         self,
         prompt: Union[str, list[int]],
         mm_data_items: MultiModalDataItems,
         hf_processor_mm_kwargs: Mapping[str, object],
-    ) -> tuple[list[int], MultiModalKwargs, bool]:
+        *,
+        return_mm_hashes: bool,
+    ) -> tuple[list[int], MultiModalKwargs, Optional[MultiModalHashes], bool]:
         """
         Apply the HF processor on the full prompt text,
         caching the results and reusing cached results.
         """
         cache = self.cache
-        model_id = self.info.model_id
 
         _, passthrough_data = self._get_hf_mm_data(mm_data_items)
         if cache is None or passthrough_data:
-            return self._apply_hf_processor_main(
+            return self._apply_hf_processor(
                 prompt=prompt,
-                mm_items=mm_data_items,
+                mm_data_items=mm_data_items,
                 hf_processor_mm_kwargs=hf_processor_mm_kwargs,
-                enable_hf_prompt_update=True,
+                return_mm_hashes=return_mm_hashes,
             )
 
-        mm_maybe_cached_kw_items = {
-            modality: [
-                cache.get(model_id, modality, item, hf_processor_mm_kwargs)
-                for item in items
-            ]
-            for modality, items in mm_data_items.items()
-        }
-
-        mm_missing_idxs = {
-            modality:
-            [idx for idx, item in enumerate(kw_items) if item is None]
-            for modality, kw_items in mm_maybe_cached_kw_items.items()
-        }
-        mm_missing_data = {
-            modality: [mm_data_items[modality][idx] for idx in idxs]
-            for modality, idxs in mm_missing_idxs.items()
-        }
-        mm_missing_data_items = self._to_mm_items(mm_missing_data)
+        (
+            mm_cache_items,
+            mm_missing_data,
+        ) = self._get_cache_missing_items(
+            cache=cache,
+            mm_data_items=mm_data_items,
+            hf_processor_mm_kwargs=hf_processor_mm_kwargs,
+        )
 
         # NOTE: `prompt` does not correspond to `mm_missing_data_items`,
         # so we can't apply prompt updates until the new multimodal
@@ -1390,48 +1520,29 @@ class BaseMultiModalProcessor(ABC, Generic[_I]):
             is_update_applied,
         ) = self._apply_hf_processor_main(
             prompt=prompt,
-            mm_items=mm_missing_data_items,
+            mm_items=self._to_mm_items(mm_missing_data),
             hf_processor_mm_kwargs=hf_processor_mm_kwargs,
             enable_hf_prompt_update=False,
         )
 
-        mm_missing_next_idx = {
-            modality: 0
-            for modality in mm_missing_data_items
-        }
-
-        merged_kw_items = list[MultiModalKwargsItem]()
-        for modality, kw_items in mm_maybe_cached_kw_items.items():
-            for idx, kw_item in enumerate(kw_items):
-                if kw_item is None:
-                    kw_item = mm_missing_kwargs.get_item(
-                        modality,
-                        mm_missing_next_idx[modality],
-                    )
-
-                    cache.put(
-                        model_id,
-                        modality,
-                        mm_data_items[modality][idx],
-                        hf_processor_mm_kwargs,
-                        kw_item,
-                    )
-
-                    mm_missing_next_idx[modality] += 1
-
-                merged_kw_items.append(kw_item)
+        mm_cache_items_merged = self._merge_mm_kwargs(
+            cache,
+            mm_cache_items=mm_cache_items,
+            mm_missing_data=mm_missing_data,
+            mm_missing_kwargs=mm_missing_kwargs,
+        )
 
-        if self.enable_sanity_checks:
-            mm_missing_counts = mm_missing_data_items.get_all_counts()
-            assert all(
-                item_count == mm_missing_counts[modality]
-                for modality, item_count in mm_missing_next_idx.items()), dict(
-                    mm_missing_next_idx=mm_missing_next_idx,
-                    mm_missing_counts=mm_missing_counts)
+        mm_kwargs = MultiModalKwargs.from_items([
+            item.value for cache_items in mm_cache_items_merged.values()
+            for item in cache_items
+        ])
 
-        mm_kwargs = MultiModalKwargs.from_items(merged_kw_items)
+        mm_hashes = {
+            modality: [item.key for item in cache_items]
+            for modality, cache_items in mm_cache_items_merged.items()
+        } if return_mm_hashes else None
 
-        return prompt_ids, mm_kwargs, is_update_applied
+        return prompt_ids, mm_kwargs, mm_hashes, is_update_applied
 
     def _bind_and_group_updates(
         self,
@@ -1569,27 +1680,6 @@ class BaseMultiModalProcessor(ABC, Generic[_I]):
                     "model (usually arising from an inconsistency between "
                     "`_call_hf_processor` and `_get_prompt_updates`).")
 
-    def _hash_mm_items(
-        self,
-        mm_items: MultiModalDataItems,
-        hf_processor_mm_kwargs: Mapping[str, object],
-    ) -> dict[str, list[str]]:
-        """Create MM hashes to be returned (only used in V1)."""
-
-        # TODO: Use these hash keys for caching operations in apply_hf_processor
-        # instead of rehashing.
-        model_id = self.info.model_id
-
-        return {
-            modality: [
-                MultiModalHasher.hash_kwargs(model_id=model_id,
-                                             **{modality: item},
-                                             **hf_processor_mm_kwargs)
-                for item in items
-            ]
-            for modality, items in mm_items.items()
-        }
-
     def _maybe_apply_prompt_updates(
         self,
         mm_items: MultiModalDataItems,
@@ -1655,17 +1745,16 @@ class BaseMultiModalProcessor(ABC, Generic[_I]):
         """
         mm_items = self._to_mm_items(mm_data)
 
-        mm_hashes = (self._hash_mm_items(mm_items, hf_processor_mm_kwargs)
-                     if return_mm_hashes else None)
-
         (
             prompt_ids,
             mm_kwargs,
+            mm_hashes,
             is_update_applied,
         ) = self._cached_apply_hf_processor(
             prompt,
             mm_items,
             hf_processor_mm_kwargs,
+            return_mm_hashes=return_mm_hashes,
         )
 
         prompt_ids, prompt, mm_placeholders = self._maybe_apply_prompt_updates(
@@ -1717,28 +1806,12 @@ class EncDecMultiModalProcessor(BaseMultiModalProcessor[_I]):
         """Create input prompt for the decoder."""
         return prompt
 
-    def apply(
+    def _get_enc_dec_inputs(
         self,
         prompt: Union[str, list[int]],
         mm_data: MultiModalDataDict,
-        hf_processor_mm_kwargs: Mapping[str, object],
-        return_mm_hashes: bool = False,
-    ) -> MultiModalEncDecInputs:
-        """
-        Process multi-modal inputs to be used in vLLM.
-        The main processing steps are modified to fit encoder-decoder model:
-        1. Create encoder prompt from input prompt text.
-        2. Apply the HF processor on encoder prompt.
-        3. Copy the input prompt text as decoder prompt inputs.
-        """
-        encoder_prompt = self.create_encoder_prompt(prompt, mm_data)
-        encoder_inputs = super().apply(
-            encoder_prompt,
-            mm_data,
-            hf_processor_mm_kwargs,
-            return_mm_hashes,
-        )
-
+        encoder_inputs: MultiModalInputs,
+    ):
         tokenizer = self.info.get_tokenizer()
         decoder_prompt = self.create_decoder_prompt(prompt, mm_data)
         if isinstance(decoder_prompt, str):
@@ -1758,3 +1831,31 @@ class EncDecMultiModalProcessor(BaseMultiModalProcessor[_I]):
             "prompt_token_ids": decoder_prompt_ids
         })
         return mm_inputs
+
+    def apply(
+        self,
+        prompt: Union[str, list[int]],
+        mm_data: MultiModalDataDict,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        return_mm_hashes: bool = False,
+    ) -> MultiModalEncDecInputs:
+        """
+        Process multi-modal inputs to be used in vLLM.
+        The main processing steps are modified to fit encoder-decoder model:
+        1. Create encoder prompt from input prompt text.
+        2. Apply the HF processor on encoder prompt.
+        3. Copy the input prompt text as decoder prompt inputs.
+        """
+        encoder_prompt = self.create_encoder_prompt(prompt, mm_data)
+        encoder_inputs = super().apply(
+            encoder_prompt,
+            mm_data,
+            hf_processor_mm_kwargs,
+            return_mm_hashes,
+        )
+
+        return self._get_enc_dec_inputs(
+            prompt=prompt,
+            mm_data=mm_data,
+            encoder_inputs=encoder_inputs,
+        )
-- 
GitLab


From 86d9fc29cb39bbb09b5ac3202293eb6198666f18 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Micha=C5=82=20Moskal?= <michal@moskal.me>
Date: Mon, 28 Apr 2025 19:21:32 -0700
Subject: [PATCH 005/461] implement Structural Tag with Guidance backend
 (#17333)

Signed-off-by: Michal Moskal <michal@moskal.me>
---
 .../llm/test_struct_output_generate.py        | 11 +++----
 vllm/v1/structured_output/backend_guidance.py | 31 +++++++++++++++++--
 2 files changed, 32 insertions(+), 10 deletions(-)

diff --git a/tests/v1/entrypoints/llm/test_struct_output_generate.py b/tests/v1/entrypoints/llm/test_struct_output_generate.py
index 19960c13c..3de4fec9c 100644
--- a/tests/v1/entrypoints/llm/test_struct_output_generate.py
+++ b/tests/v1/entrypoints/llm/test_struct_output_generate.py
@@ -435,13 +435,10 @@ Given the previous instructions, what is the weather in New York City?
 """
 
     # Change this once other backends support structural_tag
-    if guided_decoding_backend.startswith("xgrammar"):
-        outputs = llm.generate(prompts=prompt,
-                               sampling_params=sampling_params,
-                               use_tqdm=True)
-        assert outputs is not None
-    else:
-        outputs = []
+    outputs = llm.generate(prompts=prompt,
+                           sampling_params=sampling_params,
+                           use_tqdm=True)
+    assert outputs is not None
 
     for output in outputs:
         assert output is not None
diff --git a/vllm/v1/structured_output/backend_guidance.py b/vllm/v1/structured_output/backend_guidance.py
index 1453e284b..d4dc5e681 100644
--- a/vllm/v1/structured_output/backend_guidance.py
+++ b/vllm/v1/structured_output/backend_guidance.py
@@ -173,7 +173,8 @@ def serialize_guidance_grammar(
     disable_any_whitespace: bool = False,
     no_additional_properties: bool = False,
 ) -> str:
-    if request_type == StructuredOutputOptions.JSON:
+
+    def _process_schema(grammar_spec: Union[str, dict[str, Any]], ) -> str:
         if no_additional_properties:
             grammar_spec = process_for_additional_properties(grammar_spec)
         return llguidance.LLMatcher.grammar_from_json_schema(
@@ -181,6 +182,9 @@ def serialize_guidance_grammar(
             defaults={
                 "whitespace_flexible": not disable_any_whitespace,
             })
+
+    if request_type == StructuredOutputOptions.JSON:
+        return _process_schema(grammar_spec)
     elif request_type == StructuredOutputOptions.JSON_OBJECT:
         return llguidance.LLMatcher.grammar_from_json_schema(
             '{"type": "object"}',
@@ -195,8 +199,29 @@ def serialize_guidance_grammar(
         elif request_type == StructuredOutputOptions.CHOICE:
             tp = "choice"
         elif request_type == StructuredOutputOptions.STRUCTURAL_TAG:
-            raise ValueError("Structural tag is not supported "
-                             "for guidance backend yet")
+            if isinstance(grammar_spec, str):
+                s_tag = json.loads(grammar_spec)
+            else:
+                s_tag = grammar_spec
+            triggers: list[str] = s_tag["triggers"]
+            tags: list[llguidance.StructTag] = []
+            for s in s_tag["structures"]:
+                begin: str = s["begin"]
+                trig = next((t for t in triggers if begin.startswith(t)), None)
+                if trig is None:
+                    raise ValueError(
+                        f"Trigger {begin} not found in triggers {triggers}")
+                tags.append(
+                    llguidance.StructTag(
+                        trigger=trig,
+                        begin=s["begin"],
+                        grammar=_process_schema(s["schema"]),
+                        end=s["end"],
+                    ))
+            if not tags:
+                raise ValueError(
+                    "No structural tags found in the grammar spec.")
+            return llguidance.StructTag.to_grammar(tags)
         else:
             logger.error("Validation should have already occurred. "
                          "Please file an issue.")
-- 
GitLab


From e1360005956d4887d101bbd675b7b0574a0afc45 Mon Sep 17 00:00:00 2001
From: Ekagra Ranjan <3116519+ekagra-ranjan@users.noreply.github.com>
Date: Mon, 28 Apr 2025 22:22:02 -0400
Subject: [PATCH 006/461] [V1][Spec Decode] Make Eagle model arch config driven
 (#17323)

---
 vllm/config.py                           |  3 ++-
 vllm/transformers_utils/configs/eagle.py | 19 ++++++++++++++++++-
 vllm/v1/spec_decode/eagle.py             | 17 ++++++-----------
 3 files changed, 26 insertions(+), 13 deletions(-)

diff --git a/vllm/config.py b/vllm/config.py
index e64510355..3ed1674b5 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -2401,7 +2401,8 @@ class SpeculativeConfig:
                         pass
                     else:
                         eagle_config = EAGLEConfig(
-                            self.draft_model_config.hf_config)
+                            self.draft_model_config.hf_config,
+                            method=self.method)
                         self.draft_model_config.hf_config = eagle_config
 
                 if (self.num_speculative_tokens is not None
diff --git a/vllm/transformers_utils/configs/eagle.py b/vllm/transformers_utils/configs/eagle.py
index 3a9ad3e0f..586d5c7f5 100644
--- a/vllm/transformers_utils/configs/eagle.py
+++ b/vllm/transformers_utils/configs/eagle.py
@@ -15,6 +15,7 @@ class EAGLEConfig(PretrainedConfig):
     def __init__(self,
                  model: Union[PretrainedConfig, dict, None] = None,
                  truncated_vocab_size: Optional[int] = None,
+                 method: Optional[str] = 'eagle',
                  **kwargs):
 
         model_config: Union[PretrainedConfig, DeepseekV2Config, None]
@@ -45,7 +46,23 @@ class EAGLEConfig(PretrainedConfig):
         if not envs.VLLM_USE_V1:
             kwargs["architectures"] = ["EAGLEModel"]
         else:
-            kwargs["architectures"] = ["EagleLlamaForCausalLM"]
+            # Eagle model name should follow naming convention of
+            # LlamaForCausalLM -> EagleLlamaForCausalLM
+            if method == "eagle":
+                assert self.model is not None, \
+                    "model should not be None when method is eagle"
+                kwargs["architectures"] = [
+                    f"Eagle{arch}" for arch in self.model.architectures
+                ]
+            elif method == "eagle3":
+                assert self.model is not None, \
+                    "model should not be None when method is eagle3"
+                kwargs["architectures"] = [
+                    f"Eagle3{arch}" for arch in self.model.architectures
+                ]
+            else:
+                raise ValueError(f"Invalid method {method}. \
+                    Supported methods are eagle and eagle3.")
 
         super().__init__(**kwargs)
 
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index 1de14584d..8c45ca9a3 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -9,8 +9,7 @@ from vllm.forward_context import set_forward_context
 from vllm.logger import init_logger
 from vllm.model_executor.model_loader.loader import get_model_loader
 from vllm.model_executor.model_loader.utils import set_default_torch_dtype
-from vllm.model_executor.models.llama_eagle import EagleLlamaForCausalLM
-from vllm.model_executor.models.llama_eagle3 import Eagle3LlamaForCausalLM
+from vllm.model_executor.models import ModelRegistry
 from vllm.v1.attention.backends.flash_attn import FlashAttentionMetadata
 from vllm.v1.sample.metadata import SamplingMetadata
 
@@ -225,15 +224,11 @@ class EagleProposer:
         with set_default_torch_dtype(
                 draft_model_config.dtype), set_current_vllm_config(
                     self.vllm_config):
-            if self.vllm_config.speculative_config.method == "eagle":
-                self.model = EagleLlamaForCausalLM(
-                    model_config=draft_model_config,
-                    start_layer_id=target_layer_num).to(target_device)
-            else:
-                assert self.vllm_config.speculative_config.method == "eagle3"
-                self.model = Eagle3LlamaForCausalLM(
-                    model_config=draft_model_config,
-                    start_layer_id=target_layer_num).to(target_device)
+            draft_model_cls, arch = ModelRegistry.resolve_model_cls(
+                draft_model_config.architectures)
+            self.model = draft_model_cls(
+                model_config=draft_model_config,
+                start_layer_id=target_layer_num).to(target_device)
 
         loaded_weights = self.model.load_weights(
             loader.get_all_weights(
-- 
GitLab


From b4ac4fa04da14c4f40688fb98211367981a1f4d7 Mon Sep 17 00:00:00 2001
From: Lucia Fang <116399278+luccafong@users.noreply.github.com>
Date: Mon, 28 Apr 2025 19:22:22 -0700
Subject: [PATCH 007/461] [model] make llama4 compatible with pure dense layers
 (#17315)

Signed-off-by: Lucia Fang <fanglu@fb.com>
---
 vllm/model_executor/models/llama4.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/models/llama4.py b/vllm/model_executor/models/llama4.py
index e5d1a671f..0fdc30f36 100644
--- a/vllm/model_executor/models/llama4.py
+++ b/vllm/model_executor/models/llama4.py
@@ -273,8 +273,8 @@ class Llama4DecoderLayer(nn.Module):
             cache_config=cache_config,
             prefix=f"{prefix}.self_attn",
         )
-        is_moe_layer = (self.layer_idx +
-                        1) % config.interleave_moe_layer_step == 0
+        is_moe_layer = config.interleave_moe_layer_step > 0 and (
+            self.layer_idx + 1) % config.interleave_moe_layer_step == 0
         if is_moe_layer:
             self.feed_forward = Llama4MoE(
                 config=config,
-- 
GitLab


From d6da8a8ff22e555ce516ca8ce4d005b1bd1d9fe2 Mon Sep 17 00:00:00 2001
From: Richard Barnes <rbarnes@meta.com>
Date: Mon, 28 Apr 2025 19:23:18 -0700
Subject: [PATCH 008/461] [Bugfix] Fix `numel()` downcast in
 fused_layernorm_dynamic_per_token_quant.cu (#17316)

---
 .../fused_kernels/fused_layernorm_dynamic_per_token_quant.cu    | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/quantization/fused_kernels/fused_layernorm_dynamic_per_token_quant.cu b/csrc/quantization/fused_kernels/fused_layernorm_dynamic_per_token_quant.cu
index 2b6ab7fce..95aa92e25 100644
--- a/csrc/quantization/fused_kernels/fused_layernorm_dynamic_per_token_quant.cu
+++ b/csrc/quantization/fused_kernels/fused_layernorm_dynamic_per_token_quant.cu
@@ -96,7 +96,7 @@ void rms_norm_dynamic_per_token_quant_dispatch(
     std::optional<at::Tensor> const& scale_ub,
     std::optional<at::Tensor>& residual) {
   int32_t hidden_size = input.size(-1);
-  int32_t num_tokens = input.numel() / hidden_size;
+  auto num_tokens = input.numel() / hidden_size;
 
   dim3 grid(num_tokens);
   dim3 block(std::min(hidden_size, 1024));
-- 
GitLab


From 165cb56329e6cdbf58741b420c349793ec2390b3 Mon Sep 17 00:00:00 2001
From: Richard Zou <zou3519@users.noreply.github.com>
Date: Mon, 28 Apr 2025 22:23:29 -0400
Subject: [PATCH 009/461] Ignore `'<string>'` filepath (#17330)

Signed-off-by: rzou <zou3519@gmail.com>
---
 vllm/compilation/backends.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/vllm/compilation/backends.py b/vllm/compilation/backends.py
index a1d12b517..7012131d0 100644
--- a/vllm/compilation/backends.py
+++ b/vllm/compilation/backends.py
@@ -382,6 +382,10 @@ class VllmBackend:
             hash_content = []
             for filepath in forward_code_files:
                 hash_content.append(filepath)
+                if filepath == "<string>":
+                    # This means the function was dynamically generated, with
+                    # e.g. exec(). We can't actually check these.
+                    continue
                 with open(filepath) as f:
                     hash_content.append(f.read())
             import hashlib
-- 
GitLab


From 17eb306fcc7018f01e37d6bb548c7cdfc65602a6 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Zhengyuan=20Su=20=28=E8=8B=8F=E6=94=BF=E6=B8=8A=29?=
 <su-zy21@mails.tsinghua.edu.cn>
Date: Tue, 29 Apr 2025 10:24:07 +0800
Subject: [PATCH 010/461] [Bugfix] Add contiguous call inside rope kernel
 wrapper (#17091)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: 苏政渊 <suzhengyuan@moonshot.cn>
Co-authored-by: 苏政渊 <suzhengyuan@moonshot.cn>
---
 vllm/_custom_ops.py                      | 17 ++++++++++++++---
 vllm/v1/attention/backends/mla/common.py |  7 +++----
 2 files changed, 17 insertions(+), 7 deletions(-)

diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index 4c577c1c4..7bb01507a 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -158,8 +158,13 @@ def rotary_embedding(
     cos_sin_cache: torch.Tensor,
     is_neox: bool,
 ) -> None:
-    torch.ops._C.rotary_embedding(positions, query, key, head_size,
-                                  cos_sin_cache, is_neox)
+    # TODO: Remove this contiguous call when the kernel is updated to support tensor slices
+    query_contiguous = query.contiguous()
+    key_contiguous = key.contiguous()
+    torch.ops._C.rotary_embedding(positions, query_contiguous, key_contiguous,
+                                  head_size, cos_sin_cache, is_neox)
+    query.copy_(query_contiguous)
+    key.copy_(key_contiguous)
 
 
 def batched_rotary_embedding(positions: torch.Tensor, query: torch.Tensor,
@@ -167,9 +172,15 @@ def batched_rotary_embedding(positions: torch.Tensor, query: torch.Tensor,
                              cos_sin_cache: torch.Tensor, is_neox: bool,
                              rot_dim: int,
                              cos_sin_cache_offsets: torch.Tensor) -> None:
-    torch.ops._C.batched_rotary_embedding(positions, query, key, head_size,
+    # TODO: Remove this contiguous call when the kernel is updated to support tensor slices
+    query_contiguous = query.contiguous()
+    key_contiguous = key.contiguous()
+    torch.ops._C.batched_rotary_embedding(positions, query_contiguous,
+                                          key_contiguous, head_size,
                                           cos_sin_cache, is_neox, rot_dim,
                                           cos_sin_cache_offsets)
+    query.copy_(query_contiguous)
+    key.copy_(key_contiguous)
 
 
 # layer norm ops
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index e6e483bae..b032006d1 100644
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -938,8 +938,7 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
             decode_ql_nope, decode_q_pe = \
                 self._q_proj_and_k_up_proj(decode_hs_or_q_c)
             decode_q_pe[...], decode_k_pe[...] = self.rotary_emb(
-                attn_metadata.decode.input_positions, decode_q_pe.contiguous(),
-                decode_k_pe)
+                attn_metadata.decode.input_positions, decode_q_pe, decode_k_pe)
 
         if has_prefill:
             assert attn_metadata.prefill is not None
@@ -948,8 +947,8 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
             prefill_q_pe = prefill_q[..., self.qk_nope_head_dim:]
 
             prefill_q_pe[...], prefill_k_pe[...] = self.rotary_emb(
-                attn_metadata.prefill.input_positions,
-                prefill_q_pe.contiguous(), prefill_k_pe)
+                attn_metadata.prefill.input_positions, prefill_q_pe,
+                prefill_k_pe)
 
         # write the latent and rope to kv cache
         if kv_cache.numel() > 0:
-- 
GitLab


From 96e06e3cb73f933bf26ff74599fd96d38c50805c Mon Sep 17 00:00:00 2001
From: Chauncey <chaunceyjiang@gmail.com>
Date: Tue, 29 Apr 2025 10:53:44 +0800
Subject: [PATCH 011/461] [Misc] Add a Jinja template to support Mistral3
 function calling (#17195)

Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>
---
 examples/tool_chat_template_mistral3.jinja | 119 +++++++++++++++++++++
 1 file changed, 119 insertions(+)
 create mode 100644 examples/tool_chat_template_mistral3.jinja

diff --git a/examples/tool_chat_template_mistral3.jinja b/examples/tool_chat_template_mistral3.jinja
new file mode 100644
index 000000000..2b2f94d7e
--- /dev/null
+++ b/examples/tool_chat_template_mistral3.jinja
@@ -0,0 +1,119 @@
+{%- set today = strftime_now("%Y-%m-%d") %}
+{%- set default_system_message = "You are Mistral Small 3, a Large Language Model (LLM) created by Mistral AI, a French startup headquartered in Paris.\nYour knowledge base was last updated on 2023-10-01. The current date is " + today + ".\n\nWhen you're not sure about some information, you say that you don't have the information and don't make up anything.\nIf the user's question is not clear, ambiguous, or does not provide enough context for you to accurately answer the question, you do not try to answer it right away and you rather ask the user to clarify their request (e.g. \"What are some good restaurants around me?\" => \"Where are you?\" or \"When is the next flight to Tokyo\" => \"Where do you travel from?\")" %}
+
+{{- bos_token }}
+
+{%- if messages[0]['role'] == 'system' %}
+    {%- if messages[0]['content'] is string %}
+        {%- set system_message = messages[0]['content'] %}
+        {%- set loop_messages = messages[1:] %}
+    {%- else %}
+        {%- set system_message = messages[0]['content'][0]['text'] %}
+        {%- set loop_messages = messages[1:] %}
+    {%- endif %}
+{%- else %}
+    {%- set system_message = default_system_message %}
+    {%- set loop_messages = messages %}
+{%- endif %}
+{%- if not tools is defined %}
+    {%- set tools = none %}
+{%- elif tools is not none %}
+    {%- set parallel_tool_prompt = "You are a helpful assistant that can call tools. If you call one or more tools, format them in a single JSON array or objects, where each object is a tool call, not as separate objects outside of an array or multiple arrays. Use the format [{\"name\": tool call name, \"arguments\": tool call arguments}, additional tool calls] if you call more than one tool. If you call tools, do not attempt to interpret them or otherwise provide a response until you receive a tool call result that you can interpret for the user." %}
+    {%- if system_message is defined %}
+        {%- set system_message = parallel_tool_prompt + "\n\n" + system_message %}
+    {%- else %}
+        {%- set system_message = parallel_tool_prompt %}
+    {%- endif %}
+{%- endif %}
+{{- '[SYSTEM_PROMPT]' + system_message + '[/SYSTEM_PROMPT]' }}
+
+{%- set user_messages = loop_messages | selectattr("role", "equalto", "user") | list %}
+
+{%- for message in loop_messages | rejectattr("role", "equalto", "tool") | rejectattr("role", "equalto", "tool_results") | selectattr("tool_calls", "undefined") %}
+    {%- if (message["role"] == "user") != (loop.index0 % 2 == 0) %}
+        {{- raise_exception("After the optional system message, conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif %}
+{%- endfor %}
+
+{%- for message in loop_messages %}
+    {%- if message["role"] == "user" %}
+        {%- if tools is not none and (message == user_messages[-1]) %}
+            {{- "[AVAILABLE_TOOLS] [" }}
+            {%- for tool in tools %}
+                {%- set tool = tool.function %}
+                {{- '{"type": "function", "function": {' }}
+                {%- for key, val in tool.items() if key != "return" %}
+                    {%- if val is string %}
+                        {{- '"' + key + '": "' + val + '"' }}
+                    {%- else %}
+                        {{- '"' + key + '": ' + val|tojson }}
+                    {%- endif %}
+                    {%- if not loop.last %}
+                        {{- ", " }}
+                    {%- endif %}
+                {%- endfor %}
+                {{- "}}" }}
+                {%- if not loop.last %}
+                    {{- ", " }}
+                {%- else %}
+                    {{- "]" }}
+                {%- endif %}
+            {%- endfor %}
+            {{- "[/AVAILABLE_TOOLS]" }}
+        {%- endif %}
+        {%- if message['content'] is string %}
+        {{- '[INST]' + message['content'] + '[/INST]' }}
+        {%- else %}
+                {{- '[INST]' }}
+                {%- for block in message['content'] %}
+                        {%- if block['type'] == 'text' %}
+                                {{- block['text'] }}
+                        {%- elif block['type'] == 'image' or block['type'] == 'image_url' %}
+                                {{- '[IMG]' }}
+                            {%- else %}
+                                {{- raise_exception('Only text and image blocks are supported in message content!') }}
+                            {%- endif %}
+                    {%- endfor %}
+                {{- '[/INST]' }}
+            {%- endif %}
+    {%- elif message["role"] == "tool_calls" or message.tool_calls is defined %}
+        {%- if message.tool_calls is defined %}
+            {%- set tool_calls = message.tool_calls %}
+        {%- else %}
+            {%- set tool_calls = message.content %}
+        {%- endif %}
+        {{- "[TOOL_CALLS] [" }}
+        {%- for tool_call in tool_calls %}
+            {%- set out = tool_call.function|tojson %}
+            {{- out[:-1] }}
+            {%- if not tool_call.id is defined or tool_call.id|length < 9 %}
+                {{- raise_exception("Tool call IDs should be alphanumeric strings with length >= 9! (1)" + tool_call.id) }}
+            {%- endif %}
+            {{- ', "id": "' + tool_call.id[-9:] + '"}' }}
+            {%- if not loop.last %}
+                {{- ", " }}
+            {%- else %}
+                {{- "]" + eos_token }}
+            {%- endif %}
+        {%- endfor %}
+    {%- elif message['role'] == 'assistant' %}
+        {%- if message['content'] is string %}
+            {{- message['content'] + eos_token }}
+        {%- else %}
+            {{- message['content'][0]['text'] + eos_token }}
+        {%- endif %}
+    {%- elif message["role"] == "tool_results" or message["role"] == "tool" %}
+        {%- if message.content is defined and message.content.content is defined %}
+            {%- set content = message.content.content %}
+        {%- else %}
+            {%- set content = message.content %}
+        {%- endif %}
+        {{- '[TOOL_RESULTS] {"content": ' + content|string + ", " }}
+        {%- if not message.tool_call_id is defined or message.tool_call_id|length < 9 %}
+            {{- raise_exception("Tool call IDs should be alphanumeric strings with length >= 9! (2)" + message.tool_call_id) }}
+        {%- endif %}
+        {{- '"call_id": "' + message.tool_call_id[-9:] + '"}[/TOOL_RESULTS]' }}
+    {%- else %}
+        {{- raise_exception("Only user and assistant roles are supported, with the exception of an initial optional system message!") }}
+    {%- endif %}
+{%- endfor %}
\ No newline at end of file
-- 
GitLab


From cde384cd92c811c2237cf21681166fd41437c8a3 Mon Sep 17 00:00:00 2001
From: qscqesze <qingjun@minimaxi.com>
Date: Tue, 29 Apr 2025 12:05:50 +0800
Subject: [PATCH 012/461] [Model] support MiniMax-VL-01 model (#16328)

Signed-off-by: qingjun <qingjun@minimaxi.com>
---
 .../vision_language/test_models.py            |  13 +
 .../vision_language/vlm_utils/model_utils.py  |  19 +
 .../processing/test_minimax_vl_01.py          |  99 +++
 tests/models/registry.py                      |   2 +
 vllm/model_executor/models/minimax_text_01.py |  67 +-
 vllm/model_executor/models/minimax_vl_01.py   | 615 ++++++++++++++++++
 vllm/model_executor/models/registry.py        |   1 +
 vllm/transformers_utils/config.py             |  14 +-
 vllm/transformers_utils/configs/__init__.py   |   4 +
 .../configs/minimax_text_01.py                |  69 ++
 .../configs/minimax_vl_01.py                  |  70 ++
 11 files changed, 954 insertions(+), 19 deletions(-)
 create mode 100644 tests/models/multimodal/processing/test_minimax_vl_01.py
 create mode 100644 vllm/model_executor/models/minimax_vl_01.py
 create mode 100644 vllm/transformers_utils/configs/minimax_text_01.py
 create mode 100644 vllm/transformers_utils/configs/minimax_vl_01.py

diff --git a/tests/models/decoder_only/vision_language/test_models.py b/tests/models/decoder_only/vision_language/test_models.py
index 9985cb579..6073364c0 100644
--- a/tests/models/decoder_only/vision_language/test_models.py
+++ b/tests/models/decoder_only/vision_language/test_models.py
@@ -446,6 +446,19 @@ VLM_TEST_SETTINGS = {
         hf_output_post_proc=model_utils.minicpmv_trunc_hf_output,
         patch_hf_runner=model_utils.minicpmv_26_patch_hf_runner,
     ),
+    "minimax_vl_01": VLMTestInfo(
+        models=["MiniMaxAI/MiniMax-VL-01"],
+        prompt_formatter=lambda img_prompt: f"<beginning_of_sentence>user: {img_prompt} assistant:<end_of_sentence>", # noqa: E501
+        img_idx_to_prompt=lambda _: "<image>",
+        test_type=(VLMTestType.IMAGE, VLMTestType.MULTI_IMAGE),
+        max_model_len=8192,
+        max_num_seqs=4,
+        dtype="bfloat16",
+        hf_output_post_proc=model_utils.minimax_vl_01_hf_output,
+        patch_hf_runner=model_utils.minimax_vl_01_patch_hf_runner,
+        auto_cls=AutoModelForImageTextToText,
+        marks=[large_gpu_mark(min_gb=80)],
+    ),
     "molmo": VLMTestInfo(
         models=["allenai/Molmo-7B-D-0924"],
         test_type=(VLMTestType.IMAGE, VLMTestType.MULTI_IMAGE),
diff --git a/tests/models/decoder_only/vision_language/vlm_utils/model_utils.py b/tests/models/decoder_only/vision_language/vlm_utils/model_utils.py
index 493053327..1185d80b9 100644
--- a/tests/models/decoder_only/vision_language/vlm_utils/model_utils.py
+++ b/tests/models/decoder_only/vision_language/vlm_utils/model_utils.py
@@ -229,6 +229,14 @@ def minicpmv_trunc_hf_output(hf_output: RunnerOutput,
     return output_ids, output_str, out_logprobs
 
 
+def minimax_vl_01_hf_output(hf_output: RunnerOutput,
+                            model: str) -> RunnerOutput:
+    output_ids, output_str, out_logprobs = hf_output
+    if output_str.endswith("<end_of_sentence>"):
+        output_str = output_str.split("<end_of_sentence>")[0]
+    return output_ids, output_str, out_logprobs
+
+
 ####### Functions for converting image assets to embeddings
 def get_llava_embeddings(image_assets: _ImageAssets):
     return [asset.image_embeds for asset in image_assets]
@@ -627,6 +635,17 @@ def minicpmv_26_patch_hf_runner(hf_model: HfRunner) -> HfRunner:
     return hf_model
 
 
+def minimax_vl_01_patch_hf_runner(hf_model: HfRunner) -> HfRunner:
+    orig_generate = hf_model.model.generate
+
+    def _generate(self, *args, image_sizes=None, **kwargs):
+        return orig_generate(*args, decode_text=False, **kwargs)
+
+    hf_model.model.generate = types.MethodType(_generate, hf_model.model)
+
+    return hf_model
+
+
 def molmo_patch_hf_runner(hf_model: HfRunner) -> HfRunner:
     """Patches and returns an instance of the HfRunner to use for Molmo."""
     hf_processor = hf_model.processor
diff --git a/tests/models/multimodal/processing/test_minimax_vl_01.py b/tests/models/multimodal/processing/test_minimax_vl_01.py
new file mode 100644
index 000000000..d333c32dc
--- /dev/null
+++ b/tests/models/multimodal/processing/test_minimax_vl_01.py
@@ -0,0 +1,99 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import pytest
+from PIL import Image
+
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.parse import ImageSize
+from vllm.multimodal.processing import BaseMultiModalProcessor
+
+from ....conftest import _ImageAssets
+from ...utils import build_model_context
+
+
+@pytest.mark.parametrize("model_id", ["MiniMaxAI/MiniMax-VL-01"])
+# yapf: enable
+@pytest.mark.parametrize("num_imgs", [1, 2])
+def test_processor_override(
+    image_assets: _ImageAssets,
+    model_id: str,
+    num_imgs: int,
+):
+    ctx = build_model_context(
+        model_id,
+        mm_processor_kwargs=None,
+        limit_mm_per_prompt={"image": num_imgs},
+    )
+    processor = MULTIMODAL_REGISTRY.create_processor(ctx.model_config)
+    prompt = "<image>" * num_imgs
+    image = Image.new("RGB", size=(364, 364))
+    mm_data = {"image": [image] * num_imgs}
+
+    processed_inputs = processor.apply(prompt, mm_data, {})
+    image_placeholders = processed_inputs["mm_placeholders"]["image"]
+
+    assert len(image_placeholders) == num_imgs
+
+
+def _validate_image_prompt_replacements_one(
+    processor: BaseMultiModalProcessor,
+    num_imgs: int,
+    failed_size_excs: list[tuple[ImageSize, Exception]],
+    image_size: ImageSize,
+) -> None:
+    prompt = "<image>" * num_imgs
+    image = Image.new("RGB", size=image_size)
+    mm_data = {"image": [image] * num_imgs}
+
+    try:
+        processed_inputs = processor.apply(prompt, mm_data, {})
+
+        image_placeholders = processed_inputs["mm_placeholders"]["image"]
+        assert len(image_placeholders) == num_imgs
+
+    except Exception as exc:
+        failed_size_excs.append((image_size, exc))
+
+
+def _test_image_prompt_replacements(
+    processor,
+    *,
+    num_imgs: int,
+    image_sizes: list[ImageSize],
+) -> None:
+
+    failed_size_excs = list[tuple[ImageSize, Exception]]()
+
+    for size in image_sizes:
+        _validate_image_prompt_replacements_one(processor, num_imgs,
+                                                failed_size_excs, size)
+
+    if failed_size_excs:
+        msg = "Found failing image sizes:" \
+            + "\n========\n".join(f"[{size}]\n{exc}"
+                                  for size, exc in failed_size_excs)
+        raise AssertionError(msg)
+
+
+@pytest.mark.parametrize("model_id", ["MiniMaxAI/MiniMax-VL-01"])
+@pytest.mark.parametrize("num_imgs", [1, 2])
+def test_processor_prompt_replacements_regression(model_id, num_imgs):
+    ctx = build_model_context(
+        model_id,
+        mm_processor_kwargs=None,
+        limit_mm_per_prompt={"image": num_imgs},
+    )
+    processor = MULTIMODAL_REGISTRY.create_processor(ctx.model_config)
+
+    image_ratios = [(171, 152), (184, 161), (198, 176), (333, 296), (369, 328),
+                    (488, 183), (2560, 1669)]
+    image_sizes = [
+        size for w, h in image_ratios
+        for size in [ImageSize(w, h), ImageSize(h, w)]
+    ]
+
+    _test_image_prompt_replacements(
+        processor,
+        num_imgs=num_imgs,
+        image_sizes=image_sizes,
+    )
diff --git a/tests/models/registry.py b/tests/models/registry.py
index a08924639..a3c5bc865 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -337,6 +337,8 @@ _MULTIMODAL_EXAMPLE_MODELS = {
     "MiniCPMV": _HfExamplesInfo("openbmb/MiniCPM-Llama3-V-2_5",
                                 extras={"2.6": "openbmb/MiniCPM-V-2_6"},  # noqa: E501
                                 trust_remote_code=True),
+    "MiniMaxVL01ForConditionalGeneration": _HfExamplesInfo("MiniMaxAI/MiniMax-VL-01", # noqa: E501
+                                              trust_remote_code=True),
     "Mistral3ForConditionalGeneration": _HfExamplesInfo("mistralai/Mistral-Small-3.1-24B-Instruct-2503",  # noqa: E501
                                                         extras={"fp8": "nm-testing/Mistral-Small-3.1-24B-Instruct-2503-FP8-dynamic"}),  # noqa: E501
     "MolmoForCausalLM": _HfExamplesInfo("allenai/Molmo-7B-D-0924",
diff --git a/vllm/model_executor/models/minimax_text_01.py b/vllm/model_executor/models/minimax_text_01.py
index 74be08159..951f4e230 100644
--- a/vllm/model_executor/models/minimax_text_01.py
+++ b/vllm/model_executor/models/minimax_text_01.py
@@ -3,7 +3,7 @@
 import copy
 import math
 import re
-from typing import Dict, Iterable, List, Optional, Tuple, Union
+from typing import Dict, Iterable, List, Optional, Set, Tuple, Union
 
 import torch
 import torch.distributed
@@ -110,7 +110,17 @@ class MiniMaxText01RMSNormTP(CustomOp):
             variance = tensor_model_parallel_all_reduce(
                 variance) / self.tp_world
         x = x * torch.rsqrt(variance + self.variance_epsilon)
-        x = x.to(orig_dtype) * self.weight
+
+        weight = self.weight
+        if x.size(-1) != self.weight.size(0):
+            if self.weight.size(0) < x.size(-1):
+                repeat_count = (x.size(-1) + self.weight.size(0)) // x.size(-1)
+                full_weight = self.weight.repeat(repeat_count)
+                weight = full_weight[:x.size(-1)]
+            else:
+                weight = self.weight[:x.size(-1)]
+
+        x = x.to(orig_dtype) * weight
         return x
 
     def forward(
@@ -421,6 +431,10 @@ class MiniMaxText01LinearAttention(nn.Module):
                                attn_metadata):
         hidden = []
         for _prefill_idx in range(getattr(attn_metadata, "num_prefills", 0)):
+            if _prefill_idx >= len(attn_metadata.query_start_loc):
+                break
+            if _prefill_idx >= len(state_indices_tensor):
+                break
             _start = attn_metadata.query_start_loc[_prefill_idx]
             _end = attn_metadata.query_start_loc[_prefill_idx + 1]
             slot_id = state_indices_tensor[_prefill_idx]
@@ -443,6 +457,10 @@ class MiniMaxText01LinearAttention(nn.Module):
             hidden.append(
                 self._decode_infer(q, k, v, kv_cache, state_indices_tensor,
                                    attn_metadata))
+
+        if not hidden:
+            return torch.empty((0, q.size(-1)), device=q.device, dtype=q.dtype)
+
         hidden = torch.concat(hidden, dim=0).contiguous()
         return hidden
 
@@ -663,6 +681,9 @@ class MiniMaxText01DecoderLayer(nn.Module):
         self.shared_moe = False
 
         shared_intermediate = getattr(config, 'shared_intermediate_size', 0)
+        if isinstance(shared_intermediate, list):
+            shared_intermediate = shared_intermediate[
+                layer_id] if layer_id < len(shared_intermediate) else 0
         if shared_intermediate > 0:
             self.shared_moe = True
             self.shared_mlp = MiniMaxText01MLP(
@@ -875,6 +896,8 @@ class MiniMaxText01Model(nn.Module):
 
         slots_to_clear = []
         for _prefill_id in range(getattr(attn_metadata, "num_prefills", 0)):
+            if _prefill_id >= len(seq_id_map):
+                break
             seq_id = seq_id_map[_prefill_id]
             if attn_metadata.context_lens_tensor[
                     _prefill_id] == 0 and seq_id in seq_to_slot_maps:
@@ -886,13 +909,18 @@ class MiniMaxText01Model(nn.Module):
                                         dtype=torch.long)
             minimax_cache_tensors[:, slots_tensor, ...] = 0
 
+    def get_input_embeddings(
+        self,
+        input_ids: torch.Tensor,
+    ) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
     def forward(self,
                 input_ids: Optional[torch.Tensor],
                 positions: torch.Tensor,
-                kv_caches: List[torch.Tensor],
-                intermediate_tensors=None,
+                intermediate_tensors: Optional[IntermediateTensors] = None,
                 inputs_embeds: Optional[torch.Tensor] = None,
-                **kwargs) -> torch.Tensor:
+                **kwargs) -> Union[torch.Tensor, IntermediateTensors]:
         forward_context = get_forward_context()
         attn_metadata = forward_context.attn_metadata
         if attn_metadata is None:
@@ -901,6 +929,7 @@ class MiniMaxText01Model(nn.Module):
             kwargs["request_ids_to_seq_ids"] = {}
         if "finished_requests_ids" not in kwargs:
             kwargs["finished_requests_ids"] = []
+
         (
             minimax_cache_tensors,
             state_indices_tensor,
@@ -922,15 +951,11 @@ class MiniMaxText01Model(nn.Module):
             hidden_states = intermediate_tensors["hidden_states"]
             residual = intermediate_tensors["residual"]
 
-        kv_cache_index = 0
         minimax_cache_index = 0
         attn_metadata.rotary_emb = self.rotary_emb
         for i in range(self.start_layer, self.end_layer):
             layer = self.layers[i]
             _caches = None
-            if isinstance(layer.self_attn, MiniMaxText01Attention):
-                _caches = kv_caches[kv_cache_index]
-                kv_cache_index += 1
             if isinstance(layer.self_attn, MiniMaxText01LinearAttention):
                 current_state_layer = minimax_cache_index
                 _caches = minimax_cache_params.at_layer_idx(
@@ -1009,15 +1034,20 @@ class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid,
         return self.model.minimax_cache.get_seqlen_agnostic_capture_inputs(
             batch_size)
 
+    def get_input_embeddings(
+        self,
+        input_ids: torch.Tensor,
+    ) -> torch.Tensor:
+        return self.model.get_input_embeddings(input_ids)
+
     def forward(self,
                 input_ids: torch.Tensor,
                 positions: torch.Tensor,
                 intermediate_tensors: Optional[IntermediateTensors] = None,
                 inputs_embeds: Optional[torch.Tensor] = None,
                 **kwargs) -> torch.Tensor:
-        hidden_states = self.model(input_ids, positions, self.kv_cache,
-                                   intermediate_tensors, inputs_embeds,
-                                   **kwargs)
+        hidden_states = self.model(input_ids, positions, intermediate_tensors,
+                                   inputs_embeds, **kwargs)
 
         return hidden_states
 
@@ -1043,8 +1073,9 @@ class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid,
         })
 
     def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> None:
+                                                   torch.Tensor]]) -> Set[str]:
         params_dict = dict(self.named_parameters())
+        loaded_params: Set[str] = set()
 
         def which_layer(name: str) -> int:
             if "layers" in name:
@@ -1108,6 +1139,7 @@ class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid,
                               weight_name,
                               expert_id=expert_id,
                               shard_id=shard_id)
+                loaded_params.add(name)
                 break
             else:
                 if is_pp_missing_parameter(name, self):
@@ -1117,6 +1149,7 @@ class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid,
                                         default_weight_loader)
                 weight_loader = weight_loader_with_alias(name)(weight_loader)
                 weight_loader(param, loaded_weight)
+                loaded_params.add(name)
             return
 
         def is_shared_mlp_weight(name: str) -> bool:
@@ -1154,6 +1187,7 @@ class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid,
                 else:
                     raise AssertionError(
                         "MLP weight not in [gate_up_proj, down_proj]")
+            loaded_params.add(name)
             return
 
         def is_mha_weight(name: str) -> bool:
@@ -1170,6 +1204,7 @@ class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid,
                 MiniMaxText01LinearAttention.weight_direct_load)
             weight_loader = weight_loader_with_alias(name)(weight_loader)
             weight_loader(param, loaded_weight)
+            loaded_params.add(name)
             return
 
         def load_flash_attn_weight(name: str, loaded_weight: torch.Tensor,
@@ -1194,6 +1229,7 @@ class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid,
                                         default_weight_loader)
                 weight_loader = weight_loader_with_alias(name)(weight_loader)
                 weight_loader(param, loaded_weight, shard_id)
+                loaded_params.add(name)
                 break
             else:
                 if is_pp_missing_parameter(name, self):
@@ -1204,6 +1240,7 @@ class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid,
                                         default_weight_loader)
                 weight_loader = weight_loader_with_alias(name)(weight_loader)
                 weight_loader(param, loaded_weight)
+                loaded_params.add(name)
             return
 
         def is_layer_norm_weight(name: str) -> bool:
@@ -1219,6 +1256,7 @@ class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid,
                                     default_weight_loader)
             weight_loader = weight_loader_with_alias(name)(weight_loader)
             weight_loader(param, loaded_weight)
+            loaded_params.add(name)
             return
 
         def load_basic_weight(name: str, loaded_weight: torch.Tensor,
@@ -1230,6 +1268,7 @@ class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid,
                                     default_weight_loader)
             weight_loader = weight_loader_with_alias(name)(weight_loader)
             weight_loader(param, loaded_weight)
+            loaded_params.add(name)
             return
 
         for name, loaded_weight in weights:
@@ -1258,4 +1297,4 @@ class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid,
                 continue
 
             load_basic_weight(name, loaded_weight, self)
-        return
+        return loaded_params
diff --git a/vllm/model_executor/models/minimax_vl_01.py b/vllm/model_executor/models/minimax_vl_01.py
new file mode 100644
index 000000000..14e105586
--- /dev/null
+++ b/vllm/model_executor/models/minimax_vl_01.py
@@ -0,0 +1,615 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from abc import abstractmethod
+from collections.abc import Iterable, Mapping, Sequence
+from dataclasses import dataclass
+from typing import (Final, Literal, Optional, Protocol, Set, Tuple, TypedDict,
+                    TypeVar, Union, cast)
+
+import numpy as np
+import torch
+import torch.nn as nn
+from transformers import BatchFeature, CLIPVisionConfig, PretrainedConfig
+from transformers.image_processing_utils import select_best_resolution
+
+from vllm.config import VllmConfig
+from vllm.jsontree import json_map_leaves
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (ColumnParallelLinear,
+                                               RowParallelLinear)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.sampling_metadata import SamplingMetadata
+from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalDataDict
+from vllm.multimodal.inputs import MultiModalFieldConfig, MultiModalKwargs
+from vllm.multimodal.parse import (ImageEmbeddingItems, ImageProcessorItems,
+                                   ImageSize, MultiModalDataItems)
+from vllm.multimodal.processing import (BaseMultiModalProcessor,
+                                        BaseProcessingInfo, PromptReplacement,
+                                        PromptUpdate)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs.minimax_vl_01 import MiniMaxVL01Config
+
+from .clip import CLIPVisionModel
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .pixtral import PixtralHFVisionModel
+from .siglip import SiglipVisionModel
+from .utils import (AutoWeightsLoader, flatten_bn, init_vllm_registered_model,
+                    maybe_prefix, merge_multimodal_embeddings)
+from .vision import get_vision_encoder_info
+
+logger = init_logger(__name__)
+
+
+# For dummy input only
+@dataclass
+class MaxImageTokenMeta:
+    width: int = 1024
+    height: int = 1024
+
+
+class MiniMaxVL01ImagePixelInputs(TypedDict):
+    type: Literal["pixel_values"]
+    pixel_values: torch.Tensor
+    """
+    Shape: `(batch_size * num_images, num_channels, height, width)`
+
+    Note that `height` or `width` may be different per batch and image,
+    in which case the data is passed as a list instead of a batched tensor.
+    """
+
+
+class MiniMaxVL01ImageEmbeddingInputs(TypedDict):
+    type: Literal["image_embeds"]
+    data: torch.Tensor
+    """Shape: `(batch_size * num_images, image_feature_size, hidden_size)`
+
+    `hidden_size` must match the hidden size of language model backbone.
+    """
+
+
+def image_size_to_num_patches(image_size, grid_pinpoints, patch_size: int):
+    if not isinstance(grid_pinpoints, list):
+        raise TypeError("grid_pinpoints should be a list of tuples or lists")
+
+    # ! VERY IMPORTANT if image_size is tensor, must convert to into tuple,
+    # otherwise it will cause wrong calculate
+    if not isinstance(image_size, (list, tuple)):
+        if not isinstance(image_size, (torch.Tensor, np.ndarray)):
+            raise TypeError("image_size invalid type " +
+                            f"{type(image_size)} with value {image_size}")
+        image_size = image_size.tolist()
+
+    best_resolution = select_best_resolution(image_size, grid_pinpoints)
+    height, width = best_resolution
+    num_patches = 0
+    # consider change to ceil(height/patch_size)*ceil(width/patch_size) + 1
+    for i in range(0, height, patch_size):
+        for j in range(0, width, patch_size):
+            num_patches += 1
+    # add the base patch
+    num_patches += 1
+    return num_patches
+
+
+def get_anyres_image_grid_shape(image_size, grid_pinpoints, patch_size):
+    if not isinstance(grid_pinpoints, list):
+        raise TypeError("grid_pinpoints should be a list of tuples or lists")
+
+    # ! VERY IMPORTANT if image_size is tensor,
+    # must convert to into tuple,
+    # otherwise it will cause wrong calculate
+    if not isinstance(image_size, (list, tuple)):
+        if not isinstance(image_size, (torch.Tensor, np.ndarray)):
+            raise TypeError(
+                "image_size invalid type " +
+                f"{type(image_size)} not valid, " +
+                "should be either list, tuple, np.ndarray or tensor")
+        image_size = image_size.tolist()
+
+    height, width = select_best_resolution(image_size, grid_pinpoints)
+    return height // patch_size, width // patch_size
+
+
+def unpad_image(tensor, original_size):
+    original_height, original_width = original_size
+    current_height, current_width = tensor.shape[1:]
+
+    original_aspect_ratio = original_width / original_height
+    current_aspect_ratio = current_width / current_height
+
+    if original_aspect_ratio > current_aspect_ratio:
+        new_height = int(original_height * current_width) // original_width
+        padding = (current_height - new_height) // 2
+        unpadded_tensor = tensor[:, padding:current_height - padding, :]
+    else:
+        new_width = int(original_width * current_height) // original_height
+        padding = (current_width - new_width) // 2
+        unpadded_tensor = tensor[:, :, padding:current_width - padding]
+
+    return unpadded_tensor
+
+
+class MiniMaxVL01MultiModalProjector(nn.Module):
+
+    def __init__(self,
+                 vision_hidden_size: int,
+                 text_hidden_size: int,
+                 projector_hidden_act: str,
+                 multimodal_projector_bias: bool,
+                 quant_config: Optional[QuantizationConfig] = None,
+                 prefix: str = ""):
+        super().__init__()
+
+        self.linear_1 = ColumnParallelLinear(vision_hidden_size,
+                                             text_hidden_size,
+                                             bias=multimodal_projector_bias,
+                                             quant_config=quant_config,
+                                             prefix=f"{prefix}.linear_1")
+        self.act = get_act_fn(projector_hidden_act)
+        self.linear_2 = RowParallelLinear(text_hidden_size,
+                                          text_hidden_size,
+                                          bias=multimodal_projector_bias,
+                                          quant_config=quant_config,
+                                          prefix=f"{prefix}.linear_2")
+
+    def forward(self, image_features: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.linear_1(image_features)
+        hidden_states = self.act(hidden_states)
+        hidden_states, _ = self.linear_2(hidden_states)
+        return hidden_states
+
+
+class MiniMaxVL01LikeConfig(Protocol):
+    vision_config: Final[PretrainedConfig]
+    image_token_index: Final[int]
+    vision_feature_select_strategy: Final[str]
+    vision_feature_layer: Final[Union[int, list[int]]]
+
+
+class MiniMaxVL01LikeProcessor(Protocol):
+    image_token: Final[str]
+
+
+_I = TypeVar("_I", bound=BaseProcessingInfo)
+
+
+class MiniMaxVL01DummyInputsBuilder(BaseDummyInputsBuilder[_I]):
+
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        processor = self.info.get_hf_processor()
+        image_token = processor.image_token
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        return {
+            "image":
+            self._get_dummy_images(width=MaxImageTokenMeta.width,
+                                   height=MaxImageTokenMeta.height,
+                                   num_images=num_images)
+        }
+
+
+class MiniMaxVL01ProcessingInfo(BaseProcessingInfo):
+
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(MiniMaxVL01Config)
+
+    def get_supported_mm_limits(self) -> Mapping[str, Optional[int]]:
+        return {"image": None}
+
+    def get_vision_encoder_info(self):
+        return get_vision_encoder_info(self.get_hf_config())
+
+    def _apply_feature_select_strategy(
+        self,
+        strategy: str,
+        encoder_num_image_tokens: int,
+    ) -> int:
+        if strategy == "default":
+            return encoder_num_image_tokens - 1
+        if strategy == "full":
+            return encoder_num_image_tokens
+
+        msg = f"Unexpected feature select strategy: {strategy!r}"
+        raise NotImplementedError(msg)
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+    ) -> int:
+        hf_config = self.get_hf_config()
+        vision_encoder_info = self.get_vision_encoder_info()
+
+        return self._apply_feature_select_strategy(
+            hf_config.vision_feature_select_strategy,
+            vision_encoder_info.get_num_image_tokens(
+                image_width=image_width,
+                image_height=image_height,
+            ),
+        )
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        vision_encoder_info = self.get_vision_encoder_info()
+        width = height = vision_encoder_info.get_image_size()
+        return ImageSize(width=width, height=height)
+
+    def get_max_image_tokens(self) -> int:
+        target_width, target_height = self.get_image_size_with_most_features()
+
+        return self.get_num_image_tokens(
+            image_width=target_width,
+            image_height=target_height,
+        )
+
+
+class BaseMiniMaxVL01MultiModalProcessor(BaseMultiModalProcessor[_I]):
+
+    # Copied from BaseMultiModalProcessor
+    @abstractmethod
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        raise NotImplementedError
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargs,
+    ) -> Sequence[PromptUpdate]:
+        hf_config = self.info.get_hf_config()
+        image_token_id = hf_config.image_token_index
+
+        def get_replacement(item_idx: int):
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems))
+
+            if isinstance(images, ImageEmbeddingItems):
+                num_image_tokens = images.get_feature_size(item_idx)
+            else:
+                image_size = images.get_image_size(item_idx)
+                num_image_tokens = self.info.get_num_image_tokens(
+                    image_width=image_size.width,
+                    image_height=image_size.height,
+                )
+
+            return [image_token_id] * num_image_tokens
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=[image_token_id],
+                replacement=get_replacement,
+            ),
+        ]
+
+
+class MiniMaxVL01MultiModalProcessor(
+        BaseMiniMaxVL01MultiModalProcessor[MiniMaxVL01ProcessingInfo]):
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+        )
+
+        pixel_values = processed_outputs.get("pixel_values")
+        if pixel_values is not None:
+            image_sizes = processed_outputs["image_sizes"]
+            min_len = min(len(pixel_values), len(image_sizes))
+            pixel_values = pixel_values[:min_len]
+            image_sizes = image_sizes[:min_len]
+            assert len(pixel_values) == len(image_sizes)
+
+            processed_outputs["pixel_values"] = [
+                p[:, :h, :w] for p, (h, w) in zip(pixel_values, image_sizes)
+            ]
+
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return {
+            "pixel_values": MultiModalFieldConfig.batched("image"),
+            "image_embeds": MultiModalFieldConfig.batched("image"),
+        }
+
+
+def _get_num_hidden_layers(hf_config: MiniMaxVL01LikeConfig) -> int:
+    """Determine the number of hidden layers to initialize up to in the
+    visual encoder.
+    
+    Args:
+        hf_config: Model config with vision feature layer(s).
+    """
+    feature_layers = hf_config.vision_feature_layer
+    num_hidden_layers = hf_config.vision_config.num_hidden_layers
+    # If we have one feature layer, initialize up to that layer
+    if isinstance(feature_layers, int):
+        return _get_layer_index(feature_layers, num_hidden_layers)
+    # If we have multiple feature layers, initialize up to the deepest one
+    elif isinstance(feature_layers, (list, tuple)):
+        return max(
+            _get_layer_index(idx, num_hidden_layers) for idx in feature_layers)
+    raise TypeError(f"vision_layer_feature type: {type(feature_layers)}"
+                    " is not supported")
+
+
+def _get_layer_index(feature_layer_index: int, num_hidden_layers: int) -> int:
+    """Given a signed vision feature layer, get the number of hidden layers
+    needed to leverage it.
+
+    Args:
+        feature_layer_index: Index of a required layer in the visual encoder.
+        num_hidden_layers: The total number of hidden layers in the visual
+            encoder.
+    """
+    if feature_layer_index < 0:
+        return num_hidden_layers + feature_layer_index + 1
+    return feature_layer_index
+
+
+def init_vision_tower_for_MiniMaxVL01(
+    hf_config: MiniMaxVL01LikeConfig,
+    quant_config: Optional[QuantizationConfig],
+    *,
+    require_post_norm: Optional[bool] = None,
+    prefix: str = "",
+) -> Union[CLIPVisionModel, SiglipVisionModel, PixtralHFVisionModel]:
+    vision_config = hf_config.vision_config
+
+    # Initialize the vision tower only up to the deepest required feature layer
+    num_hidden_layers = _get_num_hidden_layers(hf_config)
+
+    if isinstance(vision_config, CLIPVisionConfig):
+        return CLIPVisionModel(
+            vision_config,
+            quant_config=quant_config,
+            num_hidden_layers_override=num_hidden_layers,
+            require_post_norm=require_post_norm,
+            prefix=prefix,
+        )
+
+    msg = f"Unsupported vision config: {type(vision_config)}"
+    raise NotImplementedError(msg)
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    MiniMaxVL01MultiModalProcessor,
+    info=MiniMaxVL01ProcessingInfo,
+    dummy_inputs=MiniMaxVL01DummyInputsBuilder)
+class MiniMaxVL01ForConditionalGeneration(nn.Module, SupportsMultiModal,
+                                          SupportsPP):
+
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"]
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        # TODO: Optionally initializes this for supporting embeddings.
+        self.vision_tower = init_vision_tower_for_MiniMaxVL01(
+            config,
+            quant_config,
+            require_post_norm=False,
+            prefix=maybe_prefix(prefix, "vision_tower"))
+        self.multi_modal_projector = MiniMaxVL01MultiModalProjector(
+            vision_hidden_size=config.vision_config.hidden_size,
+            text_hidden_size=config.text_config.hidden_size,
+            projector_hidden_act=config.projector_hidden_act,
+            multimodal_projector_bias=True,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "multi_modal_projector"))
+        self.image_newline = nn.Parameter(
+            torch.empty(config.text_config.hidden_size))
+        self.language_model = init_vllm_registered_model(
+            vllm_config=vllm_config,
+            hf_config=config.text_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+        self.vision_feature_layer = config.vision_feature_layer
+        self.vocab_size = config.text_config.vocab_size
+        self.pad_token_id = -1
+        if self.config.pad_token_id is not None:
+            self.pad_token_id = self.config.pad_token_id
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors)
+
+    def get_input_embeddings(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: Optional[MultiModalEmbeddings] = None,
+    ) -> torch.Tensor:
+        inputs_embeds = self.language_model.get_input_embeddings(input_ids)
+        if multimodal_embeddings is not None:
+            inputs_embeds = merge_multimodal_embeddings(
+                input_ids,
+                inputs_embeds,
+                multimodal_embeddings,
+                self.config.image_token_index,
+            )
+        return inputs_embeds
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.language_model
+
+    def _select_image_features(self, image_features: torch.Tensor, *,
+                               strategy: str) -> torch.Tensor:
+        if strategy == "default":
+            return image_features[:, 1:]
+        elif strategy == "full":
+            return image_features
+
+        raise ValueError(f"Unexpected select feature strategy: {strategy}")
+
+    def _image_pixels_to_features(
+        self,
+        vision_tower: Union[CLIPVisionModel],
+        pixel_values: Union[torch.Tensor, list[torch.Tensor]],
+    ) -> Union[torch.Tensor, tuple[torch.Tensor, ...]]:
+        # NOTE: we skip the step to select the vision feature layer since
+        # this is already done inside the vision tower
+        image_features = vision_tower(pixel_values)
+
+        def select_features(leaf: torch.Tensor):
+            return self._select_image_features(
+                leaf,
+                strategy=self.config.vision_feature_select_strategy,
+            )
+
+        return cast(
+            Union[torch.Tensor, tuple[torch.Tensor, ...]],
+            json_map_leaves(select_features, image_features),
+        )
+
+    def _process_image_pixels(
+        self,
+        inputs: Union[MiniMaxVL01ImagePixelInputs],
+    ) -> Union[torch.Tensor, tuple[torch.Tensor, ...]]:
+        assert self.vision_tower is not None
+
+        pixel_values = inputs["pixel_values"]
+
+        return self._image_pixels_to_features(self.vision_tower, pixel_values)
+
+    def _process_image_input(
+        self,
+        image_input: MiniMaxVL01ImagePixelInputs,
+    ) -> Union[torch.Tensor, tuple[torch.Tensor, ...]]:
+        if image_input["type"] == "image_embeds":
+            return image_input["data"]
+
+        assert self.vision_tower is not None
+        image_features = self._process_image_pixels(image_input)
+
+        if isinstance(image_features, torch.Tensor):
+            return self.multi_modal_projector(image_features)
+
+        feature_sizes = [
+            image_feature.shape[0] for image_feature in image_features
+        ]
+
+        image_embeds = self.multi_modal_projector(torch.cat(image_features))
+        image_embeds = torch.split(image_embeds, feature_sizes)
+        return image_embeds
+
+    def _validate_pixel_values(self, data: torch.Tensor) -> torch.Tensor:
+        h = w = self.config.vision_config.image_size
+        expected_dims = (3, h, w)
+        actual_dims = tuple(data.shape[1:])
+
+        if actual_dims != expected_dims:
+            expected_expr = ("batch_size", *map(str, expected_dims))
+            raise ValueError(
+                f"The expected shape of pixel values is {expected_expr}. "
+                f"You supplied {tuple(data.shape)}.")
+
+        return data
+
+    def _parse_and_validate_image_input(
+            self, **kwargs: object) -> Optional[MiniMaxVL01ImagePixelInputs]:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+
+        if pixel_values is None and image_embeds is None:
+            return None
+
+        if pixel_values is not None:
+            if not isinstance(pixel_values, (torch.Tensor, list)):
+                raise ValueError("Incorrect type of pixel values. "
+                                 f"Got type: {type(pixel_values)}")
+
+            return MiniMaxVL01ImagePixelInputs(
+                type="pixel_values",
+                pixel_values=self._validate_pixel_values(
+                    flatten_bn(pixel_values, concat=True)),
+            )
+
+        if image_embeds is not None:
+            if not isinstance(image_embeds, (torch.Tensor, list)):
+                raise ValueError("Incorrect type of image embeddings. "
+                                 f"Got type: {type(image_embeds)}")
+
+            return MiniMaxVL01ImageEmbeddingInputs(
+                type="image_embeds",
+                data=flatten_bn(image_embeds, concat=True),
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def get_multimodal_embeddings(
+            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return None
+
+        return self._process_image_input(image_input)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: Optional[IntermediateTensors] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+        **kwargs: object,
+    ) -> Union[torch.Tensor, IntermediateTensors]:
+
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+        elif inputs_embeds is None:
+            vision_embeddings = self.get_multimodal_embeddings(**kwargs)
+            inputs_embeds = self.get_input_embeddings(input_ids,
+                                                      vision_embeddings)
+            input_ids = None
+
+        hidden_states = self.language_model.model(input_ids,
+                                                  positions,
+                                                  intermediate_tensors,
+                                                  inputs_embeds=inputs_embeds)
+
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+    ) -> Optional[torch.Tensor]:
+        return self.language_model.compute_logits(hidden_states,
+                                                  sampling_metadata)
+
+    def load_weights(self, weights: Iterable[Tuple[str,
+                                                   torch.Tensor]]) -> Set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index 33877829f..df5b23232 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -189,6 +189,7 @@ _MULTIMODAL_MODELS = {
     "LlavaNextVideoForConditionalGeneration": ("llava_next_video", "LlavaNextVideoForConditionalGeneration"),  # noqa: E501
     "LlavaOnevisionForConditionalGeneration": ("llava_onevision", "LlavaOnevisionForConditionalGeneration"),  # noqa: E501
     "MantisForConditionalGeneration": ("llava", "MantisForConditionalGeneration"),  # noqa: E501
+    "MiniMaxVL01ForConditionalGeneration": ("minimax_vl_01", "MiniMaxVL01ForConditionalGeneration"),  # noqa: E501
     "MiniCPMO": ("minicpmo", "MiniCPMO"),
     "MiniCPMV": ("minicpmv", "MiniCPMV"),
     "Mistral3ForConditionalGeneration": ("mistral3", "Mistral3ForConditionalGeneration"),  # noqa: E501
diff --git a/vllm/transformers_utils/config.py b/vllm/transformers_utils/config.py
index e062afd68..5ddfadb02 100644
--- a/vllm/transformers_utils/config.py
+++ b/vllm/transformers_utils/config.py
@@ -34,11 +34,13 @@ from vllm.transformers_utils.configs import (ChatGLMConfig, Cohere2Config,
                                              H2OVLChatConfig,
                                              InternVLChatConfig, JAISConfig,
                                              KimiVLConfig, MedusaConfig,
-                                             MllamaConfig, MLPSpeculatorConfig,
-                                             MPTConfig, NemotronConfig,
-                                             NVLM_D_Config, RWConfig,
-                                             SkyworkR1VChatConfig, SolarConfig,
-                                             Telechat2Config, UltravoxConfig)
+                                             MiniMaxText01Config,
+                                             MiniMaxVL01Config, MllamaConfig,
+                                             MLPSpeculatorConfig, MPTConfig,
+                                             NemotronConfig, NVLM_D_Config,
+                                             RWConfig, SkyworkR1VChatConfig,
+                                             SolarConfig, Telechat2Config,
+                                             UltravoxConfig)
 # yapf: enable
 from vllm.transformers_utils.utils import check_gguf_file
 from vllm.utils import resolve_obj_by_qualname
@@ -73,6 +75,8 @@ _CONFIG_REGISTRY: Dict[str, Type[PretrainedConfig]] = {
     "exaone": ExaoneConfig,
     "h2ovl_chat": H2OVLChatConfig,
     "internvl_chat": InternVLChatConfig,
+    "minimax_text_01": MiniMaxText01Config,
+    "minimax_vl_01": MiniMaxVL01Config,
     "nemotron": NemotronConfig,
     "NVLM_D": NVLM_D_Config,
     "solar": SolarConfig,
diff --git a/vllm/transformers_utils/configs/__init__.py b/vllm/transformers_utils/configs/__init__.py
index 8812d4c48..8945c45ea 100644
--- a/vllm/transformers_utils/configs/__init__.py
+++ b/vllm/transformers_utils/configs/__init__.py
@@ -15,6 +15,8 @@ from vllm.transformers_utils.configs.internvl import InternVLChatConfig
 from vllm.transformers_utils.configs.jais import JAISConfig
 from vllm.transformers_utils.configs.kimi_vl import KimiVLConfig
 from vllm.transformers_utils.configs.medusa import MedusaConfig
+from vllm.transformers_utils.configs.minimax_text_01 import MiniMaxText01Config
+from vllm.transformers_utils.configs.minimax_vl_01 import MiniMaxVL01Config
 from vllm.transformers_utils.configs.mllama import MllamaConfig
 from vllm.transformers_utils.configs.mlp_speculator import MLPSpeculatorConfig
 from vllm.transformers_utils.configs.moonvit import MoonViTConfig
@@ -39,6 +41,8 @@ __all__ = [
     "MedusaConfig",
     "EAGLEConfig",
     "ExaoneConfig",
+    "MiniMaxText01Config",
+    "MiniMaxVL01Config",
     "MllamaConfig",
     "MLPSpeculatorConfig",
     "MoonViTConfig",
diff --git a/vllm/transformers_utils/configs/minimax_text_01.py b/vllm/transformers_utils/configs/minimax_text_01.py
new file mode 100644
index 000000000..660e870ac
--- /dev/null
+++ b/vllm/transformers_utils/configs/minimax_text_01.py
@@ -0,0 +1,69 @@
+# SPDX-License-Identifier: Apache-2.0
+""" MiniMaxText01 model configuration"""
+
+from transformers.configuration_utils import PretrainedConfig
+
+
+class MiniMaxText01Config(PretrainedConfig):
+    model_type = "MiniMaxText01"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        vocab_size=32000,
+        hidden_size=4096,
+        intermediate_size=14336,
+        num_hidden_layers=32,
+        num_attention_heads=32,
+        num_key_value_heads=8,
+        hidden_act="silu",
+        max_position_embeddings=4096 * 32,
+        initializer_range=0.02,
+        rms_norm_eps=1e-5,
+        use_cache=True,
+        pad_token_id=None,
+        bos_token_id=None,
+        eos_token_id=None,
+        tie_word_embeddings=False,
+        rope_theta=1e6,
+        sliding_window=None,
+        attention_dropout=0.0,
+        num_experts_per_tok=2,
+        num_local_experts=8,
+        output_router_logits=False,
+        router_aux_loss_coef=0.001,
+        router_jitter_noise=0.0,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.max_position_embeddings = max_position_embeddings
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.sliding_window = sliding_window
+
+        # for backward compatibility
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+
+        self.num_key_value_heads = num_key_value_heads
+        self.hidden_act = hidden_act
+        self.initializer_range = initializer_range
+        self.rms_norm_eps = rms_norm_eps
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.attention_dropout = attention_dropout
+
+        self.num_experts_per_tok = num_experts_per_tok
+        self.num_local_experts = num_local_experts
+        self.output_router_logits = output_router_logits
+        self.router_aux_loss_coef = router_aux_loss_coef
+        self.router_jitter_noise = router_jitter_noise
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
diff --git a/vllm/transformers_utils/configs/minimax_vl_01.py b/vllm/transformers_utils/configs/minimax_vl_01.py
new file mode 100644
index 000000000..99e0d249d
--- /dev/null
+++ b/vllm/transformers_utils/configs/minimax_vl_01.py
@@ -0,0 +1,70 @@
+# SPDX-License-Identifier: Apache-2.0
+"""MiniMaxVL01 model configuration"""
+
+from transformers.configuration_utils import PretrainedConfig
+from transformers.models.auto import CONFIG_MAPPING
+
+from .minimax_text_01 import MiniMaxText01Config
+
+
+class MiniMaxVL01Config(PretrainedConfig):
+    model_type = "minimax_vl_01"
+
+    def __init__(
+        self,
+        vision_config=None,
+        text_config=None,
+        ignore_index=-100,
+        image_token_index=32000,
+        projector_hidden_act="gelu",
+        vision_feature_select_strategy="default",
+        vision_feature_layer=-2,
+        image_grid_pinpoints=None,
+        tie_word_embeddings=False,
+        image_seq_length=576,
+        **kwargs,
+    ):
+        self.ignore_index = ignore_index
+        self.image_token_index = image_token_index
+        self.projector_hidden_act = projector_hidden_act
+        self.image_seq_length = image_seq_length
+
+        if vision_feature_select_strategy not in ["default", "full"]:
+            raise ValueError("vision_feature_select_strategy should " +
+                             "be one of 'default', 'full'." +
+                             f"Got: {vision_feature_select_strategy}")
+
+        self.vision_feature_select_strategy = vision_feature_select_strategy
+        self.vision_feature_layer = vision_feature_layer
+        image_grid_pinpoints = (
+            image_grid_pinpoints if image_grid_pinpoints is not None else
+            [[336, 672], [672, 336], [672, 672], [1008, 336], [336, 1008]])
+        self.image_grid_pinpoints = image_grid_pinpoints
+
+        if isinstance(vision_config, dict):
+            if "model_type" not in vision_config:
+                vision_config["model_type"] = "clip_vision_model"
+            vision_config = CONFIG_MAPPING[vision_config["model_type"]](
+                **vision_config)
+        elif vision_config is None:
+            vision_config = CONFIG_MAPPING["clip_vision_model"](
+                intermediate_size=4096,
+                hidden_size=1024,
+                patch_size=14,
+                image_size=336,
+                num_hidden_layers=24,
+                num_attention_heads=16,
+                vocab_size=32000,
+                projection_dim=768,
+            )
+
+        self.vision_config = vision_config
+
+        if text_config is not None:
+            text_config = MiniMaxText01Config(**text_config)
+        else:
+            text_config = MiniMaxText01Config()
+
+        self.text_config = text_config
+
+        super().__init__(tie_word_embeddings=tie_word_embeddings, **kwargs)
-- 
GitLab


From ebb3930d28927da0e432ba8923ef9f83c6fb12f5 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Tue, 29 Apr 2025 14:37:21 +0800
Subject: [PATCH 013/461] [Misc] Move config fields to MultiModalConfig
 (#17343)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 vllm/config.py                         | 57 +++++++++++++++++++-------
 vllm/engine/arg_utils.py               | 16 ++------
 vllm/inputs/registry.py                |  6 ++-
 vllm/model_executor/models/qwen2_vl.py |  5 ++-
 vllm/multimodal/registry.py            |  3 +-
 vllm/transformers_utils/processor.py   |  3 +-
 vllm/v1/engine/mm_input_cache.py       |  5 ++-
 vllm/v1/engine/processor.py            |  3 +-
 8 files changed, 62 insertions(+), 36 deletions(-)

diff --git a/vllm/config.py b/vllm/config.py
index 3ed1674b5..c1c72846d 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -263,6 +263,10 @@ class ModelConfig:
             the model name will be the same as `model`.
         limit_mm_per_prompt: Maximum number of data items per modality
             per prompt. Only applicable for multimodal models.
+        mm_processor_kwargs: Overrides for the multi-modal processor obtained
+            from `AutoProcessor.from_pretrained`.
+        disable_mm_preprocessor_cache: If True, disable caching of the
+            processed multi-modal inputs.
         use_async_output_proc: Whether to use async output processor.
             Defaults to True.
         config_format: The config format which shall be loaded.
@@ -273,10 +277,6 @@ class ModelConfig:
         hf_overrides: If a dictionary, contains arguments to be forwarded to the
             HuggingFace config. If a callable, it is called to update the
             HuggingFace config.
-        mm_processor_kwargs: Arguments to be forwarded to the model's processor
-            for multi-modal data, e.g., image processor.
-        disable_mm_preprocessor_cache: If true, then disables caching of the
-            multi-modal preprocessor/mapper. (not recommended)
         override_neuron_config: Initialize non default neuron config or
             override default neuron config that are specific to Neuron devices,
             this argument will be used to configure the neuron config that
@@ -320,7 +320,6 @@ class ModelConfig:
         factors.append(self.max_logprobs)
         factors.append(self.disable_sliding_window)
         factors.append(self.trust_remote_code)
-        factors.append(self.mm_processor_kwargs)
         factors.append(self.generation_config)
         factors.append(self.model_impl)
         factors.append(self.override_generation_config)
@@ -359,12 +358,12 @@ class ModelConfig:
         skip_tokenizer_init: bool = False,
         served_model_name: Optional[Union[str, list[str]]] = None,
         limit_mm_per_prompt: Optional[dict[str, int]] = None,
+        mm_processor_kwargs: Optional[dict[str, Any]] = None,
+        disable_mm_preprocessor_cache: bool = False,
         use_async_output_proc: bool = True,
         config_format: ConfigFormat = ConfigFormat.AUTO,
         hf_token: Optional[Union[bool, str]] = None,
         hf_overrides: Optional[HfOverrides] = None,
-        mm_processor_kwargs: Optional[dict[str, Any]] = None,
-        disable_mm_preprocessor_cache: bool = False,
         override_neuron_config: Optional[dict[str, Any]] = None,
         override_pooler_config: Optional["PoolerConfig"] = None,
         logits_processor_pattern: Optional[str] = None,
@@ -469,8 +468,6 @@ class ModelConfig:
             self.model, hf_token=hf_token, revision=revision)
         self.dtype = _get_and_verify_dtype(self.hf_config, dtype)
         self.use_async_output_proc = use_async_output_proc
-        self.mm_processor_kwargs = mm_processor_kwargs
-        self.disable_mm_preprocessor_cache = disable_mm_preprocessor_cache
 
         # Set enforce_eager to False if the value is unset.
         if self.enforce_eager is None:
@@ -515,7 +512,10 @@ class ModelConfig:
         self.served_model_name = get_served_model_name(model,
                                                        served_model_name)
         self.multimodal_config = self._init_multimodal_config(
-            limit_mm_per_prompt)
+            limit_mm_per_prompt=limit_mm_per_prompt,
+            mm_processor_kwargs=mm_processor_kwargs,
+            disable_mm_preprocessor_cache=disable_mm_preprocessor_cache,
+        )
         if not self.skip_tokenizer_init:
             self._verify_tokenizer_mode()
 
@@ -581,14 +581,27 @@ class ModelConfig:
                 self.tokenizer = s3_tokenizer.dir
 
     def _init_multimodal_config(
-        self, limit_mm_per_prompt: Optional[dict[str, int]]
+        self,
+        limit_mm_per_prompt: Optional[dict[str, int]],
+        mm_processor_kwargs: Optional[dict[str, Any]],
+        disable_mm_preprocessor_cache: bool,
     ) -> Optional["MultiModalConfig"]:
         if self.registry.is_multimodal_model(self.architectures):
-            return MultiModalConfig(limit_per_prompt=limit_mm_per_prompt or {})
+            return MultiModalConfig(
+                limit_per_prompt=limit_mm_per_prompt or {},
+                mm_processor_kwargs=mm_processor_kwargs or {},
+                disable_mm_preprocessor_cache=disable_mm_preprocessor_cache,
+            )
 
         if limit_mm_per_prompt:
             raise ValueError("`limit_mm_per_prompt` is only supported for "
                              "multimodal models.")
+        if mm_processor_kwargs:
+            raise ValueError("`mm_processor_kwargs` is only supported for "
+                             "multimodal models.")
+        if disable_mm_preprocessor_cache:
+            raise ValueError("`disable_mm_preprocessor_cache` is only "
+                             "supported for multimodal models.")
 
         return None
 
@@ -2776,7 +2789,23 @@ class MultiModalConfig:
     Defaults to 1 (V0) or 999 (V1) for each modality.
 
     For example, to allow up to 16 images and 2 videos per prompt:
-    ``{"images": 16, "videos": 2}``
+    :code:`{"images": 16, "videos": 2}`
+    """
+
+    mm_processor_kwargs: Optional[dict[str, object]] = None
+    """
+    Overrides for the multi-modal processor obtained from
+    :meth:`transformers.AutoProcessor.from_pretrained`.
+
+    The available overrides depend on the model that is being run.
+
+    For example, for Phi-3-Vision:
+    :code:`{"num_crops": 4}`.
+    """
+
+    disable_mm_preprocessor_cache: bool = False
+    """
+    If :code:`True`, disable caching of the processed multi-modal inputs.
     """
 
     def compute_hash(self) -> str:
@@ -4080,8 +4109,6 @@ class VllmConfig:
             f"enable_prefix_caching={self.cache_config.enable_prefix_caching}, "
             f"chunked_prefill_enabled={self.scheduler_config.chunked_prefill_enabled}, "  # noqa
             f"use_async_output_proc={self.model_config.use_async_output_proc}, "
-            f"disable_mm_preprocessor_cache={self.model_config.disable_mm_preprocessor_cache!r}, "  # noqa
-            f"mm_processor_kwargs={self.model_config.mm_processor_kwargs}, "
             f"pooler_config={self.model_config.pooler_config!r}, "
             f"compilation_config={self.compilation_config!r}")
 
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 5d735103f..970a8851f 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -672,20 +672,12 @@ class EngineArgs:
         )
         multimodal_group.add_argument('--limit-mm-per-prompt',
                                       **multimodal_kwargs["limit_per_prompt"])
-
-        parser.add_argument(
+        multimodal_group.add_argument(
             '--mm-processor-kwargs',
-            default=None,
-            type=json.loads,
-            help=('Overrides for the multi-modal processor obtained from '
-                  '``AutoProcessor.from_pretrained``. The available overrides '
-                  'depend on the model that is being run.'
-                  'For example, for Phi-3-Vision: ``{"num_crops": 4}``.'))
-        parser.add_argument(
+            **multimodal_kwargs["mm_processor_kwargs"])
+        multimodal_group.add_argument(
             '--disable-mm-preprocessor-cache',
-            action='store_true',
-            help='If True, disable caching of the processed multi-modal '
-            'inputs.')
+            **multimodal_kwargs["disable_mm_preprocessor_cache"])
 
         # LoRA related configs
         lora_kwargs = get_kwargs(LoRAConfig)
diff --git a/vllm/inputs/registry.py b/vllm/inputs/registry.py
index 4c334ab62..d969922d5 100644
--- a/vllm/inputs/registry.py
+++ b/vllm/inputs/registry.py
@@ -101,7 +101,8 @@ class InputContext:
         Initialize a HuggingFace-like processor class, merging the
         keyword arguments with those in the model's configuration.
         """
-        base_kwargs = self.model_config.mm_processor_kwargs
+        mm_config = self.model_config.get_multimodal_config()
+        base_kwargs = mm_config.mm_processor_kwargs
         if base_kwargs is None:
             base_kwargs = {}
 
@@ -139,7 +140,8 @@ class InputProcessingContext(InputContext):
         """
         assert callable(hf_processor)
 
-        base_kwargs = self.model_config.mm_processor_kwargs
+        mm_config = self.model_config.get_multimodal_config()
+        base_kwargs = mm_config.mm_processor_kwargs
         if base_kwargs is None:
             base_kwargs = {}
 
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
index ef84becd2..95f0c29d4 100644
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -774,8 +774,9 @@ class Qwen2VLProcessingInfo(BaseProcessingInfo):
         size: Optional[dict[str, int]] = None,
         **kwargs: object,
     ):
-        if self.ctx.model_config.mm_processor_kwargs:
-            kwargs.update(self.ctx.model_config.mm_processor_kwargs)
+        mm_config = self.ctx.model_config.get_multimodal_config()
+        if mm_config.mm_processor_kwargs:
+            kwargs.update(mm_config.mm_processor_kwargs)
 
         if min_pixels is not None:
             kwargs["min_pixels"] = min_pixels
diff --git a/vllm/multimodal/registry.py b/vllm/multimodal/registry.py
index ec4f15681..68598b941 100644
--- a/vllm/multimodal/registry.py
+++ b/vllm/multimodal/registry.py
@@ -262,7 +262,8 @@ class MultiModalRegistry:
         if tokenizer is None:
             tokenizer = cached_tokenizer_from_config(model_config)
         if disable_cache is None:
-            disable_cache = model_config.disable_mm_preprocessor_cache
+            mm_config = model_config.get_multimodal_config()
+            disable_cache = mm_config.disable_mm_preprocessor_cache
 
         model_cls = self._get_model_cls(model_config)
         factories = self._processor_factories[model_cls]
diff --git a/vllm/transformers_utils/processor.py b/vllm/transformers_utils/processor.py
index 4f06950c4..d27c26659 100644
--- a/vllm/transformers_utils/processor.py
+++ b/vllm/transformers_utils/processor.py
@@ -33,7 +33,8 @@ class HashableList(list):
 
 
 def _merge_mm_kwargs(model_config: "ModelConfig", **kwargs):
-    base_kwargs = model_config.mm_processor_kwargs
+    mm_config = model_config.get_multimodal_config()
+    base_kwargs = mm_config.mm_processor_kwargs
     if base_kwargs is None:
         base_kwargs = {}
 
diff --git a/vllm/v1/engine/mm_input_cache.py b/vllm/v1/engine/mm_input_cache.py
index c765c1bbf..64ece840f 100644
--- a/vllm/v1/engine/mm_input_cache.py
+++ b/vllm/v1/engine/mm_input_cache.py
@@ -33,7 +33,10 @@ from vllm.utils import is_list_of
 class MirroredProcessingCache:
 
     def __init__(self, model_config):
-        self.use_cache = not model_config.disable_mm_preprocessor_cache
+        mm_config = model_config.multimodal_config
+        disable_mm_preprocessor_cache = mm_config is not None and \
+            not mm_config.disable_mm_preprocessor_cache
+        self.use_cache = not disable_mm_preprocessor_cache
         self.mm_cache = ProcessingCache.get_lru_cache(VLLM_MM_INPUT_CACHE_GIB,
                                                       MultiModalKwargs)
 
diff --git a/vllm/v1/engine/processor.py b/vllm/v1/engine/processor.py
index fa334302e..5c15e8bae 100644
--- a/vllm/v1/engine/processor.py
+++ b/vllm/v1/engine/processor.py
@@ -51,8 +51,7 @@ class Processor:
         self.mm_input_cache_client = MirroredProcessingCache(self.model_config)
 
         # Multi-modal hasher (for images)
-        self.use_hash = (
-            not self.model_config.disable_mm_preprocessor_cache) or \
+        self.use_hash = self.mm_input_cache_client.use_cache or \
             self.cache_config.enable_prefix_caching
 
     def _validate_logprobs(
-- 
GitLab


From bdb2cddafc524380e0d04cf1aa32b41d9411d6fd Mon Sep 17 00:00:00 2001
From: ponix-j <55234879+ponix-j@users.noreply.github.com>
Date: Tue, 29 Apr 2025 14:59:13 +0800
Subject: [PATCH 014/461] [Misc]Use a platform independent interface to obtain
 the device attributes (#17100)

---
 tests/conftest.py                      | 3 ++-
 tests/v1/sample/test_sampler.py        | 4 +++-
 vllm/worker/multi_step_model_runner.py | 5 +++--
 3 files changed, 8 insertions(+), 4 deletions(-)

diff --git a/tests/conftest.py b/tests/conftest.py
index e62b56cb5..5fc09b241 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -293,7 +293,8 @@ class HfRunner:
     def get_default_device(self):
         from vllm.platforms import current_platform
 
-        return ("cpu" if current_platform.is_cpu() else "cuda")
+        return ("cpu"
+                if current_platform.is_cpu() else current_platform.device_type)
 
     def wrap_device(self, x: _T, device: Optional[str] = None) -> _T:
         if x is None or isinstance(x, (bool, )):
diff --git a/tests/v1/sample/test_sampler.py b/tests/v1/sample/test_sampler.py
index 5f041b448..24b759bc1 100644
--- a/tests/v1/sample/test_sampler.py
+++ b/tests/v1/sample/test_sampler.py
@@ -6,6 +6,7 @@ import numpy as np
 import pytest
 import torch
 
+from vllm.platforms import current_platform
 from vllm.utils import make_tensor_with_pad
 from vllm.v1.sample.metadata import SamplingMetadata
 from vllm.v1.sample.sampler import Sampler
@@ -13,7 +14,8 @@ from vllm.v1.sample.sampler import Sampler
 VOCAB_SIZE = 1024
 NUM_OUTPUT_TOKENS = 20
 CUDA_DEVICES = [
-    f"cuda:{i}" for i in range(1 if torch.cuda.device_count() == 1 else 2)
+    f"{current_platform.device_type}:{i}"
+    for i in range(1 if current_platform.device_count() == 1 else 2)
 ]
 MAX_NUM_PROMPT_TOKENS = 64
 
diff --git a/vllm/worker/multi_step_model_runner.py b/vllm/worker/multi_step_model_runner.py
index a6f5ec825..58bf31cf2 100644
--- a/vllm/worker/multi_step_model_runner.py
+++ b/vllm/worker/multi_step_model_runner.py
@@ -14,6 +14,7 @@ from vllm.model_executor.layers.sampler import (PromptLogprobs, SampleLogprobs,
                                                 SamplerOutput,
                                                 SamplingMetadata, get_logprobs,
                                                 get_pythonized_sample_results)
+from vllm.platforms import current_platform
 from vllm.sequence import (CompletionSequenceGroupOutput, IntermediateTensors,
                            Logprob, SequenceGroupMetadata, SequenceOutput)
 from vllm.utils import PyObjectCache, async_tensor_h2d, current_stream
@@ -158,8 +159,8 @@ class StatefulModelInput(BroadcastableModelInput):
     is_first_multi_step: bool = False
     base_output_proc_callback: Optional[Callable] = None
     # ping-pong data structures for multi-step to wait on the previous step
-    step_cuda_events: List[torch.cuda.Event] = field(
-        default_factory=lambda: [torch.cuda.Event(blocking=True)] * 2)
+    step_cuda_events: List[current_platform.Event] = field(
+        default_factory=lambda: [current_platform.Event(blocking=True)] * 2)
     num_seqs: int = -1
     num_queries: int = -1
     num_single_step_prefills: int = 0
-- 
GitLab


From 193e78e35d6f66bed5cec7414d5da2d3de777381 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Hyogeun=20Oh=20=28=EC=98=A4=ED=9A=A8=EA=B7=BC=29?=
 <ohg3417@gmail.com>
Date: Tue, 29 Apr 2025 16:16:17 +0900
Subject: [PATCH 015/461] [Fix] Documentation spacing in compilation config
 help text (#17342)

Signed-off-by: Zerohertz <ohg3417@gmail.com>
---
 vllm/engine/arg_utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 970a8851f..ad2624123 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -866,7 +866,7 @@ class EngineArgs:
                             '-O',
                             type=CompilationConfig.from_cli,
                             default=None,
-                            help='torch.compile configuration for the model.'
+                            help='torch.compile configuration for the model. '
                             'When it is a number (0, 1, 2, 3), it will be '
                             'interpreted as the optimization level.\n'
                             'NOTE: level 0 is the default level without '
-- 
GitLab


From 44641092197c59592c51e925c71bdf6f6c5b49ea Mon Sep 17 00:00:00 2001
From: Gregory Shtrasberg <156009573+gshtras@users.noreply.github.com>
Date: Tue, 29 Apr 2025 03:17:23 -0400
Subject: [PATCH 016/461] [Build][Bugfix] Restrict setuptools version to <80
 (#17320)

Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>
---
 requirements/common.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/requirements/common.txt b/requirements/common.txt
index 33c4c3219..36fc791cc 100644
--- a/requirements/common.txt
+++ b/requirements/common.txt
@@ -34,7 +34,7 @@ mistral_common[opencv] >= 1.5.4
 opencv-python-headless >= 4.11.0    # required for video IO
 pyyaml
 six>=1.16.0; python_version > '3.11' # transitive dependency of pandas that needs to be the latest version for python 3.12
-setuptools>=74.1.1; python_version > '3.11' # Setuptools is used by triton, we need to ensure a modern version is installed for 3.12+ so that it does not try to import distutils, which was removed in 3.12
+setuptools>=74.1.1,<80; python_version > '3.11' # Setuptools is used by triton, we need to ensure a modern version is installed for 3.12+ so that it does not try to import distutils, which was removed in 3.12
 einops # Required for Qwen2-VL.
 compressed-tensors == 0.9.3 # required for compressed-tensors
 depyf==0.18.0 # required for profiling and debugging with compilation config
-- 
GitLab


From 97cc8729f0bc351a5536380fd897607f4ecdeef1 Mon Sep 17 00:00:00 2001
From: Ekagra Ranjan <3116519+ekagra-ranjan@users.noreply.github.com>
Date: Tue, 29 Apr 2025 03:30:40 -0400
Subject: [PATCH 017/461] [Model] Ignore rotary embed load for Cohere model
 (#17319)

---
 vllm/model_executor/models/commandr.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/vllm/model_executor/models/commandr.py b/vllm/model_executor/models/commandr.py
index 25b1d5a19..8f64e5d5c 100644
--- a/vllm/model_executor/models/commandr.py
+++ b/vllm/model_executor/models/commandr.py
@@ -418,6 +418,10 @@ class CohereForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsQuant):
         loaded_params: Set[str] = set()
         for name, loaded_weight in weights:
 
+            # Skip loading rotary embeddings since vLLM has its own
+            if "rotary_emb.inv_freq" in name:
+                continue
+
             if (self.quant_config is not None and
                 (scale_name := self.quant_config.get_cache_scale(name))):
                 # Loading kv cache quantization scales
-- 
GitLab


From 4a5e13149a5db287baa395f0d639bb00ffdbcd25 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 29 Apr 2025 12:35:47 +0100
Subject: [PATCH 018/461] Update docs requirements (#17379)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 requirements/docs.txt | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/requirements/docs.txt b/requirements/docs.txt
index d84fd633c..cba86b52a 100644
--- a/requirements/docs.txt
+++ b/requirements/docs.txt
@@ -1,10 +1,10 @@
-sphinx==6.2.1
-sphinx-argparse==0.4.0
-sphinx-book-theme==1.0.1
+sphinx==8.2.3
+sphinx-argparse==0.5.2
+sphinx-book-theme==1.1.4
 sphinx-copybutton==0.5.2
 sphinx-design==0.6.1
 sphinx-togglebutton==0.3.2
-myst-parser==3.0.1
+myst-parser==4.0.1
 msgspec
 cloudpickle
 commonmark # Required by sphinx-argparse when using :markdownhelp:
-- 
GitLab


From 890f104cdfe559136249872955e7234ea1bd298d Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Tue, 29 Apr 2025 20:38:32 +0800
Subject: [PATCH 019/461] [Doc] Fix QWen3MOE info (#17381)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 docs/source/models/supported_models.md |  4 ++--
 tests/models/registry.py               | 12 ++----------
 2 files changed, 4 insertions(+), 12 deletions(-)

diff --git a/docs/source/models/supported_models.md b/docs/source/models/supported_models.md
index 98b7d7631..5433805b6 100644
--- a/docs/source/models/supported_models.md
+++ b/docs/source/models/supported_models.md
@@ -542,8 +542,8 @@ See [this page](#generative-models) for more information on how to use generativ
   * ✅︎
 - * `Qwen3MoeForCausalLM`
   * Qwen3MoE
-  * `Qwen/Qwen3-MoE-15B-A2B`, etc.
-  * ✅︎
+  * `Qwen/Qwen3-30B-A3B`, etc.
+  *
   * ✅︎
 - * `StableLmForCausalLM`
   * StableLM
diff --git a/tests/models/registry.py b/tests/models/registry.py
index a3c5bc865..8b330109d 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -217,16 +217,8 @@ _TEXT_GENERATION_EXAMPLE_MODELS = {
     "Qwen2ForCausalLM": _HfExamplesInfo("Qwen/Qwen2-0.5B-Instruct",
                                         extras={"2.5": "Qwen/Qwen2.5-0.5B-Instruct"}), # noqa: E501
     "Qwen2MoeForCausalLM": _HfExamplesInfo("Qwen/Qwen1.5-MoE-A2.7B-Chat"),
-    "Qwen3ForCausalLM": _HfExamplesInfo(
-        "Qwen/Qwen3-8B",
-        is_available_online=False,
-        min_transformers_version="4.51"
-    ),
-    "Qwen3MoeForCausalLM": _HfExamplesInfo(
-        "Qwen/Qwen3-MoE-15B-A2B",
-        is_available_online=False,
-        min_transformers_version="4.51"
-    ),
+    "Qwen3ForCausalLM": _HfExamplesInfo("Qwen/Qwen3-8B"),
+    "Qwen3MoeForCausalLM": _HfExamplesInfo("Qwen/Qwen3-30B-A3B"),
     "RWForCausalLM": _HfExamplesInfo("tiiuae/falcon-40b",
                                      is_available_online=False),
     "StableLMEpochForCausalLM": _HfExamplesInfo("stabilityai/stablelm-zephyr-3b",  # noqa: E501
-- 
GitLab


From 00ee37efa23600d7c89d8fd5dc8bdc125c49e39d Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Tue, 29 Apr 2025 20:42:16 +0800
Subject: [PATCH 020/461] [Bugfix] Clean up MiniMax-VL and fix processing
 (#17354)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 docs/source/models/supported_models.md        |   7 +
 .../multimodal/processing/test_common.py      |   1 +
 .../processing/test_minimax_vl_01.py          |   1 -
 vllm/model_executor/models/minimax_vl_01.py   | 312 ++----------------
 4 files changed, 38 insertions(+), 283 deletions(-)

diff --git a/docs/source/models/supported_models.md b/docs/source/models/supported_models.md
index 5433805b6..95e7d5d60 100644
--- a/docs/source/models/supported_models.md
+++ b/docs/source/models/supported_models.md
@@ -979,6 +979,13 @@ See [this page](#generative-models) for more information on how to use generativ
   * ✅︎
   * ✅︎
   * ✅︎
+- * `MiniMaxVL01ForConditionalGeneration`
+  * MiniMax-VL
+  * T + I<sup>E+</sup>
+  * `MiniMaxAI/MiniMax-VL-01`, etc.
+  *
+  * ✅︎
+  * ✅︎
 - * `Mistral3ForConditionalGeneration`
   * Mistral3
   * T + I<sup>+</sup>
diff --git a/tests/models/multimodal/processing/test_common.py b/tests/models/multimodal/processing/test_common.py
index b3c56e18b..4dc49d18c 100644
--- a/tests/models/multimodal/processing/test_common.py
+++ b/tests/models/multimodal/processing/test_common.py
@@ -270,6 +270,7 @@ def _test_processing_correctness_mistral(
     "openbmb/MiniCPM-Llama3-V-2_5",
     "openbmb/MiniCPM-o-2_6",
     "openbmb/MiniCPM-V-2_6",
+    "MiniMaxAI/MiniMax-VL-01",
     "allenai/Molmo-7B-D-0924",
     "allenai/Molmo-7B-O-0924",
     "nvidia/NVLM-D-72B",
diff --git a/tests/models/multimodal/processing/test_minimax_vl_01.py b/tests/models/multimodal/processing/test_minimax_vl_01.py
index d333c32dc..10de28ab5 100644
--- a/tests/models/multimodal/processing/test_minimax_vl_01.py
+++ b/tests/models/multimodal/processing/test_minimax_vl_01.py
@@ -12,7 +12,6 @@ from ...utils import build_model_context
 
 
 @pytest.mark.parametrize("model_id", ["MiniMaxAI/MiniMax-VL-01"])
-# yapf: enable
 @pytest.mark.parametrize("num_imgs", [1, 2])
 def test_processor_override(
     image_assets: _ImageAssets,
diff --git a/vllm/model_executor/models/minimax_vl_01.py b/vllm/model_executor/models/minimax_vl_01.py
index 14e105586..4ac60f97b 100644
--- a/vllm/model_executor/models/minimax_vl_01.py
+++ b/vllm/model_executor/models/minimax_vl_01.py
@@ -1,52 +1,32 @@
 # SPDX-License-Identifier: Apache-2.0
+from collections.abc import Iterable, Mapping
+from typing import Literal, Optional, Set, Tuple, TypedDict, Union, cast
 
-from abc import abstractmethod
-from collections.abc import Iterable, Mapping, Sequence
-from dataclasses import dataclass
-from typing import (Final, Literal, Optional, Protocol, Set, Tuple, TypedDict,
-                    TypeVar, Union, cast)
-
-import numpy as np
 import torch
 import torch.nn as nn
-from transformers import BatchFeature, CLIPVisionConfig, PretrainedConfig
-from transformers.image_processing_utils import select_best_resolution
+from transformers import BatchFeature
 
 from vllm.config import VllmConfig
 from vllm.jsontree import json_map_leaves
-from vllm.logger import init_logger
 from vllm.model_executor.layers.activation import get_act_fn
 from vllm.model_executor.layers.linear import (ColumnParallelLinear,
                                                RowParallelLinear)
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.sampling_metadata import SamplingMetadata
-from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalDataDict
-from vllm.multimodal.inputs import MultiModalFieldConfig, MultiModalKwargs
-from vllm.multimodal.parse import (ImageEmbeddingItems, ImageProcessorItems,
-                                   ImageSize, MultiModalDataItems)
-from vllm.multimodal.processing import (BaseMultiModalProcessor,
-                                        BaseProcessingInfo, PromptReplacement,
-                                        PromptUpdate)
-from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import MultiModalFieldConfig
 from vllm.sequence import IntermediateTensors
 from vllm.transformers_utils.configs.minimax_vl_01 import MiniMaxVL01Config
 
 from .clip import CLIPVisionModel
 from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .llava import (BaseLlavaMultiModalProcessor, LlavaDummyInputsBuilder,
+                    init_vision_tower_for_llava)
+from .llava_next import LlavaNextProcessingInfo
 from .pixtral import PixtralHFVisionModel
 from .siglip import SiglipVisionModel
 from .utils import (AutoWeightsLoader, flatten_bn, init_vllm_registered_model,
                     maybe_prefix, merge_multimodal_embeddings)
-from .vision import get_vision_encoder_info
-
-logger = init_logger(__name__)
-
-
-# For dummy input only
-@dataclass
-class MaxImageTokenMeta:
-    width: int = 1024
-    height: int = 1024
 
 
 class MiniMaxVL01ImagePixelInputs(TypedDict):
@@ -69,66 +49,8 @@ class MiniMaxVL01ImageEmbeddingInputs(TypedDict):
     """
 
 
-def image_size_to_num_patches(image_size, grid_pinpoints, patch_size: int):
-    if not isinstance(grid_pinpoints, list):
-        raise TypeError("grid_pinpoints should be a list of tuples or lists")
-
-    # ! VERY IMPORTANT if image_size is tensor, must convert to into tuple,
-    # otherwise it will cause wrong calculate
-    if not isinstance(image_size, (list, tuple)):
-        if not isinstance(image_size, (torch.Tensor, np.ndarray)):
-            raise TypeError("image_size invalid type " +
-                            f"{type(image_size)} with value {image_size}")
-        image_size = image_size.tolist()
-
-    best_resolution = select_best_resolution(image_size, grid_pinpoints)
-    height, width = best_resolution
-    num_patches = 0
-    # consider change to ceil(height/patch_size)*ceil(width/patch_size) + 1
-    for i in range(0, height, patch_size):
-        for j in range(0, width, patch_size):
-            num_patches += 1
-    # add the base patch
-    num_patches += 1
-    return num_patches
-
-
-def get_anyres_image_grid_shape(image_size, grid_pinpoints, patch_size):
-    if not isinstance(grid_pinpoints, list):
-        raise TypeError("grid_pinpoints should be a list of tuples or lists")
-
-    # ! VERY IMPORTANT if image_size is tensor,
-    # must convert to into tuple,
-    # otherwise it will cause wrong calculate
-    if not isinstance(image_size, (list, tuple)):
-        if not isinstance(image_size, (torch.Tensor, np.ndarray)):
-            raise TypeError(
-                "image_size invalid type " +
-                f"{type(image_size)} not valid, " +
-                "should be either list, tuple, np.ndarray or tensor")
-        image_size = image_size.tolist()
-
-    height, width = select_best_resolution(image_size, grid_pinpoints)
-    return height // patch_size, width // patch_size
-
-
-def unpad_image(tensor, original_size):
-    original_height, original_width = original_size
-    current_height, current_width = tensor.shape[1:]
-
-    original_aspect_ratio = original_width / original_height
-    current_aspect_ratio = current_width / current_height
-
-    if original_aspect_ratio > current_aspect_ratio:
-        new_height = int(original_height * current_width) // original_width
-        padding = (current_height - new_height) // 2
-        unpadded_tensor = tensor[:, padding:current_height - padding, :]
-    else:
-        new_width = int(original_width * current_height) // original_height
-        padding = (current_width - new_width) // 2
-        unpadded_tensor = tensor[:, :, padding:current_width - padding]
-
-    return unpadded_tensor
+MiniMaxVL01ImageInputs = Union[MiniMaxVL01ImagePixelInputs,
+                               MiniMaxVL01ImageEmbeddingInputs]
 
 
 class MiniMaxVL01MultiModalProjector(nn.Module):
@@ -161,144 +83,29 @@ class MiniMaxVL01MultiModalProjector(nn.Module):
         return hidden_states
 
 
-class MiniMaxVL01LikeConfig(Protocol):
-    vision_config: Final[PretrainedConfig]
-    image_token_index: Final[int]
-    vision_feature_select_strategy: Final[str]
-    vision_feature_layer: Final[Union[int, list[int]]]
-
-
-class MiniMaxVL01LikeProcessor(Protocol):
-    image_token: Final[str]
-
+class MiniMaxVL01DummyInputsBuilder(LlavaDummyInputsBuilder):
+    pass
 
-_I = TypeVar("_I", bound=BaseProcessingInfo)
 
-
-class MiniMaxVL01DummyInputsBuilder(BaseDummyInputsBuilder[_I]):
-
-    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
-        num_images = mm_counts.get("image", 0)
-        processor = self.info.get_hf_processor()
-        image_token = processor.image_token
-        return image_token * num_images
-
-    def get_dummy_mm_data(
-        self,
-        seq_len: int,
-        mm_counts: Mapping[str, int],
-    ) -> MultiModalDataDict:
-        num_images = mm_counts.get("image", 0)
-
-        return {
-            "image":
-            self._get_dummy_images(width=MaxImageTokenMeta.width,
-                                   height=MaxImageTokenMeta.height,
-                                   num_images=num_images)
-        }
-
-
-class MiniMaxVL01ProcessingInfo(BaseProcessingInfo):
+class MiniMaxVL01ProcessingInfo(LlavaNextProcessingInfo):
 
     def get_hf_config(self):
         return self.ctx.get_hf_config(MiniMaxVL01Config)
 
-    def get_supported_mm_limits(self) -> Mapping[str, Optional[int]]:
-        return {"image": None}
-
-    def get_vision_encoder_info(self):
-        return get_vision_encoder_info(self.get_hf_config())
+    def get_hf_processor(self, **kwargs: object):
+        hf_processor = self.ctx.get_hf_processor(**kwargs)
+        image_processor = hf_processor.image_processor
+        image_processor.anyres_preprocess = (
+            image_processor.anyres_for_vllm_preprocess)
 
-    def _apply_feature_select_strategy(
-        self,
-        strategy: str,
-        encoder_num_image_tokens: int,
-    ) -> int:
-        if strategy == "default":
-            return encoder_num_image_tokens - 1
-        if strategy == "full":
-            return encoder_num_image_tokens
-
-        msg = f"Unexpected feature select strategy: {strategy!r}"
-        raise NotImplementedError(msg)
-
-    def get_num_image_tokens(
-        self,
-        *,
-        image_width: int,
-        image_height: int,
-    ) -> int:
-        hf_config = self.get_hf_config()
-        vision_encoder_info = self.get_vision_encoder_info()
-
-        return self._apply_feature_select_strategy(
-            hf_config.vision_feature_select_strategy,
-            vision_encoder_info.get_num_image_tokens(
-                image_width=image_width,
-                image_height=image_height,
-            ),
-        )
+        return hf_processor
 
-    def get_image_size_with_most_features(self) -> ImageSize:
-        vision_encoder_info = self.get_vision_encoder_info()
-        width = height = vision_encoder_info.get_image_size()
-        return ImageSize(width=width, height=height)
-
-    def get_max_image_tokens(self) -> int:
-        target_width, target_height = self.get_image_size_with_most_features()
-
-        return self.get_num_image_tokens(
-            image_width=target_width,
-            image_height=target_height,
-        )
-
-
-class BaseMiniMaxVL01MultiModalProcessor(BaseMultiModalProcessor[_I]):
-
-    # Copied from BaseMultiModalProcessor
-    @abstractmethod
-    def _get_mm_fields_config(
-        self,
-        hf_inputs: BatchFeature,
-        hf_processor_mm_kwargs: Mapping[str, object],
-    ) -> Mapping[str, MultiModalFieldConfig]:
-        raise NotImplementedError
-
-    def _get_prompt_updates(
-        self,
-        mm_items: MultiModalDataItems,
-        hf_processor_mm_kwargs: Mapping[str, object],
-        out_mm_kwargs: MultiModalKwargs,
-    ) -> Sequence[PromptUpdate]:
-        hf_config = self.info.get_hf_config()
-        image_token_id = hf_config.image_token_index
-
-        def get_replacement(item_idx: int):
-            images = mm_items.get_items(
-                "image", (ImageEmbeddingItems, ImageProcessorItems))
-
-            if isinstance(images, ImageEmbeddingItems):
-                num_image_tokens = images.get_feature_size(item_idx)
-            else:
-                image_size = images.get_image_size(item_idx)
-                num_image_tokens = self.info.get_num_image_tokens(
-                    image_width=image_size.width,
-                    image_height=image_size.height,
-                )
-
-            return [image_token_id] * num_image_tokens
-
-        return [
-            PromptReplacement(
-                modality="image",
-                target=[image_token_id],
-                replacement=get_replacement,
-            ),
-        ]
+    def get_supported_mm_limits(self) -> Mapping[str, Optional[int]]:
+        return {"image": None}
 
 
 class MiniMaxVL01MultiModalProcessor(
-        BaseMiniMaxVL01MultiModalProcessor[MiniMaxVL01ProcessingInfo]):
+        BaseLlavaMultiModalProcessor[MiniMaxVL01ProcessingInfo]):
 
     def _call_hf_processor(
         self,
@@ -314,10 +121,9 @@ class MiniMaxVL01MultiModalProcessor(
 
         pixel_values = processed_outputs.get("pixel_values")
         if pixel_values is not None:
+            # Avoid padding since we need the output for each image to be
+            # independent of other images for the cache to work correctly
             image_sizes = processed_outputs["image_sizes"]
-            min_len = min(len(pixel_values), len(image_sizes))
-            pixel_values = pixel_values[:min_len]
-            image_sizes = image_sizes[:min_len]
             assert len(pixel_values) == len(image_sizes)
 
             processed_outputs["pixel_values"] = [
@@ -337,65 +143,6 @@ class MiniMaxVL01MultiModalProcessor(
         }
 
 
-def _get_num_hidden_layers(hf_config: MiniMaxVL01LikeConfig) -> int:
-    """Determine the number of hidden layers to initialize up to in the
-    visual encoder.
-    
-    Args:
-        hf_config: Model config with vision feature layer(s).
-    """
-    feature_layers = hf_config.vision_feature_layer
-    num_hidden_layers = hf_config.vision_config.num_hidden_layers
-    # If we have one feature layer, initialize up to that layer
-    if isinstance(feature_layers, int):
-        return _get_layer_index(feature_layers, num_hidden_layers)
-    # If we have multiple feature layers, initialize up to the deepest one
-    elif isinstance(feature_layers, (list, tuple)):
-        return max(
-            _get_layer_index(idx, num_hidden_layers) for idx in feature_layers)
-    raise TypeError(f"vision_layer_feature type: {type(feature_layers)}"
-                    " is not supported")
-
-
-def _get_layer_index(feature_layer_index: int, num_hidden_layers: int) -> int:
-    """Given a signed vision feature layer, get the number of hidden layers
-    needed to leverage it.
-
-    Args:
-        feature_layer_index: Index of a required layer in the visual encoder.
-        num_hidden_layers: The total number of hidden layers in the visual
-            encoder.
-    """
-    if feature_layer_index < 0:
-        return num_hidden_layers + feature_layer_index + 1
-    return feature_layer_index
-
-
-def init_vision_tower_for_MiniMaxVL01(
-    hf_config: MiniMaxVL01LikeConfig,
-    quant_config: Optional[QuantizationConfig],
-    *,
-    require_post_norm: Optional[bool] = None,
-    prefix: str = "",
-) -> Union[CLIPVisionModel, SiglipVisionModel, PixtralHFVisionModel]:
-    vision_config = hf_config.vision_config
-
-    # Initialize the vision tower only up to the deepest required feature layer
-    num_hidden_layers = _get_num_hidden_layers(hf_config)
-
-    if isinstance(vision_config, CLIPVisionConfig):
-        return CLIPVisionModel(
-            vision_config,
-            quant_config=quant_config,
-            num_hidden_layers_override=num_hidden_layers,
-            require_post_norm=require_post_norm,
-            prefix=prefix,
-        )
-
-    msg = f"Unsupported vision config: {type(vision_config)}"
-    raise NotImplementedError(msg)
-
-
 @MULTIMODAL_REGISTRY.register_processor(
     MiniMaxVL01MultiModalProcessor,
     info=MiniMaxVL01ProcessingInfo,
@@ -419,7 +166,7 @@ class MiniMaxVL01ForConditionalGeneration(nn.Module, SupportsMultiModal,
         self.multimodal_config = multimodal_config
 
         # TODO: Optionally initializes this for supporting embeddings.
-        self.vision_tower = init_vision_tower_for_MiniMaxVL01(
+        self.vision_tower = init_vision_tower_for_llava(
             config,
             quant_config,
             require_post_norm=False,
@@ -476,7 +223,8 @@ class MiniMaxVL01ForConditionalGeneration(nn.Module, SupportsMultiModal,
 
     def _image_pixels_to_features(
         self,
-        vision_tower: Union[CLIPVisionModel],
+        vision_tower: Union[CLIPVisionModel, SiglipVisionModel,
+                            PixtralHFVisionModel],
         pixel_values: Union[torch.Tensor, list[torch.Tensor]],
     ) -> Union[torch.Tensor, tuple[torch.Tensor, ...]]:
         # NOTE: we skip the step to select the vision feature layer since
@@ -496,7 +244,7 @@ class MiniMaxVL01ForConditionalGeneration(nn.Module, SupportsMultiModal,
 
     def _process_image_pixels(
         self,
-        inputs: Union[MiniMaxVL01ImagePixelInputs],
+        inputs: MiniMaxVL01ImagePixelInputs,
     ) -> Union[torch.Tensor, tuple[torch.Tensor, ...]]:
         assert self.vision_tower is not None
 
@@ -506,7 +254,7 @@ class MiniMaxVL01ForConditionalGeneration(nn.Module, SupportsMultiModal,
 
     def _process_image_input(
         self,
-        image_input: MiniMaxVL01ImagePixelInputs,
+        image_input: MiniMaxVL01ImageInputs,
     ) -> Union[torch.Tensor, tuple[torch.Tensor, ...]]:
         if image_input["type"] == "image_embeds":
             return image_input["data"]
@@ -539,7 +287,7 @@ class MiniMaxVL01ForConditionalGeneration(nn.Module, SupportsMultiModal,
         return data
 
     def _parse_and_validate_image_input(
-            self, **kwargs: object) -> Optional[MiniMaxVL01ImagePixelInputs]:
+            self, **kwargs: object) -> Optional[MiniMaxVL01ImageInputs]:
         pixel_values = kwargs.pop("pixel_values", None)
         image_embeds = kwargs.pop("image_embeds", None)
 
-- 
GitLab


From 40896bdf3f22d9681b1cc5831d271fcc7ea56ae8 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 29 Apr 2025 14:46:55 +0100
Subject: [PATCH 021/461] `pre-commit autoupdate` (#17380)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .pre-commit-config.yaml                          | 12 ++++++------
 csrc/moe/marlin_kernels/marlin_moe_kernel.h      |  8 ++++----
 csrc/moe/marlin_moe_wna16/marlin_template.h      |  8 ++++----
 csrc/moe/moe_wna16_utils.h                       | 16 ++++++++--------
 .../gptq_allspark/allspark_qgemm_w8a16.cu        |  2 +-
 csrc/quantization/gptq_marlin/gptq_marlin.cu     | 16 ++++++++--------
 .../marlin/dense/marlin_cuda_kernel.cu           |  4 ++--
 .../marlin/qqq/marlin_qqq_gemm_kernel.cu         |  4 ++--
 csrc/quantization/marlin/sparse/common/mma.h     |  4 ++--
 9 files changed, 37 insertions(+), 37 deletions(-)

diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
index f76b24c02..87681d7eb 100644
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -12,29 +12,29 @@ repos:
   - id: yapf
     args: [--in-place, --verbose]
 - repo: https://github.com/astral-sh/ruff-pre-commit
-  rev: v0.9.3
+  rev: v0.11.7
   hooks:
   - id: ruff
     args: [--output-format, github, --fix]
 - repo: https://github.com/codespell-project/codespell
-  rev: v2.4.0
+  rev: v2.4.1
   hooks:
   - id: codespell
     additional_dependencies: ['tomli']
     args: ['--toml', 'pyproject.toml']
 - repo: https://github.com/PyCQA/isort
-  rev: 0a0b7a830386ba6a31c2ec8316849ae4d1b8240d # 6.0.0
+  rev: 6.0.1
   hooks:
   - id: isort
 - repo: https://github.com/pre-commit/mirrors-clang-format
-  rev: v19.1.7
+  rev: v20.1.3
   hooks:
   - id: clang-format
     exclude: 'csrc/(moe/topk_softmax_kernels.cu|quantization/gguf/(ggml-common.h|dequantize.cuh|vecdotq.cuh|mmq.cuh|mmvq.cuh))|vllm/third_party/.*'
     types_or: [c++, cuda]
     args: [--style=file, --verbose]
 - repo: https://github.com/jackdewinter/pymarkdown
-  rev: v0.9.27
+  rev: v0.9.29
   hooks:
   - id: pymarkdown
     args: [fix]
@@ -43,7 +43,7 @@ repos:
   hooks:
   - id: actionlint
 - repo: https://github.com/astral-sh/uv-pre-commit
-  rev: 0.6.2
+  rev: 0.6.17
   hooks:
     - id: pip-compile
       args: [requirements/test.in, -o, requirements/test.txt]
diff --git a/csrc/moe/marlin_kernels/marlin_moe_kernel.h b/csrc/moe/marlin_kernels/marlin_moe_kernel.h
index 47ecf109d..a217401b3 100644
--- a/csrc/moe/marlin_kernels/marlin_moe_kernel.h
+++ b/csrc/moe/marlin_kernels/marlin_moe_kernel.h
@@ -138,8 +138,8 @@ __device__ inline FragB dequant<vllm::kU4B8.id()>(int q) {
   const int HI = 0x00f000f0;
   const int EX = 0x64006400;
   // Guarantee that the `(a & b) | c` operations are LOP3s.
-  int lo = lop3 < (0xf0 & 0xcc) | 0xaa > (q, LO, EX);
-  int hi = lop3 < (0xf0 & 0xcc) | 0xaa > (q, HI, EX);
+  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
+  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
   // We want signed int4 outputs, hence we fuse the `-8` symmetric zero point
   // directly into `SUB` and `ADD`.
   const int SUB = 0x64086408;
@@ -182,8 +182,8 @@ __device__ inline FragB dequant<vllm::kU4.id()>(int q) {
   const int HI = 0x00f000f0;
   const int EX = 0x64006400;
   // Guarantee that the `(a & b) | c` operations are LOP3s.
-  int lo = lop3 < (0xf0 & 0xcc) | 0xaa > (q, LO, EX);
-  int hi = lop3 < (0xf0 & 0xcc) | 0xaa > (q, HI, EX);
+  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
+  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
 
   const int SUB = 0x64006400;
   const int MUL = 0x2c002c00;
diff --git a/csrc/moe/marlin_moe_wna16/marlin_template.h b/csrc/moe/marlin_moe_wna16/marlin_template.h
index 205b308fe..3705216ca 100644
--- a/csrc/moe/marlin_moe_wna16/marlin_template.h
+++ b/csrc/moe/marlin_moe_wna16/marlin_template.h
@@ -209,8 +209,8 @@ __device__ inline typename ScalarType<half>::FragB dequant<half, 4>(
   const int HI = 0x00f000f0;
   const int EX = 0x64006400;
   // Guarantee that the `(a & b) | c` operations are LOP3s.
-  int lo = lop3 < (0xf0 & 0xcc) | 0xaa > (q, LO, EX);
-  int hi = lop3 < (0xf0 & 0xcc) | 0xaa > (q, HI, EX);
+  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
+  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
   // We want signed int4 outputs, hence we fuse the `-8` symmetric zero point
   // directly into `SUB` and `ADD`.
   const int SUB = 0x64086408;
@@ -233,9 +233,9 @@ dequant<nv_bfloat16, 4>(int q,
 
   // Guarantee that the `(a & b) | c` operations are LOP3s.
 
-  int lo = lop3 < (0xf0 & 0xcc) | 0xaa > (q, MASK, EX);
+  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
   q >>= 4;
-  int hi = lop3 < (0xf0 & 0xcc) | 0xaa > (q, MASK, EX);
+  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
 
   static constexpr uint32_t MUL = 0x3F803F80;
   static constexpr uint32_t ADD = 0xC308C308;
diff --git a/csrc/moe/moe_wna16_utils.h b/csrc/moe/moe_wna16_utils.h
index 4396b8024..8ef03f0e6 100644
--- a/csrc/moe/moe_wna16_utils.h
+++ b/csrc/moe/moe_wna16_utils.h
@@ -108,11 +108,11 @@ __device__ inline void dequant<half2, 4>(int q, half2* res) {
   const int MUL = 0x2c002c00;
   const int ADD = 0xd400d400;
 
-  int lo0 = lop3 < (0xf0 & 0xcc) | 0xaa > (q, LO, EX);
-  int hi0 = lop3 < (0xf0 & 0xcc) | 0xaa > (q, HI, EX);
+  int lo0 = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
+  int hi0 = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
   q >>= 8;
-  int lo1 = lop3 < (0xf0 & 0xcc) | 0xaa > (q, LO, EX);
-  int hi1 = lop3 < (0xf0 & 0xcc) | 0xaa > (q, HI, EX);
+  int lo1 = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
+  int hi1 = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
 
   res[0] = __hsub2(*reinterpret_cast<half2*>(&lo0),
                    *reinterpret_cast<const half2*>(&SUB));
@@ -149,13 +149,13 @@ __device__ inline void dequant<nv_bfloat162, 4>(int q, nv_bfloat162* res) {
   static constexpr uint32_t MASK = 0x000f000f;
   static constexpr uint32_t EX = 0x43004300;
 
-  int lo0 = lop3 < (0xf0 & 0xcc) | 0xaa > (q, MASK, EX);
+  int lo0 = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
   q >>= 4;
-  int hi0 = lop3 < (0xf0 & 0xcc) | 0xaa > (q, MASK, EX);
+  int hi0 = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
   q >>= 4;
-  int lo1 = lop3 < (0xf0 & 0xcc) | 0xaa > (q, MASK, EX);
+  int lo1 = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
   q >>= 4;
-  int hi1 = lop3 < (0xf0 & 0xcc) | 0xaa > (q, MASK, EX);
+  int hi1 = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
 
   static constexpr uint32_t MUL = 0x3F803F80;
   static constexpr uint32_t ADD = 0xC300C300;
diff --git a/csrc/quantization/gptq_allspark/allspark_qgemm_w8a16.cu b/csrc/quantization/gptq_allspark/allspark_qgemm_w8a16.cu
index ec0bf2c3c..ea3bb4299 100644
--- a/csrc/quantization/gptq_allspark/allspark_qgemm_w8a16.cu
+++ b/csrc/quantization/gptq_allspark/allspark_qgemm_w8a16.cu
@@ -347,7 +347,7 @@ struct ComputeTile_W8A16_PerC_MtilexNtilex32_multistage_SM8x_SplitK {
       for (int n_idx = 0; n_idx < WARP_NITER; ++n_idx) {
         hmma16816_f32<FType>(
             C_frag[m_idx][n_idx], A_frag[reg_buf_idx][m_idx],
-            reinterpret_cast<uint32_t(&)[2]>(BF_frag[reg_buf_idx][n_idx]));
+            reinterpret_cast<uint32_t (&)[2]>(BF_frag[reg_buf_idx][n_idx]));
       }
     }
   }
diff --git a/csrc/quantization/gptq_marlin/gptq_marlin.cu b/csrc/quantization/gptq_marlin/gptq_marlin.cu
index 83bbd1e68..a974c881e 100644
--- a/csrc/quantization/gptq_marlin/gptq_marlin.cu
+++ b/csrc/quantization/gptq_marlin/gptq_marlin.cu
@@ -173,8 +173,8 @@ dequant<half, vllm::kU4B8.id()>(int q) {
   const int HI = 0x00f000f0;
   const int EX = 0x64006400;
   // Guarantee that the `(a & b) | c` operations are LOP3s.
-  int lo = lop3 < (0xf0 & 0xcc) | 0xaa > (q, LO, EX);
-  int hi = lop3 < (0xf0 & 0xcc) | 0xaa > (q, HI, EX);
+  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
+  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
   // We want signed int4 outputs, hence we fuse the `-8` symmetric zero point
   // directly into `SUB` and `ADD`.
   const int SUB = 0x64086408;
@@ -197,9 +197,9 @@ dequant<nv_bfloat16, vllm::kU4B8.id()>(int q) {
 
   // Guarantee that the `(a & b) | c` operations are LOP3s.
 
-  int lo = lop3 < (0xf0 & 0xcc) | 0xaa > (q, MASK, EX);
+  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
   q >>= 4;
-  int hi = lop3 < (0xf0 & 0xcc) | 0xaa > (q, MASK, EX);
+  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
 
   typename ScalarType<nv_bfloat16>::FragB frag_b;
   static constexpr uint32_t MUL = 0x3F803F80;
@@ -221,8 +221,8 @@ dequant<half, vllm::kU4.id()>(int q) {
   const int HI = 0x00f000f0;
   const int EX = 0x64006400;
   // Guarantee that the `(a & b) | c` operations are LOP3s.
-  int lo = lop3 < (0xf0 & 0xcc) | 0xaa > (q, LO, EX);
-  int hi = lop3 < (0xf0 & 0xcc) | 0xaa > (q, HI, EX);
+  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
+  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
 
   const int SUB = 0x64006400;
   const int MUL = 0x2c002c00;
@@ -244,9 +244,9 @@ dequant<nv_bfloat16, vllm::kU4.id()>(int q) {
 
   // Guarantee that the `(a & b) | c` operations are LOP3s.
 
-  int lo = lop3 < (0xf0 & 0xcc) | 0xaa > (q, MASK, EX);
+  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
   q >>= 4;
-  int hi = lop3 < (0xf0 & 0xcc) | 0xaa > (q, MASK, EX);
+  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
 
   typename ScalarType<nv_bfloat16>::FragB frag_b;
   static constexpr uint32_t MUL = 0x3F803F80;
diff --git a/csrc/quantization/marlin/dense/marlin_cuda_kernel.cu b/csrc/quantization/marlin/dense/marlin_cuda_kernel.cu
index ba0a2410c..ea96326ed 100644
--- a/csrc/quantization/marlin/dense/marlin_cuda_kernel.cu
+++ b/csrc/quantization/marlin/dense/marlin_cuda_kernel.cu
@@ -96,8 +96,8 @@ __device__ inline FragB dequant(int q) {
   const int HI = 0x00f000f0;
   const int EX = 0x64006400;
   // Guarantee that the `(a & b) | c` operations are LOP3s.
-  int lo = lop3 < (0xf0 & 0xcc) | 0xaa > (q, LO, EX);
-  int hi = lop3 < (0xf0 & 0xcc) | 0xaa > (q, HI, EX);
+  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
+  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
   // We want signed int4 outputs, hence we fuse the `-8` symmetric zero point
   // directly into `SUB` and `ADD`.
   const int SUB = 0x64086408;
diff --git a/csrc/quantization/marlin/qqq/marlin_qqq_gemm_kernel.cu b/csrc/quantization/marlin/qqq/marlin_qqq_gemm_kernel.cu
index cd1830764..c96d68d9b 100644
--- a/csrc/quantization/marlin/qqq/marlin_qqq_gemm_kernel.cu
+++ b/csrc/quantization/marlin/qqq/marlin_qqq_gemm_kernel.cu
@@ -141,8 +141,8 @@ __device__ inline FragB dequant_per_group(int q, FragS_GROUP& frag_s, int i) {
   static constexpr uint32_t HI = 0x00f000f0;
   static constexpr uint32_t EX = 0x64006400;
   // Guarantee that the `(a & b) | c` operations are LOP3s.
-  uint32_t t0 = lop3 < (0xf0 & 0xcc) | 0xaa > (q, LO, EX);
-  uint32_t t1 = lop3 < (0xf0 & 0xcc) | 0xaa > (q, HI, EX);
+  uint32_t t0 = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
+  uint32_t t1 = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
   // We want signed int4 outputs, hence we fuse the `-8` symmetric zero point
   // directly into `SUB` and `ADD`.
   static constexpr uint32_t SUB = 0x64086408;
diff --git a/csrc/quantization/marlin/sparse/common/mma.h b/csrc/quantization/marlin/sparse/common/mma.h
index 49eee4128..b26505f77 100644
--- a/csrc/quantization/marlin/sparse/common/mma.h
+++ b/csrc/quantization/marlin/sparse/common/mma.h
@@ -127,8 +127,8 @@ __device__ inline FragB dequant_4bit(int q) {
   const int HI = 0x00f000f0;
   const int EX = 0x64006400;
   // Guarantee that the `(a & b) | c` operations are LOP3s.
-  int lo = lop3 < (0xf0 & 0xcc) | 0xaa > (q, LO, EX);
-  int hi = lop3 < (0xf0 & 0xcc) | 0xaa > (q, HI, EX);
+  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
+  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
   // We want signed int4 outputs, hence we fuse the `-8` symmetric zero point
   // directly into `SUB` and `ADD`.
   const int SUB = 0x64086408;
-- 
GitLab


From 88ad9ec6b23b79c358ce279b02a67e7c96e2c8b9 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Tue, 29 Apr 2025 22:03:35 +0800
Subject: [PATCH 022/461] [Frontend] Support `chat_template_kwargs` in
 `LLM.chat` (#17356)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 tests/entrypoints/llm/test_chat.py | 109 ++++++++++++++++++++++++-----
 vllm/entrypoints/llm.py            |  21 +++---
 2 files changed, 106 insertions(+), 24 deletions(-)

diff --git a/tests/entrypoints/llm/test_chat.py b/tests/entrypoints/llm/test_chat.py
index 6a4862123..742a66683 100644
--- a/tests/entrypoints/llm/test_chat.py
+++ b/tests/entrypoints/llm/test_chat.py
@@ -1,15 +1,31 @@
 # SPDX-License-Identifier: Apache-2.0
+import weakref
 
 import pytest
 
 from vllm import LLM
+from vllm.distributed import cleanup_dist_env_and_memory
 
 from ..openai.test_vision import TEST_IMAGE_URLS
 
 
-def test_chat():
-    llm = LLM(model="meta-llama/Llama-3.2-1B-Instruct")
+@pytest.fixture(scope="function")
+def text_llm():
+    # pytest caches the fixture so we use weakref.proxy to
+    # enable garbage collection
+    llm = LLM(model="meta-llama/Llama-3.2-1B-Instruct",
+              enforce_eager=True,
+              seed=0)
 
+    with llm.deprecate_legacy_api():
+        yield weakref.proxy(llm)
+
+        del llm
+
+    cleanup_dist_env_and_memory()
+
+
+def test_chat(text_llm):
     prompt1 = "Explain the concept of entropy."
     messages = [
         {
@@ -21,13 +37,11 @@ def test_chat():
             "content": prompt1
         },
     ]
-    outputs = llm.chat(messages)
+    outputs = text_llm.chat(messages)
     assert len(outputs) == 1
 
 
-def test_multi_chat():
-    llm = LLM(model="meta-llama/Llama-3.2-1B-Instruct")
-
+def test_multi_chat(text_llm):
     prompt1 = "Explain the concept of entropy."
     prompt2 = "Explain what among us is."
 
@@ -55,13 +69,14 @@ def test_multi_chat():
 
     messages = [conversation1, conversation2]
 
-    outputs = llm.chat(messages)
+    outputs = text_llm.chat(messages)
     assert len(outputs) == 2
 
 
-@pytest.mark.parametrize("image_urls",
-                         [[TEST_IMAGE_URLS[0], TEST_IMAGE_URLS[1]]])
-def test_chat_multi_image(image_urls: list[str]):
+@pytest.fixture(scope="function")
+def vision_llm():
+    # pytest caches the fixture so we use weakref.proxy to
+    # enable garbage collection
     llm = LLM(
         model="microsoft/Phi-3.5-vision-instruct",
         max_model_len=4096,
@@ -69,8 +84,20 @@ def test_chat_multi_image(image_urls: list[str]):
         enforce_eager=True,
         trust_remote_code=True,
         limit_mm_per_prompt={"image": 2},
+        seed=0,
     )
 
+    with llm.deprecate_legacy_api():
+        yield weakref.proxy(llm)
+
+        del llm
+
+    cleanup_dist_env_and_memory()
+
+
+@pytest.mark.parametrize("image_urls",
+                         [[TEST_IMAGE_URLS[0], TEST_IMAGE_URLS[1]]])
+def test_chat_multi_image(vision_llm, image_urls: list[str]):
     messages = [{
         "role":
         "user",
@@ -87,16 +114,15 @@ def test_chat_multi_image(image_urls: list[str]):
             },
         ],
     }]
-    outputs = llm.chat(messages)
+    outputs = vision_llm.chat(messages)
     assert len(outputs) >= 0
 
 
-def test_llm_chat_tokenization_no_double_bos():
+def test_llm_chat_tokenization_no_double_bos(text_llm):
     """
     LLM.chat() should not add special tokens when using chat templates.
     Check we get a single BOS token for llama chat.
     """
-    llm = LLM(model="meta-llama/Llama-3.2-1B-Instruct", enforce_eager=True)
     messages = [
         {
             "role": "system",
@@ -107,13 +133,64 @@ def test_llm_chat_tokenization_no_double_bos():
             "content": "Hello!"
         },
     ]
-    outputs = llm.chat(messages)
+    outputs = text_llm.chat(messages)
     assert len(outputs) == 1
-    prompt_token_ids = getattr(outputs[0], "prompt_token_ids", None)
+
+    prompt_token_ids = outputs[0].prompt_token_ids
     assert prompt_token_ids is not None
 
-    bos_token = llm.get_tokenizer().bos_token_id
+    bos_token = text_llm.get_tokenizer().bos_token_id
 
     # Ensure we have a single BOS
     assert prompt_token_ids[0] == bos_token
     assert prompt_token_ids[1] != bos_token, "Double BOS"
+
+
+@pytest.fixture(scope="function")
+def thinking_llm():
+    # pytest caches the fixture so we use weakref.proxy to
+    # enable garbage collection
+    llm = LLM(
+        model="Qwen/Qwen3-0.6B",
+        max_model_len=4096,
+        enforce_eager=True,
+        seed=0,
+    )
+
+    with llm.deprecate_legacy_api():
+        yield weakref.proxy(llm)
+
+        del llm
+
+    cleanup_dist_env_and_memory()
+
+
+@pytest.mark.parametrize("enable_thinking", [True, False])
+def test_chat_extra_kwargs(thinking_llm, enable_thinking):
+    messages = [
+        {
+            "role": "system",
+            "content": "You are a helpful assistant"
+        },
+        {
+            "role": "user",
+            "content": "What is 1+1?"
+        },
+    ]
+
+    outputs = thinking_llm.chat(
+        messages,
+        chat_template_kwargs={"enable_thinking": enable_thinking},
+    )
+    assert len(outputs) == 1
+
+    prompt_token_ids = outputs[0].prompt_token_ids
+    assert prompt_token_ids is not None
+
+    think_id = thinking_llm.get_tokenizer().get_vocab()["<think>"]
+
+    if enable_thinking:
+        assert think_id not in prompt_token_ids
+    else:
+        # The chat template includes dummy thinking process
+        assert think_id in prompt_token_ids
diff --git a/vllm/entrypoints/llm.py b/vllm/entrypoints/llm.py
index 653e61a11..948e8f36e 100644
--- a/vllm/entrypoints/llm.py
+++ b/vllm/entrypoints/llm.py
@@ -656,6 +656,7 @@ class LLM:
         add_generation_prompt: bool = True,
         continue_final_message: bool = False,
         tools: Optional[list[dict[str, Any]]] = None,
+        chat_template_kwargs: Optional[dict[str, Any]] = None,
         mm_processor_kwargs: Optional[dict[str, Any]] = None,
     ) -> list[RequestOutput]:
         """
@@ -696,6 +697,8 @@ class LLM:
             continue_final_message: If True, continues the final message in
                 the conversation instead of starting a new one. Cannot be
                 ``True`` if ``add_generation_prompt`` is also ``True``.
+            chat_template_kwargs: Additional kwargs to pass to the chat
+                template.
             mm_processor_kwargs: Multimodal processor kwarg overrides for this
                 chat request. Only used for offline requests.
 
@@ -726,6 +729,14 @@ class LLM:
             trust_remote_code=model_config.trust_remote_code,
         )
 
+        _chat_template_kwargs: dict[str, Any] = dict(
+            chat_template=chat_template,
+            add_generation_prompt=add_generation_prompt,
+            continue_final_message=continue_final_message,
+            tools=tools,
+        )
+        _chat_template_kwargs.update(chat_template_kwargs or {})
+
         prompts: list[Union[TokensPrompt, TextPrompt]] = []
 
         for msgs in list_of_messages:
@@ -743,20 +754,14 @@ class LLM:
                 prompt_token_ids = apply_mistral_chat_template(
                     tokenizer,
                     messages=msgs,
-                    chat_template=chat_template,
-                    tools=tools,
-                    add_generation_prompt=add_generation_prompt,
-                    continue_final_message=continue_final_message,
+                    **_chat_template_kwargs,
                 )
             else:
                 prompt_str = apply_hf_chat_template(
                     tokenizer,
                     trust_remote_code=model_config.trust_remote_code,
                     conversation=conversation,
-                    chat_template=chat_template,
-                    tools=tools,
-                    add_generation_prompt=add_generation_prompt,
-                    continue_final_message=continue_final_message,
+                    **_chat_template_kwargs,
                 )
                 # Special tokens are already included in chat templates so
                 # should not be added by the tokenizer in this case.
-- 
GitLab


From 900edfa8d4081b99ac6891c6b3cc65076ee3f9af Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 29 Apr 2025 17:08:03 +0100
Subject: [PATCH 023/461] Transformers backend tweaks (#17365)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 vllm/model_executor/models/transformers.py | 22 +++++++++-------------
 1 file changed, 9 insertions(+), 13 deletions(-)

diff --git a/vllm/model_executor/models/transformers.py b/vllm/model_executor/models/transformers.py
index ad7c07dc8..7b946ad6a 100644
--- a/vllm/model_executor/models/transformers.py
+++ b/vllm/model_executor/models/transformers.py
@@ -15,7 +15,6 @@
 # limitations under the License.
 """Wrapper around `transformers` models"""
 import re
-from itertools import chain
 from typing import Iterable, Literal, Optional, Union
 
 import torch
@@ -166,12 +165,9 @@ class TransformersModel(nn.Module):
         # Initialize buffers (e.g. rotary embedding inverse frequency)
         self.init_buffers(self.model)
 
-        # Initialize parameters
+        # Initialize any parameters that have not had their modules replaced
         self.init_parameters(self.model)
 
-        # Move remaining meta tensors to device (should happen last)
-        self.meta_to_empty(self.model)
-
         self.make_empty_intermediate_tensors = (
             make_empty_intermediate_tensors_factory(["hidden_states"],
                                                     config.hidden_size))
@@ -296,6 +292,14 @@ class TransformersModel(nn.Module):
         """
         for name, buffer in module.named_buffers(recurse=False):
             if buffer.device == torch.device("meta"):
+                if module == self.model:
+                    logger.warning(
+                        "To initialize buffers correctly, we instantiate the "
+                        "parent module and and extract the value of the "
+                        "buffer from it. In this case, the parent module is "
+                        "the base model. Instantiating the entire model here "
+                        "risks GPU OOM. Could this buffer be moved to a child "
+                        "module?")
                 new_buffer = getattr(type(module)(self.config), name)
                 setattr(module, name, new_buffer)
         for child in module.children():
@@ -320,14 +324,6 @@ class TransformersModel(nn.Module):
         for child in module.children():
             self.init_parameters(child)
 
-    def meta_to_empty(self, module: nn.Module):
-        tensors = list(chain(module.buffers(), module.parameters()))
-        if tensors and all(t.device == torch.device("meta") for t in tensors):
-            module.to_empty(device=self.device_config.device)
-            return  # We can stop recursing because to_empty is recursive
-        for child in module.children():
-            self.meta_to_empty(child)
-
     def get_input_embeddings(self) -> nn.Module:
         return self.model.get_input_embeddings()
 
-- 
GitLab


From 0ed27ef66ca7d7fec3c9bb8e33709ade1c73b4ad Mon Sep 17 00:00:00 2001
From: a2q1p <a2q1p.2025@gmail.com>
Date: Wed, 30 Apr 2025 00:23:39 +0800
Subject: [PATCH 024/461] Fix: Spelling of inference (#17387)

---
 .../quantization/compressed_tensors/compressed_tensors.py       | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
index 7b0032572..5be6b22c7 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
@@ -384,7 +384,7 @@ class CompressedTensorsConfig(QuantizationConfig):
 
         Detect whether a layer_name is found in any target and
         use the quantization scheme corresponding to the matched target
-        to select the CompressedTensorsScheme used for infernece.
+        to select the CompressedTensorsScheme used for inference.
         """
 
         # Find the "target" in the compressed-tensors config
-- 
GitLab


From 2ef5d106bbf269563889308039ab10b149b57008 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 29 Apr 2025 17:25:08 +0100
Subject: [PATCH 025/461] Improve literal dataclass field conversion to
 argparse argument (#17391)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 tests/engine/test_arg_utils.py | 34 +++++++++++++++++++++++++++++----
 tests/test_config.py           | 35 +++++++++++++++++++++++++++++++++-
 vllm/config.py                 | 19 ++++++++++++++----
 vllm/engine/arg_utils.py       | 27 +++++++++++++++++---------
 4 files changed, 97 insertions(+), 18 deletions(-)

diff --git a/tests/engine/test_arg_utils.py b/tests/engine/test_arg_utils.py
index 052d5793c..2c8665802 100644
--- a/tests/engine/test_arg_utils.py
+++ b/tests/engine/test_arg_utils.py
@@ -11,7 +11,8 @@ import pytest
 from vllm.config import PoolerConfig, config
 from vllm.engine.arg_utils import (EngineArgs, contains_type, get_kwargs,
                                    get_type, is_not_builtin, is_type,
-                                   nullable_kvs, optional_type)
+                                   literal_to_kwargs, nullable_kvs,
+                                   optional_type)
 from vllm.utils import FlexibleArgumentParser
 
 
@@ -71,6 +72,21 @@ def test_get_type(type_hints, type, expected):
     assert get_type(type_hints, type) == expected
 
 
+@pytest.mark.parametrize(("type_hints", "expected"), [
+    ({Literal[1, 2]}, {
+        "type": int,
+        "choices": [1, 2]
+    }),
+    ({Literal[1, "a"]}, Exception),
+])
+def test_literal_to_kwargs(type_hints, expected):
+    context = nullcontext()
+    if expected is Exception:
+        context = pytest.raises(expected)
+    with context:
+        assert literal_to_kwargs(type_hints) == expected
+
+
 @config
 @dataclass
 class DummyConfigClass:
@@ -81,11 +97,15 @@ class DummyConfigClass:
     optional_literal: Optional[Literal["x", "y"]] = None
     """Optional literal with default None"""
     tuple_n: tuple[int, ...] = field(default_factory=lambda: (1, 2, 3))
-    """Tuple with default (1, 2, 3)"""
+    """Tuple with variable length"""
     tuple_2: tuple[int, int] = field(default_factory=lambda: (1, 2))
-    """Tuple with default (1, 2)"""
+    """Tuple with fixed length"""
     list_n: list[int] = field(default_factory=lambda: [1, 2, 3])
-    """List with default [1, 2, 3]"""
+    """List with variable length"""
+    list_literal: list[Literal[1, 2]] = field(default_factory=list)
+    """List with literal choices"""
+    literal_literal: Literal[Literal[1], Literal[2]] = 1
+    """Literal of literals with default 1"""
 
 
 @pytest.mark.parametrize(("type_hint", "expected"), [
@@ -111,6 +131,12 @@ def test_get_kwargs():
     # lists should work
     assert kwargs["list_n"]["type"] is int
     assert kwargs["list_n"]["nargs"] == "+"
+    # lists with literals should have the correct choices
+    assert kwargs["list_literal"]["type"] is int
+    assert kwargs["list_literal"]["nargs"] == "+"
+    assert kwargs["list_literal"]["choices"] == [1, 2]
+    # literals of literals should have merged choices
+    assert kwargs["literal_literal"]["choices"] == [1, 2]
 
 
 @pytest.mark.parametrize(("arg", "expected"), [
diff --git a/tests/test_config.py b/tests/test_config.py
index 53db91e81..2e5da8128 100644
--- a/tests/test_config.py
+++ b/tests/test_config.py
@@ -1,14 +1,47 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from dataclasses import MISSING, Field, asdict, dataclass, field
+from typing import Literal, Union
 
 import pytest
 
-from vllm.config import ModelConfig, PoolerConfig, get_field
+from vllm.config import ModelConfig, PoolerConfig, config, get_field
 from vllm.model_executor.layers.pooler import PoolingType
 from vllm.platforms import current_platform
 
 
+class TestConfig1:
+    pass
+
+
+@dataclass
+class TestConfig2:
+    a: int
+    """docstring"""
+
+
+@dataclass
+class TestConfig3:
+    a: int = 1
+
+
+@dataclass
+class TestConfig4:
+    a: Union[Literal[1], Literal[2]] = 1
+    """docstring"""
+
+
+@pytest.mark.parametrize(("test_config", "expected_error"), [
+    (TestConfig1, "must be a dataclass"),
+    (TestConfig2, "must have a default"),
+    (TestConfig3, "must have a docstring"),
+    (TestConfig4, "must use a single Literal"),
+])
+def test_config(test_config, expected_error):
+    with pytest.raises(Exception, match=expected_error):
+        config(test_config)
+
+
 def test_get_field():
 
     @dataclass
diff --git a/vllm/config.py b/vllm/config.py
index c1c72846d..8f927835d 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -17,7 +17,7 @@ from dataclasses import (MISSING, dataclass, field, fields, is_dataclass,
 from importlib.util import find_spec
 from pathlib import Path
 from typing import (TYPE_CHECKING, Any, Callable, ClassVar, Final, Literal,
-                    Optional, Protocol, TypeVar, Union, get_args)
+                    Optional, Protocol, TypeVar, Union, get_args, get_origin)
 
 import torch
 from pydantic import BaseModel, Field, PrivateAttr
@@ -177,9 +177,19 @@ def config(cls: ConfigT) -> ConfigT:
             raise ValueError(
                 f"Field '{f.name}' in {cls.__name__} must have a default value."
             )
+
         if f.name not in attr_docs:
             raise ValueError(
                 f"Field '{f.name}' in {cls.__name__} must have a docstring.")
+
+        if get_origin(f.type) is Union:
+            args = get_args(f.type)
+            literal_args = [arg for arg in args if get_origin(arg) is Literal]
+            if len(literal_args) > 1:
+                raise ValueError(
+                    f"Field '{f.name}' in {cls.__name__} must use a single "
+                    "Literal type. Please use 'Literal[Literal1, Literal2]' "
+                    "instead of 'Union[Literal1, Literal2]'.")
     return cls
 
 
@@ -3166,6 +3176,8 @@ def get_served_model_name(model: str,
 GuidedDecodingBackendV0 = Literal["auto", "outlines", "lm-format-enforcer",
                                   "xgrammar", "guidance"]
 GuidedDecodingBackendV1 = Literal["auto", "xgrammar", "guidance"]
+GuidedDecodingBackend = Literal[GuidedDecodingBackendV0,
+                                GuidedDecodingBackendV1]
 
 
 @config
@@ -3173,9 +3185,8 @@ GuidedDecodingBackendV1 = Literal["auto", "xgrammar", "guidance"]
 class DecodingConfig:
     """Dataclass which contains the decoding strategy of the engine."""
 
-    guided_decoding_backend: Union[
-        GuidedDecodingBackendV0,
-        GuidedDecodingBackendV1] = "auto" if envs.VLLM_USE_V1 else "xgrammar"
+    guided_decoding_backend: GuidedDecodingBackend = \
+        "auto" if envs.VLLM_USE_V1 else "xgrammar"
     """Which engine will be used for guided decoding (JSON schema / regex etc)
     by default. With "auto", we will make opinionated choices based on request
     contents and what the backend libraries currently support, so the behavior
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index ad2624123..fe688025f 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -116,6 +116,18 @@ def get_type(type_hints: set[TypeHint], type: TypeHintT) -> TypeHintT:
     return next((th for th in type_hints if is_type(th, type)), None)
 
 
+def literal_to_kwargs(type_hints: set[TypeHint]) -> dict[str, Any]:
+    """Convert Literal type hints to argparse kwargs."""
+    type_hint = get_type(type_hints, Literal)
+    choices = get_args(type_hint)
+    choice_type = type(choices[0])
+    if not all(isinstance(choice, choice_type) for choice in choices):
+        raise ValueError(
+            "All choices must be of the same type. "
+            f"Got {choices} with types {[type(c) for c in choices]}")
+    return {"type": choice_type, "choices": sorted(choices)}
+
+
 def is_not_builtin(type_hint: TypeHint) -> bool:
     """Check if the class is not a built-in type."""
     return type_hint.__module__ != "builtins"
@@ -151,15 +163,7 @@ def get_kwargs(cls: ConfigType) -> dict[str, Any]:
             # Creates --no-<name> and --<name> flags
             kwargs[name]["action"] = argparse.BooleanOptionalAction
         elif contains_type(type_hints, Literal):
-            # Creates choices from Literal arguments
-            type_hint = get_type(type_hints, Literal)
-            choices = sorted(get_args(type_hint))
-            kwargs[name]["choices"] = choices
-            choice_type = type(choices[0])
-            assert all(type(c) is choice_type for c in choices), (
-                "All choices must be of the same type. "
-                f"Got {choices} with types {[type(c) for c in choices]}")
-            kwargs[name]["type"] = choice_type
+            kwargs[name].update(literal_to_kwargs(type_hints))
         elif contains_type(type_hints, tuple):
             type_hint = get_type(type_hints, tuple)
             types = get_args(type_hint)
@@ -191,6 +195,11 @@ def get_kwargs(cls: ConfigType) -> dict[str, Any]:
             raise ValueError(
                 f"Unsupported type {type_hints} for argument {name}.")
 
+        # If the type hint was a sequence of literals, use the helper function
+        # to update the type and choices
+        if get_origin(kwargs[name].get("type")) is Literal:
+            kwargs[name].update(literal_to_kwargs({kwargs[name]["type"]}))
+
         # If None is in type_hints, make the argument optional.
         # But not if it's a bool, argparse will handle this better.
         if type(None) in type_hints and not contains_type(type_hints, bool):
-- 
GitLab


From 24e6ad3f16d59005cdfc4de6c7bdeb4359b5d21c Mon Sep 17 00:00:00 2001
From: Chen Zhang <zhangch99@outlook.com>
Date: Wed, 30 Apr 2025 00:28:41 +0800
Subject: [PATCH 026/461] [V1] Remove num_input_tokens from attn_metadata
 (#17193)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>
---
 vllm/forward_context.py                  | 16 +++++++---------
 vllm/v1/attention/backends/flash_attn.py |  3 ---
 vllm/v1/attention/backends/flashinfer.py |  3 ---
 vllm/v1/attention/backends/mla/common.py |  3 ---
 vllm/v1/worker/gpu_model_runner.py       |  5 +++--
 vllm/v1/worker/tpu_model_runner.py       |  5 ++++-
 6 files changed, 14 insertions(+), 21 deletions(-)

diff --git a/vllm/forward_context.py b/vllm/forward_context.py
index 06790d8ee..c75d8f088 100644
--- a/vllm/forward_context.py
+++ b/vllm/forward_context.py
@@ -74,15 +74,13 @@ def set_forward_context(attn_metadata: Any,
     if vllm_config.parallel_config.data_parallel_size > 1:
         dp_size = vllm_config.parallel_config.data_parallel_size
         dp_rank = vllm_config.parallel_config.data_parallel_rank
-        if attn_metadata is not None:
-            if hasattr(attn_metadata, "num_prefill_tokens"):
-                # for v0 attention backends
-                batchsize = attn_metadata.num_prefill_tokens + \
-                    attn_metadata.num_decode_tokens
-            else:
-                # for v1 attention backends
-                batchsize = attn_metadata.num_input_tokens
+        if attn_metadata is not None and hasattr(attn_metadata,
+                                                 "num_prefill_tokens"):
+            # for v0 attention backends
+            batchsize = attn_metadata.num_prefill_tokens + \
+                attn_metadata.num_decode_tokens
         else:
+            # for v1 attention backends or no attn_metadata
             batchsize = num_tokens
         num_tokens_across_dp = [0] * dp_size
         num_tokens_across_dp[dp_rank] = batchsize
@@ -124,7 +122,7 @@ def set_forward_context(attn_metadata: Any,
                     attn_metadata.num_decode_tokens
             else:
                 # for v1 attention backends
-                batchsize = attn_metadata.num_input_tokens
+                batchsize = num_tokens
             # we use synchronous scheduling right now,
             # adding a sync point here should not affect
             # scheduling of the next batch
diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index 41bb9aba2..217dcd7c3 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -94,9 +94,6 @@ class FlashAttentionMetadata:
     scheduler_metadata: Optional[torch.Tensor] = None
     prefix_scheduler_metadata: Optional[torch.Tensor] = None
 
-    # For logging.
-    num_input_tokens: int = 0  # Number of tokens including padding.
-
     # for local attention
     @dataclass
     class LocalAttentionMetadata:
diff --git a/vllm/v1/attention/backends/flashinfer.py b/vllm/v1/attention/backends/flashinfer.py
index bce446bd2..6e964b471 100755
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -183,9 +183,6 @@ class FlashInferMetadata:
     decode_wrapper: Optional[BatchDecodeWithPagedKVCacheWrapper] = None
     cascade_wrapper: Optional[MultiLevelCascadeAttentionWrapper] = None
 
-    # For logging.
-    num_input_tokens: int = 0  # Number of tokens including padding.
-
     @property
     def query_start_loc(self):
         # The GPUModelRunner expects to be able to access this property.
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index b032006d1..fd3be901f 100644
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -312,9 +312,6 @@ class MLACommonMetadata(Generic[D]):
     num_decode_tokens: int
     num_prefills: int
 
-    # For logging.
-    num_input_tokens: int = 0  # Number of tokens including padding.
-
     # The dimension of the attention heads
     head_dim: Optional[int] = None
 
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index e3d8b94fe..4711beadb 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -1036,7 +1036,6 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                 num_input_tokens = round_up(num_scheduled_tokens, tp_size)
             else:
                 num_input_tokens = num_scheduled_tokens
-        attn_metadata.num_input_tokens = num_input_tokens
 
         # _prepare_inputs may reorder the batch, so we must gather multi
         # modal outputs after that to ensure the correct order
@@ -1088,7 +1087,9 @@ class GPUModelRunner(LoRAModelRunnerMixin):
 
         # Run the decoder.
         # Use persistent buffers for CUDA graphs.
-        with set_forward_context(attn_metadata, self.vllm_config):
+        with set_forward_context(attn_metadata,
+                                 self.vllm_config,
+                                 num_tokens=num_input_tokens):
             output = self.model(
                 input_ids=input_ids,
                 positions=positions,
diff --git a/vllm/v1/worker/tpu_model_runner.py b/vllm/v1/worker/tpu_model_runner.py
index 67f8af29d..d716542f7 100644
--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@@ -769,7 +769,10 @@ class TPUModelRunner:
         xm.mark_step()
         num_reqs = self.input_batch.num_reqs
         # Run the decoder
-        with set_forward_context(attn_metadata, self.vllm_config):
+        with set_forward_context(
+                attn_metadata,
+                self.vllm_config,
+                num_tokens=scheduler_output.total_num_scheduled_tokens):
             hidden_states = self.model(
                 input_ids=input_ids,
                 positions=self.position_ids,
-- 
GitLab


From a39203f99ed426eef8b55927cb8f8668644d0a86 Mon Sep 17 00:00:00 2001
From: mofanke <54242816+mofanke@users.noreply.github.com>
Date: Wed, 30 Apr 2025 00:32:40 +0800
Subject: [PATCH 027/461] =?UTF-8?q?[Bugfix]=20add=20qwen3=20reasoning-pars?=
 =?UTF-8?q?er=20fix=20content=20is=20None=20when=20disable=20=E2=80=A6=20(?=
 =?UTF-8?q?#17369)?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: mofanke <mofanke@gmail.com>
---
 docs/source/features/reasoning_outputs.md     |   1 +
 .../reasoning/test_qwen3_reasoning_parser.py  | 141 ++++++++++++++++++
 vllm/reasoning/__init__.py                    |   2 +
 vllm/reasoning/qwen3_reasoning_parser.py      | 138 +++++++++++++++++
 4 files changed, 282 insertions(+)
 create mode 100644 tests/reasoning/test_qwen3_reasoning_parser.py
 create mode 100644 vllm/reasoning/qwen3_reasoning_parser.py

diff --git a/docs/source/features/reasoning_outputs.md b/docs/source/features/reasoning_outputs.md
index 3a0be69f8..323bf849a 100644
--- a/docs/source/features/reasoning_outputs.md
+++ b/docs/source/features/reasoning_outputs.md
@@ -15,6 +15,7 @@ vLLM currently supports the following reasoning models:
 | [DeepSeek R1 series](https://huggingface.co/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d) | `deepseek_r1` | `guided_json`, `guided_regex` | ❌ |
 | [QwQ-32B](https://huggingface.co/Qwen/QwQ-32B) | `deepseek_r1` | `guided_json`, `guided_regex` | ✅ |
 | [IBM Granite 3.2 language models](https://huggingface.co/collections/ibm-granite/granite-32-language-models-67b3bc8c13508f6d064cff9a) | `granite` | ❌ | ❌ |
+| [Qwen3 series](https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f) | `qwen3` | `guided_json`, `guided_regex` | ✅ |
 
 - IBM Granite 3.2 reasoning is disabled by default; to enable it, you must also pass `thinking=True` in your `chat_template_kwargs`.
 
diff --git a/tests/reasoning/test_qwen3_reasoning_parser.py b/tests/reasoning/test_qwen3_reasoning_parser.py
new file mode 100644
index 000000000..95b7460d3
--- /dev/null
+++ b/tests/reasoning/test_qwen3_reasoning_parser.py
@@ -0,0 +1,141 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import pytest
+from transformers import AutoTokenizer
+
+from tests.reasoning.utils import run_reasoning_extraction
+from vllm.reasoning import ReasoningParser, ReasoningParserManager
+
+parser_name = "qwen3"
+start_token = "<think>"
+end_token = "</think>"
+
+REASONING_MODEL_NAME = "Qwen/Qwen3-0.6B"
+
+
+@pytest.fixture(scope="module")
+def qwen3_tokenizer():
+    return AutoTokenizer.from_pretrained(REASONING_MODEL_NAME)
+
+
+# 带 <think></think>，非stream
+WITH_THINK = {
+    "output": "<think>This is a reasoning section</think>This is the rest",
+    "reasoning_content": "This is a reasoning section",
+    "content": "This is the rest",
+}
+# 带 <think></think>，stream
+WITH_THINK_STREAM = {
+    "output": "<think>This is a reasoning section</think>This is the rest",
+    "reasoning_content": "This is a reasoning section",
+    "content": "This is the rest",
+}
+# 不带 <think></think>，非stream
+WITHOUT_THINK = {
+    "output": "This is the rest",
+    "reasoning_content": None,
+    "content": "This is the rest",
+}
+# 不带 <think></think>，stream
+WITHOUT_THINK_STREAM = {
+    "output": "This is the rest",
+    "reasoning_content": None,
+    "content": "This is the rest",
+}
+
+COMPLETE_REASONING = {
+    "output": "<think>This is a reasoning section</think>",
+    "reasoning_content": "This is a reasoning section",
+    "content": None,
+}
+MULTILINE_REASONING = {
+    "output":
+    "<think>This is a reasoning\nsection</think>This is the rest\nThat",
+    "reasoning_content": "This is a reasoning\nsection",
+    "content": "This is the rest\nThat",
+}
+ONLY_OPEN_TAG = {
+    "output": "<think>This is a reasoning section",
+    "reasoning_content": None,
+    "content": "<think>This is a reasoning section",
+}
+
+ONLY_OPEN_TAG_STREAM = {
+    "output": "<think>This is a reasoning section",
+    "reasoning_content": "This is a reasoning section",
+    "content": None,
+}
+
+TEST_CASES = [
+    pytest.param(
+        False,
+        WITH_THINK,
+        id="with_think",
+    ),
+    pytest.param(
+        True,
+        WITH_THINK_STREAM,
+        id="with_think_stream",
+    ),
+    pytest.param(
+        False,
+        WITHOUT_THINK,
+        id="without_think",
+    ),
+    pytest.param(
+        True,
+        WITHOUT_THINK_STREAM,
+        id="without_think_stream",
+    ),
+    pytest.param(
+        False,
+        COMPLETE_REASONING,
+        id="complete_reasoning",
+    ),
+    pytest.param(
+        True,
+        COMPLETE_REASONING,
+        id="complete_reasoning_stream",
+    ),
+    pytest.param(
+        False,
+        MULTILINE_REASONING,
+        id="multiline_reasoning",
+    ),
+    pytest.param(
+        True,
+        MULTILINE_REASONING,
+        id="multiline_reasoning_stream",
+    ),
+    pytest.param(
+        False,
+        ONLY_OPEN_TAG,
+        id="only_open_tag",
+    ),
+    pytest.param(
+        True,
+        ONLY_OPEN_TAG_STREAM,
+        id="only_open_tag_stream",
+    ),
+]
+
+
+@pytest.mark.parametrize("streaming, param_dict", TEST_CASES)
+def test_reasoning(
+    streaming: bool,
+    param_dict: dict,
+    qwen3_tokenizer,
+):
+    output = qwen3_tokenizer.tokenize(param_dict["output"])
+    output_tokens: list[str] = [
+        qwen3_tokenizer.convert_tokens_to_string([token]) for token in output
+    ]
+    parser: ReasoningParser = ReasoningParserManager.get_reasoning_parser(
+        parser_name)(qwen3_tokenizer)
+
+    reasoning, content = run_reasoning_extraction(parser,
+                                                  output_tokens,
+                                                  streaming=streaming)
+
+    assert reasoning == param_dict["reasoning_content"]
+    assert content == param_dict["content"]
diff --git a/vllm/reasoning/__init__.py b/vllm/reasoning/__init__.py
index 45132a780..65606ce55 100644
--- a/vllm/reasoning/__init__.py
+++ b/vllm/reasoning/__init__.py
@@ -3,10 +3,12 @@
 from .abs_reasoning_parsers import ReasoningParser, ReasoningParserManager
 from .deepseek_r1_reasoning_parser import DeepSeekR1ReasoningParser
 from .granite_reasoning_parser import GraniteReasoningParser
+from .qwen3_reasoning_parser import Qwen3ReasoningParser
 
 __all__ = [
     "ReasoningParser",
     "ReasoningParserManager",
     "DeepSeekR1ReasoningParser",
     "GraniteReasoningParser",
+    "Qwen3ReasoningParser",
 ]
diff --git a/vllm/reasoning/qwen3_reasoning_parser.py b/vllm/reasoning/qwen3_reasoning_parser.py
new file mode 100644
index 000000000..78a73011f
--- /dev/null
+++ b/vllm/reasoning/qwen3_reasoning_parser.py
@@ -0,0 +1,138 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import re
+from collections.abc import Sequence
+from typing import Optional, Union
+
+from transformers import PreTrainedTokenizerBase
+
+from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
+                                              DeltaMessage)
+from vllm.logger import init_logger
+from vllm.reasoning import ReasoningParser, ReasoningParserManager
+
+logger = init_logger(__name__)
+
+
+@ReasoningParserManager.register_module("qwen3")
+class Qwen3ReasoningParser(ReasoningParser):
+    """
+    Reasoning parser for the Qwen3 model.
+
+    The Qwen3 model uses <think>...</think> tokens to denote reasoning text
+    within its output. The model provides a strict switch to disable reasoning
+    output via the 'enable_thinking=False' parameter. This parser extracts the
+    reasoning content enclosed by <think> and </think> tokens from the model's
+    output.
+    """
+
+    def __init__(self, tokenizer: PreTrainedTokenizerBase):
+        super().__init__(tokenizer)
+        self.think_start_token = "<think>"
+        self.think_end_token = "</think>"
+
+        self.reasoning_regex = re.compile(
+            rf"{self.think_start_token}(.*?){self.think_end_token}", re.DOTALL)
+
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ReasoningParser "
+                "constructor during construction.")
+
+        self.think_start_token_id = self.vocab.get(self.think_start_token)
+        self.think_end_token_id = self.vocab.get(self.think_end_token)
+        if (self.think_start_token_id is None
+                or self.think_end_token_id is None):
+            raise RuntimeError(
+                "Qwen3 reasoning parser could not locate think start/end "
+                "tokens in the tokenizer!")
+
+    def extract_reasoning_content_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+    ) -> Union[DeltaMessage, None]:
+        """
+        Extract reasoning content from a delta message.
+        Handles streaming output where previous + delta = current.
+        Uses token IDs for faster processing.
+        For text <think>abc</think>xyz:
+        - 'abc' goes to reasoning_content
+        - 'xyz' goes to content
+        """
+        # Skip single special tokens
+        if len(delta_token_ids) == 1 and (delta_token_ids[0] in [
+                self.think_start_token_id, self.think_end_token_id
+        ]):
+            return None
+
+        if self.think_start_token_id in previous_token_ids:
+            if self.think_end_token_id in delta_token_ids:
+                # <think> in previous, </think> in delta,
+                # extract reasoning content
+                end_index = delta_text.find(self.think_end_token)
+                reasoning_content = delta_text[:end_index]
+                content = delta_text[end_index + len(self.think_end_token):]
+                return DeltaMessage(reasoning_content=reasoning_content,
+                                    content=content if content else None)
+            elif self.think_end_token_id in previous_token_ids:
+                # <think> in previous, </think> in previous,
+                # reasoning content continues
+                return DeltaMessage(content=delta_text)
+            else:
+                # <think> in previous, no </think> in previous or delta,
+                # reasoning content continues
+                return DeltaMessage(reasoning_content=delta_text)
+        elif self.think_start_token_id in delta_token_ids:
+            logger.info(delta_text)
+            if self.think_end_token_id in delta_token_ids:
+                # <think> in delta, </think> in delta, extract reasoning content
+                start_index = delta_text.find(self.think_start_token)
+                end_index = delta_text.find(self.think_end_token)
+                reasoning_content = delta_text[start_index +
+                                               len(self.think_start_token
+                                                   ):end_index]
+                content = delta_text[end_index + len(self.think_end_token):]
+                return DeltaMessage(reasoning_content=reasoning_content,
+                                    content=content if content else None)
+            else:
+                # <think> in delta, no </think> in delta,
+                # reasoning content continues
+                return DeltaMessage(reasoning_content=delta_text)
+        else:
+            # thinking is disabled, just content
+            return DeltaMessage(content=delta_text)
+
+    def extract_reasoning_content(
+            self, model_output: str, request: ChatCompletionRequest
+    ) -> tuple[Optional[str], Optional[str]]:
+
+        # Check if the model output contains the <think> tokens.
+        if (self.think_start_token not in model_output
+                or self.think_end_token not in model_output):
+            return None, model_output
+        else:
+            # Use a regex to find the reasoning content
+            reasoning_content = self.reasoning_regex.findall(model_output)[0]
+
+            # Remove the reasoning content from the model output
+            # Although <think> token is always at the
+            # beginning of the line, we cannot guarantee that the
+            # other models will follow this convention.
+            # Therefore, we need to add :start_index.
+            start_index = model_output.find(self.think_start_token)
+            if start_index != -1:
+                end_index = start_index + len(
+                    f"{self.think_start_token}{reasoning_content}{self.think_end_token}"
+                )
+                model_output = model_output[:start_index] + \
+                                model_output[end_index:]
+
+                if len(model_output) == 0:
+                    return reasoning_content, None
+
+            return reasoning_content, model_output
-- 
GitLab


From d3cf61b89bc53aa7709932ab43e7630b9a71f2b3 Mon Sep 17 00:00:00 2001
From: Qiming Zhang <qiming1.zhang@intel.com>
Date: Tue, 29 Apr 2025 09:40:25 -0700
Subject: [PATCH 028/461] fix gemma3 results all zero (#17364)

Signed-off-by: mayuyuace <qiming1.zhang@intel.com>
---
 vllm/model_executor/layers/layernorm.py | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/vllm/model_executor/layers/layernorm.py b/vllm/model_executor/layers/layernorm.py
index 75a5317b1..87d9b959e 100644
--- a/vllm/model_executor/layers/layernorm.py
+++ b/vllm/model_executor/layers/layernorm.py
@@ -241,7 +241,10 @@ class GemmaRMSNorm(CustomOp):
         """PyTorch-native implementation equivalent to forward()."""
         orig_dtype = x.dtype
         if residual is not None:
-            x = x + residual
+            if orig_dtype == torch.float16:
+                x = x + residual.float()
+            else:
+                x = x + residual
             residual = x
 
         x = x.float()
-- 
GitLab


From 06ffc7e1d35b3f754e46439babfed564822bbb75 Mon Sep 17 00:00:00 2001
From: TY-AMD <tianyuan.wu@amd.com>
Date: Wed, 30 Apr 2025 01:26:42 +0800
Subject: [PATCH 029/461] [Misc][ROCm] Exclude `cutlass_mla_decode` for ROCm
 build (#17289)

Signed-off-by: Tianyuan Wu <Tianyuan.Wu@amd.com>
---
 csrc/torch_bindings.cpp | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/csrc/torch_bindings.cpp b/csrc/torch_bindings.cpp
index c9a120976..b595b0aa6 100644
--- a/csrc/torch_bindings.cpp
+++ b/csrc/torch_bindings.cpp
@@ -130,13 +130,6 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
       ") -> ()");
   ops.impl("advance_step_flashinfer", torch::kCUDA, &advance_step_flashinfer);
 
-  // Compute MLA decode using cutlass.
-  ops.def(
-      "cutlass_mla_decode(Tensor! out, Tensor q_nope, Tensor q_pe,"
-      "                   Tensor kv_c_and_k_pe_cache, Tensor seq_lens,"
-      "                   Tensor page_table, float scale) -> ()");
-  ops.impl("cutlass_mla_decode", torch::kCUDA, &cutlass_mla_decode);
-
   // Layernorm
   // Apply Root Mean Square (RMS) Normalization to the input tensor.
   ops.def(
@@ -450,6 +443,13 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
   ops.def("cutlass_sparse_compress(Tensor a) -> Tensor[]");
   ops.impl("cutlass_sparse_compress", &cutlass_sparse_compress);
 
+  // CUTLASS MLA decode
+  ops.def(
+      "cutlass_mla_decode(Tensor! out, Tensor q_nope, Tensor q_pe,"
+      "                   Tensor kv_c_and_k_pe_cache, Tensor seq_lens,"
+      "                   Tensor page_table, float scale) -> ()");
+  ops.impl("cutlass_mla_decode", torch::kCUDA, &cutlass_mla_decode);
+
   // Mamba selective scan kernel
   ops.def(
       "selective_scan_fwd(Tensor! u, Tensor! delta,"
-- 
GitLab


From 608968b7c5709dc74754cb09c72a5793dec7af2b Mon Sep 17 00:00:00 2001
From: Alexei-V-Ivanov-AMD
 <156011006+Alexei-V-Ivanov-AMD@users.noreply.github.com>
Date: Tue, 29 Apr 2025 12:27:27 -0500
Subject: [PATCH 030/461]  Enabling multi-group kernel tests. (#17115)

Signed-off-by: Alexei V. Ivanov <alexei.ivanov@amd.com>
---
 .../scripts/hardware_ci/run-amd-test.sh       | 74 +++++++++++--------
 .buildkite/test-pipeline.yaml                 |  5 ++
 2 files changed, 49 insertions(+), 30 deletions(-)

diff --git a/.buildkite/scripts/hardware_ci/run-amd-test.sh b/.buildkite/scripts/hardware_ci/run-amd-test.sh
index 368f30434..d29903bf4 100755
--- a/.buildkite/scripts/hardware_ci/run-amd-test.sh
+++ b/.buildkite/scripts/hardware_ci/run-amd-test.sh
@@ -75,37 +75,51 @@ HF_MOUNT="/root/.cache/huggingface"
 commands=$@
 echo "Commands:$commands"
 #ignore certain kernels tests
-if [[ $commands == *" kernels "* ]]; then
+if [[ $commands == *" kernels/core"* ]]; then
   commands="${commands} \
-  --ignore=kernels/test_attention_selector.py \
-  --ignore=kernels/test_blocksparse_attention.py \
-  --ignore=kernels/test_causal_conv1d.py \
-  --ignore=kernels/test_cutlass.py \
-  --ignore=kernels/test_encoder_decoder_attn.py \
-  --ignore=kernels/test_flash_attn.py \
-  --ignore=kernels/test_flashinfer.py \
-  --ignore=kernels/test_int8_quant.py \
-  --ignore=kernels/test_machete_gemm.py \
-  --ignore=kernels/test_mamba_ssm.py \
-  --ignore=kernels/test_marlin_gemm.py \
-  --ignore=kernels/test_moe.py \
-  --ignore=kernels/test_prefix_prefill.py \
-  --ignore=kernels/test_rand.py \
-  --ignore=kernels/test_sampler.py \
-  --ignore=kernels/test_cascade_flash_attn.py \
-  --ignore=kernels/test_mamba_mixer2.py \
-  --ignore=kernels/test_aqlm.py \
-  --ignore=kernels/test_machete_mm.py \
-  --ignore=kernels/test_mha_attn.py \
-  --ignore=kernels/test_block_fp8.py \
-  --ignore=kernels/test_cutlass_moe.py \
-  --ignore=kernels/test_mamba_ssm_ssd.py \
-  --ignore=kernels/test_attention.py \
-  --ignore=kernels/test_block_int8.py \
-  --ignore=kernels/test_fused_quant_layernorm.py \
-  --ignore=kernels/test_int8_kernel.py \
-  --ignore=kernels/test_triton_moe_ptpc_fp8.py \
-  --ignore=kernels/test_permute_cols.py"
+  --ignore=kernels/core/test_fused_quant_layernorm.py \
+  --ignore=kernels/core/test_permute_cols.py"
+fi
+
+if [[ $commands == *" kernels/attention"* ]]; then
+  commands="${commands} \
+  --ignore=kernels/attention/stest_attention_selector.py \
+  --ignore=kernels/attention/test_blocksparse_attention.py \
+  --ignore=kernels/attention/test_encoder_decoder_attn.py \
+  --ignore=kernels/attention/test_attention_selector.py \
+  --ignore=kernels/attention/test_flash_attn.py \
+  --ignore=kernels/attention/test_flashinfer.py \
+  --ignore=kernels/attention/test_prefix_prefill.py \
+  --ignore=kernels/attention/test_cascade_flash_attn.py \
+  --ignore=kernels/attention/test_mha_attn.py \
+  --ignore=kernels/attention/test_lightning_attn.py \
+  --ignore=kernels/attention/test_attention.py"
+fi
+
+if [[ $commands == *" kernels/quantization"* ]]; then
+  commands="${commands} \
+  --ignore=kernels/quantization/test_int8_quant.py \
+  --ignore=kernels/quantization/test_aqlm.py \
+  --ignore=kernels/quantization/test_machete_mm.py \
+  --ignore=kernels/quantization/test_block_fp8.py \
+  --ignore=kernels/quantization/test_block_int8.py \
+  --ignore=kernels/quantization/test_marlin_gemm.py \
+  --ignore=kernels/quantization/test_cutlass_scaled_mm.py \
+  --ignore=kernels/quantization/test_int8_kernel.py"
+fi
+
+if [[ $commands == *" kernels/mamba"* ]]; then
+  commands="${commands} \
+  --ignore=kernels/mamba/test_mamba_mixer2.py \
+  --ignore=kernels/mamba/test_causal_conv1d.py \
+  --ignore=kernels/mamba/test_mamba_ssm_ssd.py"
+fi
+
+if [[ $commands == *" kernels/moe"* ]]; then
+  commands="${commands} \
+  --ignore=kernels/moe/test_moe.py \
+  --ignore=kernels/moe/test_cutlass_moe.py \
+  --ignore=kernels/moe/test_triton_moe_ptpc_fp8.py"
 fi
 
 #ignore certain Entrypoints/openai tests
diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 20d858cb1..fc0eb3d9f 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -319,6 +319,7 @@ steps:
   - pytest -v -s compile/test_full_graph.py
 
 - label: Kernels Core Operation Test
+  mirror_hardwares: [amd]
   source_file_dependencies:
   - csrc/
   - tests/kernels/core
@@ -326,6 +327,7 @@ steps:
     - pytest -v -s kernels/core
 
 - label: Kernels Attention Test %N
+  mirror_hardwares: [amd]
   source_file_dependencies:
   - csrc/attention/
   - vllm/attention
@@ -336,6 +338,7 @@ steps:
   parallelism: 2
 
 - label: Kernels Quantization Test %N
+  mirror_hardwares: [amd]
   source_file_dependencies:
   - csrc/quantization/
   - vllm/model_executor/layers/quantization
@@ -345,6 +348,7 @@ steps:
   parallelism: 2
 
 - label: Kernels MoE Test
+  #mirror_hardwares: [amd]
   source_file_dependencies:
   - csrc/moe/
   - tests/kernels/moe
@@ -353,6 +357,7 @@ steps:
     - pytest -v -s kernels/moe
 
 - label: Kernels Mamba Test
+  #mirror_hardwares: [amd]
   source_file_dependencies:
   - csrc/mamba/
   - tests/kernels/mamba
-- 
GitLab


From 56d64fbe3026b5ccef9cf9c7f069cd0e892df155 Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Tue, 29 Apr 2025 13:29:44 -0400
Subject: [PATCH 031/461] [Docs] Propose a deprecation policy for the project
 (#17063)

Signed-off-by: Russell Bryant <rbryant@redhat.com>
Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>
---
 .../source/contributing/deprecation_policy.md | 87 +++++++++++++++++++
 docs/source/design/v1/metrics.md              |  3 +
 docs/source/index.md                          |  1 +
 3 files changed, 91 insertions(+)
 create mode 100644 docs/source/contributing/deprecation_policy.md

diff --git a/docs/source/contributing/deprecation_policy.md b/docs/source/contributing/deprecation_policy.md
new file mode 100644
index 000000000..598f1612d
--- /dev/null
+++ b/docs/source/contributing/deprecation_policy.md
@@ -0,0 +1,87 @@
+# Deprecation Policy
+
+This document outlines the official policy and process for deprecating features
+in the vLLM project.
+
+## Overview
+
+vLLM uses a structured "deprecation pipeline" to guide the lifecycle of
+deprecated features. This policy ensures that users are given clear and
+sufficient notice when a feature is deprecated and that deprecations proceed in
+a consistent and predictable manner.
+
+We aim to strike a balance between continued innovation and respecting users’
+reliance on existing functionality. Deprecations are tied to our **minor (Y)
+releases** following semantic versioning (X.Y.Z), where:
+
+- **X** is a major version (rare)
+- **Y** is a minor version (used for significant changes, including deprecations/removals)
+- **Z** is a patch version (used for fixes and safer enhancements)
+
+Features that fall under this policy include (at a minimum) the following:
+
+- CLI flags
+- Environment variables
+- Configuration files
+- APIs in the OpenAI-compatible API server
+- Public Python APIs for the `vllm` library
+
+## Deprecation Pipeline
+
+The deprecation process consists of several clearly defined stages that span
+multiple Y releases:
+
+**1. Deprecated (Still On By Default)**
+
+- **Action**: Feature is marked as deprecated.
+- **Timeline**: A removal version is explicitly stated in the deprecation
+warning (e.g., "This will be removed in v0.10.0").
+- **Communication**: Deprecation is noted in the following, as applicable:
+  - Help strings
+  - Log output
+  - API responses
+  - `/metrics` output (for metrics features)
+  - User-facing documentation
+  - Release notes
+  - GitHub Issue (RFC) for feedback
+  - Documentation and use of the `@typing_extensions.deprecated` decorator for Python APIs
+
+**2.Deprecated (Off By Default)**
+
+- **Action**: Feature is disabled by default, but can still be re-enabled via a
+CLI flag or environment variable. Feature throws an error when used without
+re-enabling.
+- **Purpose**: Allows users who missed earlier warnings a temporary escape hatch
+while signaling imminent removal. Ensures any remaining usage is clearly
+surfaced and blocks silent breakage before full removal.
+
+**3. Removed**
+
+- **Action**: Feature is completely removed from the codebase.
+- **Note**: Only features that have passed through the previous deprecation
+stages will be removed.
+
+## Example Timeline
+
+Assume a feature is deprecated in `v0.9.0`.
+
+| Release       | Status                                                                                          |
+|---------------|-------------------------------------------------------------------------------------------------|
+| `v0.9.0`      | Feature is deprecated with clear removal version listed.                                        |
+| `v0.10.0`     | Feature is now off by default, throws an error when used, and can be re-enabled for legacy use. |
+| `v0.11.0`     | Feature is removed.                                                                             |
+
+## Important Guidelines
+
+- **No Removals in Patch Releases**: Removing deprecated features in patch
+(`.Z`) releases is disallowed to avoid surprising users.
+- **Grace Period for Existing Deprecations**: Any feature deprecated **before
+this policy** will have its grace period start **now**, not retroactively.
+- **Documentation is Critical**: Ensure every stage of the pipeline is
+documented clearly for users.
+
+## Final Notes
+
+This policy is a living document and may evolve as the needs of the project and
+its users change. Community feedback is welcome and encouraged as we refine the
+process.
diff --git a/docs/source/design/v1/metrics.md b/docs/source/design/v1/metrics.md
index 3f9629079..7e7c8b925 100644
--- a/docs/source/design/v1/metrics.md
+++ b/docs/source/design/v1/metrics.md
@@ -467,6 +467,9 @@ In general:
    hatch](https://kubernetes.io/docs/concepts/cluster-administration/system-metrics/#show-hidden-metrics)
    for some time before deleting them.
 
+See the [deprecation policy](project:../../contributing/deprecation_policy.md) for
+the project-wide deprecation policy.
+
 ### Unimplemented - `vllm:tokens_total`
 
 Added by <gh-pr:4464>, but apparently never implemented. This can just be
diff --git a/docs/source/index.md b/docs/source/index.md
index 43b330e4b..56ff7a485 100644
--- a/docs/source/index.md
+++ b/docs/source/index.md
@@ -181,6 +181,7 @@ design/v1/metrics
 :maxdepth: 2
 
 contributing/overview
+contributing/deprecation_policy
 contributing/profiling/profiling_index
 contributing/dockerfile/dockerfile
 contributing/model/index
-- 
GitLab


From 0c1c7883122d302d7a8b679a5c99c497c1464553 Mon Sep 17 00:00:00 2001
From: casinca <47400729+casinca@users.noreply.github.com>
Date: Tue, 29 Apr 2025 19:29:48 +0200
Subject: [PATCH 032/461] [Doc][Typo] Fixing label in new model requests link
 in overview.md (#17400)

---
 docs/source/contributing/overview.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/source/contributing/overview.md b/docs/source/contributing/overview.md
index 31c7059fd..3dceec1e5 100644
--- a/docs/source/contributing/overview.md
+++ b/docs/source/contributing/overview.md
@@ -17,7 +17,7 @@ Unsure on where to start? Check out the following links for tasks to work on:
 
 - [Good first issues](https://github.com/vllm-project/vllm/issues?q=is%3Aissue%20state%3Aopen%20label%3A%22good%20first%20issue%22)
   - [Selected onboarding tasks](gh-project:6)
-- [New model requests](https://github.com/vllm-project/vllm/issues?q=is%3Aissue%20state%3Aopen%20label%3A%22new%20model%22)
+- [New model requests](https://github.com/vllm-project/vllm/issues?q=is%3Aissue%20state%3Aopen%20label%3A%22new-model%22)
   - [Models with multi-modal capabilities](gh-project:10)
 
 ## License
-- 
GitLab


From 792595b59d01eb7060b6cbc6dec20c129ea917b2 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Nicol=C3=B2=20Lucchesi?= <nlucches@redhat.com>
Date: Tue, 29 Apr 2025 19:36:48 +0200
Subject: [PATCH 033/461] [TPU][V1][CI] Replace `python3 setup.py develop` with
 standard `pip install --e` on TPU (#17374)

Signed-off-by: NickLucche <nlucches@redhat.com>
---
 docker/Dockerfile.tpu                                           | 2 +-
 .../getting_started/installation/ai_accelerator/tpu.inc.md      | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/docker/Dockerfile.tpu b/docker/Dockerfile.tpu
index 50806d882..295270d29 100644
--- a/docker/Dockerfile.tpu
+++ b/docker/Dockerfile.tpu
@@ -23,7 +23,7 @@ RUN --mount=type=cache,target=/root/.cache/pip \
     --mount=type=bind,source=.git,target=.git \
     python3 -m pip install \
         -r requirements/tpu.txt
-RUN python3 setup.py develop
+RUN python3 -m pip install -e .
 
 # install development dependencies (for testing)
 RUN python3 -m pip install -e tests/vllm_test_utils
diff --git a/docs/source/getting_started/installation/ai_accelerator/tpu.inc.md b/docs/source/getting_started/installation/ai_accelerator/tpu.inc.md
index 8beb92ef7..4459cc61e 100644
--- a/docs/source/getting_started/installation/ai_accelerator/tpu.inc.md
+++ b/docs/source/getting_started/installation/ai_accelerator/tpu.inc.md
@@ -158,7 +158,7 @@ sudo apt-get install libopenblas-base libopenmpi-dev libomp-dev
 Run the setup script:
 
 ```bash
-VLLM_TARGET_DEVICE="tpu" python setup.py develop
+VLLM_TARGET_DEVICE="tpu" python -m pip install -e .
 ```
 
 ## Set up using Docker
-- 
GitLab


From b37685afbb8fa8ac7530ae15db6a96e23a83281d Mon Sep 17 00:00:00 2001
From: Aaron Pham <contact@aarnphm.xyz>
Date: Tue, 29 Apr 2025 13:39:16 -0400
Subject: [PATCH 034/461] [CI] Uses Python 3.11 for TPU (#17359)

Signed-off-by: Aaron Pham <contact@aarnphm.xyz>
---
 requirements/tpu.txt | 1 +
 1 file changed, 1 insertion(+)

diff --git a/requirements/tpu.txt b/requirements/tpu.txt
index b63993ba1..16c0ad3ec 100644
--- a/requirements/tpu.txt
+++ b/requirements/tpu.txt
@@ -9,6 +9,7 @@ wheel
 jinja2>=3.1.6
 ray[default]
 ray[data]
+setuptools==78.1.0
 
 # Install torch_xla
 --pre
-- 
GitLab


From 08e15defa9e1b48a34d33e88dffe99e69cae1ab0 Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Wed, 30 Apr 2025 01:40:52 +0800
Subject: [PATCH 035/461] [CI/Build] Add retry mechanism for add-apt-repository
 (#17107)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 docker/Dockerfile               | 10 ++++++++--
 docker/Dockerfile.nightly_torch | 10 ++++++++--
 docker/Dockerfile.rocm_base     |  5 ++++-
 3 files changed, 20 insertions(+), 5 deletions(-)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index 1b28845d0..7d1fac9db 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -19,7 +19,10 @@ RUN echo 'tzdata tzdata/Areas select America' | debconf-set-selections \
     && echo 'tzdata tzdata/Zones/America select Los_Angeles' | debconf-set-selections \
     && apt-get update -y \
     && apt-get install -y ccache software-properties-common git curl sudo \
-    && add-apt-repository ppa:deadsnakes/ppa \
+    && for i in 1 2 3; do \
+        add-apt-repository -y ppa:deadsnakes/ppa && break || \
+        { echo "Attempt $i failed, retrying in 5s..."; sleep 5; }; \
+    done \
     && apt-get update -y \
     && apt-get install -y python${PYTHON_VERSION} python${PYTHON_VERSION}-dev python${PYTHON_VERSION}-venv \
     && update-alternatives --install /usr/bin/python3 python3 /usr/bin/python${PYTHON_VERSION} 1 \
@@ -188,7 +191,10 @@ RUN echo 'tzdata tzdata/Areas select America' | debconf-set-selections \
     && apt-get update -y \
     && apt-get install -y ccache software-properties-common git curl wget sudo vim python3-pip \
     && apt-get install -y ffmpeg libsm6 libxext6 libgl1 \
-    && add-apt-repository ppa:deadsnakes/ppa \
+    && for i in 1 2 3; do \
+        add-apt-repository -y ppa:deadsnakes/ppa && break || \
+        { echo "Attempt $i failed, retrying in 5s..."; sleep 5; }; \
+    done \
     && apt-get update -y \
     && apt-get install -y python${PYTHON_VERSION} python${PYTHON_VERSION}-dev python${PYTHON_VERSION}-venv libibverbs-dev \
     && update-alternatives --install /usr/bin/python3 python3 /usr/bin/python${PYTHON_VERSION} 1 \
diff --git a/docker/Dockerfile.nightly_torch b/docker/Dockerfile.nightly_torch
index 0063712e4..6989106c4 100644
--- a/docker/Dockerfile.nightly_torch
+++ b/docker/Dockerfile.nightly_torch
@@ -16,7 +16,10 @@ RUN echo 'tzdata tzdata/Areas select America' | debconf-set-selections \
     && echo 'tzdata tzdata/Zones/America select Los_Angeles' | debconf-set-selections \
     && apt-get update -y \
     && apt-get install -y ccache software-properties-common git curl sudo \
-    && add-apt-repository ppa:deadsnakes/ppa \
+    && for i in 1 2 3; do \
+        add-apt-repository -y ppa:deadsnakes/ppa && break || \
+        { echo "Attempt $i failed, retrying in 5s..."; sleep 5; }; \
+    done \
     && apt-get update -y \
     && apt-get install -y python${PYTHON_VERSION} python${PYTHON_VERSION}-dev python${PYTHON_VERSION}-venv \
     && update-alternatives --install /usr/bin/python3 python3 /usr/bin/python${PYTHON_VERSION} 1 \
@@ -197,7 +200,10 @@ RUN echo 'tzdata tzdata/Areas select America' | debconf-set-selections \
     && apt-get update -y \
     && apt-get install -y ccache software-properties-common git curl wget sudo vim python3-pip \
     && apt-get install -y ffmpeg libsm6 libxext6 libgl1 \
-    && add-apt-repository ppa:deadsnakes/ppa \
+    && for i in 1 2 3; do \
+        add-apt-repository -y ppa:deadsnakes/ppa && break || \
+        { echo "Attempt $i failed, retrying in 5s..."; sleep 5; }; \
+    done \
     && apt-get update -y \
     && apt-get install -y python${PYTHON_VERSION} python${PYTHON_VERSION}-dev python${PYTHON_VERSION}-venv libibverbs-dev \
     && update-alternatives --install /usr/bin/python3 python3 /usr/bin/python${PYTHON_VERSION} 1 \
diff --git a/docker/Dockerfile.rocm_base b/docker/Dockerfile.rocm_base
index 1776b26d4..12009b8aa 100644
--- a/docker/Dockerfile.rocm_base
+++ b/docker/Dockerfile.rocm_base
@@ -32,7 +32,10 @@ ENV DEBIAN_FRONTEND=noninteractive
 # Install Python and other dependencies
 RUN apt-get update -y \
     && apt-get install -y software-properties-common git curl sudo vim less libgfortran5 \
-    && add-apt-repository ppa:deadsnakes/ppa \
+    && for i in 1 2 3; do \
+        add-apt-repository -y ppa:deadsnakes/ppa && break || \
+        { echo "Attempt $i failed, retrying in 5s..."; sleep 5; }; \
+    done \
     && apt-get update -y \
     && apt-get install -y python${PYTHON_VERSION} python${PYTHON_VERSION}-dev python${PYTHON_VERSION}-venv \
        python${PYTHON_VERSION}-lib2to3 python-is-python3  \
-- 
GitLab


From 2fa2a50bf950797cb59d48908d205c655ec02654 Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Wed, 30 Apr 2025 02:21:42 +0800
Subject: [PATCH 036/461] [Bugfix] Fix Minicpm-O-int4 GPTQ model inference
 (#17397)

Signed-off-by: Isotr0py <2037008807@qq.com>
---
 vllm/model_executor/models/minicpmo.py | 36 +++++++++++++++++++++++++-
 vllm/model_executor/models/minicpmv.py |  2 +-
 2 files changed, 36 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/models/minicpmo.py b/vllm/model_executor/models/minicpmo.py
index a2ca92cde..f42d48e91 100644
--- a/vllm/model_executor/models/minicpmo.py
+++ b/vllm/model_executor/models/minicpmo.py
@@ -28,12 +28,16 @@ from typing import (Any, Callable, Literal, Optional, Set, Tuple, TypedDict,
 
 import torch
 from torch import nn
-from transformers import BatchFeature
+from transformers import BatchFeature, PretrainedConfig
 from transformers.modeling_outputs import BaseModelOutputWithPast
 from transformers.models.whisper.modeling_whisper import (
     ACT2FN, WHISPER_ATTENTION_CLASSES, WhisperConfig, WhisperEncoder)
 
 from vllm.config import VllmConfig
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.quantization.gptq import GPTQConfig
+from vllm.model_executor.layers.quantization.gptq_marlin import (
+    GPTQMarlinConfig)
 from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalKwargs
 from vllm.multimodal.inputs import (MultiModalDataDict, MultiModalFieldConfig,
                                     NestedTensors)
@@ -512,6 +516,36 @@ class MiniCPMO(MiniCPMV2_6):
 
         self.audio_token_id = None
 
+    def _maybe_ignore_quant_config(self, quant_config: QuantizationConfig):
+        # GPTQ configs do not have a list of ignored modules, however AutoGPTQ
+        # seems to avoid vision encoder sections for some models.
+        # See: https://huggingface.co/openbmb/MiniCPM-o-2_6-int4
+        if isinstance(quant_config, (GPTQConfig, GPTQMarlinConfig)):
+            return None
+        return quant_config
+
+    def init_vision_module(
+        self,
+        config: PretrainedConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> nn.Module:
+        # MiniCPMO GPTQ model leave vpm unquantized.
+        quant_config = self._maybe_ignore_quant_config(quant_config)
+        return super().init_vision_module(config, quant_config, prefix)
+
+    def init_resampler(
+        self,
+        embed_dim: int,
+        vision_dim: int,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> nn.Module:
+        # MiniCPMO GPTQ model leave resampler unquantized.
+        quant_config = self._maybe_ignore_quant_config(quant_config)
+        return super().init_resampler(embed_dim, vision_dim, quant_config,
+                                      prefix)
+
     def init_audio_module(self, *, vllm_config: VllmConfig, prefix: str = ""):
         # Do not use parameters temporarily
         audio_config = self.config.audio_config
diff --git a/vllm/model_executor/models/minicpmv.py b/vllm/model_executor/models/minicpmv.py
index 65a26eadd..300360f78 100644
--- a/vllm/model_executor/models/minicpmv.py
+++ b/vllm/model_executor/models/minicpmv.py
@@ -1181,7 +1181,7 @@ class MiniCPMV2_6(MiniCPMVBaseModel, SupportsLoRA):
     def init_vision_module(
         self,
         config: PretrainedConfig,
-        quant_config: Optional[QuantizationConfig],
+        quant_config: Optional[QuantizationConfig] = None,
         prefix: str = "",
     ) -> nn.Module:
         model = Idefics2VisionTransformer(config.vision_config,
-- 
GitLab


From a6977dbd1531378456725e5cdb151c88a33df52a Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 29 Apr 2025 20:02:23 +0100
Subject: [PATCH 037/461] Simplify (and fix) passing of guided decoding backend
 options (#17008)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 ...enai_chat_completion_structured_outputs.py |   7 +-
 tests/entrypoints/llm/test_guided_generate.py | 206 +++++++++++-------
 .../model_executor/test_guided_processors.py  |  15 +-
 .../llm/test_struct_output_generate.py        |  31 +--
 tests/v1/test_oracle.py                       |   3 +-
 vllm/config.py                                |  70 +++++-
 vllm/engine/arg_utils.py                      |  36 ++-
 vllm/engine/llm_engine.py                     |   2 +-
 vllm/engine/multiprocessing/client.py         |   4 +-
 .../guided_decoding/__init__.py               |  24 +-
 .../guided_decoding/guidance_decoding.py      |   5 +-
 .../guided_decoding/xgrammar_decoding.py      |  12 +-
 vllm/sampling_params.py                       |  56 +++--
 vllm/v1/engine/processor.py                   |   8 +-
 vllm/v1/structured_output/__init__.py         |   8 +-
 vllm/v1/structured_output/backend_guidance.py |  25 +--
 vllm/v1/structured_output/backend_xgrammar.py |  14 +-
 17 files changed, 309 insertions(+), 217 deletions(-)

diff --git a/examples/online_serving/openai_chat_completion_structured_outputs.py b/examples/online_serving/openai_chat_completion_structured_outputs.py
index f71162e36..9c57af1c1 100644
--- a/examples/online_serving/openai_chat_completion_structured_outputs.py
+++ b/examples/online_serving/openai_chat_completion_structured_outputs.py
@@ -112,8 +112,8 @@ def extra_backend_options_completion(client: OpenAI, model: str):
               "alan.turing@enigma.com\n")
 
     try:
-        # The no-fallback option forces vLLM to use xgrammar, so when it fails
-        # you get a 400 with the reason why
+        # The guided_decoding_disable_fallback option forces vLLM to use
+        # xgrammar, so when it fails you get a 400 with the reason why
         completion = client.chat.completions.create(
             model=model,
             messages=[{
@@ -123,7 +123,8 @@ def extra_backend_options_completion(client: OpenAI, model: str):
             extra_body={
                 "guided_regex": r"\w+@\w+\.com\n",
                 "stop": ["\n"],
-                "guided_decoding_backend": "xgrammar:no-fallback"
+                "guided_decoding_backend": "xgrammar",
+                "guided_decoding_disable_fallback": True,
             },
         )
         return completion.choices[0].message.content
diff --git a/tests/entrypoints/llm/test_guided_generate.py b/tests/entrypoints/llm/test_guided_generate.py
index ad726fa8c..fdbdccd46 100644
--- a/tests/entrypoints/llm/test_guided_generate.py
+++ b/tests/entrypoints/llm/test_guided_generate.py
@@ -16,10 +16,11 @@ from vllm.sampling_params import GuidedDecodingParams, SamplingParams
 
 MODEL_NAME = "Qwen/Qwen2.5-1.5B-Instruct"
 GUIDED_DECODING_BACKENDS = [
-    "outlines",
-    "lm-format-enforcer",
-    "xgrammar:disable-any-whitespace",
-    "guidance:disable-any-whitespace",
+    # (backend, disable_any_whitespace),
+    ("outlines", False),
+    ("lm-format-enforcer", False),
+    ("xgrammar", True),
+    ("guidance", True),
 ]
 
 
@@ -36,13 +37,17 @@ def llm():
 
 
 @pytest.mark.skip_global_cleanup
-@pytest.mark.parametrize("guided_decoding_backend", GUIDED_DECODING_BACKENDS)
-def test_guided_regex(sample_regex, llm, guided_decoding_backend: str):
-    sampling_params = SamplingParams(temperature=0.8,
-                                     top_p=0.95,
-                                     guided_decoding=GuidedDecodingParams(
-                                         regex=sample_regex,
-                                         backend=guided_decoding_backend))
+@pytest.mark.parametrize("guided_decoding_backend,disable_any_whitespace",
+                         GUIDED_DECODING_BACKENDS)
+def test_guided_regex(sample_regex, llm, guided_decoding_backend: str,
+                      disable_any_whitespace: bool):
+    sampling_params = SamplingParams(
+        temperature=0.8,
+        top_p=0.95,
+        guided_decoding=GuidedDecodingParams(
+            regex=sample_regex,
+            backend=guided_decoding_backend,
+            disable_any_whitespace=disable_any_whitespace))
     outputs = llm.generate(prompts=[
         f"Give an example IPv4 address with this regex: {sample_regex}"
     ] * 2,
@@ -62,14 +67,18 @@ def test_guided_regex(sample_regex, llm, guided_decoding_backend: str):
 
 
 @pytest.mark.skip_global_cleanup
-@pytest.mark.parametrize("guided_decoding_backend", GUIDED_DECODING_BACKENDS)
+@pytest.mark.parametrize("guided_decoding_backend,disable_any_whitespace",
+                         GUIDED_DECODING_BACKENDS)
 def test_guided_json_completion(sample_json_schema, llm,
-                                guided_decoding_backend: str):
-    sampling_params = SamplingParams(temperature=1.0,
-                                     max_tokens=1000,
-                                     guided_decoding=GuidedDecodingParams(
-                                         json=sample_json_schema,
-                                         backend=guided_decoding_backend))
+                                guided_decoding_backend: str,
+                                disable_any_whitespace: bool):
+    sampling_params = SamplingParams(
+        temperature=1.0,
+        max_tokens=1000,
+        guided_decoding=GuidedDecodingParams(
+            json=sample_json_schema,
+            backend=guided_decoding_backend,
+            disable_any_whitespace=disable_any_whitespace))
     outputs = llm.generate(prompts=[
         f"Give an example JSON for an employee profile "
         f"that fits this schema: {sample_json_schema}"
@@ -92,14 +101,18 @@ def test_guided_json_completion(sample_json_schema, llm,
 
 
 @pytest.mark.skip_global_cleanup
-@pytest.mark.parametrize("guided_decoding_backend", GUIDED_DECODING_BACKENDS)
+@pytest.mark.parametrize("guided_decoding_backend,disable_any_whitespace",
+                         GUIDED_DECODING_BACKENDS)
 def test_guided_complex_json_completion(sample_complex_json_schema, llm,
-                                        guided_decoding_backend: str):
-    sampling_params = SamplingParams(temperature=1.0,
-                                     max_tokens=1000,
-                                     guided_decoding=GuidedDecodingParams(
-                                         json=sample_complex_json_schema,
-                                         backend=guided_decoding_backend))
+                                        guided_decoding_backend: str,
+                                        disable_any_whitespace: bool):
+    sampling_params = SamplingParams(
+        temperature=1.0,
+        max_tokens=1000,
+        guided_decoding=GuidedDecodingParams(
+            json=sample_complex_json_schema,
+            backend=guided_decoding_backend,
+            disable_any_whitespace=disable_any_whitespace))
     outputs = llm.generate(prompts=[
         f"Give an example JSON for an assignment grade "
         f"that fits this schema: {sample_complex_json_schema}"
@@ -123,14 +136,18 @@ def test_guided_complex_json_completion(sample_complex_json_schema, llm,
 
 
 @pytest.mark.skip_global_cleanup
-@pytest.mark.parametrize("guided_decoding_backend", GUIDED_DECODING_BACKENDS)
+@pytest.mark.parametrize("guided_decoding_backend,disable_any_whitespace",
+                         GUIDED_DECODING_BACKENDS)
 def test_guided_definition_json_completion(sample_definition_json_schema, llm,
-                                           guided_decoding_backend: str):
-    sampling_params = SamplingParams(temperature=1.0,
-                                     max_tokens=1000,
-                                     guided_decoding=GuidedDecodingParams(
-                                         json=sample_definition_json_schema,
-                                         backend=guided_decoding_backend))
+                                           guided_decoding_backend: str,
+                                           disable_any_whitespace: bool):
+    sampling_params = SamplingParams(
+        temperature=1.0,
+        max_tokens=1000,
+        guided_decoding=GuidedDecodingParams(
+            json=sample_definition_json_schema,
+            backend=guided_decoding_backend,
+            disable_any_whitespace=disable_any_whitespace))
     outputs = llm.generate(prompts=[
         f"Give an example JSON for solving 8x + 7 = -23 "
         f"that fits this schema: {sample_definition_json_schema}"
@@ -154,14 +171,18 @@ def test_guided_definition_json_completion(sample_definition_json_schema, llm,
 
 
 @pytest.mark.skip_global_cleanup
-@pytest.mark.parametrize("guided_decoding_backend", GUIDED_DECODING_BACKENDS)
+@pytest.mark.parametrize("guided_decoding_backend,disable_any_whitespace",
+                         GUIDED_DECODING_BACKENDS)
 def test_guided_enum_json_completion(sample_enum_json_schema, llm,
-                                     guided_decoding_backend: str):
-    sampling_params = SamplingParams(temperature=1.0,
-                                     max_tokens=1000,
-                                     guided_decoding=GuidedDecodingParams(
-                                         json=sample_enum_json_schema,
-                                         backend=guided_decoding_backend))
+                                     guided_decoding_backend: str,
+                                     disable_any_whitespace: bool):
+    sampling_params = SamplingParams(
+        temperature=1.0,
+        max_tokens=1000,
+        guided_decoding=GuidedDecodingParams(
+            json=sample_enum_json_schema,
+            backend=guided_decoding_backend,
+            disable_any_whitespace=disable_any_whitespace))
     outputs = llm.generate(prompts=[
         "Create a bug report JSON that fits this schema: "
         f"{sample_enum_json_schema}. Make it for a high priority critical bug."
@@ -195,14 +216,18 @@ def test_guided_enum_json_completion(sample_enum_json_schema, llm,
 
 
 @pytest.mark.skip_global_cleanup
-@pytest.mark.parametrize("guided_decoding_backend", GUIDED_DECODING_BACKENDS)
+@pytest.mark.parametrize("guided_decoding_backend,disable_any_whitespace",
+                         GUIDED_DECODING_BACKENDS)
 def test_guided_choice_completion(sample_guided_choice, llm,
-                                  guided_decoding_backend: str):
-    sampling_params = SamplingParams(temperature=0.8,
-                                     top_p=0.95,
-                                     guided_decoding=GuidedDecodingParams(
-                                         choice=sample_guided_choice,
-                                         backend=guided_decoding_backend))
+                                  guided_decoding_backend: str,
+                                  disable_any_whitespace: bool):
+    sampling_params = SamplingParams(
+        temperature=0.8,
+        top_p=0.95,
+        guided_decoding=GuidedDecodingParams(
+            choice=sample_guided_choice,
+            backend=guided_decoding_backend,
+            disable_any_whitespace=disable_any_whitespace))
     outputs = llm.generate(
         prompts="The best language for type-safe systems programming is ",
         sampling_params=sampling_params,
@@ -221,15 +246,19 @@ def test_guided_choice_completion(sample_guided_choice, llm,
 
 
 @pytest.mark.skip_global_cleanup
-@pytest.mark.parametrize("guided_decoding_backend", GUIDED_DECODING_BACKENDS)
+@pytest.mark.parametrize("guided_decoding_backend,disable_any_whitespace",
+                         GUIDED_DECODING_BACKENDS)
 def test_guided_grammar(sample_sql_statements, llm,
-                        guided_decoding_backend: str):
-    sampling_params = SamplingParams(temperature=0.8,
-                                     top_p=0.95,
-                                     max_tokens=1000,
-                                     guided_decoding=GuidedDecodingParams(
-                                         grammar=sample_sql_statements,
-                                         backend=guided_decoding_backend))
+                        guided_decoding_backend: str,
+                        disable_any_whitespace: bool):
+    sampling_params = SamplingParams(
+        temperature=0.8,
+        top_p=0.95,
+        max_tokens=1000,
+        guided_decoding=GuidedDecodingParams(
+            grammar=sample_sql_statements,
+            backend=guided_decoding_backend,
+            disable_any_whitespace=disable_any_whitespace))
     outputs = llm.generate(
         prompts=("Generate a sql state that select col_1 from "
                  "table_1 where it is equals to 1"),
@@ -300,7 +329,8 @@ def test_disable_guided_decoding_fallback(sample_regex, llm):
                                      top_p=0.95,
                                      guided_decoding=GuidedDecodingParams(
                                          json=unsupported_json,
-                                         backend="xgrammar:no-fallback"))
+                                         backend="xgrammar",
+                                         disable_fallback=True))
 
     with pytest.raises(
             ValueError,
@@ -312,14 +342,18 @@ def test_disable_guided_decoding_fallback(sample_regex, llm):
 
 
 @pytest.mark.skip_global_cleanup
-@pytest.mark.parametrize("guided_decoding_backend", GUIDED_DECODING_BACKENDS)
-def test_guided_json_object(llm, guided_decoding_backend: str):
-    sampling_params = SamplingParams(temperature=1.0,
-                                     max_tokens=100,
-                                     n=2,
-                                     guided_decoding=GuidedDecodingParams(
-                                         json_object=True,
-                                         backend=guided_decoding_backend))
+@pytest.mark.parametrize("guided_decoding_backend,disable_any_whitespace",
+                         GUIDED_DECODING_BACKENDS)
+def test_guided_json_object(llm, guided_decoding_backend: str,
+                            disable_any_whitespace: bool):
+    sampling_params = SamplingParams(
+        temperature=1.0,
+        max_tokens=100,
+        n=2,
+        guided_decoding=GuidedDecodingParams(
+            json_object=True,
+            backend=guided_decoding_backend,
+            disable_any_whitespace=disable_any_whitespace))
 
     outputs = llm.generate(
         prompts=("Generate a JSON object with curly braces for a person with "
@@ -337,7 +371,7 @@ def test_guided_json_object(llm, guided_decoding_backend: str):
             print(generated_text)
             assert generated_text is not None
 
-            if 'disable-any-whitespace' in guided_decoding_backend:
+            if disable_any_whitespace:
                 assert "\n" not in generated_text
 
             # Parse to verify it is valid JSON
@@ -359,14 +393,18 @@ class CarDescription(BaseModel):
 
 
 @pytest.mark.skip_global_cleanup
-@pytest.mark.parametrize("guided_decoding_backend", GUIDED_DECODING_BACKENDS)
-def test_guided_json_completion_with_enum(llm, guided_decoding_backend: str):
+@pytest.mark.parametrize("guided_decoding_backend,disable_any_whitespace",
+                         GUIDED_DECODING_BACKENDS)
+def test_guided_json_completion_with_enum(llm, guided_decoding_backend: str,
+                                          disable_any_whitespace: bool):
     json_schema = CarDescription.model_json_schema()
-    sampling_params = SamplingParams(temperature=1.0,
-                                     max_tokens=1000,
-                                     guided_decoding=GuidedDecodingParams(
-                                         json=json_schema,
-                                         backend=guided_decoding_backend))
+    sampling_params = SamplingParams(
+        temperature=1.0,
+        max_tokens=1000,
+        guided_decoding=GuidedDecodingParams(
+            json=json_schema,
+            backend=guided_decoding_backend,
+            disable_any_whitespace=disable_any_whitespace))
     outputs = llm.generate(
         prompts="Generate a JSON with the brand, model and car_type of"
         "the most iconic car from the 90's",
@@ -387,9 +425,10 @@ def test_guided_json_completion_with_enum(llm, guided_decoding_backend: str):
 
 
 @pytest.mark.skip_global_cleanup
-@pytest.mark.parametrize("guided_decoding_backend", GUIDED_DECODING_BACKENDS)
-def test_guided_number_range_json_completion(llm,
-                                             guided_decoding_backend: str):
+@pytest.mark.parametrize("guided_decoding_backend,disable_any_whitespace",
+                         GUIDED_DECODING_BACKENDS)
+def test_guided_number_range_json_completion(llm, guided_decoding_backend: str,
+                                             disable_any_whitespace: bool):
     sample_output_schema = {
         "type": "object",
         "properties": {
@@ -413,8 +452,10 @@ def test_guided_number_range_json_completion(llm,
     sampling_params = SamplingParams(
         temperature=1.0,
         max_tokens=1000,
-        guided_decoding=GuidedDecodingParams(json=sample_output_schema,
-                                             backend=guided_decoding_backend),
+        guided_decoding=GuidedDecodingParams(
+            json=sample_output_schema,
+            backend=guided_decoding_backend,
+            disable_any_whitespace=disable_any_whitespace),
     )
     outputs = llm.generate(
         prompts=[
@@ -466,8 +507,12 @@ def test_guidance_no_additional_properties(llm):
         "large JSON object with key-value pairs a1=b1, a2=b2, ..., a20=b20"
         "<|im_end|>\n<|im_start|>assistant\n")
 
-    def generate_with_backend(backend):
-        guided_params = GuidedDecodingParams(json=schema, backend=backend)
+    def generate_with_backend(backend, disable_additional_properties):
+        guided_params = GuidedDecodingParams(
+            json=schema,
+            backend=backend,
+            disable_any_whitespace=True,
+            disable_additional_properties=disable_additional_properties)
         sampling_params = SamplingParams(temperature=0,
                                          max_tokens=256,
                                          guided_decoding=guided_params)
@@ -481,7 +526,7 @@ def test_guidance_no_additional_properties(llm):
         jsonschema.validate(instance=parsed_json, schema=schema)
         return parsed_json
 
-    base_generated = generate_with_backend('guidance:disable-any-whitespace')
+    base_generated = generate_with_backend("guidance", False)
     assert "a1" in base_generated
     assert "a2" in base_generated
     assert "a3" in base_generated
@@ -490,8 +535,7 @@ def test_guidance_no_additional_properties(llm):
     assert "a5" in base_generated
     assert "a6" in base_generated
 
-    generated = generate_with_backend(
-        'guidance:no-additional-properties,disable-any-whitespace')
+    generated = generate_with_backend("guidance", True)
     assert "a1" in generated
     assert "a2" in generated
     assert "a3" in generated
diff --git a/tests/model_executor/test_guided_processors.py b/tests/model_executor/test_guided_processors.py
index 59da575e3..6cd966f84 100644
--- a/tests/model_executor/test_guided_processors.py
+++ b/tests/model_executor/test_guided_processors.py
@@ -202,12 +202,15 @@ def test_multiple_guided_options_not_allowed(sample_json_schema, sample_regex):
 
 def test_guided_decoding_backend_options():
     """Test backend-specific options"""
-    params = GuidedDecodingParams(
-        backend="xgrammar:option-1,option-2,option-3")
-    assert params.backend_options() == ["option-1", "option-2", "option-3"]
-
-    no_fallback = GuidedDecodingParams(backend="xgrammar:option-1,no-fallback")
-    assert no_fallback.no_fallback()
+    with pytest.warns(DeprecationWarning):
+        guided_decoding_params = GuidedDecodingParams(
+            backend=
+            "xgrammar:no-fallback,disable-any-whitespace,no-additional-properties"
+        )
+    assert guided_decoding_params.backend == "xgrammar"
+    assert guided_decoding_params.disable_fallback
+    assert guided_decoding_params.disable_any_whitespace
+    assert guided_decoding_params.disable_additional_properties
 
 
 def test_pickle_xgrammar_tokenizer_data():
diff --git a/tests/v1/entrypoints/llm/test_struct_output_generate.py b/tests/v1/entrypoints/llm/test_struct_output_generate.py
index 3de4fec9c..29ec6088e 100644
--- a/tests/v1/entrypoints/llm/test_struct_output_generate.py
+++ b/tests/v1/entrypoints/llm/test_struct_output_generate.py
@@ -17,15 +17,12 @@ from vllm.platforms import current_platform
 from vllm.sampling_params import GuidedDecodingParams, SamplingParams
 
 PARAMS_MODELS_BACKENDS_TOKENIZER_MODE = [
-    ("mistralai/Ministral-8B-Instruct-2410", "xgrammar:disable-any-whitespace",
-     "auto"),
-    ("mistralai/Ministral-8B-Instruct-2410", "guidance:disable-any-whitespace",
-     "auto"),
-    ("mistralai/Ministral-8B-Instruct-2410", "xgrammar:disable-any-whitespace",
-     "mistral"),
-    ("Qwen/Qwen2.5-1.5B-Instruct", "xgrammar:disable-any-whitespace", "auto"),
+    ("mistralai/Ministral-8B-Instruct-2410", "xgrammar", "auto"),
+    ("mistralai/Ministral-8B-Instruct-2410", "guidance", "auto"),
+    ("mistralai/Ministral-8B-Instruct-2410", "xgrammar", "mistral"),
+    ("Qwen/Qwen2.5-1.5B-Instruct", "xgrammar", "auto"),
     #FIXME: This test is flaky on CI thus disabled
-    #("Qwen/Qwen2.5-1.5B-Instruct", "guidance:disable-any-whitespace", "auto"),
+    #("Qwen/Qwen2.5-1.5B-Instruct", "guidance", "auto"),
 ]
 
 PARAMS_MODELS_TOKENIZER_MODE = [
@@ -73,6 +70,7 @@ def test_structured_output(
               enforce_eager=enforce_eager,
               max_model_len=1024,
               guided_decoding_backend=guided_decoding_backend,
+              guided_decoding_disable_any_whitespace=True,
               tokenizer_mode=tokenizer_mode)
 
     #
@@ -98,8 +96,7 @@ def test_structured_output(
 
         generated_text = output.outputs[0].text
         assert generated_text is not None
-        if 'disable-any-whitespace' in guided_decoding_backend:
-            assert "\n" not in generated_text
+        assert "\n" not in generated_text
         print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
         output_json = json.loads(generated_text)
         jsonschema.validate(instance=output_json, schema=sample_json_schema)
@@ -520,10 +517,11 @@ def test_structured_output_auto_mode(
 def test_guidance_no_additional_properties(monkeypatch: pytest.MonkeyPatch):
     monkeypatch.setenv("VLLM_USE_V1", "1")
 
-    backend = 'guidance:no-additional-properties,disable-any-whitespace'
     llm = LLM(model="Qwen/Qwen2.5-1.5B-Instruct",
               max_model_len=1024,
-              guided_decoding_backend=backend)
+              guided_decoding_backend="guidance",
+              guided_decoding_disable_any_whitespace=True,
+              guided_decoding_disable_additional_properties=True)
 
     schema = {
         'type': 'object',
@@ -548,7 +546,11 @@ def test_guidance_no_additional_properties(monkeypatch: pytest.MonkeyPatch):
         "<|im_end|>\n<|im_start|>assistant\n")
 
     def generate_with_backend(backend):
-        guided_params = GuidedDecodingParams(json=schema, backend=backend)
+        guided_params = GuidedDecodingParams(
+            json=schema,
+            backend=backend,
+            disable_any_whitespace=True,
+            disable_additional_properties=True)
         sampling_params = SamplingParams(temperature=0,
                                          max_tokens=256,
                                          guided_decoding=guided_params)
@@ -562,8 +564,7 @@ def test_guidance_no_additional_properties(monkeypatch: pytest.MonkeyPatch):
         jsonschema.validate(instance=parsed_json, schema=schema)
         return parsed_json
 
-    generated = generate_with_backend(
-        'guidance:no-additional-properties,disable-any-whitespace')
+    generated = generate_with_backend("guidance")
     assert "a1" in generated
     assert "a2" in generated
     assert "a3" in generated
diff --git a/tests/v1/test_oracle.py b/tests/v1/test_oracle.py
index 1448641f6..94c8ad7c9 100644
--- a/tests/v1/test_oracle.py
+++ b/tests/v1/test_oracle.py
@@ -57,7 +57,8 @@ def test_unsupported_configs(monkeypatch):
         with pytest.raises(NotImplementedError):
             AsyncEngineArgs(
                 model=MODEL,
-                guided_decoding_backend="lm-format-enforcer:no-fallback",
+                guided_decoding_backend="lm-format-enforcer",
+                guided_decoding_disable_fallback=True,
             ).create_engine_config()
 
         with pytest.raises(NotImplementedError):
diff --git a/vllm/config.py b/vllm/config.py
index 8f927835d..abe59734e 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -17,12 +17,14 @@ from dataclasses import (MISSING, dataclass, field, fields, is_dataclass,
 from importlib.util import find_spec
 from pathlib import Path
 from typing import (TYPE_CHECKING, Any, Callable, ClassVar, Final, Literal,
-                    Optional, Protocol, TypeVar, Union, get_args, get_origin)
+                    Optional, Protocol, TypeVar, Union, cast, get_args,
+                    get_origin)
 
 import torch
 from pydantic import BaseModel, Field, PrivateAttr
 from torch.distributed import ProcessGroup, ReduceOp
 from transformers import PretrainedConfig
+from typing_extensions import deprecated
 
 import vllm.envs as envs
 from vllm.compilation.inductor_pass import CallableInductorPass, InductorPass
@@ -32,7 +34,6 @@ from vllm.model_executor.layers.quantization import (QUANTIZATION_METHODS,
                                                      get_quantization_config)
 from vllm.model_executor.models import ModelRegistry
 from vllm.platforms import CpuArchEnum, current_platform
-from vllm.sampling_params import GuidedDecodingParams
 from vllm.tracing import is_otel_available, otel_import_error_traceback
 from vllm.transformers_utils.config import (
     ConfigFormat, get_config, get_hf_image_processor_config,
@@ -344,7 +345,7 @@ class ModelConfig:
     def __init__(
         self,
         model: str,
-        task: Union[TaskOption, Literal["draft"]],
+        task: Literal[TaskOption, Literal["draft"]],
         tokenizer: str,
         tokenizer_mode: str,
         trust_remote_code: bool,
@@ -701,7 +702,7 @@ class ModelConfig:
 
     def _resolve_task(
         self,
-        task_option: Union[TaskOption, Literal["draft"]],
+        task_option: Literal[TaskOption, Literal["draft"]],
     ) -> tuple[set[_ResolvedTask], _ResolvedTask]:
         if task_option == "draft":
             return {"draft"}, "draft"
@@ -3185,13 +3186,36 @@ GuidedDecodingBackend = Literal[GuidedDecodingBackendV0,
 class DecodingConfig:
     """Dataclass which contains the decoding strategy of the engine."""
 
-    guided_decoding_backend: GuidedDecodingBackend = \
-        "auto" if envs.VLLM_USE_V1 else "xgrammar"
+    @property
+    @deprecated(
+        "`guided_decoding_backend` is deprecated and has been renamed to "
+        "`backend`. This will be removed in v0.10.0. Please use the "
+        "`backend` argument instead.")
+    def guided_decoding_backend(self) -> GuidedDecodingBackend:
+        return self.backend
+
+    @guided_decoding_backend.setter
+    def guided_decoding_backend(self, value: GuidedDecodingBackend):
+        self.backend = value
+
+    backend: GuidedDecodingBackend = "auto" if envs.VLLM_USE_V1 else "xgrammar"
     """Which engine will be used for guided decoding (JSON schema / regex etc)
     by default. With "auto", we will make opinionated choices based on request
     contents and what the backend libraries currently support, so the behavior
     is subject to change in each release."""
 
+    disable_fallback: bool = False
+    """If `True`, vLLM will not fallback to a different backend on error."""
+
+    disable_any_whitespace: bool = False
+    """If `True`, the model will not generate any whitespace during guided
+    decoding. This is only supported for xgrammar and guidance backends."""
+
+    disable_additional_properties: bool = False
+    """If `True`, the `guidance` backend will not use `additionalProperties`
+    in the JSON schema. This is only supported for the `guidance` backend and
+    is used to better align its behaviour with `outlines` and `xgrammar`."""
+
     reasoning_backend: Optional[str] = None
     """Select the reasoning parser depending on the model that you're using.
     This is used to parse the reasoning content into OpenAI API format.
@@ -3217,15 +3241,41 @@ class DecodingConfig:
         return hash_str
 
     def __post_init__(self):
-        backend = GuidedDecodingParams(
-            backend=self.guided_decoding_backend).backend_name
+        if ":" in self.backend:
+            self._extract_backend_options()
+
         if envs.VLLM_USE_V1:
             valid_guided_backends = get_args(GuidedDecodingBackendV1)
         else:
             valid_guided_backends = get_args(GuidedDecodingBackendV0)
-        if backend not in valid_guided_backends:
-            raise ValueError(f"Invalid guided_decoding_backend '{backend}',"
+        if self.backend not in valid_guided_backends:
+            raise ValueError(f"Invalid backend '{self.backend}',"
                              f" must be one of {valid_guided_backends}")
+        if (self.disable_any_whitespace
+                and self.backend not in ("xgrammar", "guidance")):
+            raise ValueError("disable_any_whitespace is only supported for "
+                             "xgrammar and guidance backends.")
+        if (self.disable_additional_properties and self.backend != "guidance"):
+            raise ValueError("disable_additional_properties is only supported "
+                             "for the guidance backend.")
+
+    @deprecated(
+        "Passing guided decoding backend options inside backend in the format "
+        "'backend:...' is deprecated. This will be removed in v0.10.0. Please "
+        "use the dedicated arguments '--disable-fallback', "
+        "'--disable-any-whitespace' and '--disable-additional-properties' "
+        "instead.")
+    def _extract_backend_options(self):
+        """Extract backend options from the backend string."""
+        backend, options = self.backend.split(":")
+        self.backend = cast(GuidedDecodingBackend, backend)
+        options_set = set(options.strip().split(","))
+        if "no-fallback" in options_set:
+            self.disable_fallback = True
+        if "disable-any-whitespace" in options_set:
+            self.disable_any_whitespace = True
+        if "no-additional-properties" in options_set:
+            self.disable_additional_properties = True
 
 
 @dataclass
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index fe688025f..be0cd4d3a 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -18,9 +18,9 @@ from vllm import version
 from vllm.config import (BlockSize, CacheConfig, CacheDType, CompilationConfig,
                          ConfigFormat, ConfigType, DecodingConfig, Device,
                          DeviceConfig, DistributedExecutorBackend,
-                         GuidedDecodingBackendV1, HfOverrides,
-                         KVTransferConfig, LoadConfig, LoadFormat, LoRAConfig,
-                         ModelConfig, ModelImpl, MultiModalConfig,
+                         GuidedDecodingBackend, GuidedDecodingBackendV1,
+                         HfOverrides, KVTransferConfig, LoadConfig, LoadFormat,
+                         LoRAConfig, ModelConfig, ModelImpl, MultiModalConfig,
                          ObservabilityConfig, ParallelConfig, PoolerConfig,
                          PrefixCachingHashAlgo, PromptAdapterConfig,
                          SchedulerConfig, SchedulerPolicy, SpeculativeConfig,
@@ -317,7 +317,12 @@ class EngineArgs:
         bool] = SchedulerConfig.enable_chunked_prefill
     disable_chunked_mm_input: bool = SchedulerConfig.disable_chunked_mm_input
 
-    guided_decoding_backend: str = DecodingConfig.guided_decoding_backend
+    guided_decoding_backend: GuidedDecodingBackend = DecodingConfig.backend
+    guided_decoding_disable_fallback: bool = DecodingConfig.disable_fallback
+    guided_decoding_disable_any_whitespace: bool = \
+        DecodingConfig.disable_any_whitespace
+    guided_decoding_disable_additional_properties: bool = \
+        DecodingConfig.disable_additional_properties
     logits_processor_pattern: Optional[str] = None
 
     speculative_config: Optional[Dict[str, Any]] = None
@@ -498,9 +503,17 @@ class EngineArgs:
             title="DecodingConfig",
             description=DecodingConfig.__doc__,
         )
+        guided_decoding_group.add_argument("--guided-decoding-backend",
+                                           **guided_decoding_kwargs["backend"])
         guided_decoding_group.add_argument(
-            '--guided-decoding-backend',
-            **guided_decoding_kwargs["guided_decoding_backend"])
+            "--guided-decoding-disable-fallback",
+            **guided_decoding_kwargs["disable_fallback"])
+        guided_decoding_group.add_argument(
+            "--guided-decoding-disable-any-whitespace",
+            **guided_decoding_kwargs["disable_any_whitespace"])
+        guided_decoding_group.add_argument(
+            "--guided-decoding-disable-additional-properties",
+            **guided_decoding_kwargs["disable_additional_properties"])
         guided_decoding_group.add_argument(
             "--reasoning-parser",
             # This choices is a special case because it's not static
@@ -1244,7 +1257,11 @@ class EngineArgs:
                                         if self.enable_prompt_adapter else None
 
         decoding_config = DecodingConfig(
-            guided_decoding_backend=self.guided_decoding_backend,
+            backend=self.guided_decoding_backend,
+            disable_fallback=self.guided_decoding_disable_fallback,
+            disable_any_whitespace=self.guided_decoding_disable_any_whitespace,
+            disable_additional_properties=\
+                self.guided_decoding_disable_additional_properties,
             reasoning_backend=self.reasoning_parser
             if self.enable_reasoning else None,
         )
@@ -1335,9 +1352,8 @@ class EngineArgs:
                                recommend_to_remove=True)
             return False
 
-        # remove backend options when doing this check
-        if self.guided_decoding_backend.split(':')[0] \
-            not in get_args(GuidedDecodingBackendV1):
+        if self.guided_decoding_backend not in get_args(
+                GuidedDecodingBackendV1):
             _raise_or_fallback(
                 feature_name=
                 f"--guided-decoding-backend={self.guided_decoding_backend}",
diff --git a/vllm/engine/llm_engine.py b/vllm/engine/llm_engine.py
index c23530990..38f13d859 100644
--- a/vllm/engine/llm_engine.py
+++ b/vllm/engine/llm_engine.py
@@ -2091,7 +2091,7 @@ class LLMEngine:
 
             tokenizer = self.get_tokenizer(lora_request=lora_request)
             guided_decoding.backend = guided_decoding.backend or \
-                self.decoding_config.guided_decoding_backend
+                self.decoding_config.backend
 
             if self.decoding_config.reasoning_backend is not None:
                 logger.debug("Building with reasoning backend %s",
diff --git a/vllm/engine/multiprocessing/client.py b/vllm/engine/multiprocessing/client.py
index eb3ae8939..d23a4c6ed 100644
--- a/vllm/engine/multiprocessing/client.py
+++ b/vllm/engine/multiprocessing/client.py
@@ -615,9 +615,9 @@ class MQLLMEngineClient(EngineClient):
                 build_guided_decoding_logits_processor_async(
                     sampling_params=params,
                     tokenizer=await self.get_tokenizer(lora_request),
-                    default_guided_backend=(self.decoding_config.guided_decoding_backend
+                    default_guided_backend=(self.decoding_config.backend
                         if self.decoding_config
-                        else DecodingConfig.guided_decoding_backend),
+                        else DecodingConfig.backend),
                     model_config=self.model_config,
                     reasoning_backend=self.decoding_config.reasoning_backend,
                 )
diff --git a/vllm/model_executor/guided_decoding/__init__.py b/vllm/model_executor/guided_decoding/__init__.py
index 8fdcdcafa..4e4d697f4 100644
--- a/vllm/model_executor/guided_decoding/__init__.py
+++ b/vllm/model_executor/guided_decoding/__init__.py
@@ -26,8 +26,8 @@ def maybe_backend_fallback(
     def fallback_or_error(guided_params: GuidedDecodingParams, message: str,
                           fallback: str) -> None:
         """Change the backend to the specified fallback with a warning log,
-        or raise a ValueError if the `no-fallback` option is specified."""
-        if guided_params.no_fallback():
+        or raise a ValueError if the `disable_fallback` option is specified."""
+        if guided_params.disable_fallback:
             raise ValueError(message)
 
         logger.warning("%s Falling back to use %s instead.", message, fallback)
@@ -40,7 +40,7 @@ def maybe_backend_fallback(
         guided_params.backend = "xgrammar"
 
     # lm-format-enforce doesn't support grammar, fallback to xgrammar
-    if guided_params.backend_name == "lm-format-enforcer":
+    if guided_params.backend == "lm-format-enforcer":
         if guided_params.grammar is not None:
             fallback_or_error(
                 guided_params,
@@ -55,7 +55,7 @@ def maybe_backend_fallback(
                 "lm-format-enforcer does not support advanced JSON schema "
                 "features like patterns or numeric ranges.", "outlines")
 
-    if guided_params.backend_name == "xgrammar":
+    if guided_params.backend == "xgrammar":
         from vllm.model_executor.guided_decoding.xgrammar_decoding import (
             xgr_installed)
 
@@ -87,7 +87,7 @@ def maybe_backend_fallback(
                 guided_params,
                 "xgrammar module cannot be imported successfully.", "outlines")
 
-    if (guided_params.backend_name == "outlines"
+    if (guided_params.backend == "outlines"
             and guided_params.json_object is not None):
         # outlines doesn't support json_object, fallback to guidance
         fallback_or_error(guided_params,
@@ -111,7 +111,7 @@ async def get_guided_decoding_logits_processor(
     guided_params = maybe_backend_fallback(guided_params)
 
     # CFG grammar not supported by LMFE, so we use outlines instead
-    if guided_params.backend_name == 'outlines':
+    if guided_params.backend == 'outlines':
         # NOTE: lazy import outlines to avoid https://github.com/vllm-project/vllm/issues/4193
         from vllm.model_executor.guided_decoding.outlines_decoding import (  # noqa
             get_outlines_guided_decoding_logits_processor)
@@ -122,12 +122,12 @@ async def get_guided_decoding_logits_processor(
             get_local_lm_format_enforcer_guided_decoding_logits_processor)
         return get_local_lm_format_enforcer_guided_decoding_logits_processor(
             guided_params, tokenizer)
-    if guided_params.backend_name == 'xgrammar':
+    if guided_params.backend == 'xgrammar':
         from vllm.model_executor.guided_decoding.xgrammar_decoding import (  # noqa
             get_local_xgrammar_guided_decoding_logits_processor)
         return get_local_xgrammar_guided_decoding_logits_processor(
             guided_params, tokenizer, model_config, reasoner)
-    if guided_params.backend_name == 'guidance':
+    if guided_params.backend == 'guidance':
         from vllm.model_executor.guided_decoding.guidance_decoding import (
             get_local_guidance_guided_decoding_logits_processor)
         return get_local_guidance_guided_decoding_logits_processor(
@@ -152,23 +152,23 @@ def get_local_guided_decoding_logits_processor(
         reasoner = reasoner_class(tokenizer)
 
     # CFG grammar not supported by LMFE, so we use outlines instead
-    if guided_params.backend_name == 'outlines':
+    if guided_params.backend == 'outlines':
         # NOTE: lazy import outlines to avoid https://github.com/vllm-project/vllm/issues/4193
         from vllm.model_executor.guided_decoding.outlines_decoding import (  # noqa
             get_local_outlines_guided_decoding_logits_processor)
         return get_local_outlines_guided_decoding_logits_processor(
             guided_params, tokenizer, reasoner)
-    if guided_params.backend_name == 'lm-format-enforcer':
+    if guided_params.backend == 'lm-format-enforcer':
         from vllm.model_executor.guided_decoding.lm_format_enforcer_decoding import (  # noqa
             get_local_lm_format_enforcer_guided_decoding_logits_processor)
         return get_local_lm_format_enforcer_guided_decoding_logits_processor(
             guided_params, tokenizer)
-    if guided_params.backend_name == 'xgrammar':
+    if guided_params.backend == 'xgrammar':
         from vllm.model_executor.guided_decoding.xgrammar_decoding import (  # noqa
             get_local_xgrammar_guided_decoding_logits_processor)
         return get_local_xgrammar_guided_decoding_logits_processor(
             guided_params, tokenizer, model_config, reasoner)
-    if guided_params.backend_name == 'guidance':
+    if guided_params.backend == 'guidance':
         from vllm.model_executor.guided_decoding.guidance_decoding import (
             get_local_guidance_guided_decoding_logits_processor)
         return get_local_guidance_guided_decoding_logits_processor(
diff --git a/vllm/model_executor/guided_decoding/guidance_decoding.py b/vllm/model_executor/guided_decoding/guidance_decoding.py
index 95b7c7110..0b1f4762b 100644
--- a/vllm/model_executor/guided_decoding/guidance_decoding.py
+++ b/vllm/model_executor/guided_decoding/guidance_decoding.py
@@ -21,13 +21,12 @@ def get_local_guidance_guided_decoding_logits_processor(
     """
 
     grm = ""
-    any_whitespace = 'disable-any-whitespace' not in \
-        guided_params.backend_options()
+    any_whitespace = not guided_params.disable_any_whitespace
     if (guide_json := guided_params.json) is not None:
         # Optionally set additionalProperties to False at the top-level
         # By default, other backends do not allow additional top-level
         # properties, so this makes guidance more similar to other backends
-        if 'no-additional-properties' in guided_params.backend_options():
+        if guided_params.disable_additional_properties:
             if not isinstance(guide_json, str):
                 guide_json = json.dumps(guide_json)
             guide_json = process_for_additional_properties(guide_json)
diff --git a/vllm/model_executor/guided_decoding/xgrammar_decoding.py b/vllm/model_executor/guided_decoding/xgrammar_decoding.py
index ff223c3c9..40f722410 100644
--- a/vllm/model_executor/guided_decoding/xgrammar_decoding.py
+++ b/vllm/model_executor/guided_decoding/xgrammar_decoding.py
@@ -175,8 +175,7 @@ class GrammarConfig:
             else:
                 json_str = guided_params.json
 
-            any_whitespace = 'disable-any-whitespace' not in \
-                    guided_params.backend_options()
+            any_whitespace = not guided_params.disable_any_whitespace
 
             # Check and log if model with xgrammar and whitespace have history
             # of runaway generation of whitespaces.
@@ -191,11 +190,10 @@ class GrammarConfig:
                 model_with_warn = 'Qwen'
 
             if model_with_warn is not None and any_whitespace:
-                msg = (f"{model_with_warn} "
-                       f"model detected, consider set "
-                       f"`guided_backend=xgrammar:disable-any-whitespace` "
-                       f"to prevent runaway generation of whitespaces.")
-                logger.info_once(msg)
+                logger.info_once(
+                    "%s model detected, consider setting "
+                    "`disable_any_whitespace` to prevent runaway generation "
+                    "of whitespaces.", model_with_warn)
             # Validate the schema and raise ValueError here if it is invalid.
             # This is to avoid exceptions in model execution, which will crash
             # the engine worker process.
diff --git a/vllm/sampling_params.py b/vllm/sampling_params.py
index c430b74a9..511571d05 100644
--- a/vllm/sampling_params.py
+++ b/vllm/sampling_params.py
@@ -8,6 +8,7 @@ from typing import Annotated, Any, Optional, Union
 
 import msgspec
 from pydantic import BaseModel
+from typing_extensions import deprecated
 
 from vllm.logger import init_logger
 from vllm.logits_process import LogitsProcessor
@@ -37,6 +38,10 @@ class GuidedDecodingParams:
     json_object: Optional[bool] = None
     """These are other options that can be set"""
     backend: Optional[str] = None
+    backend_was_auto: bool = False
+    disable_fallback: bool = False
+    disable_any_whitespace: bool = False
+    disable_additional_properties: bool = False
     whitespace_pattern: Optional[str] = None
     structural_tag: Optional[str] = None
 
@@ -68,36 +73,6 @@ class GuidedDecodingParams:
             structural_tag=structural_tag,
         )
 
-    @property
-    def backend_name(self) -> str:
-        """Return the backend name without any options.
-        
-        For example if the backend is "xgrammar:no-fallback", returns "xgrammar"
-        """
-        return (self.backend or "").split(":")[0]
-
-    def backend_options(self) -> list[str]:
-        """Return the backend options as a list of strings."""
-        if not self.backend or ":" not in self.backend:
-            return []
-        return self.backend.split(":")[1].split(",")
-
-    def add_option(self, opt_name: str) -> None:
-        """Adds an option to the backend options."""
-        if not self.backend:
-            self.backend = f":{opt_name}"
-        elif ":" not in self.backend:
-            self.backend += f":{opt_name}"
-        else:
-            options = set(self.backend_options())
-            options.add(opt_name)
-            self.backend = f"{self.backend_name}:{','.join(sorted(options))}"
-
-    def no_fallback(self) -> bool:
-        """Returns True if the "no-fallback" option is supplied for the guided
-        decoding backend"""
-        return "no-fallback" in self.backend_options()
-
     def __post_init__(self):
         """Validate that some fields are mutually exclusive."""
         guide_count = sum([
@@ -109,6 +84,27 @@ class GuidedDecodingParams:
                 "You can only use one kind of guided decoding but multiple are "
                 f"specified: {self.__dict__}")
 
+        if self.backend is not None and ":" in self.backend:
+            self._extract_backend_options()
+
+    @deprecated(
+        "Passing guided decoding backend options inside backend in the format "
+        "'backend:...' is deprecated. This will be removed in v0.10.0. Please "
+        "use the dedicated arguments '--disable-fallback', "
+        "'--disable-any-whitespace' and '--disable-additional-properties' "
+        "instead.")
+    def _extract_backend_options(self):
+        """Extract backend options from the backend string."""
+        assert isinstance(self.backend, str)
+        self.backend, options = self.backend.split(":")
+        options_set = set(options.strip().split(","))
+        if "no-fallback" in options_set:
+            self.disable_fallback = True
+        if "disable-any-whitespace" in options_set:
+            self.disable_any_whitespace = True
+        if "no-additional-properties" in options_set:
+            self.disable_additional_properties = True
+
 
 class RequestOutputKind(Enum):
     # Return entire output so far in every RequestOutput
diff --git a/vllm/v1/engine/processor.py b/vllm/v1/engine/processor.py
index 5c15e8bae..8ae5d0157 100644
--- a/vllm/v1/engine/processor.py
+++ b/vllm/v1/engine/processor.py
@@ -144,7 +144,7 @@ class Processor:
         if not params.guided_decoding or not self.decoding_config:
             return
 
-        engine_level_backend = self.decoding_config.guided_decoding_backend
+        engine_level_backend = self.decoding_config.backend
         if params.guided_decoding.backend:
             # Request-level backend selection is not supported in V1.
             # The values may differ if `params` is reused and was set
@@ -152,8 +152,8 @@ class Processor:
             # request. We remember that it was set as a result of `auto`
             # using the `_auto` option set on the backend in the params.
             if (params.guided_decoding.backend != engine_level_backend
-                    and not (engine_level_backend == "auto" and "_auto"
-                             in params.guided_decoding.backend_options())):
+                    and not (engine_level_backend == "auto"
+                             and params.guided_decoding.backend_was_auto)):
                 raise ValueError(
                     "Request-level structured output backend selection is no "
                     "longer supported. The request specified "
@@ -189,7 +189,7 @@ class Processor:
                 # are not supported in xgrammar. Fall back to guidance.
                 params.guided_decoding.backend = "guidance"
             # Remember that this backend was set automatically
-            params.guided_decoding.add_option("_auto")
+            params.guided_decoding.backend_was_auto = True
 
     def process_inputs(
         self,
diff --git a/vllm/v1/structured_output/__init__.py b/vllm/v1/structured_output/__init__.py
index 0fd66c072..47ae4c4f0 100644
--- a/vllm/v1/structured_output/__init__.py
+++ b/vllm/v1/structured_output/__init__.py
@@ -45,17 +45,17 @@ class StructuredOutputManager:
         # NOTE: We only support a single backend. We do NOT support different
         # backends on a per-request basis in V1 (for now, anyway...).
         if self.backend is None:
-            backend_name = request.sampling_params.guided_decoding.backend_name
-            if backend_name == "xgrammar":
+            backend = request.sampling_params.guided_decoding.backend
+            if backend == "xgrammar":
                 from vllm.v1.structured_output.backend_xgrammar import (
                     XgrammarBackend)
 
                 self.backend = XgrammarBackend(self.vllm_config)
-            elif backend_name == "guidance":
+            elif backend == "guidance":
                 self.backend = GuidanceBackend(self.vllm_config)
             else:
                 raise ValueError(
-                    f"Unsupported structured output backend: {backend_name}")
+                    f"Unsupported structured output backend: {backend}")
 
         grammar = self.executor.submit(self._async_create_grammar, request)
         request.structured_output_request.grammar = grammar  # type: ignore[assignment]
diff --git a/vllm/v1/structured_output/backend_guidance.py b/vllm/v1/structured_output/backend_guidance.py
index d4dc5e681..8fb3e56bc 100644
--- a/vllm/v1/structured_output/backend_guidance.py
+++ b/vllm/v1/structured_output/backend_guidance.py
@@ -10,7 +10,7 @@ import torch
 
 from vllm.config import VllmConfig
 from vllm.logger import init_logger
-from vllm.sampling_params import GuidedDecodingParams, SamplingParams
+from vllm.sampling_params import SamplingParams
 from vllm.transformers_utils.tokenizer_group import init_tokenizer_from_configs
 from vllm.utils import LazyLoader
 from vllm.v1.structured_output.backend_types import (StructuredOutputBackend,
@@ -65,19 +65,10 @@ class GuidanceBackend(StructuredOutputBackend):
         self.vllm_config = vllm_config
         self.vocab_size = vllm_config.model_config.get_vocab_size()
 
-        self.disable_any_whitespace = False
-        self.no_additional_properties = False
-        backend_options = GuidedDecodingParams(
-            backend=vllm_config.decoding_config.guided_decoding_backend
-        ).backend_options()
-        for option in backend_options:
-            if option == "disable-any-whitespace":
-                self.disable_any_whitespace = True
-            elif option == "no-additional-properties":
-                self.no_additional_properties = True
-            else:
-                raise ValueError(
-                    f"Unsupported option for the guidance backend: {option}")
+        self.disable_any_whitespace = \
+            vllm_config.decoding_config.disable_any_whitespace
+        self.disable_additional_properties = \
+            vllm_config.decoding_config.disable_additional_properties
 
         tokenizer = tokenizer_group.get_lora_tokenizer(None)
         self.ll_tokenizer = llguidance_hf.from_tokenizer(
@@ -87,7 +78,7 @@ class GuidanceBackend(StructuredOutputBackend):
                         grammar_spec: str) -> StructuredOutputGrammar:
         self.serialized_grammar = serialize_guidance_grammar(
             request_type, grammar_spec, self.disable_any_whitespace,
-            self.no_additional_properties)
+            self.disable_additional_properties)
 
         ll_matcher = llguidance.LLMatcher(
             self.ll_tokenizer,
@@ -171,11 +162,11 @@ def serialize_guidance_grammar(
     request_type: StructuredOutputOptions,
     grammar_spec: Union[str, dict[str, Any]],
     disable_any_whitespace: bool = False,
-    no_additional_properties: bool = False,
+    disable_additional_properties: bool = False,
 ) -> str:
 
     def _process_schema(grammar_spec: Union[str, dict[str, Any]], ) -> str:
-        if no_additional_properties:
+        if disable_additional_properties:
             grammar_spec = process_for_additional_properties(grammar_spec)
         return llguidance.LLMatcher.grammar_from_json_schema(
             grammar_spec,
diff --git a/vllm/v1/structured_output/backend_xgrammar.py b/vllm/v1/structured_output/backend_xgrammar.py
index ecaeb6e4e..50a7d1683 100644
--- a/vllm/v1/structured_output/backend_xgrammar.py
+++ b/vllm/v1/structured_output/backend_xgrammar.py
@@ -9,7 +9,7 @@ import torch
 import vllm.envs
 from vllm.config import VllmConfig
 from vllm.logger import init_logger
-from vllm.sampling_params import GuidedDecodingParams, SamplingParams
+from vllm.sampling_params import SamplingParams
 from vllm.transformers_utils.tokenizer_group import init_tokenizer_from_configs
 from vllm.transformers_utils.tokenizers.mistral import MistralTokenizer
 from vllm.utils import LazyLoader
@@ -37,16 +37,8 @@ class XgrammarBackend(StructuredOutputBackend):
             scheduler_config=vllm_config.scheduler_config,
             lora_config=vllm_config.lora_config)  # type: ignore[arg-type]
 
-        self.disable_any_whitespace = False
-        backend_options = GuidedDecodingParams(
-            backend=vllm_config.decoding_config.guided_decoding_backend
-        ).backend_options()
-        for option in backend_options:
-            if option == "disable-any-whitespace":
-                self.disable_any_whitespace = True
-            else:
-                raise ValueError(
-                    f"Unsupported option for the xgrammar backend: {option}")
+        self.disable_any_whitespace = \
+            vllm_config.decoding_config.disable_any_whitespace
 
         tokenizer = tokenizer_group.get_lora_tokenizer(None)
         self.vocab_size = vllm_config.model_config.get_vocab_size()
-- 
GitLab


From 0350809f3a84d9bbc3586d3dcca98ba1400660c5 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 29 Apr 2025 20:52:25 +0100
Subject: [PATCH 038/461] Remove Falcon3 2x7B from CI (#17404)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 tests/models/decoder_only/language/test_models.py | 7 +++----
 tests/models/registry.py                          | 2 +-
 2 files changed, 4 insertions(+), 5 deletions(-)

diff --git a/tests/models/decoder_only/language/test_models.py b/tests/models/decoder_only/language/test_models.py
index d35d87459..e55a682c0 100644
--- a/tests/models/decoder_only/language/test_models.py
+++ b/tests/models/decoder_only/language/test_models.py
@@ -29,7 +29,7 @@ AITER_MODEL_LIST = [
     "openbmb/MiniCPM3-4B",
     "Qwen/Qwen-7B-Chat",
     "Qwen/Qwen2.5-0.5B-Instruct",
-    "ehristoforu/Falcon3-MoE-2x7B-Insruct",
+    "TitanML/tiny-mixtral",
 ]
 
 
@@ -83,9 +83,8 @@ AITER_MODEL_LIST = [
         pytest.param("stabilityai/stablelm-3b-4e1t"),  # stablelm
         pytest.param("bigcode/starcoder2-3b"),  # starcoder2
         pytest.param(
-            "ehristoforu/Falcon3-MoE-2x7B-Insruct",  # mixtral
-            marks=[pytest.mark.cpu_model,
-                   large_gpu_mark(min_gb=48)],
+            "TitanML/tiny-mixtral",  # mixtral
+            marks=[pytest.mark.cpu_model],
         )
     ])
 @pytest.mark.parametrize("max_tokens", [32])
diff --git a/tests/models/registry.py b/tests/models/registry.py
index 8b330109d..75832d83d 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -191,7 +191,7 @@ _TEXT_GENERATION_EXAMPLE_MODELS = {
                                                 trust_remote_code=True),
     "MistralForCausalLM": _HfExamplesInfo("mistralai/Mistral-7B-Instruct-v0.1"),
     "MixtralForCausalLM": _HfExamplesInfo("mistralai/Mixtral-8x7B-Instruct-v0.1",  # noqa: E501
-                                          {"falcon3": "ehristoforu/Falcon3-MoE-2x7B-Insruct"}),  # noqa: E501
+                                          {"tiny": "TitanML/tiny-mixtral"}),  # noqa: E501
     "QuantMixtralForCausalLM": _HfExamplesInfo("mistral-community/Mixtral-8x22B-v0.1-AWQ"),  # noqa: E501
     "MptForCausalLM": _HfExamplesInfo("mpt", is_available_online=False),
     "MPTForCausalLM": _HfExamplesInfo("mosaicml/mpt-7b"),
-- 
GitLab


From c9c1b59e59a35d5004e3914e23015617fc330b31 Mon Sep 17 00:00:00 2001
From: Dilip Gowda Bhagavan <110233170+dilipgb@users.noreply.github.com>
Date: Wed, 30 Apr 2025 01:50:24 +0530
Subject: [PATCH 039/461] Fix: Python package installation for opentelmetry
 (#17049)

Signed-off-by: Dilip Gowda Bhagavan <dilip.bhagavan@ibm.com>
---
 docker/Dockerfile.s390x | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/docker/Dockerfile.s390x b/docker/Dockerfile.s390x
index 128929ac3..9c10cd56b 100644
--- a/docker/Dockerfile.s390x
+++ b/docker/Dockerfile.s390x
@@ -16,7 +16,7 @@ ENV LANG=C.UTF-8 \
 RUN microdnf install -y \
     which procps findutils tar vim git gcc gcc-gfortran g++ make patch zlib-devel \
     libjpeg-turbo-devel libtiff-devel libpng-devel libwebp-devel freetype-devel harfbuzz-devel \
-    openssl-devel openblas openblas-devel autoconf automake libtool cmake && \
+    openssl-devel openblas openblas-devel autoconf automake libtool cmake numpy && \
     microdnf clean all
 
 # Python Installation
@@ -123,6 +123,7 @@ ENV UV_LINK_MODE=copy
 ENV CARGO_HOME=/root/.cargo
 ENV RUSTUP_HOME=/root/.rustup
 ENV PATH="$CARGO_HOME/bin:$RUSTUP_HOME/bin:$PATH"
+ENV GRPC_PYTHON_BUILD_SYSTEM_OPENSSL=1
 
 COPY . /workspace/vllm
 WORKDIR /workspace/vllm
-- 
GitLab


From 70788bdbdc590e7fbf9bddb3fa9bc92ac3181733 Mon Sep 17 00:00:00 2001
From: Bryan Lu <55512809+luyuzhe111@users.noreply.github.com>
Date: Tue, 29 Apr 2025 14:10:00 -0700
Subject: [PATCH 040/461] [V1][Spec Decode] Apply torch.compile & cudagraph to
 EAGLE (#17211)

Signed-off-by: Bryan Lu <yuzhelu@amazon.com>
---
 examples/offline_inference/eagle.py        |  14 ++-
 vllm/compilation/backends.py               |  15 ++-
 vllm/model_executor/models/llama_eagle.py  |  25 +++--
 vllm/model_executor/models/llama_eagle3.py |   5 +-
 vllm/v1/spec_decode/eagle.py               | 122 +++++++++++++++++----
 vllm/v1/worker/gpu_model_runner.py         |  24 ++--
 6 files changed, 152 insertions(+), 53 deletions(-)

diff --git a/examples/offline_inference/eagle.py b/examples/offline_inference/eagle.py
index 474b745a6..91e2f68ec 100644
--- a/examples/offline_inference/eagle.py
+++ b/examples/offline_inference/eagle.py
@@ -36,6 +36,10 @@ def parse_args():
         help="downloaded from the eagle repo " \
         "https://github.com/SafeAILab/EAGLE/blob/main/eagle/data/"
     )
+    parser.add_argument("--method",
+                        type=str,
+                        default='eagle',
+                        choices=['eagle', 'eagle3'])
     parser.add_argument("--max_num_seqs", type=int, default=8)
     parser.add_argument("--num_prompts", type=int, default=80)
     parser.add_argument("--num_spec_tokens", type=int, default=2)
@@ -53,7 +57,13 @@ def main():
     args = parse_args()
 
     model_dir = "meta-llama/Llama-3.1-8B-Instruct"
-    eagle_dir = "yuhuili/EAGLE3-LLaMA3.1-Instruct-8B"
+
+    if args.method == 'eagle':
+        eagle_dir = "yuhuili/EAGLE-LLaMA3.1-Instruct-8B"
+    elif args.method == 'eagle3':
+        eagle_dir = "yuhuili/EAGLE3-LLaMA3.1-Instruct-8B"
+    else:
+        raise ValueError(f"unknown method: {args.method}")
 
     max_model_len = 2048
 
@@ -81,7 +91,7 @@ def main():
         max_num_seqs=args.max_num_seqs,
         gpu_memory_utilization=0.8,
         speculative_config={
-            "method": "eagle3" if "eagle3" in eagle_dir.lower() else "eagle",
+            "method": args.method,
             "model": eagle_dir,
             "num_speculative_tokens": args.num_spec_tokens,
             "draft_tensor_parallel_size": args.draft_tp,
diff --git a/vllm/compilation/backends.py b/vllm/compilation/backends.py
index 7012131d0..a1570b7ec 100644
--- a/vllm/compilation/backends.py
+++ b/vllm/compilation/backends.py
@@ -347,8 +347,12 @@ class VllmBackend:
         PASS_KEY = "post_grad_custom_post_pass"
         if PASS_KEY in inductor_config:
             # Config should automatically wrap all inductor passes
-            assert isinstance(inductor_config[PASS_KEY], InductorPass)
-            self.post_grad_pass_manager.add(inductor_config[PASS_KEY])
+            if isinstance(inductor_config[PASS_KEY], PostGradPassManager):
+                assert (inductor_config[PASS_KEY].uuid() ==
+                        self.post_grad_pass_manager.uuid())
+            else:
+                assert isinstance(inductor_config[PASS_KEY], InductorPass)
+                self.post_grad_pass_manager.add(inductor_config[PASS_KEY])
         inductor_config[PASS_KEY] = self.post_grad_pass_manager
 
     def __call__(self, graph: fx.GraphModule, example_inputs) -> Callable:
@@ -408,8 +412,13 @@ class VllmBackend:
             )
             self.compilation_config.cache_dir = cache_dir
 
-        cache_dir = self.compilation_config.cache_dir
+        if compilation_counter.num_graphs_seen > 0:
+            cache_dir = self.compilation_config.cache_dir + \
+                f'-{compilation_counter.num_graphs_seen}'
+        else:
+            cache_dir = self.compilation_config.cache_dir
         os.makedirs(cache_dir, exist_ok=True)
+        self.compilation_config.cache_dir = cache_dir
         rank = vllm_config.parallel_config.rank
         dp_rank = vllm_config.parallel_config.data_parallel_rank
         local_cache_dir = os.path.join(cache_dir, f"rank_{rank}_{dp_rank}")
diff --git a/vllm/model_executor/models/llama_eagle.py b/vllm/model_executor/models/llama_eagle.py
index 56e53ac2b..76655bd71 100644
--- a/vllm/model_executor/models/llama_eagle.py
+++ b/vllm/model_executor/models/llama_eagle.py
@@ -6,7 +6,8 @@ import torch
 import torch.nn as nn
 from transformers import LlamaConfig
 
-from vllm.config import ModelConfig
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
 from vllm.logger import init_logger
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.vocab_parallel_embedding import (
@@ -37,17 +38,19 @@ class LlamaDecoderLayer(LlamaDecoderLayer):
             self.input_layernorm = nn.Identity()
 
 
+@support_torch_compile
 class LlamaModel(nn.Module):
 
     def __init__(
         self,
         *,
-        model_config: ModelConfig,
-        start_layer_id: int = 0,
+        vllm_config: VllmConfig,
         prefix: str = "",
+        start_layer_id: int = 0,
     ) -> None:
         super().__init__()
-        self.config = model_config.hf_config
+        self.config = vllm_config. \
+            speculative_config.draft_model_config.hf_config
         self.vocab_size = self.config.vocab_size
         self.embed_tokens = VocabParallelEmbedding(
             self.config.vocab_size,
@@ -75,8 +78,7 @@ class LlamaModel(nn.Module):
         hidden_states = self.fc(
             torch.cat((input_embeds, hidden_states), dim=-1))
         residual = None
-        for i in range(len(self.layers)):
-            layer = self.layers[i]
+        for layer in self.layers:
             hidden_states, residual = layer(
                 positions,
                 hidden_states,
@@ -117,12 +119,13 @@ class LlamaModel(nn.Module):
 
 class EagleLlamaForCausalLM(LlamaForCausalLM):
 
-    def __init__(self, *, model_config: ModelConfig, start_layer_id: int = 0):
+    def __init__(self, *, vllm_config: VllmConfig, start_layer_id: int = 0):
         nn.Module.__init__(self)
-        self.config = model_config.hf_config
-        self.model = LlamaModel(model_config=model_config,
-                                start_layer_id=start_layer_id,
-                                prefix="model")
+        self.config = vllm_config. \
+            speculative_config.draft_model_config.hf_config
+        self.model = LlamaModel(vllm_config=vllm_config,
+                                prefix="model",
+                                start_layer_id=start_layer_id)
 
         logit_scale = getattr(self.config, "logit_scale", 1.0)
         self.logits_processor = LogitsProcessor(self.config.vocab_size,
diff --git a/vllm/model_executor/models/llama_eagle3.py b/vllm/model_executor/models/llama_eagle3.py
index 0b18e4a8f..c42f19fee 100644
--- a/vllm/model_executor/models/llama_eagle3.py
+++ b/vllm/model_executor/models/llama_eagle3.py
@@ -6,7 +6,7 @@ import torch
 import torch.nn as nn
 from transformers import LlamaConfig
 
-from vllm.config import ModelConfig
+from vllm.config import ModelConfig, VllmConfig
 from vllm.logger import init_logger
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import QKVParallelLinear
@@ -167,8 +167,9 @@ class LlamaModel(nn.Module):
 
 class Eagle3LlamaForCausalLM(LlamaForCausalLM):
 
-    def __init__(self, *, model_config: ModelConfig, start_layer_id: int = 0):
+    def __init__(self, *, vllm_config: VllmConfig, start_layer_id: int = 0):
         nn.Module.__init__(self)
+        model_config = vllm_config.speculative_config.draft_model_config
         self.config = model_config.hf_config
         self.model = LlamaModel(model_config=model_config,
                                 start_layer_id=start_layer_id,
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index 8c45ca9a3..81508c2e0 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -4,7 +4,7 @@ import torch.nn as nn
 import triton
 import triton.language as tl
 
-from vllm.config import VllmConfig, set_current_vllm_config
+from vllm.config import CompilationLevel, VllmConfig, set_current_vllm_config
 from vllm.forward_context import set_forward_context
 from vllm.logger import init_logger
 from vllm.model_executor.model_loader.loader import get_model_loader
@@ -26,10 +26,41 @@ class EagleProposer:
         device: torch.device,
     ):
         self.vllm_config = vllm_config
+        self.method = self.vllm_config.speculative_config.method
         self.num_speculative_tokens = (
             vllm_config.speculative_config.num_speculative_tokens)
         self.max_model_len = vllm_config.model_config.max_model_len
         self.block_size = vllm_config.cache_config.block_size
+
+        self.dtype = vllm_config.model_config.dtype
+
+        self.max_num_tokens = vllm_config.scheduler_config \
+            .max_num_batched_tokens
+
+        self.hidden_size = vllm_config.model_config.get_hidden_size()
+
+        # TODO: make eagle3 compatible with cudagraph
+        self.use_cuda_graph = self.method != 'eagle3' and \
+            (self.vllm_config.compilation_config.level
+             == CompilationLevel.PIECEWISE and
+             not self.vllm_config.model_config.enforce_eager)
+
+        self.cudagraph_batch_sizes = list(
+            reversed(
+                self.vllm_config.compilation_config.cudagraph_capture_sizes))
+
+        # persistent buffers for cuda graph
+        self.input_ids = torch.zeros(self.max_num_tokens,
+                                     dtype=torch.int32,
+                                     device=device)
+        self.positions = torch.zeros(self.max_num_tokens,
+                                     dtype=torch.int64,
+                                     device=device)
+
+        self.hidden_states = torch.zeros(
+            (self.max_num_tokens, self.hidden_size),
+            dtype=self.dtype,
+            device=device)
         # We need +1 here because the arange is used to set query_start_loc,
         # which has one more element than batch_size.
         self.arange = torch.arange(vllm_config.scheduler_config.max_num_seqs +
@@ -59,13 +90,12 @@ class EagleProposer:
         batch_size = next_token_ids.shape[0]
         last_token_indices = cu_num_tokens[1:] - 1
 
-        input_ids = torch.empty_like(target_token_ids)
         # Shift the input ids by one token.
         # E.g., [a1, b1, b2, c1, c2, c3] -> [b1, b2, c1, c2, c3, c3]
-        input_ids[:-1] = target_token_ids[1:]
+        self.input_ids[:num_tokens - 1] = target_token_ids[1:]
         # Replace the last token with the next token.
         # E.g., [b1, b2, c1, c2, c3, c3] -> [a2, b2, b3, c2, c3, c4]
-        input_ids[last_token_indices] = next_token_ids
+        self.input_ids[last_token_indices] = next_token_ids
 
         # FA requires seq_len to have dtype int32.
         seq_lens = (target_positions[last_token_indices] + 1).int()
@@ -88,14 +118,30 @@ class EagleProposer:
             prefix_kv_lens=None,
             suffix_kv_lens=None,
         )
+        if self.use_cuda_graph and \
+            num_tokens <= self.cudagraph_batch_sizes[-1]:
+            num_input_tokens = self.vllm_config.pad_for_cudagraph(num_tokens)
+        else:
+            num_input_tokens = num_tokens
+        # copy inputs to buffer for cudagraph
+        self.positions[:num_tokens] = target_positions
 
-        with set_forward_context(attn_metadata, self.vllm_config):
-            hidden_states_logits, hidden_states_fwd = self.model(
-                input_ids=input_ids,
-                hidden_states=target_hidden_states,
-                positions=target_positions,
+        if self.method == 'eagle':
+            self.hidden_states[:num_tokens] = target_hidden_states
+            hidden_states = self.hidden_states
+        else:
+            # TODO: make eagle3 compatible with cuda graph
+            hidden_states = target_hidden_states
+
+        with set_forward_context(attn_metadata,
+                                 self.vllm_config,
+                                 num_tokens=num_input_tokens):
+            last_hidden_states, hidden_states = self.model(
+                input_ids=self.input_ids[:num_input_tokens],
+                positions=self.positions[:num_input_tokens],
+                hidden_states=hidden_states[:num_input_tokens],
             )
-        sample_hidden_states = hidden_states_logits[last_token_indices]
+        sample_hidden_states = last_hidden_states[last_token_indices]
         logits = self.model.compute_logits(sample_hidden_states, None)
         draft_token_ids = logits.argmax(dim=-1)
 
@@ -108,13 +154,20 @@ class EagleProposer:
         draft_token_ids_list = [draft_token_ids]
 
         positions = target_positions[last_token_indices]
-        hidden_states = hidden_states_fwd[last_token_indices]
+        hidden_states = hidden_states[last_token_indices]
+        if self.use_cuda_graph and \
+            batch_size <= self.cudagraph_batch_sizes[-1]:
+            input_batch_size = self.vllm_config.pad_for_cudagraph(batch_size)
+        else:
+            input_batch_size = batch_size
         attn_metadata.num_actual_tokens = batch_size
         attn_metadata.max_query_len = 1
         attn_metadata.query_start_loc = self.arange[:batch_size + 1]
         for _ in range(self.num_speculative_tokens - 1):
             # Update the inputs.
-            input_ids = draft_token_ids_list[-1]
+            # cast to int32 is crucial when eagle model is compiled.
+            # tensor.argmax() returns int64 by default.
+            input_ids = draft_token_ids_list[-1].int()
             positions += 1
 
             # NOTE(woosuk): We should handle the case where the draft model
@@ -152,14 +205,27 @@ class EagleProposer:
             attn_metadata.slot_mapping.masked_fill_(exceeds_max_model_len,
                                                     PADDING_SLOT_ID)
 
+            # copy inputs to buffer for cudagraph
+            self.input_ids[:batch_size] = input_ids
+            self.positions[:batch_size] = clamped_positions
+
+            if self.method == 'eagle':
+                # TODO: make eagle3 compatible with cudagraph.
+                self.hidden_states[:batch_size] = hidden_states
+                hidden_states = self.hidden_states
+
             # Run the model.
-            with set_forward_context(attn_metadata, self.vllm_config):
-                hidden_states_logits, hidden_states = self.model(
-                    input_ids=input_ids,
-                    hidden_states=hidden_states,
-                    positions=clamped_positions,
+            with set_forward_context(attn_metadata,
+                                     self.vllm_config,
+                                     num_tokens=input_batch_size):
+                last_hidden_states, hidden_states = self.model(
+                    input_ids=self.input_ids[:input_batch_size],
+                    positions=self.positions[:input_batch_size],
+                    hidden_states=hidden_states[:input_batch_size],
                 )
-            logits = self.model.compute_logits(hidden_states_logits, None)
+            hidden_states = hidden_states[:batch_size]
+            logits = self.model.compute_logits(last_hidden_states[:batch_size],
+                                               None)
             draft_token_ids = logits.argmax(dim=-1)
             draft_token_ids_list.append(draft_token_ids)
 
@@ -227,13 +293,11 @@ class EagleProposer:
             draft_model_cls, arch = ModelRegistry.resolve_model_cls(
                 draft_model_config.architectures)
             self.model = draft_model_cls(
-                model_config=draft_model_config,
+                vllm_config=self.vllm_config,
                 start_layer_id=target_layer_num).to(target_device)
 
         loaded_weights = self.model.load_weights(
-            loader.get_all_weights(
-                self.vllm_config.speculative_config.draft_model_config,
-                self.model))
+            loader.get_all_weights(draft_model_config, self.model))
         if self.vllm_config.speculative_config.method == "eagle3":
             if "model.embed_tokens.weight" not in loaded_weights:
                 logger.info(
@@ -243,6 +307,20 @@ class EagleProposer:
             logger.info("Loading EAGLE LM head weights from the target model.")
             self.model.lm_head = target_model.lm_head
 
+    @torch.inference_mode()
+    def dummy_run(
+        self,
+        num_tokens: int,
+    ) -> None:
+        with set_forward_context(None, self.vllm_config,
+                                 num_tokens=num_tokens):
+            if self.method == 'eagle':
+                self.model(
+                    input_ids=self.input_ids[:num_tokens],
+                    positions=self.positions[:num_tokens],
+                    hidden_states=self.hidden_states[:num_tokens],
+                )
+
 
 # NOTE(woosuk): Currently, the below code is not used and we always use argmax
 # to sample the draft tokens. We will use this after we find a way to manage
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 4711beadb..41de305a0 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -1106,7 +1106,6 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             # For mid-pipeline stages, return the hidden states.
             return hidden_states
 
-        hidden_states = hidden_states[:num_scheduled_tokens]
         sample_hidden_states = hidden_states[logits_indices]
         logits = self.model.compute_logits(sample_hidden_states, None)
 
@@ -1172,7 +1171,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
 
         # Compute prompt logprobs if needed.
         prompt_logprobs_dict = self._get_prompt_logprobs_dict(
-            hidden_states,
+            hidden_states[:num_scheduled_tokens],
             scheduler_output,
         )
 
@@ -1222,15 +1221,12 @@ class GPUModelRunner(LoRAModelRunnerMixin):
 
             if spec_decode_metadata is None:
                 # input_ids can be None for multimodal models.
-                # We need to slice token_ids, positions, and hidden_states
-                # because the eagle head does not use cuda graph and should
-                # not include padding.
                 target_token_ids = self.input_ids[:num_scheduled_tokens]
                 target_positions = positions[:num_scheduled_tokens]
                 if self.use_aux_hidden_state_outputs:
-                    target_hidden_states = [
-                        h[:num_scheduled_tokens] for h in aux_hidden_states
-                    ]
+                    target_hidden_states = torch.cat(
+                        [h[:num_scheduled_tokens] for h in aux_hidden_states],
+                        dim=-1)
                 else:
                     target_hidden_states = hidden_states[:num_scheduled_tokens]
                 target_slot_mapping = attn_metadata.slot_mapping
@@ -1254,15 +1250,12 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                 target_token_ids = self.input_ids[token_indices]
                 target_positions = positions[token_indices]
                 if self.use_aux_hidden_state_outputs:
-                    target_hidden_states = [
-                        h[token_indices] for h in aux_hidden_states
-                    ]
+                    target_hidden_states = torch.cat(
+                        [h[token_indices] for h in aux_hidden_states], dim=-1)
                 else:
                     target_hidden_states = hidden_states[token_indices]
                 target_slot_mapping = attn_metadata.slot_mapping[token_indices]
 
-            if self.use_aux_hidden_state_outputs:
-                target_hidden_states = torch.cat(target_hidden_states, dim=-1)
             draft_token_ids = self.drafter.propose(
                 target_token_ids=target_token_ids,
                 target_positions=target_positions,
@@ -1506,6 +1499,11 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             else:
                 hidden_states = outputs
 
+            if self.use_spec_decode and \
+                self.speculative_config.method in ('eagle', 'eagle3'):
+                assert isinstance(self.drafter, EagleProposer)
+                self.drafter.dummy_run(num_tokens)
+
         logit_indices = np.cumsum(num_scheduled_tokens) - 1
         return hidden_states[logit_indices]
 
-- 
GitLab


From 7489ec0bab2904dcc4001af59a942a16756fdbbc Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 29 Apr 2025 22:10:31 +0100
Subject: [PATCH 041/461] Remove Bamba 9B from CI (#17407)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 tests/models/decoder_only/language/test_hybrid.py | 2 +-
 tests/models/registry.py                          | 3 ++-
 tests/v1/test_oracle.py                           | 2 +-
 3 files changed, 4 insertions(+), 3 deletions(-)

diff --git a/tests/models/decoder_only/language/test_hybrid.py b/tests/models/decoder_only/language/test_hybrid.py
index 5931c25b8..e5e0c28ae 100644
--- a/tests/models/decoder_only/language/test_hybrid.py
+++ b/tests/models/decoder_only/language/test_hybrid.py
@@ -28,7 +28,7 @@ HYBRID_MODELS = [
     # not compatible with pip-compile.
     "pfnet/plamo-2-1b",
     "Zyphra/Zamba2-1.2B-instruct",
-    "ibm-ai-platform/Bamba-9B",
+    "hmellor/bamba-tiny-random",
 ]
 
 # Avoid OOM
diff --git a/tests/models/registry.py b/tests/models/registry.py
index 75832d83d..f17f70189 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -120,7 +120,8 @@ _TEXT_GENERATION_EXAMPLE_MODELS = {
                                          trust_remote_code=True),
     "BaichuanForCausalLM": _HfExamplesInfo("baichuan-inc/Baichuan2-7B-chat",
                                          trust_remote_code=True),
-    "BambaForCausalLM": _HfExamplesInfo("ibm-ai-platform/Bamba-9B"),
+    "BambaForCausalLM": _HfExamplesInfo("ibm-ai-platform/Bamba-9B",
+                                        extras={"tiny": "hmellor/bamba-tiny-random"}),  # noqa: E501
     "BloomForCausalLM": _HfExamplesInfo("bigscience/bloom-560m",
                                         {"1b": "bigscience/bloomz-1b1"}),
     "ChatGLMModel": _HfExamplesInfo("THUDM/chatglm3-6b",
diff --git a/tests/v1/test_oracle.py b/tests/v1/test_oracle.py
index 94c8ad7c9..c34c673e9 100644
--- a/tests/v1/test_oracle.py
+++ b/tests/v1/test_oracle.py
@@ -12,7 +12,7 @@ UNSUPPORTED_MODELS_V1 = [
     "openai/whisper-large-v3",  # transcription
     "facebook/bart-large-cnn",  # encoder decoder
     "mistralai/Mamba-Codestral-7B-v0.1",  # mamba
-    "ibm-ai-platform/Bamba-9B",  # hybrid
+    "hmellor/bamba-tiny-random",  # hybrid
     "BAAI/bge-m3",  # embedding
 ]
 
-- 
GitLab


From 34120f5acd693924cc783dfaa33733afbe9ae8b0 Mon Sep 17 00:00:00 2001
From: Benjamin Chislett <benjamin.chislett@centml.ai>
Date: Tue, 29 Apr 2025 17:02:10 -0700
Subject: [PATCH 042/461] [V1][Feature] Enable Speculative Decoding with
 Structured Outputs (#14702)

Signed-off-by: Benjamin Chislett <benjamin.chislett@centml.ai>
Signed-off-by: Benjamin Chislett <chislett.ben@gmail.com>
---
 benchmarks/backend_request_func.py            |  1 +
 .../benchmark_serving_structured_output.py    |  9 ++-
 .../llm/test_struct_output_generate.py        | 35 ++++++++--
 vllm/v1/core/sched/scheduler.py               | 17 +++--
 vllm/v1/structured_output/__init__.py         | 59 ++++++++++++----
 vllm/v1/structured_output/backend_guidance.py | 21 ++++++
 vllm/v1/structured_output/backend_types.py    | 24 +++++++
 vllm/v1/structured_output/backend_xgrammar.py | 32 ++++++++-
 vllm/v1/worker/gpu_model_runner.py            | 70 +++++++++++--------
 9 files changed, 209 insertions(+), 59 deletions(-)

diff --git a/benchmarks/backend_request_func.py b/benchmarks/backend_request_func.py
index efd51c79c..3405aaebf 100644
--- a/benchmarks/backend_request_func.py
+++ b/benchmarks/backend_request_func.py
@@ -260,6 +260,7 @@ async def async_request_openai_completions(
                 if request_func_input.model_name else request_func_input.model,
             "prompt": request_func_input.prompt,
             "temperature": 0.0,
+            "repetition_penalty": 1.0,
             "max_tokens": request_func_input.output_len,
             "logprobs": request_func_input.logprobs,
             "stream": True,
diff --git a/benchmarks/benchmark_serving_structured_output.py b/benchmarks/benchmark_serving_structured_output.py
index 74ee00ec8..7c40e39ac 100644
--- a/benchmarks/benchmark_serving_structured_output.py
+++ b/benchmarks/benchmark_serving_structured_output.py
@@ -123,6 +123,8 @@ def sample_requests(tokenizer: PreTrainedTokenizerBase,
                 copy.deepcopy(schema) for _ in range(args.num_prompts)
             ]
             for i in range(len(json_schemas)):
+                if "properties" not in json_schemas[i]:
+                    json_schemas[i]["properties"] = {}
                 json_schemas[i]["properties"][
                     f"__optional_field_{uuid.uuid4()}"] = {
                         "type":
@@ -134,7 +136,7 @@ def sample_requests(tokenizer: PreTrainedTokenizerBase,
             json_schemas = [schema] * args.num_prompts
 
         def gen_prompt(index: int):
-            return f"Generate an example of a user profile given the following schema: {json.dumps(get_schema(index))}"  # noqa: E501
+            return f"Generate an example of a brief user profile given the following schema: {json.dumps(get_schema(index))}"  # noqa: E501
 
         def get_schema(index: int):
             return json_schemas[index % len(json_schemas)]
@@ -231,7 +233,8 @@ def sample_requests(tokenizer: PreTrainedTokenizerBase,
                 idx -= len_dataset
             schema = dataset["schema"][idx]
             prompt = tokenizer.apply_chat_template(dataset["prompt"][idx],
-                                                   tokenize=False)
+                                                   tokenize=False,
+                                                   add_generation_prompt=True)
             input_len = len(tokenizer(prompt).input_ids)
             completion = dataset["completion"][idx]
 
@@ -849,7 +852,7 @@ if __name__ == "__main__":
                             'json', 'json-unique', 'grammar', 'regex',
                             'choice', 'xgrammar_bench'
                         ])
-    parser.add_argument("--json_schema_path",
+    parser.add_argument("--json-schema-path",
                         type=str,
                         default=None,
                         help="Path to json schema.")
diff --git a/tests/v1/entrypoints/llm/test_struct_output_generate.py b/tests/v1/entrypoints/llm/test_struct_output_generate.py
index 29ec6088e..d25699591 100644
--- a/tests/v1/entrypoints/llm/test_struct_output_generate.py
+++ b/tests/v1/entrypoints/llm/test_struct_output_generate.py
@@ -16,13 +16,31 @@ from vllm.outputs import RequestOutput
 from vllm.platforms import current_platform
 from vllm.sampling_params import GuidedDecodingParams, SamplingParams
 
+NGRAM_SPEC_CONFIG = {
+    "model": "[ngram]",
+    "num_speculative_tokens": 5,
+    "prompt_lookup_max": 5,
+    "prompt_lookup_min": 1,
+}
+
+EAGLE_SPEC_CONFIG = {
+    "method": "eagle",
+    "model": "yuhuili/EAGLE-LLaMA3.1-Instruct-8B",
+    "num_speculative_tokens": 5,
+}
+
 PARAMS_MODELS_BACKENDS_TOKENIZER_MODE = [
-    ("mistralai/Ministral-8B-Instruct-2410", "xgrammar", "auto"),
-    ("mistralai/Ministral-8B-Instruct-2410", "guidance", "auto"),
-    ("mistralai/Ministral-8B-Instruct-2410", "xgrammar", "mistral"),
-    ("Qwen/Qwen2.5-1.5B-Instruct", "xgrammar", "auto"),
+    ("mistralai/Ministral-8B-Instruct-2410", "xgrammar", "auto", None),
+    ("mistralai/Ministral-8B-Instruct-2410", "guidance", "auto", None),
+    ("mistralai/Ministral-8B-Instruct-2410", "xgrammar", "mistral", None),
+    ("Qwen/Qwen2.5-1.5B-Instruct", "xgrammar", "auto", None),
     #FIXME: This test is flaky on CI thus disabled
     #("Qwen/Qwen2.5-1.5B-Instruct", "guidance", "auto"),
+    ("mistralai/Ministral-8B-Instruct-2410", "guidance", "auto",
+     NGRAM_SPEC_CONFIG),
+    ("Qwen/Qwen2.5-1.5B-Instruct", "xgrammar", "auto", NGRAM_SPEC_CONFIG),
+    ("meta-llama/Meta-Llama-3.1-8B-Instruct", "xgrammar", "auto",
+     EAGLE_SPEC_CONFIG)
 ]
 
 PARAMS_MODELS_TOKENIZER_MODE = [
@@ -45,8 +63,9 @@ class CarDescription(BaseModel):
 
 
 @pytest.mark.skip_global_cleanup
-@pytest.mark.parametrize("model_name, guided_decoding_backend, tokenizer_mode",
-                         PARAMS_MODELS_BACKENDS_TOKENIZER_MODE)
+@pytest.mark.parametrize(
+    "model_name, guided_decoding_backend, tokenizer_mode, speculative_config",
+    PARAMS_MODELS_BACKENDS_TOKENIZER_MODE)
 def test_structured_output(
     monkeypatch: pytest.MonkeyPatch,
     sample_json_schema: dict[str, Any],
@@ -58,6 +77,7 @@ def test_structured_output(
     guided_decoding_backend: str,
     tokenizer_mode: str,
     model_name: str,
+    speculative_config: dict[str, Any],
 ):
     monkeypatch.setenv("VLLM_USE_V1", "1")
 
@@ -71,7 +91,8 @@ def test_structured_output(
               max_model_len=1024,
               guided_decoding_backend=guided_decoding_backend,
               guided_decoding_disable_any_whitespace=True,
-              tokenizer_mode=tokenizer_mode)
+              tokenizer_mode=tokenizer_mode,
+              speculative_config=speculative_config)
 
     #
     # Test 1: Generate JSON output based on a provided schema
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 21711c929..7ebbb4954 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -441,7 +441,7 @@ class Scheduler(SchedulerInterface):
         grammar_bitmask = self.structured_output_manager.grammar_bitmask(
             self.requests,
             structured_output_request_ids,
-            len(self.running),
+            scheduled_spec_decode_tokens,
         )
         # Construct the scheduler output.
         new_reqs_data = [
@@ -682,10 +682,6 @@ class Scheduler(SchedulerInterface):
                         self.encoder_cache_manager.free_encoder_input(
                             request, input_id)
 
-            # Add newly generated spec token ids to the request.
-            if spec_token_ids is not None:
-                request.spec_token_ids = spec_token_ids[req_index]
-
             stopped = False
             new_logprobs = None
             new_token_ids = generated_token_ids
@@ -717,6 +713,17 @@ class Scheduler(SchedulerInterface):
                 request.structured_output_request.grammar.accept_tokens(  # type: ignore[union-attr]
                     req_id, new_token_ids)
 
+            # Add newly generated spec token ids to the request.
+            if spec_token_ids is not None:
+                if request.use_structured_output:
+                    metadata = request.structured_output_request
+                    assert metadata is not None and metadata.grammar is not None
+                    # Needs to happen after new_token_ids are accepted.
+                    request.spec_token_ids = metadata.grammar.validate_tokens(
+                        spec_token_ids[req_index])
+                else:
+                    request.spec_token_ids = spec_token_ids[req_index]
+
             # Get prompt logprobs for this request.
             prompt_logprobs_tensors = prompt_logprobs_dict.get(req_id)
             if new_token_ids:
diff --git a/vllm/v1/structured_output/__init__.py b/vllm/v1/structured_output/__init__.py
index 47ae4c4f0..3183edb7c 100644
--- a/vllm/v1/structured_output/__init__.py
+++ b/vllm/v1/structured_output/__init__.py
@@ -27,6 +27,7 @@ class StructuredOutputManager:
     def __init__(self, vllm_config: VllmConfig):
         self.backend: Optional[StructuredOutputBackend] = None
         self.vllm_config = vllm_config
+
         self._grammar_bitmask: Optional[torch.Tensor] = None
 
         # The default max_workers if not specified is the number of CPUs * 5,
@@ -80,7 +81,7 @@ class StructuredOutputManager:
         self,
         requests: dict[str, Request],
         structured_output_request_ids: dict[str, int],
-        batch_len: int,
+        scheduled_spec_decode_tokens: dict[str, list[int]],
     ) -> Optional[npt.NDArray[np.int32]]:
         # Prepare the structured output bitmask for this batch.
         if not structured_output_request_ids:
@@ -88,20 +89,52 @@ class StructuredOutputManager:
 
         if self._grammar_bitmask is None:
             assert self.backend is not None
-            self._grammar_bitmask = self.backend.allocate_token_bitmask(
-                self.vllm_config.scheduler_config.max_num_seqs)
-
-        # Fill the bitmask using the index of each request equal to its
-        # position in the batch. Resize the bitmask down to the size of
-        # the batch.
-        bitmask_tensor = self._grammar_bitmask
-        for req_id, batch_index in structured_output_request_ids.items():
+            max_batch_size = self.vllm_config.scheduler_config.max_num_seqs
+            if self.vllm_config.speculative_config is not None:
+                max_num_spec_tokens = self.vllm_config.\
+                    speculative_config.num_speculative_tokens
+            else:
+                max_num_spec_tokens = 0
+
+            # Allocate a bitmask for each token needing to be checked:
+            # one for each speculative position, and one more for the
+            # bonus token / non-speculative token.
+            self._grammar_bitmask = \
+                self.backend.allocate_token_bitmask(
+                    max_batch_size * (1 + max_num_spec_tokens))
+
+        # Generate a batched bitmask for all structured output requests.
+        # When speculative decoding is enabled, we need to include multiple
+        # masks for each request, one for each possible bonus token position.
+        # These are stored inline in the tensor and unpacked by the gpu runner.
+        cumulative_index = 0
+        ordered_seq = sorted(structured_output_request_ids.items(),
+                             key=lambda x: x[1])
+        # NOTE: This outer loop can likely be parallelized to improve
+        # performance of bitmask generation for large batches.
+        for req_id, _ in ordered_seq:
             request = requests[req_id].structured_output_request
             assert request is not None and request.grammar is not None
-            if not request.grammar.is_terminated():
-                request.grammar.fill_bitmask(bitmask_tensor, batch_index)
-        if batch_len < self._grammar_bitmask.shape[0]:
-            bitmask_tensor = self._grammar_bitmask[:batch_len]
+            state_advancements = 0
+            req_tokens = scheduled_spec_decode_tokens.get(req_id, []) + [None]
+            for i, token in enumerate(req_tokens):
+                if not request.grammar.is_terminated():
+                    request.grammar.fill_bitmask(self._grammar_bitmask,
+                                                 cumulative_index)
+                    if token is not None:
+                        # In order to generate the correct bitmask for each
+                        # position in the speculative sequence, we advance
+                        # the FSM state for each speculative token and rollback
+                        # to restore the previous state when we are finished.
+                        assert request.grammar.accept_tokens(req_id, [token])
+                        state_advancements += 1
+                cumulative_index += 1
+            if state_advancements > 0:
+                request.grammar.rollback(state_advancements)
+
+        bitmask_tensor = self._grammar_bitmask
+        if cumulative_index < self._grammar_bitmask.shape[0]:
+            bitmask_tensor = self._grammar_bitmask[:cumulative_index]
 
         # After finishing with the xgrammar operations, we convert to
         # np.ndarray, because that is much more efficient for serialization
diff --git a/vllm/v1/structured_output/backend_guidance.py b/vllm/v1/structured_output/backend_guidance.py
index 8fb3e56bc..0ab175e78 100644
--- a/vllm/v1/structured_output/backend_guidance.py
+++ b/vllm/v1/structured_output/backend_guidance.py
@@ -144,6 +144,27 @@ class GuidanceGrammar(StructuredOutputGrammar):
 
         return r
 
+    def validate_tokens(self, tokens: list[int]) -> list[int]:
+        """Checks if the list of tokens are accepted by the parser in sequence.
+        Will not advance the parser.
+
+        Returns the prefix list of tokens that are accepted by the parser.
+        """
+        if len(tokens) == 0:
+            return []
+        if self.ll_matcher.is_stopped():
+            return []
+
+        num_tokens = self.ll_matcher.validate_tokens(tokens)
+
+        self.check_error()
+
+        return tokens[:num_tokens]
+
+    def rollback(self, num_tokens: int) -> None:
+        self.ll_matcher.rollback(num_tokens)
+        self.check_error()
+
     def fill_bitmask(self, bitmask: torch.Tensor, idx: int) -> None:
         # this will automatically return [EOS] mask if the matcher is stopped
         # or otherwise in an error state
diff --git a/vllm/v1/structured_output/backend_types.py b/vllm/v1/structured_output/backend_types.py
index 6330bcbf2..33ca9f8cf 100644
--- a/vllm/v1/structured_output/backend_types.py
+++ b/vllm/v1/structured_output/backend_types.py
@@ -35,6 +35,30 @@ class StructuredOutputGrammar(ABC):
             bool: True if the tokens are accepted, False otherwise.
         """
 
+    @abstractmethod
+    def validate_tokens(self, tokens: list[int]) -> list[int]:
+        """
+        Validates the provided tokens against the grammar.
+        Will not advance the FSM.
+
+        Args:
+            tokens (list[int]): A list of token IDs to validate.
+
+        Returns:
+            list[int]: A list of accepted token IDs. Will be a prefix
+                of the input tokens, and empty if none are accepted.
+        """
+
+    @abstractmethod
+    def rollback(self, num_tokens: int) -> None:
+        """
+        Rolls back the state of the grammar by a specified number of tokens.
+        Will also revert counters for the number of processed tokens.
+
+        Args:
+            num_tokens (int): The number of tokens to roll back.
+        """
+
     @abstractmethod
     def fill_bitmask(self, bitmask: torch.Tensor, batch_index: int) -> None:
         """
diff --git a/vllm/v1/structured_output/backend_xgrammar.py b/vllm/v1/structured_output/backend_xgrammar.py
index 50a7d1683..c82a3cab2 100644
--- a/vllm/v1/structured_output/backend_xgrammar.py
+++ b/vllm/v1/structured_output/backend_xgrammar.py
@@ -40,6 +40,11 @@ class XgrammarBackend(StructuredOutputBackend):
         self.disable_any_whitespace = \
             vllm_config.decoding_config.disable_any_whitespace
 
+        self.num_speculative_tokens = 0
+        if self.vllm_config.speculative_config is not None:
+            self.num_speculative_tokens = \
+                self.vllm_config.speculative_config.num_speculative_tokens
+
         tokenizer = tokenizer_group.get_lora_tokenizer(None)
         self.vocab_size = vllm_config.model_config.get_vocab_size()
         if isinstance(tokenizer, MistralTokenizer):
@@ -118,7 +123,10 @@ class XgrammarBackend(StructuredOutputBackend):
                 f"grammar is not of valid supported types. ({request_type!s})")
 
         return XgrammarGrammar(
-            matcher=xgr.GrammarMatcher(ctx),
+            matcher=xgr.GrammarMatcher(
+                ctx,
+                max_rollback_tokens=self.num_speculative_tokens,
+            ),
             vocab_size=self.vocab_size,
             ctx=ctx,
         )
@@ -136,7 +144,6 @@ class XgrammarGrammar(StructuredOutputGrammar):
     # supporting different backends, in the future.
     # For now, just xgrammar.
     #
-    # TODO: support max_rollback_tokens
     # https://xgrammar.mlc.ai/docs/api/python/index.html#xgrammar.GrammarMatcher.find_jump_forward_string
     # for jump-forward decoding
 
@@ -163,6 +170,27 @@ class XgrammarGrammar(StructuredOutputGrammar):
             self.num_processed_tokens += 1
         return True
 
+    def validate_tokens(self, tokens: list[int]) -> list[int]:
+        """Checks if the list of tokens are accepted by the FSM in sequence.
+        Will not advance the FSM.
+
+        Returns the prefix list of tokens that are accepted by the FSM.
+        """
+        accepted_tokens = []
+        for token in tokens:
+            if self.matcher.accept_token(token):
+                accepted_tokens.append(token)
+            else:
+                break
+        if len(accepted_tokens) > 0:
+            # Rollback the FSM to the initial state
+            self.matcher.rollback(len(accepted_tokens))
+        return accepted_tokens
+
+    def rollback(self, num_tokens: int) -> None:
+        self.matcher.rollback(num_tokens)
+        self.num_processed_tokens -= num_tokens
+
     def fill_bitmask(self, bitmask: torch.Tensor, idx: int) -> None:
         self.matcher.fill_next_token_bitmask(bitmask, idx)
 
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 41de305a0..97d8c91b4 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -957,46 +957,58 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         scheduler_output: "SchedulerOutput",
         logits: torch.Tensor,
     ):
-        # Serialization of np.ndarray is much more efficient than a tensor,
-        # so we receive it in that format.
         grammar_bitmask = scheduler_output.grammar_bitmask
         if grammar_bitmask is None:
             return
 
-        # We receive the structured output bitmask from the scheduler, but the
-        # indices of the requests in the batch may not match the indices of
-        # the bitmask since the scheduler doesn't know how the gpu runner is
-        # ordering the requests in the batch. We need to sort the bitmask to
-        # match the order of the requests used here.
+        # We receive the structured output bitmask from the scheduler,
+        # compacted to contain bitmasks only for structured output requests.
+        # The order of the requests in the bitmask is not guaranteed to be the
+        # same as the order of the requests in the gpu runner's batch. We need
+        # to sort the bitmask to match the order of the requests used here.
+
+        # Get the batch indices of the structured output requests.
+        # Keep track of the number of speculative tokens scheduled for every
+        # request in the batch, as the logit indices are offset by this amount.
         struct_out_req_batch_indices: dict[str, int] = {}
-        indices_match = True
-        for req_id in self.input_batch.req_ids:
-            mask_index = scheduler_output.structured_output_request_ids.get(
-                req_id)
-            if mask_index is None:
-                # not a structured output request
-                continue
-            batch_index = self.input_batch.req_id_to_index[req_id]
-            if batch_index != mask_index:
-                indices_match = False
-            struct_out_req_batch_indices[req_id] = batch_index
-
-        if not indices_match:
-            # Sort the bitmask to match the order of the requests
-            sorted_bitmask = np.zeros_like(grammar_bitmask)
-            for req_id, batch_index in struct_out_req_batch_indices.items():
-                orig_index = scheduler_output.structured_output_request_ids[
-                    req_id]
-                sorted_bitmask[batch_index] = grammar_bitmask[orig_index]
-            grammar_bitmask = sorted_bitmask
+        cumulative_offset = 0
+        seq = sorted(self.input_batch.req_id_to_index.items(),
+                     key=lambda x: x[1])
+        for req_id, batch_index in seq:
+            logit_index = batch_index + cumulative_offset
+            cumulative_offset += len(
+                scheduler_output.scheduled_spec_decode_tokens.get(req_id, []))
+            if req_id in scheduler_output.structured_output_request_ids:
+                struct_out_req_batch_indices[req_id] = logit_index
+
+        out_indices = []
+
+        # Reorder the bitmask to match the order of the requests in the batch.
+        sorted_bitmask = np.zeros_like(grammar_bitmask,
+                                       shape=(logits.shape[0],
+                                              grammar_bitmask.shape[1]))
+        cumulative_index = 0
+        seq = sorted(scheduler_output.structured_output_request_ids.items(),
+                     key=lambda x: x[1])
+        for req_id, _ in seq:
+            logit_index = struct_out_req_batch_indices[req_id]
+            num_spec_tokens = len(
+                scheduler_output.scheduled_spec_decode_tokens.get(req_id, []))
+            for i in range(1 + num_spec_tokens):
+                sorted_bitmask[logit_index + i] = \
+                    grammar_bitmask[cumulative_index + i]
+                out_indices.append(logit_index + i)
+            cumulative_index += 1 + num_spec_tokens
+        grammar_bitmask = sorted_bitmask
 
+        # Serialization of np.ndarray is much more efficient than a tensor,
+        # so we receive it in that format.
         grammar_bitmask = torch.from_numpy(grammar_bitmask)
 
-        # TODO: compatibility with spec decode
         xgr.apply_token_bitmask_inplace(
             logits,
             grammar_bitmask.to(self.device, non_blocking=True),
-            indices=list(struct_out_req_batch_indices.values()),
+            indices=out_indices,
         )
 
     @torch.inference_mode()
-- 
GitLab


From 4055130a85ee4ff5b618e056306d8f7924b3bd65 Mon Sep 17 00:00:00 2001
From: "Kevin H. Luu" <kevin@anyscale.com>
Date: Tue, 29 Apr 2025 17:52:11 -0700
Subject: [PATCH 043/461] [release] Always git fetch all to get latest tag on
 TPU release (#17322)

---
 .buildkite/release-pipeline.yaml | 1 +
 1 file changed, 1 insertion(+)

diff --git a/.buildkite/release-pipeline.yaml b/.buildkite/release-pipeline.yaml
index a21a657c4..642c0259c 100644
--- a/.buildkite/release-pipeline.yaml
+++ b/.buildkite/release-pipeline.yaml
@@ -57,6 +57,7 @@ steps:
     agents:
       queue: tpu_queue_postmerge
     commands:
+      - "git fetch --all"
       - "DOCKER_BUILDKIT=1 docker build --build-arg max_jobs=16 --build-arg USE_SCCACHE=1 --build-arg GIT_REPO_CHECK=1 --tag vllm/vllm-tpu:nightly --tag vllm/vllm-tpu:$BUILDKITE_COMMIT --progress plain -f docker/Dockerfile.tpu ."
       - "docker push vllm/vllm-tpu:nightly"
       - "docker push vllm/vllm-tpu:$BUILDKITE_COMMIT"
-- 
GitLab


From 1c2bc7ead019cdf5b04b2f1d07b00982352f85ef Mon Sep 17 00:00:00 2001
From: Gabriel Marinho <104592062+gmarinho2@users.noreply.github.com>
Date: Tue, 29 Apr 2025 22:24:57 -0300
Subject: [PATCH 044/461] Truncation control for embedding models (#14776)

Signed-off-by: Gabriel Marinho <gmarinho@ibm.com>
Signed-off-by: Max de Bayser <mbayser@br.ibm.com>
Co-authored-by: Max de Bayser <mbayser@br.ibm.com>
---
 tests/entrypoints/openai/test_truncation.py   | 103 ++++++++++++++++++
 .../language/test_truncation_control.py       |  69 ++++++++++++
 vllm/engine/llm_engine.py                     |   3 +
 vllm/engine/protocol.py                       |   4 +-
 vllm/entrypoints/llm.py                       |  25 ++++-
 vllm/entrypoints/openai/protocol.py           |   8 +-
 vllm/entrypoints/openai/serving_embedding.py  |  14 +--
 vllm/entrypoints/openai/serving_engine.py     |  10 +-
 vllm/entrypoints/openai/serving_pooling.py    |  14 +--
 vllm/entrypoints/openai/serving_score.py      |  15 +--
 vllm/entrypoints/score_utils.py               |   2 +-
 vllm/entrypoints/utils.py                     |  24 ++++
 vllm/inputs/preprocess.py                     |  63 ++++++++---
 vllm/sampling_params.py                       |   7 +-
 vllm/transformers_utils/tokenizer.py          |  14 ++-
 vllm/transformers_utils/tokenizer_base.py     |   2 +
 vllm/transformers_utils/tokenizer_group.py    |   9 ++
 vllm/transformers_utils/tokenizers/mistral.py |   2 +
 vllm/v1/engine/async_llm.py                   |   6 +-
 vllm/v1/engine/llm_engine.py                  |   4 +-
 vllm/v1/engine/processor.py                   |   4 +-
 21 files changed, 332 insertions(+), 70 deletions(-)
 create mode 100644 tests/entrypoints/openai/test_truncation.py
 create mode 100644 tests/models/embedding/language/test_truncation_control.py

diff --git a/tests/entrypoints/openai/test_truncation.py b/tests/entrypoints/openai/test_truncation.py
new file mode 100644
index 000000000..137ed9db8
--- /dev/null
+++ b/tests/entrypoints/openai/test_truncation.py
@@ -0,0 +1,103 @@
+# SPDX-License-Identifier: Apache-2.0
+from typing import Any
+
+import openai
+import pytest
+import pytest_asyncio
+
+from tests.utils import RemoteOpenAIServer
+
+MODEL_NAME = "sentence-transformers/all-MiniLM-L12-v2"
+max_model_len = 128
+
+input = """Immerse yourself in the enchanting chronicle of calculus, a 
+    mathematical domain that has radically transformed our comprehension of 
+    change and motion. Despite its roots in ancient civilizations, the 
+    formal birth of calculus predominantly occurred in the 17th century, 
+    primarily under the influential guidance of Sir Isaac Newton and Gottfried 
+    Wilhelm Leibniz. The earliest traces of calculus concepts are found in 
+    ancient Greek mathematics,most notably in the works of Eudoxus and 
+    Archimedes, around 300 BCE. They utilized the 'method of exhaustion'—a 
+    technique for computing areas and volumes through the use of finite sums. 
+    This methodology laid crucial foundational work for integral calculus. 
+    In the 17th century, both Newton and Leibniz independently pioneered 
+    calculus, each contributing unique perspectives that would shape this new 
+    field."""
+
+
+@pytest.fixture(scope="module")
+def server():
+    args = [
+        "--task",
+        "embed",
+        "--dtype",
+        "bfloat16",
+        "--enforce-eager",
+        "--max-model-len",
+        str(max_model_len),
+    ]
+
+    with RemoteOpenAIServer(MODEL_NAME, args) as remote_server:
+        yield remote_server
+
+
+@pytest_asyncio.fixture
+async def client(server):
+    async with server.get_async_client() as async_client:
+        yield async_client
+
+
+@pytest.mark.asyncio
+async def test_smaller_truncation_size(client: openai.AsyncOpenAI):
+    truncation_size = 10
+    kwargs: dict[str, Any] = {
+        "model": MODEL_NAME,
+        "input": input,
+        "truncate_prompt_tokens": truncation_size
+    }
+
+    response = await client.post(path="embeddings",
+                                 cast_to=object,
+                                 body={**kwargs})
+
+    assert response["usage"]["prompt_tokens"] == truncation_size
+
+
+@pytest.mark.asyncio
+async def test_bigger_truncation_size(client: openai.AsyncOpenAI):
+    truncation_size = max_model_len + 1
+    kwargs: dict[str, Any] = {
+        "model": MODEL_NAME,
+        "input": input,
+        "truncate_prompt_tokens": truncation_size
+    }
+
+    with pytest.raises(openai.BadRequestError) as err:
+        err = await client.post(path="embeddings",
+                                cast_to=object,
+                                body={**kwargs})
+
+        assert str(err) == f"""openai.BadRequestError: 
+                    Error code: 400 - {{'object': 'error', 
+                    'message': 'truncate_prompt_tokens value 
+                    ({truncation_size}) 
+                    is greater than max_model_len ({max_model_len}). 
+                    Please, select a smaller truncation size.', 
+                    'type': 'BadRequestError', 
+                    'param': None, 'code': 400}}"""
+
+
+@pytest.mark.asyncio
+async def test_max_truncation_size(client: openai.AsyncOpenAI):
+    truncation_size = -1
+    kwargs: dict[str, Any] = {
+        "model": MODEL_NAME,
+        "input": input,
+        "truncate_prompt_tokens": truncation_size
+    }
+
+    response = await client.post(path="embeddings",
+                                 cast_to=object,
+                                 body={**kwargs})
+
+    assert response["usage"]["prompt_tokens"] == max_model_len
diff --git a/tests/models/embedding/language/test_truncation_control.py b/tests/models/embedding/language/test_truncation_control.py
new file mode 100644
index 000000000..a215e1ec5
--- /dev/null
+++ b/tests/models/embedding/language/test_truncation_control.py
@@ -0,0 +1,69 @@
+# SPDX-License-Identifier: Apache-2.0
+import pytest
+
+MODEL_NAME = "sentence-transformers/all-MiniLM-L12-v2"
+max_model_len = 128
+
+input_str = """Immerse yourself in the enchanting chronicle of calculus, a 
+    mathematical domain that has radically transformed our comprehension of 
+    change and motion. Despite its roots in ancient civilizations, the 
+    formal birth of calculus predominantly occurred in the 17th century, 
+    primarily under the influential guidance of Sir Isaac Newton and Gottfried 
+    Wilhelm Leibniz. The earliest traces of calculus concepts are found in 
+    ancient Greek mathematics,most notably in the works of Eudoxus and 
+    Archimedes, around 300 BCE. They utilized the 'method of exhaustion'—a 
+    technique for computing areas and volumes through the use of finite sums. 
+    This methodology laid crucial foundational work for integral calculus. 
+    In the 17th century, both Newton and Leibniz independently pioneered 
+    calculus, each contributing unique perspectives that would shape this new 
+    field."""
+
+
+def test_smaller_truncation_size(vllm_runner,
+                                 model_name=MODEL_NAME,
+                                 input_str=input_str):
+
+    truncate_prompt_tokens = 10
+
+    with vllm_runner(model_name, task="embed",
+                     max_model_len=max_model_len) as vllm_model:
+        vllm_output = vllm_model.model.encode(
+            input_str, truncate_prompt_tokens=truncate_prompt_tokens)
+
+    prompt_tokens = vllm_output[0].prompt_token_ids
+
+    assert len(prompt_tokens) == truncate_prompt_tokens
+
+
+def test_max_truncation_size(vllm_runner,
+                             model_name=MODEL_NAME,
+                             input_str=input_str):
+    truncate_prompt_tokens = -1
+
+    with vllm_runner(model_name, task="embed",
+                     max_model_len=max_model_len) as vllm_model:
+        vllm_output = vllm_model.model.encode(
+            input_str, truncate_prompt_tokens=truncate_prompt_tokens)
+
+    prompt_tokens = vllm_output[0].prompt_token_ids
+
+    assert len(prompt_tokens) == max_model_len
+
+
+def test_bigger_truncation_size(vllm_runner,
+                                model_name=MODEL_NAME,
+                                input_str=input_str):
+
+    truncate_prompt_tokens = max_model_len + 1
+
+    with pytest.raises(ValueError), vllm_runner(
+            model_name, task="embed",
+            max_model_len=max_model_len) as vllm_model:
+
+        llm_output = vllm_model.model.encode(
+            input_str, truncate_prompt_tokens=truncate_prompt_tokens)
+
+        assert llm_output == f"""truncate_prompt_tokens value 
+                ({truncate_prompt_tokens}) is greater than 
+                max_model_len ({max_model_len}). Please, select 
+                a smaller truncation size."""
diff --git a/vllm/engine/llm_engine.py b/vllm/engine/llm_engine.py
index 38f13d859..8481181eb 100644
--- a/vllm/engine/llm_engine.py
+++ b/vllm/engine/llm_engine.py
@@ -645,6 +645,7 @@ class LLMEngine:
         params: Union[SamplingParams, PoolingParams],
         arrival_time: Optional[float] = None,
         lora_request: Optional[LoRARequest] = None,
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
         trace_headers: Optional[Mapping[str, str]] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
         priority: int = 0,
@@ -678,6 +679,7 @@ class LLMEngine:
             params: Optional[Union[SamplingParams, PoolingParams]] = None,
             arrival_time: Optional[float] = None,
             lora_request: Optional[LoRARequest] = None,
+            tokenization_kwargs: Optional[dict[str, Any]] = None,
             trace_headers: Optional[Mapping[str, str]] = None,
             prompt_adapter_request: Optional[PromptAdapterRequest] = None,
             priority: int = 0,
@@ -758,6 +760,7 @@ class LLMEngine:
 
         processed_inputs = self.input_preprocessor.preprocess(
             prompt,
+            tokenization_kwargs=tokenization_kwargs,
             lora_request=lora_request,
             prompt_adapter_request=prompt_adapter_request,
         )
diff --git a/vllm/engine/protocol.py b/vllm/engine/protocol.py
index 7e5ac3a28..5632e8ad4 100644
--- a/vllm/engine/protocol.py
+++ b/vllm/engine/protocol.py
@@ -2,7 +2,7 @@
 
 import asyncio
 from abc import ABC, abstractmethod
-from typing import AsyncGenerator, List, Mapping, Optional
+from typing import AsyncGenerator, Mapping, Optional
 
 from vllm.beam_search import BeamSearchSequence, create_sort_beams_key_function
 from vllm.config import DecodingConfig, ModelConfig, VllmConfig
@@ -256,7 +256,7 @@ class EngineClient(ABC):
     async def do_log_stats(
         self,
         scheduler_outputs: Optional[SchedulerOutputs] = None,
-        model_output: Optional[List[SamplerOutput]] = None,
+        model_output: Optional[list[SamplerOutput]] = None,
     ) -> None:
         ...
 
diff --git a/vllm/entrypoints/llm.py b/vllm/entrypoints/llm.py
index 948e8f36e..f1f48c700 100644
--- a/vllm/entrypoints/llm.py
+++ b/vllm/entrypoints/llm.py
@@ -25,6 +25,7 @@ from vllm.entrypoints.chat_utils import (ChatCompletionMessageParam,
                                          resolve_chat_template_content_format)
 from vllm.entrypoints.score_utils import (_cosine_similarity,
                                           _validate_score_input_lens)
+from vllm.entrypoints.utils import _validate_truncation_size
 from vllm.inputs import PromptType, SingletonPrompt, TextPrompt, TokensPrompt
 from vllm.inputs.parse import is_token_prompt, parse_and_batch_prompt
 from vllm.logger import init_logger
@@ -793,6 +794,7 @@ class LLM:
         pooling_params: Optional[Union[PoolingParams,
                                        Sequence[PoolingParams]]] = None,
         *,
+        truncate_prompt_tokens: Optional[int] = None,
         use_tqdm: bool = True,
         lora_request: Optional[Union[list[LoRARequest], LoRARequest]] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
@@ -807,6 +809,7 @@ class LLM:
         pooling_params: Optional[Union[PoolingParams,
                                        Sequence[PoolingParams]]] = None,
         prompt_token_ids: Optional[list[int]] = None,
+        truncate_prompt_tokens: Optional[int] = None,
         use_tqdm: bool = True,
         lora_request: Optional[Union[list[LoRARequest], LoRARequest]] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
@@ -821,6 +824,7 @@ class LLM:
         pooling_params: Optional[Union[PoolingParams,
                                        Sequence[PoolingParams]]] = None,
         prompt_token_ids: Optional[list[list[int]]] = None,
+        truncate_prompt_tokens: Optional[int] = None,
         use_tqdm: bool = True,
         lora_request: Optional[Union[list[LoRARequest], LoRARequest]] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
@@ -836,6 +840,7 @@ class LLM:
                                        Sequence[PoolingParams]]] = None,
         *,
         prompt_token_ids: list[int],
+        truncate_prompt_tokens: Optional[int] = None,
         use_tqdm: bool = True,
         lora_request: Optional[Union[list[LoRARequest], LoRARequest]] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
@@ -851,6 +856,7 @@ class LLM:
                                        Sequence[PoolingParams]]] = None,
         *,
         prompt_token_ids: list[list[int]],
+        truncate_prompt_tokens: Optional[int] = None,
         use_tqdm: bool = True,
         lora_request: Optional[Union[list[LoRARequest], LoRARequest]] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
@@ -864,6 +870,7 @@ class LLM:
         prompts: None,
         pooling_params: None,
         prompt_token_ids: Union[list[int], list[list[int]]],
+        truncate_prompt_tokens: Optional[int] = None,
         use_tqdm: bool = True,
         lora_request: Optional[Union[list[LoRARequest], LoRARequest]] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
@@ -882,6 +889,7 @@ class LLM:
         pooling_params: Optional[Union[PoolingParams,
                                        Sequence[PoolingParams]]] = None,
         prompt_token_ids: Optional[Union[list[int], list[list[int]]]] = None,
+        truncate_prompt_tokens: Optional[int] = None,
         use_tqdm: bool = True,
         lora_request: Optional[Union[list[LoRARequest], LoRARequest]] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
@@ -946,10 +954,15 @@ class LLM:
             for pooling_param in pooling_params:
                 pooling_param.verify(self.llm_engine.model_config)
 
+        tokenization_kwargs: dict[str, Any] = {}
+        _validate_truncation_size(self.llm_engine.model_config.max_model_len,
+                                  truncate_prompt_tokens, tokenization_kwargs)
+
         self._validate_and_add_requests(
             prompts=parsed_prompts,
             params=pooling_params,
             lora_request=lora_request,
+            tokenization_kwargs=tokenization_kwargs,
             prompt_adapter_request=prompt_adapter_request,
         )
 
@@ -962,6 +975,7 @@ class LLM:
         prompts: Union[PromptType, Sequence[PromptType]],
         /,
         *,
+        truncate_prompt_tokens: Optional[int] = None,
         use_tqdm: bool = True,
         pooling_params: Optional[Union[PoolingParams,
                                        Sequence[PoolingParams]]] = None,
@@ -995,6 +1009,7 @@ class LLM:
                 "Embedding API is only enabled for `--task embed`")
 
         items = self.encode(prompts,
+                            truncate_prompt_tokens=truncate_prompt_tokens,
                             use_tqdm=use_tqdm,
                             pooling_params=pooling_params,
                             lora_request=lora_request,
@@ -1055,6 +1070,7 @@ class LLM:
 
         encoded_output: list[PoolingRequestOutput] = self.encode(
             text_1 + text_2,
+            truncate_prompt_tokens=truncate_prompt_tokens,
             use_tqdm=use_tqdm,
             lora_request=lora_request,
             prompt_adapter_request=prompt_adapter_request)
@@ -1098,9 +1114,8 @@ class LLM:
         pooling_params = PoolingParams()
 
         tokenization_kwargs: dict[str, Any] = {}
-        if truncate_prompt_tokens is not None:
-            tokenization_kwargs["truncation"] = True
-            tokenization_kwargs["max_length"] = truncate_prompt_tokens
+        _validate_truncation_size(self.llm_engine.model_config.max_model_len,
+                                  truncate_prompt_tokens, tokenization_kwargs)
 
         parsed_prompts = []
 
@@ -1323,6 +1338,7 @@ class LLM:
                       Sequence[PoolingParams]],
         lora_request: Optional[Union[Sequence[LoRARequest], LoRARequest]],
         prompt_adapter_request: Optional[PromptAdapterRequest],
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
         guided_options: Optional[GuidedDecodingRequest] = None,
         priority: Optional[list[int]] = None,
     ) -> None:
@@ -1359,6 +1375,7 @@ class LLM:
             self._add_request(
                 prompt,
                 params[i] if isinstance(params, Sequence) else params,
+                tokenization_kwargs=tokenization_kwargs,
                 lora_request=lora_request[i] if isinstance(
                     lora_request, Sequence) else lora_request,
                 prompt_adapter_request=prompt_adapter_request,
@@ -1369,6 +1386,7 @@ class LLM:
         self,
         prompt: PromptType,
         params: Union[SamplingParams, PoolingParams],
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
         lora_request: Optional[LoRARequest] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
         priority: int = 0,
@@ -1379,6 +1397,7 @@ class LLM:
             prompt,
             params,
             lora_request=lora_request,
+            tokenization_kwargs=tokenization_kwargs,
             prompt_adapter_request=prompt_adapter_request,
             priority=priority,
         )
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
index 015943762..d444442a9 100644
--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -1014,7 +1014,7 @@ class EmbeddingCompletionRequest(OpenAIBaseModel):
     encoding_format: Literal["float", "base64"] = "float"
     dimensions: Optional[int] = None
     user: Optional[str] = None
-    truncate_prompt_tokens: Optional[Annotated[int, Field(ge=1)]] = None
+    truncate_prompt_tokens: Optional[Annotated[int, Field(ge=-1)]] = None
 
     # doc: begin-embedding-pooling-params
     additional_data: Optional[Any] = None
@@ -1049,7 +1049,7 @@ class EmbeddingChatRequest(OpenAIBaseModel):
     encoding_format: Literal["float", "base64"] = "float"
     dimensions: Optional[int] = None
     user: Optional[str] = None
-    truncate_prompt_tokens: Optional[Annotated[int, Field(ge=1)]] = None
+    truncate_prompt_tokens: Optional[Annotated[int, Field(ge=-1)]] = None
 
     # doc: begin-chat-embedding-pooling-params
     additional_data: Optional[Any] = None
@@ -1116,7 +1116,7 @@ class ScoreRequest(OpenAIBaseModel):
     model: Optional[str] = None
     text_1: Union[list[str], str]
     text_2: Union[list[str], str]
-    truncate_prompt_tokens: Optional[Annotated[int, Field(ge=1)]] = None
+    truncate_prompt_tokens: Optional[Annotated[int, Field(ge=-1)]] = None
 
     # doc: begin-score-pooling-params
     additional_data: Optional[Any] = None
@@ -1142,7 +1142,7 @@ class RerankRequest(OpenAIBaseModel):
     query: str
     documents: list[str]
     top_n: int = Field(default_factory=lambda: 0)
-    truncate_prompt_tokens: Optional[Annotated[int, Field(ge=1)]] = None
+    truncate_prompt_tokens: Optional[Annotated[int, Field(ge=-1)]] = None
 
     # doc: begin-rerank-pooling-params
     additional_data: Optional[Any] = None
diff --git a/vllm/entrypoints/openai/serving_embedding.py b/vllm/entrypoints/openai/serving_embedding.py
index ba960de17..4b4d2d8b7 100644
--- a/vllm/entrypoints/openai/serving_embedding.py
+++ b/vllm/entrypoints/openai/serving_embedding.py
@@ -21,6 +21,7 @@ from vllm.entrypoints.openai.protocol import (EmbeddingChatRequest,
                                               ErrorResponse, UsageInfo)
 from vllm.entrypoints.openai.serving_engine import OpenAIServing
 from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.entrypoints.utils import _validate_truncation_size
 from vllm.logger import init_logger
 from vllm.outputs import (EmbeddingOutput, EmbeddingRequestOutput,
                           PoolingRequestOutput)
@@ -85,16 +86,7 @@ class OpenAIServingEmbedding(OpenAIServing):
         request_id = f"embd-{self._base_request_id(raw_request)}"
         created_time = int(time.time())
 
-        truncate_prompt_tokens = None
-
-        if request.truncate_prompt_tokens is not None:
-            if request.truncate_prompt_tokens <= self.max_model_len:
-                truncate_prompt_tokens = request.truncate_prompt_tokens
-            else:
-                return self.create_error_response(
-                    "truncate_prompt_tokens value is "
-                    "greater than max_model_len."
-                    " Please, select a smaller truncation size.")
+        truncate_prompt_tokens = request.truncate_prompt_tokens
 
         pooling_params = request.to_pooling_params()
 
@@ -104,6 +96,8 @@ class OpenAIServingEmbedding(OpenAIServing):
             return self.create_error_response(str(e))
 
         try:
+            truncate_prompt_tokens = _validate_truncation_size(
+                self.max_model_len, truncate_prompt_tokens)
             (
                 lora_request,
                 prompt_adapter_request,
diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
index 49b346a23..c3121eff5 100644
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -173,7 +173,7 @@ class OpenAIServing:
         request: AnyRequest,
         tokenizer: AnyTokenizer,
         prompt: str,
-        truncate_prompt_tokens: Optional[Annotated[int, Field(ge=1)]],
+        truncate_prompt_tokens: Optional[Annotated[int, Field(ge=-1)]],
         add_special_tokens: bool,
     ) -> TextTokensPrompt:
         if (self.model_config.encoder_config is not None
@@ -271,7 +271,7 @@ class OpenAIServing:
         request: AnyRequest,
         tokenizer: AnyTokenizer,
         prompt_input: Union[str, list[int]],
-        truncate_prompt_tokens: Optional[Annotated[int, Field(ge=1)]] = None,
+        truncate_prompt_tokens: Optional[Annotated[int, Field(ge=-1)]] = None,
         add_special_tokens: bool = True,
     ) -> TextTokensPrompt:
         """
@@ -292,7 +292,7 @@ class OpenAIServing:
         request: AnyRequest,
         tokenizer: AnyTokenizer,
         prompt_inputs: Iterable[Union[str, list[int]]],
-        truncate_prompt_tokens: Optional[Annotated[int, Field(ge=1)]] = None,
+        truncate_prompt_tokens: Optional[Annotated[int, Field(ge=-1)]] = None,
         add_special_tokens: bool = True,
     ) -> Iterator[TextTokensPrompt]:
         """
@@ -321,7 +321,7 @@ class OpenAIServing:
         request: AnyRequest,
         tokenizer: AnyTokenizer,
         input_or_inputs: Union[str, list[str], list[int], list[list[int]]],
-        truncate_prompt_tokens: Optional[Annotated[int, Field(ge=1)]] = None,
+        truncate_prompt_tokens: Optional[Annotated[int, Field(ge=-1)]] = None,
         add_special_tokens: bool = True,
     ) -> list[TextTokensPrompt]:
         """
@@ -356,7 +356,7 @@ class OpenAIServing:
         request: CompletionLikeRequest,
         tokenizer: AnyTokenizer,
         input_or_inputs: Union[str, list[str], list[int], list[list[int]]],
-        truncate_prompt_tokens: Optional[Annotated[int, Field(ge=1)]] = None,
+        truncate_prompt_tokens: Optional[Annotated[int, Field(ge=-1)]] = None,
         add_special_tokens: bool = True,
     ) -> tuple[list[TextTokensPrompt], list[TokensPrompt]]:
         request_prompts = await self._tokenize_prompt_input_or_inputs_async(
diff --git a/vllm/entrypoints/openai/serving_pooling.py b/vllm/entrypoints/openai/serving_pooling.py
index 779a3eded..7c401d4f5 100644
--- a/vllm/entrypoints/openai/serving_pooling.py
+++ b/vllm/entrypoints/openai/serving_pooling.py
@@ -21,6 +21,7 @@ from vllm.entrypoints.openai.protocol import (ErrorResponse,
                                               PoolingResponseData, UsageInfo)
 from vllm.entrypoints.openai.serving_engine import OpenAIServing
 from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.entrypoints.utils import _validate_truncation_size
 from vllm.logger import init_logger
 from vllm.outputs import PoolingOutput, PoolingRequestOutput
 from vllm.utils import merge_async_iterators
@@ -85,18 +86,11 @@ class OpenAIServingPooling(OpenAIServing):
         request_id = f"pool-{self._base_request_id(raw_request)}"
         created_time = int(time.time())
 
-        truncate_prompt_tokens = None
-
-        if request.truncate_prompt_tokens is not None:
-            if request.truncate_prompt_tokens <= self.max_model_len:
-                truncate_prompt_tokens = request.truncate_prompt_tokens
-            else:
-                return self.create_error_response(
-                    "truncate_prompt_tokens value is "
-                    "greater than max_model_len."
-                    " Please, select a smaller truncation size.")
+        truncate_prompt_tokens = request.truncate_prompt_tokens
 
         try:
+            truncate_prompt_tokens = _validate_truncation_size(
+                self.max_model_len, truncate_prompt_tokens)
             (
                 lora_request,
                 prompt_adapter_request,
diff --git a/vllm/entrypoints/openai/serving_score.py b/vllm/entrypoints/openai/serving_score.py
index 73b4288cb..9bdacb551 100644
--- a/vllm/entrypoints/openai/serving_score.py
+++ b/vllm/entrypoints/openai/serving_score.py
@@ -18,6 +18,7 @@ from vllm.entrypoints.openai.serving_engine import OpenAIServing
 from vllm.entrypoints.openai.serving_models import OpenAIServingModels
 from vllm.entrypoints.score_utils import (_cosine_similarity,
                                           _validate_score_input_lens)
+from vllm.entrypoints.utils import _validate_truncation_size
 from vllm.inputs.data import TokensPrompt
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
@@ -231,11 +232,6 @@ class ServingScores(OpenAIServing):
         truncate_prompt_tokens: Optional[int] = None,
     ) -> list[PoolingRequestOutput]:
 
-        tokenization_kwargs: dict[str, Any] = {}
-        if truncate_prompt_tokens is not None:
-            tokenization_kwargs["truncation"] = True
-            tokenization_kwargs["max_length"] = truncate_prompt_tokens
-
         (
             lora_request,
             prompt_adapter_request,
@@ -247,12 +243,9 @@ class ServingScores(OpenAIServing):
 
         tokenizer = await self.engine_client.get_tokenizer(lora_request)
 
-        if truncate_prompt_tokens is not None and \
-                truncate_prompt_tokens > self.max_model_len:
-            raise ValueError(
-                f"truncate_prompt_tokens value ({truncate_prompt_tokens}) "
-                f"is greater than max_model_len ({self.max_model_len})."
-                f" Please, select a smaller truncation size.")
+        tokenization_kwargs: dict[str, Any] = {}
+        _validate_truncation_size(self.max_model_len, truncate_prompt_tokens,
+                                  tokenization_kwargs)
 
         trace_headers = (None if raw_request is None else await
                          self._get_trace_headers(raw_request.headers))
diff --git a/vllm/entrypoints/score_utils.py b/vllm/entrypoints/score_utils.py
index 53411a27b..80b6c07c6 100644
--- a/vllm/entrypoints/score_utils.py
+++ b/vllm/entrypoints/score_utils.py
@@ -46,4 +46,4 @@ def _validate_score_input_lens(
     if len(texts_1) == 0:
         raise ValueError("At least one text element must be given")
     if len(texts_2) == 0:
-        raise ValueError("At least one text_pair element must be given")
+        raise ValueError("At least one text_pair element must be given")
\ No newline at end of file
diff --git a/vllm/entrypoints/utils.py b/vllm/entrypoints/utils.py
index b88c2b3a0..2fe6e1a9e 100644
--- a/vllm/entrypoints/utils.py
+++ b/vllm/entrypoints/utils.py
@@ -3,6 +3,7 @@
 import asyncio
 import functools
 import os
+from typing import Any, Optional
 
 from fastapi import Request
 from fastapi.responses import JSONResponse, StreamingResponse
@@ -134,3 +135,26 @@ def cli_env_setup():
     if "VLLM_WORKER_MULTIPROC_METHOD" not in os.environ:
         logger.debug("Setting VLLM_WORKER_MULTIPROC_METHOD to 'spawn'")
         os.environ["VLLM_WORKER_MULTIPROC_METHOD"] = "spawn"
+
+
+def _validate_truncation_size(
+    max_model_len: int,
+    truncate_prompt_tokens: Optional[int],
+    tokenization_kwargs: Optional[dict[str, Any]] = None,
+) -> Optional[int]:
+
+    if truncate_prompt_tokens is not None:
+        if truncate_prompt_tokens <= -1:
+            truncate_prompt_tokens = max_model_len
+
+        if truncate_prompt_tokens > max_model_len:
+            raise ValueError(
+                f"truncate_prompt_tokens value ({truncate_prompt_tokens}) "
+                f"is greater than max_model_len ({max_model_len})."
+                f" Please, select a smaller truncation size.")
+
+        if tokenization_kwargs is not None:
+            tokenization_kwargs["truncation"] = True
+            tokenization_kwargs["max_length"] = truncate_prompt_tokens
+
+    return truncate_prompt_tokens
diff --git a/vllm/inputs/preprocess.py b/vllm/inputs/preprocess.py
index 0edb6da06..56b60b893 100644
--- a/vllm/inputs/preprocess.py
+++ b/vllm/inputs/preprocess.py
@@ -2,7 +2,7 @@
 
 import asyncio
 from collections.abc import Mapping
-from typing import Optional, Union, cast
+from typing import Any, Optional, Union, cast
 
 from typing_extensions import assert_never
 
@@ -183,18 +183,21 @@ class InputPreprocessor:
         self,
         prompt: str,
         lora_request: Optional[LoRARequest],
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
     ) -> list[int]:
         """
         Apply the model's tokenizer to a text prompt, returning the
         corresponding token IDs.
         """
         tokenizer = self.get_tokenizer_group()
-        add_special_tokens = None
+        if tokenization_kwargs is None:
+            tokenization_kwargs = {}
+
         if self.model_config.hf_config.model_type == "whisper":
             # For Whisper, special tokens should be provided by the user based
             # on the task and language of their request. Also needed to avoid
             # appending an EOS token to the prompt which disrupts generation.
-            add_special_tokens = False
+            tokenization_kwargs["add_special_tokens"] = False
 
         if (self.model_config.encoder_config is not None
                 and self.model_config.encoder_config.get(
@@ -203,25 +206,27 @@ class InputPreprocessor:
 
         return tokenizer.encode(prompt=prompt,
                                 lora_request=lora_request,
-                                add_special_tokens=add_special_tokens)
+                                **tokenization_kwargs)
 
     async def _tokenize_prompt_async(
         self,
         prompt: str,
         lora_request: Optional[LoRARequest],
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
     ) -> list[int]:
         """Async version of :meth:`_tokenize_prompt`."""
         tokenizer = self.get_tokenizer_group()
-        add_special_tokens = None
+        if tokenization_kwargs is None:
+            tokenization_kwargs = {}
+
         if self.model_config.hf_config.model_type == "whisper":
             # For Whisper, special tokens should be provided by the user based
             # on the task and language of their request. Also needed to avoid
             # appending an EOS token to the prompt which disrupts generation.
-            add_special_tokens = False
-        return await tokenizer.encode_async(
-            prompt=prompt,
-            lora_request=lora_request,
-            add_special_tokens=add_special_tokens)
+            tokenization_kwargs["add_special_tokens"] = False
+        return await tokenizer.encode_async(prompt=prompt,
+                                            lora_request=lora_request,
+                                            **tokenization_kwargs)
 
     def _process_multimodal(
         self,
@@ -281,6 +286,7 @@ class InputPreprocessor:
     def _prompt_to_llm_inputs(
         self,
         prompt: SingletonPrompt,
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
         lora_request: Optional[LoRARequest] = None,
         return_mm_hashes: bool = False,
     ) -> SingletonInputs:
@@ -304,6 +310,7 @@ class InputPreprocessor:
             prompt_token_ids = self._tokenize_prompt(
                 prompt_text,
                 lora_request=lora_request,
+                tokenization_kwargs=tokenization_kwargs,
             )
 
             return token_inputs(
@@ -352,6 +359,7 @@ class InputPreprocessor:
             prompt_token_ids = self._tokenize_prompt(
                 prompt_text,
                 lora_request=lora_request,
+                tokenization_kwargs=tokenization_kwargs,
             )
 
             return token_inputs(
@@ -364,6 +372,7 @@ class InputPreprocessor:
     async def _prompt_to_llm_inputs_async(
         self,
         prompt: SingletonPrompt,
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
         lora_request: Optional[LoRARequest] = None,
         return_mm_hashes: bool = False,
     ) -> SingletonInputs:
@@ -375,6 +384,7 @@ class InputPreprocessor:
             prompt_token_ids = await self._tokenize_prompt_async(
                 prompt_text,
                 lora_request=lora_request,
+                tokenization_kwargs=tokenization_kwargs,
             )
 
             return token_inputs(
@@ -517,6 +527,7 @@ class InputPreprocessor:
     def _process_encoder_decoder_prompt(
         self,
         prompt: PromptType,
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
     ) -> EncoderDecoderInputs:
         """
         For encoder/decoder models only:
@@ -553,7 +564,9 @@ class InputPreprocessor:
 
         if is_explicit_encoder_decoder_prompt(prompt):
             encoder_inputs = self._prompt_to_llm_inputs(
-                prompt["encoder_prompt"])
+                prompt["encoder_prompt"],
+                tokenization_kwargs=tokenization_kwargs,
+            )
             if (decoder_input := prompt["decoder_prompt"]) is None:
                 decoder_inputs = None
             else:
@@ -565,7 +578,10 @@ class InputPreprocessor:
                     self._separate_enc_dec_inputs_from_mm_processor_outputs(
                         encoder_inputs, decoder_inputs))
         else:
-            inputs = self._prompt_to_llm_inputs(prompt)
+            inputs = self._prompt_to_llm_inputs(
+                prompt,
+                tokenization_kwargs=tokenization_kwargs,
+            )
             if self.model_config.is_multimodal_model:
                 # Encoder-Decoder Multimodal model
                 encoder_inputs, decoder_inputs = (
@@ -581,6 +597,7 @@ class InputPreprocessor:
     async def _process_encoder_decoder_prompt_async(
         self,
         prompt: PromptType,
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
     ) -> EncoderDecoderInputs:
         """Async version of :meth:`_process_encoder_decoder_prompt`."""
         encoder_inputs: SingletonInputs
@@ -588,13 +605,18 @@ class InputPreprocessor:
 
         if is_explicit_encoder_decoder_prompt(prompt):
             encoder_task = self._prompt_to_llm_inputs_async(
-                prompt["encoder_prompt"])
+                prompt["encoder_prompt"],
+                tokenization_kwargs=tokenization_kwargs,
+            )
 
             if (decoder_input := prompt["decoder_prompt"]) is None:
                 encoder_inputs = await encoder_task
                 decoder_inputs = None
             else:
-                decoder_task = self._prompt_to_llm_inputs_async(decoder_input)
+                decoder_task = self._prompt_to_llm_inputs_async(
+                    decoder_input,
+                    tokenization_kwargs=tokenization_kwargs,
+                )
 
                 encoder_inputs, decoder_inputs = await asyncio.gather(
                     encoder_task, decoder_task)
@@ -606,7 +628,10 @@ class InputPreprocessor:
                     self._separate_enc_dec_inputs_from_mm_processor_outputs(
                         encoder_inputs, decoder_inputs))
         else:
-            inputs = await self._prompt_to_llm_inputs_async(prompt)
+            inputs = await self._prompt_to_llm_inputs_async(
+                prompt,
+                tokenization_kwargs=tokenization_kwargs,
+            )
             if self.model_config.is_multimodal_model:
                 # Encoder-Decoder Multimodal model
                 encoder_inputs, decoder_inputs = (
@@ -638,6 +663,7 @@ class InputPreprocessor:
     def _process_decoder_only_prompt(
         self,
         prompt: SingletonPrompt,
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
         lora_request: Optional[LoRARequest] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
         return_mm_hashes: bool = False,
@@ -660,6 +686,7 @@ class InputPreprocessor:
 
         prompt_comps = self._prompt_to_llm_inputs(
             prompt,
+            tokenization_kwargs=tokenization_kwargs,
             lora_request=lora_request,
             return_mm_hashes=return_mm_hashes,
         )
@@ -672,6 +699,7 @@ class InputPreprocessor:
     async def _process_decoder_only_prompt_async(
         self,
         prompt: SingletonPrompt,
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
         lora_request: Optional[LoRARequest] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
         return_mm_hashes: bool = False,
@@ -679,6 +707,7 @@ class InputPreprocessor:
         """Async version of :meth:`_process_decoder_only_prompt`."""
         prompt_comps = await self._prompt_to_llm_inputs_async(
             prompt,
+            tokenization_kwargs=tokenization_kwargs,
             lora_request=lora_request,
             return_mm_hashes=return_mm_hashes,
         )
@@ -691,6 +720,7 @@ class InputPreprocessor:
     def preprocess(
         self,
         prompt: PromptType,
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
         lora_request: Optional[LoRARequest] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
         return_mm_hashes: bool = False,
@@ -711,6 +741,7 @@ class InputPreprocessor:
         # Decoder-only operation
         return self._process_decoder_only_prompt(
             prompt,
+            tokenization_kwargs=tokenization_kwargs,
             lora_request=lora_request,
             prompt_adapter_request=prompt_adapter_request,
             return_mm_hashes=return_mm_hashes,
@@ -719,6 +750,7 @@ class InputPreprocessor:
     async def preprocess_async(
         self,
         prompt: PromptType,
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
         lora_request: Optional[LoRARequest] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
         return_mm_hashes: bool = False,
@@ -739,6 +771,7 @@ class InputPreprocessor:
         # Decoder-only operation
         return await self._process_decoder_only_prompt_async(
             prompt,
+            tokenization_kwargs=tokenization_kwargs,
             lora_request=lora_request,
             prompt_adapter_request=prompt_adapter_request,
             return_mm_hashes=return_mm_hashes,
diff --git a/vllm/sampling_params.py b/vllm/sampling_params.py
index 511571d05..3ac5c5c3d 100644
--- a/vllm/sampling_params.py
+++ b/vllm/sampling_params.py
@@ -186,9 +186,10 @@ class SamplingParams(
         logits_processors: list of functions that modify logits based on
             previously generated tokens, and optionally prompt tokens as
             a first argument.
-        truncate_prompt_tokens: If set to an integer k, will use only the last k
-            tokens from the prompt (i.e., left truncation). Defaults to None
-            (i.e., no truncation).
+        truncate_prompt_tokens: If set to -1, will use the truncation size 
+            supported by the model. If set to an integer k, will use only 
+            the last k tokens from the prompt (i.e., left truncation). 
+            Defaults to None (i.e., no truncation).
         guided_decoding: If provided, the engine will construct a guided
             decoding logits processor from these parameters. Defaults to None.
         logit_bias: If provided, the engine will construct a logits processor
diff --git a/vllm/transformers_utils/tokenizer.py b/vllm/transformers_utils/tokenizer.py
index da5bec856..57b9242b8 100644
--- a/vllm/transformers_utils/tokenizer.py
+++ b/vllm/transformers_utils/tokenizer.py
@@ -55,6 +55,8 @@ def encode_tokens(
     tokenizer: AnyTokenizer,
     text: str,
     *,
+    truncation: Optional[bool] = None,
+    max_length: Optional[int] = None,
     add_special_tokens: Optional[bool] = None,
 ) -> list[int]:
     """
@@ -64,10 +66,18 @@ def encode_tokens(
     :code:`add_special_tokens=None` means to use the backend's default
     settings.
     """
+
+    kw_args: dict[str, Any] = {}
+    if max_length is not None:
+        kw_args["max_length"] = max_length
+
+    if truncation is not None:
+        kw_args["truncation"] = truncation
+
     if add_special_tokens is not None:
-        return tokenizer.encode(text, add_special_tokens=add_special_tokens)
+        kw_args["add_special_tokens"] = add_special_tokens
 
-    return tokenizer.encode(text)
+    return tokenizer.encode(text, **kw_args)
 
 
 def get_cached_tokenizer(tokenizer: AnyTokenizer) -> AnyTokenizer:
diff --git a/vllm/transformers_utils/tokenizer_base.py b/vllm/transformers_utils/tokenizer_base.py
index b4eb081c9..d69e5a6b4 100644
--- a/vllm/transformers_utils/tokenizer_base.py
+++ b/vllm/transformers_utils/tokenizer_base.py
@@ -94,6 +94,8 @@ class TokenizerBase(ABC):
     @abstractmethod
     def encode(self,
                text: str,
+               truncation: Optional[bool] = None,
+               max_length: Optional[int] = None,
                add_special_tokens: Optional[bool] = None) -> list[int]:
         raise NotImplementedError()
 
diff --git a/vllm/transformers_utils/tokenizer_group.py b/vllm/transformers_utils/tokenizer_group.py
index a829985cb..aff2d2eb1 100644
--- a/vllm/transformers_utils/tokenizer_group.py
+++ b/vllm/transformers_utils/tokenizer_group.py
@@ -45,11 +45,16 @@ class TokenizerGroup:
 
     def encode(self,
                prompt: str,
+               max_length: Optional[int] = None,
+               truncation: Optional[bool] = None,
                lora_request: Optional[LoRARequest] = None,
                add_special_tokens: Optional[bool] = None) -> List[int]:
+
         tokenizer = self.get_lora_tokenizer(lora_request)
         ret = encode_tokens(tokenizer,
                             prompt,
+                            max_length=max_length,
+                            truncation=truncation,
                             add_special_tokens=add_special_tokens)
         self._raise_if_input_too_long(ret, lora_request)
         return ret
@@ -57,11 +62,15 @@ class TokenizerGroup:
     async def encode_async(
             self,
             prompt: str,
+            max_length: Optional[int] = None,
+            truncation: Optional[bool] = None,
             lora_request: Optional[LoRARequest] = None,
             add_special_tokens: Optional[bool] = None) -> List[int]:
         tokenizer = await self.get_lora_tokenizer_async(lora_request)
         ret = encode_tokens(tokenizer,
                             prompt,
+                            max_length=max_length,
+                            truncation=truncation,
                             add_special_tokens=add_special_tokens)
         self._raise_if_input_too_long(ret, lora_request)
         return ret
diff --git a/vllm/transformers_utils/tokenizers/mistral.py b/vllm/transformers_utils/tokenizers/mistral.py
index 296149a45..6d4655781 100644
--- a/vllm/transformers_utils/tokenizers/mistral.py
+++ b/vllm/transformers_utils/tokenizers/mistral.py
@@ -359,6 +359,8 @@ class MistralTokenizer(TokenizerBase):
 
     def encode(self,
                text: str,
+               truncation: Optional[bool] = None,
+               max_length: Optional[int] = None,
                add_special_tokens: Optional[bool] = None) -> List[int]:
         # `encode` should only be used for prompt completion
         # it should never be used for chat_completion.
diff --git a/vllm/v1/engine/async_llm.py b/vllm/v1/engine/async_llm.py
index 1334fb789..2562fcc9c 100644
--- a/vllm/v1/engine/async_llm.py
+++ b/vllm/v1/engine/async_llm.py
@@ -2,7 +2,7 @@
 import asyncio
 from collections.abc import AsyncGenerator, Mapping
 from copy import copy
-from typing import Optional, Union
+from typing import Any, Optional, Union
 
 import numpy as np
 
@@ -201,6 +201,7 @@ class AsyncLLM(EngineClient):
         params: Union[SamplingParams, PoolingParams],
         arrival_time: Optional[float] = None,
         lora_request: Optional[LoRARequest] = None,
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
         trace_headers: Optional[Mapping[str, str]] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
         priority: int = 0,
@@ -219,7 +220,8 @@ class AsyncLLM(EngineClient):
         # Convert Input --> Request.
         prompt_str, request = self.processor.process_inputs(
             request_id, prompt, params, arrival_time, lora_request,
-            trace_headers, prompt_adapter_request, priority)
+            tokenization_kwargs, trace_headers, prompt_adapter_request,
+            priority)
 
         if params.n == 1:
             await self._add_request(request, prompt_str, None, 0, queue)
diff --git a/vllm/v1/engine/llm_engine.py b/vllm/v1/engine/llm_engine.py
index 85da58451..b471b1536 100644
--- a/vllm/v1/engine/llm_engine.py
+++ b/vllm/v1/engine/llm_engine.py
@@ -175,6 +175,7 @@ class LLMEngine:
         params: Union[SamplingParams, PoolingParams],
         arrival_time: Optional[float] = None,
         lora_request: Optional[LoRARequest] = None,
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
         trace_headers: Optional[Mapping[str, str]] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
         priority: int = 0,
@@ -182,7 +183,8 @@ class LLMEngine:
         # Process raw inputs into the request.
         prompt_str, request = self.processor.process_inputs(
             request_id, prompt, params, arrival_time, lora_request,
-            trace_headers, prompt_adapter_request, priority)
+            tokenization_kwargs, trace_headers, prompt_adapter_request,
+            priority)
 
         n = params.n if isinstance(params, SamplingParams) else 1
 
diff --git a/vllm/v1/engine/processor.py b/vllm/v1/engine/processor.py
index 8ae5d0157..b98a31773 100644
--- a/vllm/v1/engine/processor.py
+++ b/vllm/v1/engine/processor.py
@@ -2,7 +2,7 @@
 
 import time
 from collections.abc import Mapping, Sequence
-from typing import Literal, Optional, Union
+from typing import Any, Literal, Optional, Union
 
 from vllm.config import VllmConfig
 from vllm.inputs import ProcessorInputs, PromptType, SingletonInputs
@@ -198,6 +198,7 @@ class Processor:
         params: Union[SamplingParams, PoolingParams],
         arrival_time: Optional[float] = None,
         lora_request: Optional[LoRARequest] = None,
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
         trace_headers: Optional[Mapping[str, str]] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
         priority: int = 0,
@@ -224,6 +225,7 @@ class Processor:
         # 3. Apply prompt adapter to prompt token ids if one exists.
         processed_inputs: ProcessorInputs = self.input_preprocessor.preprocess(
             prompt,
+            tokenization_kwargs=tokenization_kwargs,
             lora_request=lora_request,
             prompt_adapter_request=prompt_adapter_request,
             return_mm_hashes=self.use_hash,
-- 
GitLab


From 2c4f59afc3d50fda805c4ad94c9d9be168cded0b Mon Sep 17 00:00:00 2001
From: Huy Do <huydhn@gmail.com>
Date: Tue, 29 Apr 2025 19:08:04 -0700
Subject: [PATCH 045/461] Update PyTorch to 2.7.0 (#16859)

---
 .buildkite/release-pipeline.yaml              | 10 ++--
 .buildkite/scripts/upload-wheels.sh           | 18 ++++----
 .buildkite/test-pipeline.yaml                 |  2 +-
 .github/workflows/lint-and-deploy.yaml        |  4 +-
 .pre-commit-config.yaml                       |  2 +-
 CMakeLists.txt                                |  4 +-
 docker/Dockerfile                             | 46 +++++++++++++------
 .../installation/gpu/cuda.inc.md              |  6 +--
 .../online_serving/chart-helm/values.yaml     |  2 +-
 pyproject.toml                                |  2 +-
 requirements/build.txt                        |  2 +-
 requirements/cpu.txt                          | 11 +++--
 requirements/cuda.txt                         |  9 ++--
 requirements/rocm-build.txt                   |  6 +--
 requirements/test.in                          |  6 +--
 requirements/test.txt                         | 44 ++++++++++--------
 setup.py                                      |  2 +-
 vllm/attention/ops/ipex_attn.py               |  3 +-
 18 files changed, 102 insertions(+), 77 deletions(-)

diff --git a/.buildkite/release-pipeline.yaml b/.buildkite/release-pipeline.yaml
index 642c0259c..03e2267a1 100644
--- a/.buildkite/release-pipeline.yaml
+++ b/.buildkite/release-pipeline.yaml
@@ -1,20 +1,20 @@
 steps:
-  - label: "Build wheel - CUDA 12.4"
+  - label: "Build wheel - CUDA 12.8"
     agents:
       queue: cpu_queue_postmerge
     commands:
-      - "DOCKER_BUILDKIT=1 docker build --build-arg max_jobs=16 --build-arg USE_SCCACHE=1 --build-arg GIT_REPO_CHECK=1 --build-arg CUDA_VERSION=12.4.0 --tag vllm-ci:build-image --target build --progress plain -f docker/Dockerfile ."
+      - "DOCKER_BUILDKIT=1 docker build --build-arg max_jobs=16 --build-arg USE_SCCACHE=1 --build-arg GIT_REPO_CHECK=1 --build-arg CUDA_VERSION=12.8.1 --tag vllm-ci:build-image --target build --progress plain -f docker/Dockerfile ."
       - "mkdir artifacts"
       - "docker run --rm -v $(pwd)/artifacts:/artifacts_host vllm-ci:build-image bash -c 'cp -r dist /artifacts_host && chmod -R a+rw /artifacts_host'"
       - "bash .buildkite/scripts/upload-wheels.sh"
     env:
       DOCKER_BUILDKIT: "1"
 
-  - label: "Build wheel - CUDA 12.1"
+  - label: "Build wheel - CUDA 12.6"
     agents:
       queue: cpu_queue_postmerge
     commands:
-      - "DOCKER_BUILDKIT=1 docker build --build-arg max_jobs=16 --build-arg USE_SCCACHE=1 --build-arg GIT_REPO_CHECK=1 --build-arg CUDA_VERSION=12.1.0 --tag vllm-ci:build-image --target build --progress plain -f docker/Dockerfile ."
+      - "DOCKER_BUILDKIT=1 docker build --build-arg max_jobs=16 --build-arg USE_SCCACHE=1 --build-arg GIT_REPO_CHECK=1 --build-arg CUDA_VERSION=12.6.3 --tag vllm-ci:build-image --target build --progress plain -f docker/Dockerfile ."
       - "mkdir artifacts"
       - "docker run --rm -v $(pwd)/artifacts:/artifacts_host vllm-ci:build-image bash -c 'cp -r dist /artifacts_host && chmod -R a+rw /artifacts_host'"
       - "bash .buildkite/scripts/upload-wheels.sh"
@@ -48,7 +48,7 @@ steps:
       queue: cpu_queue_postmerge
     commands:
       - "aws ecr-public get-login-password --region us-east-1 | docker login --username AWS --password-stdin public.ecr.aws/q9t5s3a7"
-      - "DOCKER_BUILDKIT=1 docker build --build-arg max_jobs=16 --build-arg USE_SCCACHE=1 --build-arg GIT_REPO_CHECK=1 --build-arg CUDA_VERSION=12.4.0 --tag public.ecr.aws/q9t5s3a7/vllm-release-repo:$BUILDKITE_COMMIT --target vllm-openai --progress plain -f docker/Dockerfile ."
+      - "DOCKER_BUILDKIT=1 docker build --build-arg max_jobs=16 --build-arg USE_SCCACHE=1 --build-arg GIT_REPO_CHECK=1 --build-arg CUDA_VERSION=12.8.1 --tag public.ecr.aws/q9t5s3a7/vllm-release-repo:$BUILDKITE_COMMIT --target vllm-openai --progress plain -f docker/Dockerfile ."
       - "docker push public.ecr.aws/q9t5s3a7/vllm-release-repo:$BUILDKITE_COMMIT"
 
   - label: "Build and publish TPU release image"
diff --git a/.buildkite/scripts/upload-wheels.sh b/.buildkite/scripts/upload-wheels.sh
index a681f8927..75e3ef264 100644
--- a/.buildkite/scripts/upload-wheels.sh
+++ b/.buildkite/scripts/upload-wheels.sh
@@ -50,11 +50,11 @@ aws s3 cp "$normal_wheel" "s3://vllm-wheels/$BUILDKITE_COMMIT/"
 if [[ $normal_wheel == *"cu118"* ]]; then
     # if $normal_wheel matches cu118, do not upload the index.html
     echo "Skipping index files for cu118 wheels"
-elif [[ $normal_wheel == *"cu121"* ]]; then
-    # if $normal_wheel matches cu121, do not upload the index.html
-    echo "Skipping index files for cu121 wheels"
+elif [[ $normal_wheel == *"cu126"* ]]; then
+    # if $normal_wheel matches cu126, do not upload the index.html
+    echo "Skipping index files for cu126 wheels"
 else
-    # only upload index.html for cu124 wheels (default wheels)
+    # only upload index.html for cu128 wheels (default wheels)
     aws s3 cp index.html "s3://vllm-wheels/$BUILDKITE_COMMIT/vllm/index.html"
     aws s3 cp "s3://vllm-wheels/nightly/index.html" "s3://vllm-wheels/$BUILDKITE_COMMIT/index.html"
 fi
@@ -66,12 +66,12 @@ aws s3 cp "$normal_wheel" "s3://vllm-wheels/nightly/"
 if [[ $normal_wheel == *"cu118"* ]]; then
     # if $normal_wheel matches cu118, do not upload the index.html
     echo "Skipping index files for cu118 wheels"
-elif [[ $normal_wheel == *"cu121"* ]]; then
-    # if $normal_wheel matches cu121, do not upload the index.html
-    echo "Skipping index files for cu121 wheels"
+elif [[ $normal_wheel == *"cu126"* ]]; then
+    # if $normal_wheel matches cu126, do not upload the index.html
+    echo "Skipping index files for cu126 wheels"
 else
-    # only upload index.html for cu124 wheels (default wheels)
+    # only upload index.html for cu128 wheels (default wheels)
     aws s3 cp index.html "s3://vllm-wheels/nightly/vllm/index.html"
 fi
 
-aws s3 cp "$wheel" "s3://vllm-wheels/$version/"
\ No newline at end of file
+aws s3 cp "$wheel" "s3://vllm-wheels/$version/"
diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index fc0eb3d9f..8da43322c 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -455,7 +455,7 @@ steps:
   - tests/models/encoder_decoder/language
   commands:
     # Install causal-conv1d for plamo2 models here, as it is not compatible with pip-compile.
-    - pip install causal-conv1d
+    - pip install 'git+https://github.com/Dao-AILab/causal-conv1d@v1.5.0.post8'
     - pytest -v -s models/decoder_only/language -m 'core_model or quant_model'
     - pytest -v -s models/embedding/language -m core_model
 
diff --git a/.github/workflows/lint-and-deploy.yaml b/.github/workflows/lint-and-deploy.yaml
index 7b1d9f699..dd9b61a64 100644
--- a/.github/workflows/lint-and-deploy.yaml
+++ b/.github/workflows/lint-and-deploy.yaml
@@ -66,7 +66,7 @@ jobs:
           export AWS_SECRET_ACCESS_KEY=minioadmin
           sleep 30 && kubectl -n ns-vllm logs -f "$(kubectl -n ns-vllm get pods | awk '/deployment/ {print $1;exit}')" &
           helm install --wait --wait-for-jobs --timeout 5m0s --debug --create-namespace --namespace=ns-vllm test-vllm examples/online_serving/chart-helm -f examples/online_serving/chart-helm/values.yaml --set secrets.s3endpoint=http://minio:9000 --set secrets.s3bucketname=testbucket --set secrets.s3accesskeyid=$AWS_ACCESS_KEY_ID --set secrets.s3accesskey=$AWS_SECRET_ACCESS_KEY --set resources.requests.cpu=1 --set resources.requests.memory=4Gi --set resources.limits.cpu=2 --set resources.limits.memory=5Gi --set image.env[0].name=VLLM_CPU_KVCACHE_SPACE --set image.env[1].name=VLLM_LOGGING_LEVEL --set-string image.env[0].value="1" --set-string image.env[1].value="DEBUG" --set-string extraInit.s3modelpath="opt-125m/" --set-string 'resources.limits.nvidia\.com/gpu=0' --set-string 'resources.requests.nvidia\.com/gpu=0' --set-string image.repository="vllm-cpu-env"
-    
+
       - name: curl test
         run: |
           kubectl -n ns-vllm port-forward service/test-vllm-service 8001:80 &
@@ -79,4 +79,4 @@ jobs:
                           "max_tokens": 7,
                           "temperature": 0
                   }'):$CODE"
-          echo "$CODE"
\ No newline at end of file
+          echo "$CODE"
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
index 87681d7eb..90ed492d9 100644
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -46,7 +46,7 @@ repos:
   rev: 0.6.17
   hooks:
     - id: pip-compile
-      args: [requirements/test.in, -o, requirements/test.txt]
+      args: [requirements/test.in, -o, requirements/test.txt, --index-strategy, unsafe-best-match]
       files: ^requirements/test\.(in|txt)$
 - repo: local
   hooks:
diff --git a/CMakeLists.txt b/CMakeLists.txt
index 3314f05fd..6be9adcb8 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -46,8 +46,8 @@ set(HIP_SUPPORTED_ARCHS "gfx906;gfx908;gfx90a;gfx942;gfx950;gfx1030;gfx1100;gfx1
 # requirements.txt files and should be kept consistent.  The ROCm torch
 # versions are derived from docker/Dockerfile.rocm
 #
-set(TORCH_SUPPORTED_VERSION_CUDA "2.6.0")
-set(TORCH_SUPPORTED_VERSION_ROCM "2.6.0")
+set(TORCH_SUPPORTED_VERSION_CUDA "2.7.0")
+set(TORCH_SUPPORTED_VERSION_ROCM "2.7.0")
 
 #
 # Try to find python package with an executable that exactly matches
diff --git a/docker/Dockerfile b/docker/Dockerfile
index 7d1fac9db..17adb7a92 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -5,11 +5,11 @@
 # docs/source/contributing/dockerfile/dockerfile.md and
 # docs/source/assets/contributing/dockerfile-stages-dependency.png
 
-ARG CUDA_VERSION=12.4.1
+ARG CUDA_VERSION=12.8.1
 #################### BASE BUILD IMAGE ####################
 # prepare basic build environment
 FROM nvidia/cuda:${CUDA_VERSION}-devel-ubuntu20.04 AS base
-ARG CUDA_VERSION=12.4.1
+ARG CUDA_VERSION=12.8.1
 ARG PYTHON_VERSION=3.12
 ARG TARGETPLATFORM
 ENV DEBIAN_FRONTEND=noninteractive
@@ -37,6 +37,7 @@ RUN --mount=type=cache,target=/root/.cache/uv \
 # This timeout (in seconds) is necessary when installing some dependencies via uv since it's likely to time out
 # Reference: https://github.com/astral-sh/uv/pull/1694
 ENV UV_HTTP_TIMEOUT=500
+ENV UV_INDEX_STRATEGY="unsafe-best-match"
 
 # Upgrade to GCC 10 to avoid https://gcc.gnu.org/bugzilla/show_bug.cgi?id=92519
 # as it was causing spam when compiling the CUTLASS kernels
@@ -69,7 +70,8 @@ RUN --mount=type=cache,target=/root/.cache/uv \
 COPY requirements/common.txt requirements/common.txt
 COPY requirements/cuda.txt requirements/cuda.txt
 RUN --mount=type=cache,target=/root/.cache/uv \
-    uv pip install --system -r requirements/cuda.txt
+    uv pip install --system -r requirements/cuda.txt \
+    --extra-index-url https://download.pytorch.org/whl/cu$(echo $CUDA_VERSION | cut -d. -f1,2 | tr -d '.')
 
 # cuda arch list used by torch
 # can be useful for both `dev` and `test`
@@ -92,9 +94,11 @@ COPY requirements/build.txt requirements/build.txt
 # This timeout (in seconds) is necessary when installing some dependencies via uv since it's likely to time out
 # Reference: https://github.com/astral-sh/uv/pull/1694
 ENV UV_HTTP_TIMEOUT=500
+ENV UV_INDEX_STRATEGY="unsafe-best-match"
 
 RUN --mount=type=cache,target=/root/.cache/uv \
-    uv pip install --system -r requirements/build.txt
+    uv pip install --system -r requirements/build.txt \
+    --extra-index-url https://download.pytorch.org/whl/cu$(echo $CUDA_VERSION | cut -d. -f1,2 | tr -d '.')
 
 COPY . .
 ARG GIT_REPO_CHECK=0
@@ -161,22 +165,25 @@ FROM base as dev
 # This timeout (in seconds) is necessary when installing some dependencies via uv since it's likely to time out
 # Reference: https://github.com/astral-sh/uv/pull/1694
 ENV UV_HTTP_TIMEOUT=500
+ENV UV_INDEX_STRATEGY="unsafe-best-match"
+
+# Workaround for #17068
+RUN --mount=type=cache,target=/root/.cache/uv \
+    uv pip install --system --no-build-isolation "git+https://github.com/state-spaces/mamba@v2.2.4"
 
 COPY requirements/lint.txt requirements/lint.txt
 COPY requirements/test.txt requirements/test.txt
 COPY requirements/dev.txt requirements/dev.txt
-# Workaround for #17068
-RUN --mount=type=cache,target=/root/.cache/uv \
-    uv pip install --system mamba-ssm==2.2.4 --no-build-isolation
 RUN --mount=type=cache,target=/root/.cache/uv \
-    uv pip install --system -r requirements/dev.txt
+    uv pip install --system -r requirements/dev.txt \
+    --extra-index-url https://download.pytorch.org/whl/cu$(echo $CUDA_VERSION | cut -d. -f1,2 | tr -d '.')
 #################### DEV IMAGE ####################
 
 #################### vLLM installation IMAGE ####################
 # image with vLLM installed
 # TODO: Restore to base image after FlashInfer AOT wheel fixed
 FROM nvidia/cuda:${CUDA_VERSION}-devel-ubuntu22.04 AS vllm-base
-ARG CUDA_VERSION=12.4.1
+ARG CUDA_VERSION=12.8.1
 ARG PYTHON_VERSION=3.12
 WORKDIR /vllm-workspace
 ENV DEBIAN_FRONTEND=noninteractive
@@ -209,6 +216,7 @@ RUN --mount=type=cache,target=/root/.cache/uv \
 # This timeout (in seconds) is necessary when installing some dependencies via uv since it's likely to time out
 # Reference: https://github.com/astral-sh/uv/pull/1694
 ENV UV_HTTP_TIMEOUT=500
+ENV UV_INDEX_STRATEGY="unsafe-best-match"
 
 # Workaround for https://github.com/openai/triton/issues/2507 and
 # https://github.com/pytorch/pytorch/issues/107960 -- hopefully
@@ -229,7 +237,8 @@ RUN --mount=type=cache,target=/root/.cache/uv \
 # Install vllm wheel first, so that torch etc will be installed.
 RUN --mount=type=bind,from=build,src=/workspace/dist,target=/vllm-workspace/dist \
     --mount=type=cache,target=/root/.cache/uv \
-    uv pip install --system dist/*.whl --verbose
+    uv pip install --system dist/*.whl --verbose \
+    --extra-index-url https://download.pytorch.org/whl/cu$(echo $CUDA_VERSION | cut -d. -f1,2 | tr -d '.')
 
 # If we need to build FlashInfer wheel before its release:
 # $ export FLASHINFER_ENABLE_AOT=1
@@ -246,19 +255,26 @@ RUN --mount=type=bind,from=build,src=/workspace/dist,target=/vllm-workspace/dist
 RUN --mount=type=cache,target=/root/.cache/uv \
 . /etc/environment && \
 if [ "$TARGETPLATFORM" != "linux/arm64" ]; then \
-    uv pip install --system https://github.com/flashinfer-ai/flashinfer/releases/download/v0.2.1.post2/flashinfer_python-0.2.1.post2+cu124torch2.6-cp38-abi3-linux_x86_64.whl ; \
+    # TESTING: install FlashInfer from source to test 2.7.0 final RC
+    FLASHINFER_ENABLE_AOT=1 TORCH_CUDA_ARCH_LIST='7.5 8.0 8.6 8.9 9.0+PTX' \
+    uv pip install --system --no-build-isolation "git+https://github.com/flashinfer-ai/flashinfer@v0.2.2.post1" ; \
 fi
 COPY examples examples
 COPY benchmarks benchmarks
 COPY ./vllm/collect_env.py .
 
+RUN --mount=type=cache,target=/root/.cache/uv \
+. /etc/environment && \
+uv pip list
+
 # Although we build Flashinfer with AOT mode, there's still
 # some issues w.r.t. JIT compilation. Therefore we need to
 # install build dependencies for JIT compilation.
 # TODO: Remove this once FlashInfer AOT wheel is fixed
 COPY requirements/build.txt requirements/build.txt
 RUN --mount=type=cache,target=/root/.cache/uv \
-    uv pip install --system -r requirements/build.txt
+    uv pip install --system -r requirements/build.txt \
+    --extra-index-url https://download.pytorch.org/whl/cu$(echo $CUDA_VERSION | cut -d. -f1,2 | tr -d '.')
 
 #################### vLLM installation IMAGE ####################
 
@@ -272,11 +288,13 @@ ADD . /vllm-workspace/
 # This timeout (in seconds) is necessary when installing some dependencies via uv since it's likely to time out
 # Reference: https://github.com/astral-sh/uv/pull/1694
 ENV UV_HTTP_TIMEOUT=500
+ENV UV_INDEX_STRATEGY="unsafe-best-match"
 
-# install development dependencies (for testing)
 # Workaround for #17068
 RUN --mount=type=cache,target=/root/.cache/uv \
-    uv pip install --system mamba-ssm==2.2.4 --no-build-isolation
+    uv pip install --system --no-build-isolation "git+https://github.com/state-spaces/mamba@v2.2.4"
+
+# install development dependencies (for testing)
 RUN --mount=type=cache,target=/root/.cache/uv \
     uv pip install --system -r requirements/dev.txt
 
diff --git a/docs/source/getting_started/installation/gpu/cuda.inc.md b/docs/source/getting_started/installation/gpu/cuda.inc.md
index 46bdb08eb..06915f09d 100644
--- a/docs/source/getting_started/installation/gpu/cuda.inc.md
+++ b/docs/source/getting_started/installation/gpu/cuda.inc.md
@@ -1,6 +1,6 @@
 # Installation
 
-vLLM contains pre-compiled C++ and CUDA (12.1) binaries.
+vLLM contains pre-compiled C++ and CUDA (12.6) binaries.
 
 ## Requirements
 
@@ -23,12 +23,12 @@ Therefore, it is recommended to install vLLM with a **fresh new** environment. I
 You can install vLLM using either `pip` or `uv pip`:
 
 ```console
-# Install vLLM with CUDA 12.4.
+# Install vLLM with CUDA 12.6.
 pip install vllm # If you are using pip.
 uv pip install vllm # If you are using uv.
 ```
 
-As of now, vLLM's binaries are compiled with CUDA 12.4 and public PyTorch release versions by default. We also provide vLLM binaries compiled with CUDA 12.1, 11.8, and public PyTorch release versions:
+As of now, vLLM's binaries are compiled with CUDA 12.6 and public PyTorch release versions by default. We also provide vLLM binaries compiled with CUDA 12.8, 11.8, and public PyTorch release versions:
 
 ```console
 # Install vLLM with CUDA 11.8.
diff --git a/examples/online_serving/chart-helm/values.yaml b/examples/online_serving/chart-helm/values.yaml
index 9c48e7d06..28dba9a6f 100644
--- a/examples/online_serving/chart-helm/values.yaml
+++ b/examples/online_serving/chart-helm/values.yaml
@@ -8,7 +8,7 @@ image:
   # -- Image tag
   tag: "latest"
   # -- Container launch command
-  command: ["vllm", "serve", "/data/", "--served-model-name", "opt-125m", "--dtype", "bfloat16", "--host", "0.0.0.0", "--port", "8000"]
+  command: ["vllm", "serve", "/data/", "--served-model-name", "opt-125m", "--dtype", "float32", "--block-size", "16", "--host", "0.0.0.0", "--port", "8000"]
 
 # -- Container port
 containerPort: 8000
diff --git a/pyproject.toml b/pyproject.toml
index b5f1039b4..c85e85b0c 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -6,7 +6,7 @@ requires = [
     "packaging",
     "setuptools>=61",
     "setuptools-scm>=8.0",
-    "torch == 2.6.0",
+    "torch == 2.7.0",
     "wheel",
     "jinja2",
 ]
diff --git a/requirements/build.txt b/requirements/build.txt
index 13d643bca..19d757b45 100644
--- a/requirements/build.txt
+++ b/requirements/build.txt
@@ -4,6 +4,6 @@ ninja
 packaging
 setuptools>=61
 setuptools-scm>=8
-torch==2.6.0
+torch==2.7.0
 wheel
 jinja2>=3.1.6
diff --git a/requirements/cpu.txt b/requirements/cpu.txt
index 69f732c24..752931158 100644
--- a/requirements/cpu.txt
+++ b/requirements/cpu.txt
@@ -2,18 +2,19 @@
 -r common.txt
 
 # Dependencies for CPUs
-torch==2.6.0+cpu; platform_machine == "x86_64"
-torch==2.6.0; platform_system == "Darwin"
-torch==2.6.0; platform_machine == "ppc64le" or platform_machine == "aarch64"
+--extra-index-url https://download.pytorch.org/whl/cpu
+torch==2.7.0+cpu; platform_machine == "x86_64"
+torch==2.7.0; platform_system == "Darwin"
+torch==2.7.0; platform_machine == "ppc64le" or platform_machine == "aarch64"
 torch==2.7.0.dev20250304; platform_machine == "s390x"
 
 # required for the image processor of minicpm-o-2_6, this must be updated alongside torch
 torchaudio; platform_machine != "ppc64le" and platform_machine != "s390x"
-torchaudio==2.6.0; platform_machine == "ppc64le"
+torchaudio==2.7.0; platform_machine == "ppc64le"
 
 # required for the image processor of phi3v, this must be updated alongside torch
 torchvision; platform_machine != "ppc64le" and platform_machine != "s390x"
-torchvision==0.21.0; platform_machine == "ppc64le"
+torchvision==0.22.0; platform_machine == "ppc64le"
 datasets # for benchmark scripts
 
 # cpu cannot use triton 3.3.0
diff --git a/requirements/cuda.txt b/requirements/cuda.txt
index cdc6ee75a..a71d9728f 100644
--- a/requirements/cuda.txt
+++ b/requirements/cuda.txt
@@ -6,8 +6,9 @@ numba == 0.61.2; python_version > '3.9'
 
 # Dependencies for NVIDIA GPUs
 ray[cgraph]>=2.43.0, !=2.44.* # Ray Compiled Graph, required for pipeline parallelism in V1.
-torch==2.6.0
-torchaudio==2.6.0
+torch==2.7.0
+torchaudio==2.7.0
 # These must be updated alongside torch
-torchvision==0.21.0 # Required for phi3v processor. See https://github.com/pytorch/vision?tab=readme-ov-file#installation for corresponding version
-xformers==0.0.29.post2; platform_system == 'Linux' and platform_machine == 'x86_64'  # Requires PyTorch 2.6.0
+torchvision==0.22.0 # Required for phi3v processor. See https://github.com/pytorch/vision?tab=readme-ov-file#installation for corresponding version
+# https://github.com/facebookresearch/xformers/releases/tag/v0.0.30
+xformers==0.0.30; platform_system == 'Linux' and platform_machine == 'x86_64'  # Requires PyTorch >= 2.7
diff --git a/requirements/rocm-build.txt b/requirements/rocm-build.txt
index 05de4ff16..55ffe82e8 100644
--- a/requirements/rocm-build.txt
+++ b/requirements/rocm-build.txt
@@ -2,9 +2,9 @@
 -r common.txt
 
 --extra-index-url https://download.pytorch.org/whl/rocm6.2.4
-torch==2.6.0
-torchvision==0.21.0
-torchaudio==2.6.0
+torch==2.7.0
+torchvision==0.22.0
+torchaudio==2.7.0
 
 triton==3.2
 cmake>=3.26,<4
diff --git a/requirements/test.in b/requirements/test.in
index c5d2c4cd4..ee79aae58 100644
--- a/requirements/test.in
+++ b/requirements/test.in
@@ -23,9 +23,9 @@ sentence-transformers # required for embedding tests
 soundfile # required for audio tests
 jiwer # required for audio tests
 timm # required for internvl test
-torch==2.6.0
-torchaudio==2.6.0
-torchvision==0.21.0
+torch==2.7.0
+torchaudio==2.7.0
+torchvision==0.22.0
 transformers_stream_generator # required for qwen-vl test
 mamba_ssm # required for plamo2 test
 matplotlib # required for qwen-vl test
diff --git a/requirements/test.txt b/requirements/test.txt
index 9642a5bfe..2e8121e38 100644
--- a/requirements/test.txt
+++ b/requirements/test.txt
@@ -1,5 +1,5 @@
 # This file was autogenerated by uv via the following command:
-#    uv pip compile requirements/test.in -o requirements/test.txt
+#    uv pip compile requirements/test.in -o requirements/test.txt --index-strategy unsafe-best-match
 absl-py==2.1.0
     # via rouge-score
 accelerate==1.0.1
@@ -274,7 +274,7 @@ mamba-ssm==2.2.4
     # via -r requirements/test.in
 markdown-it-py==3.0.0
     # via rich
-markupsafe==3.0.2
+markupsafe==3.0.1
     # via
     #   jinja2
     #   werkzeug
@@ -355,39 +355,42 @@ numpy==1.26.4
     #   transformers
     #   tritonclient
     #   vocos
-nvidia-cublas-cu12==12.4.5.8
+nvidia-cublas-cu12==12.6.4.1
     # via
     #   nvidia-cudnn-cu12
     #   nvidia-cusolver-cu12
     #   torch
-nvidia-cuda-cupti-cu12==12.4.127
+nvidia-cuda-cupti-cu12==12.6.80
     # via torch
-nvidia-cuda-nvrtc-cu12==12.4.127
+nvidia-cuda-nvrtc-cu12==12.6.77
     # via torch
-nvidia-cuda-runtime-cu12==12.4.127
+nvidia-cuda-runtime-cu12==12.6.77
     # via torch
-nvidia-cudnn-cu12==9.1.0.70
+nvidia-cudnn-cu12==9.5.1.17
     # via torch
-nvidia-cufft-cu12==11.2.1.3
+nvidia-cufft-cu12==11.3.0.4
     # via torch
-nvidia-curand-cu12==10.3.5.147
+nvidia-cufile-cu12==1.11.1.6
     # via torch
-nvidia-cusolver-cu12==11.6.1.9
+nvidia-curand-cu12==10.3.7.77
     # via torch
-nvidia-cusparse-cu12==12.3.1.170
+nvidia-cusolver-cu12==11.7.1.2
+    # via torch
+nvidia-cusparse-cu12==12.5.4.2
     # via
     #   nvidia-cusolver-cu12
     #   torch
-nvidia-cusparselt-cu12==0.6.2
+nvidia-cusparselt-cu12==0.6.3
     # via torch
-nvidia-nccl-cu12==2.21.5
+nvidia-nccl-cu12==2.26.2
     # via torch
-nvidia-nvjitlink-cu12==12.4.127
+nvidia-nvjitlink-cu12==12.6.85
     # via
+    #   nvidia-cufft-cu12
     #   nvidia-cusolver-cu12
     #   nvidia-cusparse-cu12
     #   torch
-nvidia-nvtx-cu12==12.4.127
+nvidia-nvtx-cu12==12.6.77
     # via torch
 opencv-python-headless==4.11.0.86
     # via
@@ -634,6 +637,7 @@ setuptools==75.8.0
     #   mamba-ssm
     #   pytablewriter
     #   torch
+    #   triton
 shellingham==1.5.4
     # via typer
 six==1.16.0
@@ -664,7 +668,7 @@ starlette-testclient==0.4.1
     # via schemathesis
 statsmodels==0.14.4
     # via genai-perf
-sympy==1.13.1
+sympy==1.13.3
     # via
     #   einx
     #   torch
@@ -696,7 +700,7 @@ tomli==2.2.1
     # via schemathesis
 tomli-w==1.2.0
     # via schemathesis
-torch==2.6.0
+torch==2.7.0
     # via
     #   -r requirements/test.in
     #   accelerate
@@ -714,12 +718,12 @@ torch==2.6.0
     #   torchvision
     #   vector-quantize-pytorch
     #   vocos
-torchaudio==2.6.0
+torchaudio==2.7.0
     # via
     #   -r requirements/test.in
     #   encodec
     #   vocos
-torchvision==0.21.0
+torchvision==0.22.0
     # via
     #   -r requirements/test.in
     #   timm
@@ -748,7 +752,7 @@ transformers==4.51.3
     #   transformers-stream-generator
 transformers-stream-generator==0.0.5
     # via -r requirements/test.in
-triton==3.2.0
+triton==3.3.0
     # via torch
 tritonclient==2.51.0
     # via
diff --git a/setup.py b/setup.py
index a1867960e..7675fbdf3 100755
--- a/setup.py
+++ b/setup.py
@@ -54,7 +54,7 @@ elif (sys.platform.startswith("linux") and torch.version.cuda is None
     # fallback to cpu
     VLLM_TARGET_DEVICE = "cpu"
 
-MAIN_CUDA_VERSION = "12.4"
+MAIN_CUDA_VERSION = "12.8"
 
 
 def is_sccache_available() -> bool:
diff --git a/vllm/attention/ops/ipex_attn.py b/vllm/attention/ops/ipex_attn.py
index 6d96f5832..1702203b1 100644
--- a/vllm/attention/ops/ipex_attn.py
+++ b/vllm/attention/ops/ipex_attn.py
@@ -5,7 +5,8 @@ from typing import Dict, List, Optional, Tuple
 try:
     import intel_extension_for_pytorch.llm.modules as ipex_modules
     _use_ipex = True
-except ImportError:
+# AttributeError is to handle a bug in ipex https://github.com/intel/intel-extension-for-pytorch/pull/813
+except (ImportError, AttributeError):
     _use_ipex = False
 
 import torch
-- 
GitLab


From 13698db634b492151c6a5e04769119e3af29b265 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Wed, 30 Apr 2025 03:38:22 +0100
Subject: [PATCH 046/461] Improve configs - `ModelConfig` (#17130)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 tests/conftest.py                             |   2 +-
 tests/engine/test_arg_utils.py                |  13 +-
 .../test_register_quantization_config.py      |   4 +-
 tests/test_config.py                          |   9 +-
 vllm/config.py                                | 513 +++++++++---------
 vllm/engine/arg_utils.py                      | 451 +++++----------
 vllm/entrypoints/llm.py                       |  18 +-
 .../layers/quantization/aqlm.py               |   3 +-
 .../model_executor/layers/quantization/awq.py |   3 +-
 .../layers/quantization/awq_marlin.py         |   7 +-
 .../layers/quantization/base_config.py        |  13 +-
 .../layers/quantization/bitblas.py            |   7 +-
 .../layers/quantization/bitsandbytes.py       |   3 +-
 .../compressed_tensors/compressed_tensors.py  |   3 +-
 .../layers/quantization/deepspeedfp.py        |   5 +-
 .../layers/quantization/experts_int8.py       |   3 +-
 .../layers/quantization/fbgemm_fp8.py         |   3 +-
 .../model_executor/layers/quantization/fp8.py |   3 +-
 .../layers/quantization/gguf.py               |   3 +-
 .../layers/quantization/gptq.py               |   3 +-
 .../layers/quantization/gptq_bitblas.py       |   7 +-
 .../layers/quantization/gptq_marlin.py        |   7 +-
 .../layers/quantization/gptq_marlin_24.py     |   7 +-
 .../layers/quantization/hqq_marlin.py         |   3 +-
 .../layers/quantization/ipex_quant.py         |   7 +-
 .../layers/quantization/marlin.py             |   7 +-
 .../layers/quantization/modelopt.py           |   7 +-
 .../layers/quantization/moe_wna16.py          |   7 +-
 .../layers/quantization/neuron_quant.py       |   3 +-
 .../layers/quantization/ptpc_fp8.py           |   3 +-
 .../model_executor/layers/quantization/qqq.py |   3 +-
 .../layers/quantization/quark/quark.py        |   3 +-
 .../layers/quantization/torchao.py            |   3 +-
 .../layers/quantization/tpu_int8.py           |   3 +-
 .../model_executor/layers/rotary_embedding.py |   2 +-
 vllm/model_executor/model_loader/neuron.py    |   1 -
 36 files changed, 492 insertions(+), 650 deletions(-)

diff --git a/tests/conftest.py b/tests/conftest.py
index 5fc09b241..f02b5a8c0 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -738,7 +738,7 @@ class VllmRunner:
     - `block_size`: Set to `16` instead of `None` to reduce memory usage.
     - `enable_chunked_prefill`: Set to `False` instead of `None` for
       test reproducibility.
-    - `enforce_eager`: Set to `False` instead of `None` to test CUDA graph.
+    - `enforce_eager`: Set to `False` to test CUDA graph.
     """
 
     def __init__(
diff --git a/tests/engine/test_arg_utils.py b/tests/engine/test_arg_utils.py
index 2c8665802..16721ee9c 100644
--- a/tests/engine/test_arg_utils.py
+++ b/tests/engine/test_arg_utils.py
@@ -8,7 +8,7 @@ from typing import Literal, Optional
 
 import pytest
 
-from vllm.config import PoolerConfig, config
+from vllm.config import config
 from vllm.engine.arg_utils import (EngineArgs, contains_type, get_kwargs,
                                    get_type, is_not_builtin, is_type,
                                    literal_to_kwargs, nullable_kvs,
@@ -222,17 +222,6 @@ def test_prefix_cache_default():
     assert not engine_args.enable_prefix_caching
 
 
-def test_valid_pooling_config():
-    parser = EngineArgs.add_cli_args(FlexibleArgumentParser())
-    args = parser.parse_args([
-        '--override-pooler-config',
-        '{"pooling_type": "MEAN"}',
-    ])
-    engine_args = EngineArgs.from_cli_args(args=args)
-    assert engine_args.override_pooler_config == PoolerConfig(
-        pooling_type="MEAN", )
-
-
 @pytest.mark.parametrize(
     ("arg"),
     [
diff --git a/tests/quantization/test_register_quantization_config.py b/tests/quantization/test_register_quantization_config.py
index abc1c05de..0ea71aaf8 100644
--- a/tests/quantization/test_register_quantization_config.py
+++ b/tests/quantization/test_register_quantization_config.py
@@ -14,7 +14,7 @@ import torch.nn.functional as F
 from vllm.model_executor.layers.linear import LinearBase  # noqa: E501
 from vllm.model_executor.layers.linear import UnquantizedLinearMethod
 from vllm.model_executor.layers.quantization import (
-    get_quantization_config, register_quantization_config)
+    QuantizationMethods, get_quantization_config, register_quantization_config)
 from vllm.model_executor.layers.quantization.base_config import (  # noqa: E501
     QuantizationConfig)
 
@@ -54,7 +54,7 @@ class CustomQuantConfig(QuantizationConfig):
         """Initialize the quantization config."""
         self.num_bits = num_bits
 
-    def get_name(self) -> str:
+    def get_name(self) -> QuantizationMethods:
         """Name of the quantization method."""
         return "custom_quant"
 
diff --git a/tests/test_config.py b/tests/test_config.py
index 2e5da8128..f2155d954 100644
--- a/tests/test_config.py
+++ b/tests/test_config.py
@@ -185,7 +185,7 @@ def test_get_pooling_config():
         revision=None,
     )
 
-    pooling_config = model_config._init_pooler_config(None)
+    pooling_config = model_config._init_pooler_config()
     assert pooling_config is not None
 
     assert pooling_config.normalize
@@ -205,11 +205,12 @@ def test_get_pooling_config_from_args():
                                dtype="float16",
                                revision=None)
 
-    override_config = PoolerConfig(pooling_type='CLS', normalize=True)
+    override_pooler_config = PoolerConfig(pooling_type='CLS', normalize=True)
+    model_config.override_pooler_config = override_pooler_config
 
-    pooling_config = model_config._init_pooler_config(override_config)
+    pooling_config = model_config._init_pooler_config()
     assert pooling_config is not None
-    assert asdict(pooling_config) == asdict(override_config)
+    assert asdict(pooling_config) == asdict(override_pooler_config)
 
 
 @pytest.mark.skipif(current_platform.is_rocm(),
diff --git a/vllm/config.py b/vllm/config.py
index abe59734e..f9c5e25a4 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -16,9 +16,8 @@ from dataclasses import (MISSING, dataclass, field, fields, is_dataclass,
                          replace)
 from importlib.util import find_spec
 from pathlib import Path
-from typing import (TYPE_CHECKING, Any, Callable, ClassVar, Final, Literal,
-                    Optional, Protocol, TypeVar, Union, cast, get_args,
-                    get_origin)
+from typing import (TYPE_CHECKING, Any, Callable, ClassVar, Literal, Optional,
+                    Protocol, TypeVar, Union, cast, get_args, get_origin)
 
 import torch
 from pydantic import BaseModel, Field, PrivateAttr
@@ -211,103 +210,190 @@ def get_field(cls: ConfigType, name: str) -> Field:
         f"{cls.__name__}.{name} must have a default value or default factory.")
 
 
-class ModelConfig:
-    """Configuration for the model.
+TokenizerMode = Literal["auto", "slow", "mistral", "custom"]
+ModelDType = Literal["auto", "half", "float16", "bfloat16", "float", "float32"]
 
-    Args:
-        model: Name or path of the huggingface model to use.
-            It is also used as the content for `model_name` tag in metrics
-            output when `served_model_name` is not specified.
-        task: The task to use the model for. Each vLLM instance only supports
-            one task, even if the same model can be used for multiple tasks.
-            When the model only supports one task, "auto" can be used to select
-            it; otherwise, you must specify explicitly which task to use.
-        tokenizer: Name or path of the huggingface tokenizer to use.
-        tokenizer_mode: Tokenizer mode. "auto" will use the fast tokenizer if
-            available, "slow" will always use the slow tokenizer,
-            "mistral" will always use the tokenizer from `mistral_common`, and
-            "custom" will use --tokenizer to select the preregistered tokenizer.
-        trust_remote_code: Trust remote code (e.g., from HuggingFace) when
-            downloading the model and tokenizer.
-        allowed_local_media_path: Allowing API requests to read local images or
-            videos from directories specified by the server file system.
-            This is a security risk. Should only be enabled in trusted
-            environments.
-        dtype: Data type for model weights and activations. The "auto" option
-            will use FP16 precision for FP32 and FP16 models, and BF16 precision
-            for BF16 models.
-        seed: Random seed for reproducibility.
-        revision: The specific model version to use. It can be a branch name,
-            a tag name, or a commit id. If unspecified, will use the default
-            version.
-        code_revision: The specific revision to use for the model code on
-            Hugging Face Hub. It can be a branch name, a tag name, or a
-            commit id. If unspecified, will use the default version.
-        tokenizer_revision: The specific tokenizer version to use. It can be a
-            branch name, a tag name, or a commit id. If unspecified, will use
-            the default version.
-        max_model_len: Maximum length of a sequence (including prompt and
-            output). If None, will be derived from the model.
-        spec_target_max_model_len: Specify the the maximum length for spec
-            decoding draft models.
-        quantization: Quantization method that was used to quantize the model
-            weights. If None, we assume the model weights are not quantized.
-        enforce_eager: Whether to enforce eager execution. If True, we will
-            disable CUDA graph and always execute the model in eager mode.
-            If False, we will use CUDA graph and eager execution in hybrid.
-            If None, the user did not specify, so default to False.
-        max_seq_len_to_capture: Maximum sequence len covered by CUDA graphs.
-            When a sequence has context length larger than this, we fall back
-            to eager mode. Additionally for encoder-decoder models, if the
-            sequence length of the encoder input is larger than this, we fall
-            back to the eager mode.
-        max_logprobs: Maximum number of log probabilities. Defaults to 20.
-        disable_sliding_window: Whether to disable sliding window. If True,
-            we will disable the sliding window functionality of the model.
-            If the model does not support sliding window, this argument is
-            ignored.
-        skip_tokenizer_init: If true, skip initialization of tokenizer and
-            detokenizer.
-        served_model_name: The model name used in metrics tag `model_name`,
-            matches the model name exposed via the APIs. If multiple model
-            names provided, the first name will be used. If not specified,
-            the model name will be the same as `model`.
-        limit_mm_per_prompt: Maximum number of data items per modality
-            per prompt. Only applicable for multimodal models.
-        mm_processor_kwargs: Overrides for the multi-modal processor obtained
-            from `AutoProcessor.from_pretrained`.
-        disable_mm_preprocessor_cache: If True, disable caching of the
-            processed multi-modal inputs.
-        use_async_output_proc: Whether to use async output processor.
-            Defaults to True.
-        config_format: The config format which shall be loaded.
-            Defaults to 'auto' which defaults to 'hf'.
-        hf_token: The token to use as HTTP bearer authorization for remote files
-            . If `True`, will use the token generated when running
-            `huggingface-cli login` (stored in `~/.huggingface`).
-        hf_overrides: If a dictionary, contains arguments to be forwarded to the
-            HuggingFace config. If a callable, it is called to update the
-            HuggingFace config.
-        override_neuron_config: Initialize non default neuron config or
-            override default neuron config that are specific to Neuron devices,
-            this argument will be used to configure the neuron config that
-            can not be gathered from the vllm arguments.
-        override_pooler_config: Initialize non default pooling config or
-            override default pooling config for the pooling model.
-        logits_processor_pattern: Optional regex pattern specifying valid
-            logits processor qualified names that can be passed with the
-            `logits_processors` extra completion argument. Defaults to None,
-            which allows no processors.
-        generation_config: Configuration parameter file for generation.
-        model_impl: Which implementation of the model to use:
-            "auto" will try to use the vLLM implementation if it exists and
-                fall back to the Transformers implementation if no vLLM
-                implementation is available.
-            "vllm" will use the vLLM model implementation.
-            "transformers" will use the Transformers model implementation.
-        override_generation_config: Override the generation config with the
-            given config.
-    """
+
+@config
+@dataclass
+class ModelConfig:
+    """Configuration for the model."""
+
+    model: str = "facebook/opt-125m"
+    """Name or path of the Hugging Face model to use. It is also used as the
+    content for `model_name` tag in metrics output when `served_model_name` is
+    not specified."""
+    task: Literal[TaskOption, Literal["draft"]] = "auto"
+    """The task to use the model for. Each vLLM instance only supports one
+    task, even if the same model can be used for multiple tasks. When the model
+    only supports one task, "auto" can be used to select it; otherwise, you
+    must specify explicitly which task to use."""
+    tokenizer: str = None  # type: ignore
+    """Name or path of the Hugging Face tokenizer to use. If unspecified, model
+    name or path will be used."""
+    tokenizer_mode: TokenizerMode = "auto"
+    """Tokenizer mode:\n
+    - "auto" will use the fast tokenizer if available.\n
+    - "slow" will always use the slow tokenizer.\n
+    - "mistral" will always use the tokenizer from `mistral_common`.\n
+    - "custom" will use --tokenizer to select the preregistered tokenizer."""
+    trust_remote_code: bool = False
+    """Trust remote code (e.g., from HuggingFace) when downloading the model
+    and tokenizer."""
+    dtype: Union[ModelDType, torch.dtype] = "auto"
+    """Data type for model weights and activations:\n
+    - "auto" will use FP16 precision for FP32 and FP16 models, and BF16
+    precision for BF16 models.\n
+    - "half" for FP16. Recommended for AWQ quantization.\n
+    - "float16" is the same as "half".\n
+    - "bfloat16" for a balance between precision and range.\n
+    - "float" is shorthand for FP32 precision.\n
+    - "float32" for FP32 precision."""
+    seed: Optional[int] = None
+    """Random seed for reproducibility."""
+    hf_config_path: Optional[str] = None
+    """Name or path of the Hugging Face config to use. If unspecified, model
+    name or path will be used."""
+    allowed_local_media_path: str = ""
+    """Allowing API requests to read local images or videos from directories
+    specified by the server file system. This is a security risk. Should only
+    be enabled in trusted environments."""
+    revision: Optional[str] = None
+    """The specific model version to use. It can be a branch name, a tag name,
+    or a commit id. If unspecified, will use the default version."""
+    code_revision: Optional[str] = None
+    """The specific revision to use for the model code on the Hugging Face Hub.
+    It can be a branch name, a tag name, or a commit id. If unspecified, will
+    use the default version."""
+    rope_scaling: dict[str, Any] = field(default_factory=dict)
+    """RoPE scaling configuration in JSON format. For example,
+    `{"rope_type":"dynamic","factor":2.0}`."""
+    rope_theta: Optional[float] = None
+    """RoPE theta. Use with `rope_scaling`. In some cases, changing the RoPE
+    theta improves the performance of the scaled model."""
+    tokenizer_revision: Optional[str] = None
+    """The specific revision to use for the tokenizer on the Hugging Face Hub.
+    It can be a branch name, a tag name, or a commit id. If unspecified, will
+    use the default version."""
+    max_model_len: int = None  # type: ignore
+    """Model context length (prompt and output). If unspecified, will be
+    automatically derived from the model config.
+    
+    When passing via `--max-model-len`, supports k/m/g/K/M/G in human-readable
+    format. Examples:\n
+    - 1k -> 1000\n
+    - 1K -> 1024\n
+    - 25.6k -> 25,600"""
+    spec_target_max_model_len: Optional[int] = None
+    """Specify the the maximum length for spec decoding draft models."""
+    quantization: Optional[QuantizationMethods] = None
+    """Method used to quantize the weights. If `None`, we first check the
+    `quantization_config` attribute in the model config file. If that is
+    `None`, we assume the model weights are not quantized and use `dtype` to
+    determine the data type of the weights."""
+    enforce_eager: bool = False
+    """Whether to always use eager-mode PyTorch. If True, we will disable CUDA
+    graph and always execute the model in eager mode. If False, we will use
+    CUDA graph and eager execution in hybrid for maximal performance and
+    flexibility."""
+    max_seq_len_to_capture: int = 8192
+    """Maximum sequence len covered by CUDA graphs. When a sequence has context
+    length larger than this, we fall back to eager mode. Additionally for
+    encoder-decoder models, if the sequence length of the encoder input is
+    larger than this, we fall back to the eager mode."""
+    max_logprobs: int = 20
+    """Maximum number of log probabilities to return when `logprobs` is
+    specified in `SamplingParams`. The default value comes the default for the
+    OpenAI Chat Completions API."""
+    disable_sliding_window: bool = False
+    """Whether to disable sliding window. If True, we will disable the sliding
+    window functionality of the model, capping to sliding window size. If the
+    model does not support sliding window, this argument is ignored."""
+    disable_cascade_attn: bool = False
+    """Disable cascade attention for V1. While cascade attention does not
+    change the mathematical correctness, disabling it could be useful for
+    preventing potential numerical issues. Note that even if this is set to
+    False, cascade attention will be only used when the heuristic tells that
+    it's beneficial."""
+    skip_tokenizer_init: bool = False
+    """Skip initialization of tokenizer and detokenizer. Expects valid
+    `prompt_token_ids` and `None` for prompt from the input. The generated
+    output will contain token ids."""
+    served_model_name: Optional[Union[str, list[str]]] = None
+    """The model name(s) used in the API. If multiple names are provided, the
+    server will respond to any of the provided names. The model name in the
+    model field of a response will be the first name in this list. If not
+    specified, the model name will be the same as the `--model` argument. Noted
+    that this name(s) will also be used in `model_name` tag content of
+    prometheus metrics, if multiple names provided, metrics tag will take the
+    first one."""
+    limit_mm_per_prompt: dict[str, int] = field(default_factory=dict)
+    """Maximum number of data items per modality per prompt. Only applicable
+    for multimodal models."""
+    use_async_output_proc: bool = True
+    """Whether to use async output processor."""
+    config_format: Union[str, ConfigFormat] = ConfigFormat.AUTO.value
+    """The format of the model config to load:\n
+    - "auto" will try to load the config in hf format if available else it
+    will try to load in mistral format.\n
+    - "hf" will load the config in hf format.\n
+    - "mistral" will load the config in mistral format."""
+    hf_token: Optional[Union[bool, str]] = None
+    """The token to use as HTTP bearer authorization for remote files . If
+    `True`, will use the token generated when running `huggingface-cli login`
+    (stored in `~/.huggingface`)."""
+    hf_overrides: HfOverrides = field(default_factory=dict)
+    """If a dictionary, contains arguments to be forwarded to the Hugging Face
+    config. If a callable, it is called to update the HuggingFace config. When
+    specified via CLI, the argument must be a valid JSON string."""
+    mm_processor_kwargs: Optional[dict[str, Any]] = None
+    """Arguments to be forwarded to the model's processor for multi-modal data,
+    e.g., image processor. Overrides for the multi-modal processor obtained
+    from `AutoProcessor.from_pretrained`. The available overrides depend on the
+    model that is being run. For example, for Phi-3-Vision: `{"num_crops": 4}`.
+    When specified via CLI, the argument must be a valid JSON string."""
+    disable_mm_preprocessor_cache: bool = False
+    """If `True`, disable caching of the multi-modal preprocessor/mapper (not
+    recommended)."""
+    override_neuron_config: dict[str, Any] = field(default_factory=dict)
+    """Initialize non-default neuron config or override default neuron config
+    that are specific to Neuron devices, this argument will be used to
+    configure the neuron config that can not be gathered from the vllm
+    arguments. e.g. `{"cast_logits_dtype": "bloat16"}`. When specified via CLI,
+    the argument must be a valid JSON string."""
+    pooler_config: Optional["PoolerConfig"] = field(init=False)
+    """Pooler config which controls the behaviour of output pooling in pooling
+    models."""
+    override_pooler_config: Optional[Union[dict, "PoolerConfig"]] = None
+    """Initialize non-default pooling config or override default pooling config
+    for the pooling model. e.g. `{"pooling_type": "mean", "normalize": false}`.
+    When specified via CLI, the argument must be a valid JSON string."""
+    logits_processor_pattern: Optional[str] = None
+    """Optional regex pattern specifying valid logits processor qualified names
+    that can be passed with the `logits_processors` extra completion argument.
+    Defaults to `None`, which allows no processors."""
+    generation_config: str = "auto"
+    """The folder path to the generation config. Defaults to `"auto"`, the
+    generation config will be loaded from model path. If set to `"vllm"`, no
+    generation config is loaded, vLLM defaults will be used. If set to a folder
+    path, the generation config will be loaded from the specified folder path.
+    If `max_new_tokens` is specified in generation config, then it sets a
+    server-wide limit on the number of output tokens for all requests."""
+    override_generation_config: dict[str, Any] = field(default_factory=dict)
+    """Overrides or sets generation config. e.g. `{"temperature": 0.5}`. If
+    used with `--generation-config auto`, the override parameters will be
+    merged with the default config from the model. If used with
+    `--generation-config vllm`, only the override parameters are used.
+    When specified via CLI, the argument must be a valid JSON string."""
+    enable_sleep_mode: bool = False
+    """Enable sleep mode for the engine (only cuda platform is supported)."""
+    model_impl: Union[str, ModelImpl] = ModelImpl.AUTO.value
+    """Which implementation of the model to use:\n
+    - "auto" will try to use the vLLM implementation, if it exists, and fall
+    back to the Transformers implementation if no vLLM implementation is
+    available.\n
+    - "vllm" will use the vLLM model implementation.\n
+    - "transformers" will use the Transformers model implementation."""
 
     def compute_hash(self) -> str:
         """
@@ -342,92 +428,43 @@ class ModelConfig:
         assert_hashable(str_factors)
         return hashlib.sha256(str(factors).encode()).hexdigest()
 
-    def __init__(
-        self,
-        model: str,
-        task: Literal[TaskOption, Literal["draft"]],
-        tokenizer: str,
-        tokenizer_mode: str,
-        trust_remote_code: bool,
-        dtype: Union[str, torch.dtype],
-        seed: int,
-        hf_config_path: Optional[str] = None,
-        allowed_local_media_path: str = "",
-        revision: Optional[str] = None,
-        code_revision: Optional[str] = None,
-        rope_scaling: Optional[dict[str, Any]] = None,
-        rope_theta: Optional[float] = None,
-        tokenizer_revision: Optional[str] = None,
-        max_model_len: Optional[int] = None,
-        spec_target_max_model_len: Optional[int] = None,
-        quantization: Optional[str] = None,
-        enforce_eager: Optional[bool] = None,
-        max_seq_len_to_capture: Optional[int] = None,
-        max_logprobs: int = 20,
-        disable_sliding_window: bool = False,
-        disable_cascade_attn: bool = False,
-        skip_tokenizer_init: bool = False,
-        served_model_name: Optional[Union[str, list[str]]] = None,
-        limit_mm_per_prompt: Optional[dict[str, int]] = None,
-        mm_processor_kwargs: Optional[dict[str, Any]] = None,
-        disable_mm_preprocessor_cache: bool = False,
-        use_async_output_proc: bool = True,
-        config_format: ConfigFormat = ConfigFormat.AUTO,
-        hf_token: Optional[Union[bool, str]] = None,
-        hf_overrides: Optional[HfOverrides] = None,
-        override_neuron_config: Optional[dict[str, Any]] = None,
-        override_pooler_config: Optional["PoolerConfig"] = None,
-        logits_processor_pattern: Optional[str] = None,
-        generation_config: str = "auto",
-        enable_sleep_mode: bool = False,
-        override_generation_config: Optional[dict[str, Any]] = None,
-        model_impl: Union[str, ModelImpl] = ModelImpl.AUTO,
-    ) -> None:
-        self.model = maybe_model_redirect(model)
-        self.tokenizer = maybe_model_redirect(tokenizer)
-
-        self.hf_config_path = hf_config_path
-        if isinstance(hf_config_path, str):
-            self.hf_config_path = maybe_model_redirect(hf_config_path)
-
-        self.tokenizer_mode = tokenizer_mode
-        self.trust_remote_code = trust_remote_code
-        self.allowed_local_media_path = allowed_local_media_path
-        self.seed = seed
-        self.revision = revision
-        self.code_revision = code_revision
-        self.rope_scaling = rope_scaling
-        self.rope_theta = rope_theta
-        self.model_impl = model_impl
-
-        if hf_overrides is None:
-            hf_overrides = {}
-
-        if callable(hf_overrides):
+    def __post_init__(self) -> None:
+        self.model = maybe_model_redirect(self.model)
+        # The tokenizer is consistent with the model by default.
+        if self.tokenizer is None:
+            self.tokenizer = self.model
+        if self.tokenizer_revision is None:
+            self.tokenizer_revision = self.revision
+        self.tokenizer = maybe_model_redirect(self.tokenizer)
+
+        if isinstance(self.hf_config_path, str):
+            self.hf_config_path = maybe_model_redirect(self.hf_config_path)
+
+        if callable(self.hf_overrides):
             hf_overrides_kw = {}
-            hf_overrides_fn = hf_overrides
+            hf_overrides_fn = self.hf_overrides
         else:
-            hf_overrides_kw = hf_overrides
+            hf_overrides_kw = self.hf_overrides
             hf_overrides_fn = None
 
-        if rope_scaling is not None:
-            hf_override: dict[str, Any] = {"rope_scaling": rope_scaling}
+        if self.rope_scaling:
+            hf_override: dict[str, Any] = {"rope_scaling": self.rope_scaling}
             hf_overrides_kw.update(hf_override)
-            hf_overrides_str = json.dumps(hf_overrides)
+            hf_overrides_str = json.dumps(hf_overrides_kw)
             msg = (
                 "`--rope-scaling` will be removed in a future release. "
                 f"'Please instead use `--hf-overrides '{hf_overrides_str}'`")
             warnings.warn(DeprecationWarning(msg), stacklevel=2)
-        if rope_theta is not None:
-            hf_override = {"rope_theta": rope_theta}
+        if self.rope_theta is not None:
+            hf_override = {"rope_theta": self.rope_theta}
             hf_overrides_kw.update(hf_override)
-            hf_overrides_str = json.dumps(hf_overrides)
+            hf_overrides_str = json.dumps(hf_overrides_kw)
             msg = (
                 "`--rope-theta` will be removed in a future release. "
                 f"'Please instead use `--hf-overrides '{hf_overrides_str}'`")
             warnings.warn(DeprecationWarning(msg), stacklevel=2)
 
-        self.maybe_pull_model_tokenizer_for_s3(model, tokenizer)
+        self.maybe_pull_model_tokenizer_for_s3(self.model, self.tokenizer)
 
         if (backend := envs.VLLM_ATTENTION_BACKEND
             ) and backend == "FLASHINFER" and find_spec("flashinfer") is None:
@@ -437,20 +474,6 @@ class ModelConfig:
                 "https://github.com/vllm-project/vllm/blob/main/docker/Dockerfile "  # noqa: E501
                 "for instructions on how to install it.")
 
-        # The tokenizer version is consistent with the model version by default.
-        if tokenizer_revision is None:
-            self.tokenizer_revision = revision
-        else:
-            self.tokenizer_revision = tokenizer_revision
-        self.quantization = quantization
-        self.enforce_eager = enforce_eager
-        self.max_seq_len_to_capture = max_seq_len_to_capture
-        self.max_logprobs = max_logprobs
-        self.disable_sliding_window = disable_sliding_window
-        self.disable_cascade_attn = disable_cascade_attn
-        self.skip_tokenizer_init = skip_tokenizer_init
-        self.enable_sleep_mode = enable_sleep_mode
-
         from vllm.platforms import current_platform
 
         if (self.enable_sleep_mode
@@ -458,9 +481,12 @@ class ModelConfig:
             raise ValueError(
                 "Sleep mode is not supported on current platform.")
 
+        if isinstance(self.config_format, str):
+            self.config_format = ConfigFormat(self.config_format)
+
         hf_config = get_config(self.hf_config_path or self.model,
-                               trust_remote_code, revision, code_revision,
-                               config_format)
+                               self.trust_remote_code, self.revision,
+                               self.code_revision, self.config_format)
 
         if hf_overrides_kw:
             logger.info("Overriding HF config with %s", hf_overrides_kw)
@@ -476,13 +502,8 @@ class ModelConfig:
                                             "attention_chunk_size", None)
         self.encoder_config = self._get_encoder_config()
         self.hf_image_processor_config = get_hf_image_processor_config(
-            self.model, hf_token=hf_token, revision=revision)
-        self.dtype = _get_and_verify_dtype(self.hf_config, dtype)
-        self.use_async_output_proc = use_async_output_proc
-
-        # Set enforce_eager to False if the value is unset.
-        if self.enforce_eager is None:
-            self.enforce_eager = False
+            self.model, hf_token=self.hf_token, revision=self.revision)
+        self.dtype = _get_and_verify_dtype(self.hf_config, self.dtype)
 
         interleaved_attn_models = ["gemma2", "gemma3_text", "cohere2"]
         sliding_window = getattr(self.hf_text_config, "sliding_window", None)
@@ -515,18 +536,14 @@ class ModelConfig:
 
         self.max_model_len = _get_and_verify_max_len(
             hf_config=self.hf_text_config,
-            max_model_len=max_model_len,
+            max_model_len=self.max_model_len,
             disable_sliding_window=self.disable_sliding_window,
             sliding_window_len=self.get_hf_config_sliding_window(),
-            spec_target_max_model_len=spec_target_max_model_len,
+            spec_target_max_model_len=self.spec_target_max_model_len,
             encoder_config=self.encoder_config)
-        self.served_model_name = get_served_model_name(model,
-                                                       served_model_name)
-        self.multimodal_config = self._init_multimodal_config(
-            limit_mm_per_prompt=limit_mm_per_prompt,
-            mm_processor_kwargs=mm_processor_kwargs,
-            disable_mm_preprocessor_cache=disable_mm_preprocessor_cache,
-        )
+        self.served_model_name = get_served_model_name(self.model,
+                                                       self.served_model_name)
+        self.multimodal_config = self._init_multimodal_config()
         if not self.skip_tokenizer_init:
             self._verify_tokenizer_mode()
 
@@ -535,24 +552,19 @@ class ModelConfig:
         self.has_noops = self._init_has_noops()
         self.has_inner_state = self._init_has_inner_state()
 
-        if current_platform.is_neuron():
-            self.override_neuron_config = override_neuron_config
-        else:
-            self.override_neuron_config = None
+        if (not current_platform.is_neuron() and self.override_neuron_config):
+            raise ValueError(
+                "`override_neuron_config` is only supported on Neuron.")
 
-        supported_tasks, task = self._resolve_task(task)
+        supported_tasks, task = self._resolve_task(self.task)
         self.supported_tasks = supported_tasks
-        self.task: Final = task
+        self.task = task
         if self.task in ("draft", "generate"):
             self.truncation_side = "left"
         else:
             self.truncation_side = "right"
 
-        self.pooler_config = self._init_pooler_config(override_pooler_config)
-        self.logits_processor_pattern = logits_processor_pattern
-
-        self.generation_config = generation_config
-        self.override_generation_config = override_generation_config or {}
+        self.pooler_config = self._init_pooler_config()
 
         self._verify_quantization()
         self._verify_cuda_graph()
@@ -591,26 +603,21 @@ class ModelConfig:
                     model, ignore_pattern=["*.pt", "*.safetensors", "*.bin"])
                 self.tokenizer = s3_tokenizer.dir
 
-    def _init_multimodal_config(
-        self,
-        limit_mm_per_prompt: Optional[dict[str, int]],
-        mm_processor_kwargs: Optional[dict[str, Any]],
-        disable_mm_preprocessor_cache: bool,
-    ) -> Optional["MultiModalConfig"]:
+    def _init_multimodal_config(self) -> Optional["MultiModalConfig"]:
         if self.registry.is_multimodal_model(self.architectures):
             return MultiModalConfig(
-                limit_per_prompt=limit_mm_per_prompt or {},
-                mm_processor_kwargs=mm_processor_kwargs or {},
-                disable_mm_preprocessor_cache=disable_mm_preprocessor_cache,
-            )
+                limit_per_prompt=self.limit_mm_per_prompt,
+                mm_processor_kwargs=self.mm_processor_kwargs,
+                disable_mm_preprocessor_cache=self.
+                disable_mm_preprocessor_cache)
 
-        if limit_mm_per_prompt:
+        if self.limit_mm_per_prompt:
             raise ValueError("`limit_mm_per_prompt` is only supported for "
                              "multimodal models.")
-        if mm_processor_kwargs:
+        if self.mm_processor_kwargs:
             raise ValueError("`mm_processor_kwargs` is only supported for "
                              "multimodal models.")
-        if disable_mm_preprocessor_cache:
+        if self.disable_mm_preprocessor_cache:
             raise ValueError("`disable_mm_preprocessor_cache` is only "
                              "supported for multimodal models.")
 
@@ -620,31 +627,32 @@ class ModelConfig:
         return get_sentence_transformer_tokenizer_config(
             self.model, self.revision)
 
-    def _init_pooler_config(
-        self,
-        override_pooler_config: Optional["PoolerConfig"],
-    ) -> Optional["PoolerConfig"]:
+    def _init_pooler_config(self) -> Optional["PoolerConfig"]:
 
         if self.runner_type == "pooling":
-            user_config = override_pooler_config or PoolerConfig()
+            if isinstance(self.override_pooler_config, dict):
+                self.override_pooler_config = PoolerConfig(
+                    **self.override_pooler_config)
+
+            pooler_config = self.override_pooler_config or PoolerConfig()
 
             base_config = get_pooling_config(self.model, self.revision)
             if base_config is not None:
                 # Only set values that are not overridden by the user
                 for k, v in base_config.items():
-                    if getattr(user_config, k) is None:
-                        setattr(user_config, k, v)
+                    if getattr(pooler_config, k) is None:
+                        setattr(pooler_config, k, v)
 
             if self.is_matryoshka:
-                if user_config.normalize is None:
-                    user_config.normalize = True
-                elif not user_config.normalize:
+                if pooler_config.normalize is None:
+                    pooler_config.normalize = True
+                elif not pooler_config.normalize:
                     raise ValueError(
                         "`normalize` must be enabled (set to True) "
                         "for models that are compatible with "
                         "Matryoshka Representation.")
 
-            return user_config
+            return pooler_config
 
         return None
 
@@ -662,11 +670,11 @@ class ModelConfig:
         return self.registry.model_has_inner_state(self.architectures)
 
     def _verify_tokenizer_mode(self) -> None:
-        tokenizer_mode = self.tokenizer_mode.lower()
-        if tokenizer_mode not in ["auto", "slow", "mistral", "custom"]:
+        tokenizer_mode = cast(TokenizerMode, self.tokenizer_mode.lower())
+        if tokenizer_mode not in get_args(TokenizerMode):
             raise ValueError(
                 f"Unknown tokenizer mode: {self.tokenizer_mode}. Must be "
-                "either 'auto', 'slow', 'mistral' or 'custom'.")
+                f"one of {get_args(TokenizerMode)}.")
         self.tokenizer_mode = tokenizer_mode
 
     def _get_preferred_task(
@@ -781,7 +789,8 @@ class ModelConfig:
             "quark", "nvfp4", "bitblas", "gptq_bitblas"
         ]
         if self.quantization is not None:
-            self.quantization = self.quantization.lower()
+            self.quantization = cast(QuantizationMethods,
+                                     self.quantization.lower())
 
         # Parse quantization method from the HF model config, if available.
         quant_cfg = self._parse_quant_hf_config()
@@ -857,8 +866,6 @@ class ModelConfig:
                     "non-quantized models.", self.quantization)
 
     def _verify_cuda_graph(self) -> None:
-        if self.max_seq_len_to_capture is None:
-            self.max_seq_len_to_capture = self.max_model_len
         self.max_seq_len_to_capture = min(self.max_seq_len_to_capture,
                                           self.max_model_len)
         ROCM_UNSUPPORTED_MODELS = ['mllama']
@@ -1294,7 +1301,7 @@ class ModelConfig:
 
     @property
     def runner_type(self) -> RunnerType:
-        return _TASK_RUNNER[self.task]
+        return _TASK_RUNNER[cast(_ResolvedTask, self.task)]
 
     @property
     def is_v1_compatible(self) -> bool:
@@ -2201,7 +2208,7 @@ class SpeculativeConfig:
     according to the log probability settings in SamplingParams."""
 
     # Draft model configuration
-    quantization: Optional[str] = None
+    quantization: Optional[QuantizationMethods] = None
     """Quantization method that was used to quantize the draft model weights.
     If `None`, we assume the model weights are not quantized. Note that it only
     takes effect when using the draft model-based speculative method."""
@@ -2386,7 +2393,6 @@ class SpeculativeConfig:
                     code_revision=self.code_revision,
                     tokenizer_revision=self.target_model_config.
                     tokenizer_revision,
-                    max_model_len=None,
                     spec_target_max_model_len=self.target_model_config.
                     max_model_len,
                     quantization=self.quantization,
@@ -2793,30 +2799,31 @@ class PromptAdapterConfig:
 class MultiModalConfig:
     """Controls the behavior of multimodal models."""
 
-    limit_per_prompt: dict[str, int] = field(default_factory=dict)
+    limit_per_prompt: dict[str, int] = get_field(ModelConfig,
+                                                 "limit_mm_per_prompt")
     """
     The maximum number of input items allowed per prompt for each modality.
     This should be a JSON string that will be parsed into a dictionary.
     Defaults to 1 (V0) or 999 (V1) for each modality.
 
     For example, to allow up to 16 images and 2 videos per prompt:
-    :code:`{"images": 16, "videos": 2}`
+    `{"images": 16, "videos": 2}`
     """
 
     mm_processor_kwargs: Optional[dict[str, object]] = None
     """
     Overrides for the multi-modal processor obtained from
-    :meth:`transformers.AutoProcessor.from_pretrained`.
+    `transformers.AutoProcessor.from_pretrained`.
 
     The available overrides depend on the model that is being run.
 
     For example, for Phi-3-Vision:
-    :code:`{"num_crops": 4}`.
+    `{"num_crops": 4}`.
     """
 
     disable_mm_preprocessor_cache: bool = False
     """
-    If :code:`True`, disable caching of the processed multi-modal inputs.
+    If `True`, disable caching of the processed multi-modal inputs.
     """
 
     def compute_hash(self) -> str:
@@ -2907,10 +2914,6 @@ class PoolerConfig:
                                usedforsecurity=False).hexdigest()
         return hash_str
 
-    @staticmethod
-    def from_json(json_str: str) -> "PoolerConfig":
-        return PoolerConfig(**json.loads(json_str))
-
 
 _STR_DTYPE_TO_TORCH_DTYPE = {
     "half": torch.float16,
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index be0cd4d3a..4f074fcd1 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -20,15 +20,16 @@ from vllm.config import (BlockSize, CacheConfig, CacheDType, CompilationConfig,
                          DeviceConfig, DistributedExecutorBackend,
                          GuidedDecodingBackend, GuidedDecodingBackendV1,
                          HfOverrides, KVTransferConfig, LoadConfig, LoadFormat,
-                         LoRAConfig, ModelConfig, ModelImpl, MultiModalConfig,
-                         ObservabilityConfig, ParallelConfig, PoolerConfig,
-                         PrefixCachingHashAlgo, PromptAdapterConfig,
-                         SchedulerConfig, SchedulerPolicy, SpeculativeConfig,
-                         TaskOption, TokenizerPoolConfig, VllmConfig,
-                         get_attr_docs, get_field)
+                         LoRAConfig, ModelConfig, ModelDType, ModelImpl,
+                         MultiModalConfig, ObservabilityConfig, ParallelConfig,
+                         PoolerConfig, PrefixCachingHashAlgo,
+                         PromptAdapterConfig, SchedulerConfig, SchedulerPolicy,
+                         SpeculativeConfig, TaskOption, TokenizerMode,
+                         TokenizerPoolConfig, VllmConfig, get_attr_docs,
+                         get_field)
 from vllm.executor.executor_base import ExecutorBase
 from vllm.logger import init_logger
-from vllm.model_executor.layers.quantization import QUANTIZATION_METHODS
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.plugins import load_general_plugins
 from vllm.reasoning import ReasoningParserManager
 from vllm.test_utils import MODEL_WEIGHTS_S3_BUCKET, MODELS_ON_S3
@@ -183,6 +184,9 @@ def get_kwargs(cls: ConfigType) -> dict[str, Any]:
             kwargs[name]["nargs"] = "+"
         elif contains_type(type_hints, int):
             kwargs[name]["type"] = int
+            # Special case for large integers
+            if name in {"max_model_len"}:
+                kwargs[name]["type"] = human_readable_int
         elif contains_type(type_hints, float):
             kwargs[name]["type"] = float
         elif contains_type(type_hints, dict):
@@ -212,22 +216,23 @@ def get_kwargs(cls: ConfigType) -> dict[str, Any]:
 @dataclass
 class EngineArgs:
     """Arguments for vLLM engine."""
-    model: str = 'facebook/opt-125m'
-    served_model_name: Optional[Union[str, List[str]]] = None
-    tokenizer: Optional[str] = None
-    hf_config_path: Optional[str] = None
-    task: TaskOption = "auto"
-    skip_tokenizer_init: bool = False
-    tokenizer_mode: str = 'auto'
-    trust_remote_code: bool = False
-    allowed_local_media_path: str = ""
+    model: str = ModelConfig.model
+    served_model_name: Optional[Union[
+        str, List[str]]] = ModelConfig.served_model_name
+    tokenizer: Optional[str] = ModelConfig.tokenizer
+    hf_config_path: Optional[str] = ModelConfig.hf_config_path
+    task: TaskOption = ModelConfig.task
+    skip_tokenizer_init: bool = ModelConfig.skip_tokenizer_init
+    tokenizer_mode: TokenizerMode = ModelConfig.tokenizer_mode
+    trust_remote_code: bool = ModelConfig.trust_remote_code
+    allowed_local_media_path: str = ModelConfig.allowed_local_media_path
     download_dir: Optional[str] = LoadConfig.download_dir
     load_format: str = LoadConfig.load_format
-    config_format: ConfigFormat = ConfigFormat.AUTO
-    dtype: str = 'auto'
+    config_format: str = ModelConfig.config_format
+    dtype: ModelDType = ModelConfig.dtype
     kv_cache_dtype: CacheDType = CacheConfig.cache_dtype
-    seed: Optional[int] = None
-    max_model_len: Optional[int] = None
+    seed: Optional[int] = ModelConfig.seed
+    max_model_len: Optional[int] = ModelConfig.max_model_len
     # Note: Specifying a custom executor backend by passing a class
     # is intended for expert use only. The API may change without
     # notice.
@@ -245,8 +250,8 @@ class EngineArgs:
     enable_prefix_caching: Optional[bool] = CacheConfig.enable_prefix_caching
     prefix_caching_hash_algo: PrefixCachingHashAlgo = \
         CacheConfig.prefix_caching_hash_algo
-    disable_sliding_window: bool = False
-    disable_cascade_attn: bool = False
+    disable_sliding_window: bool = ModelConfig.disable_sliding_window
+    disable_cascade_attn: bool = ModelConfig.disable_cascade_attn
     use_v2_block_manager: bool = True
     swap_space: float = CacheConfig.swap_space
     cpu_offload_gb: float = CacheConfig.cpu_offload_gb
@@ -258,18 +263,19 @@ class EngineArgs:
     long_prefill_token_threshold: int = \
         SchedulerConfig.long_prefill_token_threshold
     max_num_seqs: Optional[int] = SchedulerConfig.max_num_seqs
-    max_logprobs: int = 20  # Default value for OpenAI Chat Completions API
+    max_logprobs: int = ModelConfig.max_logprobs
     disable_log_stats: bool = False
-    revision: Optional[str] = None
-    code_revision: Optional[str] = None
-    rope_scaling: Optional[Dict[str, Any]] = None
-    rope_theta: Optional[float] = None
-    hf_token: Optional[Union[bool, str]] = None
-    hf_overrides: Optional[HfOverrides] = None
-    tokenizer_revision: Optional[str] = None
-    quantization: Optional[str] = None
-    enforce_eager: Optional[bool] = None
-    max_seq_len_to_capture: int = 8192
+    revision: Optional[str] = ModelConfig.revision
+    code_revision: Optional[str] = ModelConfig.code_revision
+    rope_scaling: dict[str, Any] = get_field(ModelConfig, "rope_scaling")
+    rope_theta: Optional[float] = ModelConfig.rope_theta
+    hf_token: Optional[Union[bool, str]] = ModelConfig.hf_token
+    hf_overrides: Optional[HfOverrides] = \
+        get_field(ModelConfig, "hf_overrides")
+    tokenizer_revision: Optional[str] = ModelConfig.tokenizer_revision
+    quantization: Optional[QuantizationMethods] = ModelConfig.quantization
+    enforce_eager: bool = ModelConfig.enforce_eager
+    max_seq_len_to_capture: int = ModelConfig.max_seq_len_to_capture
     disable_custom_all_reduce: bool = ParallelConfig.disable_custom_all_reduce
     # The following three fields are deprecated and will be removed in a future
     # release. Setting them will have no effect. Please remove them from your
@@ -280,8 +286,10 @@ class EngineArgs:
         get_field(TokenizerPoolConfig, "extra_config")
     limit_mm_per_prompt: dict[str, int] = \
         get_field(MultiModalConfig, "limit_per_prompt")
-    mm_processor_kwargs: Optional[Dict[str, Any]] = None
-    disable_mm_preprocessor_cache: bool = False
+    mm_processor_kwargs: Optional[Dict[str, Any]] = \
+        MultiModalConfig.mm_processor_kwargs
+    disable_mm_preprocessor_cache: bool = \
+        MultiModalConfig.disable_mm_preprocessor_cache
     # LoRA fields
     enable_lora: bool = False
     enable_lora_bias: bool = LoRAConfig.bias_enabled
@@ -323,7 +331,8 @@ class EngineArgs:
         DecodingConfig.disable_any_whitespace
     guided_decoding_disable_additional_properties: bool = \
         DecodingConfig.disable_additional_properties
-    logits_processor_pattern: Optional[str] = None
+    logits_processor_pattern: Optional[
+        str] = ModelConfig.logits_processor_pattern
 
     speculative_config: Optional[Dict[str, Any]] = None
 
@@ -331,22 +340,25 @@ class EngineArgs:
     show_hidden_metrics_for_version: Optional[str] = None
     otlp_traces_endpoint: Optional[str] = None
     collect_detailed_traces: Optional[str] = None
-    disable_async_output_proc: bool = False
+    disable_async_output_proc: bool = not ModelConfig.use_async_output_proc
     scheduling_policy: SchedulerPolicy = SchedulerConfig.policy
     scheduler_cls: Union[str, Type[object]] = SchedulerConfig.scheduler_cls
 
-    override_neuron_config: Optional[Dict[str, Any]] = None
-    override_pooler_config: Optional[PoolerConfig] = None
+    override_neuron_config: dict[str, Any] = \
+        get_field(ModelConfig, "override_neuron_config")
+    override_pooler_config: Optional[Union[dict, PoolerConfig]] = \
+        ModelConfig.override_pooler_config
     compilation_config: Optional[CompilationConfig] = None
     worker_cls: str = ParallelConfig.worker_cls
     worker_extension_cls: str = ParallelConfig.worker_extension_cls
 
     kv_transfer_config: Optional[KVTransferConfig] = None
 
-    generation_config: Optional[str] = "auto"
-    override_generation_config: Optional[Dict[str, Any]] = None
-    enable_sleep_mode: bool = False
-    model_impl: str = "auto"
+    generation_config: str = ModelConfig.generation_config
+    enable_sleep_mode: bool = ModelConfig.enable_sleep_mode
+    override_generation_config: dict[str, Any] = \
+        get_field(ModelConfig, "override_generation_config")
+    model_impl: str = ModelConfig.model_impl
 
     calculate_kv_scales: bool = CacheConfig.calculate_kv_scales
 
@@ -356,9 +368,6 @@ class EngineArgs:
     use_tqdm_on_load: bool = LoadConfig.use_tqdm_on_load
 
     def __post_init__(self):
-        if not self.tokenizer:
-            self.tokenizer = self.model
-
         # support `EngineArgs(compilation_config={...})`
         # without having to manually construct a
         # CompilationConfig object
@@ -375,80 +384,87 @@ class EngineArgs:
         """Shared CLI arguments for vLLM engine."""
 
         # Model arguments
-        parser.add_argument(
-            '--model',
-            type=str,
-            default=EngineArgs.model,
-            help='Name or path of the huggingface model to use.')
-        parser.add_argument(
-            '--task',
-            default=EngineArgs.task,
-            choices=get_args(TaskOption),
-            help='The task to use the model for. Each vLLM instance only '
-            'supports one task, even if the same model can be used for '
-            'multiple tasks. When the model only supports one task, ``"auto"`` '
-            'can be used to select it; otherwise, you must specify explicitly '
-            'which task to use.')
-        parser.add_argument(
-            '--tokenizer',
-            type=optional_type(str),
-            default=EngineArgs.tokenizer,
-            help='Name or path of the huggingface tokenizer to use. '
-            'If unspecified, model name or path will be used.')
-        parser.add_argument(
-            "--hf-config-path",
-            type=optional_type(str),
-            default=EngineArgs.hf_config_path,
-            help='Name or path of the huggingface config to use. '
-            'If unspecified, model name or path will be used.')
-        parser.add_argument(
-            '--skip-tokenizer-init',
-            action='store_true',
-            help='Skip initialization of tokenizer and detokenizer. '
-            'Expects valid prompt_token_ids and None for prompt from '
-            'the input. The generated output will contain token ids.')
-        parser.add_argument(
-            '--revision',
-            type=optional_type(str),
-            default=None,
-            help='The specific model version to use. It can be a branch '
-            'name, a tag name, or a commit id. If unspecified, will use '
-            'the default version.')
-        parser.add_argument(
-            '--code-revision',
-            type=optional_type(str),
-            default=None,
-            help='The specific revision to use for the model code on '
-            'Hugging Face Hub. It can be a branch name, a tag name, or a '
-            'commit id. If unspecified, will use the default version.')
-        parser.add_argument(
-            '--tokenizer-revision',
-            type=optional_type(str),
-            default=None,
-            help='Revision of the huggingface tokenizer to use. '
-            'It can be a branch name, a tag name, or a commit id. '
-            'If unspecified, will use the default version.')
-        parser.add_argument(
-            '--tokenizer-mode',
-            type=str,
-            default=EngineArgs.tokenizer_mode,
-            choices=['auto', 'slow', 'mistral', 'custom'],
-            help='The tokenizer mode.\n\n* "auto" will use the '
-            'fast tokenizer if available.\n* "slow" will '
-            'always use the slow tokenizer. \n* '
-            '"mistral" will always use the `mistral_common` tokenizer. \n* '
-            '"custom" will use --tokenizer to select the '
-            'preregistered tokenizer.')
-        parser.add_argument('--trust-remote-code',
-                            action='store_true',
-                            help='Trust remote code from huggingface.')
-        parser.add_argument(
-            '--allowed-local-media-path',
-            type=str,
-            help="Allowing API requests to read local images or videos "
-            "from directories specified by the server file system. "
-            "This is a security risk. "
-            "Should only be enabled in trusted environments.")
+        model_kwargs = get_kwargs(ModelConfig)
+        model_group = parser.add_argument_group(
+            title="ModelConfig",
+            description=ModelConfig.__doc__,
+        )
+        model_group.add_argument("--model", **model_kwargs["model"])
+        model_group.add_argument("--task", **model_kwargs["task"])
+        model_group.add_argument("--tokenizer", **model_kwargs["tokenizer"])
+        model_group.add_argument("--tokenizer-mode",
+                                 **model_kwargs["tokenizer_mode"])
+        model_group.add_argument("--trust-remote-code",
+                                 **model_kwargs["trust_remote_code"])
+        model_group.add_argument("--dtype", **model_kwargs["dtype"])
+        model_group.add_argument("--seed", **model_kwargs["seed"])
+        model_group.add_argument("--hf-config-path",
+                                 **model_kwargs["hf_config_path"])
+        model_group.add_argument("--allowed-local-media-path",
+                                 **model_kwargs["allowed_local_media_path"])
+        model_group.add_argument("--revision", **model_kwargs["revision"])
+        model_group.add_argument("--code-revision",
+                                 **model_kwargs["code_revision"])
+        model_group.add_argument("--rope-scaling",
+                                 **model_kwargs["rope_scaling"])
+        model_group.add_argument("--rope-theta", **model_kwargs["rope_theta"])
+        model_group.add_argument("--tokenizer-revision",
+                                 **model_kwargs["tokenizer_revision"])
+        model_group.add_argument("--max-model-len",
+                                 **model_kwargs["max_model_len"])
+        model_group.add_argument("--quantization", "-q",
+                                 **model_kwargs["quantization"])
+        model_group.add_argument("--enforce-eager",
+                                 **model_kwargs["enforce_eager"])
+        model_group.add_argument("--max-seq-len-to-capture",
+                                 **model_kwargs["max_seq_len_to_capture"])
+        model_group.add_argument("--max-logprobs",
+                                 **model_kwargs["max_logprobs"])
+        model_group.add_argument("--disable-sliding-window",
+                                 **model_kwargs["disable_sliding_window"])
+        model_group.add_argument("--disable-cascade-attn",
+                                 **model_kwargs["disable_cascade_attn"])
+        model_group.add_argument("--skip-tokenizer-init",
+                                 **model_kwargs["skip_tokenizer_init"])
+        model_group.add_argument("--served-model-name",
+                                 **model_kwargs["served_model_name"])
+        # This one is a special case because it is the
+        # opposite of ModelConfig.use_async_output_proc
+        model_group.add_argument(
+            "--disable-async-output-proc",
+            action="store_true",
+            default=EngineArgs.disable_async_output_proc,
+            help="Disable async output processing. This may result in "
+            "lower performance.")
+        model_group.add_argument("--config-format",
+                                 choices=[f.value for f in ConfigFormat],
+                                 **model_kwargs["config_format"])
+        # This one is a special case because it can bool
+        # or str. TODO: Handle this in get_kwargs
+        model_group.add_argument("--hf-token",
+                                 type=str,
+                                 nargs="?",
+                                 const=True,
+                                 default=model_kwargs["hf_token"]["default"],
+                                 help=model_kwargs["hf_token"]["help"])
+        model_group.add_argument("--hf-overrides",
+                                 **model_kwargs["hf_overrides"])
+        model_group.add_argument("--override-neuron-config",
+                                 **model_kwargs["override_neuron_config"])
+        model_group.add_argument("--override-pooler-config",
+                                 **model_kwargs["override_pooler_config"])
+        model_group.add_argument("--logits-processor-pattern",
+                                 **model_kwargs["logits_processor_pattern"])
+        model_group.add_argument("--generation-config",
+                                 **model_kwargs["generation_config"])
+        model_group.add_argument("--override-generation-config",
+                                 **model_kwargs["override_generation_config"])
+        model_group.add_argument("--enable-sleep-mode",
+                                 **model_kwargs["enable_sleep_mode"])
+        model_group.add_argument("--model-impl",
+                                 choices=[f.value for f in ModelImpl],
+                                 **model_kwargs["model_impl"])
+
         # Model loading arguments
         load_kwargs = get_kwargs(LoadConfig)
         load_group = parser.add_argument_group(
@@ -465,38 +481,6 @@ class EngineArgs:
         load_group.add_argument('--use-tqdm-on-load',
                                 **load_kwargs["use_tqdm_on_load"])
 
-        parser.add_argument(
-            '--config-format',
-            default=EngineArgs.config_format,
-            choices=[f.value for f in ConfigFormat],
-            help='The format of the model config to load.\n\n'
-            '* "auto" will try to load the config in hf format '
-            'if available else it will try to load in mistral format ')
-        parser.add_argument(
-            '--dtype',
-            type=str,
-            default=EngineArgs.dtype,
-            choices=[
-                'auto', 'half', 'float16', 'bfloat16', 'float', 'float32'
-            ],
-            help='Data type for model weights and activations.\n\n'
-            '* "auto" will use FP16 precision for FP32 and FP16 models, and '
-            'BF16 precision for BF16 models.\n'
-            '* "half" for FP16. Recommended for AWQ quantization.\n'
-            '* "float16" is the same as "half".\n'
-            '* "bfloat16" for a balance between precision and range.\n'
-            '* "float" is shorthand for FP32 precision.\n'
-            '* "float32" for FP32 precision.')
-        parser.add_argument('--max-model-len',
-                            type=human_readable_int,
-                            default=EngineArgs.max_model_len,
-                            help='Model context length. If unspecified, will '
-                            'be automatically derived from the model config. '
-                            'Supports k/m/g/K/M/G in human-readable format.\n'
-                            'Examples:\n'
-                            '- 1k → 1000\n'
-                            '- 1K → 1024\n')
-
         # Guided decoding arguments
         guided_decoding_kwargs = get_kwargs(DecodingConfig)
         guided_decoding_group = parser.add_argument_group(
@@ -520,26 +504,6 @@ class EngineArgs:
             choices=list(ReasoningParserManager.reasoning_parsers),
             **guided_decoding_kwargs["reasoning_backend"])
 
-        parser.add_argument(
-            '--logits-processor-pattern',
-            type=optional_type(str),
-            default=None,
-            help='Optional regex pattern specifying valid logits processor '
-            'qualified names that can be passed with the `logits_processors` '
-            'extra completion argument. Defaults to None, which allows no '
-            'processors.')
-        parser.add_argument(
-            '--model-impl',
-            type=str,
-            default=EngineArgs.model_impl,
-            choices=[f.value for f in ModelImpl],
-            help='Which implementation of the model to use.\n\n'
-            '* "auto" will try to use the vLLM implementation if it exists '
-            'and fall back to the Transformers implementation if no vLLM '
-            'implementation is available.\n'
-            '* "vllm" will use the vLLM model implementation.\n'
-            '* "transformers" will use the Transformers model '
-            'implementation.\n')
         # Parallel arguments
         parallel_kwargs = get_kwargs(ParallelConfig)
         parallel_group = parser.add_argument_group(
@@ -592,10 +556,6 @@ class EngineArgs:
         cache_group.add_argument('--calculate-kv-scales',
                                  **cache_kwargs["calculate_kv_scales"])
 
-        parser.add_argument('--disable-sliding-window',
-                            action='store_true',
-                            help='Disables sliding window, '
-                            'capping to sliding window size.')
         parser.add_argument('--use-v2-block-manager',
                             action='store_true',
                             default=True,
@@ -605,73 +565,9 @@ class EngineArgs:
                             'Setting this flag to True or False'
                             ' has no effect on vLLM behavior.')
 
-        parser.add_argument('--seed',
-                            type=int,
-                            default=EngineArgs.seed,
-                            help='Random seed for operations.')
-        parser.add_argument(
-            '--max-logprobs',
-            type=int,
-            default=EngineArgs.max_logprobs,
-            help=('Max number of log probs to return logprobs is specified in'
-                  ' SamplingParams.'))
         parser.add_argument('--disable-log-stats',
                             action='store_true',
                             help='Disable logging statistics.')
-        # Quantization settings.
-        parser.add_argument('--quantization',
-                            '-q',
-                            type=optional_type(str),
-                            choices=[*QUANTIZATION_METHODS, None],
-                            default=EngineArgs.quantization,
-                            help='Method used to quantize the weights. If '
-                            'None, we first check the `quantization_config` '
-                            'attribute in the model config file. If that is '
-                            'None, we assume the model weights are not '
-                            'quantized and use `dtype` to determine the data '
-                            'type of the weights.')
-        parser.add_argument(
-            '--rope-scaling',
-            default=None,
-            type=json.loads,
-            help='RoPE scaling configuration in JSON format. '
-            'For example, ``{"rope_type":"dynamic","factor":2.0}``')
-        parser.add_argument('--rope-theta',
-                            default=None,
-                            type=float,
-                            help='RoPE theta. Use with `rope_scaling`. In '
-                            'some cases, changing the RoPE theta improves the '
-                            'performance of the scaled model.')
-        parser.add_argument(
-            '--hf-token',
-            type=str,
-            nargs='?',
-            const=True,
-            default=None,
-            help='The token to use as HTTP bearer authorization'
-            ' for remote files. If `True`, will use the token '
-            'generated when running `huggingface-cli login` '
-            '(stored in `~/.huggingface`).')
-        parser.add_argument('--hf-overrides',
-                            type=json.loads,
-                            default=EngineArgs.hf_overrides,
-                            help='Extra arguments for the HuggingFace config. '
-                            'This should be a JSON string that will be '
-                            'parsed into a dictionary.')
-        parser.add_argument('--enforce-eager',
-                            action='store_true',
-                            help='Always use eager-mode PyTorch. If False, '
-                            'will use eager mode and CUDA graph in hybrid '
-                            'for maximal performance and flexibility.')
-        parser.add_argument('--max-seq-len-to-capture',
-                            type=int,
-                            default=EngineArgs.max_seq_len_to_capture,
-                            help='Maximum sequence length covered by CUDA '
-                            'graphs. When a sequence has context length '
-                            'larger than this, we fall back to eager mode. '
-                            'Additionally for encoder-decoder models, if the '
-                            'sequence length of the encoder input is larger '
-                            'than this, we fall back to the eager mode.')
 
         # Tokenizer arguments
         tokenizer_kwargs = get_kwargs(TokenizerPoolConfig)
@@ -775,20 +671,6 @@ class EngineArgs:
             "Default to `original/**/*` to avoid repeated loading of llama's "
             "checkpoints.")
 
-        parser.add_argument(
-            "--served-model-name",
-            nargs="+",
-            type=str,
-            default=None,
-            help="The model name(s) used in the API. If multiple "
-            "names are provided, the server will respond to any "
-            "of the provided names. The model name in the model "
-            "field of a response will be the first name in this "
-            "list. If not specified, the model name will be the "
-            "same as the ``--model`` argument. Noted that this name(s) "
-            "will also be used in `model_name` tag content of "
-            "prometheus metrics, if multiple names provided, metrics "
-            "tag will take the first one.")
         parser.add_argument('--qlora-adapter-name-or-path',
                             type=str,
                             default=None,
@@ -822,13 +704,6 @@ class EngineArgs:
             "modules. This involves use of possibly costly and or blocking "
             "operations and hence might have a performance impact.")
 
-        parser.add_argument(
-            '--disable-async-output-proc',
-            action='store_true',
-            default=EngineArgs.disable_async_output_proc,
-            help="Disable async output processing. This may result in "
-            "lower performance.")
-
         # Scheduler arguments
         scheduler_kwargs = get_kwargs(SchedulerConfig)
         scheduler_group = parser.add_argument_group(
@@ -871,19 +746,6 @@ class EngineArgs:
         parser.add_argument('--scheduler-cls',
                             **scheduler_kwargs["scheduler_cls"])
 
-        parser.add_argument(
-            '--override-neuron-config',
-            type=json.loads,
-            default=None,
-            help="Override or set neuron device configuration. "
-            "e.g. ``{\"cast_logits_dtype\": \"bloat16\"}``.")
-        parser.add_argument(
-            '--override-pooler-config',
-            type=PoolerConfig.from_json,
-            default=None,
-            help="Override or set the pooling method for pooling models. "
-            "e.g. ``{\"pooling_type\": \"mean\", \"normalize\": false}``.")
-
         parser.add_argument('--compilation-config',
                             '-O',
                             type=CompilationConfig.from_cli,
@@ -920,34 +782,6 @@ class EngineArgs:
             help='The worker extension class on top of the worker cls, '
             'it is useful if you just want to add new functions to the worker '
             'class without changing the existing functions.')
-        parser.add_argument(
-            "--generation-config",
-            type=optional_type(str),
-            default="auto",
-            help="The folder path to the generation config. "
-            "Defaults to 'auto', the generation config will be loaded from "
-            "model path. If set to 'vllm', no generation config is loaded, "
-            "vLLM defaults will be used. If set to a folder path, the "
-            "generation config will be loaded from the specified folder path. "
-            "If `max_new_tokens` is specified in generation config, then "
-            "it sets a server-wide limit on the number of output tokens "
-            "for all requests.")
-
-        parser.add_argument(
-            "--override-generation-config",
-            type=json.loads,
-            default=None,
-            help="Overrides or sets generation config in JSON format. "
-            "e.g. ``{\"temperature\": 0.5}``. If used with "
-            "--generation-config=auto, the override parameters will be merged "
-            "with the default config from the model. If generation-config is "
-            "None, only the override parameters are used.")
-
-        parser.add_argument("--enable-sleep-mode",
-                            action="store_true",
-                            default=False,
-                            help="Enable sleep mode for the engine. "
-                            "(only cuda platform is supported)")
 
         parser.add_argument(
             "--additional-config",
@@ -966,16 +800,6 @@ class EngineArgs:
             "If enabled, the model will be able to generate reasoning content."
         )
 
-        parser.add_argument(
-            "--disable-cascade-attn",
-            action="store_true",
-            default=False,
-            help="Disable cascade attention for V1. While cascade attention "
-            "does not change the mathematical correctness, disabling it "
-            "could be useful for preventing potential numerical issues. "
-            "Note that even if this is set to False, cascade attention will be "
-            "only used when the heuristic tells that it's beneficial.")
-
         return parser
 
     @classmethod
@@ -1002,8 +826,7 @@ class EngineArgs:
             model=self.model,
             hf_config_path=self.hf_config_path,
             task=self.task,
-            # We know this is not None because we set it in __post_init__
-            tokenizer=cast(str, self.tokenizer),
+            tokenizer=self.tokenizer,
             tokenizer_mode=self.tokenizer_mode,
             trust_remote_code=self.trust_remote_code,
             allowed_local_media_path=self.allowed_local_media_path,
diff --git a/vllm/entrypoints/llm.py b/vllm/entrypoints/llm.py
index f1f48c700..79f1d80f4 100644
--- a/vllm/entrypoints/llm.py
+++ b/vllm/entrypoints/llm.py
@@ -13,7 +13,7 @@ from typing_extensions import TypeVar, deprecated
 
 from vllm.beam_search import (BeamSearchInstance, BeamSearchOutput,
                               BeamSearchSequence, get_beam_search_score)
-from vllm.config import CompilationConfig
+from vllm.config import CompilationConfig, ModelDType, TokenizerMode
 from vllm.engine.arg_utils import (EngineArgs, HfOverrides, PoolerConfig,
                                    TaskOption)
 from vllm.engine.llm_engine import LLMEngine
@@ -32,6 +32,7 @@ from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
 from vllm.model_executor.guided_decoding.guided_fields import (
     GuidedDecodingRequest, LLMGuidedOptions)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.outputs import (ClassificationRequestOutput, EmbeddingRequestOutput,
                           PoolingRequestOutput, RequestOutput,
                           ScoringRequestOutput)
@@ -163,20 +164,20 @@ class LLM:
         self,
         model: str,
         tokenizer: Optional[str] = None,
-        tokenizer_mode: str = "auto",
+        tokenizer_mode: TokenizerMode = "auto",
         skip_tokenizer_init: bool = False,
         trust_remote_code: bool = False,
         allowed_local_media_path: str = "",
         tensor_parallel_size: int = 1,
-        dtype: str = "auto",
-        quantization: Optional[str] = None,
+        dtype: ModelDType = "auto",
+        quantization: Optional[QuantizationMethods] = None,
         revision: Optional[str] = None,
         tokenizer_revision: Optional[str] = None,
         seed: Optional[int] = None,
         gpu_memory_utilization: float = 0.9,
         swap_space: float = 4,
         cpu_offload_gb: float = 0,
-        enforce_eager: Optional[bool] = None,
+        enforce_eager: bool = False,
         max_seq_len_to_capture: int = 8192,
         disable_custom_all_reduce: bool = False,
         disable_async_output_proc: bool = False,
@@ -189,12 +190,7 @@ class LLM:
         compilation_config: Optional[Union[int, dict[str, Any]]] = None,
         **kwargs,
     ) -> None:
-        '''
-        LLM constructor.
-
-        Note: if enforce_eager is unset (enforce_eager is None)
-        it defaults to False.
-        '''
+        """LLM constructor."""
 
         if "disable_log_stats" not in kwargs:
             kwargs["disable_log_stats"] = True
diff --git a/vllm/model_executor/layers/quantization/aqlm.py b/vllm/model_executor/layers/quantization/aqlm.py
index 10f5241f9..0b74e8faf 100644
--- a/vllm/model_executor/layers/quantization/aqlm.py
+++ b/vllm/model_executor/layers/quantization/aqlm.py
@@ -12,6 +12,7 @@ from torch.nn.parameter import Parameter
 
 from vllm import _custom_ops as ops
 from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig)
 from vllm.model_executor.utils import set_weight_attrs
@@ -186,7 +187,7 @@ class AQLMConfig(QuantizationConfig):
                 f"out_group_size={self.out_group_size})")
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "aqlm"
 
     @classmethod
diff --git a/vllm/model_executor/layers/quantization/awq.py b/vllm/model_executor/layers/quantization/awq.py
index 227be1497..cfc31ae20 100644
--- a/vllm/model_executor/layers/quantization/awq.py
+++ b/vllm/model_executor/layers/quantization/awq.py
@@ -7,6 +7,7 @@ import torch
 from vllm import _custom_ops as ops
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                                UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig)
 from vllm.model_executor.parameter import (GroupQuantScaleParameter,
@@ -44,7 +45,7 @@ class AWQConfig(QuantizationConfig):
                 f"zero_point={self.zero_point}, "
                 f"modules_to_not_convert={self.modules_to_not_convert})")
 
-    def get_name(self) -> str:
+    def get_name(self) -> QuantizationMethods:
         return "awq"
 
     def get_supported_act_dtypes(self) -> List[torch.dtype]:
diff --git a/vllm/model_executor/layers/quantization/awq_marlin.py b/vllm/model_executor/layers/quantization/awq_marlin.py
index ef4a7765d..193e90b85 100644
--- a/vllm/model_executor/layers/quantization/awq_marlin.py
+++ b/vllm/model_executor/layers/quantization/awq_marlin.py
@@ -13,6 +13,7 @@ from vllm.model_executor.layers.fused_moe.layer import (
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                                UnquantizedLinearMethod,
                                                set_weight_attrs)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.awq import (AWQConfig,
                                                          is_layer_skipped_awq)
 from vllm.model_executor.layers.quantization.base_config import (
@@ -73,7 +74,7 @@ class AWQMarlinConfig(QuantizationConfig):
                 f"modules_to_not_convert={self.modules_to_not_convert})")
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "awq_marlin"
 
     @classmethod
@@ -101,8 +102,8 @@ class AWQMarlinConfig(QuantizationConfig):
                    modules_to_not_convert, config)
 
     @classmethod
-    def override_quantization_method(cls, hf_quant_cfg,
-                                     user_quant) -> Optional[str]:
+    def override_quantization_method(
+            cls, hf_quant_cfg, user_quant) -> Optional[QuantizationMethods]:
         can_convert = cls.is_awq_marlin_compatible(hf_quant_cfg)
         is_valid_user_quant = (user_quant is None or user_quant == "marlin"
                                or user_quant == "awq_marlin")
diff --git a/vllm/model_executor/layers/quantization/base_config.py b/vllm/model_executor/layers/quantization/base_config.py
index 5ef11546f..8cf058b40 100644
--- a/vllm/model_executor/layers/quantization/base_config.py
+++ b/vllm/model_executor/layers/quantization/base_config.py
@@ -2,11 +2,16 @@
 
 import inspect
 from abc import ABC, abstractmethod
-from typing import Any, Dict, List, Optional, Type
+from typing import TYPE_CHECKING, Any, Dict, List, Optional, Type
 
 import torch
 from torch import nn
 
+if TYPE_CHECKING:
+    from vllm.model_executor.layers.quantization import QuantizationMethods
+else:
+    QuantizationMethods = str
+
 
 class QuantizeMethodBase(ABC):
     """Base class for different quantized methods."""
@@ -66,7 +71,7 @@ class QuantizationConfig(ABC):
         self.packed_modules_mapping: Dict[str, List[str]] = dict()
 
     @abstractmethod
-    def get_name(self) -> str:
+    def get_name(self) -> QuantizationMethods:
         """Name of the quantization method."""
         raise NotImplementedError
 
@@ -99,8 +104,8 @@ class QuantizationConfig(ABC):
         raise NotImplementedError
 
     @classmethod
-    def override_quantization_method(cls, hf_quant_cfg,
-                                     user_quant) -> Optional[str]:
+    def override_quantization_method(
+            cls, hf_quant_cfg, user_quant) -> Optional[QuantizationMethods]:
         """
            Detects if this quantization method can support a given checkpoint
            format by overriding the user specified quantization method -- 
diff --git a/vllm/model_executor/layers/quantization/bitblas.py b/vllm/model_executor/layers/quantization/bitblas.py
index 3eaaa6c25..ab858d720 100644
--- a/vllm/model_executor/layers/quantization/bitblas.py
+++ b/vllm/model_executor/layers/quantization/bitblas.py
@@ -5,6 +5,7 @@ import torch
 
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig)
 from vllm.model_executor.layers.quantization.utils.bitblas_utils import (
@@ -100,7 +101,7 @@ class BitBLASConfig(QuantizationConfig):
                 f"quant_method={self.quant_method})")
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "bitblas"
 
     @classmethod
@@ -139,8 +140,8 @@ class BitBLASConfig(QuantizationConfig):
                    lm_head_quantized)
 
     @classmethod
-    def override_quantization_method(cls, hf_quant_cfg,
-                                     user_quant) -> Optional[str]:
+    def override_quantization_method(
+            cls, hf_quant_cfg, user_quant) -> Optional[QuantizationMethods]:
         # compat: autogptq >=0.8.0 use checkpoint_format: str
         # compat: autogptq <=0.7.1 is_bitblas_format: bool
         is_bitblas_format = (hf_quant_cfg.get("checkpoint_format") == "bitblas"
diff --git a/vllm/model_executor/layers/quantization/bitsandbytes.py b/vllm/model_executor/layers/quantization/bitsandbytes.py
index f5d32efe8..a472779d9 100644
--- a/vllm/model_executor/layers/quantization/bitsandbytes.py
+++ b/vllm/model_executor/layers/quantization/bitsandbytes.py
@@ -7,6 +7,7 @@ import torch
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                                UnquantizedLinearMethod,
                                                set_weight_attrs)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig)
 from vllm.utils import direct_register_custom_op
@@ -56,7 +57,7 @@ class BitsAndBytesConfig(QuantizationConfig):
                 f"llm_int8_skip_modules={self.llm_int8_skip_modules})")
 
     @classmethod
-    def get_name(self) -> str:
+    def get_name(self) -> QuantizationMethods:
         return "bitsandbytes"
 
     @classmethod
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
index 5be6b22c7..0585c09bd 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
@@ -16,6 +16,7 @@ from vllm.logger import init_logger
 from vllm.model_executor.layers.fused_moe import FusedMoE
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                                UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (  # noqa: E501
     QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.compressed_tensors.compressed_tensors_moe import (  # noqa: E501
@@ -71,7 +72,7 @@ class CompressedTensorsConfig(QuantizationConfig):
     def get_min_capability(cls) -> int:
         return 70
 
-    def get_name(self) -> str:
+    def get_name(self) -> QuantizationMethods:
         return "compressed-tensors"
 
     def get_quant_method(
diff --git a/vllm/model_executor/layers/quantization/deepspeedfp.py b/vllm/model_executor/layers/quantization/deepspeedfp.py
index 67934d372..df7ec3376 100644
--- a/vllm/model_executor/layers/quantization/deepspeedfp.py
+++ b/vllm/model_executor/layers/quantization/deepspeedfp.py
@@ -7,6 +7,7 @@ import torch.nn as nn
 import torch.nn.functional as F
 
 from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig)
 from vllm.model_executor.utils import set_weight_attrs
@@ -41,8 +42,8 @@ class DeepSpeedFPConfig(QuantizationConfig):
                 f"group_size={self.group_size}")
 
     @classmethod
-    def get_name(cls) -> str:
-        return "DeepSpeedFP"
+    def get_name(cls) -> QuantizationMethods:
+        return "deepspeedfp"
 
     @classmethod
     def from_config(cls, config: Dict[str, Any]) -> "DeepSpeedFPConfig":
diff --git a/vllm/model_executor/layers/quantization/experts_int8.py b/vllm/model_executor/layers/quantization/experts_int8.py
index be19b8097..cce95941b 100644
--- a/vllm/model_executor/layers/quantization/experts_int8.py
+++ b/vllm/model_executor/layers/quantization/experts_int8.py
@@ -8,6 +8,7 @@ from vllm.distributed import get_tensor_model_parallel_rank, get_tp_group
 from vllm.model_executor.layers.fused_moe import FusedMoE, FusedMoEMethodBase
 from vllm.model_executor.layers.linear import (LinearBase,
                                                UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.utils import set_weight_attrs
@@ -20,7 +21,7 @@ class ExpertsInt8Config(QuantizationConfig):
         super().__init__()
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "experts_int8"
 
     @classmethod
diff --git a/vllm/model_executor/layers/quantization/fbgemm_fp8.py b/vllm/model_executor/layers/quantization/fbgemm_fp8.py
index 7dddc40f3..1fa2b3a8e 100644
--- a/vllm/model_executor/layers/quantization/fbgemm_fp8.py
+++ b/vllm/model_executor/layers/quantization/fbgemm_fp8.py
@@ -9,6 +9,7 @@ from torch.nn.parameter import Parameter
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                                UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.utils.marlin_utils_fp8 import (
@@ -38,7 +39,7 @@ class FBGEMMFp8Config(QuantizationConfig):
         self.fp8_linear = Fp8LinearOp()
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "fbgemm_fp8"
 
     @classmethod
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index 01056c37b..5515ba27e 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -16,6 +16,7 @@ from vllm.model_executor.layers.fused_moe import (FusedMoE, FusedMoEMethodBase,
                                                   FusedMoeWeightScaleSupported)
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                                UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.kv_cache import BaseKVCacheMethod
@@ -83,7 +84,7 @@ class Fp8Config(QuantizationConfig):
         self.weight_block_size = weight_block_size
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "fp8"
 
     @classmethod
diff --git a/vllm/model_executor/layers/quantization/gguf.py b/vllm/model_executor/layers/quantization/gguf.py
index 6b499f81c..05058dfaa 100644
--- a/vllm/model_executor/layers/quantization/gguf.py
+++ b/vllm/model_executor/layers/quantization/gguf.py
@@ -13,6 +13,7 @@ from vllm.model_executor.layers.activation import SiluAndMul
 from vllm.model_executor.layers.fused_moe.layer import (FusedMoE,
                                                         FusedMoEMethodBase)
 from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.layers.vocab_parallel_embedding import (
@@ -31,7 +32,7 @@ class GGUFConfig(QuantizationConfig):
     def __repr__(self) -> str:
         return ("GGUFConfig()")
 
-    def get_name(self) -> str:
+    def get_name(self) -> QuantizationMethods:
         return "gguf"
 
     def get_supported_act_dtypes(self) -> List[torch.dtype]:
diff --git a/vllm/model_executor/layers/quantization/gptq.py b/vllm/model_executor/layers/quantization/gptq.py
index 1c8d6cb1e..5059e0cdf 100644
--- a/vllm/model_executor/layers/quantization/gptq.py
+++ b/vllm/model_executor/layers/quantization/gptq.py
@@ -10,6 +10,7 @@ from torch.nn.parameter import Parameter
 
 from vllm import _custom_ops as ops
 from vllm.model_executor.layers.linear import LinearMethodBase
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig)
 from vllm.model_executor.layers.quantization.utils.gptq_utils import (
@@ -79,7 +80,7 @@ class GPTQConfig(QuantizationConfig):
                 f"dynamic={self.dynamic}")
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "gptq"
 
     @classmethod
diff --git a/vllm/model_executor/layers/quantization/gptq_bitblas.py b/vllm/model_executor/layers/quantization/gptq_bitblas.py
index 88cada4c6..891d8cdf3 100644
--- a/vllm/model_executor/layers/quantization/gptq_bitblas.py
+++ b/vllm/model_executor/layers/quantization/gptq_bitblas.py
@@ -7,6 +7,7 @@ from torch.nn.parameter import Parameter
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                                set_weight_attrs)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig)
 from vllm.model_executor.layers.quantization.kernels.mixed_precision import (
@@ -123,7 +124,7 @@ class GPTQBitBLASConfig(QuantizationConfig):
                 f"quant_method={self.quant_method})")
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "gptq_bitblas"
 
     @classmethod
@@ -151,8 +152,8 @@ class GPTQBitBLASConfig(QuantizationConfig):
                    lm_head_quantized)
 
     @classmethod
-    def override_quantization_method(cls, hf_quant_cfg,
-                                     user_quant) -> Optional[str]:
+    def override_quantization_method(
+            cls, hf_quant_cfg, user_quant) -> Optional[QuantizationMethods]:
         can_convert = cls.is_gptq_bitblas_compatible(hf_quant_cfg)
 
         is_valid_user_quant = (user_quant is None or user_quant == "bitblas"
diff --git a/vllm/model_executor/layers/quantization/gptq_marlin.py b/vllm/model_executor/layers/quantization/gptq_marlin.py
index 52cd0a5b6..c7f9d95f4 100644
--- a/vllm/model_executor/layers/quantization/gptq_marlin.py
+++ b/vllm/model_executor/layers/quantization/gptq_marlin.py
@@ -11,6 +11,7 @@ from vllm.model_executor.layers.fused_moe.layer import (
     FusedMoE, FusedMoEMethodBase, FusedMoeWeightScaleSupported)
 from vllm.model_executor.layers.linear import (LinearMethodBase,
                                                set_weight_attrs)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.kernels.mixed_precision import (
@@ -100,7 +101,7 @@ class GPTQMarlinConfig(QuantizationConfig):
                 f"dynamic={self.dynamic}")
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "gptq_marlin"
 
     @classmethod
@@ -130,8 +131,8 @@ class GPTQMarlinConfig(QuantizationConfig):
                    lm_head_quantized, dynamic, config)
 
     @classmethod
-    def override_quantization_method(cls, hf_quant_cfg,
-                                     user_quant) -> Optional[str]:
+    def override_quantization_method(
+            cls, hf_quant_cfg, user_quant) -> Optional[QuantizationMethods]:
         can_convert = cls.is_gptq_marlin_compatible(hf_quant_cfg)
 
         is_valid_user_quant = (user_quant is None or user_quant == "marlin"
diff --git a/vllm/model_executor/layers/quantization/gptq_marlin_24.py b/vllm/model_executor/layers/quantization/gptq_marlin_24.py
index dd747e182..1fe08e4b3 100644
--- a/vllm/model_executor/layers/quantization/gptq_marlin_24.py
+++ b/vllm/model_executor/layers/quantization/gptq_marlin_24.py
@@ -8,6 +8,7 @@ from torch.nn.parameter import Parameter
 from vllm import _custom_ops as ops
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig)
 from vllm.model_executor.parameter import (BasevLLMParameter,
@@ -85,7 +86,7 @@ class GPTQMarlin24Config(QuantizationConfig):
             self.quant_type, self.group_size)
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "gptq_marlin_24"
 
     @classmethod
@@ -108,8 +109,8 @@ class GPTQMarlin24Config(QuantizationConfig):
         return cls(weight_bits, group_size)
 
     @classmethod
-    def override_quantization_method(cls, hf_quant_cfg,
-                                     user_quant) -> Optional[str]:
+    def override_quantization_method(
+            cls, hf_quant_cfg, user_quant) -> Optional[QuantizationMethods]:
         is_marlin_24_format = (
             hf_quant_cfg.get("checkpoint_format") == "marlin_24")
 
diff --git a/vllm/model_executor/layers/quantization/hqq_marlin.py b/vllm/model_executor/layers/quantization/hqq_marlin.py
index 4edc9aa84..7bd398137 100644
--- a/vllm/model_executor/layers/quantization/hqq_marlin.py
+++ b/vllm/model_executor/layers/quantization/hqq_marlin.py
@@ -8,6 +8,7 @@ from vllm import _custom_ops as ops
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                                UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.utils.marlin_utils import (
@@ -50,7 +51,7 @@ class HQQMarlinConfig(QuantizationConfig):
                 f"group_size={self.group_size})")
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "hqq"
 
     @classmethod
diff --git a/vllm/model_executor/layers/quantization/ipex_quant.py b/vllm/model_executor/layers/quantization/ipex_quant.py
index c09cc13cb..212af278f 100644
--- a/vllm/model_executor/layers/quantization/ipex_quant.py
+++ b/vllm/model_executor/layers/quantization/ipex_quant.py
@@ -6,6 +6,7 @@ import torch
 
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                                UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.awq import (AWQLinearMethod,
                                                          is_layer_skipped_awq)
 from vllm.model_executor.layers.quantization.base_config import (
@@ -58,7 +59,7 @@ class IPEXConfig(QuantizationConfig):
                 f"group_size={self.group_size})")
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "ipex"
 
     @classmethod
@@ -97,8 +98,8 @@ class IPEXConfig(QuantizationConfig):
                    lm_head_quantized)
 
     @classmethod
-    def override_quantization_method(cls, hf_quant_cfg,
-                                     user_quant) -> Optional[str]:
+    def override_quantization_method(
+            cls, hf_quant_cfg, user_quant) -> Optional[QuantizationMethods]:
         if not current_platform.is_cpu() and not current_platform.is_xpu():
             return None
 
diff --git a/vllm/model_executor/layers/quantization/marlin.py b/vllm/model_executor/layers/quantization/marlin.py
index 4cf0c677c..9ef71a789 100644
--- a/vllm/model_executor/layers/quantization/marlin.py
+++ b/vllm/model_executor/layers/quantization/marlin.py
@@ -8,6 +8,7 @@ from torch.nn.parameter import Parameter
 from vllm import _custom_ops as ops
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig)
 from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
@@ -63,7 +64,7 @@ class MarlinConfig(QuantizationConfig):
                 f"lm_head_quantized={self.lm_head_quantized})")
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "marlin"
 
     @classmethod
@@ -87,8 +88,8 @@ class MarlinConfig(QuantizationConfig):
         return cls(group_size, lm_head_quantized)
 
     @classmethod
-    def override_quantization_method(cls, hf_quant_cfg,
-                                     user_quant) -> Optional[str]:
+    def override_quantization_method(
+            cls, hf_quant_cfg, user_quant) -> Optional[QuantizationMethods]:
         # compat: autogptq >=0.8.0 use checkpoint_format: str
         # compat: autogptq <=0.7.1 is_marlin_format: bool
         is_marlin_format = (hf_quant_cfg.get("checkpoint_format") == "marlin"
diff --git a/vllm/model_executor/layers/quantization/modelopt.py b/vllm/model_executor/layers/quantization/modelopt.py
index 3de153699..828447dd1 100644
--- a/vllm/model_executor/layers/quantization/modelopt.py
+++ b/vllm/model_executor/layers/quantization/modelopt.py
@@ -11,6 +11,7 @@ from vllm._custom_ops import (cutlass_scaled_fp4_mm,
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                                UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.kv_cache import BaseKVCacheMethod
@@ -42,7 +43,7 @@ class ModelOptFp8Config(QuantizationConfig):
                            " the format is experimental and could change.")
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "modelopt"
 
     @classmethod
@@ -184,8 +185,8 @@ class ModelOptNvFp4Config(QuantizationConfig):
             self.exclude_modules = exclude_modules
 
     @classmethod
-    def get_name(cls) -> str:
-        return "modelopt_nvfp4"
+    def get_name(cls) -> QuantizationMethods:
+        return "nvfp4"
 
     @classmethod
     def get_supported_act_dtypes(cls) -> List[torch.dtype]:
diff --git a/vllm/model_executor/layers/quantization/moe_wna16.py b/vllm/model_executor/layers/quantization/moe_wna16.py
index 00c4b661e..b8e3a4364 100644
--- a/vllm/model_executor/layers/quantization/moe_wna16.py
+++ b/vllm/model_executor/layers/quantization/moe_wna16.py
@@ -9,6 +9,7 @@ from vllm.model_executor.layers.fused_moe.layer import (
     FusedMoE, FusedMoEMethodBase, FusedMoeWeightScaleSupported)
 from vllm.model_executor.layers.linear import (LinearBase,
                                                UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.utils.marlin_utils import (
@@ -64,7 +65,7 @@ class MoeWNA16Config(QuantizationConfig):
             self.modules_to_not_convert = modules_to_not_convert
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "moe_wna16"
 
     @classmethod
@@ -100,8 +101,8 @@ class MoeWNA16Config(QuantizationConfig):
                    lm_head_quantized, modules_to_not_convert, config)
 
     @classmethod
-    def override_quantization_method(cls, hf_quant_cfg,
-                                     user_quant) -> Optional[str]:
+    def override_quantization_method(
+            cls, hf_quant_cfg, user_quant) -> Optional[QuantizationMethods]:
         can_convert = cls.is_moe_wna16_compatible(hf_quant_cfg)
         if can_convert and user_quant == "moe_wna16":
             return cls.get_name()
diff --git a/vllm/model_executor/layers/quantization/neuron_quant.py b/vllm/model_executor/layers/quantization/neuron_quant.py
index f6f66803f..7933eab2a 100644
--- a/vllm/model_executor/layers/quantization/neuron_quant.py
+++ b/vllm/model_executor/layers/quantization/neuron_quant.py
@@ -6,6 +6,7 @@ from typing import Any, Dict, List, Optional
 
 from torch.nn import Module
 
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig)
 
@@ -30,7 +31,7 @@ class NeuronQuantConfig(QuantizationConfig):
         self.dequant_dtype = dequant_dtype
         self.quantize_method = quantize_method
 
-    def get_name(self) -> str:
+    def get_name(self) -> QuantizationMethods:
         return "neuron_quant"
 
     def get_supported_act_dtypes(self) -> List[str]:
diff --git a/vllm/model_executor/layers/quantization/ptpc_fp8.py b/vllm/model_executor/layers/quantization/ptpc_fp8.py
index 592ffc5da..004d74e68 100644
--- a/vllm/model_executor/layers/quantization/ptpc_fp8.py
+++ b/vllm/model_executor/layers/quantization/ptpc_fp8.py
@@ -9,6 +9,7 @@ from vllm import _custom_ops as ops
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import (LinearBase,
                                                UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.fp8 import (Fp8Config,
@@ -50,7 +51,7 @@ class PTPCFp8Config(Fp8Config):
                          ignored_layers=ignored_layers)
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "ptpc_fp8"
 
     @classmethod
diff --git a/vllm/model_executor/layers/quantization/qqq.py b/vllm/model_executor/layers/quantization/qqq.py
index 1e05917a5..06ff6c71b 100644
--- a/vllm/model_executor/layers/quantization/qqq.py
+++ b/vllm/model_executor/layers/quantization/qqq.py
@@ -8,6 +8,7 @@ from torch.nn.parameter import Parameter
 from vllm import _custom_ops as ops
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig)
 from vllm.model_executor.parameter import (BasevLLMParameter,
@@ -84,7 +85,7 @@ class QQQConfig(QuantizationConfig):
             self.weight_bits, self.group_size)
 
     @classmethod
-    def get_name(cls) -> str:
+    def get_name(cls) -> QuantizationMethods:
         return "qqq"
 
     @classmethod
diff --git a/vllm/model_executor/layers/quantization/quark/quark.py b/vllm/model_executor/layers/quantization/quark/quark.py
index cf9108ea7..da2312190 100644
--- a/vllm/model_executor/layers/quantization/quark/quark.py
+++ b/vllm/model_executor/layers/quantization/quark/quark.py
@@ -8,6 +8,7 @@ import torch
 from vllm.model_executor.layers.fused_moe import FusedMoE
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                                UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (  # noqa: E501
     QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.kv_cache import BaseKVCacheMethod
@@ -47,7 +48,7 @@ class QuarkConfig(QuantizationConfig):
     def get_min_capability(cls) -> int:
         return 70
 
-    def get_name(self) -> str:
+    def get_name(self) -> QuantizationMethods:
         return "quark"
 
     def get_quant_method(self, layer: torch.nn.Module,
diff --git a/vllm/model_executor/layers/quantization/torchao.py b/vllm/model_executor/layers/quantization/torchao.py
index 5c2babcf4..751002fa0 100644
--- a/vllm/model_executor/layers/quantization/torchao.py
+++ b/vllm/model_executor/layers/quantization/torchao.py
@@ -6,6 +6,7 @@ import torch.nn.functional as F
 from torch.nn.parameter import Parameter
 
 from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig)
 from vllm.model_executor.utils import set_weight_attrs
@@ -20,7 +21,7 @@ class TorchAOConfig(QuantizationConfig):
     def __repr__(self) -> str:
         return f"TorchAOConfig({self.torchao_config})"
 
-    def get_name(self) -> str:
+    def get_name(self) -> QuantizationMethods:
         return "torchao"
 
     def get_supported_act_dtypes(self) -> List[torch.dtype]:
diff --git a/vllm/model_executor/layers/quantization/tpu_int8.py b/vllm/model_executor/layers/quantization/tpu_int8.py
index 14e5bcf6e..8333c16ce 100644
--- a/vllm/model_executor/layers/quantization/tpu_int8.py
+++ b/vllm/model_executor/layers/quantization/tpu_int8.py
@@ -7,6 +7,7 @@ from torch.nn import Module
 from torch.nn.parameter import Parameter
 
 from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig)
 from vllm.model_executor.parameter import ModelWeightParameter
@@ -27,7 +28,7 @@ class Int8TpuConfig(QuantizationConfig):
                 f"Unsupported activation scheme {activation_scheme}")
         self.activation_scheme = activation_scheme
 
-    def get_name(self) -> str:
+    def get_name(self) -> QuantizationMethods:
         return "tpu_int8"
 
     def get_supported_act_dtypes(self) -> List[torch.dtype]:
diff --git a/vllm/model_executor/layers/rotary_embedding.py b/vllm/model_executor/layers/rotary_embedding.py
index c5970c71c..00f4e66bd 100644
--- a/vllm/model_executor/layers/rotary_embedding.py
+++ b/vllm/model_executor/layers/rotary_embedding.py
@@ -1496,7 +1496,7 @@ def get_rope(
     if key in _ROPE_DICT:
         return _ROPE_DICT[key]
 
-    if rope_scaling is None:
+    if not rope_scaling:
         rotary_emb = RotaryEmbedding(head_size, rotary_dim, max_position, base,
                                      is_neox_style, dtype)
     else:
diff --git a/vllm/model_executor/model_loader/neuron.py b/vllm/model_executor/model_loader/neuron.py
index 67aaad10f..a7b313f4e 100644
--- a/vllm/model_executor/model_loader/neuron.py
+++ b/vllm/model_executor/model_loader/neuron.py
@@ -180,7 +180,6 @@ def _get_neuron_config_after_override(default_neuron_config,
                                              NeuronConfig, QuantizationConfig,
                                              SparseAttnConfig)
 
-    overridden_neuron_config = overridden_neuron_config or {}
     sparse_attn = overridden_neuron_config.pop("sparse_attn", {})
     if sparse_attn:
         overridden_neuron_config["sparse_attn"] = SparseAttnConfig(
-- 
GitLab


From d1f569b1b9ce37aa77873b7f2bdb73612c4d9f23 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Wed, 30 Apr 2025 03:39:18 +0100
Subject: [PATCH 047/461] Fix call to `logger.info_once` (#17416)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 vllm/model_executor/guided_decoding/xgrammar_decoding.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/guided_decoding/xgrammar_decoding.py b/vllm/model_executor/guided_decoding/xgrammar_decoding.py
index 40f722410..c63acfdde 100644
--- a/vllm/model_executor/guided_decoding/xgrammar_decoding.py
+++ b/vllm/model_executor/guided_decoding/xgrammar_decoding.py
@@ -191,9 +191,9 @@ class GrammarConfig:
 
             if model_with_warn is not None and any_whitespace:
                 logger.info_once(
-                    "%s model detected, consider setting "
+                    f"{model_with_warn} model detected, consider setting "
                     "`disable_any_whitespace` to prevent runaway generation "
-                    "of whitespaces.", model_with_warn)
+                    "of whitespaces.")
             # Validate the schema and raise ValueError here if it is invalid.
             # This is to avoid exceptions in model execution, which will crash
             # the engine worker process.
-- 
GitLab


From 88fcf00ddaa99e9eb1da58c4d46dc5bf59bbf42d Mon Sep 17 00:00:00 2001
From: Huy Do <huydhn@gmail.com>
Date: Tue, 29 Apr 2025 19:41:02 -0700
Subject: [PATCH 048/461] Fix some speculative decode tests with tl.dot
 (#17371)

Signed-off-by: Huy Do <huydhn@gmail.com>
---
 tests/spec_decode/e2e/test_multistep_correctness.py | 9 +++------
 1 file changed, 3 insertions(+), 6 deletions(-)

diff --git a/tests/spec_decode/e2e/test_multistep_correctness.py b/tests/spec_decode/e2e/test_multistep_correctness.py
index bb45be791..e187b6bc1 100644
--- a/tests/spec_decode/e2e/test_multistep_correctness.py
+++ b/tests/spec_decode/e2e/test_multistep_correctness.py
@@ -456,7 +456,7 @@ def test_spec_decode_e2e_greedy_correctness_real_model_large_bs(
 @pytest.mark.parametrize(
     "common_llm_kwargs",
     [{
-        "block_size": 8,
+        "block_size": 16,
         # 2 for small prompt, 256//8 for generated.
         "num_gpu_blocks_override": 2 + 256 // 8,
         "max_model_len": (2 + 256 // 8) * 8,
@@ -526,11 +526,8 @@ def test_spec_decode_e2e_greedy_correctness_with_preemption(
 @pytest.mark.parametrize(
     "per_test_common_llm_kwargs",
     [
-        # As of this writing, vLLM only compiles with these 3 block sizes by
-        # default.
-        {
-            "block_size": 8,
-        },
+        # https://github.com/triton-lang/triton/issues/2266 tl.dot
+        # doesn't support embedding < 16
         {
             "block_size": 16,
         },
-- 
GitLab


From a44c4f1d2f7cb882e0045b0c7d7cbcf8e08ef9bd Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Tue, 29 Apr 2025 22:10:30 -0600
Subject: [PATCH 049/461] Support LoRA for Mistral3 (#17428)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 docs/source/models/supported_models.md |  2 +-
 vllm/model_executor/models/mistral3.py | 17 ++++++++++++++---
 2 files changed, 15 insertions(+), 4 deletions(-)

diff --git a/docs/source/models/supported_models.md b/docs/source/models/supported_models.md
index 95e7d5d60..8489ebe71 100644
--- a/docs/source/models/supported_models.md
+++ b/docs/source/models/supported_models.md
@@ -990,7 +990,7 @@ See [this page](#generative-models) for more information on how to use generativ
   * Mistral3
   * T + I<sup>+</sup>
   * `mistralai/Mistral-Small-3.1-24B-Instruct-2503`, etc.
-  *
+  * ✅︎
   * ✅︎
   * ✅︎
 - * `MllamaForConditionalGeneration`
diff --git a/vllm/model_executor/models/mistral3.py b/vllm/model_executor/models/mistral3.py
index 12c87dc0f..c9abe4142 100644
--- a/vllm/model_executor/models/mistral3.py
+++ b/vllm/model_executor/models/mistral3.py
@@ -18,6 +18,7 @@ from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import (ColumnParallelLinear,
                                                RowParallelLinear)
 from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.models.module_mapping import MultiModelKeys
 from vllm.model_executor.sampling_metadata import SamplingMetadata
 from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.inputs import (MultiModalDataDict, MultiModalFieldConfig,
@@ -31,7 +32,8 @@ from vllm.multimodal.processing import (BaseMultiModalProcessor,
 from vllm.multimodal.profiling import BaseDummyInputsBuilder
 from vllm.sequence import IntermediateTensors
 
-from .interfaces import MultiModalEmbeddings, SupportsMultiModal, SupportsPP
+from .interfaces import (MultiModalEmbeddings, SupportsLoRA,
+                         SupportsMultiModal, SupportsPP)
 from .pixtral import PixtralHFEncoderInfo, PixtralHFVisionModel
 from .utils import (AutoWeightsLoader, flatten_bn, init_vllm_registered_model,
                     maybe_prefix, merge_multimodal_embeddings)
@@ -382,8 +384,8 @@ def init_vision_tower_for_llava(
     _build_mistral3_processor,
     info=_build_mistral3_info,
     dummy_inputs=Mistral3DummyInputsBuilder)
-class Mistral3ForConditionalGeneration(nn.Module, SupportsMultiModal,
-                                       SupportsPP):
+class Mistral3ForConditionalGeneration(nn.Module, SupportsLoRA,
+                                       SupportsMultiModal, SupportsPP):
 
     packed_modules_mapping = {
         "qkv_proj": ["q_proj", "k_proj", "v_proj"],
@@ -594,3 +596,12 @@ class Mistral3ForConditionalGeneration(nn.Module, SupportsMultiModal,
                                                    torch.Tensor]]) -> Set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="multi_modal_projector",
+            tower_model="vision_tower")
-- 
GitLab


From 6ed9f6047e19abbb5c3e57cd083aa318b30eec02 Mon Sep 17 00:00:00 2001
From: Kunshang Ji <kunshang.ji@intel.com>
Date: Wed, 30 Apr 2025 13:54:10 +0800
Subject: [PATCH 050/461] [Intel GPU] [CI]Fix XPU ci, setuptools >=80.0 have
 build issue (#17298)

Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>
---
 requirements/xpu.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/requirements/xpu.txt b/requirements/xpu.txt
index fa09004d0..723ffcfc9 100644
--- a/requirements/xpu.txt
+++ b/requirements/xpu.txt
@@ -5,7 +5,7 @@ ray>=2.9
 cmake>=3.26
 packaging
 setuptools-scm>=8
-setuptools>=75.8.0
+setuptools>=75.8.0,<80.0.0
 wheel
 jinja2>=3.1.6
 datasets # for benchmark scripts
-- 
GitLab


From ed6cfb90c8ad13e77dcbfa0e211075a3e2f1ee7e Mon Sep 17 00:00:00 2001
From: Kunshang Ji <kunshang.ji@intel.com>
Date: Wed, 30 Apr 2025 15:03:58 +0800
Subject: [PATCH 051/461] [Hardware][Intel GPU] Upgrade to torch 2.7 (#17444)

Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>
Co-authored-by: Qiming Zhang <qiming1.zhang@intel.com>
---
 docker/Dockerfile.xpu                          |  6 ------
 .../installation/gpu/xpu.inc.md                |  9 ---------
 requirements/xpu.txt                           |  6 +++---
 vllm/_ipex_ops.py                              | 18 +++++++++---------
 vllm/attention/backends/ipex_attn.py           | 14 ++++++--------
 5 files changed, 18 insertions(+), 35 deletions(-)

diff --git a/docker/Dockerfile.xpu b/docker/Dockerfile.xpu
index ad4abf16b..681102b9d 100644
--- a/docker/Dockerfile.xpu
+++ b/docker/Dockerfile.xpu
@@ -40,12 +40,6 @@ RUN --mount=type=cache,target=/root/.cache/pip \
     --mount=type=bind,source=.git,target=.git \
     python3 setup.py install
 
-# Please refer xpu doc, we need manually install intel-extension-for-pytorch 2.6.10+xpu due to there are some conflict dependencies with torch 2.6.0+xpu
-# FIXME: This will be fix in ipex 2.7. just leave this here for awareness.
-RUN --mount=type=cache,target=/root/.cache/pip \
-    pip install intel-extension-for-pytorch==2.6.10+xpu \
-    --extra-index-url=https://pytorch-extension.intel.com/release-whl/stable/xpu/us/
-
 CMD ["/bin/bash"]
 
 FROM vllm-base AS vllm-openai
diff --git a/docs/source/getting_started/installation/gpu/xpu.inc.md b/docs/source/getting_started/installation/gpu/xpu.inc.md
index fbf5421ee..4ab41a21c 100644
--- a/docs/source/getting_started/installation/gpu/xpu.inc.md
+++ b/docs/source/getting_started/installation/gpu/xpu.inc.md
@@ -35,13 +35,6 @@ pip install -v -r requirements/xpu.txt
 VLLM_TARGET_DEVICE=xpu python setup.py install
 ```
 
-- Finally, due to a known issue of conflict dependency(oneapi related) in torch-xpu 2.6 and ipex-xpu 2.6, we install ipex here. This will be fixed in the ipex-xpu 2.7.
-
-```console
-pip install intel-extension-for-pytorch==2.6.10+xpu \
-    --extra-index-url=https://pytorch-extension.intel.com/release-whl/stable/xpu/us/
-```
-
 :::{note}
 - FP16 is the default data type in the current XPU backend. The BF16 data
   type is supported on Intel Data Center GPU, not supported on Intel Arc GPU yet.
@@ -81,5 +74,3 @@ python -m vllm.entrypoints.openai.api_server \
 ```
 
 By default, a ray instance will be launched automatically if no existing one is detected in the system, with `num-gpus` equals to `parallel_config.world_size`. We recommend properly starting a ray cluster before execution, referring to the <gh-file:examples/online_serving/run_cluster.sh> helper script.
-
-There are some new features coming with ipex-xpu 2.6, e.g. **chunked prefill**, **V1 engine support**, **lora**, **MoE**, etc.
diff --git a/requirements/xpu.txt b/requirements/xpu.txt
index 723ffcfc9..d9f2c007e 100644
--- a/requirements/xpu.txt
+++ b/requirements/xpu.txt
@@ -10,7 +10,7 @@ wheel
 jinja2>=3.1.6
 datasets # for benchmark scripts
 
-torch==2.6.0+xpu
+torch==2.7.0+xpu
 torchaudio
 torchvision
 pytorch-triton-xpu
@@ -18,6 +18,6 @@ pytorch-triton-xpu
 
 # Please refer xpu doc, we need manually install intel-extension-for-pytorch 2.6.10+xpu due to there are some conflict dependencies with torch 2.6.0+xpu
 # FIXME: This will be fix in ipex 2.7. just leave this here for awareness.
-# intel-extension-for-pytorch==2.6.10+xpu
-oneccl_bind_pt==2.6.0+xpu
+intel-extension-for-pytorch==2.7.10+xpu
+oneccl_bind_pt==2.7.0+xpu
 --extra-index-url=https://pytorch-extension.intel.com/release-whl/stable/xpu/us/
diff --git a/vllm/_ipex_ops.py b/vllm/_ipex_ops.py
index c3d210c27..505ebec34 100644
--- a/vllm/_ipex_ops.py
+++ b/vllm/_ipex_ops.py
@@ -177,6 +177,7 @@ class ipex_ops:
         out: torch.Tensor,
         seqlen_q: torch.Tensor,
         seqlen_k: torch.Tensor,
+        alibi_slopes: torch.Tensor,
         max_seqlen_q: int,
         max_seqlen_k: int,
         pdropout: float,
@@ -185,6 +186,8 @@ class ipex_ops:
         is_causal: bool,
         return_softmax: bool,
         gen_: torch.Generator,
+        window_size_left: float,
+        window_size_right: float,
         logits_soft_cap: float,
     ) -> None:
         if ipex.__version__.endswith("cpu"):
@@ -200,15 +203,12 @@ class ipex_ops:
                                                  is_causal, return_softmax,
                                                  gen_)
         else:  # XPU build
-            ipex.llm.functional.varlen_attention(query.contiguous(),
-                                                 key.contiguous(),
-                                                 value.contiguous(), out,
-                                                 seqlen_q.int(),
-                                                 seqlen_k.int(), max_seqlen_q,
-                                                 max_seqlen_k, pdropout,
-                                                 softmax_scale, zero_tensors,
-                                                 is_causal, return_softmax,
-                                                 gen_, logits_soft_cap)
+            ipex.llm.functional.varlen_attention(
+                query.contiguous(), key.contiguous(), value.contiguous(), out,
+                seqlen_q.int(), seqlen_k.int(), alibi_slopes, max_seqlen_q,
+                max_seqlen_k, pdropout, softmax_scale, zero_tensors, is_causal,
+                return_softmax, gen_, window_size_left, window_size_right,
+                logits_soft_cap)
 
     @staticmethod
     def reshape_and_cache(
diff --git a/vllm/attention/backends/ipex_attn.py b/vllm/attention/backends/ipex_attn.py
index 27959caa6..f322c7b3d 100644
--- a/vllm/attention/backends/ipex_attn.py
+++ b/vllm/attention/backends/ipex_attn.py
@@ -143,10 +143,9 @@ class IpexAttnBackendImpl(AttentionImpl[IpexAttnMetadata]):
 
         assert self.num_heads % self.num_kv_heads == 0
         self.num_queries_per_kv = self.num_heads // self.num_kv_heads
-        self.need_mask = (self.alibi_slopes is not None
-                          or self.sliding_window is not None)
+        self.need_mask = (self.sliding_window is not None)
         if logits_soft_cap is None:
-            logits_soft_cap = 0
+            logits_soft_cap = -1
         self.logits_soft_cap = logits_soft_cap
 
         supported_head_sizes = PagedAttention.get_supported_head_sizes()
@@ -234,11 +233,7 @@ class IpexAttnBackendImpl(AttentionImpl[IpexAttnMetadata]):
                                                     dim=1)
 
                 if attn_metadata.attn_bias is None:
-                    if self.alibi_slopes is not None:
-                        att_masks = _make_alibi_bias(
-                            self.alibi_slopes, query.dtype,
-                            attn_metadata.seq_lens)  # type: ignore
-                    elif self.sliding_window is not None:
+                    if self.sliding_window is not None:
                         att_masks = _make_sliding_window_bias(
                             attn_metadata.seq_lens, self.sliding_window,
                             query.dtype)  # type: ignore
@@ -258,6 +253,7 @@ class IpexAttnBackendImpl(AttentionImpl[IpexAttnMetadata]):
                     output,
                     attn_metadata.seqlen_q,
                     attn_metadata.seqlen_q,
+                    self.alibi_slopes,
                     attn_metadata.max_seqlen,
                     attn_metadata.max_seqlen,
                     pdropout=0.0,
@@ -266,6 +262,8 @@ class IpexAttnBackendImpl(AttentionImpl[IpexAttnMetadata]):
                     is_causal=True,
                     return_softmax=False,
                     gen_=None,
+                    window_size_left=-1,
+                    window_size_right=-1,
                     logits_soft_cap=self.logits_soft_cap,
                 )
             else:
-- 
GitLab


From be633fba0f8fc41b19a774a89ad055e54865af53 Mon Sep 17 00:00:00 2001
From: Chauncey <chaunceyjiang@gmail.com>
Date: Wed, 30 Apr 2025 15:11:04 +0800
Subject: [PATCH 052/461] [Bugfix] Fix AttributeError: 'State' object has no
 attribute 'engine_client' (#17434)

Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>
---
 vllm/entrypoints/api_server.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/entrypoints/api_server.py b/vllm/entrypoints/api_server.py
index c81ff9585..1c0271811 100644
--- a/vllm/entrypoints/api_server.py
+++ b/vllm/entrypoints/api_server.py
@@ -111,7 +111,7 @@ async def init_app(
     engine = (llm_engine
               if llm_engine is not None else AsyncLLMEngine.from_engine_args(
                   engine_args, usage_context=UsageContext.API_SERVER))
-
+    app.state.engine_client = engine
     return app
 
 
-- 
GitLab


From 54072f315f8f39f906e59b2153e05e9cf7cd524b Mon Sep 17 00:00:00 2001
From: Marco <121761685+mlinmg@users.noreply.github.com>
Date: Wed, 30 Apr 2025 09:33:29 +0200
Subject: [PATCH 053/461] [MODEL ADDITION] Ovis2 Model Addition (#15826)

Signed-off-by: Marco <121761685+mlinmg@users.noreply.github.com>
Signed-off-by: Isotr0py <2037008807@qq.com>
Signed-off-by: isotr0py <2037008807@qq.com>
Co-authored-by: Isotr0py <2037008807@qq.com>
Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>
---
 docs/source/models/supported_models.md        |   7 +
 examples/offline_inference/vision_language.py |  31 ++
 .../vision_language_multi_image.py            |  31 ++
 .../vision_language/test_models.py            |  12 +
 .../vision_language/vlm_utils/core.py         |   2 +-
 .../vision_language/vlm_utils/model_utils.py  |  30 ++
 .../multimodal/processing/test_common.py      |   1 +
 tests/models/registry.py                      |   4 +
 vllm/entrypoints/chat_utils.py                |   5 +-
 vllm/model_executor/models/aimv2.py           | 322 ++++++++++++++
 vllm/model_executor/models/ovis2.py           | 331 +++++++++++++++
 vllm/model_executor/models/registry.py        |   1 +
 vllm/transformers_utils/config.py             |   7 +-
 vllm/transformers_utils/configs/__init__.py   |   2 +
 vllm/transformers_utils/configs/ovis2.py      | 170 ++++++++
 .../transformers_utils/processors/__init__.py |   3 +-
 vllm/transformers_utils/processors/ovis2.py   | 397 ++++++++++++++++++
 17 files changed, 1349 insertions(+), 7 deletions(-)
 create mode 100644 vllm/model_executor/models/aimv2.py
 create mode 100644 vllm/model_executor/models/ovis2.py
 create mode 100644 vllm/transformers_utils/configs/ovis2.py
 create mode 100644 vllm/transformers_utils/processors/ovis2.py

diff --git a/docs/source/models/supported_models.md b/docs/source/models/supported_models.md
index 8489ebe71..831f9a86d 100644
--- a/docs/source/models/supported_models.md
+++ b/docs/source/models/supported_models.md
@@ -1014,6 +1014,13 @@ See [this page](#generative-models) for more information on how to use generativ
   *
   * ✅︎
   * ✅︎
+- * `Ovis2ForConditionalGeneration`<sup>^</sup>
+  * Ovis2
+  * T + I<sup>+</sup>
+  * `AIDC-AI/Ovis2-1B`, `AIDC-AI/Ovis2-2B`, etc.
+  *
+  *
+  * ✅︎
 - * `PaliGemmaForConditionalGeneration`
   * PaliGemma, PaliGemma 2
   * T + I<sup>E</sup>
diff --git a/examples/offline_inference/vision_language.py b/examples/offline_inference/vision_language.py
index d02ac17cf..d455ea2de 100644
--- a/examples/offline_inference/vision_language.py
+++ b/examples/offline_inference/vision_language.py
@@ -725,6 +725,36 @@ def run_nvlm_d(questions: list[str], modality: str) -> ModelRequestData:
     )
 
 
+# Ovis2
+def run_ovis2(questions: list[str], modality: str) -> ModelRequestData:
+    assert modality == "image"
+
+    model_name = "AIDC-AI/Ovis2-1B"
+    tokenizer = "Isotr0py/Ovis2-tokenizer"
+
+    engine_args = EngineArgs(
+        model=model_name,
+        tokenizer=tokenizer,
+        max_model_len=4096,
+        max_num_seqs=2,
+        trust_remote_code=True,
+        dtype="half",
+        hf_overrides={"architectures": ["Ovis2ForConditionalGeneration"]},
+        limit_mm_per_prompt={"image": 1},
+    )
+
+    placeholder = "<image>\n"
+    prompts = [("<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n"
+                f"<|im_start|>user\n{placeholder}"
+                f"{question}<|im_end|>\n"
+                "<|im_start|>assistant\n") for question in questions]
+
+    return ModelRequestData(
+        engine_args=engine_args,
+        prompts=prompts,
+    )
+
+
 # PaliGemma
 def run_paligemma(questions: list[str], modality: str) -> ModelRequestData:
     assert modality == "image"
@@ -1041,6 +1071,7 @@ model_example_map = {
     "llama4": run_llama4,
     "molmo": run_molmo,
     "NVLM_D": run_nvlm_d,
+    "ovis2": run_ovis2,
     "paligemma": run_paligemma,
     "paligemma2": run_paligemma2,
     "phi3_v": run_phi3v,
diff --git a/examples/offline_inference/vision_language_multi_image.py b/examples/offline_inference/vision_language_multi_image.py
index 7f6608559..f16033993 100644
--- a/examples/offline_inference/vision_language_multi_image.py
+++ b/examples/offline_inference/vision_language_multi_image.py
@@ -436,6 +436,36 @@ def load_nvlm_d(question: str, image_urls: list[str]) -> ModelRequestData:
     )
 
 
+# Ovis2
+def load_ovis2(question: str, image_urls: list[str]) -> ModelRequestData:
+    model_name = "AIDC-AI/Ovis2-1B"
+    tokenizer = "Isotr0py/Ovis2-tokenizer"
+
+    engine_args = EngineArgs(
+        model=model_name,
+        tokenizer=tokenizer,
+        max_model_len=8192,
+        max_num_seqs=2,
+        trust_remote_code=True,
+        dtype="half",
+        limit_mm_per_prompt={"image": len(image_urls)},
+        hf_overrides={"architectures": ["Ovis2ForConditionalGeneration"]},
+    )
+
+    placeholder = '\n'.join(
+        [f'Image {i+1}: <image>' for i in range(len(image_urls))]) + '\n'
+    prompt = ("<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n"
+              f"<|im_start|>user\n{placeholder}"
+              f"{question}<|im_end|>\n"
+              "<|im_start|>assistant\n")
+
+    return ModelRequestData(
+        engine_args=engine_args,
+        prompt=prompt,
+        image_data=[fetch_image(url) for url in image_urls],
+    )
+
+
 def load_pixtral_hf(question: str, image_urls: list[str]) -> ModelRequestData:
     model_name = "mistral-community/pixtral-12b"
 
@@ -685,6 +715,7 @@ model_example_map = {
     "mistral3": load_mistral3,
     "mllama": load_mllama,
     "NVLM_D": load_nvlm_d,
+    "ovis2": load_ovis2,
     "phi3_v": load_phi3v,
     "phi4_mm": load_phi4mm,
     "pixtral_hf": load_pixtral_hf,
diff --git a/tests/models/decoder_only/vision_language/test_models.py b/tests/models/decoder_only/vision_language/test_models.py
index 6073364c0..3dd82b93f 100644
--- a/tests/models/decoder_only/vision_language/test_models.py
+++ b/tests/models/decoder_only/vision_language/test_models.py
@@ -467,6 +467,18 @@ VLM_TEST_SETTINGS = {
         max_num_seqs=2,
         patch_hf_runner=model_utils.molmo_patch_hf_runner,
     ),
+    "ovis2": VLMTestInfo(
+        models=["AIDC-AI/Ovis2-1B"],
+        test_type=(VLMTestType.IMAGE, VLMTestType.MULTI_IMAGE),
+        prompt_formatter=lambda img_prompt: f"<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\n{img_prompt}<|im_end|>\n<|im_start|>assistant\n", # noqa: E501
+        img_idx_to_prompt=lambda idx: "<image>\n", # noqa: E501
+        max_model_len=4096,
+        max_num_seqs=2,
+        dtype="half",
+        # use sdpa mode for hf runner since ovis2 didn't work with flash_attn
+        hf_model_kwargs={"llm_attn_implementation": "sdpa"},
+        patch_hf_runner=model_utils.ovis2_patch_hf_runner,
+    ),
     "phi3v": VLMTestInfo(
         models=["microsoft/Phi-3.5-vision-instruct"],
         test_type=(VLMTestType.IMAGE, VLMTestType.MULTI_IMAGE),
diff --git a/tests/models/decoder_only/vision_language/vlm_utils/core.py b/tests/models/decoder_only/vision_language/vlm_utils/core.py
index fd046f3cd..c3d20f568 100644
--- a/tests/models/decoder_only/vision_language/vlm_utils/core.py
+++ b/tests/models/decoder_only/vision_language/vlm_utils/core.py
@@ -67,7 +67,7 @@ def run_test(
         "disable_mm_preprocessor_cache": True,
     }
     if model_info.tokenizer:
-        vllm_runner_kwargs_["tokenizer"] = model_info.tokenizer
+        vllm_runner_kwargs_["tokenizer_name"] = model_info.tokenizer
     if model_info.tokenizer_mode:
         vllm_runner_kwargs_["tokenizer_mode"] = model_info.tokenizer_mode
     if model_info.hf_overrides:
diff --git a/tests/models/decoder_only/vision_language/vlm_utils/model_utils.py b/tests/models/decoder_only/vision_language/vlm_utils/model_utils.py
index 1185d80b9..c856fb198 100644
--- a/tests/models/decoder_only/vision_language/vlm_utils/model_utils.py
+++ b/tests/models/decoder_only/vision_language/vlm_utils/model_utils.py
@@ -676,3 +676,33 @@ def molmo_patch_hf_runner(hf_model: HfRunner) -> HfRunner:
     hf_model.model.generate = types.MethodType(_generate, hf_model.model)
 
     return hf_model
+
+
+def ovis2_patch_hf_runner(hf_model: HfRunner) -> HfRunner:
+    """Patches and returns an instance of the HfRunner to use for Ovis2."""
+    hf_model.model.visual_tokenizer.to(hf_model.dtype)
+    hf_model.model.vte.to(hf_model.dtype)
+    hf_model.model.llm.to(hf_model.dtype)
+
+    hf_model.model.get_output_embeddings = lambda: \
+        hf_model.model.llm.get_output_embeddings()
+
+    def processor(*args, text="", images=None, **kwargs):
+        text_tokenizer = hf_model.model.get_text_tokenizer()
+        images = [images] if isinstance(images, Image) else images
+
+        text = text.split("<|im_start|>user\n")[1].split("<|im_end|>\n")[0]
+
+        prompt, input_ids, pixel_values = hf_model.model.preprocess_inputs(
+            text_or_conversations=text, images=images)
+        attention_mask = torch.ne(input_ids, text_tokenizer.pad_token_id)
+
+        inputs = {
+            "inputs": input_ids.unsqueeze(0),
+            "pixel_values": pixel_values.unsqueeze(0),
+            "attention_mask": attention_mask.unsqueeze(0),
+        }
+        return BatchFeature(data=inputs, tensor_type="pt")
+
+    hf_model.processor = processor
+    return hf_model
diff --git a/tests/models/multimodal/processing/test_common.py b/tests/models/multimodal/processing/test_common.py
index 4dc49d18c..2b1d38dfd 100644
--- a/tests/models/multimodal/processing/test_common.py
+++ b/tests/models/multimodal/processing/test_common.py
@@ -274,6 +274,7 @@ def _test_processing_correctness_mistral(
     "allenai/Molmo-7B-D-0924",
     "allenai/Molmo-7B-O-0924",
     "nvidia/NVLM-D-72B",
+    "AIDC-AI/Ovis2-1B",
     "google/paligemma-3b-mix-224",
     "google/paligemma2-3b-ft-docci-448",
     "microsoft/Phi-4-multimodal-instruct",
diff --git a/tests/models/registry.py b/tests/models/registry.py
index f17f70189..2dbe1a41f 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -348,6 +348,10 @@ _MULTIMODAL_EXAMPLE_MODELS = {
                                         max_transformers_version="4.48",
                                         transformers_version_reason="Use of deprecated imports which have been removed.",  # noqa: E501
                                         extras={"phi3.5": "microsoft/Phi-3.5-vision-instruct"}),  # noqa: E501
+    "Ovis2ForConditionalGeneration": _HfExamplesInfo("AIDC-AI/Ovis2-1B",
+                                                    tokenizer="Isotr0py/Ovis2-tokenizer",
+                                                    trust_remote_code=True,
+                                                    hf_overrides={"architectures": ["Ovis2ForConditionalGeneration"]}), # noqa: E501
     "Phi4MMForCausalLM": _HfExamplesInfo("microsoft/Phi-4-multimodal-instruct",
                                         trust_remote_code=True),
     "PixtralForConditionalGeneration": _HfExamplesInfo("mistralai/Pixtral-12B-2409",  # noqa: E501
diff --git a/vllm/entrypoints/chat_utils.py b/vllm/entrypoints/chat_utils.py
index fcaa24eec..23dded7f2 100644
--- a/vllm/entrypoints/chat_utils.py
+++ b/vllm/entrypoints/chat_utils.py
@@ -496,9 +496,10 @@ class BaseMultiModalItemTracker(ABC, Generic[_T]):
             if model_type.startswith("llava"):
                 return self._cached_token_str(self._tokenizer,
                                               hf_config.image_token_index)
+
             if model_type in ("aya_vision", "chameleon", "deepseek_vl_v2",
-                              "internvl_chat", "skywork_chat", "NVLM_D",
-                              "h2ovl_chat", "idefics3", "smolvlm"):
+                              "internvl_chat", "ovis2", "skywork_chat",
+                              "NVLM_D", "h2ovl_chat", "idefics3", "smolvlm"):
                 return "<image>"
             if model_type in ("mllama", "llama4"):
                 return "<|image|>"
diff --git a/vllm/model_executor/models/aimv2.py b/vllm/model_executor/models/aimv2.py
new file mode 100644
index 000000000..730e770dc
--- /dev/null
+++ b/vllm/model_executor/models/aimv2.py
@@ -0,0 +1,322 @@
+# SPDX-License-Identifier: Apache-2.0
+
+# A modified implementation of the AIMv2 Transformer
+# inserted here also the image tokenizer used by Ovis2
+from typing import Optional
+
+import torch
+from torch import nn, softmax
+from torch.nn import functional as F
+from torch.nn.functional import gumbel_softmax, pad
+
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import ReplicatedLinear
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig)
+from vllm.transformers_utils.configs.ovis2 import (AIMv2Config,
+                                                   Aimv2VisualTokenizerConfig)
+
+IMAGE_INDICATOR_IDS = [-301, -302, -303, -304,
+                       -305]  # kept for vocab prefixed tokens
+
+
+def st_argmax(y_soft: torch.Tensor, dim: int):  # straight-through softmax
+    index = y_soft.max(dim, keepdim=True)[1]
+    y_hard = torch.zeros_like(
+        y_soft, memory_format=torch.legacy_contiguous_format).scatter_(
+            dim, index, 1.0)
+    ret = y_hard - y_soft.detach() + y_soft
+    return ret
+
+
+class Aimv2VisualTokenizer(torch.nn.Module):
+
+    def __init__(self,
+                 config: Aimv2VisualTokenizerConfig,
+                 quant_config: Optional[QuantizationConfig] = None,
+                 prefix: str = "",
+                 **kwargs):
+        super().__init__()
+        self.config = config
+        self.backbone = AIMv2Model(
+            config=config.backbone_config,  # noqa
+            quant_config=quant_config,
+            prefix=f"{prefix}.visual_tokenizer")
+        # reserved tokens for IMAGE_INDICATORS
+        head_dim = config.vocab_size - len(IMAGE_INDICATOR_IDS)
+        self.head = torch.nn.Sequential(
+            ReplicatedLinear(
+                config.backbone_config.hidden_size * config.hidden_stride *
+                config.hidden_stride,
+                head_dim,
+                bias=False,
+            ), torch.nn.LayerNorm(head_dim))
+
+    @property
+    def dtype(self):
+        return self.backbone.dtype
+
+    @property
+    def device(self):
+        return self.backbone.device
+
+    def tokenize(self, logits):
+        if self.config.tokenize_function == 'softmax':
+            tokens = softmax(logits, dim=-1)
+        elif self.config.tokenize_function == 'gumbel_argmax':
+            tokens = gumbel_softmax(logits, tau=self.config.tau, hard=True)
+        elif self.config.tokenize_function == 'st_argmax':
+            tokens = st_argmax(logits, dim=-1)
+        else:
+            raise ValueError(
+                'Invalid `max_type`, expected softmax or gumbel_argmax '
+                f'or st_argmax, but got {self.config.tokenize_function}')
+        return tokens
+
+    def encode(self, pixel_values):
+        features = self.backbone(pixel_values)
+        if self.config.drop_cls_token:
+            features = features[:, 1:, :]
+
+        # merge number of `hidden_stride * hidden_stride` hidden states together
+        # to reduce token sequence length
+        # e.g., for hidden_stride=2, this leads to a token length reduction:
+        # 1024 -> 256 for aimv2
+        if self.config.hidden_stride > 1:
+            # this `d` maybe different from the above `d``
+            n, L, d = features.shape
+            sqrt_l = int(L**0.5)
+            assert sqrt_l**2 == L, (
+                "The token sequence length should be a perfect square.")
+            features = features.reshape(n, sqrt_l, sqrt_l, d)
+            pl = (self.config.hidden_stride -
+                  (sqrt_l %
+                   self.config.hidden_stride)) % self.config.hidden_stride
+            features = pad(features, (0, 0, 0, pl, 0, pl), "constant", 0)
+            sqrt_l += pl
+            features = features.reshape(n, sqrt_l // self.config.hidden_stride,
+                                        self.config.hidden_stride,
+                                        sqrt_l // self.config.hidden_stride,
+                                        self.config.hidden_stride, d)
+            # [n, sqrt_l/hs, sqrt_l/hs, hs, hs, d]
+            features = features.permute(0, 1, 3, 2, 4, 5)
+            # [n, sqrt_l/hs, sqrt_l/hs, hs*hs*d]
+            features = features.flatten(3)
+            # [n, sqrt_l/hs*sqrt_l/hs, hs*hs*d]
+            features = features.reshape(
+                n, -1,
+                self.config.hidden_stride * self.config.hidden_stride * d)
+
+        return features
+
+    def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        """[BatchSize, ImageShape] -> [BatchSize, Token, VocabSize]"""
+        features = self.encode(pixel_values)
+        logits, _ = self.head[0](
+            features)  # we spllit the sequncial here for not throwing an error
+        logits = self.head[1](logits)
+        tokens = self.tokenize(logits)
+        # tokens' shape is [BatchSize, #Token, VocabSize-5], so padding with
+        # [BatchSize, #Token, 5], after which, tokens' shape should become
+        # [BatchSize, #Token, VocabSize]
+        batch_size, token_len, _ = tokens.shape
+        padding_tensor = torch.zeros(size=(batch_size, token_len,
+                                           len(IMAGE_INDICATOR_IDS)),
+                                     dtype=tokens.dtype,
+                                     device=tokens.device,
+                                     layout=tokens.layout,
+                                     requires_grad=False)
+        tokens = torch.cat((tokens, padding_tensor), dim=2)
+        return tokens
+
+
+class AIMv2SwiGLUFFN(nn.Module):
+
+    def __init__(self, config: AIMv2Config, quant_config: QuantizationConfig,
+                 prefix: str):
+        super().__init__()
+        hidden_features = config.intermediate_size
+        in_features = config.hidden_size
+        bias = config.use_bias
+
+        # TODO(Isotr0py): investigate if we can add TP to visual tokenizer
+        self.fc1 = ReplicatedLinear(in_features,
+                                    hidden_features,
+                                    bias=bias,
+                                    quant_config=quant_config,
+                                    prefix=f"{prefix}.fc1")
+        self.fc2 = ReplicatedLinear(hidden_features,
+                                    in_features,
+                                    bias=bias,
+                                    quant_config=quant_config,
+                                    prefix=f"{prefix}.fc2")
+        self.fc3 = ReplicatedLinear(in_features,
+                                    hidden_features,
+                                    bias=bias,
+                                    quant_config=quant_config,
+                                    prefix=f"{prefix}.fc3")
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x_parallel, _ = self.fc1(x)
+        gate, _ = self.fc3(x)
+        x_parallel = F.silu(x_parallel) * gate
+        out, _ = self.fc2(x_parallel)
+        return out
+
+
+class AIMv2PatchEmbed(nn.Module):
+
+    def __init__(self, config: AIMv2Config):
+        super().__init__()
+        self.proj = nn.Conv2d(
+            config.num_channels,
+            config.hidden_size,
+            kernel_size=(config.patch_size, config.patch_size),
+            stride=(config.patch_size, config.patch_size),
+        )
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x = self.proj(x).flatten(2).transpose(1, 2)
+        x = self.norm.forward_native(x)
+        return x
+
+
+class AIMv2ViTPreprocessor(nn.Module):
+
+    def __init__(self, config: AIMv2Config):
+        super().__init__()
+        num_patches = (config.image_size // config.patch_size)**2
+
+        self.patchifier = AIMv2PatchEmbed(config)
+        self.pos_embed = nn.Parameter(
+            torch.zeros((1, num_patches, config.hidden_size)))
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        tokens = self.patchifier(x)
+        _, N, _ = tokens.shape
+        pos_embed = self.pos_embed.to(tokens.device)
+        tokens = tokens + pos_embed[:, :N]
+        return tokens
+
+
+class AIMv2Attention(nn.Module):
+
+    def __init__(self, config: AIMv2Config, quant_config: QuantizationConfig,
+                 prefix: str):
+        super().__init__()
+        dim = config.hidden_size
+
+        # TODO(Isotr0py): investigate if we can add TP to visual tokenizer
+        self.num_heads = config.num_attention_heads
+        self.qkv = ReplicatedLinear(dim, dim * 3, bias=config.qkv_bias)
+        # self.qkv = QKVParallelLinear(
+        #               hidden_size=dim,
+        #               head_size=dim // config.num_attention_heads,
+        #               total_num_heads=config.num_attention_heads,
+        #               bias=config.qkv_bias,
+        #               quant_config=quant_config,
+        #               prefix=f"{prefix}.qkv")
+        self.proj = ReplicatedLinear(dim, dim, bias=config.use_bias)
+        # self.proj = RowParallelLinear(input_size=dim,
+        #                  output_size=dim,
+        #                  bias = config.use_bias,
+        #                  quant_config=quant_config,
+        #                  prefix=f"{prefix}.proj")
+
+    def forward(  # todo might implement multiple attn implementations
+            self,
+            x: torch.Tensor,
+            mask: Optional[torch.Tensor] = None) -> torch.Tensor:
+        B, N, C = x.shape
+        qkv, _ = self.qkv(x)
+
+        qkv = qkv.reshape(B, N, 3, self.num_heads,
+                          C // self.num_heads).permute(2, 0, 3, 1, 4)
+
+        q, k, v = qkv.unbind(0)
+
+        x = F.scaled_dot_product_attention(q, k, v, attn_mask=mask)
+        x = x.transpose(1, 2).contiguous().reshape(B, N, C)
+        x, _ = self.proj(x)
+        return x
+
+
+class AIMv2Block(nn.Module):
+
+    def __init__(self, config: AIMv2Config, quant_config: QuantizationConfig,
+                 prefix: str):
+        super().__init__()
+        self.attn = AIMv2Attention(config,
+                                   quant_config=quant_config,
+                                   prefix=f"{prefix}.attn")
+        self.norm_1 = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.mlp = AIMv2SwiGLUFFN(config,
+                                  quant_config=quant_config,
+                                  prefix=f"{prefix}.mlp")
+        self.norm_2 = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(self,
+                x: torch.Tensor,
+                mask: Optional[torch.Tensor] = None) -> torch.Tensor:
+        x = x + self.attn(self.norm_1.forward_native(x), mask)
+        x = x + self.mlp(self.norm_2.forward_native(x))
+        return x
+
+
+class AIMv2Transformer(nn.Module):
+
+    def __init__(self, config: AIMv2Config, quant_config: QuantizationConfig,
+                 prefix: str):
+        super().__init__()
+
+        self.blocks = nn.ModuleList([
+            AIMv2Block(config, quant_config, prefix=f"{prefix}.blocks.{i}")
+            for i in range(config.num_hidden_layers)
+        ])
+        self.post_trunk_norm = RMSNorm(config.hidden_size,
+                                       eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        tokens: torch.Tensor,
+        mask: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        # they take the -1 as the ref embeddings, like a clip skip
+        for block in self.blocks:
+            tokens = block(tokens, mask)
+        # NO NORM IN THE OG IMPLEMENTATION
+        # tokens = self.post_trunk_norm(tokens)
+        return tokens
+
+
+class AIMv2Model(torch.nn.Module):
+
+    def __init__(self,
+                 config: AIMv2Config,
+                 quant_config: QuantizationConfig,
+                 prefix: str = ""):
+        super().__init__()
+        self.preprocessor = AIMv2ViTPreprocessor(config)
+        self.trunk = AIMv2Transformer(config,
+                                      quant_config=quant_config,
+                                      prefix=f"{prefix}.trunk")
+
+    @property
+    def dtype(self):
+        return self.trunk.blocks[0].attn.qkv.weight.dtype
+
+    @property
+    def device(self):
+        return self.trunk.blocks[0].attn.qkv.device
+
+    def forward(
+        self,
+        pixel_values: torch.Tensor,
+        mask: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+
+        x = self.preprocessor(pixel_values)
+        x = self.trunk(x, mask)
+
+        return x
diff --git a/vllm/model_executor/models/ovis2.py b/vllm/model_executor/models/ovis2.py
new file mode 100644
index 000000000..638077bc8
--- /dev/null
+++ b/vllm/model_executor/models/ovis2.py
@@ -0,0 +1,331 @@
+# SPDX-License-Identifier: Apache-2.0
+
+# adapted from https://github.com/huggingface/transformers/blob/v4.39.3/src/transformers/models/ovis/modeling_ovis.py
+# Copyright 2023 The vLLM team.
+# Copyright 2023 HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+""" PyTorch Ovis2 model."""
+from typing import (Iterable, List, Literal, Mapping, Optional, Set, Tuple,
+                    TypedDict, Union)
+
+import torch
+import torch.nn as nn
+from torch import Tensor
+from transformers import BatchFeature
+
+from vllm.config import VllmConfig
+from vllm.model_executor.models.aimv2 import Aimv2VisualTokenizer
+from vllm.model_executor.models.utils import (AutoWeightsLoader, flatten_bn,
+                                              init_vllm_registered_model,
+                                              maybe_prefix)
+from vllm.model_executor.sampling_metadata import SamplingMetadata
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (MultiModalDataDict, MultiModalFieldConfig,
+                                    MultiModalKwargs)
+from vllm.multimodal.parse import ImageSize, MultiModalDataItems
+from vllm.multimodal.processing import (BaseMultiModalProcessor,
+                                        BaseProcessingInfo, PromptReplacement)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs.ovis2 import OvisConfig
+from vllm.transformers_utils.processors.ovis2 import OvisProcessor
+
+from .interfaces import MultiModalEmbeddings, SupportsMultiModal
+from .utils import merge_multimodal_embeddings
+
+# Cannot find the following number from hf config.
+IMAGE_TOKEN = "<image>"
+IMAGE_ATOM_TOKEN_ID = 151666
+IMAGE_PAD_TOKEN_ID = 151672
+NUMBER_OF_TOKEN_TO_RESERVE_FOR_SEGMENT = 256
+
+
+class Ovis2ImagePatchInputs(TypedDict):
+    type: Literal["image_patches"]
+    flat_data: torch.Tensor
+    """
+    Shape: 
+    `(batch_size * num_patches, patch_size_x * patch_size_y * num_channels)`
+    """
+
+    patches_per_image: List[int]
+    """
+    List of number of total patches for each image in the batch.
+    This is used to restore the first two dimensions of `flat_data`.
+    """
+
+
+class VisualEmbedding(torch.nn.Embedding):
+
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+
+    def forward(self, visual_tokens: Tensor) -> Tensor:
+        if visual_tokens.dtype in [
+                torch.int8, torch.int16, torch.int32, torch.int64, torch.long
+        ]:
+            return super().forward(visual_tokens)
+        return torch.matmul(visual_tokens, self.weight)
+
+    @property
+    def device(self):
+        return self.weight.device
+
+    @property
+    def dtype(self):
+        return self.weight.dtype
+
+
+class Ovis2ProcessingInfo(BaseProcessingInfo):
+
+    def get_hf_config(self):
+        return self.ctx.get_hf_config(OvisConfig)
+
+    def get_hf_processor(self, **kwargs):
+        return self.ctx.get_hf_processor(OvisProcessor)
+
+    def get_image_processor(self) -> OvisProcessor:
+        return self.get_hf_processor().image_processor  # type: ignore
+
+    def get_supported_mm_limits(self) -> Mapping[str, Optional[int]]:
+        return {  # 32k is model token limit at the moment
+            "image":
+            self.get_hf_config().multimodal_max_length //
+            ((9 + 1) * NUMBER_OF_TOKEN_TO_RESERVE_FOR_SEGMENT)
+        }
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        image_processor = self.get_image_processor()
+        return ImageSize(width=image_processor.size['shortest_edge'] * 9 * 2,
+                         height=image_processor.size['shortest_edge'] * 9 * 2)
+
+
+class Ovis2DummyInputsBuilder(BaseDummyInputsBuilder[Ovis2ProcessingInfo]):
+
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+        return IMAGE_TOKEN * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        target_width, target_height = \
+            self.info.get_image_size_with_most_features()
+
+        mm_data = {
+            "image":
+            self._get_dummy_images(width=target_width,
+                                   height=target_height,
+                                   num_images=num_images),
+        }
+        return mm_data
+
+
+class Ovis2MultiModalProcessor(BaseMultiModalProcessor[Ovis2ProcessingInfo]):
+
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        if not mm_data:
+            #    # Avoid warning from HF logger for text-only input
+            prompt_ids = self.info.get_tokenizer().encode(prompt)
+            # prompt_ids = self._apply_hf_processor_tokens_only(prompt_ids) nope
+            return BatchFeature(dict(input_ids=[prompt_ids]), tensor_type="pt")
+
+        processed_outputs = super()._call_hf_processor(
+            prompt=prompt,
+            mm_data=mm_data,
+            mm_kwargs=mm_kwargs,
+        )
+
+        return processed_outputs
+
+    def _apply_hf_processor_tokens_only(
+        self,
+        prompt_tokens: list[int],
+    ) -> list[int]:
+
+        return prompt_tokens
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(pixel_values=MultiModalFieldConfig.batched("image"),
+                    grids=MultiModalFieldConfig.batched("image"))
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargs,
+    ) -> list[PromptReplacement]:
+
+        def get_replacement_ovis(item_idx):
+            grid = out_mm_kwargs["grids"][item_idx]
+
+            hf_processor = self.info.get_hf_processor()
+            return hf_processor.construct_image_placeholders(grid)
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=IMAGE_TOKEN,
+                replacement=get_replacement_ovis,
+            ),
+        ]
+
+
+@MULTIMODAL_REGISTRY.register_processor(Ovis2MultiModalProcessor,
+                                        info=Ovis2ProcessingInfo,
+                                        dummy_inputs=Ovis2DummyInputsBuilder)
+class Ovis2ForConditionalGeneration(nn.Module, SupportsMultiModal):
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+
+        self.config: OvisConfig = config
+        self.llm = init_vllm_registered_model(
+            vllm_config=vllm_config.with_hf_config(config.get_text_config()),
+            prefix=maybe_prefix(prefix, "llm"),
+        )
+
+        self.visual_tokenizer = Aimv2VisualTokenizer(
+            config=config.visual_tokenizer_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.visual_tokenizer",
+            image_processor_name_or_path=config.visual_tokenizer_config.
+            backbone_config.name_or_path,
+        )
+
+        self.vte = VisualEmbedding(
+            self.config.visual_tokenizer_config.vocab_size,
+            self.config.hidden_size)
+
+        # TODO(Isotr0py): PP support
+        # self.make_empty_intermediate_tensors = (
+        #    self.language_model.make_empty_intermediate_tensors)
+
+    def _parse_and_validate_image_input(
+            self, **kwargs: object) -> Optional[Ovis2ImagePatchInputs]:
+        pixel_values = kwargs.pop("pixel_values", None)
+        if pixel_values is None:
+            return None
+
+        if pixel_values is not None:
+            if not isinstance(pixel_values, (torch.Tensor, list)):
+                raise ValueError("Incorrect type of pixel values. "
+                                 f"Got type: {type(pixel_values)}")
+
+            return Ovis2ImagePatchInputs(
+                type="image_patches",
+                flat_data=flatten_bn(flatten_bn(pixel_values), concat=True),
+                patches_per_image=[
+                    x.shape[0] for x in flatten_bn(pixel_values)
+                ],
+            )
+
+        raise AssertionError("This line should be unreachable.")
+
+    def _process_image_input(
+            self, image_input: Ovis2ImagePatchInputs) -> MultiModalEmbeddings:
+        image_patches_flat = image_input["flat_data"]
+        patches_per_image = image_input["patches_per_image"]
+
+        target_dtype = self.visual_tokenizer.dtype
+        visual_tokens = self.visual_tokenizer(
+            image_patches_flat.to(target_dtype))
+        visual_embeds = self.vte(visual_tokens)  # 1:1 numeric eq.
+
+        return tuple(
+            x.flatten(0, 1)
+            for x in visual_embeds.split(patches_per_image, dim=0))
+
+    def get_multimodal_embeddings(
+            self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return None
+
+        image_features = self._process_image_input(image_input)
+
+        return image_features
+
+    def get_input_embeddings(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: Optional[MultiModalEmbeddings] = None,
+    ) -> torch.Tensor:
+        inputs_embeds = self.llm.get_input_embeddings(input_ids)
+        if multimodal_embeddings is not None:
+            inputs_embeds = merge_multimodal_embeddings(
+                input_ids, inputs_embeds, multimodal_embeddings,
+                [IMAGE_ATOM_TOKEN_ID, IMAGE_PAD_TOKEN_ID])
+        return inputs_embeds
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: Optional[IntermediateTensors] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+        **kwargs: object,
+    ) -> Union[torch.Tensor, IntermediateTensors]:
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        # NOTE: In v1, inputs_embeds is always generated at model runner, this
+        # condition is for v0 compatibility.
+        elif inputs_embeds is None:
+            vision_embeddings = self.get_multimodal_embeddings(**kwargs)
+            inputs_embeds = self.get_input_embeddings(input_ids,
+                                                      vision_embeddings)
+            input_ids = None
+
+        # up until here we have a inputs_embeds 100% numerical identity
+        # between the OG HF Transformers implementation and ours
+        hidden_states = self.llm(
+            input_ids=input_ids,
+            positions=positions,
+            intermediate_tensors=intermediate_tensors,
+            inputs_embeds=inputs_embeds,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+    ) -> Optional[torch.Tensor]:
+        logits = self.llm.logits_processor(self.llm.lm_head, hidden_states,
+                                           sampling_metadata)
+        return logits
+
+    def load_weights(self, weights: Iterable[Tuple[str,
+                                                   torch.Tensor]]) -> Set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
+
+    def get_language_model(self) -> torch.nn.Module:
+        return self.llm
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index df5b23232..156a201de 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -195,6 +195,7 @@ _MULTIMODAL_MODELS = {
     "Mistral3ForConditionalGeneration": ("mistral3", "Mistral3ForConditionalGeneration"),  # noqa: E501
     "MolmoForCausalLM": ("molmo", "MolmoForCausalLM"),
     "NVLM_D": ("nvlm_d", "NVLM_D_Model"),
+    "Ovis2ForConditionalGeneration": ("ovis2", "Ovis2ForConditionalGeneration"),
     "PaliGemmaForConditionalGeneration": ("paligemma", "PaliGemmaForConditionalGeneration"),  # noqa: E501
     "Phi3VForCausalLM": ("phi3v", "Phi3VForCausalLM"),
     "PixtralForConditionalGeneration": ("pixtral", "PixtralForConditionalGeneration"),  # noqa: E501
diff --git a/vllm/transformers_utils/config.py b/vllm/transformers_utils/config.py
index 5ddfadb02..f6c2b3553 100644
--- a/vllm/transformers_utils/config.py
+++ b/vllm/transformers_utils/config.py
@@ -38,9 +38,9 @@ from vllm.transformers_utils.configs import (ChatGLMConfig, Cohere2Config,
                                              MiniMaxVL01Config, MllamaConfig,
                                              MLPSpeculatorConfig, MPTConfig,
                                              NemotronConfig, NVLM_D_Config,
-                                             RWConfig, SkyworkR1VChatConfig,
-                                             SolarConfig, Telechat2Config,
-                                             UltravoxConfig)
+                                             OvisConfig, RWConfig,
+                                             SkyworkR1VChatConfig, SolarConfig,
+                                             Telechat2Config, UltravoxConfig)
 # yapf: enable
 from vllm.transformers_utils.utils import check_gguf_file
 from vllm.utils import resolve_obj_by_qualname
@@ -79,6 +79,7 @@ _CONFIG_REGISTRY: Dict[str, Type[PretrainedConfig]] = {
     "minimax_vl_01": MiniMaxVL01Config,
     "nemotron": NemotronConfig,
     "NVLM_D": NVLM_D_Config,
+    "ovis": OvisConfig,
     "solar": SolarConfig,
     "skywork_chat": SkyworkR1VChatConfig,
     "telechat": Telechat2Config,
diff --git a/vllm/transformers_utils/configs/__init__.py b/vllm/transformers_utils/configs/__init__.py
index 8945c45ea..db3efafee 100644
--- a/vllm/transformers_utils/configs/__init__.py
+++ b/vllm/transformers_utils/configs/__init__.py
@@ -23,6 +23,7 @@ from vllm.transformers_utils.configs.moonvit import MoonViTConfig
 from vllm.transformers_utils.configs.mpt import MPTConfig
 from vllm.transformers_utils.configs.nemotron import NemotronConfig
 from vllm.transformers_utils.configs.nvlm_d import NVLM_D_Config
+from vllm.transformers_utils.configs.ovis2 import OvisConfig
 from vllm.transformers_utils.configs.skyworkr1v import SkyworkR1VChatConfig
 from vllm.transformers_utils.configs.solar import SolarConfig
 from vllm.transformers_utils.configs.telechat2 import Telechat2Config
@@ -49,6 +50,7 @@ __all__ = [
     "KimiVLConfig",
     "NemotronConfig",
     "NVLM_D_Config",
+    "OvisConfig",
     "SkyworkR1VChatConfig",
     "SolarConfig",
     "Telechat2Config",
diff --git a/vllm/transformers_utils/configs/ovis2.py b/vllm/transformers_utils/configs/ovis2.py
new file mode 100644
index 000000000..437a16e77
--- /dev/null
+++ b/vllm/transformers_utils/configs/ovis2.py
@@ -0,0 +1,170 @@
+# SPDX-License-Identifier: Apache-2.0
+
+# yapf: disable
+# ruff: noqa: E501
+# copied from https://huggingface.co/AIDC-AI/Ovis2-1B/blob/main/configuration_aimv2.py
+# and https://huggingface.co/AIDC-AI/Ovis2-1B/blob/main/configuration_ovis.py
+from typing import Any, Optional, Union
+
+from transformers import AutoConfig, PretrainedConfig
+
+
+class AIMv2Config(PretrainedConfig):
+    """This is the configuration class to store the configuration of an [`AIMv2Model`].
+
+    Instantiating a configuration with the defaults will yield a similar configuration
+    to that of the [apple/aimv2-large-patch14-224](https://huggingface.co/apple/aimv2-large-patch14-224).
+
+    Args:
+        hidden_size: Dimension of the hidden representations.
+        intermediate_size: Dimension of the SwiGLU representations.
+        num_hidden_layers: Number of hidden layers in the Transformer.
+        num_attention_heads: Number of attention heads for each attention layer
+            in the Transformer.
+        num_channels: Number of input channels.
+        image_size: Image size.
+        patch_size: Patch size.
+        rms_norm_eps: Epsilon value used for the RMS normalization layer.
+        attention_dropout: Dropout ratio for attention probabilities.
+        projection_dropout: Dropout ratio for the projection layer after the attention.
+        qkv_bias: Whether to add a bias to the queries, keys and values.
+        use_bias: Whether to add a bias in the feed-forward and projection layers.
+        kwargs: Keyword arguments for the [`PretrainedConfig`].
+    """
+
+    model_type: str = "aimv2"
+
+    def __init__(
+        self,
+        hidden_size: int = 1024,
+        intermediate_size: int = 2816,
+        num_hidden_layers: int = 24,
+        num_attention_heads: int = 8,
+        num_channels: int = 3,
+        image_size: int = 224,
+        patch_size: int = 14,
+        rms_norm_eps: float = 1e-5,
+        attention_dropout: float = 0.0,
+        projection_dropout: float = 0.0,
+        qkv_bias: bool = False,
+        use_bias: bool = False,
+        **kwargs: Any,
+    ):
+        super().__init__(**kwargs)
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.num_channels = num_channels
+        self.patch_size = patch_size
+        self.image_size = image_size
+        self.attention_dropout = attention_dropout
+        self.rms_norm_eps = rms_norm_eps
+
+        self.projection_dropout = projection_dropout
+        self.qkv_bias = qkv_bias
+        self.use_bias = use_bias
+
+
+IGNORE_ID = -100
+IMAGE_TOKEN_ID = -200
+IMAGE_TOKEN = "<image>"
+IMAGE_ATOM_ID = -300
+IMAGE_INDICATOR_IDS = [-301, -302, -303, -304, -305]
+
+AutoConfig.register("aimv2", AIMv2Config)
+
+
+# ----------------------------------------------------------------------
+#                     Visual Tokenizer Configuration
+# ----------------------------------------------------------------------
+class BaseVisualTokenizerConfig(PretrainedConfig):
+
+    def __init__(self,
+                 vocab_size=16384,
+                 tokenize_function="softmax",
+                 tau=1.0,
+                 depths=None,
+                 drop_cls_token=False,
+                 backbone_config: Optional[Union[PretrainedConfig,
+                                                 dict]] = None,
+                 hidden_stride: int = 1,
+                 **kwargs):
+        super().__init__(**kwargs)
+        self.vocab_size = vocab_size
+        self.tokenize_function = tokenize_function
+        self.tau = tau
+        if isinstance(depths, str):
+            depths = [int(x) for x in depths.split('|')]
+        self.depths = depths
+        self.backbone_kwargs = dict[str, Any]()
+        self.drop_cls_token = drop_cls_token
+        if backbone_config is not None:
+            assert isinstance(backbone_config, (PretrainedConfig, dict)), \
+                f"expect `backbone_config` to be instance of PretrainedConfig or dict, but got {type(backbone_config)} type"
+            if not isinstance(backbone_config, PretrainedConfig):
+                model_type = backbone_config['model_type']
+                backbone_config.pop('model_type')
+                backbone_config = AutoConfig.for_model(model_type,
+                                                       **backbone_config)
+        self.backbone_config = backbone_config
+        self.hidden_stride = hidden_stride
+
+
+class Aimv2VisualTokenizerConfig(BaseVisualTokenizerConfig):
+    model_type = "aimv2_visual_tokenizer"
+
+    def __init__(self, **kwargs):
+        super().__init__(**kwargs)
+        if self.drop_cls_token:
+            self.drop_cls_token = False
+        if self.depths:
+            assert len(self.depths) == 1
+            self.backbone_kwargs['num_hidden_layers'] = self.depths[0]
+
+
+AutoConfig.register("aimv2_visual_tokenizer", Aimv2VisualTokenizerConfig)
+
+
+# ----------------------------------------------------------------------
+#                           Ovis Configuration
+# ----------------------------------------------------------------------
+class OvisConfig(PretrainedConfig):
+    model_type = "ovis"
+
+    def __init__(self,
+                 llm_config: Optional[Union[PretrainedConfig, dict]] = None,
+                 visual_tokenizer_config: Optional[Union[PretrainedConfig,
+                                                         dict]] = None,
+                 multimodal_max_length=8192,
+                 hidden_size=None,
+                 conversation_formatter_class=None,
+                 llm_attn_implementation=None,
+                 disable_tie_weight=False,
+                 **kwargs):
+        super().__init__(**kwargs)
+        if llm_config is not None:
+            assert isinstance(llm_config, (PretrainedConfig, dict)), \
+                f"expect `llm_config` to be instance of PretrainedConfig or dict, but got {type(llm_config)} type"
+            if not isinstance(llm_config, PretrainedConfig):
+                model_type = llm_config['model_type']
+                llm_config.pop('model_type')
+                llm_config = AutoConfig.for_model(model_type, **llm_config)
+
+        # map llm_config to text_config
+        self.text_config = llm_config
+        if visual_tokenizer_config is not None:
+            assert isinstance(visual_tokenizer_config, (PretrainedConfig, dict)), \
+                f"expect `visual_tokenizer_config` to be instance of PretrainedConfig or dict, but got {type(visual_tokenizer_config)} type"
+            if not isinstance(visual_tokenizer_config, PretrainedConfig):
+                model_type = visual_tokenizer_config['model_type']
+                visual_tokenizer_config.pop('model_type')
+                visual_tokenizer_config = AutoConfig.for_model(
+                    model_type, **visual_tokenizer_config)
+
+        self.visual_tokenizer_config = visual_tokenizer_config
+        self.multimodal_max_length = multimodal_max_length
+        self.hidden_size = hidden_size
+        self.conversation_formatter_class = conversation_formatter_class
+        self.llm_attn_implementation = llm_attn_implementation
+        self.disable_tie_weight = disable_tie_weight
diff --git a/vllm/transformers_utils/processors/__init__.py b/vllm/transformers_utils/processors/__init__.py
index 4696f0c49..2e9cf3e4d 100644
--- a/vllm/transformers_utils/processors/__init__.py
+++ b/vllm/transformers_utils/processors/__init__.py
@@ -2,5 +2,6 @@
 
 from vllm.transformers_utils.processors.deepseek_vl2 import (
     DeepseekVLV2Processor)
+from vllm.transformers_utils.processors.ovis2 import OvisProcessor
 
-__all__ = ["DeepseekVLV2Processor"]
+__all__ = ["DeepseekVLV2Processor", "OvisProcessor"]
diff --git a/vllm/transformers_utils/processors/ovis2.py b/vllm/transformers_utils/processors/ovis2.py
new file mode 100644
index 000000000..fa5bdd40e
--- /dev/null
+++ b/vllm/transformers_utils/processors/ovis2.py
@@ -0,0 +1,397 @@
+# SPDX-License-Identifier: Apache-2.0
+
+# yapf: disable
+# ruff: noqa: E501
+# coding=utf-8
+# adapted from https://github.com/AIDC-AI/Ovis/blob/35ab51a1a1e3542fa6db260a1084cefbc8f164bb/ovis/vllm/processing_ovis.py
+# Copyright 2025 The Qwen Team and The HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from typing import List, Union
+
+import PIL
+import torch
+from transformers import AutoProcessor, BatchFeature
+from transformers.image_utils import ImageInput
+from transformers.processing_utils import (ProcessingKwargs, ProcessorMixin,
+                                           Unpack)
+from transformers.tokenization_utils_base import PreTokenizedInput, TextInput
+
+__all__ = [ 'OvisProcessor']
+IGNORE_ID = -100
+
+class OvisProcessorKwargs(ProcessingKwargs, total=False):   # type: ignore[call-arg]
+    _defaults = {
+        "text_kwargs": {
+            "padding": False,
+        },
+        "images_kwargs": {
+            'max_partition':9,
+            'covering_threshold':0.9,
+            'convert_to_rgb':True,
+        'return_tensors':'pt'},
+    }
+
+
+
+class OvisProcessor(ProcessorMixin):
+    r"""
+    Constructs a Ovis processor which wraps a Ovis image processor and a Qwen2 tokenizer into a single processor.
+    [`OvisProcessor`] offers all the functionalities of [`Qwen2VLImageProcessor`] and [`Qwen2TokenizerFast`]. See the
+    [`~OvisProcessor.__call__`] and [`~OvisProcessor.decode`] for more information.
+    Args:
+        image_processor ([`Qwen2VLImageProcessor`], *optional*):
+            The image processor is a required input.
+        tokenizer ([`Qwen2TokenizerFast`], *optional*):
+            The tokenizer is a required input.
+        chat_template (`str`, *optional*): A Jinja template which will be used to convert lists of messages
+            in a chat into a tokenizable string.
+    """
+
+    attributes = ["image_processor", "tokenizer"]
+    valid_kwargs = ["chat_template"]
+
+    image_processor_class = "AutoImageProcessor"
+    tokenizer_class = "Qwen2Tokenizer"
+
+    def __init__(self, image_processor=None, tokenizer=None, chat_template=None, **kwargs):
+        self.image_token = "<|image_pad|>" if not hasattr(tokenizer, "image_token") else tokenizer.image_token
+        self.video_token = "<|video_pad|>" if not hasattr(tokenizer, "video_token") else tokenizer.video_token
+        super().__init__(image_processor, tokenizer, chat_template=chat_template)
+
+        self.extra_special_tokens = {
+            "image_token": "<image>",
+            "image_atom": "<image_atom>",
+            "image_start": "<img>",
+            "image_prefix": "<pre>",
+            "image_col_sep": "<col>",
+            "image_row_sep": "<row>",
+            "image_end": "</img>",
+            'image_pad': '<image_pad>',
+        }
+
+    def __call__(
+        self,
+        images: ImageInput = None,
+        text: Union[TextInput, PreTokenizedInput, List[TextInput], List[PreTokenizedInput]] = None,
+        **kwargs: Unpack[OvisProcessorKwargs],
+    ) -> BatchFeature:
+        """
+        Main method to prepare for the model one or several sequences(s) and image(s). This method forwards the `text`
+        and `kwargs` arguments to Qwen2TokenizerFast's [`~Qwen2TokenizerFast.__call__`] if `text` is not `None` to encode
+        the text. To prepare the vision inputs, this method forwards the `vision_infos` and `kwrags` arguments to
+        Qwen2VLImageProcessor's [`~Qwen2VLImageProcessor.__call__`] if `vision_infos` is not `None`.
+            Args:
+                images (`PIL.Image.Image`, `np.ndarray`, `torch.Tensor`, `List[PIL.Image.Image]`, `List[np.ndarray]`, `List[torch.Tensor]`):
+                    The image or batch of images to be prepared. Each image can be a PIL image, NumPy array or PyTorch
+                    tensor. Both channels-first and channels-last formats are supported.
+                text (`str`, `List[str]`, `List[List[str]]`):
+                    The sequence or batch of sequences to be encoded. Each sequence can be a string or a list of strings
+                    (pretokenized string). If the sequences are provided as list of strings (pretokenized), you must set
+                    `is_split_into_words=True` (to lift the ambiguity with a batch of sequences).
+                videos (`np.ndarray`, `torch.Tensor`, `List[np.ndarray]`, `List[torch.Tensor]`):
+                    The image or batch of videos to be prepared. Each video can be a 4D NumPy array or PyTorch
+                    tensor, or a nested list of 3D frames. Both channels-first and channels-last formats are supported.
+                return_tensors (`str` or [`~utils.TensorType`], *optional*):
+                    If set, will return tensors of a particular framework. Acceptable values are:
+                    - `'tf'`: Return TensorFlow `tf.constant` objects.
+                    - `'pt'`: Return PyTorch `torch.Tensor` objects.
+                    - `'np'`: Return NumPy `np.ndarray` objects.
+                    - `'jax'`: Return JAX `jnp.ndarray` objects.
+            Returns:
+                [`BatchFeature`]: A [`BatchFeature`] with the following fields:
+                - **input_ids** -- List of token ids to be fed to a model. Returned when `text` is not `None`.
+                - **attention_mask** -- List of indices specifying which tokens should be attended to by the model (when
+                  `return_attention_mask=True` or if *"attention_mask"* is in `self.model_input_names` and if `text` is not
+                  `None`).
+                - **pixel_values** -- Pixel values to be fed to a model. Returned when `images` is not `None`.
+                - **pixel_values_videos** -- Pixel values of videos to be fed to a model. Returned when `videos` is not `None`.
+                - **image_grid_thw** -- List of image 3D grid in LLM. Returned when `images` is not `None`.
+                - **video_grid_thw** -- List of video 3D grid in LLM. Returned when `videos` is not `None`.
+                - **second_per_grid_ts** -- List of video seconds per time grid. Returned when `videos` is not `None`.
+        """
+        output_kwargs = self._merge_kwargs(
+            OvisProcessorKwargs,
+            tokenizer_init_kwargs=self.tokenizer.init_kwargs,
+            **kwargs,
+        )
+
+        # Process all images first
+        image_features = {}
+        if images is not None:
+            processed_images = []
+            image_placeholders_list = []
+            grids = []
+
+            # Process each image
+            for image in images if isinstance(images, list) else [images]:
+                pixel_values, image_placeholders, grid = self.preprocess_image(
+                    image=image, **output_kwargs["images_kwargs"]
+                )
+                processed_images.append(pixel_values)
+                image_placeholders_list.append(image_placeholders)
+                grids.append(grid)
+
+            # assign all processed images
+            if processed_images:
+                image_features["image_placeholders"] = image_placeholders_list
+
+        # Process text input
+        if text is not None:
+
+            if not isinstance(text, list):
+                text = [text]
+
+            tokenized_batched_text = self.tokenizer.batch_encode_plus(
+                text,
+                **output_kwargs["text_kwargs"]
+            )
+            image_token_id = self.get_token_value("image_token")
+            replaced_ids_list = []
+            replaced_attn_mask_list = []
+            idx = 0
+            for ids_tensor, attn_mask in zip(tokenized_batched_text['input_ids'],
+                                             tokenized_batched_text['attention_mask']):
+                if image_token_id in ids_tensor and "image_placeholders" in image_features:
+                    if idx < len(image_features["image_placeholders"]):
+                        # Converts in list for ease of use
+                        ids_list = ids_tensor.tolist()
+                        attn_list = attn_mask.tolist()
+
+                        new_ids = []
+                        new_attn = []
+
+                        # replace placeholders
+                        for i, token_id in enumerate(ids_list):
+                            if token_id == image_token_id:
+                                placeholder_ids = image_features["image_placeholders"][idx]
+                                new_ids.extend(placeholder_ids)
+                                new_attn.extend([1] * len(placeholder_ids))
+                                idx += 1
+                            else:
+                                new_ids.append(token_id)
+                                new_attn.append(attn_list[i])
+
+                        # Converts back to tensors
+                        ids_tensor = torch.tensor(new_ids, dtype=torch.long)
+                        attn_mask = torch.tensor(new_attn, dtype=torch.long)
+                    else:
+                        raise RuntimeError(
+                            'Mismatch between the images you provided and the number of placeholder present in the text')
+
+                replaced_ids_list.append(ids_tensor)
+                replaced_attn_mask_list.append(attn_mask)
+
+            if replaced_ids_list:
+                replaced_and_tokenized_ids = torch.stack(replaced_ids_list)
+                replaced_and_tokenized_attn_mask = torch.stack(replaced_attn_mask_list)
+            else:
+                replaced_and_tokenized_ids = torch.tensor([], dtype=torch.long)
+                replaced_and_tokenized_attn_mask = torch.tensor([], dtype=torch.long)
+
+            # Create the output with text features
+            output = BatchFeature(
+                data={
+                    "input_ids": replaced_and_tokenized_ids,
+                    "attention_mask": replaced_and_tokenized_attn_mask,
+                }
+            )
+
+            # Add image features if present
+            if image_features:
+                output["pixel_values"] = processed_images
+                output['grids'] = grids
+
+            return output
+
+
+        # If only images were provided
+        return BatchFeature(data=image_features)
+
+
+    def get_image_size(self):
+        height = self.image_processor.crop_size["height"]
+        width = self.image_processor.crop_size["width"]
+        return height, width
+
+    def get_token_value(self, tok):
+        return self.tokenizer.get_vocab()[self.extra_special_tokens[tok]]
+
+    def construct_image_placeholders(self, grid):
+
+        image_placeholders = [self.get_token_value('image_start'),
+                              self.get_token_value('image_atom'),
+                              self.get_token_value('image_prefix')]
+        if grid[0] * grid[1] > 1:
+            for r in range(grid[0]):
+                for c in range(grid[1]):
+                    image_placeholders.append(self.get_token_value('image_atom') )
+                    if c < grid[1] - 1:
+                        image_placeholders.append(self.get_token_value('image_col_sep'))
+                if r < grid[0] - 1:
+                    image_placeholders.append(self.get_token_value('image_row_sep'))
+        image_placeholders.append(self.get_token_value('image_end'))
+        # return image_placeholders
+
+        image_atom_token_id = self.get_token_value('image_atom')
+        # Extract the padding token ID from tokenizer
+        image_padding_token_id = self.get_token_value('image_pad')
+
+        # Create a new list with padding tokens inserted
+        padded_placeholder_tokens = []
+        for token in image_placeholders:
+            padded_placeholder_tokens.append(token)
+            if token == image_atom_token_id:
+                # Add 255 padding tokens after each image atom token
+                padded_placeholder_tokens.extend([image_padding_token_id] * 255)
+        return padded_placeholder_tokens
+
+    def preprocess_image(self, image: PIL.Image.Image, max_partition, covering_threshold, convert_to_rgb, return_tensors):
+        def _preprocess(img: PIL.Image.Image, side):
+            # first resize and preprocess
+            w, h = img.size
+            if w == h:
+                new_width = new_height = side
+            elif w > h:
+                new_width = side
+                new_height = int(h / w * new_width)
+            else:
+                new_height = side
+                new_width = int(w / h * new_height)
+            new_size = dict(height=new_height, width=new_width)
+            pixel_values = self.image_processor.preprocess(img, size=new_size, return_tensors=return_tensors)['pixel_values']
+
+            # then pad to square
+            square_values = torch.zeros([1, 3, side, side], dtype=pixel_values.dtype, device=pixel_values.device)
+            new_height, new_width = pixel_values.shape[2:]
+            if new_height == new_width:
+                square_values[:, :, :, :] = pixel_values
+            elif new_height > new_width:
+                from_index = (side - new_width) // 2
+                square_values[:, :, :, from_index:from_index + new_width] = pixel_values
+            else:
+                from_index = (side - new_height) // 2
+                square_values[:, :, from_index:from_index + new_height, :] = pixel_values
+
+            return square_values
+
+        def _partition(img, grid) -> list[tuple[int, int, int, int]]:
+            w, h = img.size
+            row_height = h // grid[0]
+            col_width = w // grid[1]
+
+            partition = []
+            for row in range(grid[0]):
+                for col in range(grid[1]):
+                    left = col * col_width
+                    upper = row * row_height
+                    right = w if col == grid[1] - 1 else (col + 1) * col_width
+                    lower = h if row == grid[0] - 1 else (row + 1) * row_height
+                    partition.append((left, upper, right, lower))
+
+            return partition
+
+        def _covering_area(left, upper, right, lower, side):
+            w = right - left
+            h = lower - upper
+            w, h = max(w, h), min(w, h)
+            if w > side:
+                h = h / w * side
+                w = side
+            return w * h
+
+        def _get_best_grid(img, side):
+            img_area = img.size[0] * img.size[1]
+
+            candidate_grids = []
+            for i in range(1, max_partition + 1):
+                for j in range(1, max_partition + 1):
+                    if i * j <= max_partition:
+                        candidate_grids.append((i, j))
+
+            all_grids = []
+            good_grids = []
+            for grid in candidate_grids:
+                partition = _partition(img, grid)
+                covering_ratio = sum([_covering_area(*p, side) for p in partition]) / img_area
+                assert covering_ratio <= 1.0
+                all_grids.append((grid, covering_ratio))
+                if covering_ratio > covering_threshold:
+                    good_grids.append((grid, covering_ratio))
+
+            if len(good_grids) > 0:
+                # pick the good partition with minimum #sub_images and break the tie using covering_ratio
+                return sorted(good_grids, key=lambda x: (x[0][0] * x[0][1], -x[1]))[0][0]
+            else:
+                # pick the partition with maximum covering_ratio and break the tie using #sub_images
+                return sorted(all_grids, key=lambda x: (-x[1], x[0][0] * x[0][1]))[0][0]
+
+        if convert_to_rgb and image.mode != 'RGB':
+            image = image.convert('RGB')
+
+
+        sides = self.get_image_size()
+        if sides[0] != sides[1]:
+            raise ValueError('get_image_size() returns non-square size')
+        side = sides[0]
+        grid = _get_best_grid(image, side)
+        partition = _partition(image, grid)
+        crops = [image.crop(p) for p in partition]
+        if len(crops) > 1:
+            crops.insert(0, image)
+        pixel_values = torch.cat([_preprocess(crop, side) for crop in crops], dim=0)
+        image_placeholders = self.construct_image_placeholders(grid)
+        return pixel_values, image_placeholders, grid
+
+    def batch_decode(self, *args, **kwargs):
+        """
+        This method forwards all its arguments to Qwen2TokenizerFast's [`~PreTrainedTokenizer.batch_decode`]. Please
+        refer to the docstring of this method for more information.
+        """
+        return self.tokenizer.batch_decode(*args, **kwargs)
+
+    def decode(self, *args, **kwargs):
+        """
+        This method forwards all its arguments to Qwen2TokenizerFast's [`~PreTrainedTokenizer.decode`]. Please refer to
+        the docstring of this method for more information.
+        """
+        return self.tokenizer.decode(*args, **kwargs)
+
+    def post_process_image_text_to_text(self, generated_outputs):
+        """
+        Post-process the output of the model to decode the text.
+        Args:
+            generated_outputs (`torch.Tensor` or `np.ndarray`):
+                The output of the model `generate` function. The output is expected to be a tensor of shape `(batch_size, sequence_length)`
+                or `(sequence_length,)`.
+        Returns:
+            `List[str]`: The decoded text.
+        """
+        return self.tokenizer.batch_decode(
+            generated_outputs, skip_special_tokens=True, clean_up_tokenization_spaces=False
+        )
+
+    @property
+    def model_input_names(self):
+        tokenizer_input_names = self.tokenizer.model_input_names
+        image_processor_input_names = self.image_processor.model_input_names
+        names_from_processor = list(dict.fromkeys(tokenizer_input_names + image_processor_input_names))
+        return names_from_processor + ["second_per_grid_ts"]
+
+
+AutoProcessor.register("OvisProcessor", OvisProcessor)
\ No newline at end of file
-- 
GitLab


From ece5a8b0b6657b8c46b20daba2869762d1765008 Mon Sep 17 00:00:00 2001
From: Lu Fang <30275821+houseroad@users.noreply.github.com>
Date: Wed, 30 Apr 2025 00:52:48 -0700
Subject: [PATCH 054/461] Make the _apply_rotary_emb compatible with dynamo
 (#17435)

---
 vllm/model_executor/layers/rotary_embedding.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/vllm/model_executor/layers/rotary_embedding.py b/vllm/model_executor/layers/rotary_embedding.py
index 00f4e66bd..b179a0f00 100644
--- a/vllm/model_executor/layers/rotary_embedding.py
+++ b/vllm/model_executor/layers/rotary_embedding.py
@@ -32,6 +32,9 @@ from transformers import PretrainedConfig
 from vllm.model_executor.custom_op import CustomOp
 from vllm.platforms import current_platform
 
+if current_platform.is_cuda_alike():
+    from vllm.vllm_flash_attn.layers.rotary import apply_rotary_emb
+
 
 def _rotate_neox(x: torch.Tensor) -> torch.Tensor:
     x1 = x[..., :x.shape[-1] // 2]
@@ -78,7 +81,6 @@ def _apply_rotary_emb(x: torch.Tensor, cos: torch.Tensor, sin: torch.Tensor,
             positional embeddings.
     """
     if current_platform.is_cuda_alike():
-        from vllm.vllm_flash_attn.layers.rotary import apply_rotary_emb
         return apply_rotary_emb(x.unsqueeze(0), cos, sin,
                                 not is_neox_style).squeeze(0)
     else:
-- 
GitLab


From 1534d389af44a779d6b8b16f8574a50a2ab06f38 Mon Sep 17 00:00:00 2001
From: Chauncey <chaunceyjiang@gmail.com>
Date: Wed, 30 Apr 2025 16:52:19 +0800
Subject: [PATCH 055/461] [Misc] Remove deprecated files (#17447)

Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>
---
 .../guided_decoding/reasoner/__init__.py      | 35 -------------------
 1 file changed, 35 deletions(-)
 delete mode 100644 vllm/model_executor/guided_decoding/reasoner/__init__.py

diff --git a/vllm/model_executor/guided_decoding/reasoner/__init__.py b/vllm/model_executor/guided_decoding/reasoner/__init__.py
deleted file mode 100644
index ab6e47c00..000000000
--- a/vllm/model_executor/guided_decoding/reasoner/__init__.py
+++ /dev/null
@@ -1,35 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-
-from __future__ import annotations
-
-from transformers import PreTrainedTokenizer
-
-from vllm.logger import init_logger
-from vllm.model_executor.guided_decoding.reasoner.deepseek_reasoner import (  # noqa: E501
-    DeepSeekReasoner)
-from vllm.model_executor.guided_decoding.reasoner.reasoner import Reasoner
-
-logger = init_logger(__name__)
-
-
-def get_reasoner(tokenizer: PreTrainedTokenizer,
-                 reasoning_backend: str | None) -> Reasoner | None:
-    if reasoning_backend is None:
-        # No reasoning backend specified
-        return None
-    elif reasoning_backend == "deepseek_r1":
-        return DeepSeekReasoner.from_tokenizer(tokenizer)
-    elif reasoning_backend == "granite":
-        logger.warning(
-            "Granite reasoner not yet implemented for structured outputs")
-        return None
-    else:
-        # Raise a warning for unknown reasoning backend and return None
-        # We cannot raise an error here because some reasoning models
-        # may not have a corresponding Reasoner class.
-        logger.warning("Unknown reasoning backend %s for structured outputs ",
-                       reasoning_backend)
-        return None
-
-
-__all__ = ["Reasoner", "get_reasoner"]
-- 
GitLab


From d8037867313eef09779b265ea4bace76d2d118ba Mon Sep 17 00:00:00 2001
From: "rongfu.leng" <rongfu.leng@daocloud.io>
Date: Wed, 30 Apr 2025 18:20:39 +0800
Subject: [PATCH 056/461] [V1][Bugfix]: vllm v1 verison metric num_gpu_blocks
 is None (#15755)

Signed-off-by: rongfu.leng <rongfu.leng@daocloud.io>
---
 vllm/v1/engine/async_llm.py   |  3 ++-
 vllm/v1/engine/core.py        |  9 ++++++++-
 vllm/v1/engine/core_client.py | 13 ++++++++++---
 vllm/v1/metrics/loggers.py    | 23 +++++++++++++++++------
 4 files changed, 37 insertions(+), 11 deletions(-)

diff --git a/vllm/v1/engine/async_llm.py b/vllm/v1/engine/async_llm.py
index 2562fcc9c..14ce820cc 100644
--- a/vllm/v1/engine/async_llm.py
+++ b/vllm/v1/engine/async_llm.py
@@ -120,7 +120,8 @@ class AsyncLLM(EngineClient):
             executor_class=executor_class,
             log_stats=self.log_stats,
         )
-
+        for stat_logger in self.stat_loggers[0]:
+            stat_logger.log_engine_initialized()
         self.output_handler: Optional[asyncio.Task] = None
         try:
             # Start output handler eagerly if we are in the asyncio eventloop.
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index 80807665e..5912318f1 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -1,4 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
+import json
 import os
 import queue
 import signal
@@ -116,6 +117,7 @@ class EngineCore:
             logger.info("Batch queue is enabled with size %d",
                         self.batch_queue_size)
             self.batch_queue = queue.Queue(self.batch_queue_size)
+        self.vllm_config = vllm_config
 
     def _initialize_kv_caches(
             self, vllm_config: VllmConfig) -> tuple[int, int, KVCacheConfig]:
@@ -507,7 +509,12 @@ class EngineCoreProc(EngineCore):
                             bind=False) as socket:
 
             # Send ready message to front-end once input socket is connected.
-            socket.send(b'READY')
+            message_dict = {
+                'type': 'READY',
+                'num_gpu_blocks': self.vllm_config.cache_config.num_gpu_blocks,
+            }
+            message = json.dumps(message_dict).encode('utf-8')
+            socket.send(message)
 
             while True:
                 # (RequestType, RequestData)
diff --git a/vllm/v1/engine/core_client.py b/vllm/v1/engine/core_client.py
index dd5190996..0d5d92f72 100644
--- a/vllm/v1/engine/core_client.py
+++ b/vllm/v1/engine/core_client.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 import asyncio
 import contextlib
+import json
 import queue
 import uuid
 import weakref
@@ -362,6 +363,7 @@ class MPClient(EngineCoreClient):
         executor_class: type[Executor],
         log_stats: bool,
     ):
+        self.vllm_config = vllm_config
         # Serialization setup.
         self.encoder = MsgpackEncoder()
         self.decoder = MsgpackDecoder(EngineCoreOutputs)
@@ -430,14 +432,19 @@ class MPClient(EngineCoreClient):
                 raise RuntimeError("Engine core initialization failed. "
                                    "See root cause above.")
 
-            eng_id_bytes, msg = sync_input_socket.recv_multipart()
+            eng_id_bytes, data = sync_input_socket.recv_multipart()
             eng_id = int.from_bytes(eng_id_bytes, byteorder="little")
             if eng_id not in identities:
                 raise RuntimeError(f"Unexpected or duplicate engine: {eng_id}")
-            if msg != b'READY':
-                raise RuntimeError(f"Engine {eng_id} failed: {msg.decode()}")
+            message_dict = json.loads(data.decode('utf-8'))
+            if message_dict['type'] != 'READY':
+                raise RuntimeError(f"Engine {eng_id} failed: {data.decode()}")
             logger.info("Core engine process %d ready.", eng_id)
             identities.discard(eng_id)
+            # Setup KV cache config with initialization state from
+            # engine core process.
+            self.vllm_config.cache_config.num_gpu_blocks = message_dict[
+                'num_gpu_blocks']
 
     def _init_core_engines(
         self,
diff --git a/vllm/v1/metrics/loggers.py b/vllm/v1/metrics/loggers.py
index 7051c681b..9109bdcf4 100644
--- a/vllm/v1/metrics/loggers.py
+++ b/vllm/v1/metrics/loggers.py
@@ -39,6 +39,10 @@ class StatLoggerBase(ABC):
                iteration_stats: Optional[IterationStats]):
         ...
 
+    @abstractmethod
+    def log_engine_initialized(self):
+        ...
+
     def log(self):  # noqa
         pass
 
@@ -47,6 +51,7 @@ class LoggingStatLogger(StatLoggerBase):
 
     def __init__(self, vllm_config: VllmConfig, engine_index: int = 0):
         self.engine_index = engine_index
+        self.vllm_config = vllm_config
         self._reset(time.monotonic())
         self.last_scheduler_stats = SchedulerStats()
         # Prefix cache metrics. This cannot be reset.
@@ -127,12 +132,19 @@ class LoggingStatLogger(StatLoggerBase):
         if scheduler_stats.spec_decoding_stats is not None:
             self.spec_decoding_logging.log(log_fn=log_fn)
 
+    def log_engine_initialized(self):
+        logger.info(
+            "vllm cache_config_info with initialization " \
+            "after num_gpu_blocks is: %d",
+            self.vllm_config.cache_config.num_gpu_blocks)
+
 
 class PrometheusStatLogger(StatLoggerBase):
 
     def __init__(self, vllm_config: VllmConfig, engine_index: int = 0):
         self._unregister_vllm_metrics()
-
+        self.vllm_config = vllm_config
+        self.engine_index = engine_index
         # Use this flag to hide metrics that were deprecated in
         # a previous release and which will be removed future
         self.show_hidden_metrics = \
@@ -342,13 +354,9 @@ class PrometheusStatLogger(StatLoggerBase):
                         self.labelname_running_lora_adapters,
                     ])
 
-        #
-        # Cache config info metric
-        #
-        self.log_metrics_info("cache_config", vllm_config.cache_config)
-
     def log_metrics_info(self, type: str, config_obj: SupportsMetricsInfo):
         metrics_info = config_obj.metrics_info()
+        metrics_info["engine"] = self.engine_index
 
         name, documentation = None, None
         if type == "cache_config":
@@ -442,6 +450,9 @@ class PrometheusStatLogger(StatLoggerBase):
             if hasattr(collector, "_name") and "vllm" in collector._name:
                 prometheus_client.REGISTRY.unregister(collector)
 
+    def log_engine_initialized(self):
+        self.log_metrics_info("cache_config", self.vllm_config.cache_config)
+
 
 def build_buckets(mantissa_lst: list[int], max_value: int) -> list[int]:
     """
-- 
GitLab


From a7d5b016bd0a882767dc1c3cc1537dc8c93a2ea7 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Nicol=C3=B2=20Lucchesi?= <nlucches@redhat.com>
Date: Wed, 30 Apr 2025 13:03:22 +0200
Subject: [PATCH 057/461] [TPU][V1][CI] Update regression test baseline for v6
 CI (#17064)

Signed-off-by: NickLucche <nlucches@redhat.com>
---
 tests/v1/tpu/test_perf.py | 15 +++++++--------
 1 file changed, 7 insertions(+), 8 deletions(-)

diff --git a/tests/v1/tpu/test_perf.py b/tests/v1/tpu/test_perf.py
index 94a1da88a..811833f73 100644
--- a/tests/v1/tpu/test_perf.py
+++ b/tests/v1/tpu/test_perf.py
@@ -59,17 +59,16 @@ TEST_PARAMS = [
         prefix_len=500,
         decode_len=50,
 
-        # (This is the active CI/CD instance)
         # commit id: ccb246776d93ef105904a8ec015b3587240a1183
-        # tpu: v5lite (vllm CI/CD)
-        expected_avg_time=1.4,
-        err_tol=0.30,
+        # tpu: v5lite (old vllm CI/CD)
+        # expected_avg_time=1.4,
+        # err_tol=0.30,
 
-        # (TODO: There is no v6e in CI/CD currently)
+        # (This is the active CI/CD instance)
         # commit id: ccb246776d93ef105904a8ec015b3587240a1183
-        # tpu: v6e
-        # expected_avg_time=1.5,
-        # err_tol=0.20,
+        # tpu: v6e (current vllm CI/CD)
+        expected_avg_time=1.7,  # measured with VLLM_XLA_CACHE_PATH=  
+        err_tol=0.20,
     ),
 ]
 
-- 
GitLab


From 77073c77bc2006eb80ea6d5128f076f5e6c6f54f Mon Sep 17 00:00:00 2001
From: Marko Rosenmueller <5467316+dr75@users.noreply.github.com>
Date: Wed, 30 Apr 2025 14:27:21 +0200
Subject: [PATCH 058/461] [Core] Prevent side-channel attacks via cache salting
 (#17045)

Signed-off-by: Marko Rosenmueller <5467316+dr75@users.noreply.github.com>
---
 docs/source/design/v1/prefix_caching.md       |  20 +-
 tests/entrypoints/openai/test_serving_chat.py |  40 ++++
 tests/tokenization/test_detokenize.py         |  12 +-
 tests/v1/core/test_kv_cache_utils.py          |  43 ++++-
 tests/v1/core/test_prefix_caching.py          |  64 ++++++-
 tests/v1/engine/test_engine_core.py           |   1 +
 tests/v1/engine/test_engine_core_client.py    |   1 +
 tests/v1/engine/test_output_processor.py      |   7 +-
 vllm/entrypoints/openai/protocol.py           |  32 +++-
 vllm/entrypoints/openai/serving_engine.py     |   3 +
 vllm/inputs/data.py                           |  20 +-
 vllm/inputs/preprocess.py                     | 178 +++++++-----------
 vllm/multimodal/inputs.py                     |   5 +
 vllm/multimodal/processing.py                 |   2 +-
 vllm/v1/core/kv_cache_utils.py                |  13 +-
 vllm/v1/engine/__init__.py                    |   1 +
 vllm/v1/engine/processor.py                   |   1 +
 vllm/v1/request.py                            |   3 +
 18 files changed, 324 insertions(+), 122 deletions(-)

diff --git a/docs/source/design/v1/prefix_caching.md b/docs/source/design/v1/prefix_caching.md
index ec1f3cb8d..ec661d8ec 100644
--- a/docs/source/design/v1/prefix_caching.md
+++ b/docs/source/design/v1/prefix_caching.md
@@ -16,7 +16,7 @@ In the example above, the KV cache in the first block can be uniquely identified
 
 * Parent hash value: The hash value of the parent hash block.
 * Block tokens: A tuple of tokens in this block. The reason to include the exact tokens is to reduce potential hash value collision.
-* Extra hashes: Other values required to make this block unique, such as LoRA IDs and multi-modality input hashes (see the example below).
+* Extra hashes: Other values required to make this block unique, such as LoRA IDs, multi-modality input hashes (see the example below), and cache salts to isolate caches in multi-tenant environments.
 
 > **Note 1:** We only cache full blocks.
 
@@ -76,6 +76,24 @@ Block 3
 
 In the rest of this document, we first introduce the data structure used for prefix caching in vLLM v1, followed by the prefix caching workflow of major KV cache operators (e.g., allocate, append, free, eviction). Finally, we use an example to illustrate the end to end prefix caching workflow.
 
+**Cache Isolation for Security**
+To improve privacy in shared environments, vLLM supports isolating prefix cache reuse through optional per-request salting. By including a `cache_salt` in the request, this value is injected into the hash of the first block, ensuring that only requests with the same salt can reuse cached KV blocks. This prevents timing-based attacks where an adversary could infer cached content by observing latency differences. This offers protection without compromising performance.
+
+```json
+{
+  "messages": [
+    {"role": "system", "content": "You are a helpful assistant."},
+    {"role": "user", "content": "Here is a document with details about the world series: ..."},
+    {"role": "user", "content": "Who won the world series in 2020?"}
+  ],
+  "cache_salt": "Z3V2bmV3aGxza3ZubGFoZ3Zud3V3ZWZ2bmd0b3V2bnZmc2xpZ3RoZ2x2aQ=="
+}
+```
+
+With this setup, cache sharing is limited to users or requests that explicitly agree on a common salt, enabling cache reuse within a trust group while isolating others.
+
+> **Note:** Cache isolation is not supported in engine V0.
+
 ## Data Structure
 
 The prefix caching in vLLM v1 is implemented in the KV cache manager. The basic building block is the “Block” data class (simplified):
diff --git a/tests/entrypoints/openai/test_serving_chat.py b/tests/entrypoints/openai/test_serving_chat.py
index 19d16713b..5e11af8cf 100644
--- a/tests/entrypoints/openai/test_serving_chat.py
+++ b/tests/entrypoints/openai/test_serving_chat.py
@@ -272,3 +272,43 @@ def test_serving_chat_could_load_correct_generation_config():
 
     assert mock_engine.generate.call_args.args[1].temperature == 0.0
     assert mock_engine.generate.call_args.args[1].repetition_penalty == 1.05
+
+
+def test_serving_chat_did_set_correct_cache_salt():
+    mock_model_config = MockModelConfig()
+
+    mock_engine = MagicMock(spec=MQLLMEngineClient)
+    mock_engine.get_tokenizer.return_value = get_tokenizer(MODEL_NAME)
+    mock_engine.errored = False
+
+    # Initialize the serving chat
+    models = OpenAIServingModels(engine_client=mock_engine,
+                                 base_model_paths=BASE_MODEL_PATHS,
+                                 model_config=mock_model_config)
+    serving_chat = OpenAIServingChat(mock_engine,
+                                     mock_model_config,
+                                     models,
+                                     response_role="assistant",
+                                     chat_template=CHAT_TEMPLATE,
+                                     chat_template_content_format="auto",
+                                     request_logger=None)
+
+    # Test cache_salt
+    req = ChatCompletionRequest(
+        model=MODEL_NAME,
+        messages=[{
+            "role": "user",
+            "content": "what is 1+1?"
+        }],
+    )
+
+    # By default cache_salt in the engine prompt is not set
+    with suppress(Exception):
+        asyncio.run(serving_chat.create_chat_completion(req))
+    assert "cache_salt" not in mock_engine.generate.call_args.args[0]
+
+    # Test with certain cache_salt
+    req.cache_salt = "test_salt"
+    with suppress(Exception):
+        asyncio.run(serving_chat.create_chat_completion(req))
+    assert mock_engine.generate.call_args.args[0]["cache_salt"] == "test_salt"
diff --git a/tests/tokenization/test_detokenize.py b/tests/tokenization/test_detokenize.py
index f8e213b9c..079100e78 100644
--- a/tests/tokenization/test_detokenize.py
+++ b/tests/tokenization/test_detokenize.py
@@ -60,8 +60,16 @@ def _run_incremental_decode(tokenizer,
         skip_special_tokens=skip_special_tokens,
         spaces_between_special_tokens=spaces_between_special_tokens,
     )
-    request = EngineCoreRequest("", prompt_token_ids, None, None, None, params,
-                                None, 0.0, None)
+    request = EngineCoreRequest("",
+                                prompt_token_ids,
+                                None,
+                                None,
+                                None,
+                                params,
+                                None,
+                                0.0,
+                                None,
+                                cache_salt=None)
 
     if fast is None:
         detokenizer = IncrementalDetokenizer.from_new_request(
diff --git a/tests/v1/core/test_kv_cache_utils.py b/tests/v1/core/test_kv_cache_utils.py
index e73e08e74..e8069b8c6 100644
--- a/tests/v1/core/test_kv_cache_utils.py
+++ b/tests/v1/core/test_kv_cache_utils.py
@@ -29,7 +29,8 @@ from vllm.v1.request import Request
 def make_request(request_id,
                  prompt_token_ids,
                  mm_positions=None,
-                 mm_hashes=None):
+                 mm_hashes=None,
+                 cache_salt=None):
     if mm_positions is None:
         multi_modal_inputs = None
     else:
@@ -45,6 +46,7 @@ def make_request(request_id,
         eos_token_id=100,
         arrival_time=0,
         lora_request=None,
+        cache_salt=cache_salt,
     )
 
 
@@ -213,6 +215,45 @@ def test_generate_block_hash_extra_keys_no_mm_inputs():
     assert next_mm_idx == 0
 
 
+def test_generate_block_hash_extra_keys_cache_salt():
+    request = make_request(
+        request_id=0,
+        prompt_token_ids=[_ for _ in range(6)],
+        mm_positions=None,
+        mm_hashes=None,
+        cache_salt="salt",
+    )
+
+    # salt is added for the first token
+    extra_keys, _ = generate_block_hash_extra_keys(request, 0, 1, 0)
+    assert extra_keys == ('salt', )
+    extra_keys, _ = generate_block_hash_extra_keys(request, 0, 10, 0)
+    assert extra_keys == ('salt', )
+
+    # no salt added for other tokens
+    extra_keys, _ = generate_block_hash_extra_keys(request, 1, 2, 0)
+    assert extra_keys is None
+    extra_keys, _ = generate_block_hash_extra_keys(request, 6, 10, 0)
+    assert extra_keys is None
+
+    # works together with other extra keys
+    request_mm = make_request(
+        request_id=0,
+        prompt_token_ids=[_ for _ in range(20)],
+        mm_positions=[
+            PlaceholderRange(offset=0, length=5),
+        ],
+        mm_hashes=["hash1"],
+        cache_salt="salt",
+    )
+
+    # Test with no extra keys
+    extra_keys, next_mm_idx = generate_block_hash_extra_keys(
+        request_mm, 0, 5, 0)
+    assert extra_keys == ("hash1", "salt")
+    assert next_mm_idx == 1
+
+
 @pytest.mark.parametrize("hash_fn", [sha256, hash])
 def test_hash_block_tokens(hash_fn):
     parent_block_hash = 123
diff --git a/tests/v1/core/test_prefix_caching.py b/tests/v1/core/test_prefix_caching.py
index b2e8ff614..ae4bd95d2 100644
--- a/tests/v1/core/test_prefix_caching.py
+++ b/tests/v1/core/test_prefix_caching.py
@@ -21,7 +21,8 @@ def make_request(request_id,
                  prompt_token_ids,
                  mm_positions=None,
                  mm_hashes=None,
-                 prompt_logprobs: Optional[int] = None):
+                 prompt_logprobs: Optional[int] = None,
+                 cache_salt: Optional[str] = None):
     if mm_positions is None:
         multi_modal_inputs = None
     else:
@@ -38,6 +39,7 @@ def make_request(request_id,
         eos_token_id=100,
         arrival_time=0,
         lora_request=None,
+        cache_salt=cache_salt,
     )
 
 
@@ -603,6 +605,66 @@ def test_mm_prefix_caching():
     assert num_computed_tokens == 3 * 16
 
 
+def test_cache_key_salting():
+    """
+    This tests that cache salts are applied during hashing and the cache
+    is separated cache as expected.
+    """
+    block_size = 16
+    manager = KVCacheManager(
+        make_kv_cache_config(block_size, 11),
+        max_model_len=8192,
+        enable_caching=True,
+    )
+
+    # 3 complete blocks and an incomplete block with 11 tokens.
+    common_token_ids = [i for i in range(3) for _ in range(block_size)]
+    token_ids = common_token_ids + [3] * 11
+    req0 = make_request("0", token_ids, cache_salt="salt1")
+    computed_blocks, num_computed_tokens = manager.get_computed_blocks(req0)
+
+    # Completed block should have hashes with extra keys.
+    assert not computed_blocks
+    assert num_computed_tokens == 0
+    block_hashes = manager.req_to_block_hashes[req0.request_id]
+    assert len(block_hashes) == 3
+    assert block_hashes[0].extra_keys == ("salt1", )
+    assert block_hashes[1].extra_keys is None
+    assert block_hashes[2].extra_keys is None
+
+    blocks = manager.allocate_slots(req0, 59, computed_blocks)
+    assert [b.block_id for b in blocks] == [1, 2, 3, 4]
+    req0.num_computed_tokens = 59
+
+    # Append slots without allocating a new block.
+    for _ in range(5):
+        req0.append_output_token_ids(8)
+    new_blocks = manager.allocate_slots(req0, 5)
+    assert new_blocks is not None and len(new_blocks) == 0
+
+    # Now one more block that should not have extra keys.
+    assert len(block_hashes) == 4
+    assert block_hashes[3].extra_keys is None
+
+    # Test cache hit with a new request that has the same salt.
+    token_ids = common_token_ids + [4] * 11
+    req1 = make_request("1", token_ids, cache_salt="salt1")
+    computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
+    # Should match only a prefix of 3 blocks.
+    assert len(computed_blocks) == 3
+    assert num_computed_tokens == 3 * block_size
+
+    # Test cache miss with same content but different salt.
+    token_ids = common_token_ids + [4] * 11
+    req2 = make_request("2", token_ids, cache_salt="salt2")
+    computed_blocks, num_computed_tokens = manager.get_computed_blocks(req2)
+    assert len(computed_blocks) == 0
+    assert num_computed_tokens == 0
+    block_hashes = manager.req_to_block_hashes[req2.request_id]
+    assert len(block_hashes) == 3
+    assert block_hashes[0].extra_keys == ("salt2", )
+
+
 def test_prefill_not_enough_free_blocks_with_computed_blocks():
     """
     This is a unit test that tests the correctness of the allocate_slots
diff --git a/tests/v1/engine/test_engine_core.py b/tests/v1/engine/test_engine_core.py
index 30fa9e371..dcf494825 100644
--- a/tests/v1/engine/test_engine_core.py
+++ b/tests/v1/engine/test_engine_core.py
@@ -40,6 +40,7 @@ def make_request() -> EngineCoreRequest:
         eos_token_id=None,
         arrival_time=time.time(),
         lora_request=None,
+        cache_salt=None,
     )
 
 
diff --git a/tests/v1/engine/test_engine_core_client.py b/tests/v1/engine/test_engine_core_client.py
index 8cc36fa16..5514a3284 100644
--- a/tests/v1/engine/test_engine_core_client.py
+++ b/tests/v1/engine/test_engine_core_client.py
@@ -43,6 +43,7 @@ def make_request(params: SamplingParams) -> EngineCoreRequest:
         eos_token_id=None,
         arrival_time=time.time(),
         lora_request=None,
+        cache_salt=None,
     )
 
 
diff --git a/tests/v1/engine/test_output_processor.py b/tests/v1/engine/test_output_processor.py
index d2bb7d88f..fac701c4c 100644
--- a/tests/v1/engine/test_output_processor.py
+++ b/tests/v1/engine/test_output_processor.py
@@ -57,6 +57,7 @@ def test_incremental_detokenization(request_output_kind: RequestOutputKind,
                           mm_placeholders=None,
                           eos_token_id=None,
                           lora_request=None,
+                          cache_salt=None,
                           sampling_params=SamplingParams(
                               skip_special_tokens=False,
                               spaces_between_special_tokens=False,
@@ -403,6 +404,7 @@ def test_logprobs_processor(request_output_kind: RequestOutputKind,
                           mm_placeholders=None,
                           eos_token_id=None,
                           lora_request=None,
+                          cache_salt=None,
                           sampling_params=SamplingParams(
                               skip_special_tokens=False,
                               spaces_between_special_tokens=False,
@@ -503,7 +505,7 @@ def test_stop_token(include_stop_str_in_output: bool,
       reason should be "stop" (i.e. first control token causes stop
       and is represented in output text)
 
-    * else, the detokenized string should be 
+    * else, the detokenized string should be
       <token><token>...<token> and the finish reason should be "stop"
       (i.e. first control token causes stop but is not represented
       in output text.)
@@ -565,6 +567,7 @@ def test_stop_token(include_stop_str_in_output: bool,
         mm_placeholders=None,
         eos_token_id=eos_token_id,
         lora_request=None,
+        cache_salt=None,
         sampling_params=SamplingParams(
             skip_special_tokens=False,
             spaces_between_special_tokens=False,
@@ -661,6 +664,7 @@ def test_stop_string(include_stop_str_in_output: bool,
             mm_placeholders=None,
             eos_token_id=None,
             lora_request=None,
+            cache_salt=None,
             sampling_params=SamplingParams(
                 skip_special_tokens=False,
                 spaces_between_special_tokens=False,
@@ -774,6 +778,7 @@ def test_iteration_stats(dummy_test_vectors):
             mm_placeholders=None,
             eos_token_id=None,
             lora_request=None,
+            cache_salt=None,
             sampling_params=SamplingParams(),
         ) for idx, prompt_tokens in enumerate(dummy_test_vectors.prompt_tokens)
     ]
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
index d444442a9..389557dfb 100644
--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -14,6 +14,7 @@ from pydantic import (BaseModel, ConfigDict, Field, TypeAdapter,
                       ValidationInfo, field_validator, model_validator)
 from typing_extensions import TypeAlias
 
+from vllm import envs
 from vllm.entrypoints.chat_utils import ChatCompletionMessageParam
 from vllm.logger import init_logger
 from vllm.pooling_params import PoolingParams
@@ -408,6 +409,15 @@ class ChatCompletionRequest(OpenAIBaseModel):
             "If specified with 'logprobs', tokens are represented "
             " as strings of the form 'token_id:{token_id}' so that tokens "
             "that are not JSON-encodable can be identified."))
+    cache_salt: Optional[str] = Field(
+        default=None,
+        description=(
+            "If specified, the prefix cache will be salted with the provided "
+            "string to prevent an attacker to guess prompts in multi-user "
+            "environments. The salt should be random, protected from "
+            "access by 3rd parties, and long enough to be "
+            "unpredictable (e.g., 43 characters base64-encoded, corresponding "
+            "to 256 bit). Not supported by vLLM engine V0."))
 
     # doc: end-chat-completion-extra-params
 
@@ -726,6 +736,20 @@ class ChatCompletionRequest(OpenAIBaseModel):
                              "`add_generation_prompt` to True.")
         return data
 
+    @model_validator(mode="before")
+    @classmethod
+    def check_cache_salt_support(cls, data):
+        if data.get("cache_salt") is not None:
+            if not envs.VLLM_USE_V1:
+                raise ValueError(
+                    "Parameter 'cache_salt' is not supported with "
+                    "this instance of vLLM, which uses engine V0.")
+            if not isinstance(data["cache_salt"],
+                              str) or not data["cache_salt"]:
+                raise ValueError("Parameter 'cache_salt' must be a "
+                                 "non-empty string if provided.")
+        return data
+
 
 class CompletionRequest(OpenAIBaseModel):
     # Ordered by official OpenAI API documentation
@@ -1622,9 +1646,9 @@ class TranscriptionRequest(OpenAIBaseModel):
 
     # doc: begin-transcription-extra-params
     stream: Optional[bool] = False
-    """Custom field not present in the original OpenAI definition. When set, 
+    """Custom field not present in the original OpenAI definition. When set,
     it will enable output to be streamed in a similar fashion as the Chat
-    Completion endpoint. 
+    Completion endpoint.
     """
     # Flattened stream option to simplify form data.
     stream_include_usage: Optional[bool] = False
@@ -1642,7 +1666,7 @@ class TranscriptionRequest(OpenAIBaseModel):
     """
 
     top_p: Optional[float] = None
-    """Enables nucleus (top-p) sampling, where tokens are selected from the 
+    """Enables nucleus (top-p) sampling, where tokens are selected from the
     smallest possible set whose cumulative probability exceeds `p`.
     """
 
@@ -1650,7 +1674,7 @@ class TranscriptionRequest(OpenAIBaseModel):
     """Limits sampling to the `k` most probable tokens at each step."""
 
     min_p: Optional[float] = None
-    """Filters out tokens with a probability lower than `min_p`, ensuring a 
+    """Filters out tokens with a probability lower than `min_p`, ensuring a
     minimum likelihood threshold during sampling.
     """
 
diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
index c3121eff5..6123811aa 100644
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -470,6 +470,9 @@ class OpenAIServing:
         if request.mm_processor_kwargs is not None:
             engine_prompt["mm_processor_kwargs"] = request.mm_processor_kwargs
 
+        if hasattr(request, "cache_salt") and request.cache_salt is not None:
+            engine_prompt["cache_salt"] = request.cache_salt
+
         return conversation, [request_prompt], [engine_prompt]
 
     def _log_inputs(
diff --git a/vllm/inputs/data.py b/vllm/inputs/data.py
index 970b36bca..167189ed1 100644
--- a/vllm/inputs/data.py
+++ b/vllm/inputs/data.py
@@ -28,6 +28,11 @@ class TextPrompt(TypedDict):
     to pass the mm_processor_kwargs to each of them.
     """
 
+    cache_salt: NotRequired[str]
+    """
+    Optional cache salt to be used for prefix caching.
+    """
+
 
 class TokensPrompt(TypedDict):
     """Schema for a tokenized prompt."""
@@ -52,6 +57,11 @@ class TokensPrompt(TypedDict):
     to pass the mm_processor_kwargs to each of them.
     """
 
+    cache_salt: NotRequired[str]
+    """
+    Optional cache salt to be used for prefix caching.
+    """
+
 
 SingletonPrompt = Union[str, TextPrompt, TokensPrompt]
 """
@@ -141,11 +151,17 @@ class TokenInputs(TypedDict):
     The original prompt text corresponding to the token IDs, if available.
     """
 
+    cache_salt: NotRequired[str]
+    """
+    Optional cache salt to be used for prefix caching.
+    """
+
 
 def token_inputs(
     prompt_token_ids: list[int],
     token_type_ids: Optional[list[int]] = None,
     prompt: Optional[str] = None,
+    cache_salt: Optional[str] = None,
 ) -> TokenInputs:
     """Construct :class:`TokenInputs` from optional values."""
     inputs = TokenInputs(type="token", prompt_token_ids=prompt_token_ids)
@@ -154,6 +170,8 @@ def token_inputs(
         inputs["prompt"] = prompt
     if token_type_ids is not None:
         inputs["token_type_ids"] = token_type_ids
+    if cache_salt is not None:
+        inputs["cache_salt"] = cache_salt
 
     return inputs
 
@@ -217,7 +235,7 @@ def zip_enc_dec_prompts(
     """
     Zip encoder and decoder prompts together into a list of
     :class:`ExplicitEncoderDecoderPrompt` instances.
-    
+
     ``mm_processor_kwargs`` may also be provided; if a dict is passed, the same
     dictionary will be used for every encoder/decoder prompt. If an iterable is
     provided, it will be zipped with the encoder/decoder prompts.
diff --git a/vllm/inputs/preprocess.py b/vllm/inputs/preprocess.py
index 56b60b893..83e6907f8 100644
--- a/vllm/inputs/preprocess.py
+++ b/vllm/inputs/preprocess.py
@@ -17,7 +17,8 @@ from vllm.transformers_utils.tokenizer_group import TokenizerGroup
 
 from .data import (DecoderOnlyInputs, EncoderDecoderInputs, ProcessorInputs,
                    PromptType, SingletonInputs, SingletonPrompt, token_inputs)
-from .parse import is_explicit_encoder_decoder_prompt, parse_singleton_prompt
+from .parse import (ParsedStrPrompt, ParsedTextPrompt, ParsedTokensPrompt,
+                    is_explicit_encoder_decoder_prompt, parse_singleton_prompt)
 
 logger = init_logger(__name__)
 
@@ -283,6 +284,29 @@ class InputPreprocessor:
         return mm_processor.apply(prompt, mm_data, mm_processor_kwargs,
                                   return_mm_hashes)
 
+    def _get_prompt_data(self, parsed_prompt: Union[ParsedStrPrompt,
+                                                    ParsedTextPrompt,
+                                                    ParsedTokensPrompt]):
+        prompt_text = None
+        prompt_token_ids = None
+        token_type_ids = None
+        cache_salt = None
+
+        if parsed_prompt["type"] == "str":
+            prompt_text = parsed_prompt["content"]
+        else:
+            cache_salt = parsed_prompt["content"].get("cache_salt")
+            if parsed_prompt["type"] == "text":
+                prompt_text = parsed_prompt["content"]["prompt"]
+            elif parsed_prompt["type"] == "tokens":
+                prompt_token_ids = parsed_prompt["content"].get(
+                    "prompt_token_ids")
+                token_type_ids = parsed_prompt["content"].get("token_type_ids")
+            else:
+                assert_never(parsed_prompt)
+
+        return prompt_text, prompt_token_ids, token_type_ids, cache_salt
+
     def _prompt_to_llm_inputs(
         self,
         prompt: SingletonPrompt,
@@ -304,70 +328,36 @@ class InputPreprocessor:
         * :class:`SingletonInputs` instance
         """
         parsed = parse_singleton_prompt(prompt)
-
-        if parsed["type"] == "str":
-            prompt_text = parsed["content"]
-            prompt_token_ids = self._tokenize_prompt(
-                prompt_text,
+        prompt_text, prompt_token_ids, token_type_ids, cache_salt = \
+            self._get_prompt_data(parsed)
+
+        # If multimodal data is present, process and return immediately
+        if parsed["type"] != "str" and parsed["content"].get(
+                "multi_modal_data") is not None:
+            inputs = self._process_multimodal(
+                prompt_text if prompt_text is not None else prompt_token_ids,
+                parsed["content"]["multi_modal_data"],
+                parsed["content"].get("mm_processor_kwargs"),
                 lora_request=lora_request,
-                tokenization_kwargs=tokenization_kwargs,
-            )
-
-            return token_inputs(
-                prompt=prompt_text,
-                prompt_token_ids=prompt_token_ids,
+                return_mm_hashes=return_mm_hashes,
             )
+            if cache_salt is not None:
+                inputs["cache_salt"] = cache_salt
+            return inputs
 
-        if parsed["type"] == "tokens":
-            tokens_content = parsed["content"]
-
-            prompt_token_ids = tokens_content["prompt_token_ids"]
-            token_type_ids = tokens_content.get("token_type_ids")
-            multi_modal_data = tokens_content.get("multi_modal_data")
-            mm_processor_kwargs = tokens_content.get("mm_processor_kwargs")
-
-            if multi_modal_data is not None:
-                return self._process_multimodal(
-                    prompt_token_ids,
-                    multi_modal_data,
-                    mm_processor_kwargs,
-                    lora_request=lora_request,
-                    return_mm_hashes=return_mm_hashes,
-                )
-
-            return token_inputs(
-                prompt_token_ids=prompt_token_ids,
-                token_type_ids=token_type_ids,
-            )
-
-        if parsed["type"] == "text":
-            text_content = parsed["content"]
-
-            prompt_text = text_content["prompt"]
-            multi_modal_data = text_content.get("multi_modal_data")
-            mm_processor_kwargs = text_content.get("mm_processor_kwargs")
-
-            if multi_modal_data is not None:
-                return self._process_multimodal(
-                    prompt_text,
-                    multi_modal_data,
-                    mm_processor_kwargs,
-                    lora_request=lora_request,
-                    return_mm_hashes=return_mm_hashes,
-                )
-
+        if prompt_token_ids is None:
             prompt_token_ids = self._tokenize_prompt(
                 prompt_text,
                 lora_request=lora_request,
                 tokenization_kwargs=tokenization_kwargs,
             )
 
-            return token_inputs(
-                prompt=prompt_text,
-                prompt_token_ids=prompt_token_ids,
-            )
-
-        assert_never(parsed)
+        return token_inputs(
+            prompt=prompt_text,
+            prompt_token_ids=prompt_token_ids,
+            token_type_ids=token_type_ids,
+            cache_salt=cache_salt,
+        )
 
     async def _prompt_to_llm_inputs_async(
         self,
@@ -379,64 +369,35 @@ class InputPreprocessor:
         """Async version of :meth:`_extract_prompt_components`."""
         parsed = parse_singleton_prompt(prompt)
 
-        if parsed["type"] == "str":
-            prompt_text = parsed["content"]
-            prompt_token_ids = await self._tokenize_prompt_async(
-                prompt_text,
-                lora_request=lora_request,
-                tokenization_kwargs=tokenization_kwargs,
-            )
+        prompt_text, prompt_token_ids, token_type_ids, cache_salt = \
+            self._get_prompt_data(parsed)
 
-            return token_inputs(
-                prompt=prompt_text,
-                prompt_token_ids=prompt_token_ids,
+        if parsed["type"] != "str" and parsed["content"].get(
+                "multi_modal_data") is not None:
+            inputs = await self._process_multimodal_async(
+                prompt_token_ids if prompt_text is None else prompt_text,
+                parsed["content"]["multi_modal_data"],
+                parsed["content"].get("mm_processor_kwargs"),
+                lora_request=lora_request,
+                return_mm_hashes=return_mm_hashes,
             )
+            if cache_salt is not None:
+                inputs["cache_salt"] = cache_salt
+            return inputs
 
-        if parsed["type"] == "tokens":
-            tokens_content = parsed["content"]
-
-            prompt_token_ids = tokens_content["prompt_token_ids"]
-            multi_modal_data = tokens_content.get("multi_modal_data")
-            mm_processor_kwargs = tokens_content.get("mm_processor_kwargs")
-
-            if multi_modal_data is not None:
-                return await self._process_multimodal_async(
-                    prompt_token_ids,
-                    multi_modal_data,
-                    mm_processor_kwargs,
-                    lora_request=lora_request,
-                    return_mm_hashes=return_mm_hashes,
-                )
-
-            return token_inputs(prompt_token_ids=prompt_token_ids)
-
-        if parsed["type"] == "text":
-            text_content = parsed["content"]
-
-            prompt_text = text_content["prompt"]
-            multi_modal_data = text_content.get("multi_modal_data")
-            mm_processor_kwargs = text_content.get("mm_processor_kwargs")
-
-            if multi_modal_data is not None:
-                return await self._process_multimodal_async(
-                    prompt_text,
-                    multi_modal_data,
-                    mm_processor_kwargs,
-                    lora_request=lora_request,
-                    return_mm_hashes=return_mm_hashes,
-                )
-
+        if prompt_token_ids is None:
             prompt_token_ids = await self._tokenize_prompt_async(
                 prompt_text,
                 lora_request=lora_request,
+                tokenization_kwargs=tokenization_kwargs,
             )
 
-            return token_inputs(
-                prompt=prompt_text,
-                prompt_token_ids=prompt_token_ids,
-            )
-
-        assert_never(parsed)
+        return token_inputs(
+            prompt=prompt_text,
+            prompt_token_ids=prompt_token_ids,
+            token_type_ids=token_type_ids,
+            cache_salt=cache_salt,
+        )
 
     def _build_enc_dec_llm_inputs(
         self,
@@ -516,6 +477,11 @@ class InputPreprocessor:
                     mm_hashes=inputs["mm_hashes"],
                     mm_placeholders=inputs["mm_placeholders"],
                 )
+
+            cache_salt = inputs.get("cache_salt")
+            if cache_salt is not None:
+                decoder_inputs["cache_salt"] = cache_salt
+
         elif inputs["type"] == "token":
             # Text-only inputs
             encoder_inputs = token_inputs(prompt="", prompt_token_ids=[])
diff --git a/vllm/multimodal/inputs.py b/vllm/multimodal/inputs.py
index 6855808e8..978fb4231 100644
--- a/vllm/multimodal/inputs.py
+++ b/vllm/multimodal/inputs.py
@@ -826,6 +826,11 @@ class MultiModalInputs(TypedDict):
     :code:`prompt_token_ids`.
     """
 
+    cache_salt: NotRequired[str]
+    """
+    Optional cache salt to be used for prefix caching.
+    """
+
 
 class MultiModalEncDecInputs(MultiModalInputs):
     """
diff --git a/vllm/multimodal/processing.py b/vllm/multimodal/processing.py
index d6ba8f1bc..e8745a8f1 100644
--- a/vllm/multimodal/processing.py
+++ b/vllm/multimodal/processing.py
@@ -1789,7 +1789,7 @@ class EncDecMultiModalProcessor(BaseMultiModalProcessor[_I]):
         mm_data: MultiModalDataDict,
     ) -> Union[str, list[int]]:
         """
-        Create input prompt for the encoder. HF processor will be applied on 
+        Create input prompt for the encoder. HF processor will be applied on
         this prompt during profiling and generation.
         """
         raise NotImplementedError
diff --git a/vllm/v1/core/kv_cache_utils.py b/vllm/v1/core/kv_cache_utils.py
index 3026ecc1c..27c515835 100644
--- a/vllm/v1/core/kv_cache_utils.py
+++ b/vllm/v1/core/kv_cache_utils.py
@@ -275,7 +275,10 @@ def need_extra_keys(request: Request) -> bool:
 
     # Multimodal requests need to include the MM hash.
     # LoRA requests need to include the LoRA ID.
-    return bool(request.mm_positions) or (request.lora_request is not None)
+    # Request with provided cache salt need to include the salt.
+    return bool(request.mm_positions) or (request.lora_request
+                                          is not None) or (request.cache_salt
+                                                           is not None)
 
 
 def _gen_mm_extra_hash_keys(request: Request, start_token_idx: int,
@@ -380,8 +383,10 @@ def generate_block_hash_extra_keys(
     mm_extra_keys, new_start_mm_idx = _gen_mm_extra_hash_keys(
         request, start_token_idx, end_token_idx, start_mm_idx)
     lora_extra_keys: list[int] = _gen_lora_extra_hash_keys(request)
+    cache_salt_keys: list[str] = [request.cache_salt] if (
+        start_token_idx == 0 and request.cache_salt) else []
 
-    extra_keys: list[Any] = lora_extra_keys + mm_extra_keys
+    extra_keys: list[Any] = lora_extra_keys + mm_extra_keys + cache_salt_keys
 
     if not extra_keys:
         return None, new_start_mm_idx
@@ -657,10 +662,10 @@ def _get_kv_cache_config_uniform_type(vllm_config: VllmConfig,
 def unify_hybrid_kv_cache_specs(kv_cache_spec: dict[str, KVCacheSpec]):
     """
     Only models with one type of KV cache are supported yet. This function tries
-    to convert the KV cache specs to one type if the model is a hybrid model 
+    to convert the KV cache specs to one type if the model is a hybrid model
     with multiple type of KV cache. It will convert all SlidingWindowSpec to
     FullAttentionSpec if both types are present.
-    
+
     Args:
         kv_cache_spec: The kv cache spec of each attention layer in the model
     """
diff --git a/vllm/v1/engine/__init__.py b/vllm/v1/engine/__init__.py
index 047466961..e33d1a1e5 100644
--- a/vllm/v1/engine/__init__.py
+++ b/vllm/v1/engine/__init__.py
@@ -57,6 +57,7 @@ class EngineCoreRequest(
     eos_token_id: Optional[int]
     arrival_time: float
     lora_request: Optional[LoRARequest]
+    cache_salt: Optional[str]
 
     # Used in DP case to indicate which wave of requests this is expected to
     # belong to, to cover a race condition where the request is sent before
diff --git a/vllm/v1/engine/processor.py b/vllm/v1/engine/processor.py
index b98a31773..27d70a781 100644
--- a/vllm/v1/engine/processor.py
+++ b/vllm/v1/engine/processor.py
@@ -317,6 +317,7 @@ class Processor:
             eos_token_id=eos_token_id,
             arrival_time=arrival_time,
             lora_request=lora_request,
+            cache_salt=decoder_inputs.get("cache_salt"),
         )
 
     def _validate_model_inputs(self,
diff --git a/vllm/v1/request.py b/vllm/v1/request.py
index 3b9b666f9..fde366d61 100644
--- a/vllm/v1/request.py
+++ b/vllm/v1/request.py
@@ -29,6 +29,7 @@ class Request:
         arrival_time: float,
         lora_request: Optional["LoRARequest"] = None,
         structured_output_request: Optional["StructuredOutputRequest"] = None,
+        cache_salt: Optional[str] = None,
     ) -> None:
         self.request_id = request_id
         self.sampling_params = sampling_params
@@ -51,6 +52,7 @@ class Request:
         self._all_token_ids: list[int] = self.prompt_token_ids.copy()
         self.spec_token_ids: list[int] = []
         self.num_computed_tokens = 0
+        self.cache_salt: Optional[str] = cache_salt
 
         # Multi-modal related
         self.mm_positions = multi_modal_placeholders or []
@@ -89,6 +91,7 @@ class Request:
             lora_request=request.lora_request,
             structured_output_request=StructuredOutputRequest(
                 sampling_params=request.sampling_params),
+            cache_salt=request.cache_salt,
         )
 
     def append_output_token_ids(
-- 
GitLab


From 0be6d05b5ea92dae61cd83f26fea05a48d227802 Mon Sep 17 00:00:00 2001
From: Alec <35311602+alec-flowers@users.noreply.github.com>
Date: Wed, 30 Apr 2025 16:44:45 +0200
Subject: [PATCH 059/461] [V1][Metrics] add support for kv event publishing
 (#16750)

Signed-off-by: alec-flowers <aflowers@nvidia.com>
Signed-off-by: Mark McLoughlin <markmc@redhat.com>
Co-authored-by: Mark McLoughlin <markmc@redhat.com>
---
 examples/online_serving/kv_events.sh          |  86 +++++
 .../online_serving/kv_events_subscriber.py    | 114 +++++++
 tests/distributed/conftest.py                 | 145 +++++++++
 tests/distributed/test_events.py              | 193 ++++++++++++
 tests/v1/core/test_prefix_caching.py          |  62 +++-
 tests/v1/engine/conftest.py                   |   2 +
 tests/v1/engine/test_engine_core_client.py    | 164 +++++++---
 vllm/config.py                                |  60 ++++
 vllm/distributed/kv_events.py                 | 295 ++++++++++++++++++
 vllm/engine/arg_utils.py                      |  22 +-
 vllm/v1/core/block_pool.py                    |  49 ++-
 vllm/v1/core/kv_cache_manager.py              |  14 +-
 vllm/v1/core/sched/interface.py               |   5 +
 vllm/v1/core/sched/scheduler.py               |  21 +-
 vllm/v1/engine/core.py                        |   2 +
 15 files changed, 1183 insertions(+), 51 deletions(-)
 create mode 100644 examples/online_serving/kv_events.sh
 create mode 100644 examples/online_serving/kv_events_subscriber.py
 create mode 100644 tests/distributed/conftest.py
 create mode 100644 tests/distributed/test_events.py
 create mode 100644 vllm/distributed/kv_events.py

diff --git a/examples/online_serving/kv_events.sh b/examples/online_serving/kv_events.sh
new file mode 100644
index 000000000..a111db217
--- /dev/null
+++ b/examples/online_serving/kv_events.sh
@@ -0,0 +1,86 @@
+#!/bin/bash
+# This file demonstrates the KV cache event publishing
+# We will launch a vllm instances configured to publish KV cache
+# events and launch a simple subscriber to log those events.
+
+set -xe
+
+echo "🚧🚧 Warning: The usage of KV cache events is experimental and subject to change 🚧🚧"
+sleep 1
+
+MODEL_NAME=${HF_MODEL_NAME:-meta-llama/Meta-Llama-3.1-8B-Instruct}
+
+# Trap the SIGINT signal (triggered by Ctrl+C)
+trap 'cleanup' INT
+
+# Cleanup function
+cleanup() {
+    echo "Caught Ctrl+C, cleaning up..."
+    # Cleanup commands
+    pgrep python | xargs kill -9
+    pkill -f python
+    echo "Cleanup complete. Exiting."
+    exit 0
+}
+
+export VLLM_HOST_IP=$(hostname -I | awk '{print $1}')
+
+# a function that waits vLLM server to start
+wait_for_server() {
+  local port=$1
+  timeout 1200 bash -c "
+    until curl -s localhost:${port}/v1/completions > /dev/null; do
+      sleep 1
+    done" && return 0 || return 1
+}
+
+vllm serve $MODEL_NAME \
+    --port 8100 \
+    --max-model-len 100 \
+    --enforce-eager \
+    --gpu-memory-utilization 0.8 \
+    --trust-remote-code \
+    --kv-events-config \
+    '{"enable_kv_cache_events": true, "publisher": "zmq", "topic": "kv-events"}' &
+
+wait_for_server 8100
+
+SCRIPT_DIR="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )"
+
+python3 "$SCRIPT_DIR/kv_events_subscriber.py" &
+sleep 1
+
+# serve two example requests
+output1=$(curl -X POST -s http://localhost:8100/v1/completions \
+-H "Content-Type: application/json" \
+-d '{
+"model": "'"$MODEL_NAME"'",
+"prompt": "Explain quantum computing in simple terms a 5-year-old could understand.",
+"max_tokens": 80,
+"temperature": 0
+}')
+
+output2=$(curl -X POST -s http://localhost:8100/v1/completions \
+-H "Content-Type: application/json" \
+-d '{
+"model": "'"$MODEL_NAME"'",
+"prompt": "Explain quantum computing in simple terms a 50-year-old could understand.",
+"max_tokens": 80,
+"temperature": 0
+}')
+
+# Cleanup commands
+pkill -9 -u "$USER" -f python
+pkill -9 -u "$USER" -f vllm
+
+sleep 1
+
+echo "Cleaned up"
+
+# Print the outputs of the curl requests
+echo ""
+echo "Output of first request: $output1"
+echo "Output of second request: $output2"
+
+echo "🎉🎉 Successfully finished 2 test requests! 🎉🎉"
+echo ""
diff --git a/examples/online_serving/kv_events_subscriber.py b/examples/online_serving/kv_events_subscriber.py
new file mode 100644
index 000000000..88bbbebd7
--- /dev/null
+++ b/examples/online_serving/kv_events_subscriber.py
@@ -0,0 +1,114 @@
+# SPDX-License-Identifier: Apache-2.0
+from typing import Any, Optional, Union
+
+import msgspec
+import zmq
+from msgspec.msgpack import Decoder
+
+
+#
+# Types copied from vllm.distributed.kv_events
+#
+class EventBatch(msgspec.Struct, array_like=True, omit_defaults=True,
+                 gc=False):
+    ts: float
+    events: list[Any]
+
+
+class KVCacheEvent(msgspec.Struct,
+                   array_like=True,
+                   omit_defaults=True,
+                   gc=False,
+                   tag=True):
+    """Base class for all KV cache-related events"""
+
+
+class BlockStored(KVCacheEvent):
+    block_hashes: list[int]
+    parent_block_hash: Optional[int]
+    token_ids: list[int]
+    block_size: int
+    lora_id: Optional[int]
+
+
+class BlockRemoved(KVCacheEvent):
+    block_hashes: list[int]
+
+
+class AllBlocksCleared(KVCacheEvent):
+    pass
+
+
+class KVEventBatch(EventBatch):
+    events: list[Union[BlockStored, BlockRemoved, AllBlocksCleared]]
+
+
+def process_event(event_batch):
+    print(f"Received event batch at {event_batch.ts}:")
+    for event in event_batch.events:
+        print(f"  - {event}")
+
+
+def main():
+    decoder = Decoder(type=KVEventBatch)
+    last_seq = -1
+
+    context = zmq.Context()
+
+    # Set up the main subscription socket
+    sub = context.socket(zmq.SUB)
+    sub.connect("tcp://localhost:5557")
+    topic = "kv-events"
+    sub.setsockopt_string(zmq.SUBSCRIBE, topic)
+
+    # Initialize replay socket
+    replay = context.socket(zmq.REQ)
+    replay.connect("tcp://localhost:5558")
+    poller = zmq.Poller()
+    poller.register(replay, zmq.POLLIN)
+
+    print("Listening for KV cache events on topic:", topic)
+
+    while True:
+        try:
+            if sub.poll(50):
+                _, seq_bytes, payload = sub.recv_multipart()
+                seq = int.from_bytes(seq_bytes, "big")
+
+                if last_seq >= 0 and seq > last_seq + 1:
+                    missed = seq - last_seq - 1
+                    print(f"Missed {missed} messages"
+                          f" (last: {last_seq}, current: {seq})")
+
+                    replay.send((last_seq + 1).to_bytes(8, "big"))
+
+                    while poller.poll(timeout=200):
+                        seq_bytes, replay_payload = replay.recv_multipart()
+                        if not replay_payload:
+                            # End of replay marker is sent as an empty frame
+                            # for the payload
+                            break
+
+                        replay_seq = int.from_bytes(seq_bytes, "big")
+
+                        if replay_seq > last_seq:
+                            event_batch = decoder.decode(replay_payload)
+                            process_event(event_batch)
+                            last_seq = replay_seq
+                            if replay_seq >= seq - 1:
+                                break
+
+                event_batch = decoder.decode(payload)
+                process_event(event_batch)
+
+            # ... do other periodic work or check for shutdown ...
+
+        except KeyboardInterrupt:
+            print("Interrupted")
+            break
+        except Exception as e:
+            print("Error decoding message:", e)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/tests/distributed/conftest.py b/tests/distributed/conftest.py
new file mode 100644
index 000000000..ee8f20979
--- /dev/null
+++ b/tests/distributed/conftest.py
@@ -0,0 +1,145 @@
+# SPDX-License-Identifier: Apache-2.0
+import random
+from typing import Optional, Union
+
+import msgspec
+import msgspec.msgpack
+import pytest
+import zmq
+
+from vllm.config import KVEventsConfig
+from vllm.distributed.kv_events import EventPublisherFactory
+
+from .test_events import SampleBatch
+
+
+@pytest.fixture
+def random_port():
+    """Generate a random port number for testing"""
+    return random.randint(10000, 60000)
+
+
+@pytest.fixture
+def publisher_config(random_port, request):
+    """Create a publisher config with inproc transport"""
+    how = request.param if hasattr(request, "param") else "inproc"
+
+    if how == "inproc":
+        endpoint = f"inproc://test-{random_port}"
+        replay_endpoint = endpoint + "-replay"
+    else:
+        endpoint = f"tcp://*:{random_port}"
+        replay_endpoint = f"tcp://*:{random_port + 1}"
+
+    return KVEventsConfig(enable_kv_cache_events=True,
+                          publisher="zmq",
+                          endpoint=endpoint,
+                          replay_endpoint=replay_endpoint,
+                          buffer_steps=100,
+                          hwm=1000,
+                          topic="test")
+
+
+@pytest.fixture
+def publisher(publisher_config):
+    """Create and return a publisher instance"""
+    pub = EventPublisherFactory.create(publisher_config)
+    yield pub
+    pub.shutdown()
+
+
+@pytest.fixture
+def subscriber(publisher_config):
+    """Create and return a subscriber for testing"""
+    endpoint = publisher_config.endpoint
+    replay_endpoint = publisher_config.replay_endpoint
+
+    if endpoint.startswith("tcp://*"):
+        endpoint = endpoint.replace("*", "127.0.0.1")
+    if replay_endpoint and replay_endpoint.startswith("tcp://*"):
+        replay_endpoint = replay_endpoint.replace("*", "127.0.0.1")
+
+    sub = MockSubscriber(endpoint, replay_endpoint, publisher_config.topic)
+    yield sub
+    sub.close()
+
+
+class MockSubscriber:
+    """Helper class to receive and verify published events"""
+
+    def __init__(self,
+                 pub_endpoint: str,
+                 replay_endpoint: Optional[str] = None,
+                 topic: str = "",
+                 decode_type=SampleBatch):
+        self.ctx = zmq.Context.instance()
+
+        # Set up subscriber socket
+        self.sub = self.ctx.socket(zmq.SUB)
+        self.sub.setsockopt(zmq.SUBSCRIBE, topic.encode('utf-8'))
+        self.sub.connect(pub_endpoint)
+
+        # Set up replay socket if provided
+        self.replay = None
+        if replay_endpoint:
+            self.replay = self.ctx.socket(zmq.REQ)
+            self.replay.connect(replay_endpoint)
+
+        self.topic = topic
+        self.topic_bytes = topic.encode('utf-8')
+        self.received_msgs: list[tuple[int, SampleBatch]] = []
+        self.last_seq = -1
+        self.decoder = msgspec.msgpack.Decoder(type=decode_type)
+
+    def receive_one(self,
+                    timeout=1000) -> Union[tuple[int, SampleBatch], None]:
+        """Receive a single message with timeout"""
+        if not self.sub.poll(timeout):
+            return None
+
+        topic_bytes, seq_bytes, payload = self.sub.recv_multipart()
+        assert topic_bytes == self.topic_bytes
+
+        seq = int.from_bytes(seq_bytes, "big")
+        data = self.decoder.decode(payload)
+        self.last_seq = seq
+        self.received_msgs.append((seq, data))
+        return seq, data
+
+    def request_replay(self, start_seq: int) -> None:
+        """Request replay of messages starting from start_seq"""
+        if not self.replay:
+            raise ValueError("Replay socket not initialized")
+
+        self.replay.send(start_seq.to_bytes(8, "big"))
+
+    def receive_replay(self) -> list[tuple[int, SampleBatch]]:
+        """Receive replayed messages"""
+        if not self.replay:
+            raise ValueError("Replay socket not initialized")
+
+        replayed: list[tuple[int, SampleBatch]] = []
+        while True:
+            try:
+                if not self.replay.poll(1000):
+                    break
+
+                frames = self.replay.recv_multipart()
+                if not frames or not frames[-1]:
+                    # End of replay marker
+                    break
+
+                seq_bytes, payload = frames
+                seq = int.from_bytes(seq_bytes, "big")
+                data = self.decoder.decode(payload)
+                replayed.append((seq, data))
+            except zmq.ZMQError as _:
+                break
+
+        return replayed
+
+    def close(self):
+        """Clean up resources"""
+        self.sub.close()
+        if self.replay:
+            self.replay.close()
diff --git a/tests/distributed/test_events.py b/tests/distributed/test_events.py
new file mode 100644
index 000000000..15bcfdb85
--- /dev/null
+++ b/tests/distributed/test_events.py
@@ -0,0 +1,193 @@
+# SPDX-License-Identifier: Apache-2.0
+import threading
+import time
+
+import msgspec
+import pytest
+
+from vllm.distributed.kv_events import (EventBatch, EventPublisherFactory,
+                                        NullEventPublisher)
+
+
+class EventSample(
+        msgspec.Struct,
+        tag=True,  # type: ignore
+        array_like=True  # type: ignore
+):
+    """Test event for publisher testing"""
+    id: int
+    value: str
+
+
+class SampleBatch(EventBatch):
+    """Test event batch for publisher testing"""
+    events: list[EventSample]
+
+
+def create_test_events(count: int) -> SampleBatch:
+    """Create a batch of test events"""
+    events = [EventSample(id=i, value=f"test-{i}") for i in range(count)]
+    return SampleBatch(ts=time.time(), events=events)
+
+
+def test_basic_publishing(publisher, subscriber):
+    """Test basic event publishing works"""
+
+    test_batch = create_test_events(5)
+    publisher.publish(test_batch)
+
+    result = subscriber.receive_one(timeout=1000)
+    assert result is not None, "No message received"
+
+    seq, received = result
+    assert seq == 0, "Sequence number mismatch"
+    assert received.ts == pytest.approx(test_batch.ts,
+                                        abs=0.1), ("Timestamp mismatch")
+    assert len(received.events) == len(
+        test_batch.events), ("Number of events mismatch")
+
+    for i, event in enumerate(received.events):
+        assert event.id == i, "Event id mismatch"
+        assert event.value == f"test-{i}", "Event value mismatch"
+
+
+def test_multiple_events(publisher, subscriber):
+    """Test publishing and receiving multiple event batches"""
+    for _ in range(10):
+        batch = create_test_events(2)
+        publisher.publish(batch)
+
+    received = []
+    for _ in range(10):
+        data = subscriber.receive_one(timeout=100)
+        if data:
+            received.append(data)
+
+    assert len(received) == 10, "Number of messages mismatch"
+    seqs = [seq for seq, _ in received]
+    assert seqs == list(range(10)), "Sequence numbers mismatch"
+
+
+def test_replay_mechanism(publisher, subscriber):
+    """Test the replay mechanism works correctly"""
+    for _ in range(19):
+        batch = create_test_events(1)
+        publisher.publish(batch)
+
+    time.sleep(0.5)  # Need publisher to process above requests
+    subscriber.request_replay(10)
+
+    batch = create_test_events(1)
+    publisher.publish(batch)  # 20th message
+
+    replayed = subscriber.receive_replay()
+
+    assert len(replayed) > 0, "No replayed messages received"
+    seqs = [seq for seq, _ in replayed]
+    assert all(seq >= 10 for seq in seqs), "Replayed messages not in order"
+    assert seqs == list(range(min(seqs),
+                              max(seqs) +
+                              1)), ("Replayed messages not consecutive")
+
+
+def test_buffer_limit(publisher, subscriber, publisher_config):
+    """Test buffer limit behavior"""
+    buffer_size = publisher_config.buffer_steps
+
+    # Publish more events than the buffer can hold
+    for i in range(buffer_size + 10):
+        batch = create_test_events(1)
+        publisher.publish(batch)
+
+    time.sleep(0.5)  # Need publisher to process above requests
+    subscriber.request_replay(0)
+
+    batch = create_test_events(1)
+    publisher.publish(batch)
+
+    replayed = subscriber.receive_replay()
+
+    assert len(replayed) <= buffer_size, "Can't replay more than buffer size"
+
+    oldest_seq = min(seq for seq, _ in replayed)
+    assert oldest_seq >= 10, "The oldest sequence should be at least 10"
+
+
+def test_topic_filtering(publisher_config):
+    """
+    Test that a subscriber only receives messages matching its topic filter
+    """
+    publisher_config.replay_endpoint = None
+
+    cfg = publisher_config.model_copy()
+    cfg.topic = "foo"
+    pub = EventPublisherFactory.create(cfg)
+
+    from .conftest import MockSubscriber
+    sub_foo = MockSubscriber(cfg.endpoint, None, "foo")
+    sub_bar = MockSubscriber(cfg.endpoint, None, "bar")
+
+    try:
+        time.sleep(0.1)
+
+        for _ in range(3):
+            pub.publish(create_test_events(1))
+
+        foo_received = [sub_foo.receive_one(timeout=200) for _ in range(3)]
+        assert all(msg is not None for msg in foo_received), (
+            "Subscriber with matching topic should receive messages")
+
+        bar_received = [sub_bar.receive_one(timeout=200) for _ in range(3)]
+        assert all(msg is None for msg in bar_received), (
+            "Subscriber with non-matching topic should receive no messages")
+    finally:
+        pub.shutdown()
+        sub_foo.close()
+        sub_bar.close()
+
+
+def test_high_volume(publisher, subscriber):
+    """Test publishing and receiving a high volume of events"""
+    num_batches = 10_000
+    events_per_batch = 100
+
+    # Publish events in a separate thread to not block
+    def publish_events():
+        for i in range(num_batches):
+            batch = create_test_events(events_per_batch)
+            publisher.publish(batch)
+            # Small delay to avoid overwhelming
+            if i % 100 == 0:
+                time.sleep(0.01)
+
+    received: list[tuple[int, SampleBatch]] = []
+
+    publisher_thread = threading.Thread(target=publish_events)
+    publisher_thread.start()
+
+    start_time = time.time()
+    while len(received) < num_batches:
+        if time.time() - start_time > 10:  # Timeout after 10 seconds
+            break
+
+        result = subscriber.receive_one(timeout=100)
+        if result:
+            received.append(result)
+
+    publisher_thread.join()
+
+    assert len(received) >= num_batches * 0.9, (
+        "We should have received most messages")
+
+    seqs = [seq for seq, _ in received]
+    assert sorted(seqs) == seqs, "Sequence numbers should be in order"
+
+
+def test_null_publisher():
+    """Test that NullEventPublisher can be used without errors"""
+    publisher = NullEventPublisher()
+
+    # This should not raise any errors
+    batch = create_test_events(5)
+    publisher.publish(batch)
+    publisher.shutdown()
diff --git a/tests/v1/core/test_prefix_caching.py b/tests/v1/core/test_prefix_caching.py
index ae4bd95d2..af0fef89d 100644
--- a/tests/v1/core/test_prefix_caching.py
+++ b/tests/v1/core/test_prefix_caching.py
@@ -6,6 +6,7 @@ from typing import Optional
 import pytest
 import torch
 
+from vllm.distributed.kv_events import AllBlocksCleared, BlockRemoved
 from vllm.multimodal.inputs import MultiModalKwargs, PlaceholderRange
 from vllm.sampling_params import SamplingParams
 from vllm.utils import sha256
@@ -48,9 +49,10 @@ def make_kv_cache_config(block_size: int, num_blocks: int) -> KVCacheConfig:
         num_blocks=num_blocks,
         tensors={},
         kv_cache_groups=[
-            KVCacheGroupSpec(['layer'],
-                             FullAttentionSpec(block_size, 1, 1, torch.float32,
-                                               False))
+            KVCacheGroupSpec(
+                ["layer"],
+                FullAttentionSpec(block_size, 1, 1, torch.float32, False),
+            )
         ],
     )
 
@@ -783,6 +785,60 @@ def test_prefix_cache_stats_disabled():
     assert manager.prefix_cache_stats is None
 
 
+@pytest.mark.parametrize("blocks_to_cache", [2, 3, 10])
+def test_kv_cache_events(blocks_to_cache: int):
+    block_size = 16
+    num_blocks = blocks_to_cache + 1
+
+    # Allocate Blocks
+    # Should see a single block stored event with a blocks_to_cache number of
+    # block hashes
+    # take_events should reset the kv_event_queue
+    manager = KVCacheManager(
+        make_kv_cache_config(block_size, num_blocks),
+        max_model_len=8192,
+        enable_caching=True,
+        enable_kv_cache_events=True,
+    )
+
+    num_tokens = block_size * blocks_to_cache
+    req0 = make_request("0", list(range(num_tokens)))
+    _ = manager.allocate_slots(req0, num_tokens)
+    events = manager.take_events()
+
+    block = events[-1]
+    assert (len(block.block_hashes) == blocks_to_cache == len(
+        manager.block_pool.cached_block_hash_to_block))
+    assert len(block.token_ids) == block.block_size * len(block.block_hashes)
+    assert len(manager.block_pool.kv_event_queue) == 0
+
+    stored_block_hash = block.block_hashes
+
+    # Remove blocks and send another request
+    # Should see block_to_cache number of removed block events and a new block
+    # stored event
+    manager.free(req0)
+    req1 = make_request("1", list(range(num_tokens)))
+    _ = manager.allocate_slots(req1, num_tokens)
+    events = manager.take_events()
+
+    for blocks in events[:-1]:
+        assert blocks.block_hashes[0] in stored_block_hash
+    assert len(events) == blocks_to_cache + 1
+    assert (isinstance(events[-2], BlockRemoved))
+    assert (len(events[-1].block_hashes) == blocks_to_cache == len(
+        manager.block_pool.cached_block_hash_to_block))
+
+    # All Blocks Cleared
+    # Should see a single all blocks cleared event
+    manager.free(req1)
+    manager.reset_prefix_cache()
+    events = manager.take_events()
+
+    assert isinstance(events[-1], AllBlocksCleared)
+    assert len(manager.block_pool.cached_block_hash_to_block) == 0
+
+
 def test_eagle_enabled_removes_last_block():
     """Verify Eagle does NOT remove blocks when request 
     length is divisible by block size."""
diff --git a/tests/v1/engine/conftest.py b/tests/v1/engine/conftest.py
index f8addd920..d04679c12 100644
--- a/tests/v1/engine/conftest.py
+++ b/tests/v1/engine/conftest.py
@@ -13,6 +13,8 @@ from tests.v1.engine.utils import (NUM_PROMPT_LOGPROBS_UNDER_TEST,
 from vllm.engine.arg_utils import EngineArgs
 from vllm.transformers_utils.tokenizer_group import init_tokenizer_from_configs
 
+from ...distributed.conftest import publisher_config, random_port  # noqa: F401
+
 from tests.v1.engine.utils import FULL_STRINGS  # isort: skip
 
 EngineCoreSampleLogprobsType = list[tuple[torch.Tensor, torch.Tensor]]
diff --git a/tests/v1/engine/test_engine_core_client.py b/tests/v1/engine/test_engine_core_client.py
index 5514a3284..3e1aa5688 100644
--- a/tests/v1/engine/test_engine_core_client.py
+++ b/tests/v1/engine/test_engine_core_client.py
@@ -11,6 +11,7 @@ import pytest
 from transformers import AutoTokenizer
 
 from vllm import SamplingParams
+from vllm.distributed.kv_events import BlockStored, KVEventBatch
 from vllm.engine.arg_utils import EngineArgs
 from vllm.platforms import current_platform
 from vllm.usage.usage_lib import UsageContext
@@ -20,6 +21,7 @@ from vllm.v1.engine.core_client import (AsyncMPClient, EngineCoreClient,
                                         SyncMPClient)
 from vllm.v1.executor.abstract import Executor
 
+from ...distributed.conftest import MockSubscriber
 from ...utils import create_new_process_for_each_test
 
 if not current_platform.is_cuda():
@@ -199,54 +201,142 @@ async def test_engine_core_client_asyncio(monkeypatch: pytest.MonkeyPatch):
             log_stats=True,
         )
 
-        MAX_TOKENS = 20
-        params = SamplingParams(max_tokens=MAX_TOKENS)
-        """Normal Request Cycle."""
+        try:
+            MAX_TOKENS = 20
+            params = SamplingParams(max_tokens=MAX_TOKENS)
+            """Normal Request Cycle."""
 
-        requests = [make_request(params) for _ in range(10)]
-        request_ids = [req.request_id for req in requests]
+            requests = [make_request(params) for _ in range(10)]
+            request_ids = [req.request_id for req in requests]
 
-        # Add requests to the engine.
-        for request in requests:
-            await client.add_request_async(request)
-            await asyncio.sleep(0.01)
+            # Add requests to the engine.
+            for request in requests:
+                await client.add_request_async(request)
+                await asyncio.sleep(0.01)
 
-        outputs: dict[str, list] = {req_id: [] for req_id in request_ids}
-        await loop_until_done_async(client, outputs)
+            outputs: dict[str, list] = {req_id: [] for req_id in request_ids}
+            await loop_until_done_async(client, outputs)
 
-        for req_id in request_ids:
-            assert len(outputs[req_id]) == MAX_TOKENS, (
-                f"{outputs[req_id]=}, {MAX_TOKENS=}")
-        """Abort Request Cycle."""
+            for req_id in request_ids:
+                assert len(outputs[req_id]) == MAX_TOKENS, (
+                    f"{outputs[req_id]=}, {MAX_TOKENS=}")
+            """Abort Request Cycle."""
+
+            # Add requests to the engine.
+            for idx, request in enumerate(requests):
+                await client.add_request_async(request)
+                await asyncio.sleep(0.01)
+                if idx % 2 == 0:
+                    await client.abort_requests_async([request.request_id])
+
+            outputs = {req_id: [] for req_id in request_ids}
+            await loop_until_done_async(client, outputs)
+
+            for idx, req_id in enumerate(request_ids):
+                if idx % 2 == 0:
+                    assert len(outputs[req_id]) < MAX_TOKENS, (
+                        f"{len(outputs[req_id])=}, {MAX_TOKENS=}")
+                else:
+                    assert len(outputs[req_id]) == MAX_TOKENS, (
+                        f"{len(outputs[req_id])=}, {MAX_TOKENS=}")
+            """Utility method invocation"""
 
-        # Add requests to the engine.
-        for idx, request in enumerate(requests):
-            await client.add_request_async(request)
-            await asyncio.sleep(0.01)
-            if idx % 2 == 0:
-                await client.abort_requests_async([request.request_id])
+            core_client: AsyncMPClient = client
 
-        outputs = {req_id: [] for req_id in request_ids}
-        await loop_until_done_async(client, outputs)
+            result = await core_client.call_utility_async("echo", "testarg")
+            assert result == "testarg"
 
-        for idx, req_id in enumerate(request_ids):
-            if idx % 2 == 0:
-                assert len(outputs[req_id]) < MAX_TOKENS, (
-                    f"{len(outputs[req_id])=}, {MAX_TOKENS=}")
-            else:
-                assert len(outputs[req_id]) == MAX_TOKENS, (
-                    f"{len(outputs[req_id])=}, {MAX_TOKENS=}")
-        """Utility method invocation"""
+            with pytest.raises(Exception) as e_info:
+                await core_client.call_utility_async("echo", None, "help!")
+
+            assert str(e_info.value) == "Call to echo method failed: help!"
+        finally:
+            client.shutdown()
+
+
+@pytest.mark.parametrize(
+    "multiprocessing_mode,publisher_config",
+    [(True, "tcp"), (False, "inproc")],
+    indirect=["publisher_config"],
+)
+def test_kv_cache_events(
+    monkeypatch: pytest.MonkeyPatch,
+    multiprocessing_mode: bool,
+    publisher_config,
+):
+
+    with monkeypatch.context() as m:
+        m.setenv("VLLM_USE_V1", "1")
+        block_size = 16
+        num_blocks = 2
 
-        core_client: AsyncMPClient = client
+        engine_args = EngineArgs(model=MODEL_NAME,
+                                 enforce_eager=True,
+                                 enable_prefix_caching=True,
+                                 block_size=block_size)
+        engine_args.kv_events_config = publisher_config
 
-        result = await core_client.call_utility_async("echo", "testarg")
-        assert result == "testarg"
+        vllm_config = engine_args.create_engine_config(
+            UsageContext.UNKNOWN_CONTEXT)
 
-        with pytest.raises(Exception) as e_info:
-            await core_client.call_utility_async("echo", None, "help!")
+        executor_class = Executor.get_class(vllm_config)
+        client = EngineCoreClient.make_client(
+            multiprocess_mode=multiprocessing_mode,
+            asyncio_mode=False,
+            vllm_config=vllm_config,
+            executor_class=executor_class,
+            log_stats=False,
+        )
+        endpoint = publisher_config.endpoint.replace("*", "127.0.0.1")
+        time.sleep(0.1)
+        subscriber = MockSubscriber(endpoint,
+                                    topic=publisher_config.topic,
+                                    decode_type=KVEventBatch)
+
+        try:
+            custom_tokens = list(range(num_blocks * block_size))
+            request = EngineCoreRequest(
+                request_id=str(uuid.uuid4()),
+                prompt_token_ids=custom_tokens,
+                mm_inputs=None,
+                mm_hashes=None,
+                mm_placeholders=None,
+                sampling_params=SamplingParams(
+                    max_tokens=1),  # Short completion for speed
+                eos_token_id=None,
+                arrival_time=time.time(),
+                lora_request=None,
+            )
+            client.add_request(request)
 
-        assert str(e_info.value) == "Call to echo method failed: help!"
+            outputs: dict[str, list] = {request.request_id: []}
+            loop_until_done(client, outputs)
+
+            result = subscriber.receive_one(timeout=1000)
+            assert result is not None, "No message received"
+
+            seq, received = result
+
+            assert seq == 0, "Sequence number mismatch"
+            assert len(received.events) == 1, (
+                "We should have exactly one BlockStored event")
+            event = received.events[0]
+            assert isinstance(
+                event, BlockStored), ("We should have a BlockStored event")
+            assert len(event.block_hashes) == num_blocks, (
+                "We should have a BlockStored event with 2 block_hashes")
+            assert event.block_size == block_size, (
+                "Block size should be the same as the block size")
+            assert event.parent_block_hash is None, (
+                "Parent block hash should be None")
+            assert event.lora_id is None, "Lora id should be None"
+            assert len(event.token_ids) == num_blocks * block_size, (
+                "Token ids should be the same as the custom tokens")
+            assert event.token_ids == custom_tokens, (
+                "Token ids should be the same as the custom tokens")
+        finally:
+            client.shutdown()
+        return
 
 
 @pytest.mark.timeout(10)
diff --git a/vllm/config.py b/vllm/config.py
index f9c5e25a4..5da1ab258 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -1958,6 +1958,8 @@ class SchedulerConfig:
     some image tokens can be scheduled (like TTTTIIIII, leaving IIIII),
     it will be scheduled as TTTT in one step and IIIIIIIIII in the next."""
 
+    # scheduler class or path. "vllm.core.scheduler.Scheduler" (default)
+    # or "mod.custom_class".
     scheduler_cls: Union[str, type[object]] = "vllm.core.scheduler.Scheduler"
     """The scheduler class to use. "vllm.core.scheduler.Scheduler" is the
     default scheduler. Can be a class directly or the path to a class of form
@@ -3417,6 +3419,51 @@ class KVTransferConfig(BaseModel):
         return self.kv_connector_extra_config.get(key, default)
 
 
+class KVEventsConfig(BaseModel):
+    """Configuration for KV event publishing."""
+
+    enable_kv_cache_events: bool = False
+    """If True, enable KV cache events for tracking block storage and removal.
+    Events can be published externally by zmq using the event publisher config.
+    """
+
+    publisher: str = "null"
+    """The publisher to use for publishing kv events. Can be "null", "zmq".
+    """
+
+    endpoint: str = "tcp://*:5557"
+    """The zmq endpoint to use for publishing kv events.
+    """
+
+    replay_endpoint: Optional[str] = None
+    """The zmq endpoint to use for replaying kv events.
+    """
+
+    buffer_steps: int = 10_000
+    """The number of steps to cache for replay endpoint. Will only save
+    events from the last N steps for the replay endpoint.
+    """
+
+    hwm: int = 100_000
+    """The zmq high water mark for the event publisher. After queueing N events,
+    events will start dropping if the consumer is not keeping up.
+    """
+
+    max_queue_size: int = 100_000
+    """The maximum number of events to queue while waiting for publishing.
+    """
+
+    topic: str = ""
+    """The topic to use for the event publisher. Consumers can subscribe to
+    this topic to receive events.
+    """
+
+    @classmethod
+    def from_cli(cls, cli_value: str) -> "KVEventsConfig":
+        """Parse the CLI value for the event publisher config."""
+        return KVEventsConfig.model_validate_json(cli_value)
+
+
 class CompilationLevel:
     # constants for the levels of the compilation process
     NO_COMPILATION = 0
@@ -3779,6 +3826,7 @@ class VllmConfig:
                                                   init=True)  # type: ignore
     kv_transfer_config: KVTransferConfig = field(default=None,
                                                  init=True)  # type: ignore
+    kv_events_config: Optional[KVEventsConfig] = None
     # some opaque config, only used to provide additional information
     # for the hash computation, mainly used for testing, debugging or out of
     # tree config registration.
@@ -4038,6 +4086,18 @@ class VllmConfig:
             if self.cache_config is not None:
                 self.cache_config.enable_prefix_caching = False
 
+        if (self.kv_events_config
+                and self.kv_events_config.enable_kv_cache_events
+                and not self.cache_config.enable_prefix_caching):
+            logger.warning(
+                "KV cache events are on, but prefix caching is not enabled."
+                "Use --enable-prefix-caching to enable.")
+        if (self.kv_events_config and self.kv_events_config.publisher != "null"
+                and not self.kv_events_config.enable_kv_cache_events):
+            logger.warning("KV cache events are disabled,"
+                           "but the scheduler is configured to publish them."
+                           "Modify KVEventsConfig.enable_kv_cache_events"
+                           "to True to enable.")
         current_platform.check_and_update_config(self)
 
         if not self.instance_id:
diff --git a/vllm/distributed/kv_events.py b/vllm/distributed/kv_events.py
new file mode 100644
index 000000000..960913858
--- /dev/null
+++ b/vllm/distributed/kv_events.py
@@ -0,0 +1,295 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import queue
+import threading
+import time
+from abc import ABC, abstractmethod
+from collections import deque
+from itertools import count
+from queue import Queue
+from typing import Any, Callable, Optional, Union
+
+import msgspec
+import zmq
+
+from vllm.config import KVEventsConfig
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class EventBatch(
+        msgspec.Struct,
+        array_like=True,  # type: ignore[call-arg]
+        omit_defaults=True,  # type: ignore[call-arg]
+        gc=False,  # type: ignore[call-arg]
+):
+    ts: float
+    events: list[Any]
+
+
+class KVCacheEvent(
+        msgspec.Struct,
+        array_like=True,  # type: ignore[call-arg]
+        omit_defaults=True,  # type: ignore[call-arg]
+        gc=False,  # type: ignore[call-arg]
+        tag=True):
+    """Base class for all KV cache-related events"""
+
+
+class BlockStored(KVCacheEvent):
+    block_hashes: list[int]
+    parent_block_hash: Optional[int]
+    token_ids: list[int]
+    block_size: int
+    lora_id: Optional[int]
+
+
+class BlockRemoved(KVCacheEvent):
+    block_hashes: list[int]
+
+
+class AllBlocksCleared(KVCacheEvent):
+    pass
+
+
+class KVEventBatch(EventBatch):
+    events: list[Union[BlockStored, BlockRemoved, AllBlocksCleared]]
+
+
+class EventPublisher(ABC):
+    """Lightweight publisher for EventBatch batches."""
+
+    @abstractmethod
+    def publish(self, events: EventBatch) -> None:
+        """Emit events in order.
+
+        Implementations should guarantee at-least-once delivery and
+        monotonic ordering (e.g., via sequence numbers).
+        """
+
+    @abstractmethod
+    def shutdown(self) -> None:
+        """Shutdown the publisher."""
+
+
+class NullEventPublisher(EventPublisher):
+    """No-op implementation (default when disabled)."""
+
+    def publish(self, events) -> None:
+        return
+
+    def shutdown(self) -> None:
+        return
+
+
+class ZmqEventPublisher(EventPublisher):
+    """Reliable PUB/ROUTER publisher with an in-memory replay buffer.
+
+    Spawns a separate thread to handle publishing from a queue.
+
+    Parameters
+    ----------
+    endpoint:
+        PUB address. Use ``tcp://*:5557`` to bind or ``tcp://host:5557`` to
+        connect.
+    replay_endpoint:
+        Optional ROUTER address for replay requests. When given, subscribers can
+        request missed batches by sending the starting sequence number as an
+        8-byte big-endian integer.
+    buffer_steps:
+        Number of past batches to keep for replay.
+    hwm:
+        ZeroMQ high-water-mark for PUB socket.
+    max_queue_size:
+        Maximum number of events to buffer in memory.
+    topic:
+        Topic to publish events to.
+    """
+    SHUTDOWN_TIMEOUT: float = 1.0
+    END_SEQ = (-1).to_bytes(8, "big", signed=True)
+
+    def __init__(
+        self,
+        endpoint: str = "tcp://*:5557",
+        replay_endpoint: Optional[str] = None,
+        buffer_steps: int = 10_000,
+        hwm: int = 100_000,
+        max_queue_size: int = 100_000,
+        topic: str = "",
+    ) -> None:
+        # Storage
+        self._event_queue = Queue[Optional[EventBatch]](maxsize=max_queue_size)
+        self._buffer = deque[tuple[int, bytes]](maxlen=buffer_steps)
+
+        # ZMQ sockets
+        self._ctx = zmq.Context.instance()
+        self._pub: Optional[zmq.Socket] = None
+        self._replay: Optional[zmq.Socket] = None
+        self._endpoint = endpoint
+        self._replay_endpoint = replay_endpoint
+        self._hwm = hwm
+
+        # Payload
+        self._seq_gen = count()
+        self._topic_bytes = topic.encode('utf-8')
+
+        # Thread
+        self._running = True
+        logger.info("Starting ZMQ publisher thread")
+
+        self._thread = threading.Thread(target=self._publisher_thread,
+                                        daemon=True,
+                                        name="zmq-publisher")
+        self._thread.start()
+
+    def publish(self, events: EventBatch) -> None:
+        if not self._running:
+            raise RuntimeError("Publisher is closed")
+        self._event_queue.put(events)
+
+    def shutdown(self) -> None:
+        """Stop the publisher thread and clean up resources."""
+        self._running = False
+        self._event_queue.put_nowait(None)
+
+        start = time.time()
+        pending_items = True
+        while pending_items and (time.time() - start < self.SHUTDOWN_TIMEOUT):
+            pending_items = not self._event_queue.empty()
+            if pending_items:
+                time.sleep(0.1)
+
+        if pending_items:
+            logger.warning(
+                "Warning: Queue still has %s items after %s seconds timeout",
+                self._event_queue.qsize(),
+                self.SHUTDOWN_TIMEOUT,
+            )
+
+        if self._thread.is_alive():
+            self._thread.join(timeout=self.SHUTDOWN_TIMEOUT)
+
+        # Clean up ZMQ resources
+        try:
+            if self._pub is not None:
+                self._pub.close(linger=0)
+            if self._replay is not None:
+                self._replay.close(linger=0)
+        finally:
+            pass  # Do not terminate context; other sockets may use it
+
+    def _socket_setup(self) -> None:
+        """Initialize sockets
+        https://pyzmq.readthedocs.io/en/v19.0.0/morethanbindings.html#thread-safety
+        """
+        if self._pub is None:
+            self._pub = self._ctx.socket(zmq.PUB)
+            self._pub.set_hwm(self._hwm)
+            # Heuristic: bind if wildcard / * present, else connect.
+            # bind stable, connect volatile convention
+            if ("*" in self._endpoint or "::" in self._endpoint
+                    or self._endpoint.startswith("ipc://")
+                    or self._endpoint.startswith("inproc://")):
+                self._pub.bind(self._endpoint)
+            else:
+                self._pub.connect(self._endpoint)
+
+        # Set up replay socket: use ROUTER
+        # 1) handles multiple REQ clients (identities)
+        # 2) lets us send back one request → many replies (streamed events)
+        # 3) works in our non‑blocking poll loop alongside PUB
+        if self._replay_endpoint is not None:
+            self._replay = self._ctx.socket(zmq.ROUTER)
+            self._replay.bind(self._replay_endpoint)
+
+    def _publisher_thread(self) -> None:
+        """Background thread that processes the event queue."""
+        self._pack = msgspec.msgpack.Encoder()
+        self._socket_setup()
+
+        assert self._pub is not None  # narrows type for mypy
+
+        while self._running or self._event_queue.qsize() > 0:
+            # --- replay (non-critical) ---------------------------------
+            if self._replay is not None and self._replay.poll(0):
+                try:
+                    self._service_replay()
+                except Exception as e:
+                    logger.exception("Error in replay: %s", e)
+
+            # --- main queue (critical) ---------------------------------
+            try:
+                event = self._event_queue.get(timeout=0.1)
+                if event is None:
+                    break  # Sentinel received, exit thread
+            except queue.Empty:
+                continue
+
+            try:
+                seq = next(self._seq_gen)
+
+                payload = self._pack.encode(event)
+                seq_bytes = seq.to_bytes(8, "big")
+                self._pub.send_multipart(
+                    (self._topic_bytes, seq_bytes, payload))
+
+                self._buffer.append((seq, payload))
+                self._event_queue.task_done()
+
+            except Exception as e:
+                # Publishing failed;  back-off a bit to avoid a tight error loop
+                logger.exception("Error in publisher thread: %s", e)
+                time.sleep(0.1)
+
+    def _service_replay(self) -> None:
+        """If a replay request is waiting, send buffered batches."""
+        assert self._replay is not None  # narrows type for mypy
+
+        frame = self._replay.recv_multipart()
+        if len(frame) != 3:
+            logger.warning("Invalid replay request: %s", frame)
+            return
+        client_id, _, start_seq_bytes = frame
+        start_seq = int.from_bytes(start_seq_bytes, "big")
+
+        for seq, buf in self._buffer:
+            if seq >= start_seq:
+                # [identity, empty_delim, seq_bytes, payload]
+                # (identity, empty_delim) are stripped off by the router
+                # receiving payload is (seq_bytes, payload)
+                self._replay.send_multipart(
+                    (client_id, b"", seq.to_bytes(8, "big"), buf))
+        # Send end of sequence marker
+        # receiving payload is (-1, b""")
+        self._replay.send_multipart((client_id, b"", self.END_SEQ, b""))
+
+
+class EventPublisherFactory:
+    _registry: dict[str, Callable[..., EventPublisher]] = {
+        "null": NullEventPublisher,
+        "zmq": ZmqEventPublisher,
+    }
+
+    @classmethod
+    def register_publisher(cls, name: str,
+                           ctor: Callable[..., EventPublisher]) -> None:
+        if name in cls._registry:
+            raise KeyError(f"publisher '{name}' already registered")
+        cls._registry[name] = ctor
+
+    @classmethod
+    def create(cls, config: Optional[KVEventsConfig]) -> EventPublisher:
+        """Create publisher from a config mapping."""
+        if not config:
+            return NullEventPublisher()
+
+        config_dict = config.model_dump()
+
+        kind = config_dict.pop("publisher", "null")
+        config_dict.pop("enable_kv_cache_events")
+        try:
+            constructor = cls._registry[kind]
+        except KeyError as exc:
+            raise ValueError(f"Unknown event publisher '{kind}'") from exc
+        return constructor(**config_dict)
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 4f074fcd1..c7a580cf1 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -19,14 +19,14 @@ from vllm.config import (BlockSize, CacheConfig, CacheDType, CompilationConfig,
                          ConfigFormat, ConfigType, DecodingConfig, Device,
                          DeviceConfig, DistributedExecutorBackend,
                          GuidedDecodingBackend, GuidedDecodingBackendV1,
-                         HfOverrides, KVTransferConfig, LoadConfig, LoadFormat,
-                         LoRAConfig, ModelConfig, ModelDType, ModelImpl,
-                         MultiModalConfig, ObservabilityConfig, ParallelConfig,
-                         PoolerConfig, PrefixCachingHashAlgo,
-                         PromptAdapterConfig, SchedulerConfig, SchedulerPolicy,
-                         SpeculativeConfig, TaskOption, TokenizerMode,
-                         TokenizerPoolConfig, VllmConfig, get_attr_docs,
-                         get_field)
+                         HfOverrides, KVEventsConfig, KVTransferConfig,
+                         LoadConfig, LoadFormat, LoRAConfig, ModelConfig,
+                         ModelDType, ModelImpl, MultiModalConfig,
+                         ObservabilityConfig, ParallelConfig, PoolerConfig,
+                         PrefixCachingHashAlgo, PromptAdapterConfig,
+                         SchedulerConfig, SchedulerPolicy, SpeculativeConfig,
+                         TaskOption, TokenizerMode, TokenizerPoolConfig,
+                         VllmConfig, get_attr_docs, get_field)
 from vllm.executor.executor_base import ExecutorBase
 from vllm.logger import init_logger
 from vllm.model_executor.layers.quantization import QuantizationMethods
@@ -353,6 +353,7 @@ class EngineArgs:
     worker_extension_cls: str = ParallelConfig.worker_extension_cls
 
     kv_transfer_config: Optional[KVTransferConfig] = None
+    kv_events_config: Optional[KVEventsConfig] = None
 
     generation_config: str = ModelConfig.generation_config
     enable_sleep_mode: bool = ModelConfig.enable_sleep_mode
@@ -769,6 +770,10 @@ class EngineArgs:
                             default=None,
                             help='The configurations for distributed KV cache '
                             'transfer. Should be a JSON string.')
+        parser.add_argument('--kv-events-config',
+                            type=KVEventsConfig.from_cli,
+                            default=None,
+                            help='The configurations for event publishing.')
 
         parser.add_argument(
             '--worker-cls',
@@ -1125,6 +1130,7 @@ class EngineArgs:
             prompt_adapter_config=prompt_adapter_config,
             compilation_config=self.compilation_config,
             kv_transfer_config=self.kv_transfer_config,
+            kv_events_config=self.kv_events_config,
             additional_config=self.additional_config,
         )
 
diff --git a/vllm/v1/core/block_pool.py b/vllm/v1/core/block_pool.py
index 74f3f7852..f2ed183b6 100644
--- a/vllm/v1/core/block_pool.py
+++ b/vllm/v1/core/block_pool.py
@@ -3,6 +3,8 @@ from collections import defaultdict
 from collections.abc import Iterable
 from typing import Callable, Optional
 
+from vllm.distributed.kv_events import (AllBlocksCleared, BlockRemoved,
+                                        BlockStored, KVCacheEvent)
 from vllm.logger import init_logger
 from vllm.v1.core.kv_cache_utils import (BlockHashType, FreeKVCacheBlockQueue,
                                          KVCacheBlock,
@@ -26,7 +28,12 @@ class BlockPool:
         enable_caching: Whether to enable prefix caching.
     """
 
-    def __init__(self, num_gpu_blocks: int, enable_caching: bool):
+    def __init__(
+        self,
+        num_gpu_blocks: int,
+        enable_caching: bool,
+        enable_kv_cache_events: bool = False,
+    ):
         assert isinstance(num_gpu_blocks, int) and num_gpu_blocks > 0
         self.num_gpu_blocks = num_gpu_blocks
         self.enable_caching = enable_caching
@@ -56,6 +63,9 @@ class BlockPool:
         # avoid freeing it.
         self.null_block = self.free_block_queue.popleft()
 
+        self.enable_kv_cache_events = enable_kv_cache_events
+        self.kv_event_queue: list[KVCacheEvent] = []
+
     def get_cached_block(self,
                          block_hash: BlockHashType) -> Optional[KVCacheBlock]:
         """Get a cached block by the block hash, or None if cache miss.
@@ -116,6 +126,9 @@ class BlockPool:
             assert prev_block.block_hash is not None
             prev_block_hash_value = prev_block.block_hash.hash_value
 
+        parent_block_hash = prev_block_hash_value
+        new_hashes: Optional[list[int]] = ([] if self.enable_kv_cache_events
+                                           else None)
         for i, blk in enumerate(new_full_blocks):
             assert blk.block_hash is None
 
@@ -153,8 +166,23 @@ class BlockPool:
             # Update and added the full block to the cache.
             blk.block_hash = block_hash
             self.cached_block_hash_to_block[block_hash][blk.block_id] = blk
+            if new_hashes is not None:
+                new_hashes.append(block_hash.hash_value)
             prev_block_hash_value = block_hash.hash_value
 
+        if self.enable_kv_cache_events:
+            self.kv_event_queue.append(
+                BlockStored(
+                    block_hashes=new_hashes,
+                    parent_block_hash=parent_block_hash,
+                    token_ids=request.
+                    all_token_ids[num_cached_blocks *
+                                  block_size:num_full_blocks * block_size],
+                    block_size=block_size,
+                    lora_id=request.lora_request.id
+                    if request.lora_request else None,
+                ))
+
     def get_new_blocks(self, num_blocks: int) -> list[KVCacheBlock]:
         """Get new blocks from the free block pool.
 
@@ -206,6 +234,9 @@ class BlockPool:
             if len(self.cached_block_hash_to_block[block_hash]) == 0:
                 del self.cached_block_hash_to_block[block_hash]
 
+            if self.enable_kv_cache_events:
+                self.kv_event_queue.append(
+                    BlockRemoved(block_hashes=[block_hash.hash_value]))
             return True
         return False
 
@@ -262,6 +293,10 @@ class BlockPool:
             block.reset_hash()
 
         logger.info("Successfully reset prefix cache")
+
+        if self.enable_kv_cache_events:
+            self.kv_event_queue.append(AllBlocksCleared())
+
         return True
 
     def get_num_free_blocks(self) -> int:
@@ -279,3 +314,15 @@ class BlockPool:
             The KV cache usage (between 0.0 and 1.0).
         """
         return 1.0 - (self.get_num_free_blocks() / self.num_gpu_blocks)
+
+    def take_events(self) -> list[KVCacheEvent]:
+        """Atomically takes all events and clears the queue.
+        
+        Returns:
+            A list of KV cache events.
+        """
+        if not self.enable_kv_cache_events:
+            return []
+        events = self.kv_event_queue
+        self.kv_event_queue = []
+        return events
diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
index 0830d8433..39554bed0 100644
--- a/vllm/v1/core/kv_cache_manager.py
+++ b/vllm/v1/core/kv_cache_manager.py
@@ -4,6 +4,7 @@ from collections import defaultdict
 from collections.abc import Iterable
 from typing import Optional
 
+from vllm.distributed.kv_events import KVCacheEvent
 from vllm.logger import init_logger
 from vllm.utils import cdiv, sha256
 from vllm.v1.core.block_pool import BlockPool
@@ -27,6 +28,7 @@ class KVCacheManager:
         caching_hash_algo: str = "builtin",
         use_eagle: bool = False,
         log_stats: bool = False,
+        enable_kv_cache_events: bool = False,
     ) -> None:
         assert len(kv_cache_config.kv_cache_groups) == 1, (
             "KVCacheManager does not support hybrid models with more than 1 "
@@ -44,7 +46,9 @@ class KVCacheManager:
         # FIXME: make prefix cache stats conditional on log_stats
         self.prefix_cache_stats = PrefixCacheStats() if log_stats else None
 
-        self.block_pool = BlockPool(self.num_gpu_blocks, enable_caching)
+        self.block_pool = BlockPool(self.num_gpu_blocks, enable_caching,
+                                    enable_kv_cache_events)
+
         self.specialized_manager = get_specialized_manager(
             kv_cache_spec=kv_cache_spec,
             block_pool=self.block_pool,
@@ -383,3 +387,11 @@ class KVCacheManager:
         is finished, not when it is preempted.
         """
         self.req_to_block_hashes.pop(request.request_id, None)
+
+    def take_events(self) -> list[KVCacheEvent]:
+        """Take the KV cache events from the block pool.
+
+        Returns:
+            A list of KV cache events.
+        """
+        return self.block_pool.take_events()
diff --git a/vllm/v1/core/sched/interface.py b/vllm/v1/core/sched/interface.py
index 1de236d42..0b328f510 100644
--- a/vllm/v1/core/sched/interface.py
+++ b/vllm/v1/core/sched/interface.py
@@ -132,3 +132,8 @@ class SchedulerInterface(ABC):
         The SchedulerStats object is created for every scheduling step.
         """
         raise NotImplementedError
+
+    @abstractmethod
+    def shutdown(self) -> None:
+        """Shutdown the scheduler."""
+        raise NotImplementedError
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 7ebbb4954..ae7280a14 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -8,6 +8,7 @@ from collections.abc import Iterable
 from typing import Optional, Union
 
 from vllm.config import VllmConfig
+from vllm.distributed.kv_events import EventPublisherFactory, KVEventBatch
 from vllm.distributed.kv_transfer.kv_connector.factory import (
     KVConnectorFactory)
 from vllm.distributed.kv_transfer.kv_connector.v1 import KVConnectorRole
@@ -48,6 +49,7 @@ class Scheduler(SchedulerInterface):
         self.cache_config = vllm_config.cache_config
         self.lora_config = vllm_config.lora_config
         self.kv_cache_config = kv_cache_config
+        self.kv_events_config = vllm_config.kv_events_config
         self.log_stats = log_stats
         self.structured_output_manager = structured_output_manager
 
@@ -62,6 +64,9 @@ class Scheduler(SchedulerInterface):
         self.max_num_scheduled_tokens = \
             self.scheduler_config.max_num_batched_tokens
         self.max_model_len = self.scheduler_config.max_model_len
+        self.enable_kv_cache_events = (
+            self.kv_events_config is not None
+            and self.kv_events_config.enable_kv_cache_events)
 
         # Create KVConnector for the Scheduler. Note that each Worker
         # will have a corresponding KVConnector with Role=WORKER.
@@ -71,6 +76,9 @@ class Scheduler(SchedulerInterface):
             self.connector = KVConnectorFactory.create_connector_v1(
                 config=self.vllm_config, role=KVConnectorRole.SCHEDULER)
 
+        self.kv_event_publisher = EventPublisherFactory.create(
+            self.kv_events_config)
+
         num_gpu_blocks = self.cache_config.num_gpu_blocks
         assert num_gpu_blocks is not None and num_gpu_blocks > 0
 
@@ -132,7 +140,9 @@ class Scheduler(SchedulerInterface):
             enable_caching=self.cache_config.enable_prefix_caching,
             caching_hash_algo=self.cache_config.prefix_caching_hash_algo,
             use_eagle=self.use_eagle,
-            log_stats=self.log_stats)
+            log_stats=self.log_stats,
+            enable_kv_cache_events=self.enable_kv_cache_events,
+        )
 
     def schedule(self) -> SchedulerOutput:
         # NOTE(woosuk) on the scheduling algorithm:
@@ -493,6 +503,11 @@ class Scheduler(SchedulerInterface):
             meta = self.connector.build_connector_meta(scheduler_output)
             scheduler_output.kv_connector_metadata = meta
 
+        events = self.kv_cache_manager.take_events()
+        if events:
+            batch = KVEventBatch(ts=time.time(), events=events)
+            self.kv_event_publisher.publish(batch)
+
         # Advance the number of computed tokens for the request AFTER
         # the request is scheduled.
         # 1. The scheduler_output of the current step has to include the
@@ -843,3 +858,7 @@ class Scheduler(SchedulerInterface):
             num_draft_tokens=num_draft_tokens,
             num_accepted_tokens=num_accepted_tokens)
         return spec_decoding_stats
+
+    def shutdown(self) -> None:
+        if self.kv_event_publisher:
+            self.kv_event_publisher.shutdown()
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index 5912318f1..e772615b7 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -259,6 +259,8 @@ class EngineCore:
         self.structured_output_manager.clear_backend()
         if self.model_executor:
             self.model_executor.shutdown()
+        if self.scheduler:
+            self.scheduler.shutdown()
 
     def profile(self, is_start: bool = True):
         self.model_executor.profile(is_start)
-- 
GitLab


From 2990cee95bb74394fb56c6fb6cc994fa80acbc86 Mon Sep 17 00:00:00 2001
From: Chauncey <chaunceyjiang@gmail.com>
Date: Wed, 30 Apr 2025 22:48:21 +0800
Subject: [PATCH 060/461] [Feature] The Qwen3 reasoning parser supports  guided
 decoding (#17466)

Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>
---
 vllm/reasoning/qwen3_reasoning_parser.py | 13 ++++++++++++-
 1 file changed, 12 insertions(+), 1 deletion(-)

diff --git a/vllm/reasoning/qwen3_reasoning_parser.py b/vllm/reasoning/qwen3_reasoning_parser.py
index 78a73011f..f588f4016 100644
--- a/vllm/reasoning/qwen3_reasoning_parser.py
+++ b/vllm/reasoning/qwen3_reasoning_parser.py
@@ -47,6 +47,18 @@ class Qwen3ReasoningParser(ReasoningParser):
                 "Qwen3 reasoning parser could not locate think start/end "
                 "tokens in the tokenizer!")
 
+    def is_reasoning_end(self, input_ids: list[int]) -> bool:
+        return self.think_end_token_id in input_ids
+
+    def extract_content_ids(self, input_ids: list[int]) -> list[int]:
+        """
+        Extract the content after the end tokens
+        """
+        if self.think_end_token_id not in input_ids[:-1]:
+            return []
+        else:
+            return input_ids[input_ids.index(self.think_end_token_id) + 1:]
+
     def extract_reasoning_content_streaming(
         self,
         previous_text: str,
@@ -88,7 +100,6 @@ class Qwen3ReasoningParser(ReasoningParser):
                 # reasoning content continues
                 return DeltaMessage(reasoning_content=delta_text)
         elif self.think_start_token_id in delta_token_ids:
-            logger.info(delta_text)
             if self.think_end_token_id in delta_token_ids:
                 # <think> in delta, </think> in delta, extract reasoning content
                 start_index = delta_text.find(self.think_start_token)
-- 
GitLab


From 39317cf42be27fa4a15558910b706f3d58327f94 Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Wed, 30 Apr 2025 11:06:09 -0400
Subject: [PATCH 061/461] [Docs] Add command for running mypy tests from CI
 (#17475)

Signed-off-by: Russell Bryant <rbryant@redhat.com>
---
 docs/source/contributing/overview.md | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/docs/source/contributing/overview.md b/docs/source/contributing/overview.md
index 3dceec1e5..7c4016cae 100644
--- a/docs/source/contributing/overview.md
+++ b/docs/source/contributing/overview.md
@@ -40,6 +40,10 @@ pre-commit install --hook-type pre-commit --hook-type commit-msg
 # You can manually run pre-commit with
 pre-commit run --all-files
 
+# To manually run something from CI that does not run
+# locally by default, you can run:
+pre-commit run mypy-3.9 --hook-stage manual --all-files
+
 # Unit tests
 pytest tests/
 ```
-- 
GitLab


From da4e7687b5d21d405bf229a74e055cc78cbcc06b Mon Sep 17 00:00:00 2001
From: Aaron Pham <contact@aarnphm.xyz>
Date: Wed, 30 Apr 2025 11:06:58 -0400
Subject: [PATCH 062/461] [Fix] Support passing args to logger (#17425)

Signed-off-by: Aaron Pham <contact@aarnphm.xyz>
---
 vllm/config.py                                | 12 +++---
 vllm/logger.py                                | 17 +++++----
 vllm/lora/punica_wrapper/punica_selector.py   |  3 +-
 vllm/model_executor/custom_op.py              |  6 +--
 .../guided_decoding/xgrammar_decoding.py      |  6 +--
 .../layers/quantization/awq_marlin.py         |  5 ++-
 .../model_loader/weight_utils.py              | 20 +++++-----
 vllm/model_executor/models/chameleon.py       |  8 ++--
 vllm/model_executor/models/olmoe.py           |  9 ++---
 vllm/model_executor/models/qwen2_moe.py       |  9 ++---
 vllm/model_executor/models/qwen3_moe.py       |  9 ++---
 vllm/multimodal/profiling.py                  | 38 ++++++++-----------
 vllm/multimodal/registry.py                   | 12 +++---
 13 files changed, 75 insertions(+), 79 deletions(-)

diff --git a/vllm/config.py b/vllm/config.py
index 5da1ab258..e96d872d6 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -278,7 +278,7 @@ class ModelConfig:
     max_model_len: int = None  # type: ignore
     """Model context length (prompt and output). If unspecified, will be
     automatically derived from the model config.
-    
+
     When passing via `--max-model-len`, supports k/m/g/K/M/G in human-readable
     format. Examples:\n
     - 1k -> 1000\n
@@ -518,11 +518,11 @@ class ModelConfig:
                     self.hf_text_config.sliding_window)
 
                 logger.warning_once(
-                    f"{self.hf_text_config.model_type} has interleaved "
-                    "attention, which is currently not supported by the "
-                    f"{backend} backend. Disabling sliding window and capping "
-                    "the max length to the sliding window size "
-                    f"({sliding_window_len_min}).")
+                    "%s has interleaved attention, which is currently not supported by the %s backend. Disabling sliding window and capping the max length to the sliding window size (%d).",  # noqa: E501
+                    self.hf_text_config.model_type,
+                    backend,
+                    sliding_window_len_min,
+                )
                 self.disable_sliding_window = True
             else:
                 # for a model with interleaved attention,
diff --git a/vllm/logger.py b/vllm/logger.py
index 2b0b9da2d..c162e2e04 100644
--- a/vllm/logger.py
+++ b/vllm/logger.py
@@ -5,6 +5,7 @@ import json
 import logging
 import os
 import sys
+from collections.abc import Hashable
 from functools import lru_cache, partial
 from logging import Logger
 from logging.config import dictConfig
@@ -52,15 +53,15 @@ DEFAULT_LOGGING_CONFIG = {
 
 
 @lru_cache
-def _print_info_once(logger: Logger, msg: str) -> None:
+def _print_info_once(logger: Logger, msg: str, *args: Hashable) -> None:
     # Set the stacklevel to 2 to print the original caller's line info
-    logger.info(msg, stacklevel=2)
+    logger.info(msg, *args, stacklevel=2)
 
 
 @lru_cache
-def _print_warning_once(logger: Logger, msg: str) -> None:
+def _print_warning_once(logger: Logger, msg: str, *args: Hashable) -> None:
     # Set the stacklevel to 2 to print the original caller's line info
-    logger.warning(msg, stacklevel=2)
+    logger.warning(msg, *args, stacklevel=2)
 
 
 class _VllmLogger(Logger):
@@ -72,19 +73,19 @@ class _VllmLogger(Logger):
         `intel_extension_for_pytorch.utils._logger`.
     """
 
-    def info_once(self, msg: str) -> None:
+    def info_once(self, msg: str, *args: Hashable) -> None:
         """
         As :meth:`info`, but subsequent calls with the same message
         are silently dropped.
         """
-        _print_info_once(self, msg)
+        _print_info_once(self, msg, *args)
 
-    def warning_once(self, msg: str) -> None:
+    def warning_once(self, msg: str, *args: Hashable) -> None:
         """
         As :meth:`warning`, but subsequent calls with the same message
         are silently dropped.
         """
-        _print_warning_once(self, msg)
+        _print_warning_once(self, msg, *args)
 
 
 def _configure_vllm_root_logger() -> None:
diff --git a/vllm/lora/punica_wrapper/punica_selector.py b/vllm/lora/punica_wrapper/punica_selector.py
index ad5d4b788..922d6c060 100644
--- a/vllm/lora/punica_wrapper/punica_selector.py
+++ b/vllm/lora/punica_wrapper/punica_selector.py
@@ -15,6 +15,5 @@ def get_punica_wrapper(*args, **kwargs) -> PunicaWrapperBase:
     punica_wrapper = punica_wrapper_cls(*args, **kwargs)
     assert punica_wrapper is not None, \
         "the punica_wrapper_qualname(" + punica_wrapper_qualname + ") is wrong."
-    logger.info_once("Using " + punica_wrapper_qualname.rsplit(".", 1)[1] +
-                     ".")
+    logger.info_once("Using %s.", punica_wrapper_qualname.rsplit(".", 1)[1])
     return punica_wrapper
diff --git a/vllm/model_executor/custom_op.py b/vllm/model_executor/custom_op.py
index dfd052f62..b0d00ee48 100644
--- a/vllm/model_executor/custom_op.py
+++ b/vllm/model_executor/custom_op.py
@@ -107,9 +107,9 @@ class CustomOp(nn.Module):
         custom_ops = compilation_config.custom_ops
         if not hasattr(cls, "name"):
             logger.warning_once(
-                f"Custom op {cls.__name__} was not registered, "
-                f"which means it won't appear in the op registry. "
-                f"It will be enabled/disabled based on the global settings.")
+                "Custom op %s was not registered, which means it won't appear in the op registry. It will be enabled/disabled based on the global settings.",  # noqa: E501
+                cls.__name__,
+            )
             return CustomOp.default_on()
 
         enabled = f"+{cls.name}" in custom_ops
diff --git a/vllm/model_executor/guided_decoding/xgrammar_decoding.py b/vllm/model_executor/guided_decoding/xgrammar_decoding.py
index c63acfdde..eb7b2b74f 100644
--- a/vllm/model_executor/guided_decoding/xgrammar_decoding.py
+++ b/vllm/model_executor/guided_decoding/xgrammar_decoding.py
@@ -191,9 +191,9 @@ class GrammarConfig:
 
             if model_with_warn is not None and any_whitespace:
                 logger.info_once(
-                    f"{model_with_warn} model detected, consider setting "
-                    "`disable_any_whitespace` to prevent runaway generation "
-                    "of whitespaces.")
+                    "%s model detected, consider setting `disable_any_whitespace` to prevent runaway generation of whitespaces.",  # noqa: E501
+                    model_with_warn,
+                )
             # Validate the schema and raise ValueError here if it is invalid.
             # This is to avoid exceptions in model execution, which will crash
             # the engine worker process.
diff --git a/vllm/model_executor/layers/quantization/awq_marlin.py b/vllm/model_executor/layers/quantization/awq_marlin.py
index 193e90b85..07d928b59 100644
--- a/vllm/model_executor/layers/quantization/awq_marlin.py
+++ b/vllm/model_executor/layers/quantization/awq_marlin.py
@@ -130,8 +130,9 @@ class AWQMarlinConfig(QuantizationConfig):
             # Check if the layer is supported by AWQMarlin.
             if not check_marlin_supports_layer(layer, self.group_size):
                 logger.warning_once(
-                    f"Layer '{prefix}' is not supported by AWQMarlin. "
-                    "Falling back to unoptimized AWQ kernels.")
+                    "Layer '%s' is not supported by AWQMarlin. Falling back to unoptimized AWQ kernels.",  # noqa: E501
+                    prefix,
+                )
                 return AWQConfig.from_config(
                     self.full_config).get_quant_method(layer, prefix)
             return AWQMarlinLinearMethod(self)
diff --git a/vllm/model_executor/model_loader/weight_utils.py b/vllm/model_executor/model_loader/weight_utils.py
index 1bb592f49..37a8491cf 100644
--- a/vllm/model_executor/model_loader/weight_utils.py
+++ b/vllm/model_executor/model_loader/weight_utils.py
@@ -464,7 +464,7 @@ def fastsafetensors_weights_iterator(
     hf_weights_files: List[str],
     use_tqdm_on_load: bool,
 ) -> Generator[Tuple[str, torch.Tensor], None, None]:
-    """Iterate over the weights in the model safetensor files 
+    """Iterate over the weights in the model safetensor files
     using fastsafetensor library."""
     if torch.distributed.is_initialized():
         pg = torch.distributed.group.WORLD
@@ -716,10 +716,10 @@ def maybe_remap_kv_scale_name(name: str, params_dict: dict) -> Optional[str]:
         remapped_name = name.replace(".kv_scale", ".attn.k_scale")
         if remapped_name not in params_dict:
             logger.warning_once(
-                f"Found kv_scale in the checkpoint (e.g. {name}), "
-                "but not found the expected name in the model "
-                f"(e.g. {remapped_name}). kv_scale is "
-                "not loaded.")
+                "Found kv_scale in the checkpoint (e.g. %s), but not found the expected name in the model (e.g. %s). kv_scale is not loaded.",  #  noqa: E501
+                name,
+                remapped_name,
+            )
             return None
         return remapped_name
 
@@ -738,10 +738,12 @@ def maybe_remap_kv_scale_name(name: str, params_dict: dict) -> Optional[str]:
                 remapped_name = name.replace(scale_name, f".attn{scale_name}")
             if remapped_name not in params_dict:
                 logger.warning_once(
-                    f"Found {scale_name} in the checkpoint (e.g. {name}), "
-                    "but not found the expected name in the model "
-                    f"(e.g. {remapped_name}). {scale_name} is "
-                    "not loaded.")
+                    "Found %s in the checkpoint (e.g. %s), but not found the expected name in the model (e.g. %s). %s is not loaded.",  # noqa: E501
+                    scale_name,
+                    name,
+                    remapped_name,
+                    scale_name,
+                )
                 return None
             return remapped_name
 
diff --git a/vllm/model_executor/models/chameleon.py b/vllm/model_executor/models/chameleon.py
index e2c275300..ef8b033f3 100644
--- a/vllm/model_executor/models/chameleon.py
+++ b/vllm/model_executor/models/chameleon.py
@@ -1111,10 +1111,10 @@ class ChameleonForConditionalGeneration(nn.Module, SupportsMultiModal,
                             ".kv_scale", ".attn.kv_scale")
                         if remapped_kv_scale_name not in params_dict:
                             logger.warning_once(
-                                "Found kv scale in the checkpoint (e.g. "
-                                f"{name}), but not found the expected name in "
-                                f"the model (e.g. {remapped_kv_scale_name}). "
-                                "kv-scale is not loaded.")
+                                "Found kv scale in the checkpoint (e.g. %s), but not found the expected name in the model (e.g. %s). kv-scale is not loaded.",  # noqa: E501
+                                name,
+                                remapped_kv_scale_name,
+                            )
                             continue
                         else:
                             name = remapped_kv_scale_name
diff --git a/vllm/model_executor/models/olmoe.py b/vllm/model_executor/models/olmoe.py
index 9bed29d01..e6925e125 100644
--- a/vllm/model_executor/models/olmoe.py
+++ b/vllm/model_executor/models/olmoe.py
@@ -385,11 +385,10 @@ class OlmoeModel(nn.Module):
                             ".kv_scale", ".attn.kv_scale")
                         if remapped_kv_scale_name not in params_dict:
                             logger.warning_once(
-                                "Found kv scale in the checkpoint "
-                                f"(e.g. {name}), but not found the expected "
-                                f"name in the model "
-                                f"(e.g. {remapped_kv_scale_name}). "
-                                "kv-scale is not loaded.")
+                                "Found kv scale in the checkpoint (e.g. %s), but not found the expected name in the model (e.g. %s). kv-scale is not loaded.",  # noqa: E501
+                                name,
+                                remapped_kv_scale_name,
+                            )
                             continue
                         else:
                             name = remapped_kv_scale_name
diff --git a/vllm/model_executor/models/qwen2_moe.py b/vllm/model_executor/models/qwen2_moe.py
index 62696678b..47d90919e 100644
--- a/vllm/model_executor/models/qwen2_moe.py
+++ b/vllm/model_executor/models/qwen2_moe.py
@@ -462,11 +462,10 @@ class Qwen2MoeModel(nn.Module):
                             ".kv_scale", ".attn.kv_scale")
                         if remapped_kv_scale_name not in params_dict:
                             logger.warning_once(
-                                "Found kv scale in the checkpoint "
-                                f"(e.g. {name}), but not found the expected "
-                                f"name in the model "
-                                f"(e.g. {remapped_kv_scale_name}). "
-                                "kv-scale is not loaded.")
+                                "Found kv_scale in the checkpoint (e.g. %s), but not found the expected name in the model (e.g. %s). kv_scale is not loaded.",  #  noqa: E501
+                                name,
+                                remapped_kv_scale_name,
+                            )
                             continue
                         else:
                             name = remapped_kv_scale_name
diff --git a/vllm/model_executor/models/qwen3_moe.py b/vllm/model_executor/models/qwen3_moe.py
index 70f9956e3..97acbaa2a 100644
--- a/vllm/model_executor/models/qwen3_moe.py
+++ b/vllm/model_executor/models/qwen3_moe.py
@@ -459,11 +459,10 @@ class Qwen3MoeModel(nn.Module):
                             ".kv_scale", ".attn.kv_scale")
                         if remapped_kv_scale_name not in params_dict:
                             logger.warning_once(
-                                "Found kv scale in the checkpoint "
-                                f"(e.g. {name}), but not found the expected "
-                                f"name in the model "
-                                f"(e.g. {remapped_kv_scale_name}). "
-                                "kv-scale is not loaded.")
+                                "Found kv scale in the checkpoint (e.g. %s), but not found the expected name in the model (e.g. %s). kv-scale is not loaded.",  # noqa: E501
+                                name,
+                                remapped_kv_scale_name,
+                            )
                             continue
                         else:
                             name = remapped_kv_scale_name
diff --git a/vllm/multimodal/profiling.py b/vllm/multimodal/profiling.py
index a173487c4..b351acc8c 100644
--- a/vllm/multimodal/profiling.py
+++ b/vllm/multimodal/profiling.py
@@ -215,17 +215,14 @@ class MultiModalProfiler(Generic[_I]):
         elif total_len > seq_len and not envs.VLLM_USE_V1:
             # `max_num_batched_tokens` is defined by `SchedulerConfig`
             logger.warning_once(
-                "The encoder sequence length used for profiling ("
-                f"max_num_batched_tokens / max_num_seqs = {seq_len}) "
-                " is too short "
-                "to hold the multi-modal embeddings in the worst case "
-                f"({total_len} tokens in total, out of which "
-                f"{self._get_mm_num_tokens(mm_inputs)} are reserved for "
-                "multi-modal embeddings). This may cause certain "
-                "multi-modal inputs to fail during inference, even when "
-                "the input text is short. To avoid this, you should "
-                "increase `max_model_len`, reduce `max_num_seqs`, "
-                "and/or reduce `mm_counts`.")
+                "The encoder sequence length used for profiling (max_num_batched_tokens / max_num_seqs = %d) "  # noqa: E501
+                "is too short to hold the multi-modal embeddings in the worst case (%d tokens in total, out of which %s are reserved for multi-modal embeddings). "  # noqa: E501
+                "This may cause certain multi-modal inputs to fail during inference, even when the input text is short. "  # noqa: E501
+                "To avoid this, you should increase `max_model_len`, reduce `max_num_seqs`, and/or reduce `mm_counts`.",  # noqa: E501
+                seq_len,
+                total_len,
+                str(self._get_mm_num_tokens(mm_inputs)),
+            )
 
         return DummyEncoderData(encoder_prompt_token_ids)
 
@@ -243,17 +240,14 @@ class MultiModalProfiler(Generic[_I]):
         if total_len > seq_len and not envs.VLLM_USE_V1:
             # `max_num_batched_tokens` is defined by `SchedulerConfig`
             logger.warning_once(
-                "The sequence length used for profiling ("
-                f"max_num_batched_tokens / max_num_seqs = {seq_len}) "
-                "is too short "
-                "to hold the multi-modal embeddings in the worst case "
-                f"({total_len} tokens in total, out of which "
-                f"{self._get_mm_num_tokens(mm_inputs)} are reserved for "
-                "multi-modal embeddings). This may cause certain "
-                "multi-modal inputs to fail during inference, even when "
-                "the input text is short. To avoid this, you should "
-                "increase `max_model_len`, reduce `max_num_seqs`, "
-                "and/or reduce `mm_counts`.")
+                "The sequence length used for profiling (max_num_batched_tokens / max_num_seqs = %d) "  # noqa: E501
+                "is too short to hold the multi-modal embeddings in the worst case (%d tokens in total, out of which %s are reserved for multi-modal embeddings). "  # noqa: E501
+                "This may cause certain multi-modal inputs to fail during inference, even when the input text is short. "  # noqa: E501
+                "To avoid this, you should increase `max_model_len`, reduce `max_num_seqs`, and/or reduce `mm_counts`.",  # noqa: E501
+                seq_len,
+                total_len,
+                str(self._get_mm_num_tokens(mm_inputs)),
+            )
 
         if total_len < seq_len:
             prompt_token_ids.extend([0] * (seq_len - total_len))
diff --git a/vllm/multimodal/registry.py b/vllm/multimodal/registry.py
index 68598b941..9d2b4e486 100644
--- a/vllm/multimodal/registry.py
+++ b/vllm/multimodal/registry.py
@@ -100,7 +100,7 @@ class MultiModalRegistry:
         model_config: "ModelConfig",
     ) -> Mapping[str, int]:
         """
-        Get the maximum number of tokens per data item from each modality based 
+        Get the maximum number of tokens per data item from each modality based
         on underlying model configuration.
         """
         if not model_config.is_multimodal_model:
@@ -126,11 +126,11 @@ class MultiModalRegistry:
     ) -> Mapping[str, int]:
         """
         Get the maximum number of tokens per data item from each modality based
-        on underlying model configuration, excluding modalities that user 
+        on underlying model configuration, excluding modalities that user
         explicitly disabled via `limit_mm_per_prompt`.
 
         Note:
-            This is currently directly used only in V1 for profiling the memory 
+            This is currently directly used only in V1 for profiling the memory
             usage of a model.
         """
         mm_limits = self.get_mm_limits_per_prompt(model_config)
@@ -316,7 +316,9 @@ class MultiModalRegistry:
         token_ids = dummy_data.prompt_token_ids
         if len(token_ids) < seq_len:
             logger.warning_once(
-                f"Expected at least {seq_len} dummy encoder tokens for "
-                f"profiling, but found {len(token_ids)} tokens instead.")
+                "Expected at least %d dummy encoder tokens for profiling, but found %d tokens instead.",  # noqa: E501
+                seq_len,
+                len(token_ids),
+            )
 
         return dummy_data
-- 
GitLab


From 739e03b3449a7f3b0a81ebc30b9555305d914e2d Mon Sep 17 00:00:00 2001
From: Pete Savage <psav@users.noreply.github.com>
Date: Wed, 30 Apr 2025 16:08:37 +0100
Subject: [PATCH 063/461] [Bugfix] Fixed mistral tokenizer path when pointing
 to file (#17457)

Signed-off-by: Pete Savage <psavage@redhat.com>
---
 vllm/transformers_utils/tokenizers/mistral.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/vllm/transformers_utils/tokenizers/mistral.py b/vllm/transformers_utils/tokenizers/mistral.py
index 6d4655781..3db7a0a5c 100644
--- a/vllm/transformers_utils/tokenizers/mistral.py
+++ b/vllm/transformers_utils/tokenizers/mistral.py
@@ -227,6 +227,7 @@ class MistralTokenizer(TokenizerBase):
         else:
             assert Path(
                 path_or_repo_id).is_file(), f"Invalid path: {path_or_repo_id}"
+            tokenizer_file = str(Path(path_or_repo_id))
 
         from mistral_common.tokens.tokenizers.mistral import (
             MistralTokenizer as PublicMistralTokenizer)
-- 
GitLab


From 947f2f5375571a59fd509fccf5894f932240203e Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Wed, 30 Apr 2025 12:10:54 -0400
Subject: [PATCH 064/461] [V1] Allow turning off pickle fallback in
 vllm.v1.serial_utils (#17427)

Signed-off-by: Russell Bryant <rbryant@redhat.com>
Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>
---
 tests/v1/test_serial_utils.py | 98 +++++++++++++++++++++++++++++++++++
 vllm/v1/serial_utils.py       | 21 +++++---
 2 files changed, 113 insertions(+), 6 deletions(-)

diff --git a/tests/v1/test_serial_utils.py b/tests/v1/test_serial_utils.py
index b55018ae8..d1271b210 100644
--- a/tests/v1/test_serial_utils.py
+++ b/tests/v1/test_serial_utils.py
@@ -5,6 +5,7 @@ from typing import Optional
 
 import msgspec
 import numpy as np
+import pytest
 import torch
 
 from vllm.multimodal.inputs import (MultiModalBatchedField,
@@ -196,3 +197,100 @@ def assert_equal(obj1: MyType, obj2: MyType):
     assert torch.equal(obj1.large_non_contig_tensor,
                        obj2.large_non_contig_tensor)
     assert torch.equal(obj1.empty_tensor, obj2.empty_tensor)
+
+
+@pytest.mark.parametrize("allow_pickle", [True, False])
+def test_dict_serialization(allow_pickle: bool):
+    """Test encoding and decoding of a generic Python object using pickle."""
+    encoder = MsgpackEncoder(allow_pickle=allow_pickle)
+    decoder = MsgpackDecoder(allow_pickle=allow_pickle)
+
+    # Create a sample Python object
+    obj = {"key": "value", "number": 42}
+
+    # Encode the object
+    encoded = encoder.encode(obj)
+
+    # Decode the object
+    decoded = decoder.decode(encoded)
+
+    # Verify the decoded object matches the original
+    assert obj == decoded, "Decoded object does not match the original object."
+
+
+@pytest.mark.parametrize("allow_pickle", [True, False])
+def test_tensor_serialization(allow_pickle: bool):
+    """Test encoding and decoding of a torch.Tensor."""
+    encoder = MsgpackEncoder(allow_pickle=allow_pickle)
+    decoder = MsgpackDecoder(torch.Tensor, allow_pickle=allow_pickle)
+
+    # Create a sample tensor
+    tensor = torch.rand(10, 10)
+
+    # Encode the tensor
+    encoded = encoder.encode(tensor)
+
+    # Decode the tensor
+    decoded = decoder.decode(encoded)
+
+    # Verify the decoded tensor matches the original
+    assert torch.allclose(
+        tensor, decoded), "Decoded tensor does not match the original tensor."
+
+
+@pytest.mark.parametrize("allow_pickle", [True, False])
+def test_numpy_array_serialization(allow_pickle: bool):
+    """Test encoding and decoding of a numpy array."""
+    encoder = MsgpackEncoder(allow_pickle=allow_pickle)
+    decoder = MsgpackDecoder(np.ndarray, allow_pickle=allow_pickle)
+
+    # Create a sample numpy array
+    array = np.random.rand(10, 10)
+
+    # Encode the numpy array
+    encoded = encoder.encode(array)
+
+    # Decode the numpy array
+    decoded = decoder.decode(encoded)
+
+    # Verify the decoded array matches the original
+    assert np.allclose(
+        array,
+        decoded), "Decoded numpy array does not match the original array."
+
+
+class CustomClass:
+
+    def __init__(self, value):
+        self.value = value
+
+    def __eq__(self, other):
+        return isinstance(other, CustomClass) and self.value == other.value
+
+
+def test_custom_class_serialization_allowed_with_pickle():
+    """Test that serializing a custom class succeeds when allow_pickle=True."""
+    encoder = MsgpackEncoder(allow_pickle=True)
+    decoder = MsgpackDecoder(CustomClass, allow_pickle=True)
+
+    obj = CustomClass("test_value")
+
+    # Encode the custom class
+    encoded = encoder.encode(obj)
+
+    # Decode the custom class
+    decoded = decoder.decode(encoded)
+
+    # Verify the decoded object matches the original
+    assert obj == decoded, "Decoded object does not match the original object."
+
+
+def test_custom_class_serialization_disallowed_without_pickle():
+    """Test that serializing a custom class fails when allow_pickle=False."""
+    encoder = MsgpackEncoder(allow_pickle=False)
+
+    obj = CustomClass("test_value")
+
+    with pytest.raises(TypeError):
+        # Attempt to encode the custom class
+        encoder.encode(obj)
diff --git a/vllm/v1/serial_utils.py b/vllm/v1/serial_utils.py
index a3ad8cb92..e00ecde66 100644
--- a/vllm/v1/serial_utils.py
+++ b/vllm/v1/serial_utils.py
@@ -47,7 +47,9 @@ class MsgpackEncoder:
     via dedicated messages. Note that this is a per-tensor limit.
     """
 
-    def __init__(self, size_threshold: Optional[int] = None):
+    def __init__(self,
+                 size_threshold: Optional[int] = None,
+                 allow_pickle: bool = True):
         if size_threshold is None:
             size_threshold = envs.VLLM_MSGPACK_ZERO_COPY_THRESHOLD
         self.encoder = msgpack.Encoder(enc_hook=self.enc_hook)
@@ -56,6 +58,7 @@ class MsgpackEncoder:
         # pass custom data to the hook otherwise.
         self.aux_buffers: Optional[list[bytestr]] = None
         self.size_threshold = size_threshold
+        self.allow_pickle = allow_pickle
 
     def encode(self, obj: Any) -> Sequence[bytestr]:
         try:
@@ -105,6 +108,9 @@ class MsgpackEncoder:
                     for itemlist in mm._items_by_modality.values()
                     for item in itemlist]
 
+        if not self.allow_pickle:
+            raise TypeError(f"Object of type {type(obj)} is not serializable")
+
         if isinstance(obj, FunctionType):
             # `pickle` is generally faster than cloudpickle, but can have
             # problems serializing methods.
@@ -179,12 +185,13 @@ class MsgpackDecoder:
     not thread-safe when encoding tensors / numpy arrays.
     """
 
-    def __init__(self, t: Optional[Any] = None):
+    def __init__(self, t: Optional[Any] = None, allow_pickle: bool = True):
         args = () if t is None else (t, )
         self.decoder = msgpack.Decoder(*args,
                                        ext_hook=self.ext_hook,
                                        dec_hook=self.dec_hook)
         self.aux_buffers: Sequence[bytestr] = ()
+        self.allow_pickle = allow_pickle
 
     def decode(self, bufs: Union[bytestr, Sequence[bytestr]]) -> Any:
         if isinstance(bufs, (bytes, bytearray, memoryview, zmq.Frame)):
@@ -265,10 +272,12 @@ class MsgpackDecoder:
     def ext_hook(self, code: int, data: memoryview) -> Any:
         if code == CUSTOM_TYPE_RAW_VIEW:
             return data
-        if code == CUSTOM_TYPE_PICKLE:
-            return pickle.loads(data)
-        if code == CUSTOM_TYPE_CLOUDPICKLE:
-            return cloudpickle.loads(data)
+
+        if self.allow_pickle:
+            if code == CUSTOM_TYPE_PICKLE:
+                return pickle.loads(data)
+            if code == CUSTOM_TYPE_CLOUDPICKLE:
+                return cloudpickle.loads(data)
 
         raise NotImplementedError(
             f"Extension type code {code} is not supported")
-- 
GitLab


From 0b7e701dd40f4dd4b1f53afc31f087f8bb9e1ae8 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Wed, 30 Apr 2025 10:34:02 -0600
Subject: [PATCH 065/461] [Docs] Update optimization.md doc (#17482)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 docs/source/performance/optimization.md | 187 ++++++++++++++++++++----
 1 file changed, 155 insertions(+), 32 deletions(-)

diff --git a/docs/source/performance/optimization.md b/docs/source/performance/optimization.md
index ccbe8a367..4160f0784 100644
--- a/docs/source/performance/optimization.md
+++ b/docs/source/performance/optimization.md
@@ -2,65 +2,188 @@
 
 # Optimization and Tuning
 
+This guide covers optimization strategies and performance tuning for vLLM V1.
+
 ## Preemption
 
 Due to the auto-regressive nature of transformer architecture, there are times when KV cache space is insufficient to handle all batched requests.
-The vLLM can preempt requests to free up KV cache space for other requests. Preempted requests are recomputed when sufficient KV cache space becomes
-available again. When this occurs, the following warning is printed:
+In such cases, vLLM can preempt requests to free up KV cache space for other requests. Preempted requests are recomputed when sufficient KV cache space becomes
+available again. When this occurs, you may see the following warning:
 
 ```text
-WARNING 05-09 00:49:33 scheduler.py:1057 Sequence group 0 is preempted by PreemptionMode.SWAP mode because there is not enough KV cache space. This can affect the end-to-end performance. Increase gpu_memory_utilization or tensor_parallel_size to provide more KV cache memory. total_cumulative_preemption_cnt=1
+WARNING 05-09 00:49:33 scheduler.py:1057 Sequence group 0 is preempted by PreemptionMode.RECOMPUTE mode because there is not enough KV cache space. This can affect the end-to-end performance. Increase gpu_memory_utilization or tensor_parallel_size to provide more KV cache memory. total_cumulative_preemption_cnt=1
 ```
 
 While this mechanism ensures system robustness, preemption and recomputation can adversely affect end-to-end latency.
-If you frequently encounter preemptions from the vLLM engine, consider the following actions:
+If you frequently encounter preemptions, consider the following actions:
+
+- Increase `gpu_memory_utilization`. vLLM pre-allocates GPU cache using this percentage of memory. By increasing utilization, you can provide more KV cache space.
+- Decrease `max_num_seqs` or `max_num_batched_tokens`. This reduces the number of concurrent requests in a batch, thereby requiring less KV cache space.
+- Increase `tensor_parallel_size`. This shards model weights across GPUs, allowing each GPU to have more memory available for KV cache. However, increasing this value may cause excessive synchronization overhead.
+- Increase `pipeline_parallel_size`. This distributes model layers across GPUs, reducing the memory needed for model weights on each GPU, indirectly leaving more memory available for KV cache. However, increasing this value may cause latency penalties.
 
-- Increase `gpu_memory_utilization`. The vLLM pre-allocates GPU cache by using gpu_memory_utilization% of memory. By increasing this utilization, you can provide more KV cache space.
-- Decrease `max_num_seqs` or `max_num_batched_tokens`. This can reduce the number of concurrent requests in a batch, thereby requiring less KV cache space.
-- Increase `tensor_parallel_size`. This approach shards model weights, so each GPU has more memory available for KV cache.
-- Increase `pipeline_parallel_size`. This approach distributes model layers across GPUs, reducing the memory needed for model weights on each GPU, which indirectly leaves more memory available for KV cache.
+You can monitor the number of preemption requests through Prometheus metrics exposed by vLLM. Additionally, you can log the cumulative number of preemption requests by setting `disable_log_stats=False`.
 
-You can also monitor the number of preemption requests through Prometheus metrics exposed by the vLLM. Additionally, you can log the cumulative number of preemption requests by setting disable_log_stats=False.
+In vLLM V1, the default preemption mode is `RECOMPUTE` rather than `SWAP`, as recomputation has lower overhead in the V1 architecture.
 
 (chunked-prefill)=
 
 ## Chunked Prefill
 
-vLLM supports an experimental feature chunked prefill. Chunked prefill allows to chunk large prefills into smaller chunks and batch them together with decode requests.
+Chunked prefill allows vLLM to process large prefills in smaller chunks and batch them together with decode requests. This feature helps improve both throughput and latency by better balancing compute-bound (prefill) and memory-bound (decode) operations.
+
+In vLLM V1, **chunked prefill is always enabled by default**. This is different from vLLM V0, where it was conditionally enabled based on model characteristics.
+
+With chunked prefill enabled, the scheduling policy prioritizes decode requests. It batches all pending decode requests before scheduling any prefill operations. When there are available tokens in the `max_num_batched_tokens` budget, it schedules pending prefills. If a pending prefill request cannot fit into `max_num_batched_tokens`, it automatically chunks it.
+
+This policy has two benefits:
+
+- It improves ITL and generation decode because decode requests are prioritized.
+- It helps achieve better GPU utilization by locating compute-bound (prefill) and memory-bound (decode) requests to the same batch.
 
-You can enable the feature by specifying `--enable-chunked-prefill` in the command line or setting `enable_chunked_prefill=True` in the LLM constructor.
+### Performance Tuning with Chunked Prefill
+
+You can tune the performance by adjusting `max_num_batched_tokens`:
+
+- Smaller values (e.g., 2048) achieve better inter-token latency (ITL) because there are fewer prefills slowing down decodes.
+- Higher values achieve better time to first token (TTFT) as you can process more prefill tokens in a batch.
+- For optimal throughput, we recommend setting `max_num_batched_tokens > 8096` especially for smaller models on large GPUs.
+- If `max_num_batched_tokens` is the same as `max_model_len`, that's almost the equivalent to the V0 default scheduling policy (except that it still prioritizes decodes).
 
 ```python
 from vllm import LLM
 
-llm = LLM(model="meta-llama/Llama-2-7b-hf", enable_chunked_prefill=True)
-# Set max_num_batched_tokens to tune performance.
-# NOTE: 2048 is the default max_num_batched_tokens for chunked prefill.
-# llm = LLM(model="meta-llama/Llama-2-7b-hf", enable_chunked_prefill=True, max_num_batched_tokens=2048)
+# Set max_num_batched_tokens to tune performance
+llm = LLM(model="meta-llama/Llama-3.1-8B-Instruct", max_num_batched_tokens=16384)
 ```
 
-By default, vLLM scheduler prioritizes prefills and doesn't batch prefill and decode to the same batch.
-This policy optimizes the TTFT (time to the first token), but incurs slower ITL (inter token latency) and inefficient GPU utilization.
+See related papers for more details (<https://arxiv.org/pdf/2401.08671> or <https://arxiv.org/pdf/2308.16369>).
 
-Once chunked prefill is enabled, the policy is changed to prioritize decode requests.
-It batches all pending decode requests to the batch before scheduling any prefill.
-When there are available token_budget (`max_num_batched_tokens`), it schedules pending prefills.
-If a last pending prefill request cannot fit into `max_num_batched_tokens`, it chunks it.
+## Parallelism Strategies
 
-This policy has two benefits:
+vLLM supports multiple parallelism strategies that can be combined to optimize performance across different hardware configurations.
 
-- It improves ITL and generation decode because decode requests are prioritized.
-- It helps achieve better GPU utilization by locating compute-bound (prefill) and memory-bound (decode) requests to the same batch.
+### Tensor Parallelism (TP)
 
-You can tune the performance by changing `max_num_batched_tokens`. By default, it is set to 2048.
-Smaller `max_num_batched_tokens` achieves better ITL because there are fewer prefills interrupting decodes.
-Higher `max_num_batched_tokens` achieves better TTFT as you can put more prefill to the batch.
+Tensor parallelism shards model parameters across multiple GPUs within each model layer. This is the most common strategy for large model inference within a single node.
 
-- If `max_num_batched_tokens` is the same as `max_model_len`, that's almost the equivalent to the default scheduling policy (except that it still prioritizes decodes).
-- Note that the default value (2048) of `max_num_batched_tokens` is optimized for ITL, and it may have lower throughput than the default scheduler.
+**When to use:**
 
-We recommend you set `max_num_batched_tokens > 2048` for throughput.
+- When the model is too large to fit on a single GPU
+- When you need to reduce memory pressure per GPU to allow more KV cache space for higher throughput
 
-See related papers for more details (<https://arxiv.org/pdf/2401.08671> or <https://arxiv.org/pdf/2308.16369>).
+```python
+from vllm import LLM
+
+# Split model across 4 GPUs
+llm = LLM(model="meta-llama/Llama-3.3-70B-Instruct", tensor_parallel_size=4)
+```
+
+For models that are too large to fit on a single GPU (like 70B parameter models), tensor parallelism is essential.
+
+### Pipeline Parallelism (PP)
+
+Pipeline parallelism distributes model layers across multiple GPUs. Each GPU processes different parts of the model in sequence.
+
+**When to use:**
+
+- When you've already maxed out efficient tensor parallelism but need to distribute the model further, or across nodes
+- For very deep and narrow models where layer distribution is more efficient than tensor sharding
+
+Pipeline parallelism can be combined with tensor parallelism for very large models:
+
+```python
+from vllm import LLM
+
+# Combine pipeline and tensor parallelism
+llm = LLM(
+    model="meta-llama/Llama-3.3-70B-Instruct,
+    tensor_parallel_size=4,
+    pipeline_parallel_size=2
+)
+```
+
+### Expert Parallelism (EP)
+
+Expert parallelism is a specialized form of parallelism for Mixture of Experts (MoE) models, where different expert networks are distributed across GPUs.
+
+**When to use:**
 
-Please try out this feature and let us know your feedback via GitHub issues!
+- Specifically for MoE models (like DeepSeekV3, Qwen3MoE, Llama-4)
+- When you want to balance the expert computation load across GPUs
+
+Expert parallelism is enabled by setting `enable_expert_parallel=True`, which will use expert parallelism instead of tensor parallelism for MoE layers.
+It will use the same degree of parallelism as what you have set for tensor parallelism.
+
+### Data Parallelism (DP)
+
+Data parallelism replicates the entire model across multiple GPU sets and processes different batches of requests in parallel.
+
+**When to use:**
+
+- When you have enough GPUs to replicate the entire model
+- When you need to scale throughput rather than model size
+- In multi-user environments where isolation between request batches is beneficial
+
+Data parallelism can be combined with the other parallelism strategies and is set by `data_parallel_size=N`.
+Note that MoE layers will be sharded according to the product of the tensor parallel size and data parallel size.
+
+## Reducing Memory Usage
+
+If you encounter out-of-memory issues, consider these strategies:
+
+### Context Length and Batch Size
+
+You can reduce memory usage by limiting the context length and batch size:
+
+```python
+from vllm import LLM
+
+llm = LLM(
+    model="meta-llama/Llama-3.1-8B-Instruct",
+    max_model_len=2048,  # Limit context window
+    max_num_seqs=4       # Limit batch size
+)
+```
+
+### Adjust CUDA Graph Compilation
+
+CUDA graph compilation in V1 uses more memory than in V0. You can reduce memory usage by adjusting the compilation level:
+
+```python
+from vllm import LLM
+from vllm.config import CompilationConfig, CompilationLevel
+
+llm = LLM(
+    model="meta-llama/Llama-3.1-8B-Instruct",
+    compilation_config=CompilationConfig(
+        level=CompilationLevel.PIECEWISE,
+        cudagraph_capture_sizes=[1, 2, 4, 8]  # Capture fewer batch sizes
+    )
+)
+```
+
+Or, if you are not concerned about latency or overall performance, disable CUDA graph compilation entirely with `enforce_eager=True`:
+
+```python
+from vllm import LLM
+
+llm = LLM(
+    model="meta-llama/Llama-3.1-8B-Instruct",
+    enforce_eager=True  # Disable CUDA graph compilation
+)
+```
+
+### Multimodal Models
+
+For multi-modal models, you can reduce memory usage by limiting the number of images/videos per request:
+
+```python
+from vllm import LLM
+
+# Accept up to 2 images per prompt
+llm = LLM(
+    model="Qwen/Qwen2.5-VL-3B-Instruct",
+    limit_mm_per_prompt={"image": 2}
+)
+```
-- 
GitLab


From d586ddc691eadb7f5d8eb390da8035e5cb6c30d9 Mon Sep 17 00:00:00 2001
From: zh Wang <rekind133@outlook.com>
Date: Thu, 1 May 2025 00:51:05 +0800
Subject: [PATCH 066/461] [BugFix] Fix authorization of
 openai_transcription_client.py (#17321)

Signed-off-by: zh Wang <rekind133@outlook.com>
---
 examples/online_serving/openai_transcription_client.py | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/examples/online_serving/openai_transcription_client.py b/examples/online_serving/openai_transcription_client.py
index 5fcb7c526..66e622672 100644
--- a/examples/online_serving/openai_transcription_client.py
+++ b/examples/online_serving/openai_transcription_client.py
@@ -46,11 +46,15 @@ async def stream_openai_response():
         "model": "openai/whisper-large-v3",
     }
     url = openai_api_base + "/audio/transcriptions"
+    headers = {"Authorization": f"Bearer {openai_api_key}"}
     print("transcription result:", end=' ')
     async with httpx.AsyncClient() as client:
         with open(str(winning_call), "rb") as f:
-            async with client.stream('POST', url, files={'file': f},
-                                     data=data) as response:
+            async with client.stream('POST',
+                                     url,
+                                     files={'file': f},
+                                     data=data,
+                                     headers=headers) as response:
                 async for line in response.aiter_lines():
                     # Each line is a JSON object prefixed with 'data: '
                     if line:
-- 
GitLab


From 584f5fb4c6d96365a3bfa8594115bc02744f2096 Mon Sep 17 00:00:00 2001
From: Gregory Shtrasberg <156009573+gshtras@users.noreply.github.com>
Date: Wed, 30 Apr 2025 12:59:06 -0400
Subject: [PATCH 067/461] [Bugfix][ROCm] Restrict ray version due to a breaking
 release (#17480)

Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>
---
 requirements/rocm.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/requirements/rocm.txt b/requirements/rocm.txt
index 4df92aab3..0df56b258 100644
--- a/requirements/rocm.txt
+++ b/requirements/rocm.txt
@@ -9,7 +9,7 @@ awscli
 boto3
 botocore
 datasets
-ray >= 2.10.0
+ray>=2.10.0,<2.45.0
 peft
 pytest-asyncio
 tensorizer>=2.9.0
-- 
GitLab


From 2ac74d098ef7b8748db0cdaa255eeceb5cdd5366 Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Thu, 1 May 2025 01:02:41 +0800
Subject: [PATCH 068/461] [doc] add install tips (#17373)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 docs/source/features/quantization/fp8.md           | 14 +++++++-------
 docs/source/features/quantization/int4.md          |  8 +++++++-
 docs/source/features/quantization/int8.md          |  8 +++++++-
 .../features/quantization/quantized_kvcache.md     |  2 +-
 docs/source/features/quantization/quark.md         |  7 +++++++
 5 files changed, 29 insertions(+), 10 deletions(-)

diff --git a/docs/source/features/quantization/fp8.md b/docs/source/features/quantization/fp8.md
index a62e0124b..b90bb49ef 100644
--- a/docs/source/features/quantization/fp8.md
+++ b/docs/source/features/quantization/fp8.md
@@ -44,6 +44,12 @@ To produce performant FP8 quantized models with vLLM, you'll need to install the
 pip install llmcompressor
 ```
 
+Additionally, install `vllm` and `lm-evaluation-harness` for evaluation:
+
+```console
+pip install vllm lm-eval==0.4.4
+```
+
 ## Quantization Process
 
 The quantization process involves three main steps:
@@ -86,7 +92,7 @@ recipe = QuantizationModifier(
 # Apply the quantization algorithm.
 oneshot(model=model, recipe=recipe)
 
-# Save the model.
+# Save the model: Meta-Llama-3-8B-Instruct-FP8-Dynamic
 SAVE_DIR = MODEL_ID.split("/")[1] + "-FP8-Dynamic"
 model.save_pretrained(SAVE_DIR)
 tokenizer.save_pretrained(SAVE_DIR)
@@ -94,12 +100,6 @@ tokenizer.save_pretrained(SAVE_DIR)
 
 ### 3. Evaluating Accuracy
 
-Install `vllm` and `lm-evaluation-harness`:
-
-```console
-pip install vllm lm-eval==0.4.4
-```
-
 Load and run the model in `vllm`:
 
 ```python
diff --git a/docs/source/features/quantization/int4.md b/docs/source/features/quantization/int4.md
index f8939e5bf..be48788a4 100644
--- a/docs/source/features/quantization/int4.md
+++ b/docs/source/features/quantization/int4.md
@@ -18,6 +18,12 @@ To use INT4 quantization with vLLM, you'll need to install the [llm-compressor](
 pip install llmcompressor
 ```
 
+Additionally, install `vllm` and `lm-evaluation-harness` for evaluation:
+
+```console
+pip install vllm lm-eval==0.4.4
+```
+
 ## Quantization Process
 
 The quantization process involves four main steps:
@@ -87,7 +93,7 @@ oneshot(
     num_calibration_samples=NUM_CALIBRATION_SAMPLES,
 )
 
-# Save the compressed model
+# Save the compressed model: Meta-Llama-3-8B-Instruct-W4A16-G128
 SAVE_DIR = MODEL_ID.split("/")[1] + "-W4A16-G128"
 model.save_pretrained(SAVE_DIR, save_compressed=True)
 tokenizer.save_pretrained(SAVE_DIR)
diff --git a/docs/source/features/quantization/int8.md b/docs/source/features/quantization/int8.md
index b381f34bc..d6ddca18e 100644
--- a/docs/source/features/quantization/int8.md
+++ b/docs/source/features/quantization/int8.md
@@ -19,6 +19,12 @@ To use INT8 quantization with vLLM, you'll need to install the [llm-compressor](
 pip install llmcompressor
 ```
 
+Additionally, install `vllm` and `lm-evaluation-harness` for evaluation:
+
+```console
+pip install vllm lm-eval==0.4.4
+```
+
 ## Quantization Process
 
 The quantization process involves four main steps:
@@ -91,7 +97,7 @@ oneshot(
     num_calibration_samples=NUM_CALIBRATION_SAMPLES,
 )
 
-# Save the compressed model
+# Save the compressed model: Meta-Llama-3-8B-Instruct-W8A8-Dynamic-Per-Token
 SAVE_DIR = MODEL_ID.split("/")[1] + "-W8A8-Dynamic-Per-Token"
 model.save_pretrained(SAVE_DIR, save_compressed=True)
 tokenizer.save_pretrained(SAVE_DIR)
diff --git a/docs/source/features/quantization/quantized_kvcache.md b/docs/source/features/quantization/quantized_kvcache.md
index 9f36c2949..86e6354ec 100644
--- a/docs/source/features/quantization/quantized_kvcache.md
+++ b/docs/source/features/quantization/quantized_kvcache.md
@@ -126,7 +126,7 @@ oneshot(
     num_calibration_samples=NUM_CALIBRATION_SAMPLES,
 )
 
-# Save quantized model
+# Save quantized model: Llama-3.1-8B-Instruct-FP8-KV
 SAVE_DIR = MODEL_ID.split("/")[1] + "-FP8-KV"
 model.save_pretrained(SAVE_DIR, save_compressed=True)
 tokenizer.save_pretrained(SAVE_DIR)
diff --git a/docs/source/features/quantization/quark.md b/docs/source/features/quantization/quark.md
index 935ee37a8..955890dbc 100644
--- a/docs/source/features/quantization/quark.md
+++ b/docs/source/features/quantization/quark.md
@@ -19,6 +19,12 @@ pip install amd-quark
 You can refer to [Quark installation guide](https://quark.docs.amd.com/latest/install.html)
 for more installation details.
 
+Additionally, install `vllm` and `lm-evaluation-harness` for evaluation:
+
+```console
+pip install vllm lm-eval==0.4.4
+```
+
 ## Quantization Process
 
 After installing Quark, we will use an example to illustrate how to use Quark.  
@@ -150,6 +156,7 @@ LLAMA_KV_CACHE_GROUP = ["*k_proj", "*v_proj"]
 export_config = ExporterConfig(json_export_config=JsonExporterConfig())
 export_config.json_export_config.kv_cache_group = LLAMA_KV_CACHE_GROUP
 
+# Model: Llama-2-70b-chat-hf-w-fp8-a-fp8-kvcache-fp8-pertensor-autosmoothquant
 EXPORT_DIR = MODEL_ID.split("/")[1] + "-w-fp8-a-fp8-kvcache-fp8-pertensor-autosmoothquant"
 exporter = ModelExporter(config=export_config, export_dir=EXPORT_DIR)
 with torch.no_grad():
-- 
GitLab


From 42d9a2c4c70232204c799794be43164d19233fa1 Mon Sep 17 00:00:00 2001
From: David Xia <david@davidxia.com>
Date: Wed, 30 Apr 2025 13:03:20 -0400
Subject: [PATCH 069/461] doc: fix bug report Github template formatting
 (#17486)

Signed-off-by: David Xia <david@davidxia.com>
---
 .github/ISSUE_TEMPLATE/400-bug-report.yml | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/.github/ISSUE_TEMPLATE/400-bug-report.yml b/.github/ISSUE_TEMPLATE/400-bug-report.yml
index b96ab4074..637d2dd11 100644
--- a/.github/ISSUE_TEMPLATE/400-bug-report.yml
+++ b/.github/ISSUE_TEMPLATE/400-bug-report.yml
@@ -21,12 +21,12 @@ body:
       It is suggested to download and execute the latest script, as vllm might frequently update the diagnosis information needed for accurately and quickly responding to issues.
     value: |
       <details>
-      <summary>The output of `python collect_env.py`</summary>
+      <summary>The output of <code>python collect_env.py</code></summary>
 
       ```text
       Your output of `python collect_env.py` here
       ```
-      
+
       </details>
   validations:
     required: true
-- 
GitLab


From 81ecf425f0a645e6d6f1c339ba79ef37e95a9569 Mon Sep 17 00:00:00 2001
From: Chen Zhang <zhangch99@outlook.com>
Date: Thu, 1 May 2025 02:25:53 +0800
Subject: [PATCH 070/461] [v1][Spec Decode] Make sliding window compatible with
 eagle prefix caching (#17398)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>
---
 tests/v1/core/test_prefix_caching.py      | 64 +++++++++++++++++++++--
 tests/v1/core/test_specialized_manager.py |  8 ++-
 vllm/v1/core/kv_cache_manager.py          |  8 +--
 vllm/v1/core/specialized_manager.py       | 39 ++++++++++----
 4 files changed, 96 insertions(+), 23 deletions(-)

diff --git a/tests/v1/core/test_prefix_caching.py b/tests/v1/core/test_prefix_caching.py
index af0fef89d..4c05e0b87 100644
--- a/tests/v1/core/test_prefix_caching.py
+++ b/tests/v1/core/test_prefix_caching.py
@@ -15,7 +15,7 @@ from vllm.v1.core.kv_cache_manager import KVCacheManager, Request
 from vllm.v1.core.kv_cache_utils import (BlockHashType, KVCacheBlock,
                                          hash_block_tokens)
 from vllm.v1.kv_cache_interface import (FullAttentionSpec, KVCacheConfig,
-                                        KVCacheGroupSpec)
+                                        KVCacheGroupSpec, SlidingWindowSpec)
 
 
 def make_request(request_id,
@@ -863,11 +863,11 @@ def test_eagle_enabled_removes_last_block():
     req_eagle = make_request("eagle_divisible", token_ids)
     computed_blocks, num_tokens = manager.get_computed_blocks(req_eagle)
 
-    # Should retain 2 blocks:
+    # Should retain 1 block:
     # 1. Original 3 blocks → pop last hash → 2 matched blocks
-    # 2. last_block_hash is not None → Eagle pop is not SKIPPED
+    # 2. drop last matched block → 1 remaining block
     assert len(computed_blocks) == 1
-    assert num_tokens == 1 * block_size  # 32 tokens
+    assert num_tokens == 1 * block_size  # 16 tokens
 
 
 def test_eagle_with_partial_blocks():
@@ -894,3 +894,59 @@ def test_eagle_with_partial_blocks():
     # Original match: 2 full blocks → Eagle removes 1 → 1 remaining
     assert len(computed_blocks) == 1
     assert num_tokens == 1 * block_size
+
+
+def test_eagle_with_sliding_window():
+    """Test Eagle behavior with sliding window."""
+    block_size = 16
+    sliding_window_spec = SlidingWindowSpec(
+        block_size=block_size,
+        num_kv_heads=1,
+        head_size=1,
+        dtype=torch.float32,
+        sliding_window=block_size,
+        use_mla=False,
+    )
+    manager = KVCacheManager(
+        KVCacheConfig(
+            num_blocks=10,
+            tensors={},
+            kv_cache_groups=[KVCacheGroupSpec(['layer'], sliding_window_spec)],
+        ),
+        max_model_len=8192,
+        enable_caching=True,
+        use_eagle=True,
+    )
+
+    # 2 full blocks + 5 tokens (non-divisible length)
+    token_ids = [0] * (2 * block_size + 5)
+    req = make_request("partial_block_test", token_ids)
+
+    # Prime the cache
+    computed_blocks, _ = manager.get_computed_blocks(req)
+    manager.allocate_slots(req, len(token_ids), computed_blocks)
+    # record the block hash of the first block in the request for later use
+    block_hash_first_block = manager.req_to_block_hashes[req.request_id][0]
+    assert block_hash_first_block is not None
+    manager.free(req)
+
+    # New request with Eagle enabled
+    req_eagle = make_request("partial_eagle", token_ids)
+    computed_blocks, num_tokens = manager.get_computed_blocks(req_eagle)
+    # Original match: 2 full blocks → Eagle removes 1 → 1 remaining
+    assert len(computed_blocks) == 1
+    assert num_tokens == 1 * block_size
+
+    # Evict the first block in the request
+    assert manager.block_pool.get_cached_block(
+        block_hash_first_block) is not None
+    manager.block_pool.cached_block_hash_to_block.pop(block_hash_first_block)
+
+    # New request
+    req_after_evict = make_request("partial_eagle_after_evict", token_ids)
+    computed_blocks, num_tokens = manager.get_computed_blocks(req_after_evict)
+    # Cache miss. The only hit prefix is [NULL_BLOCK, BLOCK_2] if eagle is
+    # not considered. But after dropping the last matched block due to eagle,
+    # there will be no matched prefix.
+    assert len(computed_blocks) == 0
+    assert num_tokens == 0
diff --git a/tests/v1/core/test_specialized_manager.py b/tests/v1/core/test_specialized_manager.py
index 9b4ab5fa8..595c8608f 100644
--- a/tests/v1/core/test_specialized_manager.py
+++ b/tests/v1/core/test_specialized_manager.py
@@ -19,7 +19,9 @@ def test_sliding_window_possible_cached_prefix():
     )
 
     block_pool = BlockPool(num_gpu_blocks=100, enable_caching=True)
-    manager = SlidingWindowManager(sliding_window_spec, block_pool)
+    manager = SlidingWindowManager(sliding_window_spec,
+                                   block_pool,
+                                   use_eagle=False)
 
     def run_one_case(block_is_cached, expect_length):
         block_hash_list = [
@@ -79,7 +81,9 @@ def test_sliding_window_remove_skipped_blocks():
 
     block_pool = BlockPool(num_gpu_blocks=2000, enable_caching=True)
 
-    manager = SlidingWindowManager(sliding_window_spec, block_pool)
+    manager = SlidingWindowManager(sliding_window_spec,
+                                   block_pool,
+                                   use_eagle=False)
 
     null_block_id = block_pool.null_block.block_id
 
diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
index 39554bed0..cb13a5b7a 100644
--- a/vllm/v1/core/kv_cache_manager.py
+++ b/vllm/v1/core/kv_cache_manager.py
@@ -52,6 +52,7 @@ class KVCacheManager:
         self.specialized_manager = get_specialized_manager(
             kv_cache_spec=kv_cache_spec,
             block_pool=self.block_pool,
+            use_eagle=self.use_eagle,
         )
 
         # Mapping from request ID to blocks to track the blocks allocated
@@ -141,13 +142,6 @@ class KVCacheManager:
         computed_blocks = (
             self.specialized_manager.find_longest_cache_hit(block_hashes))
 
-        if self.use_eagle and len(computed_blocks) > 0:
-            # Drop the last matched block if (1) eagle is enabled and
-            # (2) there is a cache hit.
-            # This is to recompute the last block to get the required
-            # hidden states for eagle drafting head.
-            computed_blocks.pop()
-
         if self.log_stats:
             assert self.prefix_cache_stats is not None
             self.prefix_cache_stats.queries += len(block_hashes)
diff --git a/vllm/v1/core/specialized_manager.py b/vllm/v1/core/specialized_manager.py
index 7a8a98361..f04eedf42 100644
--- a/vllm/v1/core/specialized_manager.py
+++ b/vllm/v1/core/specialized_manager.py
@@ -18,6 +18,7 @@ class SpecializedManager(ABC):
         self,
         kv_cache_spec: KVCacheSpec,
         block_pool: BlockPool,
+        use_eagle: bool,
     ) -> None:
         """
         Initializes the SpecializedManager.
@@ -30,12 +31,17 @@ class SpecializedManager(ABC):
         self.kv_cache_spec = kv_cache_spec
         self.block_pool = block_pool
 
+        # Needs special handling for find_longest_cache_hit if eagle is enabled
+        self.use_eagle = use_eagle
+
     @abstractmethod
     def find_longest_cache_hit(
             self, block_hashes: list[BlockHashType]) -> list[KVCacheBlock]:
         """
         Get the longest cache hit prefix of the blocks. If no cache hit is 
-        found, return an empty list.
+        found, return an empty list. if eagle is enabled, drop the last matched 
+        block to force recompute the last block to get the required hidden 
+        states for eagle drafting head.
 
         Args:
             block_hashes: The block hashes of the request.
@@ -79,6 +85,8 @@ class FullAttentionManager(SpecializedManager):
                 computed_blocks.append(cached_block)
             else:
                 break
+        if self.use_eagle and len(computed_blocks) > 0:
+            computed_blocks.pop()
         return computed_blocks
 
     def remove_skipped_blocks(self, blocks: list[KVCacheBlock],
@@ -89,14 +97,20 @@ class FullAttentionManager(SpecializedManager):
 
 class SlidingWindowManager(SpecializedManager):
 
-    def __init__(self, kv_cache_spec: SlidingWindowSpec,
-                 block_pool: BlockPool):
-        super().__init__(kv_cache_spec, block_pool)
+    def __init__(self, kv_cache_spec: SlidingWindowSpec, block_pool: BlockPool,
+                 use_eagle: bool):
+        super().__init__(kv_cache_spec, block_pool, use_eagle)
         self.sliding_window = kv_cache_spec.sliding_window
         # The number of contiguous blocks needed for prefix cache hit.
         # -1 since the input token itself is also included in the window
         self.sliding_window_contiguous_blocks = cdiv(
             (kv_cache_spec.sliding_window - 1), self.block_size)
+        if self.use_eagle:
+            # Need to drop the last matched block if eagle is enabled. For
+            # sliding window layer, we achieve this by increasing the number of
+            # contiguous blocks needed for prefix cache hit by one and dropping
+            # the last matched block.
+            self.sliding_window_contiguous_blocks += 1
         self._null_block = block_pool.null_block
 
     def find_longest_cache_hit(
@@ -109,6 +123,7 @@ class SlidingWindowManager(SpecializedManager):
         computed_blocks = [self._null_block] * len(block_hashes)
         num_contiguous_blocks = 0
 
+        match_found = False
         # Search from right to left and early stop when a match is found.
         for i in range(len(block_hashes) - 1, -1, -1):
             if cached_block := self.block_pool.get_cached_block(
@@ -121,12 +136,16 @@ class SlidingWindowManager(SpecializedManager):
                     # E.g., [NULL, NULL, 8, 3, NULL, 9] -> [NULL, NULL, 8, 3]
                     # when sliding_window_contiguous_blocks=2.
                     del computed_blocks[i + num_contiguous_blocks:]
-                    return computed_blocks
+                    match_found = True
+                    break
             else:
                 num_contiguous_blocks = 0
-        # The first `num_contiguous_blocks` is a cache hit even if
-        # `num_contiguous_blocks < sliding_window_contiguous_blocks`.
-        del computed_blocks[num_contiguous_blocks:]
+        if not match_found:
+            # The first `num_contiguous_blocks` is a cache hit even if
+            # `num_contiguous_blocks < sliding_window_contiguous_blocks`.
+            del computed_blocks[num_contiguous_blocks:]
+        if self.use_eagle and len(computed_blocks) > 0:
+            computed_blocks.pop()
         return computed_blocks
 
     def remove_skipped_blocks(self, blocks: list[KVCacheBlock],
@@ -155,7 +174,7 @@ spec_manager_map: dict[type[KVCacheSpec], type[SpecializedManager]] = {
 
 
 def get_specialized_manager(kv_cache_spec: KVCacheSpec,
-                            block_pool: BlockPool) -> SpecializedManager:
+                            **kwargs) -> SpecializedManager:
     manager_class = spec_manager_map[type(kv_cache_spec)]
-    manager = manager_class(kv_cache_spec, block_pool)
+    manager = manager_class(kv_cache_spec, **kwargs)
     return manager
-- 
GitLab


From 200bbf92e8861e2458a6f90bca73f40cc3b1ad1f Mon Sep 17 00:00:00 2001
From: Rahul Tuli <rtuli@redhat.com>
Date: Wed, 30 Apr 2025 17:24:45 -0500
Subject: [PATCH 071/461] Bump Compressed Tensors version to 0.9.4 (#17478)

Signed-off-by: Rahul Tuli <rtuli@redhat.com>
Co-authored-by: mgoin <mgoin64@gmail.com>
---
 requirements/common.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/requirements/common.txt b/requirements/common.txt
index 36fc791cc..fba3f3580 100644
--- a/requirements/common.txt
+++ b/requirements/common.txt
@@ -36,7 +36,7 @@ pyyaml
 six>=1.16.0; python_version > '3.11' # transitive dependency of pandas that needs to be the latest version for python 3.12
 setuptools>=74.1.1,<80; python_version > '3.11' # Setuptools is used by triton, we need to ensure a modern version is installed for 3.12+ so that it does not try to import distutils, which was removed in 3.12
 einops # Required for Qwen2-VL.
-compressed-tensors == 0.9.3 # required for compressed-tensors
+compressed-tensors == 0.9.4 # required for compressed-tensors
 depyf==0.18.0 # required for profiling and debugging with compilation config
 cloudpickle # allows pickling lambda functions in model_executor/models/registry.py
 watchfiles # required for http server to monitor the updates of TLS files
-- 
GitLab


From 02bd65484630fc024a14a7cb3c5cb3c8b0ff81b8 Mon Sep 17 00:00:00 2001
From: Alex Brooks <alex.brooks@ibm.com>
Date: Wed, 30 Apr 2025 20:51:36 -0600
Subject: [PATCH 072/461] [Misc] Rename Audios -> Audio in Qwen2audio
 Processing (#17507)

Signed-off-by: Alex-Brooks <Alex.Brooks@ibm.com>
---
 vllm/model_executor/models/qwen2_audio.py | 9 ++++++++-
 1 file changed, 8 insertions(+), 1 deletion(-)

diff --git a/vllm/model_executor/models/qwen2_audio.py b/vllm/model_executor/models/qwen2_audio.py
index 0cb541c6c..f30bf08ab 100644
--- a/vllm/model_executor/models/qwen2_audio.py
+++ b/vllm/model_executor/models/qwen2_audio.py
@@ -150,8 +150,15 @@ class Qwen2AudioMultiModalProcessor(
         mm_data: Mapping[str, object],
         mm_kwargs: Mapping[str, Any],
     ) -> BatchFeature:
+        # NOTE - we rename audios -> audio in mm data because transformers has
+        # deprecated audios for the qwen2audio processor and will remove
+        # support for it in transformers 4.54.
+        audios = mm_data.pop("audios", [])
+        if audios:
+            mm_data["audio"] = audios
+
         # Text-only input not supported in composite processor
-        if not mm_data.get("audios", []):
+        if not mm_data.get("audio", []):
             prompt_ids = self.info.get_tokenizer().encode(prompt)
             prompt_ids = self._apply_hf_processor_tokens_only(prompt_ids)
             return BatchFeature(dict(input_ids=[prompt_ids]), tensor_type="pt")
-- 
GitLab


From dbc18e78165e72291703f6aaf991267fbbc19d2d Mon Sep 17 00:00:00 2001
From: Siyuan Liu <lsiyuan@google.com>
Date: Wed, 30 Apr 2025 19:51:39 -0700
Subject: [PATCH 073/461] [CI][TPU] Skip Multimodal test (#17488)

Signed-off-by: Siyuan Liu <lsiyuan@google.com>
---
 tests/v1/tpu/test_multimodal.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/tests/v1/tpu/test_multimodal.py b/tests/v1/tpu/test_multimodal.py
index eb62e0e4b..dbd2e2204 100644
--- a/tests/v1/tpu/test_multimodal.py
+++ b/tests/v1/tpu/test_multimodal.py
@@ -32,6 +32,8 @@ def base64_encoded_image() -> dict[str, str]:
 async def test_basic_vision(model_name: str, base64_encoded_image: dict[str,
                                                                         str]):
 
+    pytest.skip("Skip this test until it's fixed.")
+
     def whats_in_this_image_msg(b64):
         return [{
             "role":
-- 
GitLab


From 08fb5587b4c4c1b031c08adf1b8608d710ab2585 Mon Sep 17 00:00:00 2001
From: Gregory Shtrasberg <156009573+gshtras@users.noreply.github.com>
Date: Wed, 30 Apr 2025 22:51:42 -0400
Subject: [PATCH 074/461] [Bugfix][ROCm] Fix import error on ROCm (#17495)

Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>
---
 vllm/model_executor/layers/rotary_embedding.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/model_executor/layers/rotary_embedding.py b/vllm/model_executor/layers/rotary_embedding.py
index b179a0f00..8cad5482d 100644
--- a/vllm/model_executor/layers/rotary_embedding.py
+++ b/vllm/model_executor/layers/rotary_embedding.py
@@ -32,7 +32,7 @@ from transformers import PretrainedConfig
 from vllm.model_executor.custom_op import CustomOp
 from vllm.platforms import current_platform
 
-if current_platform.is_cuda_alike():
+if current_platform.is_cuda():
     from vllm.vllm_flash_attn.layers.rotary import apply_rotary_emb
 
 
-- 
GitLab


From 1144a8efe715d0274412d215a3ad1f941a8469f1 Mon Sep 17 00:00:00 2001
From: NaLan ZeYu <nalanzeyu@gmail.com>
Date: Thu, 1 May 2025 10:51:45 +0800
Subject: [PATCH 075/461] [Bugfix] Temporarily disable gptq_bitblas on ROCm
 (#17411)

Signed-off-by: Yan Cangang <nalanzeyu@gmail.com>
---
 docs/source/features/quantization/supported_hardware.md | 2 +-
 vllm/model_executor/layers/quantization/gptq_bitblas.py | 5 +++++
 2 files changed, 6 insertions(+), 1 deletion(-)

diff --git a/docs/source/features/quantization/supported_hardware.md b/docs/source/features/quantization/supported_hardware.md
index 984e6626e..08893f0e9 100644
--- a/docs/source/features/quantization/supported_hardware.md
+++ b/docs/source/features/quantization/supported_hardware.md
@@ -80,7 +80,7 @@ The table below shows the compatibility of various quantization implementations
   * ✅︎
   * ✅︎
   * ✅︎
-  * ✅︎
+  * ❌
   * ❌
   * ❌
   * ❌
diff --git a/vllm/model_executor/layers/quantization/gptq_bitblas.py b/vllm/model_executor/layers/quantization/gptq_bitblas.py
index 891d8cdf3..6ee3a2f1b 100644
--- a/vllm/model_executor/layers/quantization/gptq_bitblas.py
+++ b/vllm/model_executor/layers/quantization/gptq_bitblas.py
@@ -25,6 +25,7 @@ from vllm.model_executor.parameter import (ChannelQuantScaleParameter,
                                            PackedColumnParameter,
                                            PackedvLLMParameter,
                                            RowvLLMParameter)
+from vllm.platforms import current_platform
 from vllm.scalar_type import scalar_types
 
 logger = init_logger(__name__)
@@ -191,6 +192,10 @@ class GPTQBitBLASConfig(QuantizationConfig):
         sym = quant_config.get("sym")
         desc_act = quant_config.get("desc_act")
 
+        # temporarily disable on ROCm platform
+        if not current_platform.is_cuda():
+            return False
+
         # If we cannot find the info needed in the config, cannot convert.
         if (num_bits is None or group_size is None or sym is None
                 or desc_act is None):
-- 
GitLab


From 17b4d85f63e0edcf55cc7abc0769c3d0a9cbe340 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Wed, 30 Apr 2025 21:36:20 -0600
Subject: [PATCH 076/461] [CI][TPU] Skip structured outputs+spec decode tests
 on TPU (#17510)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 tests/v1/entrypoints/llm/test_struct_output_generate.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/tests/v1/entrypoints/llm/test_struct_output_generate.py b/tests/v1/entrypoints/llm/test_struct_output_generate.py
index d25699591..c3ea024f5 100644
--- a/tests/v1/entrypoints/llm/test_struct_output_generate.py
+++ b/tests/v1/entrypoints/llm/test_struct_output_generate.py
@@ -81,6 +81,9 @@ def test_structured_output(
 ):
     monkeypatch.setenv("VLLM_USE_V1", "1")
 
+    if current_platform.is_tpu() and speculative_config:
+        pytest.skip("TPU does not support speculative decoding")
+
     # Don't use eager execution on TPUs because we want to test for no
     # recompilation at runtime
     enforce_eager = bool(not current_platform.is_tpu())
-- 
GitLab


From aa4502e7f3d9f53f093bb9b91607617a2223156b Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Wed, 30 Apr 2025 22:03:30 -0600
Subject: [PATCH 077/461] [CI][Bugfix] Fix failing V1 Test due to missing
 'cache_salt' arg (#17500)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 tests/v1/engine/test_engine_core_client.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/tests/v1/engine/test_engine_core_client.py b/tests/v1/engine/test_engine_core_client.py
index 3e1aa5688..ae072a47e 100644
--- a/tests/v1/engine/test_engine_core_client.py
+++ b/tests/v1/engine/test_engine_core_client.py
@@ -306,6 +306,7 @@ def test_kv_cache_events(
                 eos_token_id=None,
                 arrival_time=time.time(),
                 lora_request=None,
+                cache_salt=None,
             )
             client.add_request(request)
 
-- 
GitLab


From afb4429b4f13e744b1630b6c5a09156e5b1ececc Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Thu, 1 May 2025 14:03:08 +0800
Subject: [PATCH 078/461] [CI/Build] Reorganize models tests (#17459)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 .buildkite/test-pipeline.yaml                 |  86 ++++----
 pyproject.toml                                |   1 -
 tests/entrypoints/openai/test_embedding.py    |  12 +-
 .../openai/test_embedding_dimensions.py       |   5 +-
 tests/models/embedding/utils.py               |  66 ------
 .../embedding/vision_language/__init__.py     |   0
 tests/models/encoder_decoder/__init__.py      |   0
 .../audio_language/__init__.py                |   0
 .../encoder_decoder/language/__init__.py      |   0
 .../vision_language/__init__.py               |   0
 .../vision_language/test_broadcast.py         |  37 ----
 .../{decoder_only => language}/__init__.py    |   0
 .../generation}/__init__.py                   |   0
 .../generation}/test_bart.py                  |   4 -
 .../generation}/test_granite.py               |   0
 .../generation}/test_hybrid.py                |  18 +-
 .../generation}/test_mistral.py               |   0
 .../generation}/test_models.py                |   0
 .../generation}/test_phimoe.py                |   0
 .../language => language/pooling}/__init__.py |   0
 .../pooling}/test_cls_models.py               |   0
 .../pooling}/test_embedding.py                |   2 +-
 .../pooling}/test_gritlm.py                   | 189 +++++++++---------
 .../pooling}/test_jina.py                     |   3 +-
 .../pooling}/test_scoring.py                  |   0
 .../pooling}/test_snowflake_arctic_embed.py   |   4 +-
 .../pooling}/test_truncation_control.py       |   0
 .../generation}/__init__.py                   |   0
 .../generation/test_common.py}                |   7 +
 .../generation}/test_florence2.py             |   0
 .../generation}/test_granite_speech.py        |   0
 .../generation}/test_interleaved.py           |   1 +
 .../generation}/test_intern_vit.py            |   0
 .../generation}/test_mllama.py                |  34 +++-
 .../generation}/test_phi4mm.py                |   0
 .../generation}/test_pixtral.py               |   0
 .../generation}/test_qwen2_vl.py              |   0
 .../generation}/test_ultravox.py              |   0
 .../generation}/test_whisper.py               |  58 +++---
 .../generation}/vlm_utils/__init__.py         |   0
 .../generation}/vlm_utils/builders.py         |   0
 .../generation}/vlm_utils/case_filtering.py   |   0
 .../generation}/vlm_utils/core.py             |   0
 .../generation}/vlm_utils/custom_inputs.py    |   0
 .../generation}/vlm_utils/model_utils.py      |   0
 .../generation}/vlm_utils/runners.py          |   0
 .../generation}/vlm_utils/types.py            |   0
 .../pooling}/__init__.py                      |   0
 .../pooling}/test_dse_qwen2_vl.py             |   2 +-
 .../pooling}/test_llava_next.py               |   2 +-
 .../pooling}/test_phi3v.py                    |   2 +-
 .../language => quantization}/__init__.py     |   0
 .../language => quantization}/test_aqlm.py    |   1 -
 .../test_awq.py                               |   5 +-
 .../models/{ => quantization}/test_bitblas.py |   2 +-
 .../language => quantization}/test_fp8.py     |   7 +-
 .../language => quantization}/test_gguf.py    |   7 +-
 .../{ => quantization}/test_gptq_bitblas.py   |   2 +-
 .../test_gptq_marlin.py                       |   3 +-
 .../test_gptq_marlin_24.py                    |   3 +-
 .../test_modelopt.py                          |   1 -
 .../language => quantization}/test_nvfp4.py   |   1 -
 tests/models/utils.py                         |  66 +++++-
 vllm/config.py                                |   4 +-
 vllm/model_executor/models/llama.py           |   6 +-
 65 files changed, 317 insertions(+), 324 deletions(-)
 delete mode 100644 tests/models/embedding/utils.py
 delete mode 100644 tests/models/embedding/vision_language/__init__.py
 delete mode 100644 tests/models/encoder_decoder/__init__.py
 delete mode 100644 tests/models/encoder_decoder/audio_language/__init__.py
 delete mode 100644 tests/models/encoder_decoder/language/__init__.py
 delete mode 100644 tests/models/encoder_decoder/vision_language/__init__.py
 delete mode 100644 tests/models/encoder_decoder/vision_language/test_broadcast.py
 rename tests/models/{decoder_only => language}/__init__.py (100%)
 rename tests/models/{decoder_only/audio_language => language/generation}/__init__.py (100%)
 rename tests/models/{encoder_decoder/language => language/generation}/test_bart.py (98%)
 rename tests/models/{decoder_only/language => language/generation}/test_granite.py (100%)
 rename tests/models/{decoder_only/language => language/generation}/test_hybrid.py (96%)
 rename tests/models/{decoder_only/language => language/generation}/test_mistral.py (100%)
 rename tests/models/{decoder_only/language => language/generation}/test_models.py (100%)
 rename tests/models/{decoder_only/language => language/generation}/test_phimoe.py (100%)
 rename tests/models/{decoder_only/language => language/pooling}/__init__.py (100%)
 rename tests/models/{embedding/language => language/pooling}/test_cls_models.py (100%)
 rename tests/models/{embedding/language => language/pooling}/test_embedding.py (98%)
 rename tests/models/{embedding/language => language/pooling}/test_gritlm.py (64%)
 rename tests/models/{embedding/language => language/pooling}/test_jina.py (98%)
 rename tests/models/{embedding/language => language/pooling}/test_scoring.py (100%)
 rename tests/models/{embedding/language => language/pooling}/test_snowflake_arctic_embed.py (97%)
 rename tests/models/{embedding/language => language/pooling}/test_truncation_control.py (100%)
 rename tests/models/{decoder_only/vision_language => multimodal/generation}/__init__.py (100%)
 rename tests/models/{decoder_only/vision_language/test_models.py => multimodal/generation/test_common.py} (98%)
 rename tests/models/{encoder_decoder/vision_language => multimodal/generation}/test_florence2.py (100%)
 rename tests/models/{decoder_only/audio_language => multimodal/generation}/test_granite_speech.py (100%)
 rename tests/models/{decoder_only/vision_language => multimodal/generation}/test_interleaved.py (99%)
 rename tests/models/{decoder_only/vision_language => multimodal/generation}/test_intern_vit.py (100%)
 rename tests/models/{encoder_decoder/vision_language => multimodal/generation}/test_mllama.py (96%)
 rename tests/models/{decoder_only/vision_language => multimodal/generation}/test_phi4mm.py (100%)
 rename tests/models/{decoder_only/vision_language => multimodal/generation}/test_pixtral.py (100%)
 rename tests/models/{decoder_only/vision_language => multimodal/generation}/test_qwen2_vl.py (100%)
 rename tests/models/{decoder_only/audio_language => multimodal/generation}/test_ultravox.py (100%)
 rename tests/models/{encoder_decoder/audio_language => multimodal/generation}/test_whisper.py (83%)
 rename tests/models/{decoder_only/vision_language => multimodal/generation}/vlm_utils/__init__.py (100%)
 rename tests/models/{decoder_only/vision_language => multimodal/generation}/vlm_utils/builders.py (100%)
 rename tests/models/{decoder_only/vision_language => multimodal/generation}/vlm_utils/case_filtering.py (100%)
 rename tests/models/{decoder_only/vision_language => multimodal/generation}/vlm_utils/core.py (100%)
 rename tests/models/{decoder_only/vision_language => multimodal/generation}/vlm_utils/custom_inputs.py (100%)
 rename tests/models/{decoder_only/vision_language => multimodal/generation}/vlm_utils/model_utils.py (100%)
 rename tests/models/{decoder_only/vision_language => multimodal/generation}/vlm_utils/runners.py (100%)
 rename tests/models/{decoder_only/vision_language => multimodal/generation}/vlm_utils/types.py (100%)
 rename tests/models/{embedding => multimodal/pooling}/__init__.py (100%)
 rename tests/models/{embedding/vision_language => multimodal/pooling}/test_dse_qwen2_vl.py (99%)
 rename tests/models/{embedding/vision_language => multimodal/pooling}/test_llava_next.py (99%)
 rename tests/models/{embedding/vision_language => multimodal/pooling}/test_phi3v.py (98%)
 rename tests/models/{embedding/language => quantization}/__init__.py (100%)
 rename tests/models/{decoder_only/language => quantization}/test_aqlm.py (99%)
 rename tests/models/{decoder_only/vision_language => quantization}/test_awq.py (97%)
 rename tests/models/{ => quantization}/test_bitblas.py (97%)
 rename tests/models/{decoder_only/language => quantization}/test_fp8.py (97%)
 rename tests/models/{decoder_only/language => quantization}/test_gguf.py (97%)
 rename tests/models/{ => quantization}/test_gptq_bitblas.py (97%)
 rename tests/models/{decoder_only/language => quantization}/test_gptq_marlin.py (97%)
 rename tests/models/{decoder_only/language => quantization}/test_gptq_marlin_24.py (97%)
 rename tests/models/{decoder_only/language => quantization}/test_modelopt.py (99%)
 rename tests/models/{decoder_only/language => quantization}/test_nvfp4.py (99%)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 8da43322c..13ed64ed0 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -390,12 +390,15 @@ steps:
   commands:
   - pytest -v -s benchmarks/
 
-- label: Quantization Test # 33min
+- label: Quantization Test
   source_file_dependencies:
   - csrc/
   - vllm/model_executor/layers/quantization
   - tests/quantization
-  command: VLLM_TEST_FORCE_LOAD_FORMAT=auto pytest -v -s quantization
+  - tests/models/quantization
+  commands:
+  - VLLM_TEST_FORCE_LOAD_FORMAT=auto pytest -v -s quantization
+  - pytest -v -s models/quantization
 
 - label: LM Eval Small Models # 53min
   working_dir: "/vllm-workspace/.buildkite/lm-eval-harness"
@@ -441,82 +444,70 @@ steps:
   commands:
     - pytest -v -s models/test_transformers.py
     - pytest -v -s models/test_registry.py
+    - pytest -v -s models/test_utils.py
+    - pytest -v -s models/test_vision.py
     # V1 Test: https://github.com/vllm-project/vllm/issues/14531
     - VLLM_USE_V1=0 pytest -v -s models/test_initialization.py -k 'not llama4 and not plamo2'
     - VLLM_USE_V1=0 pytest -v -s models/test_initialization.py -k 'llama4'
     - VLLM_USE_V1=0 pytest -v -s models/test_initialization.py -k 'plamo2'
 
-- label: Language Models Test (Standard) # 32min
+- label: Language Models Test (Standard)
   #mirror_hardwares: [amd]
   source_file_dependencies:
   - vllm/
-  - tests/models/decoder_only/language
-  - tests/models/embedding/language
-  - tests/models/encoder_decoder/language
+  - tests/models/language
   commands:
     # Install causal-conv1d for plamo2 models here, as it is not compatible with pip-compile.
     - pip install 'git+https://github.com/Dao-AILab/causal-conv1d@v1.5.0.post8'
-    - pytest -v -s models/decoder_only/language -m 'core_model or quant_model'
-    - pytest -v -s models/embedding/language -m core_model
+    - pytest -v -s models/language -m core_model
 
-- label: Language Models Test (Extended) # 1h10min
+- label: Language Models Test (Extended)
   optional: true
   source_file_dependencies:
   - vllm/
-  - tests/models/decoder_only/language
-  - tests/models/embedding/language
-  - tests/models/encoder_decoder/language
+  - tests/models/language
   commands:
     # Install causal-conv1d for plamo2 models here, as it is not compatible with pip-compile.
-    - pip install causal-conv1d
-    - pytest -v -s models/decoder_only/language -m 'not core_model and not quant_model'
-    - pytest -v -s models/embedding/language -m 'not core_model'
+    - pip install 'git+https://github.com/Dao-AILab/causal-conv1d@v1.5.0.post8'
+    - pytest -v -s models/language -m 'not core_model'
 
-- label: Multi-Modal Models Test (Standard) # 40min
+- label: Multi-Modal Models Test (Standard)
   #mirror_hardwares: [amd]
   source_file_dependencies:
   - vllm/
-  - tests/models/decoder_only/audio_language
-  - tests/models/decoder_only/vision_language
-  - tests/models/embedding/vision_language
-  - tests/models/encoder_decoder/audio_language
-  - tests/models/encoder_decoder/vision_language
+  - tests/models/multimodal
+  commands:
+    - pip install git+https://github.com/TIGER-AI-Lab/Mantis.git
+    - pytest -v -s models/multimodal/processing
+    - pytest -v -s --ignore models/multimodal/generation/test_whisper.py models/multimodal -m core_model
+    - cd .. && pytest -v -s tests/models/multimodal/generation/test_whisper.py -m core_model  # Otherwise, mp_method="spawn" doesn't work
+
+- label: Multi-Modal Models Test (Extended) 1
+  optional: true
+  source_file_dependencies:
+  - vllm/
+  - tests/models/multimodal
   commands:
     - pip install git+https://github.com/TIGER-AI-Lab/Mantis.git
-    - pytest -v -s models/multimodal
-    - pytest -v -s models/decoder_only/audio_language -m 'core_model or quant_model'
-    - pytest -v -s models/decoder_only/vision_language -m 'core_model or quant_model'
-    - pytest -v -s models/embedding/vision_language -m core_model
-    - pytest -v -s models/encoder_decoder/audio_language -m core_model
-    - pytest -v -s models/encoder_decoder/language -m core_model
-    - pytest -v -s models/encoder_decoder/vision_language -m core_model
-    - pytest -v -s models/decoder_only/vision_language/test_interleaved.py
-
-- label: Multi-Modal Models Test (Extended) 1 # 48m
+    - pytest -v -s --ignore models/multimodal/generation/test_common.py --ignore models/multimodal/processing models/multimodal -m 'not core_model'
+
+- label: Multi-Modal Models Test (Extended) 2
   optional: true
   source_file_dependencies:
   - vllm/
-  - tests/models/decoder_only/audio_language
-  - tests/models/decoder_only/vision_language
-  - tests/models/embedding/vision_language
-  - tests/models/encoder_decoder/vision_language
+  - tests/models/multimodal
   commands:
     - pip install git+https://github.com/TIGER-AI-Lab/Mantis.git
-    - pytest -v -s models/decoder_only/audio_language -m 'not core_model and not quant_model'
-    - pytest -v -s models/decoder_only/vision_language/test_models.py -m 'split(group=0) and not core_model and not quant_model'
-    - pytest -v -s --ignore models/decoder_only/vision_language/test_models.py models/decoder_only/vision_language -m 'not core_model and not quant_model'
-    - pytest -v -s models/embedding/vision_language -m 'not core_model'
-    - pytest -v -s models/encoder_decoder/language -m 'not core_model'
-    - pytest -v -s models/encoder_decoder/vision_language -m 'not core_model'
-
-- label: Multi-Modal Models Test (Extended) 2 # 38m
+    - pytest -v -s models/multimodal/generation/test_common.py -m 'split(group=0) and not core_model'
+
+- label: Multi-Modal Models Test (Extended) 3
   optional: true
   source_file_dependencies:
   - vllm/
-  - tests/models/decoder_only/vision_language
+  - tests/models/multimodal
   commands:
     - pip install git+https://github.com/TIGER-AI-Lab/Mantis.git
-    - pytest -v -s models/decoder_only/vision_language/test_models.py -m 'split(group=1) and not core_model and not quant_model'
+    - pytest -v -s models/multimodal/generation/test_common.py -m 'split(group=1) and not core_model'
 
 # This test is used only in PR development phase to test individual models and should never run on main
 - label: Custom Models Test
@@ -586,9 +577,8 @@ steps:
   - TARGET_TEST_SUITE=L4 pytest basic_correctness/ -v -s -m 'distributed(num_gpus=2)'
   # Avoid importing model tests that cause CUDA reinitialization error
   - pytest models/test_transformers.py -v -s -m 'distributed(num_gpus=2)'
-  - pytest models/encoder_decoder/language/test_bart.py -v -s -m 'distributed(num_gpus=2)'
-  - pytest models/encoder_decoder/vision_language/test_broadcast.py -v -s -m 'distributed(num_gpus=2)'
-  - pytest models/decoder_only/vision_language/test_models.py -v -s -m 'distributed(num_gpus=2)'
+  - pytest models/language -v -s -m 'distributed(num_gpus=2)'
+  - pytest models/multimodal -v -s -m 'distributed(num_gpus=2)'
   # test sequence parallel
   - pytest -v -s distributed/test_sequence_parallel.py
   # this test fails consistently.
diff --git a/pyproject.toml b/pyproject.toml
index c85e85b0c..e51d4c9a4 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -158,7 +158,6 @@ markers = [
     "skip_global_cleanup",
     "core_model: enable this model test in each PR instead of only nightly",
     "cpu_model: enable this model test in CPU tests",
-    "quant_model: run this model test under Quantized category",
     "split: run this test as part of a split",
     "distributed: run this test only in distributed GPU tests",
     "skip_v1: do not run this test with v1",
diff --git a/tests/entrypoints/openai/test_embedding.py b/tests/entrypoints/openai/test_embedding.py
index 50b20e78c..1019bfd58 100644
--- a/tests/entrypoints/openai/test_embedding.py
+++ b/tests/entrypoints/openai/test_embedding.py
@@ -11,7 +11,7 @@ import requests
 from vllm.entrypoints.openai.protocol import EmbeddingResponse
 from vllm.transformers_utils.tokenizer import get_tokenizer
 
-from ...models.embedding.utils import correctness_test
+from ...models.utils import run_embedding_correctness_test
 from ...utils import RemoteOpenAIServer
 
 MODEL_NAME = "intfloat/multilingual-e5-small"
@@ -76,7 +76,7 @@ async def test_single_embedding(hf_model, client: openai.AsyncOpenAI,
     assert embeddings.usage.total_tokens == 11
 
     vllm_outputs = [d.embedding for d in embeddings.data]
-    correctness_test(hf_model, input_texts, vllm_outputs)
+    run_embedding_correctness_test(hf_model, input_texts, vllm_outputs)
 
     # test using token IDs
     input_tokens = [1, 1, 1, 1, 1]
@@ -121,7 +121,7 @@ async def test_batch_embedding(hf_model, client: openai.AsyncOpenAI,
     assert embeddings.usage.total_tokens == 33
 
     vllm_outputs = [d.embedding for d in embeddings.data]
-    correctness_test(hf_model, input_texts, vllm_outputs)
+    run_embedding_correctness_test(hf_model, input_texts, vllm_outputs)
 
     # test list[list[int]]
     input_tokens = [[4, 5, 7, 9, 20], [15, 29, 499], [24, 24, 24, 24, 24],
@@ -208,7 +208,7 @@ async def test_batch_base64_embedding(hf_model, client: openai.AsyncOpenAI,
                                                      model=model_name,
                                                      encoding_format="float")
     float_data = [d.embedding for d in responses_float.data]
-    correctness_test(hf_model, input_texts, float_data)
+    run_embedding_correctness_test(hf_model, input_texts, float_data)
 
     responses_base64 = await client.embeddings.create(input=input_texts,
                                                       model=model_name,
@@ -219,13 +219,13 @@ async def test_batch_base64_embedding(hf_model, client: openai.AsyncOpenAI,
             np.frombuffer(base64.b64decode(data.embedding),
                           dtype="float32").tolist())
 
-    correctness_test(hf_model, input_texts, base64_data)
+    run_embedding_correctness_test(hf_model, input_texts, base64_data)
 
     # Default response is float32 decoded from base64 by OpenAI Client
     responses_default = await client.embeddings.create(input=input_texts,
                                                        model=model_name)
     default_data = [d.embedding for d in responses_default.data]
-    correctness_test(hf_model, input_texts, default_data)
+    run_embedding_correctness_test(hf_model, input_texts, default_data)
 
 
 @pytest.mark.asyncio
diff --git a/tests/entrypoints/openai/test_embedding_dimensions.py b/tests/entrypoints/openai/test_embedding_dimensions.py
index 9f5a8c683..332fa332a 100644
--- a/tests/entrypoints/openai/test_embedding_dimensions.py
+++ b/tests/entrypoints/openai/test_embedding_dimensions.py
@@ -11,7 +11,7 @@ import pytest
 from vllm.entrypoints.openai.protocol import EmbeddingResponse
 
 from ...conftest import HfRunner
-from ...models.embedding.utils import EmbedModelInfo, correctness_test
+from ...models.utils import EmbedModelInfo, run_embedding_correctness_test
 from ...utils import RemoteOpenAIServer
 
 MODELS = [
@@ -95,7 +95,8 @@ async def test_matryoshka(model_info: EmbedModelInfo,
             assert len(embeddings.data[0].embedding) == dimensions
 
         vllm_outputs = [d.embedding for d in embeddings.data]
-        correctness_test(hf_model, prompts, vllm_outputs, dimensions)
+        run_embedding_correctness_test(hf_model, prompts, vllm_outputs,
+                                       dimensions)
 
     if model_info.is_matryoshka:
         valid_dimensions: list[Optional[int]] = [None]
diff --git a/tests/models/embedding/utils.py b/tests/models/embedding/utils.py
deleted file mode 100644
index 6d4df2c26..000000000
--- a/tests/models/embedding/utils.py
+++ /dev/null
@@ -1,66 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-
-from collections.abc import Sequence
-from typing import NamedTuple, Optional
-
-import torch
-import torch.nn.functional as F
-
-
-def check_embeddings_close(
-    *,
-    embeddings_0_lst: Sequence[list[float]],
-    embeddings_1_lst: Sequence[list[float]],
-    name_0: str,
-    name_1: str,
-    tol: float = 1e-3,
-) -> None:
-    assert len(embeddings_0_lst) == len(embeddings_1_lst)
-
-    for prompt_idx, (embeddings_0, embeddings_1) in enumerate(
-            zip(embeddings_0_lst, embeddings_1_lst)):
-        assert len(embeddings_0) == len(embeddings_1), (
-            f"Length mismatch: {len(embeddings_0)} vs. {len(embeddings_1)}")
-
-        sim = F.cosine_similarity(torch.tensor(embeddings_0),
-                                  torch.tensor(embeddings_1),
-                                  dim=0)
-
-        fail_msg = (f"Test{prompt_idx}:"
-                    f"\n{name_0}:\t{embeddings_0[:16]!r}"
-                    f"\n{name_1}:\t{embeddings_1[:16]!r}")
-
-        assert sim >= 1 - tol, fail_msg
-
-
-def matryoshka_fy(tensor, dimensions):
-    tensor = torch.tensor(tensor)
-    tensor = tensor[..., :dimensions]
-    tensor = F.normalize(tensor, p=2, dim=1)
-    return tensor
-
-
-class EmbedModelInfo(NamedTuple):
-    name: str
-    is_matryoshka: bool
-    matryoshka_dimensions: Optional[list[int]] = None
-    architecture: str = ""
-    enable_test: bool = True
-
-
-def correctness_test(hf_model,
-                     inputs,
-                     vllm_outputs: Sequence[list[float]],
-                     dimensions: Optional[int] = None):
-
-    hf_outputs = hf_model.encode(inputs)
-    if dimensions:
-        hf_outputs = matryoshka_fy(hf_outputs, dimensions)
-
-    check_embeddings_close(
-        embeddings_0_lst=hf_outputs,
-        embeddings_1_lst=vllm_outputs,
-        name_0="hf",
-        name_1="vllm",
-        tol=1e-2,
-    )
diff --git a/tests/models/embedding/vision_language/__init__.py b/tests/models/embedding/vision_language/__init__.py
deleted file mode 100644
index e69de29bb..000000000
diff --git a/tests/models/encoder_decoder/__init__.py b/tests/models/encoder_decoder/__init__.py
deleted file mode 100644
index e69de29bb..000000000
diff --git a/tests/models/encoder_decoder/audio_language/__init__.py b/tests/models/encoder_decoder/audio_language/__init__.py
deleted file mode 100644
index e69de29bb..000000000
diff --git a/tests/models/encoder_decoder/language/__init__.py b/tests/models/encoder_decoder/language/__init__.py
deleted file mode 100644
index e69de29bb..000000000
diff --git a/tests/models/encoder_decoder/vision_language/__init__.py b/tests/models/encoder_decoder/vision_language/__init__.py
deleted file mode 100644
index e69de29bb..000000000
diff --git a/tests/models/encoder_decoder/vision_language/test_broadcast.py b/tests/models/encoder_decoder/vision_language/test_broadcast.py
deleted file mode 100644
index 8d986414e..000000000
--- a/tests/models/encoder_decoder/vision_language/test_broadcast.py
+++ /dev/null
@@ -1,37 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-
-import pytest
-
-from ....utils import multi_gpu_test
-
-
-@multi_gpu_test(num_gpus=2)
-@pytest.mark.parametrize("distributed_executor_backend", ["ray", "mp"])
-@pytest.mark.parametrize("model", [
-    "meta-llama/Llama-3.2-11B-Vision-Instruct",
-])
-def test_models(hf_runner, vllm_runner, image_assets,
-                distributed_executor_backend, model) -> None:
-
-    dtype = "half"
-    max_tokens = 5
-    num_logprobs = 5
-    tensor_parallel_size = 2
-
-    if model.startswith("meta-llama/Llama-3.2-11B-Vision-Instruct"):
-        from .test_mllama import models, run_test
-    else:
-        raise NotImplementedError(f"Unsupported model: {model}")
-
-    run_test(
-        hf_runner,
-        vllm_runner,
-        image_assets,
-        model=models[0],
-        size_factors=[0.25, 0.5, 1.0],
-        dtype=dtype,
-        max_tokens=max_tokens,
-        num_logprobs=num_logprobs,
-        tensor_parallel_size=tensor_parallel_size,
-        distributed_executor_backend=distributed_executor_backend,
-    )
diff --git a/tests/models/decoder_only/__init__.py b/tests/models/language/__init__.py
similarity index 100%
rename from tests/models/decoder_only/__init__.py
rename to tests/models/language/__init__.py
diff --git a/tests/models/decoder_only/audio_language/__init__.py b/tests/models/language/generation/__init__.py
similarity index 100%
rename from tests/models/decoder_only/audio_language/__init__.py
rename to tests/models/language/generation/__init__.py
diff --git a/tests/models/encoder_decoder/language/test_bart.py b/tests/models/language/generation/test_bart.py
similarity index 98%
rename from tests/models/encoder_decoder/language/test_bart.py
rename to tests/models/language/generation/test_bart.py
index e8070d28b..8ab0167dc 100644
--- a/tests/models/encoder_decoder/language/test_bart.py
+++ b/tests/models/language/generation/test_bart.py
@@ -1,8 +1,4 @@
 # SPDX-License-Identifier: Apache-2.0
-"""Compare the outputs of HF and vLLM for BART models using greedy sampling.
-
-Run `pytest tests/models/encoder_decoder/language/test_bart.py`.
-"""
 from typing import Optional
 
 import pytest
diff --git a/tests/models/decoder_only/language/test_granite.py b/tests/models/language/generation/test_granite.py
similarity index 100%
rename from tests/models/decoder_only/language/test_granite.py
rename to tests/models/language/generation/test_granite.py
diff --git a/tests/models/decoder_only/language/test_hybrid.py b/tests/models/language/generation/test_hybrid.py
similarity index 96%
rename from tests/models/decoder_only/language/test_hybrid.py
rename to tests/models/language/generation/test_hybrid.py
index e5e0c28ae..880967b4a 100644
--- a/tests/models/decoder_only/language/test_hybrid.py
+++ b/tests/models/language/generation/test_hybrid.py
@@ -289,23 +289,25 @@ def test_multistep_correctness(
 @multi_gpu_test(num_gpus=2)
 @pytest.mark.parametrize("model", [SSM_MODELS[0], HYBRID_MODELS[0]])
 @pytest.mark.parametrize("max_tokens", [64])
-def test_hybrid_distributed_produces_identical_generation(
+@pytest.mark.parametrize("num_logprobs", [5])
+def test_distributed_correctness(
     vllm_runner,
     example_prompts,
     model: str,
     max_tokens: int,
+    num_logprobs: int,
 ) -> None:
-    with vllm_runner(model, tensor_parallel_size=2,
+    with vllm_runner(model, tensor_parallel_size=1,
                      max_num_seqs=2) as vllm_model:
-        vllm_outputs_tp_2 = vllm_model.generate_greedy(example_prompts,
-                                                       max_tokens)
+        vllm_outputs_tp_1 = vllm_model.generate_greedy_logprobs(
+            example_prompts, max_tokens, num_logprobs)
 
-    with vllm_runner(model, tensor_parallel_size=1,
+    with vllm_runner(model, tensor_parallel_size=2,
                      max_num_seqs=2) as vllm_model:
-        vllm_outputs_tp_1 = vllm_model.generate_greedy(example_prompts,
-                                                       max_tokens)
+        vllm_outputs_tp_2 = vllm_model.generate_greedy_logprobs(
+            example_prompts, max_tokens, num_logprobs)
 
-    check_outputs_equal(
+    check_logprobs_close(
         outputs_0_lst=vllm_outputs_tp_1,
         outputs_1_lst=vllm_outputs_tp_2,
         name_0="vllm_tp_1",
diff --git a/tests/models/decoder_only/language/test_mistral.py b/tests/models/language/generation/test_mistral.py
similarity index 100%
rename from tests/models/decoder_only/language/test_mistral.py
rename to tests/models/language/generation/test_mistral.py
diff --git a/tests/models/decoder_only/language/test_models.py b/tests/models/language/generation/test_models.py
similarity index 100%
rename from tests/models/decoder_only/language/test_models.py
rename to tests/models/language/generation/test_models.py
diff --git a/tests/models/decoder_only/language/test_phimoe.py b/tests/models/language/generation/test_phimoe.py
similarity index 100%
rename from tests/models/decoder_only/language/test_phimoe.py
rename to tests/models/language/generation/test_phimoe.py
diff --git a/tests/models/decoder_only/language/__init__.py b/tests/models/language/pooling/__init__.py
similarity index 100%
rename from tests/models/decoder_only/language/__init__.py
rename to tests/models/language/pooling/__init__.py
diff --git a/tests/models/embedding/language/test_cls_models.py b/tests/models/language/pooling/test_cls_models.py
similarity index 100%
rename from tests/models/embedding/language/test_cls_models.py
rename to tests/models/language/pooling/test_cls_models.py
diff --git a/tests/models/embedding/language/test_embedding.py b/tests/models/language/pooling/test_embedding.py
similarity index 98%
rename from tests/models/embedding/language/test_embedding.py
rename to tests/models/language/pooling/test_embedding.py
index 5deb35fa3..2a90f47af 100644
--- a/tests/models/embedding/language/test_embedding.py
+++ b/tests/models/language/pooling/test_embedding.py
@@ -8,7 +8,7 @@ import pytest
 from vllm.config import PoolerConfig
 from vllm.platforms import current_platform
 
-from ..utils import check_embeddings_close
+from ...utils import check_embeddings_close
 
 
 @pytest.mark.parametrize(
diff --git a/tests/models/embedding/language/test_gritlm.py b/tests/models/language/pooling/test_gritlm.py
similarity index 64%
rename from tests/models/embedding/language/test_gritlm.py
rename to tests/models/language/pooling/test_gritlm.py
index 87a1dde93..3ad6e7190 100644
--- a/tests/models/embedding/language/test_gritlm.py
+++ b/tests/models/language/pooling/test_gritlm.py
@@ -7,11 +7,10 @@ from array import array
 
 import openai
 import pytest
-import pytest_asyncio
 from scipy.spatial.distance import cosine
 
-import vllm
-import vllm.config
+from vllm import LLM, SamplingParams
+from vllm.config import ModelConfig
 from vllm.utils import STR_BACKEND_ENV_VAR
 
 from ....utils import RemoteOpenAIServer
@@ -31,73 +30,45 @@ def _arr(arr):
     return array("i", arr)
 
 
-def test_find_array(monkeypatch: pytest.MonkeyPatch):
-    # GritLM embedding implementation is only supported by XFormers backend.
-    with monkeypatch.context() as m:
-        m.setenv(STR_BACKEND_ENV_VAR, "XFORMERS")
-
-        from vllm.model_executor.models.gritlm import GritLMPooler
-
-        # Create an LLM object to get the model config.
-        llm = vllm.LLM(MODEL_NAME, task="embed", max_model_len=MAX_MODEL_LEN)
-        pooler = GritLMPooler(model_config=llm.llm_engine.model_config)
-
-        arr = _arr([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
-
-        assert pooler._find_array(arr, _arr([3, 4, 5]), start_idx=0) == 3
-        assert pooler._find_array(arr, _arr([3, 4, 5]), start_idx=1) == 3
-        assert pooler._find_array(arr, _arr([3, 4, 5]), start_idx=5) == -1
-        assert pooler._find_array(arr, _arr([3, 5]), start_idx=0) == -1
-
-        with pytest.raises(ValueError):
-            pooler._find_array(arr, _arr([3, 4, 5]), start_idx=-1)
-
-
-@pytest.fixture(scope="module")
-def server_embedding():
-    # GritLM embedding implementation is only supported by XFormers backend.
-    args = ["--task", "embed", "--max_model_len", str(MAX_MODEL_LEN)]
-    with pytest.MonkeyPatch.context() as m:
-        m.setenv(STR_BACKEND_ENV_VAR, "XFORMERS")
-        with RemoteOpenAIServer(MODEL_NAME, args) as remote_server:
-            yield remote_server
-
-
-@pytest.fixture(scope="module")
-def server_generate():
-    args = ["--task", "generate", "--max_model_len", str(MAX_MODEL_LEN)]
-    with pytest.MonkeyPatch.context() as m:
-        m.setenv(STR_BACKEND_ENV_VAR, "XFORMERS")
-        with RemoteOpenAIServer(MODEL_NAME, args) as remote_server:
-            yield remote_server
+def test_find_array():
+    from vllm.model_executor.models.gritlm import GritLMPooler
 
+    model_config = ModelConfig(
+        MODEL_NAME,
+        task="embed",
+        tokenizer=MODEL_NAME,
+        tokenizer_mode="auto",
+        trust_remote_code=False,
+        dtype="bfloat16",
+        seed=0,
+    )
+    pooler = GritLMPooler(model_config=model_config)
 
-@pytest_asyncio.fixture
-async def client_embedding(server_embedding: RemoteOpenAIServer):
-    async with server_embedding.get_async_client() as async_client:
-        yield async_client
+    arr = _arr([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
 
+    assert pooler._find_array(arr, _arr([3, 4, 5]), start_idx=0) == 3
+    assert pooler._find_array(arr, _arr([3, 4, 5]), start_idx=1) == 3
+    assert pooler._find_array(arr, _arr([3, 4, 5]), start_idx=5) == -1
+    assert pooler._find_array(arr, _arr([3, 5]), start_idx=0) == -1
 
-@pytest_asyncio.fixture
-async def client_generate(server_generate: RemoteOpenAIServer):
-    async with server_generate.get_async_client() as async_client:
-        yield async_client
+    with pytest.raises(ValueError):
+        pooler._find_array(arr, _arr([3, 4, 5]), start_idx=-1)
 
 
 def run_llm_encode(
-    llm: vllm.LLM,
+    llm: LLM,
     queries: list[str],
     instruction: str,
-) -> list[float]:
-    outputs = llm.encode([instruction + q for q in queries], )
+) -> list[list[float]]:
+    outputs = llm.embed([instruction + q for q in queries])
     return [output.outputs.embedding for output in outputs]
 
 
 async def run_client_embeddings(
-    client: vllm.LLM,
+    client: openai.AsyncOpenAI,
     queries: list[str],
     instruction: str,
-) -> list[float]:
+) -> list[list[float]]:
     outputs = await client.embeddings.create(
         model=MODEL_NAME,
         input=[instruction + q for q in queries],
@@ -132,7 +103,7 @@ def get_test_data():
     return queries, q_instruction, documents, d_instruction
 
 
-def validate_embed_output(q_rep: list[float], d_rep: list[float]):
+def validate_embed_output(q_rep: list[list[float]], d_rep: list[list[float]]):
     cosine_sim_q0_d0 = 1 - cosine(q_rep[0], d_rep[0])
     assert math.isclose(cosine_sim_q0_d0, 0.609, abs_tol=0.001)
 
@@ -143,70 +114,100 @@ def validate_embed_output(q_rep: list[float], d_rep: list[float]):
     assert math.isclose(cosine_sim_q1_d0, 0.120, abs_tol=0.001)
 
     cosine_sim_q1_d1 = 1 - cosine(q_rep[1], d_rep[1])
-    assert math.isclose(cosine_sim_q1_d1, 0.532, abs_tol=0.001)
+    assert math.isclose(cosine_sim_q1_d1, 0.534, abs_tol=0.001)
 
 
-def test_gritlm_offline_embedding(monkeypatch: pytest.MonkeyPatch):
+def test_gritlm_offline_embedding(monkeypatch: pytest.MonkeyPatch,
+                                  vllm_runner):
     # GritLM embedding implementation is only supported by XFormers backend.
     with monkeypatch.context() as m:
         m.setenv(STR_BACKEND_ENV_VAR, "XFORMERS")
 
         queries, q_instruction, documents, d_instruction = get_test_data()
 
-        llm = vllm.LLM(MODEL_NAME, task="embed", max_model_len=MAX_MODEL_LEN)
+        with vllm_runner(
+                MODEL_NAME,
+                task="embed",
+                max_model_len=MAX_MODEL_LEN,
+        ) as vllm_model:
+            llm = vllm_model.model
+
+            d_rep = run_llm_encode(
+                llm,
+                documents,
+                d_instruction,
+            )
+            q_rep = run_llm_encode(
+                llm,
+                queries,
+                q_instruction,
+            )
+
+        validate_embed_output(q_rep, d_rep)
+
+
+@pytest.mark.asyncio
+async def test_gritlm_api_server_embedding():
+    queries, q_instruction, documents, d_instruction = get_test_data()
+
+    # GritLM embedding implementation is only supported by XFormers backend.
+    args = ["--task", "embed", "--max_model_len", str(MAX_MODEL_LEN)]
+    env_dict = {STR_BACKEND_ENV_VAR: "XFORMERS"}
+
+    with RemoteOpenAIServer(MODEL_NAME, args, env_dict=env_dict) as server:
+        client_embedding = server.get_async_client()
 
-        d_rep = run_llm_encode(
-            llm,
+        d_rep = await run_client_embeddings(
+            client_embedding,
             documents,
             d_instruction,
         )
-        q_rep = run_llm_encode(
-            llm,
+        q_rep = await run_client_embeddings(
+            client_embedding,
             queries,
             q_instruction,
         )
 
-        validate_embed_output(q_rep, d_rep)
-
-
-@pytest.mark.asyncio
-async def test_gritlm_api_server_embedding(
-    client_embedding: openai.AsyncOpenAI, ):
-    queries, q_instruction, documents, d_instruction = get_test_data()
+    validate_embed_output(q_rep, d_rep)
 
-    d_rep = await run_client_embeddings(
-        client_embedding,
-        documents,
-        d_instruction,
-    )
-    q_rep = await run_client_embeddings(
-        client_embedding,
-        queries,
-        q_instruction,
-    )
 
-    validate_embed_output(q_rep, d_rep)
+def test_gritlm_offline_generate(monkeypatch: pytest.MonkeyPatch, vllm_runner):
+    # GritLM embedding implementation is only supported by XFormers backend.
+    with monkeypatch.context() as m:
+        m.setenv("VLLM_USE_V1", "0")
+        m.setenv(STR_BACKEND_ENV_VAR, "XFORMERS")
 
+        input = "<|user|>\nWhat is the capital of France?\n<|assistant|>\n"
 
-def test_gritlm_offline_gen():
-    input = "<|user|>\nWhat is the capital of France?\n<|assistant|>\n"
+        with vllm_runner(
+                MODEL_NAME,
+                task="generate",
+                max_model_len=MAX_MODEL_LEN,
+        ) as vllm_model:
+            llm = vllm_model.model
 
-    llm = vllm.LLM(MODEL_NAME, max_model_len=MAX_MODEL_LEN)
-    sampling_params = vllm.SamplingParams(temperature=0.0, max_tokens=256)
-    outputs = llm.generate(input, sampling_params=sampling_params)
+            sampling_params = SamplingParams(temperature=0.0, max_tokens=256)
+            outputs = llm.generate(input, sampling_params=sampling_params)
 
-    assert outputs[0].outputs[0].text == "The capital of France is Paris."
+        assert outputs[0].outputs[0].text == "The capital of France is Paris."
 
 
 @pytest.mark.asyncio
-async def test_gritlm_api_server_gen(client_generate: openai.AsyncOpenAI):
+async def test_gritlm_api_server_generate():
     input = "<|user|>\nWhat is the capital of France?\n<|assistant|>\n"
 
-    outputs = await client_generate.completions.create(
-        model=MODEL_NAME,
-        prompt=input,
-        max_tokens=256,
-        temperature=0.0,
-    )
+    # GritLM embedding implementation is only supported by XFormers backend.
+    args = ["--task", "generate", "--max_model_len", str(MAX_MODEL_LEN)]
+    env_dict = {"VLLM_USE_V1": "0", STR_BACKEND_ENV_VAR: "XFORMERS"}
+
+    with RemoteOpenAIServer(MODEL_NAME, args, env_dict=env_dict) as server:
+        client_generate = server.get_async_client()
+
+        outputs = await client_generate.completions.create(
+            model=MODEL_NAME,
+            prompt=input,
+            max_tokens=256,
+            temperature=0.0,
+        )
 
     assert outputs.choices[0].text == "The capital of France is Paris."
diff --git a/tests/models/embedding/language/test_jina.py b/tests/models/language/pooling/test_jina.py
similarity index 98%
rename from tests/models/embedding/language/test_jina.py
rename to tests/models/language/pooling/test_jina.py
index 1e234368f..154aefe59 100644
--- a/tests/models/embedding/language/test_jina.py
+++ b/tests/models/language/pooling/test_jina.py
@@ -8,9 +8,10 @@ import math
 
 import pytest
 
-from tests.models.embedding.utils import check_embeddings_close, matryoshka_fy
 from vllm import PoolingParams
 
+from ...utils import check_embeddings_close, matryoshka_fy
+
 SCORING_MODELS = [
     "jinaai/jina-reranker-v2-base-multilingual",  # Roberta
 ]
diff --git a/tests/models/embedding/language/test_scoring.py b/tests/models/language/pooling/test_scoring.py
similarity index 100%
rename from tests/models/embedding/language/test_scoring.py
rename to tests/models/language/pooling/test_scoring.py
diff --git a/tests/models/embedding/language/test_snowflake_arctic_embed.py b/tests/models/language/pooling/test_snowflake_arctic_embed.py
similarity index 97%
rename from tests/models/embedding/language/test_snowflake_arctic_embed.py
rename to tests/models/language/pooling/test_snowflake_arctic_embed.py
index 2b884fcee..81abc0e9e 100644
--- a/tests/models/embedding/language/test_snowflake_arctic_embed.py
+++ b/tests/models/language/pooling/test_snowflake_arctic_embed.py
@@ -5,9 +5,7 @@ Run `pytest tests/models/embedding/language/test_snowflake_arctic_embed.py`.
 """
 import pytest
 
-from tests.models.embedding.utils import EmbedModelInfo
-
-from ..utils import check_embeddings_close
+from ...utils import EmbedModelInfo, check_embeddings_close
 
 EMBEDDING_PROMPTS = [
     'what is snowflake?', 'Where can I get the best tacos?', 'The Data Cloud!',
diff --git a/tests/models/embedding/language/test_truncation_control.py b/tests/models/language/pooling/test_truncation_control.py
similarity index 100%
rename from tests/models/embedding/language/test_truncation_control.py
rename to tests/models/language/pooling/test_truncation_control.py
diff --git a/tests/models/decoder_only/vision_language/__init__.py b/tests/models/multimodal/generation/__init__.py
similarity index 100%
rename from tests/models/decoder_only/vision_language/__init__.py
rename to tests/models/multimodal/generation/__init__.py
diff --git a/tests/models/decoder_only/vision_language/test_models.py b/tests/models/multimodal/generation/test_common.py
similarity index 98%
rename from tests/models/decoder_only/vision_language/test_models.py
rename to tests/models/multimodal/generation/test_common.py
index 3dd82b93f..b21c80bef 100644
--- a/tests/models/decoder_only/vision_language/test_models.py
+++ b/tests/models/multimodal/generation/test_common.py
@@ -267,6 +267,7 @@ VLM_TEST_SETTINGS = {
         multi_image_prompt="<start_of_image><start_of_image>Describe the two images in detail.",  # noqa: E501
         max_model_len=4096,
         max_num_seqs=2,
+        dtype="bfloat16",
         auto_cls=AutoModelForImageTextToText,
         vllm_runner_kwargs={"mm_processor_kwargs": {"do_pan_and_scan": True}},
         patch_hf_runner=model_utils.gemma3_patch_hf_runner,
@@ -423,6 +424,8 @@ VLM_TEST_SETTINGS = {
         get_stop_token_ids=lambda tok: [tok.eos_id, tok.eot_id],
         hf_output_post_proc=model_utils.minicpmv_trunc_hf_output,
         patch_hf_runner=model_utils.minicpmv_25_patch_hf_runner,
+        # FIXME: https://huggingface.co/openbmb/MiniCPM-V-2_6/discussions/55
+        marks=[pytest.mark.skip("HF import fails")],
     ),
     "minicpmo_26": VLMTestInfo(
         models=["openbmb/MiniCPM-o-2_6"],
@@ -434,6 +437,8 @@ VLM_TEST_SETTINGS = {
         get_stop_token_ids=lambda tok: tok.convert_tokens_to_ids(['<|im_end|>', '<|endoftext|>']),  # noqa: E501
         hf_output_post_proc=model_utils.minicpmv_trunc_hf_output,
         patch_hf_runner=model_utils.minicpmo_26_patch_hf_runner,
+        # FIXME: https://huggingface.co/openbmb/MiniCPM-V-2_6/discussions/55
+        marks=[pytest.mark.skip("HF import fails")],
     ),
     "minicpmv_26": VLMTestInfo(
         models=["openbmb/MiniCPM-V-2_6"],
@@ -445,6 +450,8 @@ VLM_TEST_SETTINGS = {
         get_stop_token_ids=lambda tok: tok.convert_tokens_to_ids(['<|im_end|>', '<|endoftext|>']),  # noqa: E501
         hf_output_post_proc=model_utils.minicpmv_trunc_hf_output,
         patch_hf_runner=model_utils.minicpmv_26_patch_hf_runner,
+        # FIXME: https://huggingface.co/openbmb/MiniCPM-V-2_6/discussions/55
+        marks=[pytest.mark.skip("HF import fails")],
     ),
     "minimax_vl_01": VLMTestInfo(
         models=["MiniMaxAI/MiniMax-VL-01"],
diff --git a/tests/models/encoder_decoder/vision_language/test_florence2.py b/tests/models/multimodal/generation/test_florence2.py
similarity index 100%
rename from tests/models/encoder_decoder/vision_language/test_florence2.py
rename to tests/models/multimodal/generation/test_florence2.py
diff --git a/tests/models/decoder_only/audio_language/test_granite_speech.py b/tests/models/multimodal/generation/test_granite_speech.py
similarity index 100%
rename from tests/models/decoder_only/audio_language/test_granite_speech.py
rename to tests/models/multimodal/generation/test_granite_speech.py
diff --git a/tests/models/decoder_only/vision_language/test_interleaved.py b/tests/models/multimodal/generation/test_interleaved.py
similarity index 99%
rename from tests/models/decoder_only/vision_language/test_interleaved.py
rename to tests/models/multimodal/generation/test_interleaved.py
index 8804497ae..92c8155fe 100644
--- a/tests/models/decoder_only/vision_language/test_interleaved.py
+++ b/tests/models/multimodal/generation/test_interleaved.py
@@ -16,6 +16,7 @@ INTERLEAVED_PROMPT = base_prompt("<image><video><image>\n")
 NONINTERLEAVED_PROMPT = base_prompt("<image><image><video>\n")
 
 
+@pytest.mark.core_model
 @pytest.mark.parametrize("model", models)
 @pytest.mark.parametrize("dtype", ["float16"])
 @pytest.mark.parametrize("max_tokens", [128])
diff --git a/tests/models/decoder_only/vision_language/test_intern_vit.py b/tests/models/multimodal/generation/test_intern_vit.py
similarity index 100%
rename from tests/models/decoder_only/vision_language/test_intern_vit.py
rename to tests/models/multimodal/generation/test_intern_vit.py
diff --git a/tests/models/encoder_decoder/vision_language/test_mllama.py b/tests/models/multimodal/generation/test_mllama.py
similarity index 96%
rename from tests/models/encoder_decoder/vision_language/test_mllama.py
rename to tests/models/multimodal/generation/test_mllama.py
index d94c2e885..1e09c8673 100644
--- a/tests/models/encoder_decoder/vision_language/test_mllama.py
+++ b/tests/models/multimodal/generation/test_mllama.py
@@ -17,7 +17,8 @@ from vllm.sequence import SampleLogprobs
 from ....conftest import (IMAGE_ASSETS, HfRunner, PromptImageInput, VllmRunner,
                           _ImageAssets)
 from ....quantization.utils import is_quant_method_supported
-from ....utils import large_gpu_test
+from ....utils import (create_new_process_for_each_test, large_gpu_test,
+                       multi_gpu_test)
 from ...utils import check_logprobs_close
 
 _LIMIT_IMAGE_PER_PROMPT = 3
@@ -393,6 +394,37 @@ def test_models_interleaved_images(hf_runner, vllm_runner, image_assets, model,
         )
 
 
+@create_new_process_for_each_test()
+@multi_gpu_test(num_gpus=2)
+@pytest.mark.parametrize("distributed_executor_backend", ["ray", "mp"])
+@pytest.mark.parametrize("model", models)
+@pytest.mark.parametrize("dtype", ["bfloat16"])
+@pytest.mark.parametrize("max_tokens", [64])
+@pytest.mark.parametrize("num_logprobs", [5])
+def test_models_distributed(
+    hf_runner,
+    vllm_runner,
+    image_assets,
+    distributed_executor_backend,
+    model,
+    dtype,
+    max_tokens,
+    num_logprobs,
+) -> None:
+    run_test(
+        hf_runner,
+        vllm_runner,
+        image_assets,
+        model=model,
+        size_factors=[0.25, 0.5, 1.0],
+        dtype=dtype,
+        max_tokens=max_tokens,
+        num_logprobs=num_logprobs,
+        tensor_parallel_size=2,
+        distributed_executor_backend=distributed_executor_backend,
+    )
+
+
 @large_gpu_test(min_gb=48)
 @pytest.mark.core_model
 @pytest.mark.parametrize("model", models)
diff --git a/tests/models/decoder_only/vision_language/test_phi4mm.py b/tests/models/multimodal/generation/test_phi4mm.py
similarity index 100%
rename from tests/models/decoder_only/vision_language/test_phi4mm.py
rename to tests/models/multimodal/generation/test_phi4mm.py
diff --git a/tests/models/decoder_only/vision_language/test_pixtral.py b/tests/models/multimodal/generation/test_pixtral.py
similarity index 100%
rename from tests/models/decoder_only/vision_language/test_pixtral.py
rename to tests/models/multimodal/generation/test_pixtral.py
diff --git a/tests/models/decoder_only/vision_language/test_qwen2_vl.py b/tests/models/multimodal/generation/test_qwen2_vl.py
similarity index 100%
rename from tests/models/decoder_only/vision_language/test_qwen2_vl.py
rename to tests/models/multimodal/generation/test_qwen2_vl.py
diff --git a/tests/models/decoder_only/audio_language/test_ultravox.py b/tests/models/multimodal/generation/test_ultravox.py
similarity index 100%
rename from tests/models/decoder_only/audio_language/test_ultravox.py
rename to tests/models/multimodal/generation/test_ultravox.py
diff --git a/tests/models/encoder_decoder/audio_language/test_whisper.py b/tests/models/multimodal/generation/test_whisper.py
similarity index 83%
rename from tests/models/encoder_decoder/audio_language/test_whisper.py
rename to tests/models/multimodal/generation/test_whisper.py
index 7897bf113..4603b4e8e 100644
--- a/tests/models/encoder_decoder/audio_language/test_whisper.py
+++ b/tests/models/multimodal/generation/test_whisper.py
@@ -1,15 +1,12 @@
 # SPDX-License-Identifier: Apache-2.0
-"""Compare the outputs of HF and vLLM for Whisper models using greedy sampling.
-
-Run `pytest tests/models/encoder_decoder/audio/test_whisper.py`.
-"""
 from typing import Optional
 
 import pytest
 
-from vllm import LLM, SamplingParams
+from vllm import SamplingParams
 from vllm.assets.audio import AudioAsset
 
+from ....conftest import VllmRunner
 from ....utils import create_new_process_for_each_test, multi_gpu_test
 
 PROMPTS = [
@@ -92,6 +89,7 @@ EXPECTED = {
 
 
 def run_test(
+    vllm_runner: type[VllmRunner],
     model: str,
     *,
     tensor_parallel_size: int,
@@ -100,38 +98,52 @@ def run_test(
     prompt_list = PROMPTS * 10
     expected_list = EXPECTED[model] * 10
 
-    llm = LLM(
-        model=model,
-        tensor_parallel_size=tensor_parallel_size,
-        distributed_executor_backend=distributed_executor_backend,
-    )
+    with vllm_runner(
+            model,
+            max_model_len=448,
+            tensor_parallel_size=tensor_parallel_size,
+            distributed_executor_backend=distributed_executor_backend,
+    ) as vllm_model:
+        llm = vllm_model.model
 
-    sampling_params = SamplingParams(
-        temperature=0,
-        top_p=1.0,
-        max_tokens=200,
-    )
+        sampling_params = SamplingParams(
+            temperature=0,
+            top_p=1.0,
+            max_tokens=200,
+        )
 
-    outputs = llm.generate(prompt_list, sampling_params)
+        outputs = llm.generate(prompt_list, sampling_params)
 
     for output, expected in zip(outputs, expected_list):
         print(output.outputs[0].text)
         assert output.outputs[0].text == expected
 
 
-@create_new_process_for_each_test()
+@create_new_process_for_each_test("spawn")
 @pytest.mark.core_model
 @pytest.mark.parametrize(
     "model", ["openai/whisper-small", "openai/whisper-large-v3-turbo"])
-def test_models(model) -> None:
-    run_test(model, tensor_parallel_size=1)
+def test_models(vllm_runner, model) -> None:
+    run_test(
+        vllm_runner,
+        model,
+        tensor_parallel_size=1,
+    )
 
 
+@create_new_process_for_each_test("spawn")
 @multi_gpu_test(num_gpus=2)
 @pytest.mark.core_model
 @pytest.mark.parametrize("model", ["openai/whisper-large-v3-turbo"])
 @pytest.mark.parametrize("distributed_executor_backend", ["ray", "mp"])
-def test_models_distributed(model, distributed_executor_backend) -> None:
-    run_test(model,
-             tensor_parallel_size=2,
-             distributed_executor_backend=distributed_executor_backend)
+def test_models_distributed(
+    vllm_runner,
+    model,
+    distributed_executor_backend,
+) -> None:
+    run_test(
+        vllm_runner,
+        model,
+        tensor_parallel_size=2,
+        distributed_executor_backend=distributed_executor_backend,
+    )
diff --git a/tests/models/decoder_only/vision_language/vlm_utils/__init__.py b/tests/models/multimodal/generation/vlm_utils/__init__.py
similarity index 100%
rename from tests/models/decoder_only/vision_language/vlm_utils/__init__.py
rename to tests/models/multimodal/generation/vlm_utils/__init__.py
diff --git a/tests/models/decoder_only/vision_language/vlm_utils/builders.py b/tests/models/multimodal/generation/vlm_utils/builders.py
similarity index 100%
rename from tests/models/decoder_only/vision_language/vlm_utils/builders.py
rename to tests/models/multimodal/generation/vlm_utils/builders.py
diff --git a/tests/models/decoder_only/vision_language/vlm_utils/case_filtering.py b/tests/models/multimodal/generation/vlm_utils/case_filtering.py
similarity index 100%
rename from tests/models/decoder_only/vision_language/vlm_utils/case_filtering.py
rename to tests/models/multimodal/generation/vlm_utils/case_filtering.py
diff --git a/tests/models/decoder_only/vision_language/vlm_utils/core.py b/tests/models/multimodal/generation/vlm_utils/core.py
similarity index 100%
rename from tests/models/decoder_only/vision_language/vlm_utils/core.py
rename to tests/models/multimodal/generation/vlm_utils/core.py
diff --git a/tests/models/decoder_only/vision_language/vlm_utils/custom_inputs.py b/tests/models/multimodal/generation/vlm_utils/custom_inputs.py
similarity index 100%
rename from tests/models/decoder_only/vision_language/vlm_utils/custom_inputs.py
rename to tests/models/multimodal/generation/vlm_utils/custom_inputs.py
diff --git a/tests/models/decoder_only/vision_language/vlm_utils/model_utils.py b/tests/models/multimodal/generation/vlm_utils/model_utils.py
similarity index 100%
rename from tests/models/decoder_only/vision_language/vlm_utils/model_utils.py
rename to tests/models/multimodal/generation/vlm_utils/model_utils.py
diff --git a/tests/models/decoder_only/vision_language/vlm_utils/runners.py b/tests/models/multimodal/generation/vlm_utils/runners.py
similarity index 100%
rename from tests/models/decoder_only/vision_language/vlm_utils/runners.py
rename to tests/models/multimodal/generation/vlm_utils/runners.py
diff --git a/tests/models/decoder_only/vision_language/vlm_utils/types.py b/tests/models/multimodal/generation/vlm_utils/types.py
similarity index 100%
rename from tests/models/decoder_only/vision_language/vlm_utils/types.py
rename to tests/models/multimodal/generation/vlm_utils/types.py
diff --git a/tests/models/embedding/__init__.py b/tests/models/multimodal/pooling/__init__.py
similarity index 100%
rename from tests/models/embedding/__init__.py
rename to tests/models/multimodal/pooling/__init__.py
diff --git a/tests/models/embedding/vision_language/test_dse_qwen2_vl.py b/tests/models/multimodal/pooling/test_dse_qwen2_vl.py
similarity index 99%
rename from tests/models/embedding/vision_language/test_dse_qwen2_vl.py
rename to tests/models/multimodal/pooling/test_dse_qwen2_vl.py
index 3c15b0b55..ea1caec0e 100644
--- a/tests/models/embedding/vision_language/test_dse_qwen2_vl.py
+++ b/tests/models/multimodal/pooling/test_dse_qwen2_vl.py
@@ -10,7 +10,7 @@ from transformers import Qwen2VLForConditionalGeneration
 
 from ....conftest import IMAGE_ASSETS, HfRunner, PromptImageInput, VllmRunner
 from ....utils import large_gpu_test
-from ..utils import check_embeddings_close
+from ...utils import check_embeddings_close
 
 HF_TEXT_PROMPTS = [
     # T -> X
diff --git a/tests/models/embedding/vision_language/test_llava_next.py b/tests/models/multimodal/pooling/test_llava_next.py
similarity index 99%
rename from tests/models/embedding/vision_language/test_llava_next.py
rename to tests/models/multimodal/pooling/test_llava_next.py
index 4da59ff50..77508738c 100644
--- a/tests/models/embedding/vision_language/test_llava_next.py
+++ b/tests/models/multimodal/pooling/test_llava_next.py
@@ -8,7 +8,7 @@ from vllm.platforms import current_platform
 
 from ....conftest import IMAGE_ASSETS, HfRunner, PromptImageInput, VllmRunner
 from ....utils import large_gpu_test
-from ..utils import check_embeddings_close
+from ...utils import check_embeddings_close
 
 # Llava Next embedding implementation is only supported by CUDA.
 # If run on ROCm, hf_model.model.resize_token_embeddings will
diff --git a/tests/models/embedding/vision_language/test_phi3v.py b/tests/models/multimodal/pooling/test_phi3v.py
similarity index 98%
rename from tests/models/embedding/vision_language/test_phi3v.py
rename to tests/models/multimodal/pooling/test_phi3v.py
index f9985bd8a..cd58a5cb4 100644
--- a/tests/models/embedding/vision_language/test_phi3v.py
+++ b/tests/models/multimodal/pooling/test_phi3v.py
@@ -9,7 +9,7 @@ from vllm.assets.image import VLM_IMAGES_DIR
 
 from ....conftest import IMAGE_ASSETS, HfRunner, PromptImageInput, VllmRunner
 from ....utils import large_gpu_test
-from ..utils import check_embeddings_close
+from ...utils import check_embeddings_close
 
 HF_TEXT_PROMPTS = [
     # T -> X
diff --git a/tests/models/embedding/language/__init__.py b/tests/models/quantization/__init__.py
similarity index 100%
rename from tests/models/embedding/language/__init__.py
rename to tests/models/quantization/__init__.py
diff --git a/tests/models/decoder_only/language/test_aqlm.py b/tests/models/quantization/test_aqlm.py
similarity index 99%
rename from tests/models/decoder_only/language/test_aqlm.py
rename to tests/models/quantization/test_aqlm.py
index 85557b30d..c4e142fcc 100644
--- a/tests/models/decoder_only/language/test_aqlm.py
+++ b/tests/models/quantization/test_aqlm.py
@@ -39,7 +39,6 @@ ground_truth_generations = [
 ]
 
 
-@pytest.mark.quant_model
 @pytest.mark.skipif(not is_quant_method_supported("aqlm"),
                     reason="AQLM is not supported on this GPU type.")
 @pytest.mark.parametrize("model", ["ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf"])
diff --git a/tests/models/decoder_only/vision_language/test_awq.py b/tests/models/quantization/test_awq.py
similarity index 97%
rename from tests/models/decoder_only/vision_language/test_awq.py
rename to tests/models/quantization/test_awq.py
index 6cc81d2b9..c02c3d90e 100644
--- a/tests/models/decoder_only/vision_language/test_awq.py
+++ b/tests/models/quantization/test_awq.py
@@ -7,8 +7,8 @@ import torch
 
 from vllm.multimodal.image import rescale_image_size
 
-from ....conftest import IMAGE_ASSETS, VllmRunner, _ImageAssets
-from ...utils import check_logprobs_close
+from ...conftest import IMAGE_ASSETS, VllmRunner, _ImageAssets
+from ..utils import check_logprobs_close
 
 HF_IMAGE_PROMPTS = IMAGE_ASSETS.prompts({
     "stop_sign":
@@ -85,7 +85,6 @@ def run_awq_test(
         )
 
 
-@pytest.mark.quant_model
 @pytest.mark.parametrize(
     ("source_model", "quant_model"),
     [("OpenGVLab/InternVL2-2B", "OpenGVLab/InternVL2-2B-AWQ")],
diff --git a/tests/models/test_bitblas.py b/tests/models/quantization/test_bitblas.py
similarity index 97%
rename from tests/models/test_bitblas.py
rename to tests/models/quantization/test_bitblas.py
index ae4a52214..6d7c30126 100644
--- a/tests/models/test_bitblas.py
+++ b/tests/models/quantization/test_bitblas.py
@@ -15,7 +15,7 @@ from dataclasses import dataclass
 
 import pytest
 
-from .utils import check_logprobs_close
+from ..utils import check_logprobs_close
 
 
 @dataclass
diff --git a/tests/models/decoder_only/language/test_fp8.py b/tests/models/quantization/test_fp8.py
similarity index 97%
rename from tests/models/decoder_only/language/test_fp8.py
rename to tests/models/quantization/test_fp8.py
index 51abcb717..4d15675a3 100644
--- a/tests/models/decoder_only/language/test_fp8.py
+++ b/tests/models/quantization/test_fp8.py
@@ -4,20 +4,15 @@
 """Tests fp8 models against ground truth generation
 Note: these tests will only pass on L4 GPU.
 """
-import os
-from typing import Optional
-
 import pytest
 
-from tests.kernels.utils import override_backend_env_variable
 from tests.quantization.utils import is_quant_method_supported
 from vllm.platforms import current_platform
 from vllm.utils import STR_BACKEND_ENV_VAR
 
-from ...utils import check_logprobs_close
+from ..utils import check_logprobs_close
 
 
-@pytest.mark.quant_model
 @pytest.mark.skipif(not is_quant_method_supported("fp8"),
                     reason="fp8 is not supported on this GPU type.")
 @pytest.mark.parametrize(
diff --git a/tests/models/decoder_only/language/test_gguf.py b/tests/models/quantization/test_gguf.py
similarity index 97%
rename from tests/models/decoder_only/language/test_gguf.py
rename to tests/models/quantization/test_gguf.py
index 925e7104e..3ff36502d 100644
--- a/tests/models/decoder_only/language/test_gguf.py
+++ b/tests/models/quantization/test_gguf.py
@@ -14,9 +14,9 @@ from transformers import AutoTokenizer
 
 from tests.quantization.utils import is_quant_method_supported
 
-from ....conftest import VllmRunner
-from ....utils import multi_gpu_test
-from ...utils import check_logprobs_close
+from ...conftest import VllmRunner
+from ...utils import multi_gpu_test
+from ..utils import check_logprobs_close
 
 os.environ["TOKENIZERS_PARALLELISM"] = "true"
 
@@ -38,7 +38,6 @@ LLAMA_CONFIG = GGUFTestConfig(
     original_model="meta-llama/Llama-3.2-1B-Instruct",
     gguf_repo="bartowski/Llama-3.2-1B-Instruct-GGUF",
     gguf_filename="Llama-3.2-1B-Instruct-IQ4_XS.gguf",
-    marks=[pytest.mark.quant_model],
 )
 
 QWEN2_CONFIG = GGUFTestConfig(
diff --git a/tests/models/test_gptq_bitblas.py b/tests/models/quantization/test_gptq_bitblas.py
similarity index 97%
rename from tests/models/test_gptq_bitblas.py
rename to tests/models/quantization/test_gptq_bitblas.py
index d28442120..98cd03eb7 100644
--- a/tests/models/test_gptq_bitblas.py
+++ b/tests/models/quantization/test_gptq_bitblas.py
@@ -15,7 +15,7 @@ from dataclasses import dataclass
 
 import pytest
 
-from .utils import check_logprobs_close
+from ..utils import check_logprobs_close
 
 
 @dataclass
diff --git a/tests/models/decoder_only/language/test_gptq_marlin.py b/tests/models/quantization/test_gptq_marlin.py
similarity index 97%
rename from tests/models/decoder_only/language/test_gptq_marlin.py
rename to tests/models/quantization/test_gptq_marlin.py
index 0f61466c3..c6e7d234d 100644
--- a/tests/models/decoder_only/language/test_gptq_marlin.py
+++ b/tests/models/quantization/test_gptq_marlin.py
@@ -16,7 +16,7 @@ import pytest
 from tests.quantization.utils import is_quant_method_supported
 from vllm.model_executor.layers.rotary_embedding import _ROPE_DICT
 
-from ...utils import check_logprobs_close
+from ..utils import check_logprobs_close
 
 os.environ["TOKENIZERS_PARALLELISM"] = "true"
 
@@ -34,7 +34,6 @@ MODELS = [
 ]
 
 
-@pytest.mark.quant_model
 @pytest.mark.flaky(reruns=3)
 @pytest.mark.skipif(not is_quant_method_supported("gptq_marlin"),
                     reason="gptq_marlin is not supported on this GPU type.")
diff --git a/tests/models/decoder_only/language/test_gptq_marlin_24.py b/tests/models/quantization/test_gptq_marlin_24.py
similarity index 97%
rename from tests/models/decoder_only/language/test_gptq_marlin_24.py
rename to tests/models/quantization/test_gptq_marlin_24.py
index c81626148..c1000b181 100644
--- a/tests/models/decoder_only/language/test_gptq_marlin_24.py
+++ b/tests/models/quantization/test_gptq_marlin_24.py
@@ -13,7 +13,7 @@ import pytest
 
 from tests.quantization.utils import is_quant_method_supported
 
-from ...utils import check_logprobs_close
+from ..utils import check_logprobs_close
 
 
 @dataclass
@@ -39,7 +39,6 @@ model_pairs = [
 ]
 
 
-@pytest.mark.quant_model
 @pytest.mark.flaky(reruns=2)
 @pytest.mark.skipif(not is_quant_method_supported("gptq_marlin_24"),
                     reason="Marlin24 is not supported on this GPU type.")
diff --git a/tests/models/decoder_only/language/test_modelopt.py b/tests/models/quantization/test_modelopt.py
similarity index 99%
rename from tests/models/decoder_only/language/test_modelopt.py
rename to tests/models/quantization/test_modelopt.py
index a997b9e66..1d9aa4fa8 100644
--- a/tests/models/decoder_only/language/test_modelopt.py
+++ b/tests/models/quantization/test_modelopt.py
@@ -40,7 +40,6 @@ EXPECTED_STRS_MAP = {
 @pytest.mark.skip(
     reason=
     "Prevent unstable test based on golden strings from breaking the build.")
-@pytest.mark.quant_model
 @pytest.mark.skipif(not is_quant_method_supported("fp8"),
                     reason="fp8 is not supported on this GPU type.")
 @pytest.mark.parametrize("model_name", MODELS)
diff --git a/tests/models/decoder_only/language/test_nvfp4.py b/tests/models/quantization/test_nvfp4.py
similarity index 99%
rename from tests/models/decoder_only/language/test_nvfp4.py
rename to tests/models/quantization/test_nvfp4.py
index 442e8e93c..f94f3457c 100644
--- a/tests/models/decoder_only/language/test_nvfp4.py
+++ b/tests/models/quantization/test_nvfp4.py
@@ -41,7 +41,6 @@ EXPECTED_STRS_MAP = {
     reason=
     "Prevent unstable test based on golden strings from breaking the build "
     " and test input model being too large and hanging the system.")
-@pytest.mark.quant_model
 @pytest.mark.skipif(not is_quant_method_supported("nvfp4"),
                     reason="nvfp4 is not supported on this GPU type.")
 @pytest.mark.parametrize("model_name", MODELS)
diff --git a/tests/models/utils.py b/tests/models/utils.py
index 540754011..bb87863d0 100644
--- a/tests/models/utils.py
+++ b/tests/models/utils.py
@@ -2,9 +2,10 @@
 
 import warnings
 from collections.abc import Sequence
-from typing import Any, Optional, Union
+from typing import TYPE_CHECKING, Any, NamedTuple, Optional, Union
 
 import torch
+import torch.nn.functional as F
 
 from vllm.config import ModelConfig, TaskOption
 from vllm.inputs import InputContext
@@ -12,6 +13,9 @@ from vllm.sequence import Logprob, PromptLogprobs, SampleLogprobs
 
 from .registry import HF_EXAMPLE_MODELS
 
+if TYPE_CHECKING:
+    from ..conftest import HfRunner
+
 TokensText = tuple[list[int], str]
 
 
@@ -291,3 +295,63 @@ def build_model_context(
         **model_config_kwargs,
     )
     return InputContext(model_config)
+
+
+def check_embeddings_close(
+    *,
+    embeddings_0_lst: Sequence[list[float]],
+    embeddings_1_lst: Sequence[list[float]],
+    name_0: str,
+    name_1: str,
+    tol: float = 1e-3,
+) -> None:
+    assert len(embeddings_0_lst) == len(embeddings_1_lst)
+
+    for prompt_idx, (embeddings_0, embeddings_1) in enumerate(
+            zip(embeddings_0_lst, embeddings_1_lst)):
+        assert len(embeddings_0) == len(embeddings_1), (
+            f"Length mismatch: {len(embeddings_0)} vs. {len(embeddings_1)}")
+
+        sim = F.cosine_similarity(torch.tensor(embeddings_0),
+                                  torch.tensor(embeddings_1),
+                                  dim=0)
+
+        fail_msg = (f"Test{prompt_idx}:"
+                    f"\n{name_0}:\t{embeddings_0[:16]!r}"
+                    f"\n{name_1}:\t{embeddings_1[:16]!r}")
+
+        assert sim >= 1 - tol, fail_msg
+
+
+def matryoshka_fy(tensor: torch.Tensor, dimensions: int):
+    tensor = torch.tensor(tensor)
+    tensor = tensor[..., :dimensions]
+    tensor = F.normalize(tensor, p=2, dim=1)
+    return tensor
+
+
+class EmbedModelInfo(NamedTuple):
+    name: str
+    is_matryoshka: bool
+    matryoshka_dimensions: Optional[list[int]] = None
+    architecture: str = ""
+    enable_test: bool = True
+
+
+def run_embedding_correctness_test(
+    hf_model: "HfRunner",
+    inputs: list[str],
+    vllm_outputs: Sequence[list[float]],
+    dimensions: Optional[int] = None,
+):
+    hf_outputs = hf_model.encode(inputs)
+    if dimensions:
+        hf_outputs = matryoshka_fy(hf_outputs, dimensions)
+
+    check_embeddings_close(
+        embeddings_0_lst=hf_outputs,
+        embeddings_1_lst=vllm_outputs,
+        name_0="hf",
+        name_1="vllm",
+        tol=1e-2,
+    )
diff --git a/vllm/config.py b/vllm/config.py
index e96d872d6..43038da37 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -1043,8 +1043,10 @@ class ModelConfig:
         if self.is_attention_free:
             return 0
 
-        if hasattr(self.hf_text_config, "head_dim"):
+        # NOTE: Some configs may set head_dim=None in the config
+        if getattr(self.hf_text_config, "head_dim", None) is not None:
             return self.hf_text_config.head_dim
+
         # FIXME(woosuk): This may not be true for all models.
         return (self.hf_text_config.hidden_size //
                 self.hf_text_config.num_attention_heads)
diff --git a/vllm/model_executor/models/llama.py b/vllm/model_executor/models/llama.py
index 38a18180e..7a3ea7a68 100644
--- a/vllm/model_executor/models/llama.py
+++ b/vllm/model_executor/models/llama.py
@@ -127,8 +127,10 @@ class LlamaAttention(nn.Module):
             assert tp_size % self.total_num_kv_heads == 0
         self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
         # MistralConfig has an optional head_dim introduced by Mistral-Nemo
-        self.head_dim = getattr(config, "head_dim",
-                                self.hidden_size // self.total_num_heads)
+        head_dim = getattr(config, "head_dim", None)
+        if head_dim is None:
+            head_dim = self.hidden_size // self.total_num_heads
+        self.head_dim = head_dim
         # Phi models introduced a partial_rotary_factor parameter in the config
         self.partial_rotary_factor = getattr(config, "partial_rotary_factor",
                                              1)
-- 
GitLab


From 7ab643e425c6c894e37b8bb25b987185dc5c0e9e Mon Sep 17 00:00:00 2001
From: Alexei-V-Ivanov-AMD
 <156011006+Alexei-V-Ivanov-AMD@users.noreply.github.com>
Date: Thu, 1 May 2025 01:23:07 -0500
Subject: [PATCH 079/461] FIxing the AMD test failures caused by PR#16457
 (#17511)

Signed-off-by: Alexei V. Ivanov <alexei.ivanov@amd.com>
---
 docker/Dockerfile.rocm                         | 1 -
 vllm/model_executor/layers/rotary_embedding.py | 2 +-
 2 files changed, 1 insertion(+), 2 deletions(-)

diff --git a/docker/Dockerfile.rocm b/docker/Dockerfile.rocm
index f9ebb10ca..0a512f993 100644
--- a/docker/Dockerfile.rocm
+++ b/docker/Dockerfile.rocm
@@ -118,4 +118,3 @@ ENV TOKENIZERS_PARALLELISM=false
 ENV HIP_FORCE_DEV_KERNARG=1
 
 CMD ["/bin/bash"]
-
diff --git a/vllm/model_executor/layers/rotary_embedding.py b/vllm/model_executor/layers/rotary_embedding.py
index 8cad5482d..523250c30 100644
--- a/vllm/model_executor/layers/rotary_embedding.py
+++ b/vllm/model_executor/layers/rotary_embedding.py
@@ -80,7 +80,7 @@ def _apply_rotary_emb(x: torch.Tensor, cos: torch.Tensor, sin: torch.Tensor,
         is_neox_style: Whether to use the Neox-style or GPT-J-style rotary
             positional embeddings.
     """
-    if current_platform.is_cuda_alike():
+    if current_platform.is_cuda():
         return apply_rotary_emb(x.unsqueeze(0), cos, sin,
                                 not is_neox_style).squeeze(0)
     else:
-- 
GitLab


From 7a0a146c54df739cb862ee70bbf613ff1964225c Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Thu, 1 May 2025 02:25:36 -0400
Subject: [PATCH 080/461] [Build] Require setuptools >= 77.0.3 for PEP 639
 (#17389)

Signed-off-by: Russell Bryant <rbryant@redhat.com>
---
 pyproject.toml              | 4 ++--
 requirements/build.txt      | 4 ++--
 requirements/common.txt     | 2 +-
 requirements/hpu.txt        | 2 +-
 requirements/rocm-build.txt | 4 ++--
 requirements/test.txt       | 4 ++--
 requirements/tpu.txt        | 2 +-
 requirements/xpu.txt        | 4 ++--
 8 files changed, 13 insertions(+), 13 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index e51d4c9a4..069e295bf 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -3,8 +3,8 @@
 requires = [
     "cmake>=3.26",
     "ninja",
-    "packaging",
-    "setuptools>=61",
+    "packaging>=24.2",
+    "setuptools>=77.0.3,<80.0.0",
     "setuptools-scm>=8.0",
     "torch == 2.7.0",
     "wheel",
diff --git a/requirements/build.txt b/requirements/build.txt
index 19d757b45..5edc593b9 100644
--- a/requirements/build.txt
+++ b/requirements/build.txt
@@ -1,8 +1,8 @@
 # Should be mirrored in pyproject.toml
 cmake>=3.26
 ninja
-packaging
-setuptools>=61
+packaging>=24.2
+setuptools>=77.0.3,<80.0.0
 setuptools-scm>=8
 torch==2.7.0
 wheel
diff --git a/requirements/common.txt b/requirements/common.txt
index fba3f3580..7ea27753e 100644
--- a/requirements/common.txt
+++ b/requirements/common.txt
@@ -34,7 +34,7 @@ mistral_common[opencv] >= 1.5.4
 opencv-python-headless >= 4.11.0    # required for video IO
 pyyaml
 six>=1.16.0; python_version > '3.11' # transitive dependency of pandas that needs to be the latest version for python 3.12
-setuptools>=74.1.1,<80; python_version > '3.11' # Setuptools is used by triton, we need to ensure a modern version is installed for 3.12+ so that it does not try to import distutils, which was removed in 3.12
+setuptools>=77.0.3,<80; python_version > '3.11' # Setuptools is used by triton, we need to ensure a modern version is installed for 3.12+ so that it does not try to import distutils, which was removed in 3.12
 einops # Required for Qwen2-VL.
 compressed-tensors == 0.9.4 # required for compressed-tensors
 depyf==0.18.0 # required for profiling and debugging with compilation config
diff --git a/requirements/hpu.txt b/requirements/hpu.txt
index 5ac58bc02..a88777268 100644
--- a/requirements/hpu.txt
+++ b/requirements/hpu.txt
@@ -7,6 +7,6 @@ triton==3.1.0
 pandas
 numpy==1.26.4
 tabulate
-setuptools>=61
+setuptools>=77.0.3,<80.0.0
 setuptools-scm>=8
 vllm-hpu-extension @ git+https://github.com/HabanaAI/vllm-hpu-extension.git@f1f6624
diff --git a/requirements/rocm-build.txt b/requirements/rocm-build.txt
index 55ffe82e8..981b90632 100644
--- a/requirements/rocm-build.txt
+++ b/requirements/rocm-build.txt
@@ -8,8 +8,8 @@ torchaudio==2.7.0
 
 triton==3.2
 cmake>=3.26,<4
-packaging
-setuptools>=61
+packaging>=24.2
+setuptools>=77.0.3,<80.0.0
 setuptools-scm>=8
 wheel
 jinja2>=3.1.6
diff --git a/requirements/test.txt b/requirements/test.txt
index 2e8121e38..4e60f08e6 100644
--- a/requirements/test.txt
+++ b/requirements/test.txt
@@ -396,7 +396,7 @@ opencv-python-headless==4.11.0.86
     # via
     #   -r requirements/test.in
     #   mistral-common
-packaging==24.1
+packaging==24.2
     # via
     #   accelerate
     #   black
@@ -632,7 +632,7 @@ sentence-transformers==3.2.1
     # via -r requirements/test.in
 sentencepiece==0.2.0
     # via mistral-common
-setuptools==75.8.0
+setuptools==77.0.3
     # via
     #   mamba-ssm
     #   pytablewriter
diff --git a/requirements/tpu.txt b/requirements/tpu.txt
index 16c0ad3ec..17d57058b 100644
--- a/requirements/tpu.txt
+++ b/requirements/tpu.txt
@@ -3,7 +3,7 @@
 
 # Dependencies for TPU
 cmake>=3.26
-packaging
+packaging>=24.2
 setuptools-scm>=8
 wheel
 jinja2>=3.1.6
diff --git a/requirements/xpu.txt b/requirements/xpu.txt
index d9f2c007e..04c4d4ff8 100644
--- a/requirements/xpu.txt
+++ b/requirements/xpu.txt
@@ -3,9 +3,9 @@
 
 ray>=2.9
 cmake>=3.26
-packaging
+packaging>=24.2
 setuptools-scm>=8
-setuptools>=75.8.0,<80.0.0
+setuptools>=77.0.3,<80.0.0
 wheel
 jinja2>=3.1.6
 datasets # for benchmark scripts
-- 
GitLab


From 90d0a54c4dae03f3e8c111babd359907e719355f Mon Sep 17 00:00:00 2001
From: Hongxia Yang <62075498+hongxiayang@users.noreply.github.com>
Date: Thu, 1 May 2025 02:27:06 -0400
Subject: [PATCH 081/461] [ROCm] Effort to reduce the number of environment
 variables in command line (#17229)

Signed-off-by: Hongxia Yang <hongxia.yang@amd.com>
---
 docker/Dockerfile.rocm | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/docker/Dockerfile.rocm b/docker/Dockerfile.rocm
index 0a512f993..e60cf5e69 100644
--- a/docker/Dockerfile.rocm
+++ b/docker/Dockerfile.rocm
@@ -114,6 +114,15 @@ COPY --from=export_vllm /examples ${COMMON_WORKDIR}/vllm/examples
 ENV RAY_EXPERIMENTAL_NOSET_ROCR_VISIBLE_DEVICES=1
 ENV TOKENIZERS_PARALLELISM=false
 
+# ENV that can improve safe tensor loading, and end-to-end time
+ENV SAFETENSORS_FAST_GPU=1
+
+# User-friendly environment setting for multi-processing to avoid below RuntimeError.
+# RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing,
+# you must use the 'spawn' start method 
+# See https://pytorch.org/docs/stable/notes/multiprocessing.html#cuda-in-multiprocessing
+ENV VLLM_WORKER_MULTIPROC_METHOD=spawn
+
 # Performance environment variable.
 ENV HIP_FORCE_DEV_KERNARG=1
 
-- 
GitLab


From 13cf6b62367b1bae260cb58b5158060c5f6852bc Mon Sep 17 00:00:00 2001
From: Noah Yoshida <noahcy117@gmail.com>
Date: Wed, 30 Apr 2025 23:28:17 -0700
Subject: [PATCH 082/461] [BugFix] fix speculative decoding memory leak when
 speculation is disabled (#15506)

Signed-off-by: Noah Yoshida <noahcy117@gmail.com>
---
 tests/spec_decode/test_memory_usage.py | 90 ++++++++++++++++++++++++++
 vllm/spec_decode/spec_decode_worker.py |  1 +
 2 files changed, 91 insertions(+)
 create mode 100644 tests/spec_decode/test_memory_usage.py

diff --git a/tests/spec_decode/test_memory_usage.py b/tests/spec_decode/test_memory_usage.py
new file mode 100644
index 000000000..7a205f2ab
--- /dev/null
+++ b/tests/spec_decode/test_memory_usage.py
@@ -0,0 +1,90 @@
+# SPDX-License-Identifier: Apache-2.0
+"""This docstring details important information on the testing methodology.
+
+This test verifies that memory usage remains constant (or never grows) when 
+we enable / disable speculation via --speculative-disable-by-batch-size. 
+
+There are a lot of things we try to keep track of between batches of requests
+and if certain tensors are not freed from memory, can result in CUDA ooms. 
+
+This is particularly relevant for production situations where speculation might 
+be enabled during off hours, but disabled once traffic peaks during the workday.
+Since traffic will stay high for a long period of time, verifying we do not 
+increase our memory usage over time is essential to prevent possible CUDA ooms. 
+"""
+
+import torch
+
+import vllm
+from tests.core.utils import create_dummy_prompt
+from vllm.sequence import SequenceGroup
+
+ITERATIONS = 100
+MAIN_MODEL = "JackFram/llama-68m"
+
+# speculative model
+SPEC_MODEL = "abhigoyal/vllm-medusa-llama-68m-random"
+
+BATCH_SIZE = 5
+SPEC_DISABLE_BATCH_SIZE = 2
+
+
+def add_seq_group_to_engine(engine: vllm.LLMEngine, seq_group: SequenceGroup):
+    scheduler = engine.scheduler[0]
+    scheduler.add_seq_group(seq_group)
+
+
+"""
+Since we are using a batch size greater than the disabled batch size, 
+we can ensure we go through the _no_spec codepath for most of our engine steps.
+"""
+
+
+def test_memory_usage_no_spec():
+    previous_memory_allocated = None
+    llm = vllm.LLM(
+        model=MAIN_MODEL,
+        speculative_model=SPEC_MODEL,
+        num_speculative_tokens=3,
+        speculative_disable_by_batch_size=SPEC_DISABLE_BATCH_SIZE,
+    )
+
+    batch_sequences = set()
+    engine = llm.llm_engine
+
+    for i in range(ITERATIONS):
+        seq, seq_group = create_dummy_prompt(request_id=str(i),
+                                             prompt_length=10,
+                                             min_tokens=10,
+                                             max_tokens=10)
+
+        add_seq_group_to_engine(engine, seq_group)
+
+        batch_sequences.add(seq)
+        engine.step()
+        for seq in list(batch_sequences):
+            if seq.is_finished():
+                batch_sequences.remove(seq)
+
+        # If we aren't at our batch size yet, continue
+        if len(batch_sequences) <= BATCH_SIZE:
+            continue
+
+        # Otherwise, loop until at least one request is done
+        while not any(seq.is_finished() for seq in batch_sequences):
+            engine.step()
+
+        # Remove it from the set
+        for seq in list(batch_sequences):
+            if seq.is_finished():
+                batch_sequences.remove(seq)
+
+        # At this point, we are always at the case where we have finished
+        # processing some number of requests from the batch after running
+        # several _no_spec executions. The memory should not have
+        # increased between the previous  time this was recorded and the
+        # current time.
+        if previous_memory_allocated is None:
+            previous_memory_allocated = torch.cuda.memory_allocated()
+        else:
+            assert previous_memory_allocated == torch.cuda.memory_allocated()
diff --git a/vllm/spec_decode/spec_decode_worker.py b/vllm/spec_decode/spec_decode_worker.py
index 4e79003de..6ba5a5100 100644
--- a/vllm/spec_decode/spec_decode_worker.py
+++ b/vllm/spec_decode/spec_decode_worker.py
@@ -695,6 +695,7 @@ class SpecDecodeWorker(LoRANotSupportedWorkerBase):
                     seq_group_meta_with_hidden):
                 self.previous_hidden_states.update(hidden_states,
                                                    seq_group_meta_with_hidden)
+                self.previous_hidden_states.prune(seq_group_meta_with_hidden)
 
         if not skip_proposer:
             # We prepare the prefill hidden states here so that there no
-- 
GitLab


From 3c3d76720156380ab399c55cace6fe79a8d155f9 Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Thu, 1 May 2025 02:36:52 -0400
Subject: [PATCH 083/461] [BugFix] Fix mla cpu - missing 3 required positional
 arguments (#17494)

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>
---
 vllm/_ipex_ops.py                  | 4 +++-
 vllm/attention/backends/cpu_mla.py | 3 +++
 2 files changed, 6 insertions(+), 1 deletion(-)

diff --git a/vllm/_ipex_ops.py b/vllm/_ipex_ops.py
index 505ebec34..a9a624b85 100644
--- a/vllm/_ipex_ops.py
+++ b/vllm/_ipex_ops.py
@@ -177,7 +177,7 @@ class ipex_ops:
         out: torch.Tensor,
         seqlen_q: torch.Tensor,
         seqlen_k: torch.Tensor,
-        alibi_slopes: torch.Tensor,
+        alibi_slopes: Optional[torch.Tensor],
         max_seqlen_q: int,
         max_seqlen_k: int,
         pdropout: float,
@@ -193,6 +193,8 @@ class ipex_ops:
         if ipex.__version__.endswith("cpu"):
             if logits_soft_cap != 0.0:
                 raise ValueError("IPEX CPU does not support logits_soft_cap")
+            assert alibi_slopes is None
+            assert window_size_left < 0 and window_size_right < 0
             ipex.llm.functional.varlen_attention(query.contiguous(),
                                                  key.contiguous(),
                                                  value.contiguous(), out,
diff --git a/vllm/attention/backends/cpu_mla.py b/vllm/attention/backends/cpu_mla.py
index e2d16908f..528df2e98 100644
--- a/vllm/attention/backends/cpu_mla.py
+++ b/vllm/attention/backends/cpu_mla.py
@@ -273,6 +273,9 @@ class CPUMLAImpl(MLACommonImpl[CPUMLAMetadata]):
             return_softmax=False,
             gen_=None,
             logits_soft_cap=0.0,
+            window_size_left=-1,
+            window_size_right=-1,
+            alibi_slopes=None,
         )
 
         # remove padding
-- 
GitLab


From 26bc4bbcd8ad081de53436be657a00ea0cc9efd7 Mon Sep 17 00:00:00 2001
From: Keyun Tong <tongkeyun@gmail.com>
Date: Thu, 1 May 2025 00:30:57 -0700
Subject: [PATCH 084/461] Avoid overwriting vllm_compile_cache.py (#17418)

Signed-off-by: Keyun Tong <tongkeyun@gmail.com>
---
 vllm/compilation/backends.py | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/vllm/compilation/backends.py b/vllm/compilation/backends.py
index a1570b7ec..fcaf4a0f9 100644
--- a/vllm/compilation/backends.py
+++ b/vllm/compilation/backends.py
@@ -45,6 +45,7 @@ class CompilerManager:
         self.cache: Dict[Tuple[Optional[int], int, str], Any] = dict()
         cls = InductorAdaptor if use_inductor else EagerAdaptor
         self.compiler = cls()
+        self.is_cache_updated = False
 
     def compute_hash(self, vllm_config: VllmConfig) -> str:
         return self.compiler.compute_hash(vllm_config)
@@ -66,11 +67,11 @@ class CompilerManager:
                                        disable_cache=disable_cache)
 
     def save_to_file(self):
-        if self.disable_cache:
+        if self.disable_cache or not self.is_cache_updated:
             return
+        printer = pprint.PrettyPrinter(indent=4)
+        data = printer.pformat(self.cache)
         with open(self.cache_file_path, "w") as f:
-            printer = pprint.PrettyPrinter(indent=4)
-            data = printer.pformat(self.cache)
             f.write(data)
 
     def load(self,
@@ -131,6 +132,7 @@ class CompilerManager:
         if handle is not None:
             self.cache[(runtime_shape, graph_index,
                         self.compiler.name)] = handle
+            self.is_cache_updated = True
             if graph_index == 0:
                 # adds some info logging for the first graph
                 logger.info("Cache the graph of shape %s for later use",
-- 
GitLab


From fbefc8a78d22b20eac042c586805c7dcbfc66b1c Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Thu, 1 May 2025 05:38:18 -0400
Subject: [PATCH 085/461] [Core] Enable IPv6 with vllm.utils.make_zmq_socket()
 (#16506)

Signed-off-by: Russell Bryant <rbryant@redhat.com>
---
 tests/test_utils.py | 54 ++++++++++++++++++++++++++++++++++++++++++++-
 vllm/utils.py       | 28 +++++++++++++++++++++++
 2 files changed, 81 insertions(+), 1 deletion(-)

diff --git a/tests/test_utils.py b/tests/test_utils.py
index 580e65f1f..deff33e5c 100644
--- a/tests/test_utils.py
+++ b/tests/test_utils.py
@@ -10,13 +10,15 @@ from unittest.mock import patch
 
 import pytest
 import torch
+import zmq
 from vllm_test_utils.monitor import monitor
 
 from vllm.config import ParallelConfig, VllmConfig, set_current_vllm_config
 from vllm.utils import (CacheInfo, FlexibleArgumentParser, LRUCache,
                         MemorySnapshot, PlaceholderModule, StoreBoolean,
                         bind_kv_cache, deprecate_kwargs, get_open_port,
-                        memory_profiling, merge_async_iterators, sha256,
+                        make_zmq_socket, memory_profiling,
+                        merge_async_iterators, sha256, split_zmq_path,
                         supports_kw, swap_dict_values)
 
 from .utils import create_new_process_for_each_test, error_on_warning
@@ -662,3 +664,53 @@ def test_sha256(input: tuple, output: int):
 
     # hashing different input, returns different value
     assert hash != sha256(input + (1, ))
+
+
+@pytest.mark.parametrize(
+    "path,expected",
+    [
+        ("ipc://some_path", ("ipc", "some_path", "")),
+        ("tcp://127.0.0.1:5555", ("tcp", "127.0.0.1", "5555")),
+        ("tcp://[::1]:5555", ("tcp", "::1", "5555")),  # IPv6 address
+        ("inproc://some_identifier", ("inproc", "some_identifier", "")),
+    ]
+)
+def test_split_zmq_path(path, expected):
+    assert split_zmq_path(path) == expected
+
+
+@pytest.mark.parametrize(
+    "invalid_path",
+    [
+        "invalid_path",  # Missing scheme
+        "tcp://127.0.0.1",  # Missing port
+        "tcp://[::1]",  # Missing port for IPv6
+        "tcp://:5555",  # Missing host
+    ]
+)
+def test_split_zmq_path_invalid(invalid_path):
+    with pytest.raises(ValueError):
+        split_zmq_path(invalid_path)
+
+
+def test_make_zmq_socket_ipv6():
+    # Check if IPv6 is supported by trying to create an IPv6 socket
+    try:
+        sock = socket.socket(socket.AF_INET6, socket.SOCK_STREAM)
+        sock.close()
+    except socket.error:
+        pytest.skip("IPv6 is not supported on this system")
+
+    ctx = zmq.Context()
+    ipv6_path = "tcp://[::]:5555"  # IPv6 loopback address
+    socket_type = zmq.REP  # Example socket type
+
+    # Create the socket
+    zsock: zmq.Socket = make_zmq_socket(ctx, ipv6_path, socket_type)
+
+    # Verify that the IPV6 option is set
+    assert zsock.getsockopt(zmq.IPV6) == 1, "IPV6 option should be enabled for IPv6 addresses"
+
+    # Clean up
+    zsock.close()
+    ctx.term()
diff --git a/vllm/utils.py b/vllm/utils.py
index 73726bb9a..f85bbe3a5 100644
--- a/vllm/utils.py
+++ b/vllm/utils.py
@@ -45,6 +45,7 @@ from types import MappingProxyType
 from typing import (TYPE_CHECKING, Any, Callable, Generic, Literal, NamedTuple,
                     Optional, Sequence, Tuple, Type, TypeVar, Union, cast,
                     overload)
+from urllib.parse import urlparse
 from uuid import uuid4
 
 import cachetools
@@ -2278,6 +2279,27 @@ def get_exception_traceback():
     return err_str
 
 
+def split_zmq_path(path: str) -> Tuple[str, str, str]:
+    """Split a zmq path into its parts."""
+    parsed = urlparse(path)
+    if not parsed.scheme:
+        raise ValueError(f"Invalid zmq path: {path}")
+
+    scheme = parsed.scheme
+    host = parsed.hostname or ""
+    port = str(parsed.port or "")
+
+    if scheme == "tcp" and not all((host, port)):
+        # The host and port fields are required for tcp
+        raise ValueError(f"Invalid zmq path: {path}")
+
+    if scheme != "tcp" and port:
+        # port only makes sense with tcp
+        raise ValueError(f"Invalid zmq path: {path}")
+
+    return scheme, host, port
+
+
 # Adapted from: https://github.com/sgl-project/sglang/blob/v0.4.1/python/sglang/srt/utils.py#L783 # noqa: E501
 def make_zmq_socket(
     ctx: Union[zmq.asyncio.Context, zmq.Context],  # type: ignore[name-defined]
@@ -2317,6 +2339,12 @@ def make_zmq_socket(
     if identity is not None:
         socket.setsockopt(zmq.IDENTITY, identity)
 
+    # Determine if the path is a TCP socket with an IPv6 address.
+    # Enable IPv6 on the zmq socket if so.
+    scheme, host, _ = split_zmq_path(path)
+    if scheme == "tcp" and is_valid_ipv6_address(host):
+        socket.setsockopt(zmq.IPV6, 1)
+
     if bind:
         socket.bind(path)
     else:
-- 
GitLab


From 015069b01741e9ecb9e604c7fe87fbdfc306ebe5 Mon Sep 17 00:00:00 2001
From: Chauncey <chaunceyjiang@gmail.com>
Date: Thu, 1 May 2025 18:29:01 +0800
Subject: [PATCH 086/461] [Misc] Optimize the Qwen3_ReasoningParser
 extract_reasoning_content (#17515)

Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>
---
 vllm/reasoning/qwen3_reasoning_parser.py | 53 ++++++++++++------------
 1 file changed, 27 insertions(+), 26 deletions(-)

diff --git a/vllm/reasoning/qwen3_reasoning_parser.py b/vllm/reasoning/qwen3_reasoning_parser.py
index f588f4016..7095034b1 100644
--- a/vllm/reasoning/qwen3_reasoning_parser.py
+++ b/vllm/reasoning/qwen3_reasoning_parser.py
@@ -1,6 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
 
-import re
 from collections.abc import Sequence
 from typing import Optional, Union
 
@@ -31,9 +30,6 @@ class Qwen3ReasoningParser(ReasoningParser):
         self.think_start_token = "<think>"
         self.think_end_token = "</think>"
 
-        self.reasoning_regex = re.compile(
-            rf"{self.think_start_token}(.*?){self.think_end_token}", re.DOTALL)
-
         if not self.model_tokenizer:
             raise ValueError(
                 "The model tokenizer must be passed to the ReasoningParser "
@@ -121,29 +117,34 @@ class Qwen3ReasoningParser(ReasoningParser):
     def extract_reasoning_content(
             self, model_output: str, request: ChatCompletionRequest
     ) -> tuple[Optional[str], Optional[str]]:
+        """
+        Extract reasoning content from the model output.
+
+        For text <think>abc</think>xyz:
+        - 'abc' goes to reasoning_content
+        - 'xyz' goes to content
 
-        # Check if the model output contains the <think> tokens.
+        Returns:
+            tuple[Optional[str], Optional[str]]: reasoning content and content
+        """
+
+        # Check if the model output contains the <think> and </think> tokens.
         if (self.think_start_token not in model_output
                 or self.think_end_token not in model_output):
             return None, model_output
-        else:
-            # Use a regex to find the reasoning content
-            reasoning_content = self.reasoning_regex.findall(model_output)[0]
-
-            # Remove the reasoning content from the model output
-            # Although <think> token is always at the
-            # beginning of the line, we cannot guarantee that the
-            # other models will follow this convention.
-            # Therefore, we need to add :start_index.
-            start_index = model_output.find(self.think_start_token)
-            if start_index != -1:
-                end_index = start_index + len(
-                    f"{self.think_start_token}{reasoning_content}{self.think_end_token}"
-                )
-                model_output = model_output[:start_index] + \
-                                model_output[end_index:]
-
-                if len(model_output) == 0:
-                    return reasoning_content, None
-
-            return reasoning_content, model_output
+        # Check if the <think> is present in the model output, remove it
+        # if it is present.
+        model_output_parts = model_output.partition(self.think_start_token)
+        model_output = model_output_parts[2] if model_output_parts[
+            1] else model_output_parts[0]
+        # Check if the model output contains the </think> tokens.
+        # If the end token is not found, return the model output as is.
+        if self.think_end_token not in model_output:
+            return None, model_output
+
+        # Extract reasoning content from the model output.
+        reasoning_content, _, content = model_output.partition(
+            self.think_end_token)
+
+        final_content = content or None
+        return reasoning_content, final_content
-- 
GitLab


From a257d9bccc818cf826311ff03fbf5b46666321f1 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Thu, 1 May 2025 11:52:05 +0100
Subject: [PATCH 087/461] Improve configs - `ObservabilityConfig` (#17453)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 vllm/config.py           | 66 +++++++++++++++++++++++----
 vllm/engine/arg_utils.py | 96 ++++++++++++++++------------------------
 2 files changed, 96 insertions(+), 66 deletions(-)

diff --git a/vllm/config.py b/vllm/config.py
index 43038da37..37a9d078e 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -14,6 +14,7 @@ from collections import Counter
 from contextlib import contextmanager
 from dataclasses import (MISSING, dataclass, field, fields, is_dataclass,
                          replace)
+from functools import cached_property
 from importlib.util import find_spec
 from pathlib import Path
 from typing import (TYPE_CHECKING, Any, Callable, ClassVar, Literal, Optional,
@@ -26,6 +27,7 @@ from transformers import PretrainedConfig
 from typing_extensions import deprecated
 
 import vllm.envs as envs
+from vllm import version
 from vllm.compilation.inductor_pass import CallableInductorPass, InductorPass
 from vllm.logger import init_logger
 from vllm.model_executor.layers.quantization import (QUANTIZATION_METHODS,
@@ -3285,20 +3287,55 @@ class DecodingConfig:
             self.disable_additional_properties = True
 
 
+DetailedTraceModules = Literal["model", "worker", "all"]
+
+
+@config
 @dataclass
 class ObservabilityConfig:
     """Configuration for observability - metrics and tracing."""
-    show_hidden_metrics: bool = False
-
-    otlp_traces_endpoint: Optional[str] = None
 
-    # Collecting detailed timing information for each request can be expensive.
-
-    # If set, collects the model forward time for the request.
-    collect_model_forward_time: bool = False
+    show_hidden_metrics_for_version: Optional[str] = None
+    """Enable deprecated Prometheus metrics that have been hidden since the
+    specified version. For example, if a previously deprecated metric has been
+    hidden since the v0.7.0 release, you use
+    `--show-hidden-metrics-for-version=0.7` as a temporary escape hatch while
+    you migrate to new metrics. The metric is likely to be removed completely
+    in an upcoming release."""
+
+    @cached_property
+    def show_hidden_metrics(self) -> bool:
+        """Check if the hidden metrics should be shown."""
+        if self.show_hidden_metrics_for_version is None:
+            return False
+        return version._prev_minor_version_was(
+            self.show_hidden_metrics_for_version)
 
-    # If set, collects the model execute time for the request.
-    collect_model_execute_time: bool = False
+    otlp_traces_endpoint: Optional[str] = None
+    """Target URL to which OpenTelemetry traces will be sent."""
+
+    collect_detailed_traces: Optional[list[DetailedTraceModules]] = None
+    """It makes sense to set this only if `--otlp-traces-endpoint` is set. If
+    set, it will collect detailed traces for the specified modules. This
+    involves use of possibly costly and or blocking operations and hence might
+    have a performance impact.
+
+    Note that collecting detailed timing information for each request can be
+    expensive."""
+
+    @cached_property
+    def collect_model_forward_time(self) -> bool:
+        """Whether to collect model forward time for the request."""
+        return (self.collect_detailed_traces is not None
+                and ("model" in self.collect_detailed_traces
+                     or "all" in self.collect_detailed_traces))
+
+    @cached_property
+    def collect_model_execute_time(self) -> bool:
+        """Whether to collect model execute time for the request."""
+        return (self.collect_detailed_traces is not None
+                and ("worker" in self.collect_detailed_traces
+                     or "all" in self.collect_detailed_traces))
 
     def compute_hash(self) -> str:
         """
@@ -3320,12 +3357,23 @@ class ObservabilityConfig:
         return hash_str
 
     def __post_init__(self):
+        if (self.collect_detailed_traces is not None
+                and len(self.collect_detailed_traces) == 1
+                and "," in self.collect_detailed_traces[0]):
+            self._parse_collect_detailed_traces()
+
         if not is_otel_available() and self.otlp_traces_endpoint is not None:
             raise ValueError(
                 "OpenTelemetry is not available. Unable to configure "
                 "'otlp_traces_endpoint'. Ensure OpenTelemetry packages are "
                 f"installed. Original error:\n{otel_import_error_traceback}")
 
+    def _parse_collect_detailed_traces(self):
+        assert isinstance(self.collect_detailed_traces, list)
+        self.collect_detailed_traces = cast(
+            list[DetailedTraceModules],
+            self.collect_detailed_traces[0].split(","))
+
 
 class KVTransferConfig(BaseModel):
     """Configuration for distributed KV cache transfer."""
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index c7a580cf1..d23463ded 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -7,6 +7,7 @@ import json
 import re
 import threading
 from dataclasses import MISSING, dataclass, fields
+from itertools import permutations
 from typing import (Any, Callable, Dict, List, Literal, Optional, Type,
                     TypeVar, Union, cast, get_args, get_origin)
 
@@ -14,14 +15,13 @@ import torch
 from typing_extensions import TypeIs, deprecated
 
 import vllm.envs as envs
-from vllm import version
 from vllm.config import (BlockSize, CacheConfig, CacheDType, CompilationConfig,
-                         ConfigFormat, ConfigType, DecodingConfig, Device,
-                         DeviceConfig, DistributedExecutorBackend,
-                         GuidedDecodingBackend, GuidedDecodingBackendV1,
-                         HfOverrides, KVEventsConfig, KVTransferConfig,
-                         LoadConfig, LoadFormat, LoRAConfig, ModelConfig,
-                         ModelDType, ModelImpl, MultiModalConfig,
+                         ConfigFormat, ConfigType, DecodingConfig,
+                         DetailedTraceModules, Device, DeviceConfig,
+                         DistributedExecutorBackend, GuidedDecodingBackend,
+                         GuidedDecodingBackendV1, HfOverrides, KVEventsConfig,
+                         KVTransferConfig, LoadConfig, LoadFormat, LoRAConfig,
+                         ModelConfig, ModelDType, ModelImpl, MultiModalConfig,
                          ObservabilityConfig, ParallelConfig, PoolerConfig,
                          PrefixCachingHashAlgo, PromptAdapterConfig,
                          SchedulerConfig, SchedulerPolicy, SpeculativeConfig,
@@ -41,8 +41,6 @@ from vllm.utils import FlexibleArgumentParser, GiB_bytes, is_in_ray_actor
 
 logger = init_logger(__name__)
 
-ALLOWED_DETAILED_TRACE_MODULES = ["model", "worker", "all"]
-
 # object is used to allow for special typing forms
 T = TypeVar("T")
 TypeHint = Union[type[Any], object]
@@ -337,9 +335,12 @@ class EngineArgs:
     speculative_config: Optional[Dict[str, Any]] = None
 
     qlora_adapter_name_or_path: Optional[str] = None
-    show_hidden_metrics_for_version: Optional[str] = None
-    otlp_traces_endpoint: Optional[str] = None
-    collect_detailed_traces: Optional[str] = None
+    show_hidden_metrics_for_version: Optional[str] = \
+        ObservabilityConfig.show_hidden_metrics_for_version
+    otlp_traces_endpoint: Optional[str] = \
+        ObservabilityConfig.otlp_traces_endpoint
+    collect_detailed_traces: Optional[list[DetailedTraceModules]] = \
+        ObservabilityConfig.collect_detailed_traces
     disable_async_output_proc: bool = not ModelConfig.use_async_output_proc
     scheduling_policy: SchedulerPolicy = SchedulerConfig.policy
     scheduler_cls: Union[str, Type[object]] = SchedulerConfig.scheduler_cls
@@ -677,33 +678,29 @@ class EngineArgs:
                             default=None,
                             help='Name or path of the QLoRA adapter.')
 
-        parser.add_argument('--show-hidden-metrics-for-version',
-                            type=str,
-                            default=None,
-                            help='Enable deprecated Prometheus metrics that '
-                            'have been hidden since the specified version. '
-                            'For example, if a previously deprecated metric '
-                            'has been hidden since the v0.7.0 release, you '
-                            'use --show-hidden-metrics-for-version=0.7 as a '
-                            'temporary escape hatch while you migrate to new '
-                            'metrics. The metric is likely to be removed '
-                            'completely in an upcoming release.')
-
-        parser.add_argument(
-            '--otlp-traces-endpoint',
-            type=str,
-            default=None,
-            help='Target URL to which OpenTelemetry traces will be sent.')
-        parser.add_argument(
-            '--collect-detailed-traces',
-            type=str,
-            default=None,
-            help="Valid choices are " +
-            ",".join(ALLOWED_DETAILED_TRACE_MODULES) +
-            ". It makes sense to set this only if ``--otlp-traces-endpoint`` is"
-            " set. If set, it will collect detailed traces for the specified "
-            "modules. This involves use of possibly costly and or blocking "
-            "operations and hence might have a performance impact.")
+        # Observability arguments
+        observability_kwargs = get_kwargs(ObservabilityConfig)
+        observability_group = parser.add_argument_group(
+            title="ObservabilityConfig",
+            description=ObservabilityConfig.__doc__,
+        )
+        observability_group.add_argument(
+            "--show-hidden-metrics-for-version",
+            **observability_kwargs["show_hidden_metrics_for_version"])
+        observability_group.add_argument(
+            "--otlp-traces-endpoint",
+            **observability_kwargs["otlp_traces_endpoint"])
+        # TODO: generalise this special case
+        choices = observability_kwargs["collect_detailed_traces"]["choices"]
+        metavar = f"{{{','.join(choices)}}}"
+        observability_kwargs["collect_detailed_traces"]["metavar"] = metavar
+        observability_kwargs["collect_detailed_traces"]["choices"] += [
+            ",".join(p)
+            for p in permutations(get_args(DetailedTraceModules), r=2)
+        ]
+        observability_group.add_argument(
+            "--collect-detailed-traces",
+            **observability_kwargs["collect_detailed_traces"])
 
         # Scheduler arguments
         scheduler_kwargs = get_kwargs(SchedulerConfig)
@@ -1094,26 +1091,11 @@ class EngineArgs:
             if self.enable_reasoning else None,
         )
 
-        show_hidden_metrics = False
-        if self.show_hidden_metrics_for_version is not None:
-            show_hidden_metrics = version._prev_minor_version_was(
-                self.show_hidden_metrics_for_version)
-
-        detailed_trace_modules = []
-        if self.collect_detailed_traces is not None:
-            detailed_trace_modules = self.collect_detailed_traces.split(",")
-        for m in detailed_trace_modules:
-            if m not in ALLOWED_DETAILED_TRACE_MODULES:
-                raise ValueError(
-                    f"Invalid module {m} in collect_detailed_traces. "
-                    f"Valid modules are {ALLOWED_DETAILED_TRACE_MODULES}")
         observability_config = ObservabilityConfig(
-            show_hidden_metrics=show_hidden_metrics,
+            show_hidden_metrics_for_version=self.
+            show_hidden_metrics_for_version,
             otlp_traces_endpoint=self.otlp_traces_endpoint,
-            collect_model_forward_time="model" in detailed_trace_modules
-            or "all" in detailed_trace_modules,
-            collect_model_execute_time="worker" in detailed_trace_modules
-            or "all" in detailed_trace_modules,
+            collect_detailed_traces=self.collect_detailed_traces,
         )
 
         config = VllmConfig(
-- 
GitLab


From 86a1f67a3b63977b55bf5ef2e550893d7750bfa0 Mon Sep 17 00:00:00 2001
From: Teruaki Ishizaki <tell.ishi@gmail.com>
Date: Thu, 1 May 2025 20:54:51 +0900
Subject: [PATCH 088/461] [Bugfix][Benchmarks] Allow benchmark of deepspeed-mii
 backend to select a model (#17285)

Signed-off-by: Teruaki Ishizaki <teruaki.ishizaki@ntt.com>
---
 benchmarks/backend_request_func.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/benchmarks/backend_request_func.py b/benchmarks/backend_request_func.py
index 3405aaebf..e6a67fda6 100644
--- a/benchmarks/backend_request_func.py
+++ b/benchmarks/backend_request_func.py
@@ -201,6 +201,7 @@ async def async_request_deepspeed_mii(
                                      timeout=AIOHTTP_TIMEOUT) as session:
 
         payload = {
+            "model": request_func_input.model,
             "prompt": request_func_input.prompt,
             "max_tokens": request_func_input.output_len,
             "temperature": 0.01,  # deepspeed-mii does not accept 0.0 temp.
-- 
GitLab


From 1903c0b8a3a023b09869427719052c209aecb78c Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Thu, 1 May 2025 20:15:32 +0800
Subject: [PATCH 089/461] [Frontend] Show progress bar for adding requests
 (#17525)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 vllm/entrypoints/llm.py | 14 ++++++++++++--
 1 file changed, 12 insertions(+), 2 deletions(-)

diff --git a/vllm/entrypoints/llm.py b/vllm/entrypoints/llm.py
index 79f1d80f4..0a302872d 100644
--- a/vllm/entrypoints/llm.py
+++ b/vllm/entrypoints/llm.py
@@ -462,10 +462,12 @@ class LLM:
         self._validate_and_add_requests(
             prompts=parsed_prompts,
             params=sampling_params,
+            use_tqdm=use_tqdm,
             lora_request=lora_request,
             prompt_adapter_request=prompt_adapter_request,
             guided_options=guided_options_request,
-            priority=priority)
+            priority=priority,
+        )
 
         outputs = self._run_engine(use_tqdm=use_tqdm)
         return self.engine_class.validate_outputs(outputs, RequestOutput)
@@ -957,6 +959,7 @@ class LLM:
         self._validate_and_add_requests(
             prompts=parsed_prompts,
             params=pooling_params,
+            use_tqdm=use_tqdm,
             lora_request=lora_request,
             tokenization_kwargs=tokenization_kwargs,
             prompt_adapter_request=prompt_adapter_request,
@@ -1127,6 +1130,7 @@ class LLM:
         self._validate_and_add_requests(
             prompts=parsed_prompts,
             params=pooling_params,
+            use_tqdm=use_tqdm,
             lora_request=lora_request,
             prompt_adapter_request=prompt_adapter_request,
         )
@@ -1332,6 +1336,8 @@ class LLM:
         prompts: Union[PromptType, Sequence[PromptType]],
         params: Union[SamplingParams, Sequence[SamplingParams], PoolingParams,
                       Sequence[PoolingParams]],
+        *,
+        use_tqdm: bool,
         lora_request: Optional[Union[Sequence[LoRARequest], LoRARequest]],
         prompt_adapter_request: Optional[PromptAdapterRequest],
         tokenization_kwargs: Optional[dict[str, Any]] = None,
@@ -1367,7 +1373,11 @@ class LLM:
                 sp.output_kind = RequestOutputKind.FINAL_ONLY
 
         # Add requests to the engine.
-        for i, prompt in enumerate(prompts):
+        it = prompts
+        if use_tqdm:
+            it = tqdm(it, desc="Adding requests")
+
+        for i, prompt in enumerate(it):
             self._add_request(
                 prompt,
                 params[i] if isinstance(params, Sequence) else params,
-- 
GitLab


From 48e925fab596f513b76e53e3061e897729ff0cb9 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Thu, 1 May 2025 20:19:32 +0800
Subject: [PATCH 090/461] [Misc] Clean up test docstrings and names (#17521)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 .buildkite/test-pipeline.yaml                 | 10 ++-
 .../{test_models.py => test_common.py}        |  5 --
 .../language/generation/test_granite.py       |  4 --
 .../language/generation/test_mistral.py       |  4 --
 .../models/language/generation/test_phimoe.py |  4 --
 ...t_cls_models.py => test_classification.py} |  6 +-
 .../models/language/pooling/test_embedding.py |  4 --
 tests/models/language/pooling/test_jina.py    | 11 +---
 tests/models/language/pooling/test_scoring.py | 61 +++++++------------
 .../pooling/test_snowflake_arctic_embed.py    |  4 --
 .../pooling/test_truncation_control.py        | 24 ++++----
 .../multimodal/generation/test_pixtral.py     |  4 --
 .../multimodal/generation/test_whisper.py     |  4 +-
 tests/models/quantization/test_aqlm.py        |  5 --
 tests/models/quantization/test_bitblas.py     |  2 -
 .../models/quantization/test_gptq_bitblas.py  |  2 -
 tests/models/quantization/test_gptq_marlin.py |  5 +-
 .../quantization/test_gptq_marlin_24.py       |  2 -
 tests/models/test_transformers.py             |  5 +-
 19 files changed, 51 insertions(+), 115 deletions(-)
 rename tests/models/language/generation/{test_models.py => test_common.py} (97%)
 rename tests/models/language/pooling/{test_cls_models.py => test_classification.py} (91%)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 13ed64ed0..d3c07cdda 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -395,10 +395,8 @@ steps:
   - csrc/
   - vllm/model_executor/layers/quantization
   - tests/quantization
-  - tests/models/quantization
   commands:
   - VLLM_TEST_FORCE_LOAD_FORMAT=auto pytest -v -s quantization
-  - pytest -v -s models/quantization
 
 - label: LM Eval Small Models # 53min
   working_dir: "/vllm-workspace/.buildkite/lm-eval-harness"
@@ -509,6 +507,14 @@ steps:
     - pip install git+https://github.com/TIGER-AI-Lab/Mantis.git
     - pytest -v -s models/multimodal/generation/test_common.py -m 'split(group=1) and not core_model'
 
+- label: Quantized Models Test
+  #mirror_hardwares: [amd]
+  source_file_dependencies:
+  - vllm/model_executor/layers/quantization
+  - tests/models/quantization
+  commands:
+    - pytest -v -s models/quantization
+
 # This test is used only in PR development phase to test individual models and should never run on main
 - label: Custom Models Test
   mirror_hardwares: [amd]
diff --git a/tests/models/language/generation/test_models.py b/tests/models/language/generation/test_common.py
similarity index 97%
rename from tests/models/language/generation/test_models.py
rename to tests/models/language/generation/test_common.py
index e55a682c0..ab2898ffb 100644
--- a/tests/models/language/generation/test_models.py
+++ b/tests/models/language/generation/test_common.py
@@ -1,9 +1,4 @@
 # SPDX-License-Identifier: Apache-2.0
-"""Compare the outputs of HF and vLLM when using greedy sampling.
-
-Run `pytest tests/models/test_models.py`.
-"""
-
 import pytest
 import torch
 
diff --git a/tests/models/language/generation/test_granite.py b/tests/models/language/generation/test_granite.py
index 119b79d64..f381c34f4 100644
--- a/tests/models/language/generation/test_granite.py
+++ b/tests/models/language/generation/test_granite.py
@@ -1,8 +1,4 @@
 # SPDX-License-Identifier: Apache-2.0
-"""Compare the outputs of HF and vLLM for Granite models using greedy sampling.
-
-Run `pytest tests/models/test_granite.py`.
-"""
 import pytest
 
 from ...utils import check_logprobs_close
diff --git a/tests/models/language/generation/test_mistral.py b/tests/models/language/generation/test_mistral.py
index 79778072c..c1b612ae2 100644
--- a/tests/models/language/generation/test_mistral.py
+++ b/tests/models/language/generation/test_mistral.py
@@ -1,8 +1,4 @@
 # SPDX-License-Identifier: Apache-2.0
-"""Compare the outputs of HF and vLLM for Mistral models using greedy sampling.
-
-Run `pytest tests/models/test_mistral.py`.
-"""
 import copy
 import json
 
diff --git a/tests/models/language/generation/test_phimoe.py b/tests/models/language/generation/test_phimoe.py
index f9757d6ac..603ca1cb1 100644
--- a/tests/models/language/generation/test_phimoe.py
+++ b/tests/models/language/generation/test_phimoe.py
@@ -1,8 +1,4 @@
 # SPDX-License-Identifier: Apache-2.0
-"""Compare the outputs of HF and vLLM for moe models using greedy sampling.
-
-Run `pytest tests/models/test_phimoe.py`.
-"""
 import pytest
 import torch
 
diff --git a/tests/models/language/pooling/test_cls_models.py b/tests/models/language/pooling/test_classification.py
similarity index 91%
rename from tests/models/language/pooling/test_cls_models.py
rename to tests/models/language/pooling/test_classification.py
index 6a3cd8a5c..44af3df08 100644
--- a/tests/models/language/pooling/test_cls_models.py
+++ b/tests/models/language/pooling/test_classification.py
@@ -1,8 +1,4 @@
 # SPDX-License-Identifier: Apache-2.0
-"""Compare the classification outputs of HF and vLLM models.
-
-Run `pytest tests/models/test_cls_models.py`.
-"""
 import pytest
 import torch
 from transformers import AutoModelForSequenceClassification
@@ -19,7 +15,7 @@ from vllm.platforms import current_platform
 )
 @pytest.mark.parametrize("dtype",
                          ["half"] if current_platform.is_rocm() else ["float"])
-def test_classification_models(
+def test_models(
     hf_runner,
     vllm_runner,
     example_prompts,
diff --git a/tests/models/language/pooling/test_embedding.py b/tests/models/language/pooling/test_embedding.py
index 2a90f47af..9db385e77 100644
--- a/tests/models/language/pooling/test_embedding.py
+++ b/tests/models/language/pooling/test_embedding.py
@@ -1,8 +1,4 @@
 # SPDX-License-Identifier: Apache-2.0
-"""Compare the embedding outputs of HF and vLLM models.
-
-Run `pytest tests/models/embedding/language/test_embedding.py`.
-"""
 import pytest
 
 from vllm.config import PoolerConfig
diff --git a/tests/models/language/pooling/test_jina.py b/tests/models/language/pooling/test_jina.py
index 154aefe59..5287ca37c 100644
--- a/tests/models/language/pooling/test_jina.py
+++ b/tests/models/language/pooling/test_jina.py
@@ -1,9 +1,4 @@
 # SPDX-License-Identifier: Apache-2.0
-# ruff: noqa: E501
-"""Compare the scoring outputs of HF and vLLM models.
-
-Run `pytest tests/models/embedding/language/test_jina.py`.
-"""
 import math
 
 import pytest
@@ -22,9 +17,9 @@ TEXTS_2 = [
     "Organic skincare for sensitive skin with aloe vera and chamomile.",
     "New makeup trends focus on bold colors and innovative techniques",
     "Bio-Hautpflege für empfindliche Haut mit Aloe Vera und Kamille",
-    "Neue Make-up-Trends setzen auf kräftige Farben und innovative Techniken",
-    "Cuidado de la piel orgánico para piel sensible con aloe vera y manzanilla",
-    "Las nuevas tendencias de maquillaje se centran en colores vivos y técnicas innovadoras",
+    "Neue Make-up-Trends setzen auf kräftige Farben und innovative Techniken",  # noqa: E501
+    "Cuidado de la piel orgánico para piel sensible con aloe vera y manzanilla",  # noqa: E501
+    "Las nuevas tendencias de maquillaje se centran en colores vivos y técnicas innovadoras",  # noqa: E501
     "针对敏感肌专门设计的天然有机护肤产品",
     "新的化妆趋势注重鲜艳的颜色和创新的技巧",
     "敏感肌のために特別に設計された天然有機スキンケア製品",
diff --git a/tests/models/language/pooling/test_scoring.py b/tests/models/language/pooling/test_scoring.py
index d6408258f..e9527700c 100644
--- a/tests/models/language/pooling/test_scoring.py
+++ b/tests/models/language/pooling/test_scoring.py
@@ -1,15 +1,11 @@
 # SPDX-License-Identifier: Apache-2.0
-"""Compare the scoring outputs of HF and vLLM models.
-
-Run `pytest tests/models/embedding/language/test_scoring.py`.
-"""
 import math
 
 import pytest
 import torch
 import torch.nn.functional as F
 
-MODELS = [
+CROSS_ENCODER_MODELS = [
     "cross-encoder/ms-marco-MiniLM-L-6-v2",  # Bert
     "BAAI/bge-reranker-v2-m3",  # Roberta
 ]
@@ -28,21 +24,21 @@ TEXTS_2 = [
     "The capital of Germany is Berlin.",
 ]
 
+DTYPE = "half"
+
 
-@pytest.fixture(scope="module", params=MODELS)
+@pytest.fixture(scope="module", params=CROSS_ENCODER_MODELS)
 def model_name(request):
     yield request.param
 
 
-@pytest.mark.parametrize("dtype", ["half"])
-def test_llm_1_to_1(vllm_runner, hf_runner, model_name, dtype: str):
-
+def test_cross_encoder_1_to_1(vllm_runner, hf_runner, model_name):
     text_pair = [TEXTS_1[0], TEXTS_2[0]]
 
-    with hf_runner(model_name, dtype=dtype, is_cross_encoder=True) as hf_model:
+    with hf_runner(model_name, dtype=DTYPE, is_cross_encoder=True) as hf_model:
         hf_outputs = hf_model.predict([text_pair]).tolist()
 
-    with vllm_runner(model_name, task="score", dtype=dtype,
+    with vllm_runner(model_name, task="score", dtype=DTYPE,
                      max_model_len=None) as vllm_model:
         vllm_outputs = vllm_model.score(text_pair[0], text_pair[1])
 
@@ -52,18 +48,16 @@ def test_llm_1_to_1(vllm_runner, hf_runner, model_name, dtype: str):
     assert math.isclose(hf_outputs[0], vllm_outputs[0], rel_tol=0.01)
 
 
-@pytest.mark.parametrize("dtype", ["half"])
-def test_llm_1_to_N(vllm_runner, hf_runner, model_name, dtype: str):
-
+def test_cross_encoder_1_to_N(vllm_runner, hf_runner, model_name):
     text_pairs = [
         [TEXTS_1[0], TEXTS_2[0]],
         [TEXTS_1[0], TEXTS_2[1]],
     ]
 
-    with hf_runner(model_name, dtype=dtype, is_cross_encoder=True) as hf_model:
+    with hf_runner(model_name, dtype=DTYPE, is_cross_encoder=True) as hf_model:
         hf_outputs = hf_model.predict(text_pairs).tolist()
 
-    with vllm_runner(model_name, task="score", dtype=dtype,
+    with vllm_runner(model_name, task="score", dtype=DTYPE,
                      max_model_len=None) as vllm_model:
         vllm_outputs = vllm_model.score(TEXTS_1[0], TEXTS_2)
 
@@ -74,18 +68,16 @@ def test_llm_1_to_N(vllm_runner, hf_runner, model_name, dtype: str):
     assert math.isclose(hf_outputs[1], vllm_outputs[1], rel_tol=0.01)
 
 
-@pytest.mark.parametrize("dtype", ["half"])
-def test_llm_N_to_N(vllm_runner, hf_runner, model_name, dtype: str):
-
+def test_cross_encoder_N_to_N(vllm_runner, hf_runner, model_name):
     text_pairs = [
         [TEXTS_1[0], TEXTS_2[0]],
         [TEXTS_1[1], TEXTS_2[1]],
     ]
 
-    with hf_runner(model_name, dtype=dtype, is_cross_encoder=True) as hf_model:
+    with hf_runner(model_name, dtype=DTYPE, is_cross_encoder=True) as hf_model:
         hf_outputs = hf_model.predict(text_pairs).tolist()
 
-    with vllm_runner(model_name, task="score", dtype=dtype,
+    with vllm_runner(model_name, task="score", dtype=DTYPE,
                      max_model_len=None) as vllm_model:
         vllm_outputs = vllm_model.score(TEXTS_1, TEXTS_2)
 
@@ -101,13 +93,10 @@ def emb_model_name(request):
     yield request.param
 
 
-@pytest.mark.parametrize("dtype", ["half"])
-def test_llm_1_to_1_embedding(vllm_runner, hf_runner, emb_model_name,
-                              dtype: str):
-
+def test_embedding_1_to_1(vllm_runner, hf_runner, emb_model_name):
     text_pair = [TEXTS_1[0], TEXTS_2[0]]
 
-    with hf_runner(emb_model_name, dtype=dtype,
+    with hf_runner(emb_model_name, dtype=DTYPE,
                    is_sentence_transformer=True) as hf_model:
         hf_embeddings = hf_model.encode(text_pair)
         hf_outputs = [
@@ -116,7 +105,7 @@ def test_llm_1_to_1_embedding(vllm_runner, hf_runner, emb_model_name,
 
     with vllm_runner(emb_model_name,
                      task="embed",
-                     dtype=dtype,
+                     dtype=DTYPE,
                      max_model_len=None) as vllm_model:
         vllm_outputs = vllm_model.score(text_pair[0], text_pair[1])
 
@@ -126,16 +115,13 @@ def test_llm_1_to_1_embedding(vllm_runner, hf_runner, emb_model_name,
     assert math.isclose(hf_outputs[0], vllm_outputs[0], rel_tol=0.01)
 
 
-@pytest.mark.parametrize("dtype", ["half"])
-def test_llm_1_to_N_embedding(vllm_runner, hf_runner, emb_model_name,
-                              dtype: str):
-
+def test_embedding_1_to_N(vllm_runner, hf_runner, emb_model_name):
     text_pairs = [
         [TEXTS_1[0], TEXTS_2[0]],
         [TEXTS_1[0], TEXTS_2[1]],
     ]
 
-    with hf_runner(emb_model_name, dtype=dtype,
+    with hf_runner(emb_model_name, dtype=DTYPE,
                    is_sentence_transformer=True) as hf_model:
         hf_embeddings = [
             hf_model.encode(text_pair) for text_pair in text_pairs
@@ -147,7 +133,7 @@ def test_llm_1_to_N_embedding(vllm_runner, hf_runner, emb_model_name,
 
     with vllm_runner(emb_model_name,
                      task="embed",
-                     dtype=dtype,
+                     dtype=DTYPE,
                      max_model_len=None) as vllm_model:
         vllm_outputs = vllm_model.score(TEXTS_1[0], TEXTS_2)
 
@@ -158,16 +144,13 @@ def test_llm_1_to_N_embedding(vllm_runner, hf_runner, emb_model_name,
     assert math.isclose(hf_outputs[1], vllm_outputs[1], rel_tol=0.01)
 
 
-@pytest.mark.parametrize("dtype", ["half"])
-def test_llm_N_to_N_embedding(vllm_runner, hf_runner, emb_model_name,
-                              dtype: str):
-
+def test_embedding_N_to_N(vllm_runner, hf_runner, emb_model_name):
     text_pairs = [
         [TEXTS_1[0], TEXTS_2[0]],
         [TEXTS_1[1], TEXTS_2[1]],
     ]
 
-    with hf_runner(emb_model_name, dtype=dtype,
+    with hf_runner(emb_model_name, dtype=DTYPE,
                    is_sentence_transformer=True) as hf_model:
         hf_embeddings = [
             hf_model.encode(text_pair) for text_pair in text_pairs
@@ -179,7 +162,7 @@ def test_llm_N_to_N_embedding(vllm_runner, hf_runner, emb_model_name,
 
     with vllm_runner(emb_model_name,
                      task="embed",
-                     dtype=dtype,
+                     dtype=DTYPE,
                      max_model_len=None) as vllm_model:
         vllm_outputs = vllm_model.score(TEXTS_1, TEXTS_2)
 
diff --git a/tests/models/language/pooling/test_snowflake_arctic_embed.py b/tests/models/language/pooling/test_snowflake_arctic_embed.py
index 81abc0e9e..c050b35b7 100644
--- a/tests/models/language/pooling/test_snowflake_arctic_embed.py
+++ b/tests/models/language/pooling/test_snowflake_arctic_embed.py
@@ -1,8 +1,4 @@
 # SPDX-License-Identifier: Apache-2.0
-"""Compare the embedding outputs of HF and vLLM models.
-
-Run `pytest tests/models/embedding/language/test_snowflake_arctic_embed.py`.
-"""
 import pytest
 
 from ...utils import EmbedModelInfo, check_embeddings_close
diff --git a/tests/models/language/pooling/test_truncation_control.py b/tests/models/language/pooling/test_truncation_control.py
index a215e1ec5..1b8ac395e 100644
--- a/tests/models/language/pooling/test_truncation_control.py
+++ b/tests/models/language/pooling/test_truncation_control.py
@@ -5,18 +5,18 @@ MODEL_NAME = "sentence-transformers/all-MiniLM-L12-v2"
 max_model_len = 128
 
 input_str = """Immerse yourself in the enchanting chronicle of calculus, a 
-    mathematical domain that has radically transformed our comprehension of 
-    change and motion. Despite its roots in ancient civilizations, the 
-    formal birth of calculus predominantly occurred in the 17th century, 
-    primarily under the influential guidance of Sir Isaac Newton and Gottfried 
-    Wilhelm Leibniz. The earliest traces of calculus concepts are found in 
-    ancient Greek mathematics,most notably in the works of Eudoxus and 
-    Archimedes, around 300 BCE. They utilized the 'method of exhaustion'—a 
-    technique for computing areas and volumes through the use of finite sums. 
-    This methodology laid crucial foundational work for integral calculus. 
-    In the 17th century, both Newton and Leibniz independently pioneered 
-    calculus, each contributing unique perspectives that would shape this new 
-    field."""
+mathematical domain that has radically transformed our comprehension of 
+change and motion. Despite its roots in ancient civilizations, the 
+formal birth of calculus predominantly occurred in the 17th century, 
+primarily under the influential guidance of Sir Isaac Newton and Gottfried 
+Wilhelm Leibniz. The earliest traces of calculus concepts are found in 
+ancient Greek mathematics,most notably in the works of Eudoxus and 
+Archimedes, around 300 BCE. They utilized the 'method of exhaustion'—a 
+technique for computing areas and volumes through the use of finite sums. 
+This methodology laid crucial foundational work for integral calculus. 
+In the 17th century, both Newton and Leibniz independently pioneered 
+calculus, each contributing unique perspectives that would shape this new 
+field."""
 
 
 def test_smaller_truncation_size(vllm_runner,
diff --git a/tests/models/multimodal/generation/test_pixtral.py b/tests/models/multimodal/generation/test_pixtral.py
index 6ebe75f0e..506b71472 100644
--- a/tests/models/multimodal/generation/test_pixtral.py
+++ b/tests/models/multimodal/generation/test_pixtral.py
@@ -1,8 +1,4 @@
 # SPDX-License-Identifier: Apache-2.0
-"""Compare the outputs of HF and vLLM for Mistral models using greedy sampling.
-
-Run `pytest tests/models/test_mistral.py`.
-"""
 import json
 from dataclasses import asdict
 from typing import TYPE_CHECKING, Any, Optional
diff --git a/tests/models/multimodal/generation/test_whisper.py b/tests/models/multimodal/generation/test_whisper.py
index 4603b4e8e..4e48bdbd0 100644
--- a/tests/models/multimodal/generation/test_whisper.py
+++ b/tests/models/multimodal/generation/test_whisper.py
@@ -119,10 +119,10 @@ def run_test(
         assert output.outputs[0].text == expected
 
 
-@create_new_process_for_each_test("spawn")
 @pytest.mark.core_model
 @pytest.mark.parametrize(
     "model", ["openai/whisper-small", "openai/whisper-large-v3-turbo"])
+@create_new_process_for_each_test()
 def test_models(vllm_runner, model) -> None:
     run_test(
         vllm_runner,
@@ -131,11 +131,11 @@ def test_models(vllm_runner, model) -> None:
     )
 
 
-@create_new_process_for_each_test("spawn")
 @multi_gpu_test(num_gpus=2)
 @pytest.mark.core_model
 @pytest.mark.parametrize("model", ["openai/whisper-large-v3-turbo"])
 @pytest.mark.parametrize("distributed_executor_backend", ["ray", "mp"])
+@create_new_process_for_each_test()
 def test_models_distributed(
     vllm_runner,
     model,
diff --git a/tests/models/quantization/test_aqlm.py b/tests/models/quantization/test_aqlm.py
index c4e142fcc..548053b7a 100644
--- a/tests/models/quantization/test_aqlm.py
+++ b/tests/models/quantization/test_aqlm.py
@@ -1,9 +1,4 @@
 # SPDX-License-Identifier: Apache-2.0
-"""Compare the outputs of a AQLM model between vLLM and HF Transformers
-
-Run `pytest tests/models/test_aqlm.py`.
-"""
-
 import pytest
 
 from tests.quantization.utils import is_quant_method_supported
diff --git a/tests/models/quantization/test_bitblas.py b/tests/models/quantization/test_bitblas.py
index 6d7c30126..f0781394d 100644
--- a/tests/models/quantization/test_bitblas.py
+++ b/tests/models/quantization/test_bitblas.py
@@ -8,8 +8,6 @@ bitblas/GPTQ models are in the top 3 selections of each other.
 Note: bitblas internally uses locks to synchronize the threads. This can
 result in very slight nondeterminism for bitblas. As a result, we re-run the 
 test up to 3 times to see if we pass.
-
-Run `pytest tests/models/test_bitblas.py`.
 """
 from dataclasses import dataclass
 
diff --git a/tests/models/quantization/test_gptq_bitblas.py b/tests/models/quantization/test_gptq_bitblas.py
index 98cd03eb7..c8e96455f 100644
--- a/tests/models/quantization/test_gptq_bitblas.py
+++ b/tests/models/quantization/test_gptq_bitblas.py
@@ -8,8 +8,6 @@ bitblas/GPTQ models are in the top 3 selections of each other.
 Note: bitblas internally uses locks to synchronize the threads. This can
 result in very slight nondeterminism for bitblas. As a result, we re-run the 
 test up to 3 times to see if we pass.
-
-Run `pytest tests/models/test_bitblas.py`.
 """
 from dataclasses import dataclass
 
diff --git a/tests/models/quantization/test_gptq_marlin.py b/tests/models/quantization/test_gptq_marlin.py
index c6e7d234d..680134c6e 100644
--- a/tests/models/quantization/test_gptq_marlin.py
+++ b/tests/models/quantization/test_gptq_marlin.py
@@ -1,13 +1,12 @@
 # SPDX-License-Identifier: Apache-2.0
-"""Compares the outputs of gptq vs gptq_marlin 
+"""Compares the outputs of gptq vs gptq_marlin.
+
 Note: GPTQ and Marlin do not have bitwise correctness.
 As a result, in this test, we just confirm that the top selected tokens of the
 Marlin/GPTQ models are in the top 5 selections of each other.
 Note: Marlin internally uses locks to synchronize the threads. This can
 result in very slight nondeterminism for Marlin. As a result, we re-run the test
 up to 3 times to see if we pass.
-
-Run `pytest tests/models/test_gptq_marlin.py`.
 """
 import os
 
diff --git a/tests/models/quantization/test_gptq_marlin_24.py b/tests/models/quantization/test_gptq_marlin_24.py
index c1000b181..ce28f964d 100644
--- a/tests/models/quantization/test_gptq_marlin_24.py
+++ b/tests/models/quantization/test_gptq_marlin_24.py
@@ -4,8 +4,6 @@
 Note: GPTQ and Marlin_24 do not have bitwise correctness.
 As a result, in this test, we just confirm that the top selected tokens of the
 Marlin/GPTQ models are in the top 3 selections of each other.
-
-Run `pytest tests/models/test_marlin_24.py`.
 """
 from dataclasses import dataclass
 
diff --git a/tests/models/test_transformers.py b/tests/models/test_transformers.py
index 65bb11d6b..6da488897 100644
--- a/tests/models/test_transformers.py
+++ b/tests/models/test_transformers.py
@@ -1,8 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
-"""Test the functionality of the Transformers backend.
-
-Run `pytest tests/models/test_transformers.py`.
-"""
+"""Test the functionality of the Transformers backend."""
 import pytest
 
 from ..conftest import HfRunner, VllmRunner
-- 
GitLab


From 2007d4d54f8f5415e634eb40450edc949e642f85 Mon Sep 17 00:00:00 2001
From: TJian <tunjian.tan@embeddedllm.com>
Date: Thu, 1 May 2025 21:03:13 +0800
Subject: [PATCH 091/461] [FEAT] [ROCm]: Add Qwen/Qwen3-30B-A3B-FP8 fused moe
 config for MI300X (#17530)

Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
---
 ...,dtype=fp8_w8a8,block_shape=[128,128].json | 164 ++++++++++++++++++
 1 file changed, 164 insertions(+)
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json

diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 000000000..99425469f
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
-- 
GitLab


From b74d888c6357b94f3a5caf857a55af0c5886b731 Mon Sep 17 00:00:00 2001
From: Huy Do <huydhn@gmail.com>
Date: Thu, 1 May 2025 06:05:58 -0700
Subject: [PATCH 092/461] Fix more broken speculative decode tests (#17450)

Signed-off-by: Huy Do <huydhn@gmail.com>
---
 tests/spec_decode/e2e/test_medusa_correctness.py | 2 +-
 tests/spec_decode/e2e/test_mlp_correctness.py    | 4 ++--
 tests/spec_decode/e2e/test_ngram_correctness.py  | 2 +-
 vllm/spec_decode/multi_step_worker.py            | 5 +++++
 4 files changed, 9 insertions(+), 4 deletions(-)

diff --git a/tests/spec_decode/e2e/test_medusa_correctness.py b/tests/spec_decode/e2e/test_medusa_correctness.py
index 1be0e0038..5c60100e6 100644
--- a/tests/spec_decode/e2e/test_medusa_correctness.py
+++ b/tests/spec_decode/e2e/test_medusa_correctness.py
@@ -205,7 +205,7 @@ def test_medusa_e2e_greedy_correctness_cuda_graph(
 @pytest.mark.parametrize(
     "common_llm_kwargs",
     [{
-        "block_size": 8,
+        "block_size": 16,
         # 2 for small prompt, 256//8 for generated.
         "num_gpu_blocks_override": 2 + 256 // 8,
         "max_model_len": (2 + 256 // 8) * 8,
diff --git a/tests/spec_decode/e2e/test_mlp_correctness.py b/tests/spec_decode/e2e/test_mlp_correctness.py
index 3efda4006..7bf29349d 100644
--- a/tests/spec_decode/e2e/test_mlp_correctness.py
+++ b/tests/spec_decode/e2e/test_mlp_correctness.py
@@ -267,7 +267,7 @@ def test_mlp_e2e_seeded_correctness(vllm_runner, common_llm_kwargs,
 @pytest.mark.parametrize(
     "common_llm_kwargs",
     [{
-        "block_size": 8,
+        "block_size": 16,
         # 2 for small prompt, 256//8 for generated.
         "num_gpu_blocks_override": 2 + 256 // 8,
         "max_model_len": (2 + 256 // 8) * 8,
@@ -321,7 +321,7 @@ def test_mlp_e2e_greedy_correctness_with_preemption(
 @pytest.mark.parametrize(
     "common_llm_kwargs",
     [{
-        "block_size": 8,
+        "block_size": 16,
         # 2 for small prompt, 256//8 for generated.
         "num_gpu_blocks_override": 2 + 256 // 8,
         "max_model_len": (2 + 256 // 8) * 8,
diff --git a/tests/spec_decode/e2e/test_ngram_correctness.py b/tests/spec_decode/e2e/test_ngram_correctness.py
index 3af89dc74..eca433ffa 100644
--- a/tests/spec_decode/e2e/test_ngram_correctness.py
+++ b/tests/spec_decode/e2e/test_ngram_correctness.py
@@ -152,7 +152,7 @@ def test_ngram_e2e_greedy_logprobs(vllm_runner, common_llm_kwargs,
 @pytest.mark.parametrize(
     "common_llm_kwargs",
     [{
-        "block_size": 8,
+        "block_size": 16,
         # 2 for small prompt, 256//8 for generated.
         "num_gpu_blocks_override": 2 + 256 // 8,
         "max_model_len": (2 + 256 // 8) * 8,
diff --git a/vllm/spec_decode/multi_step_worker.py b/vllm/spec_decode/multi_step_worker.py
index 6473740ae..1146606e9 100644
--- a/vllm/spec_decode/multi_step_worker.py
+++ b/vllm/spec_decode/multi_step_worker.py
@@ -51,9 +51,14 @@ class MultiStepWorker(ProposerWorkerBase, DelegateWorkerBase):
     def set_include_gpu_probs_tensor(self) -> None:
         # Need include_gpu_probs_tensor for MultiStepWorker
         self.model_runner.sampler.include_gpu_probs_tensor = True
+        if hasattr(self.model_runner.model, "sampler"):
+            (self.model_runner.model.sampler.include_gpu_probs_tensor) = True
 
     def set_should_modify_greedy_probs_inplace(self) -> None:
         self.model_runner.sampler.should_modify_greedy_probs_inplace = True
+        if hasattr(self.model_runner.model, "sampler"):
+            (self.model_runner.model.sampler.should_modify_greedy_probs_inplace
+             ) = True
 
     @torch.inference_mode()
     def sampler_output(
-- 
GitLab


From 7169f87ad0142bbc83a08b98de952026d5f4e5ac Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Thu, 1 May 2025 21:34:02 +0800
Subject: [PATCH 093/461] [doc] add streamlit integration (#17522)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 .../assets/deployment/streamlit-chat.png      | Bin 0 -> 108553 bytes
 docs/source/deployment/frameworks/index.md    |   1 +
 .../source/deployment/frameworks/streamlit.md |  42 ++++
 .../streamlit_openai_chatbot_webserver.py     | 185 ++++++++++++++++++
 4 files changed, 228 insertions(+)
 create mode 100644 docs/source/assets/deployment/streamlit-chat.png
 create mode 100644 docs/source/deployment/frameworks/streamlit.md
 create mode 100644 examples/online_serving/streamlit_openai_chatbot_webserver.py

diff --git a/docs/source/assets/deployment/streamlit-chat.png b/docs/source/assets/deployment/streamlit-chat.png
new file mode 100644
index 0000000000000000000000000000000000000000..1e37b9d70e15df2d253319dcd0ebeb123ee719a0
GIT binary patch
literal 108553
zcmeEuXE>bO*S;1djf6;aq6I;sMwjS4dPED+JEM=$6B5x|)X_Vm_m)Va8(nmw8@&z2
z@PC}&$vNkG-{bxGe)wPS2QJsl<Js%k&)#d@>t6TTA6_cU+`3MF9Rma7mYl4l8U_X~
z5e5df2tF?G2_#uS8v_GV*HS{_rJRHW?Mo+nGfNv&42(ySE)il1FC0nU(<t1L&!bCx
zk?b!nQJFUKsmOtdZ39j;R%n@av|y#7t6(i5c|h=R6}vWY_+<r=2G59=g!-JClaMxB
z#cJ!kaAV_&+blS(Et@5_0{i4eXRyo<ksBcj)GOS#ZE77Bh7K~We>YYw+u@xobfq`Q
zw}u{SrSFwfPBl&NbD%L-EL{+=mg0J~wG57ZeZe%gOdP%z2b+ql$1``fxEW%0{JtkJ
zL0=`??CG>|-zU7G{SJIs6nEE~=!nT@HGw7>Zo3L4D>^7~HuBaoYdOGBedzw#*uS<1
zC;HYhG$rzf@@E&4$p=M|bP95O5*d%2vfkygq;Y@Je&%cFIb46ZO;OFmsPiLiQ9Yd9
zcIkGP-RiitWq`__5VwP>YGOLXa8#?}zIK2glUw{3M~g%lfy3?R=uw{8t{fe)_kG}J
zFbGCqn#p^iCf-$Gwx5~4k~33M!e9md#>c=6vc$jv{=x))$blaW46HP)-=E+TrD6a6
z8(ZY^%Nzz*Ees5C3^~c?8t#}I(*(((BNVN>?agMhV;c$#x>+w=RplQF>99)1u(Qgk
z2C5BY$S#F%bTw})yeN-O*+4~Y`lM!p8{C$g-L^g@JY6_fhC0q7llSdr-7J<NGyBQU
za{KgZ8A))6#4#{y#Mfgwr@9~0`eI<=|JPqcMOcmjhhOXL{<!qte>srS`p(%%-1zVR
z{ris3*~BsEEbK+@hyBYC|GCJw0s|AroZ|JRMgKkw{%cGu{O4dqox{I>fBBEe*YIhd
zP4@d=IgEJ!bs};630?R*`rpR=w`ZPvEROMI{5|Q_!}x3YV!Y^|@#LVq!dAc*bHLg@
zzRLePp?{A`REdQ{<bN~@n*VPW{B_Z@8${v`)#=x+9L6v09<47?Wlic0nXBeayj8~+
z!@uGd`_;qX6k}iprZpYvJ-hlH_5s!=+gd!oau`|*VDfP`i&wthx$+(Uf3{R`LRu$W
z5KAHRvw;Ywg`h(Il&c?IT)Zz?fX#8?M=S};R>&?n`7?)Wg!1tmblD2A_^ZieendpX
zDOaw3<D}L^-j+`PYayod8QJ9!lyaTZl6;o_iwjJeZf2<W9ZOV57nNmytLA8l{`Tve
z`_XssjqVO$UbS#&`L5qQJysX+Sg$nc`uv>FZsKug6k}|Sr%UuimG!qD-5+)Y5WxYi
zu*$fdPon(+cf^CA2v9uyYhnJEW&O?BPx=-@uJC?RXD9`KPq5$o;6krx6u0?pme-XI
zieiVdB4W2_18X9_K58^RxN@lmyI}49`X1c}tBU{n?s`YwfLJZu2T{E_xSSoPw)mxd
zuvX4`yw1ADHi_HK@4#zc|HNYMCCk1nBa2~Kj+dBO5x61ZhB-X70$pXFVou(5yc=y3
zujF&a;)3A4W9t@6#%(5-+c&LWIIu?+DHlUPE7@H<PkZIQaMPt#PJX7AEiWZR<Dc3+
z-zJkS)vdkwC4;bIQBF+$i~ot~&K!KhGF8aUAP4@Lh2Snj#C9_khe|@F49%@G$=j6A
z9;|aYJ4+;0!@3N?$gYTRRCfhjlo5i0Fc32<Rbhq@Gb?v(jPFlPDkTdmT_^3>HV9w8
zmLgua6tcM?*+njkUkSJ?jgQ_}+E`{l>#{!VG$q_WR&KK9B$px>TWL3<SZ?0U%C5^3
zm))(^_3p-f8*sIa&QvC8ee;0aV3r(vVehvdy6&xMpU$}A$!wXLKD81(GRuL+NP=g>
zF)Zrdk;l6W3YqWW-EiXEiQX_8F*?CW$3v@Fi7lqC(F93>E{pM}SGkJTriTv4J9j!0
z=o^}n*>$TszXSwj8)v`X>K^(KM@T8WXn@q~i07|4J6X}nN9s|*tp+gs;~q+#Cuyf^
z<Oglwzt^p?>#Tqe$H7G}x^iSDO6LiMSn1rhP@8-MyLi!$WP-Tbuk<j%Rao(yhJ2Rq
za^yB&k8JWT_PMl}^n8B4+?V>$alw;$<76LhYcS@qIl(J*nr8gHy=mQrv5+i3O=?Bu
zkw&Sn{!G0~&@B>+2?i1ArLKF6V}>iixa_H(1v#6<DLzj=I5}H^9$yt1{2p+ofygKY
zoqy&qS<U=1t@AuAsI;7(N=0Ud$Hlf>h%(VPQ?lg3lOy+6;NA8J{#uxv40F-zDy>W3
z&?br+9F1q!o$&q<N&(+M&@||kii=V(9G~sOOfSv@%HPc26*?7P(RGN$g^$HTe<(*R
zv1!RzpFSMhrRVzK<Tdug>&hKU>i{G8bmsbLbqp;~q441@VdoC#`_CSPYLneP@toma
zyW{P9TVR?*g7-2Lf+-DYS!*k-XuO+o)8O;FO13;ZZAb>g8R6=D#RRoMR53EEZ>UOg
z<-xJt;{CnX@zi@Jo1WE8ato(scJC(rt{3;WO6)CmW_Mt}V~}`%P_5#OPLF<sh$j`%
zR<b0KrSl~Uz6-h9*QK-`J7%^Cuk0<+#GZh1I|;bUoPgUgIR5&!W$S!*DPR3Z*Hi9Y
z$NEak#z9IE_1rk&^Plvt6w|aaVK!WAD>NIj?@i>Q<-Z0JOrr+gS&x+@!L0WbQzi@!
z2g;0@RjIvEvVwlxn1QP=R~}rsvyg$}_0E=5FnWnoXVJ;Q#IzS3QG%KU5t`+WLuLt2
zjLI2gBg6}|VUz_T1#F)s1q$Aci(R!R#QX85+zg#MQ$;4J47X$1w6nSq_VP2rb&G{}
zpn>EG4()jO4tRHfoz<7mec$d{txr82;A@}LMF^Ufr`0NR-2GQa?t|rs<{f;0CECHj
z`oaPruV>pr+M!oo<ZB2Z6>kp<$*Uv#v&+c70$C}zI=t-w5bp~oVd$09iI0;DfQ-4u
zZ9U$rW(fn!8yM(#DgDmBKJDeM^P3|9@J=!^rBM1xb6a7+S1rOkSMLR)<V)za-wYbL
z+T3FRSk1);Nnf?sF>(CW0Tk#k<5og`rMZ|bz(8kv{lQnxzPQ6BAnil-Y5os@R2u+r
zhScO&&py5~@D9It%+^_5ZSEN`&`!4m{nfMoe~abc@Xh}%mVaF_|F>BFZ?XL8_x{hb
z{97#gUkyVyYqwEInuus-l^?#`^CVYdE23I<A|A{@#25@f|KP>BFA`4s%f$~s7cHlI
z6qZx9?}YaiAv*QW9-jm_m2s|$YqYi3e#wk3*-uvMPgGj2%uIveBJ{APqXO_WXnx_j
zglX6CTB@e2fJ*8VkOR7QrU=yx7b1%o6ykacRRVC87I)_9tL-*^ZZqmu7a43eYw_8i
zt2duoWu2X)q}@P3hLZKF3~wn`dqTcM57~gAFLyXtRTXer%=`9%xP41qOhn<;W(X;#
zi<@DYaklXJapsl_>HqM|x>%8XSVo;urUqkAK+86DjtlR#Q>>RxLlGrXFcm7g(l=j>
zPnMImvvh{;FNKTofvXH#TzjoWiegXp?<dkemx0as*@4yuO?B#=s(7qN<(U*elZ@J(
zRjZ`(C<(fH=^H?*LXyRN=rm?aClDir)-?lZ(j%;~61FPW{?&Q@0Xy6zXa}WfSKB<{
z8H8)R7(4wE--Qb$*u_p)>DAK2y@3S(;~5(H)Nym==PvPJi9R#&%g>BJj)`BT|LR_S
zizwu@uEDf3N{8B~r*YaI7k||vkV?pPqS}4;R~<^yWPbZ?`<Wf77I?beWwDdFP+_Xp
zk<sXDpf^(Lf4~3(j6^J$f%*-u4eB>W3N$6WPfX)Pe0tYtv@p`WPTG6056HI=n}gZW
zjb~1H0uFO&#gpZxg-W*;w}|Gx+P9#$wh{zgSWnJTkx`FSAG%Fr5%2u8^T$8Mn9Zl;
z{^BPBKAOM?+M+iZxI>zl(V@v<&`3)j5qzJsgh4s^XISgbSjnV*ljq1mgJla(Fp=2#
zrfvp^Pp|1TeA*?7K~B+^E-ay8K1TrBvUrd`6t#a&8AT_7JC-g1Sr;Y@BBUWrNfVIz
zh*Gr5qco$rxTbKIS=j_WQZ=8g5N|W9ZZ@01Z5~A_P!6tYINkkl6(}R3#EQHt{;GPT
zrPBwRzh7DOs!U!PDoPJp>5D(wG_1BC!|Tc?Y=C;#S9_hG;5U50#d2=;-ywxKY_Xo~
zEgfE`wt!@Jsr=;Brh&tCDwaFK#m-fZwx(A~Mo-8ls%;sUx?-zbu<>rkSq^zS)*xP>
zPnD(+f(3J9hUN`p64mfT-rm05ola(G_rY2Xa;U+LFyEl5VA|}9ztr9g7`?d{e5Xxv
z#p(EHa)1vVWt}UiA{lfW7U<b8W<P^9us@_qtDNn)a9=SkC)Ac&%sb-~<%xdY`9!Ye
zkaYTThQkE&;gz@-877|9<M+h8&x<X?<7|Hk&K7Q2K&#FZoJNoTRrkOatX=1V$gzH^
z2fcP<*$rt}VV2@`vc&JS`%B6#W$5e1IA{rt6gvQ>z%T`x4n`W3gH|{i)()+kR~#KS
zkx-vA_*h!zZ7g;Xa5Ezm!uN0(`yA?%`nbF25h0w*`wYIf)vz73ju@AT*I$8si85+y
z-WfLxcyyyTndCow^}irozd7RCg**7Cam{Sg5q;)qEM8qPESuhi215_-vFwSrmXGyF
zc2=0fK}b%W@<6bF@QruZ@7+y7&H;YNwSva`0o&<Fnzx9@`r2#0Y?ThQ?axxx(?g0k
zg}e_2OO3F>><V#@D<-Ylgti-*#n3#jtwu^%80AUbkYm*x`hxO+zj9F>%vIqu?H1km
znaUt%Jjod$#zO=`d95dr$Ph>d;JnT?%^|?h$a^)zF<bA_4M}~yJ0G+?xo_C)m3^>&
z7`B<2|5@}n4VEPr{i8%BiLcFjoks9s`s*rIr?X>6AuI{RfgsD3FYODnLpvr8oPVx6
zj{WU5g&6k^b^&<S(?Pr;$6sgs1+CK-q(>X)3Ve1`CQPc$tTN%0u~25^BTv+YAKrDa
zE1|m%=!}s1EYjJls$w;;r-Z9d*lUav^74Gbnrg8bwFTns{PkU7y1Q7n<q=%WaIEA$
zt46=#&RLCIXJsp{LSL!~Gok3KVedMu+Y@B~FX`HhiB#@+@oF;_k`l*DwAaZTz@VO^
zSgr8I|5_GkrNnidTQeFLr04hUMNT-|bW|UAq?nJWkYi;vB5MTjaHW$_F`qAxS4u-M
zq7XsU;W=viBQ8VoRuY*0YB#?n=O?6W#AAQ{f?qLTjd8PFG=@{FC{KSh2sv4^?SLex
zOC#JDa$bFG-#8$F3lScs67J{U3c5+Q>fKM})F3`uVb=RlEO7v<ShuFqeg|yFZQdt*
z84^=;TQx6G+Z6gCQBU9E>ew$EIzT*>TN};c)NU=SuO1mReim|1YwwPvPePS4tE4(}
zA{e?$?uz+=Y&y6hQDLNxv2HVKY;7&a^0%plO$za;YfX-?%C`MgT2EL&7^J6ZIxDyi
zvEfP>t(swHNrJLt05e2)I_gC$rM^MJZI7(skH$9dig_BLbao_{{H%<}enyg<$K8PR
z@vBFfG8c2o)>-xoE&Hy9Czcz?J-FC~yM74UQaCK-0*EPwBLiA1WIa2=7C?NR6#t-{
zde%<k^D)Q7b2Z(#+-}+v;F(Zy9Qta`&hHBwcV0jyOOUEHD9ep!sO(HqK^H4dGA<Jb
zmnGsW5kfG|)+66EKTLQA=-M$WNQs=D>e^i4YBEkNt9DGS<1hK;#|aFkT`|q|(~c>k
zJU)A!<a{oXxOb#O$=@RL=^4%^DzwW@;p;A+HpVZ&-Lr*XiYyYLpI`m@5o$fi)nv8&
z?6@O!rV!@ph)1HgqPwy-Q6hy(;Lv|fCVHlxz~zzn2|erXcAcRq-sh}ryz&+?Rp;|7
zYZv$&enQu2AMeN-X0e34XeMhh>lG}_CniHsY$d)GGwDoWjwj*Jdt~C0RRk3PNdt`V
zQWflyA|1*Jox;Si6^1NVl04REO@&%Ze%G}>BuPQh3NMWoU#Q`qOmGyr8cqh*aM;fX
z8zimfVX+H_zZfgg&(g^6k5*%rGiLf^H!Qv`a*_O4r+m1lW+&km!z%tQs;YrX%eOE{
z`IWUShwU4Z&wK%3G+XX6>B^R686=8!4*nL35K-N0^$Reas5G>J0&(x;CavVXvc87?
z`a?Fg23IA^*>h95RN*?*OTqC{^8vYcRTlL$+89O~KX(UfwkK1ky*Ln64NM#}P1fNt
zk94LA4PR{<q|h6g&dCI98d!}MF|q6NMFX27@eYoTgwocAU`$T>AVI84Ul5MjOkh_m
zv=ktkT@a=XHWQWOBe5#~;;{c%Hh#2sgB>u8PWEE$a%5;A3>rJ)6x}f%KdHn&bDK9;
zS`73wDQR%5b_A5@gC`_<K0h65lxpcn4QWnk0VC~ns;oj$JMVg?Zdwjzl_6AwRSlSw
zlWpSfbLc&$@qX5kBl7V+XKKpSNf6DCE(FXiDvI#}93mzYwy}lrm7l&Pnn@dWNsVX8
z$99b}6uBZlNPhi#h!~rGo&un#&U6VG1^}Eo9j@OKaQsC>@jy0_Cm$sXaLaLa(=#zZ
z@Rl#s>g_$l&t@=~a^FL6R!l*hmOJJR%&xAvxZ^ye6#p#d<ENWnL_l)P$|x_qSTY(k
zj5^wkPZr2L_jCS8!eUcu+!3L&xyu_Gj*D~9U19PBM0T(~-KMWu^fO=(W=OL(-4I?p
zG#B9Q5yvUxMQ;c}ziTMaDo!kST%d8)XXe<NK_4Zd02~slSGN^kIx#KuG4PraT%&Ro
z+ZD@{N^YPIH1-nQ3l)PBeAI}qcY#Jqg~a`w^K&H^aH>RKulu5|GIm|(yWmy8Rh$U_
zTWAMwstCAGG|SbNg3C4>2(-BOI1PHLSPQjbRo%M_==(MOK{I}F$4nz(h2KI}yw(L1
z8~_|@GF3~HWi=w7VHqeKQes_@3Tq*wW=&H~|GHqd_yx6Wdlr?N^wX5ea`*L$cGG&H
zX5qtI<iq;~L-({3vq~ox+QV07MmrxqKf5T=6+#>e#J;~p@r-x;6nJA@{prxo;ryX&
zv)*;!IpN^NiB~dapB_AY91~uca`hqv>(c(gxlT{UyQ9{XQv_`XkCUH#2^@}^`6P^=
zrPtuvi;KncE;0v8{_~Uc1+&CzS>}*Yo)-yRrd*bhYT(0Lh0}!~9Bm$p-9d#-DH%Or
z;c8Gnel2<abSy2JpGM64h1t2_WXiAA-S)0dJoGGxMh@n3agLn<CF9DfQFi?04!4}&
z>cPT7)?QZPw|3bU_x?4P!PlkT8M|nk(f+iRPIw?8I!uTNba9&ZV!EeFD<z|A;Ypi&
zSF2&jbv_^Z6s=7m+;5x6Z~u@^h6kvB45S#d=m*n&G_VGCejDi7>6PT@R2x=box|3A
zNV7I4yJh(WlkE99ie~9QnIii@jJn|3p*i%Hn_+#9R>nWefZ`iO{gHh_ZkutY%PXhF
zlhxfLh1zf1KY-%?#w}&9X)V+qd|z)Mnd`K^p7A48H*j2c#l`|~Npw=GpEaEE)iBi_
zTw4oWDF?_-zXsaUx9uF!(tBxedhNWOywyjl*RjZ-tWH$bY)reghNfp0;(7JUbj7kQ
zl)U}NzVqt<Bnd?08EzgvmwO8?MnlJ@U2-HC{aA-f!8<xE-zXDTt=54K#-~Lj-l_|*
zt2KDme^{x?{IYI+Xb(Bt?nV9PWKbZA%k(<bRs%P@b)@h@c4XZ}a>aRHle7m)NA@C%
z`EVp$@E_jo;X@)G5UnH*GoKycA8((mW)k*%>#XVFB+FggTVjg>up$ttRc#t6`^bJ%
zC-@uF4Jsx24O<m5TT@7dM)zH>>UWy?`D*8<)=;<|!QF51sBQRK1$#u-WzA?Hvzg{I
z;%L0wG?GCs3a6ZHa%E>e^AdeS(JrESdUX%IOGMq)RXtXB?u<8jgi!K9@d&Bo7TQ&0
zKawEjaumrJff|Y0`K}D3W<d<KZs~&rEL6|xq)$(qOKud9x$T1-Ugs{qQg3lV@U_qR
z8GN%xc*iI57XC;?%uD`FKpV#cWd2W=7A#R+C6yRH+l`BNEOR$<{!A>NKiY9>=sWsS
z1yeAzn2}ee`BD?5k|IhE7ajXKX18>nJZ}2qfIxH-D_^h7DYWrinzOw`e|GgzZxXMQ
z4brC8V?T$-c4l<<*7+wg?vAs%Az}Wy1yhmby?ceGQ?(z;Eq2SFAhoNyi1$3>Z!<lK
z;_YcJt7`im62I6pUXiXWX8MsNO4y_P<zb|%BT&T4*F<@=G!(p=e|lo`lePt7EU|EM
zqZ!+z1SICTmu3C5OO!Y77+JQEegu7{`fy)JCh_GV()jy8rcd{+edKJ#x5#Hvj0#L}
z*0|pj;0IRr#rP`Xrcg)w`~A}%T~|!x5t+mI`Xe-nDgaNFE{*=SpxYLmZnYhuI})_Q
zPJ$-yZwVhR(WIZ-G*)kSTwv~+qk{$sF7bn#IYP-#eL85YGBMaji%!^kQpx8A=A_F_
z<k~hUqJ>s1NPU)+rEyLsVdj%i-D<f7recx84X4WjWi%bl`+}A+R=cTMI?aNST@Rfk
z{^C6y6~^EG+X06Etx20B5b<}-G#HK5fIMRqEOVeWT`m&va}J3SW$Vccs5jG)cK63i
z#oHRF2*0ea*E!7ln;(jld9C)(TeO5-yAhA$+@o1IiZjf~<kkgLcr{>JohvM)92(+X
z!g_<|x+YrGqRtFlZub#KF25v)!}o$+9wk5d(-fT0OPNXCh~A^$wh;;8c%QhqerEOr
z>ahuen`2K<Qqn==pk;;0c%ku{@of{IA@d#*rFmyqEE?~&6oPSWa*o@)_txrXKU{LG
ziE;gn1MilaYzb6#l$ehJm^4wo2;guQ5wQ1iK=m*4tjGC4=}A1jOc?I|5@_>JM?|!U
zmG$KMo;?N!&2Rh~Y>5?}+Y=E6Yu<3XyBfRvyfG*D!+N>T#q$;rU*O8I3lt(>pm~U9
z@^C*Q9y;9`ui$^JV!4phi#dz(*uO6ab@P<>$05i#q@+i^`9RDZ7jNh};4O93j6FU(
z{lN5Yhli9lv<-(SBP4O*Pp2t<^RkqMZGSyC@HY{GQ_-5Qo@=^Uf2dZiXeskvT$<&X
z9p#&VFsIegh2kgRT)F6p9{ZR2T;_cYc(*BIMhbn1mA)_P$j7<MdLq}?b?z-YB|mfg
zx&f*Y`q}AnAxc`DTV^pZ=o_B<JZE;)eh1Y=veV~ZyKs)i^FLmfx=r=zoJarpt-kMn
z7N5jF-34sQw8LW#_|qn&f9veB-}<O+GxG$yUTuVlEVOTz%YLSjMInv@Ii3pS0xU;w
z?m%skua{sgeU4tM;Q6moC*Lb&T*$<X%57#EN4AaX-M~ugVuspx8TXXw_uFZ7v#gOb
zPW{5}0H_PNNi`@om2Vcsq+}cpIoc3NDmPCdD4^uozjd|`=Vf`LHcs;Rv!OhRkL*WM
z_6;PZ1mC*EVG|hHY3P%{xnF0Eq#j3&dCSFfgf8|b>FzD|F<$FwPH7%10i0nXu>sr~
z3dQT5tlo@}3TdJ_%2i0x`ba`Bd*YdT0VH~q+mMsJ@UAGv^ouQv)-Q%nx<D5tO8|=L
znyR}|3~z>@q+~Mm`17L&a}}(yr2yh4(kWc{ac4BMo9!<o2z8WFZgu#&fu?HAhyGw2
z^#0~rmbjmnTKd^rK9NZEehcJQ%VO)70MYPWi@I`enOAw^fDbbXNx;{Ey`62wcG{Zq
zkc%FroITUkC^vCrxo{WgjA6+HUnDZEAMX+$Q9}j5TCQ6Y3wHZ@{Rn)I@P+RooZ(_e
z!RGwP^3;$pv!B+A$gOEkPyL3TW=?~8la_6uP|jEfnzdhcdBn(~p5tJ@QaRVnXyhN5
zfo#`wp1FfYnrzn3E|toCcOLh;z}-W(8(h?ZM&F=;1h?VFA=%z(l?2OM@>QgC9+jHk
z@0I!OiQgZZ!Fz3eABHaTsI7uOz{>ir0H7KB=Is}bdpmZ!{S3bH&Vm}GB=t+<;Q0aw
z&VM*Qm3CgSr?tJcRZXrkT1A*QeUJLajTLyrfj8DYYJCZIYHq^YY?>uh1qN(9$kR`2
z#9r0c)bjTUfT#cyukV@|xxpwGHAy%i!vA@<`|*I>hc?#JIq&l+OCuMM4QyYr?Ik^d
zun-~2IZaq~*AdPNGljgoIONaF8jT)dG;9_&uq}!0(u7tMM(ZO=;3l0>T?O~{mwXnO
zx==JXoitHr8)vVDEDw#jp|+{9iS6g@H0=W3_MS&0OSx8K5nI!O3I!T0O^MB9Crvle
zi#K5P;@Zw!bK!UpA`9e8w6j03SrY>b#?oXETD@83FgJ;+HT+1a8{Uz%j%}&uN;JtT
z(5DKxgeQv542rL^)!Vf<^l&}^8)00N=BLm3ckQs}gz(UhVh3pl8z=Rv-#X|*T3Qg@
z@xV^{+3dRMdE(wt`UKm^v(bEg_-+$5+U;%Id!@lFoymyYJN@<E+a(5dt%b09E5ZE8
zWiWHZhmONk%k_MDl^EoNO2<9s_}Nj8vgb{5(K(%ykTai_wOQzWUA}wpxlmlekEHul
zI0PQIn@5?^X93{m>xP@dm#Tw5ykwai?FKaC?a+ur$#3{3ev>Hg)t8g>y}@j@v())6
zO>3%2HtmAdpRSyIk6%~zteB$rx^19`kvb<UP+c@G;ek<A%bZ_oh^Q>2SX~G}6D|8A
za}o_l`d@ESuZq6EiGG25`}CWmn~>X9oIw*x{*WAwODWu+vKDZ#&I_#~jHYs<?!DDK
zb2O^{NWVUig!4QNUNIovI$AslsrJxXm)Ppl_mtnRnYr=EJ#Er^Z_UA@{AfRY=IdDX
ztk0~;#QHT7;Zk(31nTrwVmBBq8Z%_xXA#=~K>Fz>%GIxVs$%lpTANtc0b_C%(Nd{T
z{MuAAeePBTf6Aa2U{X$GtxENr!M%-5K)vdCnCh}ItmN5zQnH%&IQQ3Lxh?AU+RVb{
zlK{MWLo|webwMTN_H&WH0^7l*!r)vN1LIG85NzWY#Yj_57!KLgX7(L9pi?%@mpFY0
zc~DF!7m%;WPk-wLsZvUX^LSUpNMy69?I|n_HC&T9S#7!YlUnE2d|ltbY<TS3_Ar$2
z0fj!ed)TsXYyp(%!^Ru2s|-DlJQ5$DEyJ=*;srOu?FdCQG|El8Sv~E&V!tbR;bjV=
zyoKFAKYmsFt%5bpRB2)Va4fUwbY1TOXAQWwkfT2q03+R_>_&LPXPfq4{J(Q`=&4A4
z6jf|7QM)cBt<!8=g+3q9Fu214MB|vcebV>fp&v@G@hEEtQcx%q@m4?upg;IeTyqE~
zAQG=_w|f--JA}9y(i$|n^HBv4C0KBP4W(#COAPjtU`+W2#pScYE28`#mtqs)2H3c%
zj1LKkMQRA0b!MsESQDc<c*XqGp$)2H^D8W(gp(!ufMVQFYdx@k=-~rj{DTL62SX%^
ziC;UkSpW*IxCFp=hP_<iYB%|mh?Ij+x7^CNbg0wU+ZWGiU{*>Z**;KuH3N&CWbNA*
z!5a$|oXue!X0A!$cukzhX*a{b8st=|e?t6=A%$r<Kv&3YHWTi%WpW?W7IA=NP77W8
zD@p?y5)RSUd{TGzpSz`XnmF%uRn)>4?IOK}ir!ht6irs`gSy@(HJ#=8C{a$+KD}+c
z7WG{8-2$j`D#iHs*~Qj-tdi%u4;Rjul~T7r{F;TrMob(Wixo<2E+xUGT}0d~Uk(v9
zL#qtR8$z=_uTZr^u7<=62+_l{3bRfdw+jc$*;yHKoLx5+bf|E@>MfU4Z?!~z>s1g*
zgs21jl8M~oSqjVXabjgu5M}_BfKNe+!#7Q#vx;HUhoNE0Nw^v<=5T{{@sKU?m3tP4
z#_Fhi`Xu2HTuz=>3H?UOc<^Sw$JS2{4>_nP8`gJIq(f`@2JcWO8n6_E49!CGL^)7@
zsW^@6#m_!_`zO=<UIIiE*PLHyK%OjHKOB7*5+}cHpf906+7(+UF;d40F!M{V0U901
zW|)(D8?otTCsMgg-}6`<H#V82M7RRw$n=tnc{RpwYx7QdeV7^+Ge;3C^L09aT1rGa
z(^-e6bX`IpvP#*mh$U>%pBo0^UJcOd)rS$<ii9XrpGn7SXMYdbw5i&vklO#DR`%;{
zl#n)u(0CCpUh}zGWx~!FG6``C@d9`=KBbodr!Lt)1Ee;aoue#rgSLAUn`wEiHTH$?
z$whMgvag1NWKGov=+o4{J`;!q@{0t5aEeo#nX<RJaL-~&K@;DYW4FM7lER8Uf%LT)
zJ;JG~8BOI>;idiUrfLL)Qp75-uyEC+spU*i_kbPDOD*W`TSwzYnl@eq4hLV*-Jhtj
zriV37b?HL@D1UO)@O1C{PNeIgq4v%TW~b2)zAyu{%xICm`3ix9{bE_#*!~a13}(3d
zZsV-#5C$~IaEKtKYPEbO2#@*^1KD}XDrBW(daw>eINq@B+dgxlI|ZbG!#?NZ7pz!%
zA6I8-QeJu-^~f!!CPyaK*nP~AbYgw$bH=9;Z7$BDL4WTrNB@`@K!M$M4{}3(M*|6Q
znqO80Nl(SjIEM)k*s>4`LG!Q;16yT6V`zc?LKqFJC)Fd|l4JqUX!8<!=qI$PPnlU?
z#C<0M;?U$Ua2Lim_E9wWQ;*YEVT>bffIwY?2@Fnb!4vdFFT6^}kRL`ziZtQ74-)q}
z$AbOUm^udYj6^1LFnt$0qrsc>-e<>V20^4;M?PXgqGztxi0(4T(n^JpR!`n%SNr+Y
zHw|>R_SA#wF&3L(eyO@AOpWm(i2^7$D;|*_Zolf_a@%^*j`0<cCQG=w!Gdlw<!`6?
zZ7Z;GM^@v$c|m&X`Y{`Mn$tCcgXb=ruX!caInijOBP{af`O!RVGY4ut;Ol38$+1_0
zvqR<Tj$-5@NoOGj6EZRq7Im)ZMD)R-Ou;Y<c740PQiRcB&8$N756<J{4M9LLxo6y+
z6BbQP^W*|Iux1JfzePF~!QLlH-*n(C<<0GFV94Kc=nREc)M3P`AZz<yOtrswS|XH3
z8UUpGcl(1Dm5D>Gt|x+<D1}@V3$*eV_qpyT@V8g>B-M0yd!DNzI<1^e_DtagLI$GN
z{$%I!9sFnL!=~u!$XTzgd&2z?Q+R5xz4FQ1cI9W(d%dalpNDySUtA;XgNkt?yiwE5
z1l#s@L2WW&f?Glb6mguoOYXr@*&o4G9$~UOHph^*oR=W0+6jRBU3`7>@I=0$Z_l8G
z(6l?w*1-1Nb<!t<Q^cMlYx005;03VLy>(ljrxuP$GASi80j#XE<|H_ZS!MN2V1vXn
zQZ7>`WjWrx$)|gR-6<QvR8+;kSjpYxF19T&wDnEANjdahic%ju&ztiTO};?DAbj{P
z-#$4wvNpI~EDbNdq8az`p(K>V{_S!c!f!mmnx}60qDTGbM^hqx#@|0a%X#{`**I2P
zK5WFg5&L?oIl6<M5L_}7-JJ{Ig1d|#PYx1o)xHns8Au&qI&`RIN^1(3Q~S!85uCVs
zcR()Tw_2|Jy>h|9vBOOVLq>@o2Vs_<un2N2pa5%11`lO&DE(sJ>;+$-5p@0r;(Z;z
z!ue`r-~BYMj_p=hVL+Jd1Agyv>k$NKtvq&bgS)C}-C1gA{g|y@3_Un3s+7o6IvY+v
z{Qfq8L3mmZEb6$*z20rdm?Y+`Y>LwS<fOVanB|Dw8OxU2(iT*xG~{Qwo*F^VtS2<E
zKgg+6Habk%FtZPr>_%1~j&*Bn<73UJKOZ9ayIymrHx7B!pCWQ|+y<THo3Z#((ZcbW
z>)YWgPhb5do%Db1dk6oELwwzDm18X%RwCG7i137Ue}&UkMZR#en{uYKM760LV4J>;
zact$+E5vh*<H4G#x2)#gl!p`eAJVP81;ot?@ekc_{9E`t?&+(aO!Y?nYF@k}c(yi_
zYkC|UsaB@OzBYkoA8=L`a^1M@ZYZcWZ%3lkz&&Pk9<ab<I`qlV%mYI8%)Nh?X9aG!
zSWyi4<SeJ9>!OpwY`oc{NlmBnu~sf7!+A7K=eNN}i2id%xMuqjfLc1$UC3qIm8VTm
zt}7l7DBb2VpUXrxj;<Yf-4{)q);xWA9&JRwxVy)jb>SOMrLJAaUmI{u2~lY^^4fA=
zO~#|y8$>3&2pWi#^1~t23u<!TZMj2HQXlLkeXy+}8TOs;w^M9wq7}!OH>eHK`@QJC
zy~6Za3*t-q@Vv@`^-eBcmL@vu`Ny*RRDQ%lkke1o^7~&<tfy(*CLSeQLrnHye_29W
zi#J~lcVi7_4KF_T=MdV{z+Mh1M^UB*RX?4dlE^{r2{SjvQH!A5ArQe01vrO6_i6tG
zw@ZZiLM!1cH~kG(u$BM^q7C^xAV{u#tRAJ9p6#(K1L2=?L`B>Zyyyfnu6tB;cgV8m
zZyaXnjwxequeU>)WHXtH7h5q`<`i0mZVafdc)1rV5L!+jX$tMpN`hJo&Fb;5|K3Qx
zt@=c?z7F^M1sMMP2q(NXV7b>!>E5rxB7I~-@r>1sl`Cs_92;WTS!HykJH9>V1Hs}i
ztFaQx2K|O*;ZAE>)b5Ck`ogo=Yz6ISyx%)c?=k6ziZ+H8e`kTHO2T9USeifPFq}Gw
z8*(Su6C3u5BH|wFa1>8AuJ0?IsxgLiA76yt^_f+mb1T?q?@8q4G;s+WP2#nEge|)I
zc8Kg+Id)1wwgK9#+!~oGUXM2{6OhT7WIcFC`)`4O-_J|ov+E3h-*0iQ@dw|Wr=B^=
z>`?Ots}XYDmaSRw7ahupYK$IxCUk|{Cx`WBCeL3ns%+_D;*o!yh=(0zNYU(Q+9G)F
zd)tt`OZyVrj23lnB(=>0fF>DNZA;JDk~tZ`=*>0{Oy?1%nZpxk@`DcVNA#cEsCV9?
z1(_+`NrBQv{2>?L*(ZVOyX?(bs<(Hhg`ZxdlyzU3CiDuk+VSvx!fKsFVs&G=_sQ6>
zXqvcx*lPd5i%3m?7^^PQZ<uj(BiGwJSnu9zLmGCj$KC+SQjfzRmVdK(wL+J8G)zcF
z>OV3xpstpuwnPBcZt(22&p4S*VS0HKf8McjdpojgeT4O$2jk)T2tfrr#o2v*cHovW
z>H!+9qO4?aC}^~sE)mqUo&l1YjTqzahTKyc;W0Y1xMWQSwyQSAE94q$cfDLfUrqys
zGWyDt6=@2-^ZETvZ@B2ZzCo!&Ss<?!BM^0geBZ9zc~^05W|OxQpm=866qC*i-!|ah
zu^!Gd#wN&YM!&EU(djLN@vTan@h;E4?_l+W8rqC&#63=ANzBPVmLNQxuJVQ_3*G<e
zb)UavcBcUrN#Fjgn&0Y`%5rZ4tL;Q(L{N{wyI8><M;V^K%Mg<J0LA!d$#muSw)K^b
z#Jesa>N^E=k+e6iEYbMzJUUU!Rko$EKs6kbj}#tTH!oCknaT^~qz<O|h%Nh=-Tg)2
z9bVzKE$WdzAEH)cKs??ewg>7)i5$0t0<`JU&*BR_NY=|QSYexfJPiBXFPONbErA61
zal{b5HVs7lV$z<%%P#ZeR3yZklh1a~pDJbd2ZBl@sWA?sBwhUcV-ml8J<5_6=ytiw
z2juclpB*9p<(<gPt<8t^M0>CAGRiaXT5H8VUADb|EA@BGVuRryzD6_1ZMa`Q?^B1(
zuAw-6&Kn0a!S@F$Ri8GkLiV+R{t*N$f$uLedi2Keh2^7BL+bm#6MFn92qpwWvq8%R
z%Dgw7N8>db&v}uTCF=-<SHH<~mPcicm9V%0Dwg}%Hxs*Z3?Agih^}6gHJT4%rvRls
zgdWfe#S+b=6g{EBUrPA$(9Z>+Xy31|RH>2_KMNJ@Z~J~@_szlC$v&6q`X`5!56$`8
z8l*`CA-vaAfi5fEn#HjM5GDUu(9TfK8GN_!Ioh16M!(iVF0WcDBwoIA@SX_}C|pe<
z%<&-o(-|K0Ere*1fNO%M8J7FiuExK_&TB<<>Q~MWFg=5gY()wi<5HMBkJcB>mw@_*
zTC=gz+KCyBfa`{PUh2J`+4TG5!uJbiG}C7*N}?D+W@E;ADz}oKDK&a+9DjI;7GZlK
z`q{AbP1%A48GLi=NBInAZn=%eqN3MkrO*0bB!2@t(S;opqy4W;$N#yw`nOMKe9nU5
zOJ@GMhS{%2<eLkyOTZaUo4%;#k-|cro&6^RAQ>={D&ip_u4q|>=;9%Arx!Gv+6{1r
zW%jaQ(GKS-F?Hr0YmhB*B%G8zv153R8{OxYwokVjzic;FbK<r&#b`xRz8Y}G0Yk>z
zX$!h!mS6D6jC%sWiV`Vu)*YE)pKT5(|IW`qg<b%MBnqE)#LJ-rF|A<u3m&YF%NTg(
zX9E#i^8DvP?qX+>!roHvf_?lJALQ94&&T;l8S2~nr~>2fdq*?1ZmVTah7>iXnsm(_
zMZS#&O;3Xx--3a=j_vJ#%OA{N=vK>cf7+SI8$u<wvl3@p{@v&+sOh2vvZl;~U*@r|
z)zI=jwD(brIkepH+V#Z>(#!THAnTiOHS{szZvSL4kQR!2`(V58fUII8zK=WYd4RBo
z(+AvkKnugbrahAy@O{it7+V71DtAV{>yPDw2t5k5`S&3)a+f7Ay%tA(YVg4wxmd33
z29=I$O*NU)=tty_M11D`ds0Q<Ve16roH<26)1T%+G9(sx3Ng7*z7H-9w%Bo4DG>o6
z*TBAg3~WFB_Fq)Ljh`$5?PJ~Q7hI-Yk32-Y$)0)aW!XFxGqE0^$>FuP2%{XIZqulO
zOjc9v<(<rPndr252b}mJGm1wI`FLooUwOz#Y|&>R5TnI4V^Qq7T1bwA`}ZLg(m|Bg
zyTUEsP65pYrlC)n!#!Jg1YOgK)LsjucH+0<2k2mNpPS{8Rwk5`DA33wf~<wuxo7DR
zcu>35doP%Mn-L!i+JKLNrKLm9I}s#2n_Uax@%sfK1^1{hGoo+sTTQX{NLcu`&Q6}!
zW2fvJw+00$*`c?Lwm8cLSFzvbW)Rlu)<8z`1=2j>P(O(66VRyM0H?O)WPRNt;`pQW
z$o9%ZZvQX&F}y4}Us=zc&`?2_iSrV*ELkH8%GHqu*qGjpQ{+Lf0c4Zz0Nkfd+r57r
zoBC+mU}ToL`D|SXS<j)EC_L@GR<2B0)Q;5dio1n6O|GUn*+lLooj|@-cyZYTuExie
zmdG$aB0On`e|_F;6urVR-F^B-Uq-i9KJwu^8;s}SnJC9oe*6A8qYT5cbdnCJ$}-$=
zV_)MCyl}|x=}~3b`m7FmU|^7<^H(lpT-!>O`(&`D$n(fc0g&g-x#R<AGKPQFOP5I{
zmDSJ(U0i81u9e6KQFYy(d5f|Hhf_B-RXY}6iZo9)D&~Rr&9gR%gyd_((r?n7#}*36
zi{TNTOKQOk5H6p9>`?B4P}F&B?c^5KUVc+GCN^%@4Ne~3O`5tO3u}}yH%{VTVw_r>
zU*A5^yQCJZy*@<c+iT}4$9CC6-&h>*MwaF9$;Ui8-OCYsb$}UN*aXUQG;DBPA-)l`
zV)8L@KfEi0P|hXHSG;@MOl?uTdqZHKs-fOs!*Syc`N7oLwL7Fqo&Hs;UZm$UKM2{}
zeGV}TexC)9hRQqNPNq!kD^Lgy>YUip`3g{%x+j9j7m{5+l#-T)j0{hwd5RDoqo3mN
zb$B4^X;RqgB`5c(S#$;adySo2JefX|r2@=l*p729=WoPElzDCInQy7Xys^+nacpcr
zMvm`N7J%nt@;=v_y~0eX#&)3{O<52Q`<M$YVW;sqOIJ+dQ#Ak=2b>)YJri)-YJ`=z
zWtVJ$;2#YpzsW5uqLH(_CpzZc)MC-Y)3MQuX@ACIqD-6uoX>H2(uZA7*BiG-J1y$t
z4eXog?43PE&?B{~0TyB@OraDV06v=Db>wCC0g7rfyWU?b0+P*e9QMs_wN=Q~qTZWd
z01bU^EzS$u;z75mTouVOCq-V?rnU4=+me3*v2tIe7|yQ_2ql%)?ptq44vkp|xC$S5
zVJo*IHDQ^=r-z5=s94xJ9pW~P;N5aoJ;Y@>g~ys)koF*u%*fHFZv%7Nx;<>Vdb^Oy
z;JSO#=c%Uw37~A%Hcw1w1{*}Pm7@Qz_O#$HSZ*ZZ{U3VG;ED8_g<91DhVjQ92!o(f
ztr87YzRxu$Z9qY))0Q7-1pSDfDmBWaYI@n^X=^!|lVU;Cra5|X)Zn}}*n86!_Lxer
z(QJ^xwnj-Xf4n0yb8#&fT47l4wZF_hX6ANqveQ;GTeN#me0OTsF<RGUwcm)3KgV38
z`}f>ZV!gY*TvNB#RzGoliRMP3LVqQ{S9&TSM)`@3rI)F0aN6Xx(ugD*`tdHoZFa14
z4gQ7v*{bc{H}G;Na)h6C-N2)+%HnmRcvlE}k}S&A7He&ND>Gja?_hhufY90qC}e$I
zf2a^w;;@k!ZP6Z1^NMM7@FIuyu!=h+(`b7JViqWOpA5B7<1NE>JYj%%o#?@3U^6~E
zU9>OMlfbLv+~)@fq{T0mg46lFtGd^?9Kv)e3VNVIN@q$hw$>^3)C2HnZm%Nt!5S_0
zc(*t1vsS5gKx#)Xrkud%cuGbG2ELegQe=Li2F_(vYL9&QMGZZ&t71HAO~ixF7s7in
z4>O7XTG14j;=|JE9-}nkFp)C{7LQ*au5*F=gxjr0=O+|;^$37K<+iafo@T#qO`fKj
z*&H7(O8z)pOiLNSKlTl)oK)d4>~GcRZ^e`I7IshCBZ2gmW4tEev~f~}n#UePDOK3O
zDzO^irY3Eh&-N&yYn;+gmWpc*)<-0AlvC{dZ%hgklBF+QDmDTMYGgD?_@j$X*cx0n
zqdpMlc9iJX%y#UK#s7wDwMZPEP*s3=Ix~2+Hps}JUtj5sswE%FaZIHh8)1%slOU&8
zM%d+kNg5#B%AICg#6s$h?l?_rZl5OfR#6j+ZMTT!DkeXXmJTPU1DIg09`#|o49+TB
zmI^cFC{Osvou-R<mdMxwIrWoIH2m^s+35p~ho1WSf^HGNzSG=<TTV2eLPR_U!!et(
zODw&=vL^Keb}MJwJRAH)!v6ZFC4aRyVstX!tP(2Pc*$XcdHh;#6>1kUwDf$Yg}JQ}
ztv3VOyH@}_p#w^LrS`?v7@dX#s(27oBa3?O8N4}W2?m2zN6a#x_BYRh?K=Z^GqZv8
zzL{^gfK4yY_tV)jH`)1jq5%)F<d4dCMLm9nV{WSZ@PqE9ygY8FX?DDsS`Z#)oWQll
zEM!^LQmI}7!QCSpWQ?#qI~=HVGK8GuS91FWmUb<%X}7Jv5c+E&SmXRk76j3Kh0TXQ
z*sWTn#80%cm~BP_f^7vd?q%Hp!xF6$J;v$!!zinff)1cLz@#_P#g)rM36*KjQa2IL
zkwSAF5TV5{L4D36r|P!j>4U<%w75T}#hqj?Ubd$IZ1yzza2~zf>oc)%lk(>*4wrm4
zH+;APx;fFb=na;UAs;R}iIIDEP(a|UQ8`ISaa3n(KT?nl_NnjBQw4eSWifkh)m`lA
z^*!~A<m|1os(;At=`9!}u|Ax?c(BGD#bbF_eN1hA%%^YKAYV<&a_ab6!`4Yq*b7<v
z_pNF~;<U@xvy>AaFQ-zP|Ir9c^cIIhul5n%ZR*PCZ`1;NH6k$gWhL8N7^eL6j0d&{
zpS1vjnz2D~eW2xhg85Qk1dz6}^DnM#!Yd+ON|=?CEA5ZA$1Ak$67O_hp2kpVIV3y!
zIDyfAX3ABhJnWt(N&vK6WW%*jKq=<<;y@~og5OSdv?zg5VYw#?P{-DBO7{28daTN>
z+D^K4H8-I)&+jrSS~Nz>lUB6!Byc6voDRw4f9R7*!%U!O0(9W^&Ij*t*$-Zqn{=AQ
zw^2+DZbPV=(r0Dva~M>{!%#h+>6%D*=!<!R@0MSx@oXw)8x^Z$`cj3=1MW#tKeF+b
z=^<yuCw7|rTwT&qxFzP$Z_sis>JAX0D3KB$<c&o*#k{~{;|Uih(Z907>o|NzV?nW^
zF&BqpI<Edjr0nMu%Z(NTce%fvwHP%5%1jfcdIbic4~EY#KvDE)v7taZ)M^WF2Ou(^
z5FQvlu`f2^e*W=&`Lv=u?^y`UCTt*z@#7>_GPhVD(7oT@r|`si^$8&6NWCRkX@60^
zdKAy0U%eJk*{ewn-cTLOKyiDNn>d}Hc>s7yk4KDznfEX?`#IWkZ+NIG%jY7TAv9sJ
z$QwQR1sg8f97jNXto9EC3&A=yYiW)xHZ03t4e&y<zLh4D(F7C_#kVqWxCR_GQrc3s
z_yK)aMl_j>^uU4GX<Uo<bZACP$XZ8E$K%r`Ljdfd?yY(g11vfq6fHCKvm;hVG4ec5
zYh>yz@mBpUKlB6Z(|*Ma1hTh@nr%QS|ER>Mj=NX#>uGhfIYv65Id!wilbE=1@393F
z%go!^^R=I4AsR3P&G$E{EM~P5xREWxavr@&20)+3a1O!Xuym#jnwGQ0NvJiQo`|P7
zvL%Bhjt3HDKK@pXX)Q@7m9fgBO?vjHXYo+sV2-VjPLpSG3=0U%fdlt`e06&?P;PoC
zjOVYcrw2$}Gwez4aS@IkDg<1^>v`EXZT9LQg_H`nK*EMsYVarYN2fi)C%)Wl2AfK>
z2;h3AoY1GY2GZVzar9@j$;bfWa~UENfF!@k*~f67Q@^s!nKyRu^HZ@-Y3>gdx9QLK
z;p|RZ$w*o3X&E_?h^K8u&tiYQ7?tW%({*QE*e0FA^L?hs9Bp#pV`A>clf;G-pi9YV
zXO0dTA7=H;>isPwg1_}P$j!~<A8N(liOHXgj^BevMCo_%YZN)ufdgH#<mh1vU4U3O
z<^CI>0S!|nZlel2JQmQV5upe7TCv|{fosOHtwy?Bzda8j?KSCdm)ML~o+$!xSPXR5
z^VyzCNQY6Hj`0Tf*MVdjrmC#(N87DRto5f?=#QP;xNJEgb4B^;yP;Lfj6Jx=UQm#6
zEvi#|t`%u{4ibtFC{*cy^Vu5kfH;Ta0TF?004{uT*>S;#6zvpSZEMKW=Ca=j^!#Mk
z6PT?on*Ghc{g-FL#4#>trBcf9;^$lk>VU31{%nw_mAci{cir)@T4vQFn<2Sx&dLG9
zW;0km(eKtM34uO}N&#bDdrOmhREH4{ze6IcgpPoUvMOyWLzk*=7su}`{huQlr-&Eb
zqWvalsr&#K@ltK}3RL(^^*1Z>k1kEWM<l_G+K9{@hVlR5I0Af0;3$E>)x%|r-;U$A
z9_DYx>DzUn^j-Fg&oS!iYyLmIjrduIpx&ALE`!n6<0x8hy$=-ewUQ=v<uo|{nsdv&
zNlu%mN`Mpu;e`GX`o?sw{@-31QLXi5vz=@rLnHy^H)6<~%w@j!P=VH9>RHrd%ZJ3W
zwRG_uhM`5%z-@o~rGLJ2B7E_=u%PP<DsiuVCEUSt><wr>W(say4Zs*)1JX64>#Hq{
zH5W=B-d=<b_*g&s_m@Nj`2)yD;yL#C>?%z>yrjd4G_g+YKb`AlUM#=-*MY@pJ#ii;
zf0bPk?yr;*-1EIm4kfF6aqs+^;lWhcw<iQWl&s?WyH5Vkn}{=fmB4fUYO*Xmr;Cq?
zlc6qt(L3M+zRJ8qtUKO!<9#coRDIl@VPWCB6RZX^ON)3!mj0EI{=Fh;eZ^x4fYy*!
zlTKAvm7l;tJ<srWw!^S*j{NJxOZtfisy~qWQdg?*?-TroUkauJNM_@X&^exeKE^+G
z6!1=h<u0!ooSxJBAFlb|z0Ux(`0;G*2QH7UPY;Zqn67hPvhgrb9iTA2N%K?<;564X
z;ayE^4vQVCC+mpqt?3(!T~}D|hmZd)yp_+bva=@v#Aw<@a#_!#LV^GdAJ9=;pQW5K
zG2O16((n}P2GHLVeU2>}2b>1ARdpE0K4~(%N|UXGSl&972nz4mM)1qmIhisjC0_K&
z32jW(>Bg}evH&U+sPK`6&L0XuA^o4FM$u>0-T_nfjA~nvLD_&5_m5U-^lt9PteZGc
zZ@E)&0$`1DqXn9BvtIkCrxKp|FXx}iCGmwe%!W}lm@F0WUN+(8YgMV`?Yp=gyxMUS
z4!3iCTC@PuZ!j1|A2nQ_{l%(T@Mhbk1L9r+0}dkc=9dQ4gPixe#8?3t>yb@d>Cp-d
zeR_!C^7&#sUS%D=2#0F3il`d=`W~`U<)fbfoWuo)Jb5*m)ZdX8y{ePG`z@Rks0h2R
zOaCQ?`ip}8&l)8vympDozX(s<_K{2B(mCem(&e$=Er;ZttufOG*j)fM<)v?(>U*6L
zgwqhOkva<c(o)Y}!L^A^cAdr@ZNRQDFrnei3+dZbf{(Y6VBJf=3#&xf&^TBJ(X@N9
zONEHO@yD!D^j&y=W<-5}^lpG=DaHQ~Efw=x4X(7ERQpKE^7wS;wTx~Lv_{rxvBwS@
zt3I5xmqM;H>buK8ToAQqf7K%}ax?zv+aFzJZ<%dU$SuVsLQ)sjhRjV5K0_CQlf{^7
zqvZRNMQ!_bqZA*AO(b%>s+AOUU1xfC<6h~c&3L`OC<Wh3RxS6blAtpQY&`qs@pek2
zukGpE1$oYp2sEcbBZIBsx`mAGDz=Bqp!oNL{DqBO8J~;jo0JFnB>ZEQZ&x^oB|Cs-
zzR(Dbe6{yevHCPz2OzSO%?BRCIA+y$lXSVtDRI~K&1K&otl5BHq4vj0=;aI$Qxd~j
z&TDu1h%WU2Txk~#=_O^B71euFAeY4i!78uRT=OO1T(7R&HtC-r$Tyt8=JP#uxLI7L
z+}y!<h^l8+@HvV!oB4a+zxwN7Gd~L&KcbGq6af&Q2EU<8y5PG^<K17TY8BG4FA1Xo
zCYF;*u(AsLkwz?a_z8qH#zzs*E7OwoP+YW!QMu7DT8}<nE<U=xb?ASx-(8Xd-iX&?
zQb<(XTk3v0sSoYeF1iF4_A=h{uVYZ4<%k+jH#Zo<U-S(Ukliv8qX+*Vdv6&Q)!K#)
zONt-@f&oYf3IYO3N{@(iC@4s)bSqs$hzdwccY{cbbeBkX4mAu)%}_%RH8byGZ)N+q
zpXWWk<M{r*KlB)2&06=m?zr+iua8~9^HsoZ@Z3Al0+0;$TXSJ^t1Vk7EX)it12#E+
z%MptA_6diEVhccErnoJHVVR@Sq{U#ufXJ7s8wxh_@z!e=5o=k~8}e}jdi|XAk0#2G
zcrBnsAvCwc)jr-(W#O$K>deYd-~sBU&XunK#TS!SD+3LMb;m<NLbK}iruy+B4xs{e
zWAZ@Zgq<H109%MEvUB{1Iil!_EMKWcU(u`$9T=Ex{-Soai~15%EPw&;q=&gHWy<cJ
zR2xk%W!@)az`MIYM=|Y$y$ry{czENP2gi%4kDW5f|3kU`ljRH8#do>sL&<J?ZLqSP
zT{+Gg?gcqo)!6ErlCXA<cV;k%g)5U@<K`8x<T%(~D9@yl9@_<1#v-O>6Ic-Uw?Tj(
z-QK+};T_m;3EQU&J7HdMW&%j)q5&{wSLx!_q6}6N(|&DcR3kbjzsrm9-m8s0Nvw)e
zCekqlf-Z2II*!t6jH@V7ljDhlRK1>4_`3f(yL&}qjRP=>rA%+ULkqg6cmT2UtcY{W
zBj7!YYR`od8+H2rtvxZE#4{<E^&}PkGRFy0msn}jvX<-oThdCQs}rkBw$$<iLt|OK
z2|`9O<jja_PfV}5hqodPFB`CwO2Jz=`saamLwFJ|rv-0D5L3qR=vqwe`ZivcfF=lj
z?%MGNq<sVgQEz4{WIh?pavf4H)VZm!XR97>HFU|1m{I@}Rg^27$=HTPnH}sxMYeXe
zQfo9gkn$fj3&lG4*%o4QU_*oF56gR!;7<Ic@BUV(O)#1Pfgm9GCV)!?PKU)8$w3XS
zcU}((@Y~-p0kNXKPQqcf(6Yex-i}@X9W%40@qHhU6me@tO_G6UL1np1oiWp%U^>b6
zca=-odoqQ0ys<AuUJPxNxfjQSJ-|cr$i?e>8W~7WOHIhjtwFm8AR?&fx3r?j8TonX
z>j7E%@(2>B1<#<qZbg~yv~szmoshBtvwjwNuvp8tcm!G1-9+sm?G#qxb_8C}&7|<_
zES=jwLK&%N$lT>!H|f^uoC}j+IjLBOrb^Je3%sqp`<~mJEeCMhCr6ZuG?bD#qpb!v
z`HN{)(hM8AT7z)eA2tQOeIPb^PJzm27N;9C6)NoDChWO0wz7B3&)k=DK=>W?H|*<d
zE%q8MTFRR&+CJmrt*DdG`3|7OKHk<=?@YK^YURQPe)1w-#HvW2A|DLk-S+Mk?L2Wu
zDaCTWkmIXzF~95>`j+!4=j3M=3Yr+S)K%jp;ZMekN&^|Jw2l{o7$rofoUnf{f96NN
zC>0&)WdB^5K!0h80$g)2-AJn32k}Sp%TNeCg6F~Rl+7LlNsylist&Cp%LgzJLwo&^
zVp^XZNUf&g#*3uT$ZHx!8B%a0ZVGV3uWR*~%O$6NE{TssVvihZYNpH8R6_DHg&dY@
z;1bfK&`xtYS#bJwW4E5;;N_^x>PN()=*T?@Q?K_1rS8c*H9^><CDLyNx|IfO$KtK9
z7&aBUP78JWv7)Cf$4Q<ZHwtP8+uwv<GccEZvm8VRKs8FF99BMQF?8lZbI~e>I{|<g
z(XV$9cenB7briyxeZ%<ENPpk>EK0LQgp>dr)R>JID}6CxNBC*4Ok=6?WSUc>%@@44
zxhbDHq(T{Z<M~at=mcl;``+Doaf}8SGA`C8h&ZqvQ9fhWSB>}~Nqg5bfWdbbpkv5w
zRT2O{e(K=~mE6&Q&*r~a)?fH^aC4;3YxVOi|1`dW3gz?Ec%$@J-|>g~gZBpxuInxM
zQOrc>l&4na1@6SkGnfp_!u@X@`molYV{wb2;ZPrcnjCb!z!~fl&aTGO-@C>Ot93@b
zhU!<_KNN@?EpF+qP;KNz2{&Hr2NHFvRRz(dJtbq8IG;7uGm!ngF9=!EkQcQQL1j7T
zJSUGm=MJ@Ha5(<img~+}0Hkeo<{4?`rPq+X!PK)S6(SNfunSwL>2lo!0UIM;bZ5e7
zPruu_o&abupE2SJ-&SIOR!>XzI^Dxmm!qkOQg?ialjV}I&#Rfbd&4a~kFy^d=DdoA
z^wcS-;t_(=W)^mZVGdH{fEk#y=rx3~nJ5`$Y;nNp7}mR+9D&{U0gJGe@GhOO`;257
z+;VZ0Zo361vqYMB*QO3bt9x|B3Gj_X=k!iZ#yah^CIKY`iO;{jjC^nZ9*B28{K!_1
z;je|*5EKr_27DfMm1R@C%1WfXto%=<&565^+@ybw8Nk%cU^WckFS}y6gRY6#-}tJ9
z1Ts4p^pF-iy?Kg@A*Jn%;2R@eOYwmr4;B}oQKE-R4XP=toL71iUtaevwlCkLt@6QM
z{A^d~rm9|mm$J83+o4fzH7>%|aA+E(Vwh$38JX2jr$-vkf@lj_*-J}Uzt!W+UtM}3
z0)6|$RwdlTc_^vKT|uBzxCYWPFA0oBOPaebt)&QM$K*&4iO~IYOk|#bmZr4rWJ{y@
zSihIu7G`B^;Y?5;5d6@m1u)-$Z5$w@g$DIw#0R@XgxugGFLSB(V65WSQomI!VB+0Y
zNhpsN_SlWqZd9$avddpd+!JNe#Nqj^xg8um(2%t}@Y;!W7RYXFD5?N0dD-tmQ(FM?
z6(K0LZtgS1!9>kdhs4FlD`tI3T>7<*CSC>x>_Fi(RY|@F#t-Xfz43g+r3J=%ezJb3
z%M%U}$}3e5z=}KPwmM;5YM3fcv-p5{@B4+wc4_BatziN3^+erh?#=lYGbqtDiNi|k
zyLOKOe#W+^CQ@2)fgxmxo>&0s>j)LAUszagk_O?6Uc6yUE9~|0nsDZM$0u)8pGaW6
zGgozSCuwv4id>~wRUol#9jiZ;BI-6t><AQdn5*j@*g=n6kM|XzIeQv%+yEYTMn9MJ
z@n^04RRicdK#ff}ksBlY&Vg%--z(%l{5#`0t4gTHvG2%~(tRDBx4ntD_UK`d1Pfs1
zuBK3TjG}hp`Tru~w65+_pX;pQd%Y!~6?wD`SW#PpP3h_YiuI%_!tE#--3lkrN|u{-
zh*TdyHW!6vnNNI9rg8gHfElTr5_4WQ4a;@7h&))<J6|-E?_!9YUfA<g*2!%jlg#hI
zX_X^Lf_?oYi<h((BNVr6;dpzv%E>(d-(dq!7IT?0LfqXIh2k0>C)Ri2N3ygF+VAWj
zhqr1KEb{OOv^GFuD;*<RVs*w$=2l&|zz+KTCcX*|^PD^m<U3W0XhyqkmrSoO`Pe?K
zVd4oZev7NS&DHKJf=EdTC7bQ9GIQQbPFn@&a?hE%ri`260#QY4;69A8EH7eOt>MEA
zHCTa79LYg;xyQ~WJ1;KjLj^K`UPS>JpCWI#_c}Y+(I(%5FS%z#Z`e~%u$c+NIDj%q
zK2i>vL9a`|i@RYpjW!rS30gxB2>#>jHDs10rrhCvjcIKz-T%C8?ZR!v4C*F$M^^K>
zPIC7OjE^F=%nsxxgy3Zbb|2tx_3C?Q^lneT+%CzndZiMz>c$`!#uz<f>O}^fiWdEx
z29T!i;eFNKUQ8x-C<AzJh0vy4nuQS`ajF%7shFcUBs}l9Wy*aLB4$<oK;za_wDJf?
z+t^b<y+8568`tsiW+Vn1C+3naM(!i&nfB9-dhGkdG?X3V9g3AwVESUY+%}YL7bd$g
zovV5~-(m9vd586W<ZU|0{3bMMBtwcGS<{Eh!n5sVhve;xcR!6pH@4*4b)b!~>=wgW
zF?ww1#y-K(JO`J^=*<{2Ep*9ZCN!-{l|NOwqohmxs-4|lE-n@8I&h>umX$g9yybm}
z_jr+L?3)xw10Lidld@X!UVe|D#q}@-G20c#BF?o)Ru5+}(J$Tf^#%7&z)?Utb}fmB
z$;(kJdl)xSOMNeK8SOjQf7|)uW0LfDQHq>h2{)rNC_l)IeG2E6&hyTDG*Oxpa>H05
z&x^avygVv{MYrP_|K8ngoFqKnVcKJ<uSd|qY+Z2s0Bhi~UTt=ivMssYoxGid+D0@&
zYt~`h7YXqE&hD1u-m9gEx2$&`q-UNl51TBvD=8I<oAs%1-?f}@>1WzqX6w^!{7!Ks
zP%rs>L*ZjyQRS<_vz>kShtV{=2Df|Xo@z+U^yxEEsYr~pXR&h{Vp%*Gl2Obl?H4<C
z(jNq75;O?IjdJ>3TfCSQ)^h6C`3EM|RB`UfTXBO4+bZ|hpzt`8Mt-CVE4;!CWiS{e
zL-)!J`|jHywIG=B>*lm+3zPR`m@o{1Nef*P?b{iD9jPHORkdkH-Q+gqC7gQ4Hp)Cf
zL4_b&=u$AsX|$-gb}&jwhrjTx!aIcrzeQktd#FehNHfb+fpBoXOzI<OZXju5F0_0j
zxzVl9OSVzKAVH{JrNRbgo2pqeNHbi!@m1ZqSn_VJ_l~Ndn^8HE2}BNluMaR5e3c|0
zuO3cxW>{+1EN#SL#ms|_7X^uYG38hc<F2rn`L+QaMsHwm!A`D^+|#?;(LnYHI$fzV
zts1mjUbp0B0j-F3TpN09Ia<@HH%A0SU#x~Q9`a9Y_FssX@F=Q(k)bxN@1p-S(Lf&e
zZ1gcH-TD3R{;3af0V6SETRAFrmBRN7u8GJ_!o49t;b0AHJ(MkE?TEJ#YYK-{*L(n@
zk6&w*iWv`3x2#3F`7xqac!m-$<$p}^8DR&_sWe-vL`So$8R*VV=trFUJEkR0SQY@0
zWWe=S!aE0911aQ38mmJwF1^|+b_l?U-nSe5@y=mY1#weJvczrKke0uBMt(GL$Gx=X
z)4B5q(S!?a+U*nlE;)CKa*Rh37w00ey{l7pUv3}m^E<Ha@7%&O1A|e+wf@sDE!CfH
zMJjn6TG>qs+@EW!yVd8C4nEq8N2#Pv>YLB%TM-os+{f0UY94s;<pF^4G$9EC@D@O^
z;8n7MsG(CHs3AH;xxupNj}B=X$KGBQz47{qpRL&9!cz8qKX*|Mj~<r*jyBmw2=bPU
zjp~_}yuz&3&*c^g%J9YDTd*(JHy52-h@I9pS9);-XDM_v>N$#_a&ix`b(ZC@R`MLv
zue^-~WC&N39aNV10>Y+pxJFgK7R~2GJT`S`(9j+^wnWW-QRDcwActR>h2=x?5#?mj
zz9hrDjfrQ~k2)P5klP{xg4BA^KMHj#x=b}7%bE`S*aNDTHMFT2%tJ?FR(TQ)q)jQo
zO>EhVSG7Jp;>mtGeUKNg|KdZC_wgXU%iFhJW6$Hgu8h!RC#>6#t)jEi4;VJDz5cPD
z^mDTQj=zy4fMU*4vShN{WZ`2OrLM~CEZmCjq?oSIH}jxIPeG(Ed2c5rAHPU(uBmnV
zamS(l1?C5t+SJ3t8_|-@S;AkO4m%=Pg)TKw`yGiSPNGwL2EZ7jel$fmfY(l7Z=4Z8
z+V@5Bu${H;O&HDIsD76X!s4@?_2!wVSYw)~LfX|*tYz-JyQxxyE7>c((2f1x{?q_-
zkEtuBdSLqMEi>#R%nZ%vpf76M$PiD73ufarr9};JV|<o`ZNn+i?RJEgA(&N5|7okW
zOY#w6qyAM{DFOX~NkcC|i@@c{%pv!ShyI_5P0C<;kP3v8t4WWHN2cKtk~)Fa&{LM(
z2CuOb5*lH<NU<T7SYENs2+m6MD7`NylvQ#3RsE((LG{F4^9{iJPjcHsn}3){HBho~
z-<BS}azJ0>U0R)&sgk-rLNBg5+|R(c`rWe(b*OCz5DbY!tt6TL7Vj&<oxJ_Wydk9`
z^I`E+_;hDJIotf89_bTRCA|zD(n);|9c!9KjO7Ts?7|<h@52B*j?0Z~y97|ZuU+Lt
z-9vZrq^pE3w#&;dEV%|g`W(pi>{z|qhg&vu_i$sLT5f5WdfN>UbQ8P}vfEi{EI-s=
z(RH9USW!b(7<!iu5mRaw?2j>QR=TUa{7kFjQ0mz#T%lBdP}oaboHm@@<HDJ%?~c6b
ztUgR5lE=0Se+|CX#Gwo}82pwv>49EXa`w~p<DdM%R;aO^L$|e8P`xKMouiUy)0C-Q
z$|e+$exHck6G84#uiZEjEHe-@w3*`V^|I;fxdcQ_U+;FZ7)}t6Fc~P(ZtV6dSp_G0
zDO8SF9fJJVO9q0)2kG}SWy3CUHx#NsydiQ-AE)s~yh`YAU|g%rv=Y@7<h0EbMV)ej
zY0;nKp_7tjk!1<wPmrjU3Y)1lRBCAWL?g~ee0LtGneJ@FR5WWpWn7<l2!tG8O09^7
zhSa|4m(ek;?LoauDJ5=Ag0D0R*_PlDrs{8=))k$&y?l?Ey9r1jDyea+j*>c}aI2J=
zj#Oc^iie*;s(p#YtK%LAp&|OtL;vznfsNw_I+aHoes0c!$=I>;El?>ErPzjniIE2O
z#jlXmRf?Aknh;2o4lOmwKrYfbfu%XShumr@?3sQe$QOSP*%(zZdeAqF>SOw$>Yg%E
zF*u@}a8Vw2$Du;W2GjE_$6IeD(n@p(W;iT0Lw1Q1K}_MuP)}QO97F-5XB0)v2yp|k
z?aOT_Los;e^YR?i0XTVmahe*%;a=>Ref<HX6>pbf;A0Nko26atid7A_g8mlwtDOm#
z_pnYjTlleuwF`D$B@B0dT45Bv4t*kW>wLnW1b4$L7%7}o_wKZA8nv(S^<F{=U<~F2
zR8$-X#JM4b&zs-$ts0|hQiST$^==~-HeV`mm?b5mI)xNpyw{+<kAtZdB0JQ;v(f}K
zbTkO`cxFZ>Y05Qh5`*t23f&#>?M=8|VSid-lmbPZn1z5Zv7kV9BvvdRY44dR>G@+y
zU<vm;?D3l`hI%ta8F+Z`v(i|hW*VDAj6&izc!hmCt=*lU^S+#wd4m^*C$IcU**GMU
zl%sI2Tx{oniuTe1|5A^Xdyd-3^GHcV2^)t^RE`fow!bMV1`ol{!_2$U0B=r6;n)yL
zGk69#my5PZnGr553`l^R#w1eqQ_1lzR95Vb<G@_l1pEOxk84Gj0*B0KaYiZ?cgl*p
z>QRCPckme6xy<5bc?u99Rd4*B%tju&q^bOSvK*vIl7#IR;Bpu9liXRXLTT7z7e#7!
zFa&M!C^wD6(*BsBMa5m~L%HG$EiNgZXuZoFWs=S7^x-7NV*2gd<M=RH=<whL3yD!D
zwj;4&r(Mx|-d_%<gtF7uutgE;N`80p1TmQ+<uQ}?^^&4=&80RIHNBF(+OYZ8Ie!CW
z!!P0YCZt?oMttgOk-OmG<gq)dHQAq#u>jDN3BAG&s|9AB+kuM!bC{!SQ5zacI*{8Z
zc&DLX{L$>hXU+P_EC)|$a7+)c8in^)hlu2vBu9SCNM4n3x2KtT7Yn9R*Y1-NZdhsV
zhiWqRd5$Atdc{p9&l>>gU$`Yy-)Q(4*->BZaAn*C$`(@fYK+^A@wWMVr20_N)g}t^
zC+1SZaS58L06$QHgl6HwtL@%$7>Yxb^JPZfL|UO@^fyuYLyVFiqfXp`oRRo^Aa>6q
zTGBYf>5{-~x^PE%wo{#Icx%zMEGD{+jpM#7R^FW#AEuPuZ`vd?TBjDUt1Jj??^do6
zFp64^=3z!45Zsf*1~7u$+ol0t4;GuObIZqIKjV=Ap&{OW&8k-~JXYt}RqtlXS|yxS
zB&`nGb%7))DACCe<BwV1S&Y7-l9mA~QOU@l_7ji;Tjt!<jiCKK#2Eg<cRtL~#5MMN
ztzS1!?X!d%3r#Med_qE+Izo1w&;+R}3y}vP4Q+BkVX`6mrcPSLq`!z_KzE2f$7ew3
zNCxPKu(m_X!?TsJ$qwg<{fgRboKJei9Y`NyJl*EUaa*8pxc3p*PXRWr`Cj6n;5_YN
zu>Rt4RdE}+(9N(hJ#z;`ISm2?dF@PEbITfMYosNixy}vlp#l}V8fczNB7#I3K9=L;
z;PF78Y#eL3e762zOiV~WV#)pRk*{PcB$JZU(BN@dOoXIz+Hj2>gZ}I^;TR}z<`XpG
ztOMM`5PR2&R)8TQ^cG1Ox8Y{F3Tl4DcwlWO=YT86_RY*OYS`tA!n=dQa~BFerng}G
zv(yh&Q#_pGpwwt5<xLarr~=`|WJh)P7TqwdDM9FsF?rIqO-tB~!uTv+o2g2iQEu|{
zP)4g=`jte{i&En(Bb9(h(;srxWaS}3=z+h4Ri%Ua?MVtrsj|IDVr$^PoFGS1MzQi#
zaY%6uVt4FEr+3_sVN1yFw;hkc@~8C<JQ!Oqs6hSL8+2@3S$K;Ln4Cdnj+ZEl@gs3L
zTQI#1fjEq5nHAtNE=T$sc$vJJ9xN*_I9@-S%8JH4_A{ZIAKyWndIakbPM7K%<Yi#0
zTsQsqJOvT5e_H-iR3yGhMUuT*un|0xGN;u6o{7(g#v_@F9FjVHR0C3?$x`ADecBE=
ze=V1EngRNJ9U4u!8H=C~%ARj@tgegLd~;As5RfFY`4C4Tb@)xv7lv#;%GRIyrUOcd
z^!~9wIOIM1$RktFE@s8P{xwQKg<z*`MPokjy4utsk&dJG6c}AmCP=!&_IgFrWlGY~
z(PwcAO5f*Rs%Zy03T5&9GKUe$p7+?k{GnlIv2o^=%MiW@W-L!*c<kJ#r={=tyGNuy
zU8h^!NXq3%FjY=v_Dj9W(~{~nqhASSg{_rouygUT9Psm~CM2p!VZP>o9EDXA2K?`j
z$OS!K>9w*sr18Lcg((h;*{SJpZK}vIn-3>Ys~&dKnHv8HhR$5%{<KQSJ|sSqwStUi
zyIXwLfnS1ScZk;tTD^PAG2Uomufd~7-oN2usYh5joPnBEu&>&{fKlS>SkC}U^W@Go
z12?3b@W2bR!(;jUy~rg&&0IW;NBo(u*0ds)1+d5*Z~|uUJoM|P%d$BFrIP(2cH;19
zp{^hr2|F^1=8QI(jC!3xRCQJ=;#sV6|BLYf--`9voXVk?1nut2z4J=c&uSnx?6pN+
z{!q9?E>du1I<KBQ+yX;hn4g_@*W&k0PU-0z06zP2I9jDl{`-7Opr5zv>WS?j&+`SB
z=CT|%Z)I$K0SE4mW71{y0kskC5U(`W8d)cwVV|9?mQ(32b$~Xi*NwaFb$axhqztz!
zyT``GNmQstqNwLQ_ErVeBIFdQG<Gz}7@5TPQ|lkERo5?-g^mY@NLUA5ZQS_5wTQ%+
zR8&MPiJFNPw&%8|BjY{8c(cLCgX!tn3saRdQL1@J>TS`(*+ID)1t<@LhR#~>V(yYF
z!P@gm5nggiHz9Ha!byQ^G;>MFof|XirHG_k`9w|r5{bHRDxi|R1NX*Nw?g{MC<^&C
zdyZ4A4pqHX$c&lz8WVLiTHrXXW1AN7--{LQ@dHITW{a(pK-mT{P=xSxmgN-*33Ip+
zk$^<s5QS9dt25UneCVzM<ckq?2W?RT!c2nh1$kt5x`|~04WrnVczjgvu`BN&ruk3C
z?XOSwxL;}J-Vp`UDW6iKkQlr8N)wTFJ%CXUPi8q4>42UMPnwgz1?nlyQ`Ob1=wp6Y
zzd)4Nl`PAHQ2M*{!D`C!0`Knn8#Q1yL9Yk}Z2T+y{6mS&{5e+N(a3T%-Ju6&@eaPu
zu~yKSff1?n@E?^3C6%BWIp(C`AYr02tjaSZtK{D%uKR%YNxrqScW`WH{58b4s%c3I
zL^8jh55QeJXz`H^81El4N#_`|Jhqe4yR}(-K#z!a8buD_jC8*$X8$u)Z`=T?VLkIY
zSGBXVO5>uLEX%-2?6l|d0B&p?w-|@pJNfzd(Am!)nYW3C7(fFL#O!yfZp7iJWIB$?
z9#W9Z8{=VsikeDUT;hX2hWGO}z6DerkIvkuxVyJ;H!@P(KtR|ni8f-EMx-~PCHD&O
z7Df1n@Q>ecIp#1w*CTkss(Vq=mH#^S@3+F&S-Mi#Gu4Oy?^j`cdN7Aa`t1@+4v^IL
zbtE%yp3iI#4a!l@{AXJKqk?9Pl<=lcnty@t{*O@mNM0*mruzSW<w-?YxClP2>We55
z|5k(lnlu0V?U<v0l_{O42LF98|EIv;p1>FH)Ze*w`M<u@&!Zb4XHWzmo}#$_H3!Vf
zKpUO6$amkr{OeDrvqh2(Jn7N$u<-wW&<jogLaWSs-v8anJO1ZDfBp!%b@C+j)Q124
z+9Vpl)_mdq;@<!4nuSLweFD~vI^6l+O^QHqCv9?u$y#3g?^&Q!1fG;Wl56+-$?%`+
z^Xn64QRT3p7U^GdC<y^cOTYP+{2_MV6>O3?{6pp+k=ciXvfR##3>^oAeuxSP2)O3B
zn8b-M0?<WD_cdUXewDWvmw@!9IYemXMwlbxCw~1F*x+nr2){drAmyY3+eEHO!iyQ1
zeARN!VQ28aGlNJoUsaJ_`-LPoR`QKxpCe&3?&j)NIDJ78T@X|FAgV?HSoc_9>6G9E
z7tj9`G&3Q-=oa((6KN9noZri~_zXdfE6Xkhz=k%q1H>_LbZGDVbMh$h@e18QlNppv
z!>8ncKA;#<go^=YUFpFY-_?^goks?`edmAfY3UnjM3KL%o_RvNhNH!|`8^_w#=zZ0
z4wfC(f8ITu17Alk^tWDAAXUoQT07OMt|TK>fQ~af5+b?utN&*_3+R|x<Jknq>B0hC
zCEb7tpXVj@e+!~KX*Wd`sedYof33c7eL@mu<5;dvxBtE_PZlht3^2m`-;A~X_3hK8
z46yqEB3e+iXZ+vS5IzRxoAU0&rPHDQYd1_h1TJx|{+M+3e_wO|gzQg7+4=vnmz=2p
zDd`v8SUP20``60>qRH^9;{EL|;pgxp#GK_vws>#YW84D+0?#Q@oNEnI^2}DW|Ewwz
z$orJ@){!y$AMZDz#QYNOJN|anNim5W7<BkuUzT@d#@1)8fh{OvFpDUTywBgUi}egV
zoR3Uf>xYM`3R>P^M_I1hQEmUTLn!4nm<?z2EQ(r4Ntj<blZJmqtk&6H`&Cgpf5vwj
zAb@b+0MQD9(!qnjeethtxdF&zHm_OWm((cPP8RjnQfkSnc^U6o<Zp}VFPZzW0zJke
zW*L5I91?0g-EHQ`;mZeNPZ<K!z<;Vs%16NT9y6Xw@dX>OoF9xzPq=*Qi}(8D$T|jE
zt!|*c>is%An2qrxR-j8A4G)}$9E1OJ&S$kw8ggAWJtfgirw#}RRPbK9#PtEemCXGB
zoLj0U^oNQgQS(J?h~EzVC(jSmH3XQdQ2P-#`1+C4%k*%)_?`iBX?6c&vPi0c&96tw
z_Dg)erOHi&=ci}y52dr$-BV}bycq&APq_Ll;Lgef^BZCs^FO~&cndgh&ZIv(EiEG9
z!Xsxqk4U|(A3;nb@a(x^vS`q4zDx@BXTq#Y+cO?y#+yH~ku$9TegR-?Rw%I?wXCIp
z_akTS{@DVQPz6}}1Ggrqe$8RH6Tb7jFH%+RT2(Lqvv7f7;)@^0URS(^_BVY4DCRj0
zy{cJY9syxtvBEP+H@%M!VqyNMB}Y^o`5*J~h7A~W+T#+|(+RO6oGyFF_Ix&ni*K0j
zcEG@cJ9$AYIciGRz_V`h3LIgM68|z|EC4Ptd8L4bUlIXTor?njHF!mktXbba2S1X-
z`&P{RLT0+~1J6J8X_Fi<$rL0^zsBYJ<;tr!XC#{mma1S>#G*q@+R)pMay<9AOgAL>
z_|#`o1myq->n)&pWu&P}Vn^D2%uP<tuJwcQVxz6){NedXHL1v!V*iDhHu7v2ND9DL
ziuG|HTLTK+c~ZTL^+Fj%SjsJ-QT{b95ieW&$jm)7PqozFGv5&hsO;c_;$Pc~IlLTS
z74*D?SZos1Q)?p%k9Q93FiT-bo~1F^(}zwho}bxm!vZ|r3%+|cCJS9Cpmi)oPny5j
z{O9~48txAOd)6J@xwIC7wHquf(g1Gl`lcy1{CZgKgp!_K(s@tMPX*fbnup?h0W`NB
zf!e~npVl~e%K)C)4S+UX)q$zt^c?+rhlSt8`*6#wC#>*PV&Np?kBJrTpJC9Z{7y*x
zF|-X;r>Kw@_QvrWkYeX!J>M3ecApvm=ixa+@-+)9P%C2?9z!su@Vt9n>a>HJgT=&_
zEr2PhC+ABNcjN129aw8TFwNfKW4)XZpC;2nEZjZZ;y)R2A=SG<ymw9e4@?E~9DXpU
zqw2cHsSQw~+Qe!ezVSnT%I@nS`NhX~EpA8;MeHXoF&b0KG9em1T;XD?c33K@9i_s*
zV(?7Sd41YM3b)k_*#jSZfGk)6m1=va^{YpW)TMF&yS!<x#^HBs!^}4Fbxtk4*VQz4
zkYQs5+FUL$r(Chr|43$>n9V20yGYUMrC-Nahd3VmjL*R;A@#H>rgu1_t6{2!p3vn7
zVldO$|E5w@__Uk-6oC0qR4TW8n*AtU+QK<!m!fQ;JGNh6%Zg|I?vbeTYL!^nzaB&_
z?{elv%X=w4)TeR&lhgeJsP#i^c1hGjU>|@kP!2HroFg_*V5xj=PnT;$c56jcn+8<1
z{F!qvfT!kD@Cd}PU)2LE&lM6;ib2D1w<@QHnrsiDZ7L;pIK1k^<!@k*^)QQH`|@v7
z%6FD5OU$Q<yl&R;{N8E1LqeA4LD#K(jTs(4AG(rFOY>?>u-OkpaKZPQoaM@sJp1e?
zw+vN*%%tW8#$z?hktzeA5wW!_#kJDi^Ns?(6>%_+8<LU+o>F2{YDoeQd8%eTI}?S&
z>W;fy6Tg14h3Po!dYzu`fA4YQqB9Sp_@S}&r#@Ib%Pb*&nQMtyO_Q3M?Ol`7o{6@8
zOEYmUKF+RsB+72i^I)qhOTlRV2kF8>H5F^NMXBacZvUBy3a46qi7spSrx##1Oh~0k
z{kb>$UciP`c73QAefxTH?M}Ee+T|lonfc}N$T@X@tl3+ikK)(t{=Mj!JMgKFE_`Dn
zbW2@5VIa7dPxOI?=anXt)LFm~Ouur^ebxB=1s1!0fBdPL;M-rC2^e0a*$lEAnUdW~
z+>xz7@|n%w_dy1Qs>DTA*@Sy7fARyUZxsSBUKt1ZF4<PvOxem_)tkL+w1+8JX=`JQ
z0cxX_1~VQ?2%G#Oz5yVD%7g#`#3eSluP=c4|8ino=|*9$`!s3u0+dDtjc=3A;9tMe
zQF2ClD8A-CA$#~NiFs4gImUb2_^uSrXRiD3X#dlJeD*eA%)Pp7D1L##SAcLxpWu23
zrUZc7{M1g&L4<Yc)FSuao{^(B9=twuVqN@pPBdxX0v>t0&ioqR&p#O3`M&+pdXt5X
z4a^?j+~m8b@`v68frxHp^q>G${`ZY2P4PFQIp3`Y0D2tY?+N{N+WZ{C-_7X0DxVI>
z5kGf%giL!WeO1huU8Vg$hV!%IsL2bq)4PlM?yG0dKgpEU_Bu0}``<=G!o1;e`buxp
zn>uR~l#a_sOIADnKN&6jzSPO0W}Whc3~p)v%_a&McVQN4b|4-GMha5Ba!b7mq{=>f
zOa)^0lbSXB#RcGpFBg{FGs{>f95!A2AS1^6I$*6R$tVY-zdCv;-ZIcDdtNdo&TR8o
zlxpIaIS+8%lg@W1k^u)sN6v{ufqb_B^p|GF0H25K+5w*a@LQCtXYfxMUjeJ<Z7HC1
zUNwkbqsOPEW`6g$?Rfm3h4sseI<-u!PaHX215MR`jGTX66Ab9&j=w@v|7ld6ij+B=
z8(5;o-Q8XP_(Ffo8Zgqkz=ELNHnRFP&woA#kFey##kF?R7UB5c*YL3c12*zHF?;{@
zh`$E}ssOCiaBf~M_Wz6N-ge@S{I2-`<I%H4(e&&2(?|QRax}TXSKahQxCpP|Ve6c3
zxSm#|y}3czY54g5M`PiC2JxK-xcpV4^fjgv!TW^Ym8v+kP(GfMk=wk)MN7*6OY(oc
zEgW3BV6u=!`HE<NWi0zS{;y3*5(<)$c{~4M(Mt1`zy#Upn}Vu-_x+j-D<;sB_NG6F
zKq>8uK->xp{SlT&X@FmI`fSP$89Yo;KHLrP3&ZPACJMFE4Md^-5+I0#2<Td8dPAB7
zgZyWiFgp-B&ii^n0lrkw-j!J#aso%^@c#5UcwkPht`V64u}i$0n}?*|n+HxU9N?}<
zngD^Y>sHOifBCMCEG4w~X6eAhmTqLc?)Z6+SI*~djL8gqhn?S)tS!1G_lvgj??2C5
z13e`cR#*BbPIbc1@BOpn{$<hs>x%GF;9ckc-(7w`%}?h1|H<WFOXaU+_5bAZ|3@y&
zlc;Islxiy|&jG6OK}9SXPZfytiX?laM-R3(EKDsNVCzwg=gS6I3F;<rZ$%!Qp0mFW
zy`M(Euks}l_cPytW?fsT#@Yp-BuKqTPsD*=Os$04buL7^#C7wm^NH7^G}jjLv5=aF
zKa^2|Q&-3?`ekd7Lh;L`cik_5a!w#f=!hEA@G@*{1~5N327qz83M%S(>RJ4A4*&c#
zt4#RjGHAREX%{bO6?$8DFHj2?tM&O7H_Czsu%`#Cyfi%nLPDaYaL3)wPRQ(7d7w8Q
z!MbzjkL<0PI-<oqtjfC3!w*SZPAeloBQ~*4ktG`YC4cvq0FnZzs|hn1{VaHW^FlcR
z=6@b)glf#U1Suu4`x<V5v)lRRtb5$ylVkq=;Bcz``dbO6>|9fm<&9mLVSD8eK`XCw
zpH}wwU1_CkKh|yhFhA*dS|Gd(H>`R#S-!$7g{u=y!<e)x0;IbU02*+zs1Kl%u&w%D
zQ-Fw({MXz6QpP34p!agjh!96|O4o`N2!u^b@3FQJw*0ZC=Wd98RC^ZRhv481J?`OL
zG=L&+0|Vr^nu~QuDYg1Qn>cyE?J)t^I!d;tP{uAjjP&vysl2JRs`r%7Gf65R?ur@9
zY0JnM7dqTal4}2{e=08DE7LX(QovQ2mEX8FVWBFRNns)*FN6Ka(pp4S{V7mB-F_k=
zEb<Q<Q$7{+9-jo@z6j4vac^7GPW4I^H_6Z{^fC0-XAimpelCl*;|SeOdS&Zuwf1&b
zLFAb0$t~V@q}fR<h><)EpuL`0&kB<WdfFk|dZOf{duu;za_~Z}^Sb>KgQVxP3rvzP
zrL6SdfBJOGC4T9fFucG~YR1z+-|Z0jV%<!_P-XbZ=O+qzj&2WK8kXLUu?{$@o~5`J
z)upAEVtL=Fkh&P?#zUWU3us;`62|8h#>K<aSA<42;wHDbfew--lNWXJuk-PBjilV;
zJWzhcn*BV4SQ@)Or>2pbQ4n?O@z?DEn8h0Eq@zS>DKA5O`cgUE+B;%m59qMr0!1ee
zSd|Ws%gM@iwO)x8epo_wRP@#C=Y}GA@*HFJ@e6XNh1}OR=Ft5d8)fkW<NSsgMVWUo
zEYYGl4d;~pu)yt;PJ{^uqy4~i@W&pu-}nuh36i~mcE01WrJ<<WnF25DLBv+`Std7b
zI#I_*CE{4`cq($chJy;vy@^<Zm1X}FiCU$6P42Z22bH{eG0v~s+uQxP)R6)=qY^M8
zxHqw~YMbk6O;7Sz;B>WvlK%y?N3VmV`6Hv{5!w<*q?`fU(|iMN0^*(Mp=@49&2ki~
zK};=2&AWGI1FbhuVMAYy!yYMvvV4*;b74~59TB{pp$vy*-;tWRs@%xI%tSrc7aU@x
z`coI29p8Gz@h@@H&)=)B=*Ug=Vza9koZ{k+B$i&UD-BfWbc8H@ZbOqnQKMSzfyBP1
zJ+82oXSx-2x{O}?*C9UbduzCkPZ7M`YEqD`Nw`U@zU9~&&(r*b+-tw$>XcPY{j4`$
zK(%}!seOWiAgb5j#9d#nr8%zq_WrT4N-{z3Etvs2vnxfNYn6gAA1>9~Rn?Md#9zJ3
z;<f?Og3@E}vgwBp?;z0t{`Zia5g|&=R>zs@xs|7{Z?~9RssBQj{GQEFR^Ha29FvmH
z(eUJjOu4X#O1M`$muuS5;F~rA;`5ie5vu~QrK;D|^|l>i-HuGD>_qYv))SoI!yUED
z;sZ_qaby=UbJCi+2h^u)<9ok55rrd|Tv0hiT*UzFWceYHf==KG5HAv(C~iQ{;2&7F
zLf4&vI9F5y_$(V4BZ5@)$9G)M?ugT`NF`;OPpEjun^|86fePMX_R~1!uj5sY`2pTr
zZruuzqX;FQ`ftgS!-4h-JRjv4k=F}*N$~p@Y10PEWCbm!pI=$gI0U-=d_le|ll2|m
z;c&Bg`dN?T!FzGrp`|CUF2@g^<6ad{M$z7Qr6r&6NxwD*T40t6zOMswNbM2I3%YRa
z-fVf#!N!<wsqyB^$k_2R0M^sp<O}XqLB|61w~1?YHb7&uGK*XsvtgNeU@}Ci#s$R!
z@I2iW-f9mD<s8t86tgYucDms+TqeJ@I$;<0m=My5G5zKf%7_?VdTjRk1FAugbG;T)
z9?T#%8EWuKXeh1q4G~##m;p-Xo~Sq0b0}|^V5m^nj6;21&*i|Mjq*pCp>ngOS=3uP
zfOt(|u`k)=4SU#x4Hh-={UetakD1fV&ke{d==&g%|GLd%O9nQc(!7t#a3FQ`ONM`c
zdcypGBlzXZmwK(Fm%6Hl&G^!VdjJ--)y19uSSd(P(m@QYHIyOO>MA1Gm*6NqabVCu
zWLNOnD>SU|;~1Pnhb+wzNw&7K-QVb#TGO~U`I#e!yM&${Gmz$&bI<*F^ZL3qcar$)
zA)2G1L<D+fs*B4hEcDi^Newk}DwT;$pq`3zt5jhrQ~0|UK)P4J;(wvFW_Z%@wT76q
zVShs6>bZ00evG`kcg<s59|H7hv8Br@TD&Uif{c2ZOyI)GU;MHaS$0-baX#I@X0laP
zG#$W#Pxa%D;7e`A@k=?*Is})D+Jfy@ZUV>YVCaW|cRG#D7XB&{XLBzJAY*yzcP{D@
z+}F4Pd)>aaE+VqB@hcydM*<{-9|^7<DdNiWrJdw={?mhCrlj*d9|9Wq+OFCi$sWe<
zCX1p24P>;PRE;I^TiDj29CDp9o)vFfZ-C_RJ$FZi`C7B!w1Uef5GQApB*Vyt&MRW3
zGRd!XZl%2;sBaNxQW7n@Qi0HHC-84=)$c6DhtN9%IciJo3A0W8QiUau(R|IsCeZ6z
z>$x_SoI9^Gw04)FQ*MWIKvU=#1?t>@F^Yjjpmgw%PD85MLR4`Upo@zJlz4HeI_JmL
z0#uz9>CN2Hs^S`c3%Fg?cTsfdx>k_Pkx=3HS#9fT>xrRtP7gF29U?ftsAeb`2Xsiu
zS-fv|&_j4rH6?gkl-=d#uXF>miLXSyhC$4P5)f}OO{M>n&*C2IU!uwVvD;Qv0mH2e
zspTiDvOCJkeJ{385wC`+Exz!C0QgbK_~T^(?ZfYUkb@MaV;CV?j}fs0u!Gpii8~^<
z(#*TkCraT?D`yIH(X|SX1r!|1n*VAit}aIhw7=}ftcs=IKg;b76!~%u{^+oD0SFu7
z1w8;F<U83~kdzFtRlWg+7--iUabjy>jsZEvi&CUcP+bU<oYW|4sQHkbIu!Q6|3WoX
z4mvnUmr@9X{eT`#jD8g-CRmos=hbS(5@ZzqLm;?a!4YlX<yHV&j5Qn!Y!LXA@m}<z
z@2_l>?>WG*pdJ5!9TV;Mlp0UmZ}M$ywdfsgU>(v4T=>K26_I9sz)A^(3%|1zZdXOD
z_nrUot=Om?V0dZ<thnv1N(+au^TNWL65Cs6i<N5gGad#h`d?UEs7IUD3SM>e%{d<Y
z(Md%$^ELq|l??@Kz>=ep2%1Q?kZ4A><nX0pUPElO<N9$ppvW)OrsP<;{|NLIdh}hp
z|9;TL6>6*~DQo#<S|r#yfw8mJ&3o?}X13noc`DEs(v*}hY+LbC_WkH9hMpXw(!IWG
z$>o0^799%sGdS6^?u%5h71069{Yu}~m;zLDA=wbr&TgybA8+{m_AJ={;CxtFh1<&+
zixWk=w>E|H+;La)nwzwG4Pu&cx2iydIM^I!VSlu4t8k{TtHWtHoregsD>C1{-5<H^
z!M&|@yBdgZvxUEEgu44vw0AAUYS}MYJOcJ|C!f{WikD#xMJ^EcR$CV&3R&t+G$J5W
zWxj7$<-Iqt)MqJ#Q6q2&<u_A}4y0~(z2xI%x9;g8;Z04X%#EMR=*MGNy6DJ2j9Cr#
z8L+U4HAr|?dwo;m&}*55xbXVjDH_kQ1Ts~ikxYANvZ~uc&(g2-;v3fI1jMm3F77~)
zQzq3fRdpIN$kI4bN;>7XB^<Ak8vM!Wc>olUAh&9w5W1TJjzbj06uGdwrqNs3yqT`1
z)?fh4K$#1xXr`)L&%UHhK~ueL9dk7jpH;mIRHz)5o&lpJ_`f!ZAvUJ$R$wYlQNF~4
zfWOlodT)RzffUj5WQa?I-m2cuTW}%LLbMA+K<G!j>vFjpFyJRGBr4(FQn1_{W;(%T
zH<$WUW#7fJH~cy+O%@HTmm7eLNvZtjc$Q)J+q4!^n4MCF==7soHl*4VbmC21KE)Oq
zFKhCHcbY4HPV6fk=8X5WHsL#4S8jjFq)Kucl3@An=pBD|w^tb68CM)Rt#1db(Km2+
zt2@%~)Nhg*Cp+G3H@ryiac?z@pP%9p`3@T0h`T^kPR|hXdoY)o2A{UZs6coC=*h|5
zFV6p!vG(#08+b$HNTG&qUt?O;v8`<tL|(CU`x)GKFVC^QI4Q+>#_b`jcd>3eMMmyn
zx0i;p+u=@piI{0vZI45SBT{|6orvsm!po*B<B8ZyTn47H+%yicBGiX(8#JQafYc@5
zQgXGuABU@FGtrf}#KXo83aR7y0#2uuG3Q+1c+rd(cT2z=4=EWvv^y3PUf06Z>6D>p
zAu7d0X<>jL2v|cE?_$NA+(AW+Skb@_!5_1kJm=R@86_r>dxEkjzSYqU?@V2~4|JZJ
zt@bYUfLWqg3VL1d?quATgkBX&aOUvF9%r;h;ts7c>#&Eq>kV}9$&O^z{%=4_$%S`U
zWD`ZnwB%RD&;g87vcvvnv$;?5J|ZUsr+&s+e3<aWex!Y(eetC~bH;b63?*bL^JYv)
zet+8reiM0kyk5J#kjfyIt%gc5n6d&r2U2{>37yR!h3yO=CRoXWyA-O*$$K?B?mO3O
zpD~rhZBFXiPuYa@xP19m^9Wn9omA<zec1w@UJH<0kZeEtCYTbm>i8v8a3ZwDRaS8+
zN!!29WJSngrX+cKc#Fr)eta&^Ia9cW;@Um)#>Cv3mzQ})=&`w~t?@e<5BWy&iJNxN
zl_o*8-xLfJW*C6(fQmWF$s9mWBuUYsS_7EQP^R3KJWsdQo%N4vznLcYjC{`%QI=Ke
z_JpkI*J7jdG|a~P1c~~O$gZ%9QL30}6g=BX-0Rd-e(^qsTc>3HLG6>&I;fUT;foex
zwx*35eU-44>Lr7+VSuS7!nAi?zT)5}fJSkFjXs(2_Kwic@jaKT)*rn~>{;uat3e1*
zz_f+dy|Nt<YbNZsnYr5>U<(tSI@5Fl;9!vuTG|(f)|XmP16@}00UO$rn{EyAY6pW(
zl_c(8lgNb#yemxgSht`BT52T&4I|F7VTRA9<d4tQ^s>Ujp<mBPBAA3Bz4DIEAJ~s<
zb24T7B+z>BiC+n3-yPB$+3bqX;tzXu%+NYlnnTs)dq|Kys_3Ih!?DigQL9KIO2@2)
zvr1Ai&3=bOG$462-oEuG;b#Df5y>ySX;j6K5BEF2)f3ex(gCZgtsM}*H8eau-B8@N
zyIvQ?26WVUx5ISriI={IyMVRgis|U_T_g6cl=>s%o^D>_r?D1$+rw)4CW|X}-Qmrc
zY)~`)){xSiF+iNc_xcziP-#N+o7wp0W_UV{Y~TGdJGf?BFs)6hwacOiO6M58*?u(P
zDCD-iSX`Q!nVHmjkztLYCE$Z-eUE;p^0ccFxvt~5L(14S1nlU=whYc_-MW9xsjOun
z-EZ2Y?;B9zxu)!1Z`JG50QTq{FV5`k@Ub*N#ydV#(amapbH%__la!_dWt-pX50s?Z
zrjRVN#cC;HWgZ1xcA08=Ynvv#T<%lCFWn3aj32NmC)s>>CAu6^?O>)b*VZXVY+g?&
z!Am}Kk6RQlkcZ;j>BoxnhZ#%lQYQ_i_}^sd*LuKg!0h%9Q)eJNK#z%n?UCccO0zCM
z3dz~0G&->sD+B4t)v94Pyk^;dhRcohKz?UM4}DCD>~CgQ^ek+GNfHV!4WM=?oKQEQ
zdJaz$7;tE~w?$FpC>J6i;JLuI+5Le@a^WYDyi$giL-{joyLLrJvIiC63*C(|5B%RG
zGIE%o?Fs#77nEfCpkYVnlYW$&R#i3ZkQIi?59AJY$8Z~IEbg!G6}P(wHXI9*(-b`0
zl=2R;9((~7#ie>X2VA~BMt|tOZ7`MWBD7f>GGh#Nd~hg`bRl*ucXn7YTcdngaFG}%
zD3prpOBPeH@nZ#2mFG4K@@A*v8Qbg86(x}I@n;j3?_XOPCJ1$+b816LuZr#6Jc>#x
z%2n%5_V#)$W;`jv1Z%VvGwzr(-Dv_%6dU<p6L%fRxjU3GnBsd;-=#09a)-Osd00hI
z#xOxzfm?tZpx^mC+QWbEd$op&?gHu%v5NpQ`QSBJEfjm<Q*6qE6!Ab`)_%;LU#S-)
zwY=tSZ5JbaQmTiLk8i<N5BJ!z1-69y2^m)9-%6PgaYsL9HcN*~w1uSJHuOA*#z>B0
zu|oFVwL+Z@tl4F}Ft4xQ^0p?Hy0cx2w|fXKldtt!)>{<zp1U^R7yXQtD;q<|Csp2%
zqYPHr$=d+nb;Y$qWzoqsJ5jRab}_0H6_wjw$D3xfCMh)DPC$`!?eiB9o?S6`ex%un
z=YO4E7{l$fJQC#v(5YPFjG`_q-(A#onD>a}(-^)tTI7@oaEiZ8N{w=M*dOjs^jG1D
z%v?MI$i2vnw=YNXA=brAfTHhC#*WS9k$!&|P>^lt&aV?TSJKT>Y~f$ju&h|Sw>igd
zTtlm0GZK6w@PvZ3rnpAo?x?=N!v!@qiKPN<R98uuRAdlWRIFy<dW^?ZSy_3@WI2k3
zB95vg!Ao)K1Z5CWue2)kRONZPZe=JNH$pUCSn73|UE-1G<gRI7+<d6!V8TmS4f>-P
zs%mt#wpzbPDkjb`)nTzGmUftZd<6qQ3Qb40F9KXS@U`CEvtktvepf_4><=1XveB6m
zS+YX`0dS}trQmU++54`Wi+Jq)V{_jd7Hil-ZO4piR)>`4EsP-C<z9{l03NRwwMYZa
zv^PQd2kxN4(2LwrCf!)}{GI>?mF{fcm>BMaz#J6a=CQe$&Jt%N@rVVhTnJS?@q-iu
zss>R4Fbqui$L*xE|6bUmeUmbZiX`Q1zHl6`pkWPHeD0JW-0Mr?Ow<@1F<sI|-9(Cx
zlskd0oV4EShbGkk$QjS>3N7smD0Ewa+jVxTvPidjYXLBl>BTqnv~c62bLuB%caE!`
z`!&%7>99tbz>7ezH04OyN(VqL9%Rvo%Ud0RVp3gZ-1eS1-5>%g7`{C_`&XRVm!I-Z
z`FYPoVhS0nYpyhkd&2#&zJAGR6SF&;@bqVchXg6SDg<*AJErRd3`~3!cUHr5-;;kd
zU9?z^$ZVTT98Ouu7AO=Rb~+-@xwlr@f1W?{zHawC2PA&5uw_lf3dW;0MDljJx?WDz
zeVsqtNF|>aOtN65F?W9(V|C;<O6Nh~vF?GY)d#RJA>Y2OssP~`f2+ei55TsPd@SkQ
z6Lisn5j2=!FbTA?H0@i8I*))WrQ8*UXnF1y<}nFDVUU?mUWYgX0S+Fi(&i7k^upl>
zWS0}M-VV@njxQ(LagnJi%xMq&D=KWi1<tjvg;<-N^gB+Ni|2vWI+bvMGcs6uA4vPJ
zwcG<U(i<~+1x7-1)C4H{$^@Lsg(gs60Ed3;B^--!7Its(LVUqRt`y~S@*5@^GYZt`
zVDB~(Kn-0A$>R`;g(wSKL)A0#OGuJAGG*>^T7LLNSnjX@;!)Lxh>&ZVZxYVKIqO`>
z^bKktP=C*8stBwFl_n6Rdv*_TcL-p7H*%gCWNlB<uR&GD`$Tz}jW$y6#Mug|9a$;m
zGhx8UjoAk!eT3cucLp24^hZbE*T<Eur}r!Cgtl!g#=oRUjB!Eg^it>~ze+kfJzP*+
zyq>PlC&iJLF=cTEV2UwK9PBU=cQG1%SHHO^wuNAY5nQNqTl1m#%^d<<0&`Z%p$VzP
ze=1jvAA#f;WmfZl2!3vY*PVBcw00;IdnGqK*171>_pHt}51fI8xtLByL>)RF8ZPE6
z*AWHHU)YXv)3F)+L9w={(W8O;3x8OohHd0C%>aMYO`UPE1udzP-q@cqV{T8-G!*>I
zzKDiCCcYByudP{hY+yO_1U4fuMpfcYaF`F#QuI3v6i$-}n}a$vPEpagXC4%p2C|w7
za)%7J)os0jK44i9KE9p`u9)WLDO^GJE<sI|X(ak(LzcVc7W4L)dIJJLL&PE&gvZp8
zj)E9<z^3O_IiOKMZ?88uOPv>nY4Ljuiz$tr%AmhrQtp1ad4;HEzH^8I+N}`mwhnc0
zpEC^Pc(8j7QuV{Wx=81#%O((SWQThl)lb{VKH9e`>`^%mi`gwxTQ$_(wWJQ8V3j)F
zC=F)ZEdY3&q}xIhZ=Yb%#`Ff(cK1K)8$yFWyUH23VlBLDm7P+E9cNN7MNtA2%lF!8
z<fRUeG8pZ8JV!(O22}e*maaWk%0*V6z|PT=%S$*6O36bKXkApEDeUOj>w~Sg*_dCk
zySO4P(2(t0N;U{b%Xv^lwN;M99<A56C-)PcrpnLYYhS0_p(4?KJ+O0Ho;&{xFVgFl
zHorxX^<5Koa759pT}o+sBluo--)ueLoGdOPjtn4jjO&Z#{;6IDM#Du2>b?FrcEoNr
zl4rMb6_g;!0kJSl0#Yp+rKV1`d6!AY7K6n*qPZ5#jPOOq$__bAhuEJs)MWs;XpEPI
zI-j83%m^dg1&%SdYr?&dRUG;B+K*??GG8-(M?J@ln7mH&4wFFnU|O?UXJMsqY^7Om
zIr5$3{F~uEVT;?z%nJ84o@n(e4BMnw3{#a@qNf8M57n87q2Hr(8Y{>3%Z2j%LK7dK
zBe%0K9kNv|$#Zb@y{y=<9r}&xMzSbc056mm_L#Y$Jq;NzAgI3LA=VY1-d~kT;0fJE
zYs+y*@vF^R9kSX0)r?;opn2fP0(kf{B0WEP)!{*c<-@furX+1zFN&<xlQ`AVr@Z8(
z%hv;uPm}u(8@hv^48U<`MIB?^cd7m4yltk9wW^Pb#8zu{EOi0IaGtFtlexP_E>fKQ
z2~Zpe(Hdyi?mMM<2YmAQlfn~zr-@TI1EsO=TPb+V+w4WQ`Gzc=vkFJhorhQh9j4~e
zo1W+@s60`>iJ2$^!zB}Sp_mQ#OPifX-uL#ts8DEBSX)HC;oBSqO2RhD1+qpea~wGk
zk=rnZ$h?Dvatm(4`uG%KyO}6wR^Mw@%;3>{t?ryFL%Eyf7knkP4I#GN{G>0k70Alk
z_D~09^$s8%e??uOo|3;C9QJ<*y9%hPwyiB4N`o{U8bs-CkWK*w=?3ZU4yC&rNs;bO
zk?!v9mTvydedc}l-G7WT82d2JIeV|Q=9+89H@_JgTE#l$%zIX?Y9$7hsPM@klxF`(
zQ|4WFR^=YYOoCp5!9$r{<zouHFdnk|p<&123JDm;fy@cR(F>Z({cFNKjsb2?$!sZn
z3aG~z<uYH-nNA^+_P9djNA&vLoIh~g&&un!b&(rdFL-Acw&JGbWwI53g*f*`o+YG<
z&7D9ym1S4W-~jC#@T+Fnn;`n7%V|8Ixw%5gi0*9QNevqK79h3^fDEJ6vwa(nj)lgF
z_;89~^M;x6w}TuAsjjt?h3mQo!%kW_H*XK`v=fQNMWSaNH}=%)h8N<Y5w-)Mi+_)k
z=vDwYjr^xMyg%Ft&?Gnx>0mANoqCF^;b4n(l-EY7WWxAs)~k~f)2caQr1GW#*SV3S
zLJz0Wy^6u2r(w3!tl5a3m3a{XciSf-5*r2=(7>D<@@q*^9RsfK-pIyAvf?N@c4JF6
z%`o^EWxq*{f?VpN{Cr<3Ws;Vvt;-kcN8u+s*PjZ^EoyQ@0a_5Vg)y%)$I;D_N{{0~
zA_yUQNQ^VMt9K#^-JeFh_w=TGkN4hr*w4osTu+n(|1<<#rcOo~q>`2>-uqdgg!}}L
zNh%r|mFW?{CM(IQO*B0UHnPrM+iDME&m<;ketOr6Bzd?@VQA&7Qx^cuTJCy#T6L!8
zzUjtueIs$adS`nEciT$t@X>UqvP~I-qru!<+Y~zaY{E)tqm=b9S<mw%gL&#?dhhhp
zwPp8c$)QP6yfR_}qERn3Z9>$mihALvY&#W(bFC>W0@j7oE+V<*3?u@hi9e!~z;VP!
z380aD1d@4v<mEgy;osE~<0~z0M2~?%EQ}bL1l&HQ4AZzeC)Ac7+Kjwb&QuKCHR_3F
zGHR}YOQbL-;B=oToI3*wFVA+ZGXzH<3V@2#_>*lL=Zwa5vG5Gj)9nhm+xDxYuAJ1F
zfvsB<Q4OGS_&A<tMM}QyTzF>8Hk+;(8l$|^)HG7RLt_N@G$F=d_M$7>t`+I1N(?iz
z<^WLfXhWld)0OeK^U4xh;kmdU-={O?Mbo;6!)@=Py>Kf?`SO8#$1Y2z?wl?Iem<UY
zU_9kw1YIm-s%&ERf=1sPs#bD@(9qJPfnYiSoqb|%J|2r#E1;h32xF#W+;qkiWp8;M
z&Iw=5LJ#PY;7z{0NE-&g{}U5&;GE{huAw8xMO5x?E_ZL(4`_<*YHv4V+m-I0k|#%1
z0@;}9g;1cqr?T<s=n#Hx#pgFgr9veW`L|;P)}UJ^;}|x%v;_~MaoG{%t#3{b&EsYs
zO=mZ;suZcaLOan^jwpZOAF<)qfq!Y746*QN^f7It_K5P<0oHGcEzkUinwYWW6W<@m
zGe~(p5yFd1s-tOF<(>uw#2fE<Sj0><r>?IIj>FVelq?Daj^#~K8w~opc@IUZbE>IV
z6D%iPZHbc@v~{CAB?UW1Muc;BeG@s8iM0tuP1dm@lJra642H`+W?IS!Jez%Q3JMmB
zlDkT>$6~W3tiWNe+Ui&urV5}!D#kvguno8!UTAqEj*yEQ%D=0zo)B5>*Dufu!Ty?-
z>tS=P9%{pyiYdA>lhD&UVIZcGs$CN<8;*(+&(+i@f~g*vn`}Kmpr+RmqE`9Hj#fVD
zJjJ<Q#9P(e2pNFuLK+T!%AK94j8wJTA|p?h6`|5Hvr6T19PZCsSVUAQces%E&UE;u
zZD!_{qv7i1etA@6N+`8oEduZ@1fUEcRCPG)RZL7qaVg{S<KHpx!@Cy<1?t<`9oHpJ
zGrj5OkU?}-Rj#U4xkAD-s?s=WVMu%?mU?KfTvdp_m#MsSFymwC&w558PdAE!qztJd
z&uKUZeLDx(h4}s-Gla{V%kI<>owTdVYd6d`kawLWtPzzT3*eugSDC~!SXsV5Qs4Qc
zG;_UQa%{#*Vhfo2PC!CKYlQuhX5|52{UatE{{p$>fY0PA(p&#*sKg!6dO(?$5IiO<
zf02zpu*^wMi<uFn-A{P+z#&k^QqP;7XVqjol#ag=%@dkUi4!L)IPJH&yt}<#%k08-
zZ>(9`ozj-F;NL-Fd#`g!<$#}S5iW)TI1{<{1-@xAzSot26FIx*8k@CYZRDC|;GQzm
zmQaffr1Mbw+>59@ld_rd?>NyDdpnc}dhHwd8%H2jA2JcPPoxQzCHNp1lvSF~{efPf
z#T`N7gSh+B&COH&=dSmj5LQQRVoejm=N~tU4AX8Z4y3lzVWdj*r959}iEG1C4xBQ@
zp`evbj4vK09Z2r5x5q7DyVmlCWp4o4QQk8Lrp1-=@+)@BWgq;4@C4uN#bF%inuuXm
z_G`O&+t+=)6ALkG8ZPgQKd>F2s$EaqhrUy$`oqI}0UYLeU$+1(b*nm1UoxpdjEL-M
zLW}(BQ48g}p;bPW*2W633Es~9M*?Xb-A?Q(&2VNXTgTN6@ptRE@})2QQg)OhS#s5`
z3x`)eO0SQR&7@FM{L+v>rIKK3vTvX4Pw32)5?`vgjC0sKPzGGT>edO`H-p9(Dxfe+
zPcU-kA(5Ut19>IA^Tn26X58r$l`()GF9d&D4=<Ga=h_4HX1ZX)AV}<}IRIEaMcWJ@
zXYX;Wpkb3v!8L5ceMmS3tZ+~+CHzMdaUvSG(7`Y+_Nq?Fv&K*&D>nmlw_Hji!$Nol
znWWwiaEp|mi70QSm5$U{)BKVygV0AL$o(nCU&Ftb9q~z{P}&7|jt@d23tndv0f5c!
zXzKUH=lMIz5YWs<s;Rd4!#{f>0W!LU>?hg5V)BbIJ}e#_lew$6A*b=+)midYcnSKS
z;3-hx1H6--4H(gPC1nVY{)_?zLpi%fxmdB-HKFkbh~dWvU_SxSA2*~QK`l=U^iQL*
z#Nwmfr6gsp@jU<aaW(*Yj0g84f&IwS0<GHaRZNgzF$t2S#(!n6xuA&8@cpC?lm4n1
z3mbXB(ua+}u>o5RmKDf-3st&+O8*1=38Bf*SRf`Pb{8vwimX@%GYo9q3$W(;HJuL!
z<y%;ws5G#rnIE`j17OLpIe9H5zb)y{QTd2_pbLMD$kF&=$@~B~{TL`9sc!*E#nQk-
z{7uRKIh~I@Up?F-n(Ovw-Pj+G^DxKA?ZAYzUMySuZb$v?iG0LC9B=Ufnl@F$4uS}s
zju0`xyd)(hg*2Yn-FN~?OiWD5!SO)OOAQ78G=j_VD5+&UKj6nP^S2)ZMxM_13LN(O
zY(E^xj*0<CViwSs^bCJ-5DuUs6%4^+e+Iyq!UW#KiwzwIyx-T{#Qxi`e!gAINB;}F
z{_-W1-F=<JN$&ab*8vg><PS~YKnyo}a`KDS9TZvX;U*g?WUG9d=o0vnqbA-z7gj1!
zhJD0=<v2>yYyr0#64C>TW0!<DBMSpCI0v8|PL%(vnD7_Q0roX$4h*uuG0iaW1e*Cp
zJ(P`&pE`Ae{(p(nuf+pL0ZL~0ACqI!N}JvCg}rPD8P6V!RcHKNEB$S)JYj))7mM9V
zdTV(O4UlWGG#2b8CFK8q7a|&(kXjf|Sl=!V4siY=?0*p#K1iU7UQ|>RR`)(1O&DCY
zjII_7?+^ai-xd>j9efKB<a6n0>F~EF{rzni*aK|7Sx5eV3vy{5V72c$>9N!P@6Rv*
zy|9TO98CU2s_ZZT`{uo(-A2FK1M;%0SfuuE^=!XZj1S}rKD0IS{8pub^}rQiOUK+=
zD5^@bmL{?np;mOGm56nFF2l>+mK+<8rr~;80Dvk@uAIwMT`Zw$YSe-7&Eb0Qt{l*#
zh`7dTjp4R`VAO4r{kMbp_Za~8G&V-(5ejV6-Blt2IuQPmDgs&;4Io}N&ko9niXJAU
zViWS*9O`V1IeVBa+=Y&QcFe$IcM*i<;gJL|dv^LZ8~evV3)P4eBztRK#-GuE-`3(k
zdINyh>t4b_!Yl`~>i5jqGe?)|NpO|{Y-3#!NNZllfjzzPkz@=E^dCyKzp`4bMMpE9
zVgU?|-16rG|4hCA*Mz~w@Wq7k4MG&X*%7Y!WP**&s4wt&<J;{yZ`YU5lW3!fu^5(f
zJ7g*A%)K3Rg=rf;phu=nmHSbyfnKx6$X4jx^+A}L$obOD+5Qae*MQ^=W}q!yVy0-g
z^_=5<914oe6G!FkQN!m|3-hY;PR=219UU`k56H+ad4192_4BE<>4TUTDtipv*&7-T
zU32?cvF-i@ft3cSxKujr(&Z!lp$}wBE2GxCGxlNmO4oU1qHfow4Qgi-8i~6MYB`2w
z<E2ig%J%p_5GMbvOOZRDc!ohDhY<48a68*Y(>C6S-^?vepxth5j2*oSod@`_w6K|v
zlyYA+CW+mTC<1vqvz&?e#2uhZaCgEc!WBT{7;*1<mbE*Nud`9W%(`rw%%De8p33b$
z>tsw)w+jTb8_Xs-cYu&-IE@-XOdF{6k)c&b!O>CA%34M!PetBy2lo=m_@e}y{aJqD
z5GMuVjC4|#vtqTg2&IGT1GgxY0i@W*TY`#fWHHH}ld9aRV%r{;99+N!Lclet&ecb7
zTwB8=-5;fLJZ$mpEx9$DV0SwC#N9t`N)RSN+b{_!>eMqtBBDEeGBM{$_b)=E59>qv
zey9tLBFpWzR<2_E4TIGx^-(`3V`TD-aZv+R^fNW`fx88|x_s&6g!K2Jv933~TeDkW
zoL)<H2kz)nkIRitaUP=JcH9WhX5Fq|kXIj;spaT)p?00!@?Bq(PS2i9fIQ}lClZgj
zooz7i-=|3#)880_qX0-pseq?1o&}p5f)ZKoUOdL6DY?GW`I0I(8l*6I3J}3jj+s~Y
z@2ynXHc6~e)5PM86~$7Hh<IO}&g!M0Q3SQL`OEJ$*4gjqV$NB-WUk58e+hu03!Ud{
z`5-7+7gRe6%M1q8<LOtVhGda}y35Mri+`DjVkiLy@TDj*D0CDQA_y2R^2A>G%fP2E
zDp*gFBLf2iBY}Lrx-=dy(Eu;+bR*LsKuT^l6(3b8YW}I{?OlZw^~qc};c9l`X9)mG
z)m25^R91I+wG++qCZbGcz<v+tT@R$zTdt4V7VnN0TJAILQ$3F!LJUB3tsory@_6Qv
z_sD&ryM0f#l>5xu3*}j|j=mCR!(jn($t2=ByW5@pM&pT)qsxt+wG`)lOeq<gwjiv-
zi3b=i=M0?krY~?3i#F6&^um51tY@Kmvu%UC8X-Yb*>iTlyI6tvotE)8rTBASz-IG_
zg2VR1ZARV$ghEwYo&ZM6T0amPxjY$AkyL8g<=0MWFFA7;(o)nE=D3#JCufru$_>k0
z^t_;0RW+mvoA#A2j{=JX<&h0Fm!U($!R$y<2``T~7;S-8-vB0U_nmJ%<3g!19*@f;
zG&R?C<6fo81H^7}?V(OL17*F_J9)b28b}PFi@aF#B}6rTF>5=Kd^A5>Wy1H;n5ev_
zDubIKwNUEOa&>Z6$Kn(`I;EyJ8XTOzVJKJZmd$IqA%lOYu>LtfK2RJuk(k!1Bluh`
z_q!cTpt18raxws6$dy}zAIjOCnV;wmQLw-ymr`{-jkeqVg2Y>C3tiZ7hQo-n6ov4t
zH?e7u28a#ZC1mpqYrfPS?z;fcUE=<a`(sU2s%FN3>f$#F1<J-Fk1=S~dlzU-TGkMe
z%9+8!o(@;;dE1q@oRa%}1OQ=ynHo*%`sl55!}UTcoWvia;i4QWduWSvdEJit?B%M=
zOgUY<NBJ(612L>_PbaRp4F>k&e^o~PeeFPuPy)aiFC!U9dcHmPveJZGP4(?YRc%g9
zGV9G2%25yPj&4s(LFHy~B&z5LKxwBYuitoAiO+4ZU-RCy0lXlQ&URaJ2;{-jcQ7*^
zj|0W+bP`@TM^JK#4zw($9?9-2he|%EKW3?O0y>MB!e{V%r$*7nx|4BAPG_D=Ev+Kp
z-W6w%IGqvzNG9cCM*vEgZVSgWcvvK64WQPMl+5I)fqbmYc!7%fxxIQxdZRB9U~wsp
zkOL(M@6Xs+%;$-9+9k`uknz9r{S7hy+gJf!8zmm_77h56x`a6`^UnLr4dDra$3%pj
zc9P^$3C{vC-QR6!Xvx7a8@<)&j_EV!o%rmU@%(|k4Rh7xQw8#P(fvy^rh~g_jO^xb
zQC&J~S+N~Gi!CxWd7JM%=Np`-2Y?I+e|s?D3lia=hz=mnv|%{3N|B29yf!}pdymd+
zHZPqjpj^$`76Xm#ow+cRpx7n+TIPUG=*;C+hF+k)T$S{TYxeHvp@*XUCv9lAWQv9F
z&e_UC4N?fUpIVPABTN$$M|3zQ4WZdV{k@?0w__cMDL?RT-BQfRWMsTZypI7yBd%S!
zMXBC;gN8GK&zKmp%+NzX1S#s-n_($~)jD^nj7(;17kO;MU~qiPumyCLGj19wq0Ee@
z{k%=pFM@XKWEKV<I^A{1macATcQx)nt{fjUnTG{-M<cZtPQrjsDFbHmYDR47DV(*{
z-^`f*yuCnqFlO9Bi29V`ZFSU)UqsQkYJI-Nq|X4qVaCUQmEHz*_f+il>!>LDuc;8G
zfPoaz%hACX>UsLh{QdjYAvzm1IFMrP{YlMXQ3<!%`L$a98!BN@QQ6)myZUd&VVmy3
zpkgKf&`PkG@i(lp<Oir^fXZT`YYm-#<nP{r03|Y}y|{Ec3N!2yS=z6vO-~T)-&u0J
ziWTjEb6|-kte(TXnvlNZXNU~oDx{EUN8w_VD8%r6h^YK$ageJ$ct9BowhtAFw+}As
zy>T!04<{KGs6FJL&GkV(k&OLq0(Bcb+$P2j>L18;<{xTd&rjEOzs~~@wNX9>nynFe
z<ox2+@q7+|J?gLKVu3iql;VSj5s;PS+JvrJR(6nJ+4k2@8{~LAmHbY6`IikCh6Z`D
zpNLk-un`yeK#AoS5)uQz(^qxt%C=`umA9CG&`<HLKYnM){=2)u&hK&1$iDQ<I)q&b
zxSLPC<FUA8?|hPpy+ZPJIEjeRFV}%V!{dT~9e3mhoe<#DIluyJI$VViBA$HuaDb!o
zDovA!6Wmi4Hs03It8M|HdrO}P`V|rR>F9o!c0SO9GXeBB7J<ij)<)^W7xl8f{{gC8
zF>L$?^Wab4?=M{rLiV(QLAKct8lcvvF4#dZQoexO+zbPd`(h@$TFwQn2e9nKzX{GC
za_4D*@t5~VlmSy^en7x(vl#}^uS){WBMj6p8EYjf2RuBW5zBerH||iPAe;cyV<3wM
z)*8r02IGgtc7qHd;M_8xDf{hLJ5#_fkJbSiuy!RP503{%uMnVhbu2)`u?o;~pkiVg
zh>$NP0^RjcP*CylO&^mR_dyIl)w^X*>nPLkc+@)Oj=&B9Dew@F8ddbT`w>tFs%_-}
zZ(qS^1QT3|8W}%-|3sLXHP1V%%k8(D|E3}zW(T(5p?JgRY;fxb!t|d$%OC;#uzpwR
zzeF1PwLR0a=r{rq*ld2xB`6<?*nT(c)0&3p>eVSK3L09JjucP?zD)flLf&>;%q3Tj
ze~N<hKaC}R9=o0D;QZ9-Neyq=aDiRW1&%J;-=&ypEdpW#Z+V`cv~zojdfG+N!d{Gi
zX7yQ?gxyi`7(IsJfurvG&^$+h()^@aBncF@L?}@$8x{@jkRO99t>D|=8e!meNb|r+
z8*Kcqc!mQ&=yf=%`LjwGAoIa@M7}(hQL<y2jy?N>+5X{<%>aGIqUcY=KCF+wM}cEl
zmto*d^5+o2!T&cBMTa)%)%DQ`U;%i&A=&hsCU_9}J3wn(*lW@J)F=#|ou@n2x(h^{
zh8%x8;12<otQOkGj6a0Ia}Z9jtu3?ZH~>TFB)UK5W8=sa#cv3JzqXW54xfz!!Bdf6
zHRQ;j_yo(c{rMplnp-{~5U)oUTgax>X><Ra-0#z@3OMXEP-s6MxLJu@6CB#?uwCor
z;SVkV(AFTDIvy2Dbc8U7N$SaS!MIZsWPS+v{|b13qXQNE9<TC$ZhW6;4`?Ll6PcJo
zQ3!aP=fy?R$wEMp3=CC%;+u^!(-}K#R<nrR`DD*gNhRB2qRkDUjuMrSkkBh-3-y;6
z09T@FfY@&HJQw;QT&;4=AzXAK*(8Xw>)6jl6AU5X#CF(bs&@>Ae4r8M9js$^ANrU(
zadFm8Ra-{d>`luXjhRu}vzT7q?<T|5OO0W6OsvIsp?~E6rWh3#)P*b%?)Z%8Wp@~n
zJdUntJM2eYaYJOoK|ZpV3=#?G0t`{?FW0X%np_te59)WM4;qJ#RSu5#+0T<)&knh-
zlbrjNor}ndns|<nKCu~#fs^w6_Okejoc1__di{0T$DjYteeW@08jka%em}qlza1PC
zC$}(AbtK18pO6g~fA0u(i?T~b^CT{IEy1`joGP-T$39P?XLQ1#Q_cQO*o+x<%uTco
zf~W`NA1^*Q(l{`p?Wz|MZbQWW)AeG*c-+F(q+!}{s=eWA{jro}2F4RH$5rT3C8xSy
zzkd}30%L~6YC*jpYKJg6#z8rRqDOZ5O0ZLxybzhxd=V=madoowb<L^^-##jeb-_gh
zs27!n5Qs>Hdn)?dAb|lR`|){I({%&+m@Wnzzf6tBpmuM*%o^^m$R3`LT`^pry2c88
z|3)l6m@(ubJ;9_MR+W&ScN#tN;&SKRV=u}X9n)pl7)JfxnEg3t=TI)&?Wl6sRar-!
zGrWUJpei@sv?Ju}ljl>n69hoBM31N!ib^;vMns7$rf1n5-L<y3nIZ#?`tBVfbq}CA
z6yv7jo+1^u$PJhVknIjL%a-M=Cj?A`7!ZL$!=~2`%70rTm%!vIO5n7KQf5Ao(g3tE
ze3_|SF}*&?Zr)@scH=3ZbB6}xX1$RbF16MIX`d$UZS*HI&TRClXioc`rKu&d-mgl9
z)_QaSb*v3DZr6MEWqYB#c5$ZI47zmf5H2N2K&W&@Y5)Tj1op>E)C~L^3rH7#P-EEj
zJh@srReHa&*ag)O4eUheMD0Wi9xm+B!%LL~G9QdD7_6O6a}H%{um6K4ZV>d)z50aE
z-7rV!;}Z2WJ|3kCrveZg1LOw}4Yw)c$4}d;g_Ucpq5%-4XsN-#exGTxho>CSm3wO@
zC+8+d*cY2|{&3&>Tbjf~N(8$+Ij{|*X4P+4u$det$;4fpA1y<v)?3IrojM7mIG<5n
z?$?bmoZnvBRmHfz!no7G(P@D=-H$YzBVdL8ARTIphJ}*iR+~CnpdzB~c8Q@>zDa#x
z`L-*GJ#w`#vZEK)qHb>9mC&vHRblP+GoX)n^0;ed5FYb*H69MDU8ZWa1wV()Za$tH
z^VUEruR+|6^G)^n1<)46v{Gve9r6_chmB9OgT;btMRHxW^q(Tf2i_$PQl|-`bK=}9
zR9oh7W>LazX%z#>fp6Are%b8FskIGd!X*&-{w*=-W-JIztXK5(D5F60j!$?dDzeO!
zq<|Qyw66l4PR}3wu6Wrq4C*LG;r9<zIG*5_54F&81x9Ocvw{hjB}MKO>1PlLI7k@{
z8mSCUtFX*m=HqT-bi0z2J|N(d8V+ZM*HOQTDwwJ4YJ-!{w9J5>55Ho0xf;!4s(k&%
z?cO!-xyD(6&E8R*{frp1T>YoZIcIZ(G6Y6a<iX3nsS#4eLRC2lqfWvZ`%V!;+SgxQ
zUjUN{R33S{OzHXG9DWIv`}`VC=gCy@k~21si{JQVlBDCQZSI@A4_xE9-t2`YQ=C$C
zs{oo%BNz-qXANV!XSU{eO@+C-cic&@FM;f})jq|ak_hr7B|-l71hS1ww91J&7)H$Q
z^V?V2C>|(auGp>#KejAYipK~avYJv=?J<4X6TIm2s=hi-4y1!~w!+o^WQl-ztFnBx
z70ZFL<(Y#_H*Y6>$lKae+||zTjL$a<G;7_CPY_tHZ!V9g-dt)dwd&&=0*g&+%tTAM
zs>M|-S7SxyiLyv*>$)lfl$69jadG=(>3fp$Z0UZoWTY3;BD(_6PBSOBNbRDYQ;$hR
z8g=i0B3r^Kls&mlN7b$2tkn;=g|Y7+^D-s^^`qm@spsAdVNoAu9nIOtn_hTurhk63
zub|V-aZqWY2vm_Kl$+hAp-X@uWUAK~@W1c0|Liy5uMhFVbU;dG&!oR{sJXWy@@Nd=
z=}YU5?ZMXJ76X*-B0R;S@uR^5{WDLrz$R1J&%4g~$8l`=iiL7w^C`zEyE9cXcQ@8m
zQRATIH?NnPoW_*93eDU=_McFB!ZO8hbtpZ+z#_!vFxknhvwPQfwitoF0#dzREicuh
z26#10RM9G&KE3z1J)9oJE*ZXbV|P5te0DX`W6NRO3O~NY(xs@``EI_xBnX>P-RXRv
zO2f56a67jrLo%MBJAU)(Vw^RwpMcGJJ)dokpk|C)md^7!9gp2wbc(?qTB6<c=PC64
zBJ4S&_WbPfTbI#wDN8P|E-{cEnr5o>)P`>b$zP&kf$V|8w}OQ=Ar#WrqR?Q7*6H!;
zqYFDDr{>*FXlCa<JZ>x>P(a087}z)we&?rU@ut$G<@4$s(BM`$(oN}v(!FkFCVC-$
zOn`On9c%m=VzS|*6@DP0pJke;5U{Lo>m5a;fa9*QUw@3qp3g{Nlq*4kg}>{bA#C*a
z8_D_Dw`%6r=RUSTU*kQF^Mu!512C8+strrMuwZ*)3c~<|1g^crRH<VSWu1LTZwi~$
zs-M)pTI;KCOJ3)h+Fy_6O;w5hF7i<VAZ-YNgp3Y3aoo2^sG`W=yCZO3;qm_w0#YzA
z^Bag>N>~aI!?550&mpv2hyk~GL&Yac7@ulz`?)tQtI$=v7VIZyoYq-#WCN8JfriuN
z;c#YLr>EGZ#uKSW-#SveBglG!Je#q19$l_=SyyyD<xfJfUK){U^1}#Ye+2|96<BTE
z*5fyzX#DA%m%oJa42fYkU2{W%Mea-#Q3Fjv7(1eC%F4xjK|PZ^_uioZZ(@-iknv#9
zYSkS%`+z`5XNcVMNH|J{_qw&sj}QO))cq{NYH)nIf-nqVR$Gj4o&DVo`Rlq%>S5eg
zib-pce;qFm<86+XY{mgsy}g1?_V<W~5rrt}Acd>~*aV7}(j=8awejKYv7Ulh1{uaj
zGA*@Gs2e?}7ANiQZ!5Cgn<(_|>Y;|qm8h{f?Yy{VKW72`MZ3sPX=J5i`;&vfoA|%1
z1O0jHfRGp3fm?nxUJ3ecNbCE@x#{<0Kng$eWS^05g@q}WDl(_r)7#f1LLz1y^s0$p
zjX$w~i#x4|X^5|9fQwT!f!Y0S<Arv~6YQI$**(9&!N!*=k@dz^>Ol9W*Vw=@a%twc
z*aHCEd-MIcozD_nZ~k`Nf;^)Hn{6*P;p|B<x`)awNqwQX+6!nMJ4$t<Nj3)Ho<)(U
zMXip;aw@_$m4Gp>BBJ_vG!HrA-C}}OzP1<b-&K-ROPmCuf;=<H4i~npzdfVVndo1_
zFJgQgWK7KYcxffH&k{Cm*H+2L)z9}ZeE;!?>(G{%d@D6CiX4$!bEE4uV9Ol^9P~mg
zEK3_dA)#E{3xZs@ZE2iY?E4s^R#X@W6e1Iq=}Sig=AE5b3}9wNdK-CIK>OK|3j{&z
z4gl12*4Fu_5HN`F;PRXhq8;MRw7+(8SSuXRZky))MA#UxXZ@o1dg(rkT8nzD^sjdk
z8K2#g)Sc?FdM6-h^07sd7obx*c+W=jHtDiC(1D3-J^k%>x?!8?=!|TFP{7OrUaO|O
z@6b#We(#gy7&Zy1MiYxp8OEEhjm!ylA1*45po%A%c5#1w(4+@+ACxOy-E#|uVdGJ&
zwE+u;nMBIqqgw$R_F>QlA-w<7Q1yU}@a8MUMW!*bXc&V*>?+i73pXz6es;;I7ZYSS
z(hY|o2yoBYT?%V-8*MS2GTq-L;<>yf|D~rh9l%STK-#eg#FZh)xvWIwdJXV!zHPiQ
z@?VvE`K8>ji<N{VK4C!nL0SL)YDN~dgJ>NxQCeI6aFAu==@KD>0Ly-~5m{b^F6&#&
zfq$E$v6{G0)gAIVI*SegcDMBB%qYTw*{5(Vb69{%$J<9NJW8pE3ud@TVRxTY2?4eq
z2=x!^4v@ZTVmQ(wF#a5y9Byj?__bbAC5D{H*(y~Expl;Fm9eH>UKrAau9tGVlVFz{
zgKkurhS*3;0lOI{Og}6?OGp|ZL1IY43~Gyf+MVr(PW`!rg!1PTeZR1Hk0z=P;Z^(0
zN`s3chekc@7{`NVr)DH#zlhsPtAi$7o?>-$$UA~af};j&4Yi8X)B)P3_B=38j?DHh
zufydst24q}J9T-d2vf1=DKSoGe}hR)XRD0PnL*#P!Vd_7`;=r>yBd~F$Az8a1@zZ>
zZ!i@7QRx?K`)(&RhzXzjRqRF3u66tGcsdbpOH4E@z6_U2)Q%8LFvt*IuFXsTWUX#F
z;HbhhttpxER(?WexIW&`D!S&NV}9d6r9gRk7*p@u2WWiaR5|vEsBp#%<9z18PZ;7P
zb-xAXYxKtU+v{25ald?}ov9e^x@u)6Oe#6S**pb*m#cW_dNwrbTQUuS3bN5V35HeZ
z?`t4B1xfQdm)uY>Uo=KM-Q<TU{qukaE<E^-aFF{`V;N-?yRhw}bO$G4e36nPZr#lz
z@B5RYXRU<qZV!BRd0ds@G3%9wZ}9oFOb2w<dzTX!#F(~I{0K5oPTStBODFfG!5=8v
zaApolEhn4=_~Fp3HjOMl%lhE8T;=cFMwu~a7wjx%6H>c>Eki0#ZuzEBWfmd@MX6~X
zZ{JHm9b>_$k8a`H5{K36*_J1;IK6|Xf{G}nd16K4?&qQ}4)Th)7f3osn03QMg_sGF
zhMi)b6BTZs`_<`Cgf}>IJDwd-$Ys>hr+0o^Sw__7^H@q#MB0NJQqxL5vMe9a^$W!{
zM_0UWOyO#}SJ(YoHLuo>G4Tb-KU0Q~8fjvz<|_h(S9_^NUjkA32b|HKH=i>_XDXN7
zK1FwSMfRK2?-U}N!c{CJq9}gfMT-o?7P6@ZG_%e{nO`;iNYSJGOR4@Ykia?f2;49N
z!~5CiGQF`!UD&1Kg*Ne|Iv;wE2IB8^2Xa@e4tpJ$399w3FMDy`UVeTHZ`fqpA1xv1
zdZrE8aP0}b?Di^p*kB-FG;c?0e|x+S3u$)FIiQaJWw@Gqz-vXJx@VPHo%d0~IF`Kg
zLbIp10d?l?)=7CiEAuO45>La?DB9HWq<h^1W9YAM^J_TDS)mc^SF)GQK9d|&NEddj
zgd5D)6Rfn1n`R^IyD7`ydmd~LPpQ<ZtO$2jQ8x%bK0tJ*zP}+UHL3s@odC(Ksu4y!
z$3m)C0ngWDY5ovQ@6v3v2#TB>+egvivIuondV+){$B_4N9gdq8jP$jNz#dZA3)b%k
zEMEYHMWL2X&0A%dm!#oo&!fctZj3zGCK8}vHL*gyb#7-;#ggTtfs#P0vrH9+Y)i42
zPfS)z0#29LCc-rtZTJxe3n_zR@`?hlZh9yla~m#cZ^UYFmm%1&c%rl^3?AwBJUt$}
zz1k6`+BeGVa6PNpxY(NkKBm7pN)<j^!@ck=UiO$hccvBN0$Bm72B>s1P=FAg`hw4I
z$NW~+KA9qxZQW3xe=~evERws!{EB}?=o88#v)KISZ$bM+FTdpFRgPr7A0qO=B7uLx
zgloI*DNnbflixq>;Y?1w%^{A6U%H@8Yu==G(uOmx52LTu+$k?m_3~y7^Ye?3XU<mZ
z6hG8k3}nCE<~x02QoA+!<41b3e`xCeXzgY((6o85wLEH39(Yaj5JYL!VQ}f~V3QTG
zy*hiIIFPbTii)^ol&C?2`D!byhWegl$jqx=tZ0nt!Vm0Gte{06#Dq}O?fTr_X^%#6
znnB{RLr|vg(o!g|_HdpG>FN>=)2rLFRE+cP1Hl;D(5ZtuyW>9nKz}gghJgk%?`ozP
zkDH=m*ky_~W|`n6P1Ps2H`bDdGozcH4zT`2Q0B;npP*yr>b^EyNLWUXgC-RA3rVe<
zEiKiY3#zrMTb>|@E(t8-oOx03d|Cc#RP3+scJiqcLD@Zd%hLf_SaXm+5!86;Sa}rr
z{g^6z2OfuE@lh2@tj;AjbBG_g5E8y{cRW53HZCX*#zw_P$ex}h<<B$C0}>on)D6N*
zq0jb;w?^UKdaa*I{&+1$heBF{c8uPD6K}Rax>-TX_gUrAuqcc98EM_V^1v{w%*C~R
zKf_@r>WUMrXIzF3MqD2Ur$Avhx!kTocoMthE|`++7^4^O728H@^a0L*;zr;dQ8G4I
z$=&;vIErrOj0^4>2cFPeZ2~VPa9<?nakR}5W&t(Kt$Z;1gGS;kiH`o$#4Mbb>D4%L
z3Qm;<@+`<$y02ob^uA`%WX}5Kr9nfV!w~vCrpIj$dU{@W;GZ|%K+HO~$_|~{c=>gA
z3Fn8L3_+$XHccLVq)q_CmHE5>Pa1XtDdz*$!os;yqGNS6t!i~L+7z)CS9|UMy3_zO
z<6;~eYM+P$l^~rzGFVgJvq&?>OTIfA&2V@UEy`iu<$&NkBXq0Rn=!=!498@OdE*5N
zLiv*kPAhXMOYTEH$>~ccykP;l>z05QyiOWP$2R>D#g5s*Ji(P*b=)Zuia8=eg^kLy
zw85u@B>XisK-Ui{y?ZxH`z`WP9bbw&fkv0*1a1lB>*n597iQ50?ZWTjIbQOsJvRjD
z4e7l4fU<C-ZMFVmsJ|ajzpnXE(L`mTeF8tL4lIh3V2?=+UVbW%Ah<hPdG<NqzTxvX
zFq<s`rniE@sKRNVKCl_!@|7T^-ulIA3aOn{L-U%WFYc$vOc$hN^+7D8<!jWw&g6HM
zd9{LOba-*DA;aM!fZb@G`fi{2v*>y4w-yfF0rdff5XXcIaG`)UI|v^ZEpjOB=cJi}
z9V`~73Wyh>PbZo;1S<`Z0Z(KvJ8liI33lG$&N8(Kp|Ba_&%N|@JR`BFII?PBq-Zga
zYJ2Tr{0|4jZ+=NQDlj@o%D9YCUbm}Hl(KKEXJ;~@VJCtNQ)G{eq%in{z^PvqlTb3K
z;wt4jHz`@0&u&ho2bfKuGxIdt%ATi`h|KB4fZZjxe^4>|hIgI^Z9HG6IIH1qYJK+n
z*g<%_&geDf`LLdTVxBlgXz6`UD%a&#dYP(c^J*Mk8b(HVP{CrFt1*c>PsmbUz#VP5
zNh46PmpUI?ML(xXr}5Wq@m*FgZL6EBi{Nd7on>Y>5L@lrfs1-_C+%61Row3B@lEF?
zllz8S;V*~kr)Txs1u3;>lpf!!41OnO@Mb>{rYm~?N4ngh7A&N~p=yY_J9N*$kG?AL
z8M94hvSg>wp{)&C5SFJ~FZS1{xhxTx{K{n8H0+ZN*1ckAdtw45ZqL8?^0qas;#!{W
z(#WOzbj03Yoo+WZ#lWJUTYSlAhiJ0mGhn&NwWZQfhs?OlU@{K|12yeX-U5dsvytHJ
z@y#JgxCm!Jo{FL+A^UQ!$ap@ndE;6xxc(bKTwzl0LY-Cjj1MVOaN~=M`Om>QND5!x
zZN{U(#ywf-BSvtmH;iP=svdh2;cs}j5}JaIVf4sCDxUP{mfZ5(U0gMic^oVxg;U1h
z?JkPqvHm(2*4ZT3giwQ1fb;eau~L~|o~yHr3skkJ*Tt%VDle3=gzC&T)%(<cmlQ4J
z2T6&gF3^?#dbDu05t0W6mT^?z45}t_$}Fh5EPT=AuYv#z99&<a&Uq`0{Uz?{<>u$=
zLd7<WX2{7E_}?UxdECFV)Dmv}M8Ax~K3o0VDi@{I4_epGeosI0Qmr<1m!xoOq;2fh
ze^Un$SC6w%Flys#;IiAgQZUh>SG79cdYARe`Etr_wt<>AW?ik#S-yyS!oj;dLI|%s
zMWoP(g~T(<vUP<FkKI}92IgjBMd?saVve`v&WEooxzB@epb7lh7dKMBaxY>JoR@8%
zQCX8)a*quhs~PyjDIwY^_{zA!w&9fnCuPT|*Z;F|EJ+tRTuub>e6O6vI{}v#FAzTY
zCcPggP9ryJcfLWfc5jkmE4k1@fRMlq9-;KPMZwC+1mXS=){y&70l~r@OQQf=2QlI!
zZH|k?0%XG!)`i_J83RVr#7`x{XZwuwg!Q(A$CMTakQ354kC#!w9w(^;qgeW1^c+M8
z`d2M&)+3?PTCclIA$P`e_vpzhDnvnwg7i=?4$4y(nxd56j0gO2P%TS=<b_Xb`2p)k
zG#XNF^a*5DNFncDBc-fTnb<UwI|YFS<=sm9jr}-e<BjcW*Cf63{bpamgpGqHn106G
zvu3rZB2e?mdS9c8P9u!Y5^Yl)NsaJ-od>^Z7Sb?5NVzC5qJj|dB8Q`-q;bzHLsa84
zepF9A`hS-+QVaG6oeMb>esQmY%V}}2_9WK!XV|ow0WMRFBpr?VPt!MS8*XvxA;l5q
z1b2uk)36cq;y>Xtz!?-J2RFQU8ZEi1^!%3>8^$MxwpeB^hi2eN8deVZj!#s1{(10^
zNn3;mAxFoAzEx~C)JOZ>k&Swk>N<rW3bI98oH5<zX)^g4z~o~<wy05!pa}?7>heet
ziuhgq5P@+WFaLbJK9<uImCB$W_X1(V2?}M64ZU@V7jKtuPXGOOr~sds?YCZuhjp8S
zBxV5t$s}&uNUfbhHXvrEI7?;V{qS+n5L~7N=GS;wf9ZIrUx(KtI8tV?Uasac8XyJ$
zIz{uF^ss0Y%pH~SeNmqdTP&j?o0Aw!23WvA5ZXgl37b)HYcrpzb+TLRLo!tO?*pI%
z<LX(CA3rwfiHCs;ik%AQ3m`)-$vrgLn~pHs!?8@}N!G^g2ngq^hMdJ_gui0?5p+QH
z_MjjKS1-LtkH&I||6zXqdPKfuWIq?^))zu+s_)^KrBit<joMYkK>o04NEx)L6FgG?
zWUv47_79PPF?oEEvE8A;gnyce;@PlOO7>_4?27J+;m0HVgK7IPWgqzJpTKsmw;hIC
z?HATT(r8iwf``JFDzqR(nEmSkf18D$|7;_F*!(`6XW5;NLbsJd!?enzvWcu>Ktz+c
z$44Zb4;8sOj-(Ex$)HUzXex{PsOd@IU;Ff}u|oWhW&b@i^4B$L44)S^GHRuA?_XjV
z5&8%LwyPtB?0+3?nRwve?6jh+5?T{}KH2}eAVmkmK}HQAJ^uIU1bMy|^nmtxZNo5y
z{%ex|9?g4jnNUS3!I?m$=wj<H|5Xd{f#>=G<H+6A{YPK*4~6mSVHZ+H^!onKDf-V+
z%Ao**ksIpLmH+3Z{W-IskFbLtVXsKzk$&6v|Foc)#K2%O(<8h7pM?+O6F^A=Bl;-H
zK=}VnkI=(lgeW5a9{~n=`VjL$2ndAh^87zqF)ZL=Fagr!i9fPJ|LY5ILckjO5O=x!
zf765UFc^$vNtS=#Djtxi0er6o^la99vDqD$tCN7h3_z7kYgWbiu~eUjH0&8{wJME&
zKtKeL6A_QepCWzv;Yn_~nhE6po_4-%(l8LT&lg|B?r$p{WB^AAK&{JDCYfA4`3%*M
z5J>$>cje08cip)<lc`jiL{I~Xh@LQ!|Fst$<erZh#R8wliCA48>h99HNmJJrASpCt
z6U~flGm)q81eh4R08UA=1LjLP0|?p`g|*(4HHJd&y#GpT{+w61mmqa|WV&OJ@%VGO
z;>A-Y0@B_~O&UdH&%C03(;)NekpBt@{vpuAu!1Ihe7z9WFT7BrfK@}r2J4+|vGv*U
z|JNm?^5<)V22x=Ck-m2`^21%aYBapyez;!lsxtq&D@DZ~PKbxq!AOmllT&$%iCX;}
zPV*^vA;mvM;eP6hOj2+ZTp%9DJ5UWnwIx|f6Z-<Jm#_I$@ZXdL5Yh*d8D2Ac(qem>
zYNCs!<jp%<r97_rT>o>?GsPe7BS(h7@~3g~4`SMkoCfBJ@A>~I0?|cOaM@Usr5~Zk
z2Sw!>CA4@U9j=xdfHzCJFMnNb_RW@T3srIbhFCEcmFle`=}a(HUPC^@e?2B&00`KL
z0c;5QzsW5ms8}z%`aTX*(;zc(&d6_)`iSC=7ftbFHnGr*Py%-7Pb=f6mK4o`EX2YT
z2B`32o9^!@qEm!f0)Gqy^agd3jSD3RCN_cr8vaG#KgoeKcozf2(u}!cmqF@_2wuD0
zC?IFk#Xa^+qA%f`Z6|th$8?(O8IX1zvEmgytT+7tAk?XL#?7OEBCno;uL0e2_KN7S
zJ$m*%01jMlYZ#-{^qTMifsm_EQJN{0I9_+}+sE4lB&pKW;b!F;U6iO4cAp+J0?CaB
z5J$s8Nd(KYg3-b^B;za#v?3vR(Rw`!oh{zJnLv6wOSfyLL5#T18mI<7+N)X+ODH$Y
z6bJh30m*yE<8o?%g)s2uazn!k$WZNOd-MQ#{H|;%Uh((vdH^&x$!(<NqD<=xdCl#a
z%599VH-J2($Wtteexc$P>%}?`0+Rocd4=8UeFFumEr-5@ED|4ES;a1`^vHlMIDgwn
z-EwrjQ^Z~Bcs$VP8+Sk^F-J4;^i>t|kA2~X1lT*1_ogmZej_E6Jz08I<N`^>^z?sU
z>`Wu@!Y?8+f~$h|6aDxl=(9_5S2xFBk9MtJu2rf8iq}}_>0Y1Vm%4lv-<rw@1Txl|
z)l+Tkb3mUnee`|XgChJ5oiFT*x96Che&IS<iwF}y{;OlH_}P9Uiy;W0r>6JSsCSUP
zI&&3{p}AJ*o^|xiUpQ<S&9yG7r#oS1x8JX?XLBicIqKT@&@<3vLf=u(w(FRyR+p^=
zuzqKqI2}=SMX+1vZ$DSNs>u{vaVLfgg5Kk_3C~c*#Cpzhdzis>Y@-1n6WrPyTbqZz
z4Vh&pcj`{0*6E$?<|-d(lgnTsLL<7gm~?zN-HGX7NRJa7B7ER!-k-ZpaMBtH!j{j}
z^<VBM)yLoE;6C%gQDl+0cWcOWJZ_K8^rT<)-*?sB8Q-(&z$cSbCdIiwqSWbZxoYz-
z>IS-OW3|VHgY(DVJpp|@y57z+*X;~LAxFBlJQ}4c+kQT>|F{C^Zoe?PX(|6ncQ#cJ
z(n=r6<gIx6vtle@dr~KRv~yV$Z6-WNSB<8iCl@FUGx!C~`mTDzj$lbIpZEZff>`6D
z^>C#!_2Xxaiuo7P0hmq9vRk7??(XU9_jC5fndgx*oiCA?V}S~m&QG!{y7NFzT&-?A
zf_8yfUmrXOMyCTY7Jwhbd<|@h0h2+B0BEVOpw0$(Z=a3iNJYqHiNm7r;B(kT1KCSw
z1laq}vfxL3tVXbwy~?oTpB#^QncBSp=D9?UAgpf@^*2YPjMN~2x)fC`rKtWWLAF^Y
zl}Cv}ygEy2M*3(vk5RYPXDIvGRG9`@p9)h9bKV5*msiDCAMww}KhsprDM+r@bF*p=
zJ0A0#;6Q?tb%&GG#h=of?ZS4Y@}_DzEVu@*CEKs#K(qpQ+~9AE{uBhUBGZ)-?)Lz+
zJb{ZelDvtA<O5P8>CCH3t@faU{CEQH>n{Hliq*opZjA^+*6$jfF9{Z;X=Mf1O_Rda
z9=K}6(DPv9|M@zUX}%w{y*EVD-TC-MWOX~wx}!VKYORjcpdWAE^wk;9@h)<%Tvp|?
zI@}%=>v^;w0pBEUX9e{{j+Y`syt-%SJLmb$w#bl$7IcrB30UoR1v4ny8?|UdV!ok~
z>x^}7jpPI~G`M*`wK`}(iW^$RDluQfOon<?B{EZaOVr?u6vo-}`f27IP|G5PYJ52?
zL5s5j#v(wkPCZ?LJPqFBXNx7hcmxB!#;A|xa(gQ0S$frQJ`aGpc6%bo0!Kfozqz~H
z@aUIj^Odqv#h4c*Ed2JU!{ufuXS&ik=-Z=(L{@WREV3rMJ!qF;>y+#BdsF?#<t9_T
z)!yQ%JPl0d<8Kw*s+56-5c)@L@9qGpNKksD|1t~-i$3gZ-Z>9O5=xPuWDIMh(RD{+
z*yUo0;%KOY0P69qJObWD6g>fm2y5O+Mb`AdeZ4x>{ch~}LDRsB99&`W_ILrwLV>Dj
z<q8SSr6W>+x>A{4L#?ecnGEm9gfZ5!)R%+rGLFpR>7Cdrov;WOS+)yl-n*6zRCV>m
zLJ`tP(g!z#;!9T4=@|{>C9~u#g$`2=ugY0l&9uaKXtfl%L|Y>%Wa4?w1N+BMqgOXW
z8-vdG=V%>7N|);v%#iHk@l3_L8CIrqzO2Oz4{KR0UBJoLk9iqu%yO=vMSeS9sEX&J
zL*BQF_F1&3sZ2g4e>gUKlKCQVkryjrXq;-#H>nRV52!8hk3ZFRe#1h!5}N~9Pm}H@
z-M)QQB;NvmgCmp7A<tpwA}Ab+o$Yop(hV3^eLOdmMQUa0A40L7H(cAWI=<rrD>L_P
zSGlmBFe?jr3we9RO+n~#SRyNVesG`Zh_XGp1;=jJn*n<dv^$XGRw*|zp1nWWnUKGe
zU%M{fx+7e6orB#AVlkSvk>{6R-=A~GhVTsb_c*ctOig0qdqL228=5S)nT;EqPH-K%
z(|Ps;d$`A!@C6feG|*GQA^6$k0ks3N57=_$jJCcV`ZJphu}b>|p0Xh0l<_^8p>$T~
zz_K0pd;H_Y-8t+546NV}i1>zVHoJo?3TE#X1~G-Pzl1W=OhM8ix}HsGqa8HkJjwTj
z-x!0}Z)i^Qio>w%8(8-w)7K8d=2j<gSmdEn^)vHJGWiaZ18lu>ssVFbL6MCRe|z+<
zZ%Z-U_WLjl(grN#IZ4Bw;EyrgwDfIR%!kHDVa$l-0|D;;SdMEO#{fgblp6hB7YU%W
z(l{Vj-lz~(JFnq#yiSXiKI=5r{iLD4G3WgpY^sk#p-8It(WoM79`7=K#l1Yl8l!E)
z4s~OY3eTvta)sMyVy}IZy+|Cj{}_37ax&1YBz|pPT5VR^(YE${mQ*4BE&(r=r$POi
zw;v)%G&V5}i9Ohz4lj+6kjIL2Ih*e?glo5%+a3G1c8%5AOoe+^*6C#1oQoKb-Dy-~
zSa&K0880Gh83jE7H6@(*6ARLVx#$VN3ufQT&afbfMLoOKf_%5oSSH(Vzc(yK_ZaLb
z7h3Vd@^wK~wjtk~D!J$(Ar8e7$(tk+(80k~YlMUWHORHnM2Q*M4BLFgZAf;#>N95&
zJPwfUIyHV>v_7|?+VajOC_#kF;{(EWyqcqp-J|U?-7YJ`(M>S(Bl-;AF7ET!^b7Pa
z0qw}z_Z&8;5s5U8%rg!)i%FAy`qAaa0faEhJ{P%jNFJo=F$R`Q<BgTS&Gu-2-D5}M
zLU46r`<*Wk1mN^mg!Jg?=``HIuqjVGC5Uo7l9LTlCb*Dxc2WEo>FE2xR@0s>nbRA?
zor6IjMLjxbWRwV|z}D6aI_9)&#bU0n*2dP*?{|?`k7pVK(seEE5|nDSQSmMGV&@g+
z3+;5x5LCKNIJ{OH{TMkny`Dpa4*tS?heR(^Y|Yj=zMCp--W~>z1XUR=Fbv7$R*43*
zR2H6|kF#6$35@tEo~;wQvoJC`pGp$gi_j5p4ewjFbgoWsqXI1YR;2<45YiI{%x&Y_
zlOLrZO*e=DjRPn2s8IUb{<&sPHe9q`#44l4+@RZM@9;{X`GXyuT$-2V{g*mZ@uxu_
z4o)19l0POZeO{1%v+%JDYoc)SF1x){BDYjgXMBn4WNU72lsjvjF>BO#DMzDI9s;_{
zb^;?Tf%!As379uD5-aq3`*q3K`p*Yxr1+kzZo=ZVF{PvrC;$8Atb`3gGj`!c-Wv-E
zTmDf#0}K}`pw=xS#R$Ku#S$eGv(QOXv$#~_#o7HPZ>Ct}htI0_!gB*m;ZI*AilX(w
z&_jb>RqMQVD$_4mYk^5LOqh;PIzEc-;~;+Ig(*e-b?nf?iuJabJqGL}pQj6p|ILB>
z`#ui0prRV`BKx|7?oUIsiJFZE1Fj==)D8Uv&6M^zAO{B31GcrMd+D8B{~W0>Z7vHH
z$D416!*Ya;1=kc<4CGQNMg*OY(K~5J@EJ)07TgkR#cO-;oaS?S84dcyuWSfbL{yLK
zpQ*4!=9J;vaW}|tnlzB8wfZrr>aZ++!~;va^>2C$F*bH8zdu_OEC5j^q{+vx3Xg>+
z9E|e}sBCR4cdGVYnkk(7!XPhVxmwpg;=UY_TE-(0OT)UK8-OA44lSSz{YQp_&jP$8
z2u2kCWviBLgTrRWB8+;rvq8hR7<z(wHj}hb_eHmn0Geb%=7DHhW4zpLjz^iVKH}1j
zjFU-M&>Ii;e~?N-m2)eMMS}o(Y*PeMY{Hd8BrHc7%AG4dDOS!b*~Z!NC`EeeLOf$z
zthm(bX@JFQw22+`G?j&Xy#%Y_essj!=9P-{<-3-dZ5Fm1s=|uKP@SiCay@JFIgtsm
zWn6DEAkllpJqT76TnUrUuBhk1+~bHAz70{>*v;!=-z^`5g>E2zH%DNFKvOB=z%*tG
z`&==&-_3xtvX$vK=xql)YPA@%PQDthx<Aidxaz+WfUP+lPv^j0;x;VG=;j&qt*t#x
z_?(9mDsvBD@xmMd7?jr}@l$~wm>D=#;!F7KRsjaR?$tRcOaaRClP$)1(?)7TW+_U?
zjpTDZ&vE0yV+ier^43L7k-Hh7-z5iW+@&T|_XWSV22;DQY=$~=8*H(c67;x(hiP0e
z*yYxSM(-0JJdU#FJA=`otEu$pTM@hw(r{kYv(?6FMrz_hN9`z{)lWJ&naKk2)J~~l
zVUGwc-avU8L$;+h^Fn?@)&#+mLOq@b!NvtUz=rZ%`PF|Ou^veJmNWvi>xkDJpl-UA
zn^SBseF8&=Gi7(#!}!*X1;F^wMsnJGfcO!giAeCsYlSVjU+%CC&vWT@)6o=7hhJ8D
zOrNh@wMF_>;&m9#`8aDKy2-aV1o#QUIPSx^kRTzP=ig?}vf6{aIEhVgFK&t@pfxAC
zp1x2fw%<M|VkXe!Oj%2D+7^pkor%tqbfYxriqJcwbKID7%r@aHL*=BSw$wi<qip;V
zT2lbA4K;zH0F8uAWFd9fzFU<w57AeD>J!-e3S5!s5Ny6if|g37r1rAI0}l82+32_X
z&F6Em?Ty3;I6UvVO=nM*-qP@IY;|sZqz#J7>QRWR)#B9!QkfqP_Q<Hkqm9nv&%6U|
zL%rkVH9a_%R6m-2GNyzZBcS7F2b{!6Oy5v?y^JSG5IJd$qQ2IM*>5{|_0zQ#;Kq|T
z9$OMErhgHqq@e>^sqm<5zcXQ`dxWV1tzXKgP^7f67dRO@G<63VGz4QoFeEZaK-a;Z
zbamD1VG6kd_PJBYsoZjzy2#%=RjG1U#nTzvVso%0&*XCNT;emb88<EaD^{2LTYX!S
znSoWLr<=!YzGqx5dc7VwFp0Nk32-(qAUV%1hNjQLJA!wxEns%ePZGQq=joh!9YzM4
z!JjA77!}{O77u+OxiSKsmynljB0b@<I$KaO-`u6<-moC?E~Q7Eq@pC$yNF~qW{tbj
zBxe-fU2#K~eC4hhDSat314}}_9m=xIqd)iQLoMsH3wQ<G^~+QHM3@+WZ7rk5P95tg
zf5O3I&rd}WK&a<mVT@Y$N}%;Jd)uWU^q+5A6iVpgNvEEvcp~Gzv@HKWw$3^#s&{?+
z(t@OdG^j{-OP2zIbW1l#$IzVyA>Ae2-QCj7&_l-z3`h;lyZ!#odCytz`&-LDaIs)*
zX7A_O_jBLZ=em5!z?{&ivj7+og0QK#rc<bCZT$=LPt+ERO=n!>9ZG1&ZFmdMK$qkS
zp5w%$+_6BQSuSo*Uw!Z*nW6*I$>^jwBvMT0s=0ao$a6Wjnx_2KrCB9C#zG}s*xL&7
z6`NPxP;38@MgUTPtp(kn#zm6*pRB>|Rvn~P_mDG^l<#{Q#1@V*7uFvFM1vtx*tqph
z^gsQpZndiTgb<-6g*#+fmT&vc`|c_1#Ho8+!fPuB_jCppU;f<#^#o8QZTem$qXmr#
z8p;A|yy*K%n*nu%IS<<ty^GoTSABSmUpDT;tGlu87R9C;5`6Cd+*-U9SV7Z~7!4Hl
z_4<u*wwFxu^x<wGQ5h_WKiiKLM4PMEMEPBPckFRe*a`$+QMupnmhM?><LEVBZHa_F
z?58h=BoX-xx_#xPdbMyGKg15R4VScNy?1>0ZA=b**8I={`}71lNDX^+NsW}s`FSr&
zNbYxuhK+)tkL@&utn8GoJ>N*vE~dF4>O}+c7Eb&LSYNlxUhd~kFj>*HUB;J#JDGuZ
z$22my?RnUa7j{ZO)^ucd-*wdw6ys#1<B7S-1EAO9_0eDf-`;P3#L>|8Z0zwY4Uhj{
zQzmf}0uJ;*J<$o)@QcPZ1VmHZ^6lFM0;F6w%aYEcRNm5|yl<v|UDyT^dVoHKg53$l
zIUt253&mZ*c7rW_T$Qg-F*o!k<#bNxv0GAxLX9vZo;*y+T!&+yoVMRbQ>wPQ;VcUt
z*8q)<G>Cayz#br}W@^VRe(qT8{wPE3|7F;q^t<F!LKMfiz`CCY+!o|J-Kz;qzey-3
zoem-XbN4dtl{Lh28LtJWUH)v+PD`x5nV%BO&ivah5)fU$Krd-~XHr%Sk&RrOld~Kh
zpIVF=x12T_G&MUPh)mm#k@-B-RNcE%h8r7z)Pt4j`O>dNHlcVz9tAY>EhU{qWmOVm
zF8ff2n@)b@Wu(IG26~-jXpMBvWP`q?#`B{D2^2tBO<67IHH!K|X?U01inK&Td2>_P
zefFK{*Y-JiefbR?--REhpW1)2$5X6k?lU(YyvkX0Xrl|gASD^Bvs!x(7<Ok<%*51R
z!P7Oom6s19@?U-*Sr+WVz*=>?p%A#3`{TTEhbD2No8DPeREOLzAbqg=J4SyXn%vmr
zbN9}V8AmhHfIqiqqC9)m)^X_0m7?yQ{O*BFpVNLb@y4GYu3g9S^&In)JQjQ(F_yxR
zWA+{NRIt>QYBq)ZFfu#1c~8yFu}>R$rl~j)eU?JLGnk**(BX#JZ*2o&4C(&-`|<UW
zca!w1OW~Zm-f%o};^IbF#I6xovdRT73a~ck@l5K-&8xGT*WRij;+}vgU3yA)XrI?R
zafUry*OMVQ#GfMPJ511LaiO<eMhln0EpGQOsBc<Q?{`~wefM=hN@=<>OHzN@rMEV7
zls1HWSxbmkyaD<qijc*leU;Fr*=kD5f)IhjuV=Y(&!XOM!_j?jq~&@jl!kk3=;(B#
z{%8<%`xK6MqK}6Oa;Wn}{qo{69D2-$$HKXQty-~?VL>{MF^)nwyuX(rC~7j^``LHT
zrV#FTv|jC4G2(dR`tIUS5*?w;a-kFD7MYZxP#)Z))eUA>5ey&*@=4>Aqr8_uGSD@1
z4+%N4KDUzq#sgRQ8~z1fVnl>YJim!dkGWGCAM2PyUT0gC-H!p$fGeSiNgQ!EYhl?w
zSnvJp^(|s*FpE@*G~&%qg*3i29)3N4-`^07TivyykIZMSm*)X%L3Wkxe7)O5`=(6~
zxSHj9AJL1tse@UZGRt0b&ib+~w6mypJ}rdw7*zo_IFU~8M)i8H?B4qaJ-k}DXI9p|
zx5Lv=8X=Odl+BD$-rZ)LsXI3O>F4YHd$N0i#8eo)_4Buh+K91W`M=fj4{>!>K4QFL
z{n=B@em8F4pKa1IkSz?8;;07e#b4iwvF>hq$ADK*R?>Vqb^IGBpViUQ1u}vI2sz@?
zy!y*Qm1rFE<+7gyqiDUqit+s{b5S=(j3S)<a0i&yXHnW6+gg5G{*mT^dJ>Me^#KTg
zFe{6q2z*0vE&V1L#Nl%#Kd_1my(y1M4C)HSrRstKosCK;-ob*?i~NL^*+3Y@Qwy#2
z9E++O`uFP)i<=%FIAFN>2W;qHo?>uQ)ZuXfog3@(>5^jdi&udd(a3a>d^-6R!52*_
zG&PIob8<=w7Ou4zd*h)J<jsisY9M+)?WSuj&l<%c0=W&<WEMwyOk6qYGxzr8X5+`3
z^XgSzW7p?YnYI*PAq{u-1{5bXUv-ckEYOYU!a*`83#O}M@(`d?3WT$`*F#1V;5XBn
zdLuW!Fg{Ny84ZbVj;kOrG<cNJ6W*Ky%`EBo^LPco69d^nS6G@rxh*m<J|J$3`R_T&
zTgJeBQVjT<Qm955>_Mr2RCR$&^VEa3r*>eI{Ur%;(C?=ZPE$NAl_v5!u8p0TwPQz9
zOq!n4{48>J@{99D%<sMo6+T(+4-3^JW-<Iqqn{Mh=o8US_s*DPZ03uYvi$!fs63$%
z*;SF&YAJ2=Y5WqY;%t9skfouXUDeOv+~j3dI4m!$CT_3%fyQ8y6CVXd{}spAQFU`+
z6O)ZaBCM$kaz1@krMQJZF#;|H+Il4#<t#sV;Y89yo7a5t>!i<7Y}4)av-f)=)L^No
zawH_8Wys*DPe)~NjvSs~uFX}1D948l0dhGLVVMbE_e9Ujmg5d@^E9%6UG^(&=v?WG
zI=PJo47lnI0%m>MQ%e#5!Na1@Q@`1{e(?c#*^hp85LU~n6el=5)|oU6m2~R1x)G`?
zdpUJX9$n`vn>nL0L^Pblxrg7axN&2;{q;57?Uy;Gky9e(dWa8Ww17#hz=$8>h;(2-
zWWk!+@4WcHWu`!p$CnEJ!I<Y-B~mV#_UsRR7Wn{&fwud*cS;;z*4x$>-C73zw5Z%J
z_5I0htNocXDg&v1{!yfTutRiYTkIeqsqK2%*P|d@uM{PSPLaeeImCtaU8NJGV<p>9
z-;{w#za<YW!a^7~l2pkf{o!^T&73zPY(ivtf`K*1C%mW5IJl)iab2st#d6j5<ZP;b
zBsYx4tvl4NUygU|0tbb3ll@cbT?^BcSBcH?CpuiJY2&KYN~3wMaaxliamVAX-*yq&
z(IZAVfE(Dz_D9n((039n;tR5VS)bV#2uXT=AB4LD_I!cz{puncL-xiCh(PUXGXx?S
z!ADYj-!{JA5PWsA_E0s>(97V_h8IS&aem-<3ha7%QFfmjdG@G0*L@uin?4F^JEW_3
zEW32-*MG@qe(Xu!XRgF({#(2Gob|htum-KVJ56-0H!ap0B#>XMk~q(4X!WNu8u3Z{
zzcRppQ$M_QsB`jxH5{qR`&a(N#d2<fEM*@<_o?woh#V&d9oVM35?q=(@i^M%i&Vz8
zQBaQ6+Y5U@To!0IaVazO&njNX>fGxCP#Dga?K0K;SWHpMLqCecwvc7^ySX9z;6Sv_
zKkmg*nD#%7--d;>_+PgaG+bZnhUreoW&!)2hi`}EeYue|`KIsXSHFhtOW7=Q+e|&6
zl+n{cjhzh$Am5n<)9vFSn5C=jRQPS?Wxb$9Po74gzPRXiYf^Oa<MLvnG<cio|6pB<
zhX)AGJ4*0UO%=RGN%phh5z~1enfVWT-PtMYP0;Z8HA+3Ok*z_U%u8ql79xP{SB>!P
z3O*=w+fzIw>)v{X?f}o+&!x$i^K7q>03PLIp5B0IQg949hOOctKDn%=+MiP1PX8$B
z^Xo>{4m+jBJMrM`;e1Mk(=Cg4rz=4b0u;GwFIRc85PgZkHywWlX0_D_k2u}FVQksm
zWOKYPoR`f0l$D29i{DoDA=YvtbJYye(K%N4WjpxEOa}GwR}Gq81B!B*S0)9z?y9t6
zW`BM~vw33PDHmo<c+t@1I|yw5+Y6v6m(n*x8;!R_tJfH*KjID?6MmI5AZTLHmCWOH
z?!gUvg3;s1eb+CsCd^ebQUc5dQjU!{HD%z7S6DII;Sq<2=(p2w)(GZ*4_T5?jf77!
ze19hIeE7+4qV1bE{4N4DEEf6iywD&RsbkN*FSUpJMf~~69L`YLuqXo`$IXOR*~UY5
zOYk{8$w%we_nIxGL8Lp;q|Zp4!iC9;oS)0dM=*s<qvmqum{sRy_yfr8ANr%AWxJQR
zu5WAK<86j+AP=BCMb~~c;d^VMCz(u%B)UF~T8qlDV3vWK7x?CyjIx{}YMqpj<`}3A
zpP5z#n7lv^9?qER82htIhF6uzErZMA`nI9a4=}Fd`OZkL>=N7(8&LW(LbI;M{}B>&
zMjRC~Lv>PZf)TXtS)<N)G|()vciR<+@;N%lqVL`G?hq`6z$E%v19m@}y*Q`Plkd(9
z>JQU_Y*ySR`4WLRy+k)pe7@=qWwS{f1(39kHP>-#p0Hq<6PwiNm@DL1WnC9c6h&d9
zd@*`gJ%F;UR;=o2DjwiX84(t~*=Co9Van)rbo+E#=CjgX^%3ub7RLv!yN6{zoY1##
z7wYlHoB31T``g}Z(AS1_n~rGtSkC9X4_!~a|3e>Ln)4+JNna72E+-4GaOCAV8pGQp
zR$WFV=sGjQM`Q5-0?c8RQ4WU6+&^}Y?iP)52_^U>&qZfahUs1Bu~FsDnn>_#%*V(^
zeq+#J>Aj{DbX{n}3w8O|hNCWcv-Kqsr}5^upiAYma9Z5pWtyk(49ydRP#g5HHAn2H
zP4ki$)@kl}BaZKS7%X=DL!YH+kR+F{ILi}UTO45B&b8Kob+c{g*!H^8icM)}eTny;
z_>Pm|ITp!3B7X#=7AWIpQk}sI5Cw*tja2O8&eGYRxLdsA;NfG<G#j)2?;6rE(Wa7f
zFRWjoRb1>VR~Z2CY86MA9eL@rt)q|GSYrR}*c!1@wDhMQBgB^S9$HG+40~JXtxor7
z{2m65R-+25!r?dubk*|4ujn?Zw(@%DGFD+@mV4Urt?q)BA?uuuf&7j)@7j_j<E_wF
zo<E+6)#i?XAB5u$zN{(=a@ATfO=Gt5;H(RSPfpb!UX_|$A_E%<sUMIxc~)ghJsAU}
z+Jujeq6*t?=0L6;FAllyUCHzu&VoY1C55kaJr!_>6}x}*m8uPpgFgaGc`9j6Z+z9l
zbw2E(nwpN|e!@LX#Om5P8mY?<(O6cJJKAwQz`gWDte|04*#u)4ygLKUc`4|U6Plul
zor}KmE|f;U)s<_emQw_BogGm_GxTC02~&^@bB|7eENQ&zH&rRwyT*;-7fQlxS9n_K
z5z793Jpo3P>{7lUGlCVZ4K!5tGo6|~;pFT}Y;WW2?C3jy224Wjj<WG<7;h{RVz6vK
zbYuIMobXlkQ@!Ubq-ezw-3g^3O&Jn#_jYQz!71OWG<-uGA~`qdUG+I(g!V4kMZw4x
zb-1`i24_ebCTMJ!o&6opcSuC`Rxr$2;&n(uHkdsG!XQQw!lCPnFKUeM5l}V1QgH!m
zJqzf*B1Nb34q3708238rL?ON~eNX7Ogbv>p`6(0r<w^qfjR%yDjfwqQdOf8}4KVUa
zJ$AnAyC4a=6Wx_xo;1D%2R4N1`m?kc*slY(2gn^Jr{<yIzLP%&#7z?xlLe3jiqX-8
zxrLU0fP{rYV`Z1(2KLfT-m^&0yDJk*k`P6xJZi5wyTmN?V_2IqusL3bEV7h;cIQF)
zQngkJ@CYZ3dlbinis+O}jq@o;{QVVD0S?yF1MpUBy=o#~N12$pKYHJ7Sq$T&ryhP9
z?M+?A$U?27Mcmmu#9Ww?S(C)Ul5h9c29N@f`F+oSn{f=vn$<l!W)2HRg-_5)e8ubY
zX?5(L(QI?k03#`Vtwc}ylFWMEGr4!STP2H-SkD~Af^$>Dtp2b;fAOhS9}QebZm)fH
z&alIpgJfKUY(9!aF4nk1{F?c^veR8UJ3*s#;bz0>Q?29(%N2Ut&J*}kNByvw!gkO1
zRnIYHATYxIf{SK1I}OQy&O3ZcdtAV(JYI6Fe_0`J?SHzBd`5NXvp4vMV@0a$7u6bh
z!Gy<5(@fCo%858CV&4fH7HJQRfa>-}T!WC1lERPMXB*MAO0n98c7}nilp`XOzT<E_
zSN3PEhN%0EMcQ!#IIaVqKc?J1VC*7DQK&3oT?*cm7%l$&U(~;{8-r(Jl=L!Vj3~S`
z+u40;PM)3Vf~6y80E1VXh~g-gX1TvQL8muAx6x5`g&2G))xcccZ-2&8;57!8Es|UZ
zXDe@D5stm#{J!fL{ey=RYH2C(J~q5EhbCRPOK`y|SN0U!)xM`#Nix5h-C+D~l0RGh
z>06F~bx79x*sM;UrhjX9pC<$iaGem5;GuHj;zHQqQc5YS4-KBtQdHlp#Kj#oN8ghC
zl{3sD64S()uiC?3KlxrgkJpI5$Dq(>5TIVBy~dLBB%}wm!e`y$>34SqZH`Tf+@Ktm
zKx&KM<xp<QpgpNkWCbgowksPosuf5V<=Z~3MT)XdS8m}y!uK+d9AX8wo}dcien)NM
z43wl`;Sjuq4->U>zsPRu$0lf+tE*r`-q~pt={S<`Bcc2e6N54rI!3@-g-w0gW}T~%
zxIoI-%KNlhBZ5*DEUJjvZ+_cAX^|*9Lx%%^HPu1PG*`Rf>!hT?N$cn(ku6Ffrl}0`
zK1<4ojbYa;CZ{u*Xuq&!CRt2Ya*()?@n~%Fx6zVMKU7`~6lT7AS;54yMfy<HYi(L&
zgA~~3bc6~W(d2}wzw3=8+?I|EHeL-%#+jmaLp_#mSG3t@u>Os9)aeA2Sc)WC*2xOS
zXcf*Ie9yRlz2acF!h&L&FK<QH^K<GPK7_U$6&GR*RYFZWw5N0rci*vck|Q6}a|{^0
z^wm3#?D*#qPhieLM}2Bh9jytrxLoN?Mrv#t_bwC}&n%pSu3@l^z2a!-$sebj0xJ~3
zxY9-KMt+#3EOc__RHQVeqxc^^13}s)EJu2M6Eo_AgxQLMM1HP#7Ao$krkp}ux4ec6
zdVO&u`Z?u?$CDfP+;hgwdfO4>T>0CZp+7A6(j!?hwcLLyU)1gNS$+!`#%~hF-4i7~
zG<aEJ7y@l<pbVX@?N__c;<0al%{k=Q4<wTDdn{1zKbS}3Sdx}xZfp~<;K0Y4vR)VQ
z>0L^2(0u(zy7lKZzIW3nALq^Le-%~#=>LW!yGDg4*N4V+&>k9SHFh|XQHBcuAs5d>
zulM;WL)(iQA5?}=uIw~)ztC7b(F=m)mwr1NVyibz(kU8D5Oe8lQ*`DPW62WDa<h0=
zZFUVgeaT|+ZrpwvWb)qp30x2kYNNDrR|vDCgLeLsZ;*IIhsmmN*9AWEc~3po3NPyO
zCZ`@*_0o_JPfV`*A<ZsHWd^m1=(rRw_mz*`P;o<J8A@9;x~=@1)C7)6zD0@8TDe0y
zCdjm?yl3a8?(jspu+$vrrkFL0qZczdKK0d$bX;!;AwQEkHHaHT9q;&{uVdWTLBz1|
z+F@TH01rB(W{}jlJ6hj5#zjcnG|*$4_*iU{BUo?q1-s6s?NbcW-S+Y9liUd$pYEow
z$dKa7iF5Re2n}siL)$6`)aZfc!RFv!cws+uXB99}yUTOVN%Neh{H7N$9Xc*5oVYhx
z*wjUQZ-1OE>?)9_*gXHPRELKiA?lmO3HM4rIP@yAc|F@aXa!<m-EbiX69kbavFNOj
zz}H2wX_}_M_%D!<tY0In4l(0}KEuA+knOd)9~assAhQvW5MFl;3Xw=b!JUvas%re~
zF6xq6Uk-AN+%(_*flYDBbkzem)-JPNpm-1`ALcoV#ME9#XIImww0v|0k{jE$PRHZO
z?j^#K&Sftn%nuAfDyF;rYABif)g<_kC*37EBqDByhR0<d-ulaDJbs&mAf39!m1kk4
z8z_6|aGTc~dP%?$&kd@0HD#65NVmly*0V!m;pP{I)@mV{5&Y>(U9dJnf|ScknC1}j
z7`;dZ?O4tZEPT8?K$JBbcA+I5Ez_Z7;q}!@9OCL}T^&he1y8qnM?dVgP;>fJA)e}`
zader!4B})dN)u|*7!ZWZbC7wU>wGEu`R-2C<JnVF^G#+o1<H*cyNChnJ_msnVhPFB
zy`aAx`ZwyGp|>6LWH8f%8lnMR^v&1eMt8N~581a#A4zs)ioC*76uQj#L}%fvt&z;4
zqrZC22>zK;ZAt;+<EzQ7|5^|~XHjSGCuyB!BQc&9l*w0KEnB$XjP$~vxmYI*J;e6P
z@ZIr?&6WgXMtSsJfXVxF6kw|SUw`sI6Q{m+-c1)oPJ75a(2tt%?3`Oy%2u0v7<;<0
z%St`<?sFw6LR1NF-?WxjepEcbX#1B2l_rDXysebDd4yM8P*;xfWjp7sooBYhGtVjw
zZ{9a|X2_Cna8|e%ZkA2c<s(i)@h%n}I$$fd^T*RV1SI#^?ve<w4O3^ae0~c8-10VK
z^$9JW53y+h8fpb&&ezb*N|}j==`tOuv{{yW&b~5ahLS<0WRs{;UqjR8LTQm=7k|^-
zuF%Z`-bfrbJsEqk9H+J~VCy_<!vvH^iiiaM4kJ1{N(}~yKd8Y9MVAXx;}1~tRlRud
z`rJ=@rSmyKUd|l|2+=NG{M21t*-U~HJ)b40sY0i=dsLGH<AZ<5rmC7uZLfI1*3`pi
z5Sd(x^IRL8Vx63Nj}k8YS!89(@$>1J^B-c<UPE1cn=wYd$jEO`1{_MBVKcx9Sn6_H
zY<jQ>QC;e-ml|zY@vKCEk%#PO(OH8vHR>Hljh%Sqi}NG)aZ>_p;#xcoCZc-`n$xM{
z4Xn45o>*?IA%X}7awn+Uee<%O42?|mj80dI*}(b7fuAT^diyqx-4}(K<g!r|iwf&X
zBx4*<>b+;^><kt6-^$&Ax<(FgV*i*sP#z&+-}fW94QaxOVqB&)JT-*{e|913)i_do
zvfFN`LNLi2$9{{gxofV=cItJZn{(TC|5+_+sB+Ysh7U64NSK}uv$q&;wbLXo+~Web
zP_T4J2pa5frCLh5>s^uzYFq}hPUjDcp;4D5@)b7eh1QiyJZ#aQ8;{<Or8e@0g#k^G
zvla=gy%y}bLgSE?3Z!L%G;~<U=AG}!DlwakH|wT{|MlxAlWa(`5%^P)%M)5*)b6F%
zjzeJ&q24S@WYCTu5c&uz!$$kuW<zWbiz*&)Q%pB19GNrCKBi^8$G1$TvM>V1jOq~n
zdWbQ32)(&Ac2Im*&)xo+hSII>ep2~^!PR$#=vQM!G?@hJB?ll7KaS{6Wkj>l9xc#4
zo^vqX4=km>qk8Qj1ea>U>#ZVzKI|-OT0+iNiAypQ<Kjv??~p}kHd^306~7>9tzCD!
z#`y1<BS{YkA>K(Y)Zo7be-||pcq5nojWbuX%^t3=@ef<F!p`rG<d}LxsD2uTV`vU-
z2XfLse=TKldrvp>%B$d5ngcRyRcs`LB}i(%U&A;AGtYJ=bpf!St#KmwbcnKgY_Mf&
zb>b4C0JGFe=j%3qCJlc*X={Qd4U*#gp@XqyNOgdNN}k1))3#P?nH8lMMXAM{E-dzV
zC!ZqZ5ICAHy6E8ClpveL*6to(2zft6z7Z#w8%0tdhR2X~dBE`T%D4e*_V2`pFTV76
zG{ty0ST|ivqj<S`<^`SNd$GvZ=4cm!g||}8Ts?>101s#{fx&!{29{O|#OYfcuDjp}
za-kK}Q(?e(33K<`RKtsb=+l<8ZWin-i$;l@qd#t>5%Om*?Z%3haF3RgJy19jM>FrE
ze5%%8=(KFB&B)k^a!iU3nRzZBVb=FuzZXW0FhkHgY6Xjf16S&oOp)hi8ao%x-7vwt
zPm3Z61{Hf#R*xM>4?jNz!6!0BU`LhXw@=3DH#fTT<9L59)QmMpbhsPUxxNb$G&$!u
zJu9^8{r%;N%dq48Oxx+SXK0yUfnk78WSrog<<}^LQKKp8csr+dTF`~Nr9cOagn*ie
z$Q&D^<JPCr=1|7JkN2C~Rh%+7e~d;sOB&x(_7zRcBIz~_MU(_Co{bi8DxVd2A~af1
zQvqJ@q^`BcD)D|(h}wF*dDA^A(1bVzS7ux<fX>ND_8tAxIPGHN)ljr0WvjfTW5rCc
zD8S-7iP4?H$g6ul`6fNPJO0`Iaoi@P9=hR%3)B@MC6-OssB+<656=b!e+K+d;X}Lb
zFRSI_vh(M^3!jfN;wW@9=s|`$wE`BkEdt+p<zHJU{VLP(KmHcmOrtjHmYf|H3>ReT
zbe<C&=oE>MRTd8~b#*ec)O2d&E~+?w5C;NiuME&}NZF)-h7!X!FfphLHHxx>{lQA9
zsarV)2Z};#3mC(-VVO2Ab1xAOP!?)aFOJ(i%=<Qnc&B%^ttSa|&X4IN88&)I{}N0{
zRCdEq^T5~)>S}vhvMQ^uwn$LnXc-60fz>EUo~0uzeq-#|n`vZeO6~Dyz*L`5zV6*O
zGsOvE>V@O|v*WEFmU4XPc$XBoxsl>hj5X8r6uMujuY78+>CWazJfH7^;lkQSYv^w+
z#n~{3Dk!r+4ctiOG)JH8hbZ6fK2L?~g0uFDYRC+=uiAhQ9!P&+d!tiH=F7V(-lyTY
z3gib|le{mW6juf#94l9?FN5@@n*7$`bZkL>XQMN|V~0_fl&z_Y{`_mM!L!90GvqUG
z*sd4rfC2kVpZPa}`zt)U?us1oJ+$jkC~?k>U6nW0DW2P7&x0eax=8OBy>g545w<Hu
z<6m$lKn$Rqu5x?q{&UL!;w_-{%_z$Wy<(&E!)0Nt9T0k$kih(s+<!`}XySG>h5MPb
z!zP*_BU<h!dIbs^a~^Fcxu3u;XgM(2m<I$t46qIxXPBQ{fJZ(V9SlT5>Ai_IN~uKi
zH{4satJ5OWh?<V9W?J$Wo>cuQerxf(%Z|{3r)xq)`jW=KkDP?pSvD3CeN`7aI1u?H
z0)vQoj;ERh|2A)x25*oRrGPGQB>ss-ds{JENkdVZ@CpJyjsXxTCt2HQ+x;UU3XB(j
zWkM|N4_{*Z!26pNs6bvlpf=cE>)SJUnBH-l;9^P!uthvarQrs|iC;00V2KRcFAa#L
z1F<ngF<OU9M`%z#OP7V<$11Z$ND}t0etf_Fdn)&IYd34hGE(=6*x85ggnYF;96@}v
zzYYD52vBF<M+6|FVg0sie8~&?RMgT<+0S?Jh}-)-NRC+5f89NviC`8aEtxRp1Mqv;
zPi?^VKMw^exJ38W<ouOH-?01_{`ZCkzZ%K-IJ0w9-6{h93lML=S6m0o+v#4J1lnxz
ziSV92_cZ%U*@e96y9aLBH-%ReC_zQbZ%hfl%A50e)Of?vf67b--~*<>|Ci<Y*B4zx
z5`RCJWL&@XuGfs(KhZ;&e-&26e3O3CT_3yDF8PZ$jP!q4s<)I#O?0Zk;!P&OjNxgS
z2mcF<^VhTtpt{T+JKBS$X3|5uqTVCNym;rhp1nOn-6-x9lQcl{KV2p^JY=@=0wFVv
z-V_CVt~mMU+5fBm&)4^dS3CeC7R##3$Nenu74XAvXdF-0U%OClc>Vn#{{9P~T^~+|
zRM1^>35+P74%CSMzY_LWf!Tj~r&nOT=E|3i%dE;ls=&qf&<CUl0l6oMz@ar2#&AcI
z68jH)v;O^+BdB=W#=<!<!>8P0=s#=V-^dmKe~$zN+yQ4CC4fVv`5Pj``Bt1$4tR0^
zwLBTFk+5tUUwO0NUE#Lo|2%xmsa^GRaX=qZ$L+K}mG=LK)2?3QJ7J?*8YF)UNPbGM
zM3Iy$6Fme_Ib)-!mSh!iT?vX^JI;R{+%f-UF_MpX+K~14dV}zP>wMDVUtx!fi9L&D
z*l^GJH1)p{luwW`O~l2emBUnDV?F;j2J@HCe1hEH`W-gw=S01d{3IoGyaxobCSZ;G
z--x3`@iu*u#fYZ2|HTN%8X@n5rKUW^Oo!1frleqee)(?^+J8SG>8N_)(V31y{Eiua
zue!n&S)kUkd77Z=?*q#i*%f2>;gW?wpy}gE;idJ_=Izz)KP1+_9980{$KS#JKYo-k
z2mnSIH+ia_|NR}`{{H8{wu<fV4Z{~j>f5+EYAjc++aHVNvs*gB`?MS1`PiZG((fh|
zkZx;Mv@q%Zn%@P8DK5VrLV#e1jc-1Sde6$NzH8{;t`5v&<*AMq_|&JrUiu?e$#fe1
za?khI1b%HfO#<qBe*4elyk*2rRK*)zTZ7Rf5BHC<F>gXq_~>cR%SSG#*72Z#+Mo7p
z*Pj7TY(@2Sw|U7h)(kQLqp4BDAHN{f8D~Tk&AQqZ@C<u|F(|+4G#eY1aAZ7MsRAg;
z)Tfi7DqjTCY@hvyMtaK`2nhb;ACz$74IA&=J`S<tQqyGloL<u|zp&}0f7bc)C0;|^
zhaa7|I(-0Aq4E00{kN-=!pU*x;0|Dq<Rpmwy$6WXjs>2p{(~mj=Kypx6^|w*@BA$O
z_V3{t@+CXd8v##p*&DxJr5+!k=6ifwspL(Qo`*E^S8xu%E+Z)LPE|L6Mk?d^GA(y`
zwCs?2czl-^(m|BuEpC$D>W@ni53D6R*?IrR`{=z6$8D>i?Ie<vlbf#*CC9+u%*Kdd
z@JEDickrpPm7mz`M#Cz^+~v0l@J8fK>BF)J)c%T;#8Ckr_UjX}e?;Q{e$13*<m?;U
zxU5TjZWc{C!-Cjf`m%~WoVlqh#ZxK2+UZbXzl?xqo`)@lZ$RxV#*#+gt4B*4r(
zPDtE9(&(EnnNfbYGTlp<KPOyVD^MVp1+zuVt+jc6x>to>e;W~b#VOusz5G#BC)rhc
zrq2rH?2`|22Uu-0DY=gJs#WYQqCTY#^?4zWzh32B3Puw@f04icCgHH&-`(t0syHE_
z;{4CO`YHYv)$ie2tD9kQAd*U%Sop_Z`si&bEE{lE{fOXLo%`E=kKqy6=8PGA<Jc@|
zk;e3*NiT4a%a{&>b_c(y)|IilGa=r~Z_^pC%I@Ruoftx4-B+)dhuSt}x)5I94ec3^
zt^VheL{aGxe+o7~r8$hY0k#KMzc#7t-Ov?3fqF4B)8xNbr-F&<_eE*eBt_uAuCQxI
zaebt+BL-H%{E9V|Ke0DF`ZvJ&;k(88U7P>F_VB8jZEEZwWLJ>@{0?ayAC1i?)_hL^
zWuj__2`J8Dc0Z}VL)c-V>7y6IbBO|+y%Ef{chnqIe9vK3=Tnq%sN8w;6Hx0812OjU
z?HH*kK3*aM;%@Mj{N;k7St~G~Y_xw950*w@w_vRid<Abia?v48Smiiy0`J9@TbS#?
zyl#hn^JgI8#PYOH)IUh&V*JKGzxs)f`9&(|bYV;66ZuBwlZU(4$8ADNfTGn5Y7;GS
zZAa~?x2}j4)DS_%z2=A_Hha50q{eqmE1ySwHjVoC#9gd<BsxPE;aX?XTyf==PzRgr
z*QKwUVGM-Y&amiSmLslkDO-mVA%2amCag(CBiRo?k7oJig4#;Ehmv5svh&ialhkaS
zejL`PWpH-NkLe>?V>ZO{S0*s(*rDuiDJJE7<>avTtK6D6xi??^719VGaT{51swB}|
z|8aH)@qfG)*{(0<M!O$p+z0PZXgaPrJ}8T&0}y9LP3tG`jW?qP82jG)Fnn)=2K!a`
z&i4ki7SXm8=rCX_p88<knB%`LD85`)rbVo_fS$Y1c1@ikXku7(7JLstdxTBwQihW4
zQ<lEwfLNZ+p{|>;SEkLZ!n=-ulgrUioa$;&6gG|JO9hgmbfQLTrIk<gOj+=Law^^V
zUNrG|Fw19`MYTm_ie9r-h40j$h;6D2RY*p*)*E3MhWAb}O>~*!G4rxi`KYTp=Tw^P
z=?w`~(CWnTOk_c1`t8?;r-^Lo4S=~Z_liw7K0;t`^pzGFm=^KAulFRuQ9ESDy?2Oy
zww(-gHb{whm+s9`dpcSxWuo7EMJY*k&MaGXYnSZ@ZOi<L(UCje4cBmt4E2s|r&7ka
z%k_Kc^X%;Rbr>$4$@h--Tg%%>zcsRxl71jTZxLI#O*mV^28rQ?%fIs-ShgC(%0zSQ
z>})st;8Iy5T&^oJ%bM=Zp1j%8b-X8?WtnZ%`ORt>pmv6*&6!8fQ2qA0Z_5RaJ^d?B
zd_r7*itE`?2Mck2-HCvNii3iuo*)=!NsnX}8}17guOC^tQ_g|`YvJ#7;wU{tzBh{=
z|0y=UMm&jsr%VO#uu|WNT0c1N3^V@d)O+q`p}Yy~wh}iNN3W$Y#AuXP+Rnyr*S2zu
z^xM740Ve2ECKMu1RO}r&^0v)L>a{m~#WO{~w?_ENNNus<2#-4mpS=SZahIlxx-4yT
z0}ivZ+8p{+{$;@t)cmTJGI=pugGzFXT>1Hcd|x5;<rvwshnakNOYCReP}KazpTvOD
zr(Zr#>XuKn&<*F>sGI)tE<0W2?H4c)l6z&lW+YSU-d`GKIfFX6`j71G_-QSfvH{6W
zdY$!*s-`qKhOHpO2O-g$5Wpo`A0{G+McndH@B?$h4~Sc-PvtQ9ShKu-$oyytN7`Di
z&Wa##6Fww5@pMH7bT}#Pb#cgKSZV^=E^=BsA17j<?mD~oq%OHFl-W)xy#2idIKgMk
zPmLE;>E(o!t6sB_p3KHM1LfVp!U1Nb@f+<76{-jveU0mHQ?cxkq;xyO2{8b%C0M$t
z&kmqoAgLYFBLiL1VDk=})6_*ayJb)!gvV&RDhDNBqx2;*nh4?V{pbf&tW`^lj#r3P
z_sYxQ%YsoQ3M?~*(VWT7R#h}oZYY{S0k@i<$eKvD3bL=!%19jAFzLBGMYt%3%e?Nx
z_awlm*5Em{*<e&g4Zx?xQB_N2&fFw0x`dCW3Ve`DVq^5KtCTXr7WbY)VBk=^!l7zX
z!jXEh%?%<&uio3);ER@vc_fM@4#$Zvtue>(@J$Z>C5G?#;vV;*_O-Il#*&0s6+jQW
zI|KFi44$!a&@bHQ`*#albf0__Dr;X%m&y<~f1KE<A|Cv`SZjG?U)v{w^1V+<Om}+~
zxBoD`5yC$Rfc(-16r7s&9oPO`&V5GK7e?H*4r5CfbRvXCMeH}T8@=IU^{%%^jsL86
zLXW0I!0q>KoT2AOxkMH=B{A+k5@fsXPWx+pQ=z`7@Srw4DnZ*=VCnPW>6QM~gc{02
zRHn}t0ngh4tnT%rr}PeH-yiM)2HN~AT5QBLV=2WMd6i~NaZskpHD@X6_M=04*1Dj#
z_$?&lPwv~usCiN6^P<L(%1#5fA(1~a<%N|YCIp9T@KI)UQCV`R0p(XAc>Oy>Q=#M}
zz1YnacVP8hmOpN?9f#lRF&wZV^{F3uQI=pOz1jEUrput!(o8>#DyFo~1cF|Sku#Jm
zF3@kkIgL~C_S;YG>C_#FWvrc%;k=>Bkpe(4M)wRDNZ+zz_Hj(!cdu0*)_;TaC?n34
z^?HuD*Q8}C*Zo2~KJLrcT6{`OWF;fd+_`Ws1~kFO5N`rvbVN}h#yKA%6Ks&S!OAr2
z@MbA2CG9@T%Yclh$kMO0(E*avN$ZklG4=(B*d}2#XiMfKd9&~Ks-hv9GAgRwOaP;F
zdHJU7;`C~0y26e*<p%1}?D!D$O(0}16;S`K@j3oeET^OH_x%1C4Eyi1hB3jFO2Te3
z$Wf_&I2IW67km5LY2^8_+}~bcjYLjeCFM*;d#dzXoddhLe6$tud*#XXo$HG4JD*y-
zZPrYop)olO2t^GJKpL`ihf#9!QUklEN~Qh_?NB0XnhN$p-QP?*jgk<DJa|%BNXd)o
z97S%8jh{fnqZzRVl~(EW>!o7^zOPa>=4n~6J(0w&*}><}A~v5rUG#XUQ#l;T|B|P*
zLY4NXOS~ZR<5~&Ud<=~+jeIHN)(*4g@SdR$V+NJ)dwW3j%kud=K|PvJ*(V3Kpjo!h
zioEkux?1vDxgNSo=TCwu9YH}qAwtf5GkZ80P3?czPvVgM^UF$8$D&W<O|!qYOpmF>
z`x!b;r#D7bNG?w!I7sT7jC&CPlTG`g?45E(&PlrHnS$Ejw~~O-WX{|nl<$y<&a2@v
zA+fIf&vV14mqKTG7Li}1C4%qQk@H^=QiVQ)nBfKnKKYK{<X9#B+R{Kf3-OQ^%Rez^
z!7YubG^kx83E-$98whZV7Cr>|f`Xm<Y*87Oko%{f1P{dxkmb(ZBj#d%d<oELIoCay
zzE*+!lJbLe*oA)#cEJp-t^GtIIJwq*JRZB!>_STOn@@vd3=AtXXct^-gUyxaVwH*R
zdN+YF2*2YqG-ItfwsX#F0NPGYrmlS?8WM|{*&@GU0+z|^>ROb~z~SK-MMU8NT(p5P
zz&;A^<~5-O4#d)b4qSc1{GJu(gNX<qespTDx65RUb%}pVdFQTGVpYp|k^auOu9>RZ
zX>VMt{kDqBcOWfDhaq?FUC1rr4HLF9`vG>W#TZ%WPRrW`ftt{bhv~n{N0vZ>-=2n;
z^HGkc(xjCoCeATrY!GkDf-WNLx052%hps*$Y2!{`-7n}fUI)cYaJcc=DuZns5tL~R
z3nEhm-CVN*B6)~@NBB|BX|*|esTK#kDXGGsyb}ipMw&}%u_$4r-UY%yVV(vos@V^3
zSu5x*#p*%l`sgiM#(b3HC~%jnu}~oIL$1N$k!Jolb&Q=2q3a!S445Vwb<%c|+_d`N
zjvw|o7&jr##Q(0~4m+vN0S63^#3@M4G&J*Q^|98SK0r|Yk$Nz?U0GEp_Od-b&u{uv
zzL<qECRRkA=>xfSjO4S=A^56Ac^}f`(te$mK9uLZDOaz{nG8A=%W}yWTp2tYJzIfs
zxvU}>5jqw^XM)@=0+5tr&uvV8AUp)Vl_@*CyHxtb-}hEXZikp0e=;ueODUi(x4g?J
zGFQhytMENhfuL0q-(+Mz$p|{4&v2C-hWvPFDK!tKEwlIfT$<QU)oAOPsJq>UTRwJi
zdGIn)EvIu?8OT%$R0o2{REtk2{~bdVAYRlp0?XpluG{xM>)oVftN;4Id6#*lJg@Jw
z7_ViJVtgExwE-^z>(4W_Y-t3B+7pBL_*Xni71Eq4tZjtef|BwDk$H`>*I<gaAp1IN
z-zXJ~RzZxoAF9mlSJSTi+BI+^&G4LKANfqMKW=H<Zn0jm>L&F95EbCUnEsM|?I*ma
zl71CtyUbZG^l}apCeNuh+6i*+fQ>t@VhVMM9<Bcn)SIg=)f<DRs}CY@E-PGhtf@in
z?ZYy)E~@wYiW;jD6~ChJiB=_G7~LSCQCt!|Ts=r}WN;zn?mY6Du{a1R<a9YfesoLd
z1Qd?ogb8KN%<0&b7%7BbmOt-CDQBqkEEKD9?<$pAa?pjnyIc@t3&<9#ok7F*IT1gj
zc0LLGMlZTMrkh<kx|hZNRJ+mz!unwRjkA7rInvKotHY<FrL<SuouTwh4XLz^5M%}O
zm|U%bW{ZH`_GgQns&xBrsYl(8vI{{zIyKuewPwEFH^<{xsGc<<Vs2}m^u&3pt?6@Z
z#VOX&NdQ03gQeVNio!yl>Cpzd?$L90(&|hpGxQBFeR*Q{OXv<yOc=qGnm*r^A3g0<
zpeQU7>3HV^QpmsPrpiB53D{7$b)9bIo6Ld9CtM5I?Sk|EXibAW7#$1lXE-U^L}zOQ
zd3`Hw!0=WrM5){@*}SwhG1jN2%h9&;ti))Nij5gysPZ}OD(|!sqH=M3Zx64-?`ner
z!6{&cpH9yX?&J7j8?A3AWGm8PZ+wB}q7_~>oqAA=hn7lIHO*@~|G4IcgbG@*@l3F-
zY&0G$uB<ee(JuuGnVkw&xzeo>$=h?~xe|@L!9E)aeFyF%-DKlmT(2EYokf)PVv|hi
zv=hDy9j=Q$REcUNOiLZy9Qlh`cpsHFz}UXc!5bkR@O!S?w*eKE#+`#No-OisuLpL3
zFYXTtvs}Q&kF#K6KIOb8k_K`uEeFXe_iHsuXg8e>zLt;nfRfI9ByntnE}0m})l2Rg
zc${W3d2;xF^SA=U*HCAxf3;%F>68e!<jO#@WM$4`k4DGUeFURMDw>uKZPY5Uo6j^|
zoElf$9ZJ>CQVQwPwrs<Hsg9<D+?L<Nz4E^_yB|8LtrgfDIO#aJRF4gn4_?Ln5L`C!
z@cZ6s^Z188le3WL-OLps!_b+9TH&_&>6uP&8I!(v%P&Qx1c0m>2icbdtN9DMf7#3Q
zn5>h=QJVWPlJFRH)TK4}MJi47;|EF`rny7?VLzQ!PDrUGUZWyE=gF2*+H*Pc<r)Dc
zwEcELU7{*wudlBCkc*-li;~(behu<`UH_8fgw!0LW*iCZu`MCt9w?cfmgBlbXM`Z&
z$N;~z_tByBn0)B&mxOq`fCjefi!!MF_C>i*63OlM?zQ;vK!xu`A2b@&<d3Ry?B~X;
z8)n*XX^FR&A|e@gm=-gsFQAlrnW9r_&*X~p3aMwCE25_HY)>R<uin3}h%~#-X~J>L
zXXdq`f+9P5)rcR|#1DM3c2+-cR#-k8yTX*)bNc0Z9)np>;Y)S^$vYEfdAbuVzgkVj
zQXG|1Wy)O^83a?f5S{TetF=eNbH!DvH{}}5NQ+}rSjK9VMu){(cU1Wz1{)f&EBGsq
zxpl037b#j7%jnfsdsaZ{2dO2lTv$C&Yf7~K3)Fz=@4nY_V7QQ7@2y$OS{P;F0hFvw
z)7o>DwbE4F^Jt<oJAA5%!_JPZaXU5%X2)ljWe@4Wj)TQRUHmHdB#6uT(@g0+Z@uBo
ztqPr1gO$yHUh-GGhw)|TIeu0mDlzju!l`I%Qi$3AA!cYs*ye}fAARc?TuIiMEzxTM
zAL>w~Tu#+8Oo7tT>t6=_FuM@d=4W+W^R(0J%2Q}%vros!XPB9Z>@Jk7{mjYzIzT+;
z`8p6rGq-Zc^6x#n>Ht~p_*d%%oRV8u>jo9)q(~^NviU|X2`0LlIE$1U^)plJlEcf@
z;Db9VJ@IP059pYAMSoFY-0A>b!wzKs%pK7v2s)S9;$R4GbDl0_B4XBbJ^1n&h8g0r
zlr|Js*fgFU>o$r)<d0#{0FtYZTzAixOT;?z(89QwwJc0AwDSYy=c`-~Mxkx|n7*AA
zE(@E|k2qSc9|je+X2}$DL+=V3Jg;}aEBe7uy>lf^2G+pgOg==L((QKAOzE-SDdhSZ
z;s?`DdLsiFQ9aTf*>zUZ^1(PW4xe{aA~Gwf4N?H;Ytv7aI5v9Z&t(~_Me%C!9IY6S
z3RRm~8kE|u?lt7d6MD;Z3`V*ytx<_YK2GQOjyolTK~@hb+?LJb^!|H3j+8>neDgEB
zqUE7cjphw5ZC~bakjV2}mA??8VZ`tGjV}CQE04X@a?j?gv5pOLUq=ULLE8n%)iS8P
zreAAE73&U068sA6=2aNXRSnZ$F6>;Ut}hnsQcX}liu=-0b*!$mnsUD`6`d+&L$PV0
z0ewM)_6DS=nCWV``3-w#Z9@LfUaX*BB{U&U_2UR^h?eN_t$e<m5GhU(^hc1-5UoBr
zT9)l32{V%@M?PZlP^JY0Y?||K>BRaNypxw8U-X4|y%(#=tf`4`vSRD*So@AoxA3em
z6`2+#V?sR#gEdRjn6c`#F|V3pEkSpG1)s}i;+1CI+uyxoosW00AgpK+z&*ZRb*<>i
zv$lP$CG_-qt9D|ywGJc)DJ-<FsP#kyE7e@jL7OIaz0!)0xR25rlEyjGV1PCC1TZ&k
zi}atvK_Ls5rMzi5Ghn=q66&b<qeQojSb~9%D@A|}_`a=MD>6T~f!qshgz#p3r*K^B
zq+mcdXPKWh9cRKiE;w^{x$MA}5Hnz(^Eac=7@52$&)9_%=Rd)IffvXfTc0UOyPadl
zk}8Dw@1MkXTX!SmSaWKurrsna?vbX!^xeCzfAO#$+2TF`J!Z$?3#RbK?{Gq}{_yJI
z3k*4(+*XMMix2rG{gf-Ek2yk5c(YVh7(yqIg(goY+}0t(2`<hXVC^id_kq|ryDc+O
z0vXo_&~0$qLA_>q?@B;jixAHO<3W<mQeCz8@>z)}AMs<W+e&x}n?p-hg%;XJSD7Yc
z8b1-!fwg1Xdmqas31VKlpa%v-3p?3c&EgQA-9Yr6+0`8=hej$55oDv-RT}#K&lw)2
z=x_l`>K6K4J7_YaLXFlFe}BV0+UX+Z{>UBIosv?{FfX=voGee3vWNe&b#C>;eOGXt
z{&G{O+TElFE|c0(9NTb4d21AJcFlM69gWrzhgp#=y{?^rym2Rf(=cl2J5`JZbht+9
zD@qKq7bbThAHUIp5G{i7!5KYX-*;4&V~PSl4@Ud{PGPuEF8MVp%w&2@dF<nT35|Pa
zadE#&GeCmlTxx2*@#|PG+?>`sy)>h)v&59Wb<_svZ`u_DkG_X>OYG5g&d!`b*#!*O
zJs($9#TSID<YQDLu!ftQQIYp0%k?bG7gDsr$fgZirtCd*T3Of`0^f<=hb`$GRU#S1
zVUXkLR%R8rsXVdVE~*~C`Y5zsKdn%_H3_jRJ=Z^8xVxNC@*aw;p4@0#QSu0>kAXxP
zT-1FXK$_BK6HN50vaaGflHr4C(q~15cldg@y2xfk7=wQsWpIrpSwrTEi+mn?kExE(
zCBc5htOW|*0!=ApYnC;?FBit@GHsb&>{htV#=R3{pUs4-YdR_%gW6U0YJ#Ge9&S?L
zUTF&YH5oFd><kGitGSO`=(P~HWxE$j{<M`eX)wEjhKV`{<FG|NYOGB!Dz{OFCcVN6
z%0h<zcS2-B65!C&osm{ft@tqeqtx`mN3)bH8wY1{vzv@$;ZD)x23?T5$Q=~suyXuO
zp8Yt(romRvh4trdust%P&aaR~a1?D`A#tf@aV*STFSY*)NGbi^^hD_u;UAQMRhfTh
zT%Nwkj>i}tD(|+FFYo*TVXth>)ZnQI6ikdOyuD^pUs%)oa#oH<=@;#}Jw?B|Izg5z
zj)GqjzgQ5_Ds&YKC%4yf@KogH_sA2hawP^B#Eg6Br%v)pC(oJAdVw5`@5Cd`GP^}I
zHjCBB(oKZ2HwNzNZX%tzYb_ElU|_NC)j#DEYKP*j#-M3oITYnG56*T4U7qZ6^enrX
zh99tWUz>U6Z;IZmZ)rq4om!7L=DNN@yXLZMTWZ&cS0gKgj_0fq@xY1e7m@_|g8#ma
z9}%Rva(vCm&l$wD%5NXieA(hxVE7nlZ*V`^QCu`rmvfY?xtE-&tV~}sEurr_hEt#)
zUSUtQ8Y${@XT`r3a%*yr*KE_NPMAj`<dyvF&Av;4pgVM7d?(%CXLv^1f0nVB&v!8@
zIHqKO9Kn{c+)Ai}g{<#xr$n6RVFVDl+NA5~j`PmLz2)a(9o+Al*r-`B{gUnsf@NU#
zYnU(Sn_mSLFxQ9rn}}0>L$SpwmpRnGd0<3CE2UeyzQrTi)-0^1R0penK%!l3F29_k
zKB|Q?XzkT}pSE2!jz$A5l<vc42zrklk9m{#_Ep?d9^6<W;3CfBXbPRh{?z<N4Pr0v
z|5SvQEOEY>&Y-r>52Oa#E3SdT#0Ke^B#rO)3Zi(?j(D;Q*oP8}m-Y@{TDC04?ad_(
zG4kAb%^7PhuZ@+{v-04#vU>?i4%Vwi6z$(zM=B}gan9%uG7T-u@u|q=Y53o5EV%(a
zQTW}Inv!3YTe;L;89H@miMt`c{@z}19CagXd{J7P-1^$+z&08Mtx3^gX&Se}D~Qy2
zusr7$kg;{LKWGdFM*$9rGRv-tplJh|;0w&w#4mr}K**mEQI352EpG0m^PC=M3cjni
zwiVy(rEh7}(k#3WEj~v#Bo!MN!#^8<i6UuSR;p!Sxy)XV#lBdtuJj9Fb}d^x*G&o!
zhmE8@bJscIt>apTv!cQ1moCAuo8$9TpZ2+n&wGpDKzci_dfx)yXWXAaz6%bWzIsIW
z7jlCx1u###q$*R34$5WePU^z;t5fMM?EP<SBF4O~3k-<C<%5blr%R8CiF$BlZ=v1D
zxe(`Ehjm+G3g7ziqu<P*wg$L+xuH7~cpFyHY2abmS!Uq7dXC_~H?XsDn0@*(e@IS|
zo-}>j8x{X=OD2)cu-U0+;g?;{8cl#W0dbM`Yj?k$H^2aa26&;RDTup+9y?6Tm(E$_
z5U2NuA9jKXa&Y*X(T8~N8{*sd-4(5x%SA6Z-(?|FwLEJ~AIqrp_n{{)m&y<p%}_27
zq-D>7);1I)eXdu8Y-9;T0N`~sjvxhE8D+70lv)BGf_-`@^PPHNTvc+$XoW*7KG!=}
zAXx$VkOzX}?V*NQ$dr^q?%dHLg58JJw{YpR>u$Px;cjr1pp6cWcFLENiFLudTZq4*
zvF3t#eE72afORTRr+Yj#k2_ty-8sD>b1SpfU0!I7okN$Ssg>%-+N}`6SW=f0TPieh
z8#Pb1ZyiZwcZVq#>XrODu+gmi2rE%1v9TR4v{fTD_x8&xkvHg&2a9^@$Skxi9Rocx
zdiWJ?8ozDo_(z=Nk}bAty_1oHkF+8?@%CN?e5bIf=Jx-?-gkyIwQcPxh#(4Buu%lJ
zA_4-^B~%L_z4s>4yAVQ85K!5o6r~eF5ed>efzWM82`xZ?5I})Y0tvkn?qZ*<dw=JA
z=l;L<*?)KzDJyG^Ip>&TjQ1U53|WDFI(N8Tko(_!2{3l5#6r#b>Z}AdIAz0<)Duwm
z_zR=sCE1G-g2Fs;O4Y3%$aOpY+&y%zncvX5<iK9QwiYfkZeB{{e#9y9h>>UtWMfXm
z5`X@>QR(Vj?iH<C^u)Sv&qSTY(!u&=tTzU(iH|t+GOKYBnhoi>G7iT_#lKnU3&2mJ
zeLJhV1Nlpgfh5Z<v7P;VpFp5|qbTFsDo;O;;&?|;*NXQdrYdWl>m!U8nQHC4<0H6&
zi<t^2hiF=Lg~;dH({EnaoY7jeY&LBII;{i`$=YP}q%O~cJ@7CqtHbWi!p-Lxtip_c
zbzBY=<j<6C*@-Lua7~-`G?IV*_W?pjN+bv!+_-13I?pxN@-|PaB>>xilf(|-g|q9%
zD)O4X%6#+eZ8RupbZ!5lKcGFwv2c*3#JQ0ITKqJhRuOfI{Y1YaVk0k%ci8tmz0vs{
z$psVju|aeQuJ)1g5bTC$=ggoMbu6Uo4k3E_O%iaRze$21Q>83--=|6`j60u-3%d#8
zJzscIz;FS}Zo{L`zHJZjpxCs6P9$pVzF9<vllpf{CnfKABDX~s>jrb8jWW=@HRSrn
zZo4;&WpHP?;eLT8a^4`PZ-b^ph*cxpF(X)~mvSmZPA}8Ag_bT1n*dA+0Ue^>mH2Bi
z=$o|p1d_ib0Un+zivsbhUEh&~w&{jV1s^G%S+-)R{<3^q2=C3`CvOQi2^b`mHdQzU
zRu`vA)!y97<aJIRUV{dvK2&ObT5Qfw=M`Odewp^@v1$;|$=cj9uKfPbUe-r``AiZF
z{e=M^NK=NX(mAVoiVtbcNzCgVLZoVmg~y?kaM0(Bz{h&+U0XYn&%2?U3QlHegs!od
z*7#dh+Ltvl<gv)(yD^*>XI|5ksHYiym<W%)nqvmH#|qBp-IBBaAQE{Tpky$7_?*|(
zPj~d#kE@D|+5VNZRY1h;(uvrQH<hFA8vfDJ{I`oHHrT{YII4O2D-MyaRNI-+)I4o$
z9PP#kJZfpqv3TX#IPIAfX)tl5ZW=dy^vR}Vl`BpSenYs{itU4CcrTYnE6ux0+5PHV
z-P@m2$fft`vPIa$o&595PE<<@=ZNqAcvaHrCX-x#Jbo;QB1gESYm;{ZB}uzMfArXj
zkm8Z66o*@(M`+Azj~sngR3AG0AML;o!-R#$A{`|z0`BK80si|H;Foeg)p?%^NBnBY
z{l@_R{)bxzn2%v;k&8cP;oom^ghom2>5+SHTs(X){N)q;+g0eoF$QkCna>vgF{!_9
z$I1u%kWzl_u<5Uz_HQ>idaV2$_tRL!Iq-iUlg@kKhgkE74vs$?um8tQPJhz^p4V5a
z^RF)JzaHX`F6`Wg4*P!yhT&YYJoLroAj-2+Q^}4>fZGUn##%|r2{p8zYFsSFlt+~&
z0F;i44%6+1HWi;eMgY39Et$g`6+qc%xlgJFRAR-WmZYrJ>)L61-&j|t^t*3_Sl*N`
z0ZPmQwR;_v<!z=TxDu0j)M2OKJQuLk%_hH2z`%EVgAQKBpoq~j6iI?mZC_`)nBOZm
zF@kdC`2C0|HK`N|s#FnHe9gQjvTQUBhMEQK?@|P+P4**Q%<aLNGwAX!%=aaqH5>6N
z9<eEK)$?WeDUqQ)nvnf<<4|Aue6Y=Mxjnq;$K~oJau8QC{gt#do8qvHy@d+lWUGb}
zDVYVG7K37gya}n(<zGDk1&cAStm4f5be|YG{vP1+;70up!X2o4bT8X;K+ztx>sr`_
zLP-apJkQH*(FWbyGgUaNZgKNlx!P5&dL2fbm{-D@+WnN=jF91*ias8sXryM{>bX_c
zDYyZ?gR(R5rb)W1O@#~k@l>trgLh`2^pOm|EceY6hi*AvvGdjALL!2ZQX`a`VJW%`
zuA|kaI=DAAi^i<$rZr14eh90^J(OVecD=>w$rZDzFTS@iFW#2S<we^T3pg(wTIr&U
z@tt?*#r~Y_!~GF^eQCtivxb>c3m(%-ecKcR$X2{*58Z!?Q}kwtz|ARjOt5WYp6(<!
zwrLz<9<1$KRQ;;92EUCY_o}!ryI)*8uFt6=XeKUEN3kLp6xZ9+iqSQA4i{5qK`N=m
zmZ0QofCjkL*LdF;n+0{n&W~PrNfByVc&uOk;N|C;u;4hCAi7#=m<cW|MnQxND&G3-
zu03_;WM^MaM<+&VU80rC7{x8w0%FWNf_rms<O!(&k>m=qsWGz0v$f&Y3|hUaNsr}$
zt;1~!tnPA#jK9{uDB~V=mvVWgt>cvW3i)$s;CTTZ3GZ7!YXMxq(4rNnTXA`fu2rS^
z?$yqKIV*nAawwppC`7&Z&VZM}?(d(XsI1lH9t4m+fV{{W2PIkNr(Tg0YOfkCx9<Q$
z2O}IDC5LD0!ghWe*kE)az+L4!5{Z`<%heMwRVN0`A0Delk{<R?ZPz?=_fA;##t6U0
z<@+f9>$%bP+gE@k`R)2?OjE4rK;+zCI->0SCFyx9F^By-M+5DwLgM=#PA~e6NnEt>
z&&%@~>J<`<URlhS-JUX#8h@uWUfbQiU9zoA5bK&|4*?J2i9j?Kvbxsr-9buwh{c`K
z5^+Ujal{XT&kt$8OkC#E=DncH>_4DhOOYskI*%>&0<X42RGeF##dM~4rbZ*`YUdDj
z7H&XZi!5$!g1)G!d!4p3J4OyLzlPfd!BjfAPQP&|SDIi^s6!v<&?M<h-hSciy))eP
zkd!8~DYp6*?pX^80YdL6c~h(YMQ;@6;*6MnMt2ngwojkRr!DLL^>xE|e_qhr+Wlx7
zq0NSkU2HdzcjRuD0-jY;xM?L-8Zb~$@|Slxw%b!m?BlCdzJwSBje3(7iB0Qlwd)G9
z+shVsoV=6tu#5GYRmj`c>q{hTS>|GXaef3*ALbTP|A8}J>tm8SdQ*Io44+kC%SrCt
zNg(qX>W=Lgw7%(-8R{2r{H94VwDM^3%*O$g#5qUR?R>8@^%?Vp{Ty?VBe(rW2@2G^
z#vz!DJj;X#Ym!2xgQc+oC0|^AOtjE_uj~M*(9MSM9N9E1px)k$hR^O@DcjBZjedI9
zxL4#ucgwr#-f9K7)HoDD9%UAa^9V}m!U1h8-Ib%+NYU3gxst5CqTbxkUl}kSPnLAA
zOK!aq(ymFRMtmV6;hx~ugkoB@`w#MDR`h&sF|!3HnNPI~l!)Qh=Q3QqQsy{LUAYDd
z0gTZyQ6J74;t0E?oR9perl3k!;ih-Jwq(EEX$6wuIy3v~dyCp~;yTWerx@G<elQdM
z)vZ_Jp2H59)GX7PD&abMgE3#Ts$64nCZ^U0hj-hv$iW@xEV=D%MVxI7x3JG~MMM^#
z14%-zY`vQ_7>6!T8&d`R+{sYL_~$Yan;-8#2PBh|J2pV?qMji-hSLh>=3|FKo8cO*
z#`)udp<f8*h)Fd94?Sl#8Yq*Ni{5!x-MF}sr9AUCnolsB6d{~~B<<Cg&s2F3cI37r
z<&?1r8m*;?*zFwG<oSH?62{cCcHsFikM%0h5jxuf66n;IO~iX%%&C|3m@gx5N?<8R
z4uZ7jX!pnC_R0eXC~lnHC5<4l<ti9GNk)!u`c<^&K1}z76&B0cnku}2emBQ@s4fx!
z8^VA;IO3O;5NkB?;abe?AWB0nd~9Wbs2rk}z;8cRF-h+u-Bi~xso?WXv7&n{D5aPr
zW5zCiXP6qkWsJWHjWE|jELFHgtjuY$r7HWHrHI;h7H=>I7m+@nJAnJ*VIPyMVeSXL
zd$H2nQ-Kbjm++Q58SJ|R7jgf0?Et1f2bxaUg&pi~O5m)(IlCTfv%7oz7Bko{)p2Hi
z6XRaH7^1>~bYJ~0nf~Qmo97zKPHsA^OQRAY%qdeXfmp~ujqNDlori=)T$2wsWIB|r
zgx#HI*T5n*Eq3DL7O3PJTcwIta$W6yiABy^Qu15-;c|TH8^3WIm%&1t;)dcT(%v$=
zz6xdn|02~fJz&ftK*<kV;}!lHR*=2R5QN+3x#$P!nyDt+9cN~HY*u*(n>M&*u=<Q?
zHrP$S=EH{yt)s7VNUfPm8FfC39&*O19m0za8zZhP;8j5sI~~kGe%~j(_I;2r_*)Bo
z>dSM=aOegBUz9y9?U>R4q%mVAL$=oEOmrgN^xfKXkx>+?=A<sVxgf4BF843K>*|8J
za6eobuJ2x~p{u3eHk3=4=QmXK<7l(seAxKS{hQ@A%O`X5V@dGIXt|MqEv-um)=P#*
z=^>9?#_;sxcCZTV37>{imEveAg(gsTl{G-`@NP9E89CN9M<WY9i4<B+7c8Ho?vOmi
zsEu!kqlp-VD`$|~6?c7&fR57Y<yNY7$iZ~imlsUhzJ@aIj5Pg%IlaH#C0B4X?)zp1
zHBlOOYnZnmwf3JBu6JX7HsqJlaKGCf6}GM*{z4^x(H>-do`GH3C9QTTtV<}$^yS$v
zi)ASO8kbEf3gA;7Z57a%6V1V-XljGU^JuAysDtiN7#^d%xJ~d=xRV=ofqDC$bNzgO
z-Xc+FAEI?!ees%W3X3~BdoHxAp2hvP9_|(G!n%_7X~?Yq8_n>w=d}Tf*1+VeXFm-s
zW&#ln8xN=v4{m=g0opz^iHr|Lcls!CqM$otc5D)$FC#wfkm%V<we}MT@{Xj_BL(c&
zD~>EcDWLk*5K8U9c>}nMeac8T7kI81m9qDC^WaJlqLC2Y=G`d*=`4~OpMW*pe449e
zeI5ul3-$!eb^xk$x^Z_kChbvm*eREDoGels4PV9O8s02k;&K2g4)LHKqHTrnq=!hb
zG#o5p$+;)LjdP1GF=#U1TcH}x1RubU!;`E62Ykr=W8!W)<CeR`uKj+@yUd~UawTHI
z^>+w9bE9LH1&~e_HreY1bNMp?2qDpop>Y-|rkb%z&yeEX{Yg~DUh3Q>Bc0j6pgk_<
z?xy9<nDQp9ODe@ZDF4|oUCA~h!%gm52aFl`pymw{;KUJM2{($K7a&s166Q>d2_Iqf
zb~`d*iN<*b&W@XY$Rz8O@A9NpY`5%8^zy-O6Tq2cjF)$eal{mytw-j{L`zr?L6oq3
zz#*>4ANn@0aZ2WI_I%$74oLr*>d8G$T)<f2@Z8H`@rjuhdd^43nL2BOP*x3-7?NkF
zDArA7iq2AIB)W<e1(H86+e4@|wt$u8SwW3AXR;!=B<c)`T*64|g?GNNL&6%@KE@$G
z?{JWJWT876xE9|&Ro?4~I^5Z?{Xp`naP@svZLQg^FQV17-lO|0H7$A(ESzrD!w&3H
z-F-Rg?oeyhTN(2h+ZZizyhmLT{JoFJya`TW3WW+Ub`b5kx6@h&%7UsCG_r#!{z)Id
zQJTW8qScoqWvrKfe8Geq1Qn9f>OYN1glr6B&gQvS7PnqWnf2atm6Jarx=?)gtIUUN
z{gzamqXsxM@<y(N4}$q%le|k@`ow~L%%@&gJ(D_SY)M2K=IIU7g|pu25v^D_ca7iJ
zVvH~VZjF?=bAWK;w#!BM`e5INRC@Xq*XA2{?NGNSS$2;#Gl;oN#Xe}<MvVpH2ru)Z
zi}vEN?({a*t#6{gzqv;CiH>4NxKOJ&HN+h1ooO$#v+x&osnKzO(s7b+*qr=iz7>aw
zb781=a3-|*n?q%j1TTq?$6<S3(?FFFD9f{IlEv=S>k$LK999$E(@rbbv}?X>Rv`AM
z<P|_2;QL5GsNFF&-78f_d0?9uQ!*hNIR4Eym2@J}c(J)xu*+p0G?9@G!sJNnJ-H2^
z1kg#m)zCJm`}ix?2QuHE*%Cmkw^W7D>N}AFC0>(~PKB%k>Pnn#YzkA!=mRfYxW1OW
zNI>uF49FFn%y)mWx$mtQzTC9gup2GUSs&<{vC66Dtg0w!uQ`=Yhr6HFl%JR71b6FH
zbjt_T&bhSKy@>X4pQA1IxOXK)mO4c1`)ECl`5pnfzac}Z?Xsr37>>+8P#12R@5-8t
zE;4`Qo<Hv~zb+YP9sA&J<(X@(Ba_u-OnVzXaXx~(+^3J7>dGKDguQWzQ{j#A!(FGd
zX)Fz$;nSA4O&w~6pl!)L_gT8;L2u_QHr5$sjIjeP!X)dAvYE${e;5ETPGC#7?@Qh>
zMf*4h6=qC@(NP)>-qaNfd?@6#VvSe${%mseHxPw2xUsR@Q0O$9q~*H7Y40CfL7nL&
z+BQ5;+*?_DYzu7%deOA^!&Rz)CJ=Nyd=hQvn)|3~-k@&dyD|>Czsy6Z67jckt_#?&
zQyQW?bt}oqpKM##eiFi^d)sB(v#HjVP$v0dLt%GQcz^$UI189&61{!3)@}!yOh&)0
zzaoDa6195Dd%FHu$zOK(_5~f@a8TYsHDZ-^firq1JC|wAE|gqvsGFNfW+N*+ip?|2
ziPUXvN5=D1gCEYt$B$)>sY?4@qsJOM5e9q-JY_HUH}JRyYX?dt4v`obsED}UqBZ8`
z-L*RrYGkxp%I1MU7u;s2m8#f3bLz?#Wv^f`8!h4DA9)h^hct}N4|nQ)$HW&0&^wNX
z#dQb`<lkrnEj90hLEG;1MUf!)eB%-#xl^+<{znvX`HSDv9bOt=prxTD;DuMf4;||o
zoLT}H1lsp*F_yFW@e0Ihm_HnCZq0n>QBzM{*?utHGTL%`<t6v)!Q3uL4wP{$l!6lT
z9HZIXSna-eJ$jK(Kizv=(5h)1W)*Vk!zVF+3+F(|MKiAm&e41T;tDV@Dz=!OkC#2-
zV}h@tTiv>U^f!ox+~(dZkG7Z@*gWVK`|w2Mcy1|J299}-C=u*-_9)>DfyZgPyS!jx
zx6hDmlTHsK4a6O%49R%PK-^}+Ah6VQD_wePtXOwdOClecV;Rf1Vo0mwx~rD*o)nR;
ztVjPo5`?m!4X58B580Atzc`f=HTmTIGa<7txpH2vDDfp!cB^gX_=p9j+EDk>CaW^>
z;)VOc&^}8~3AxU0;S%GVyL!^nT%p{ki5)IV$Zfpk=9<jM11&Rv<FqOM+@Xz_e6m=0
zOCAm$?&k6>b})~q=diYEGB?O=PvEbe2pvljw(i;&GO52a6S&&DP`fjN910S%Az~lw
zuVK3-AF;_ps{yS1r2?014?1%A;G^1*NMUpBU~X=?x8DA=EML~Ty=!jnD=p8rt7|X&
zSowKkL-=o6Hb_pJY~nh6nrKD$<@ii;ZDXWIEDxIY=3V{3Por~?8x$QEF1qt;*Td4+
zPFY<G>xgJz5sC}8JYgQ~%)qVVLkGlw2-S|=KYid(nsYr0sfIom8$p%(8C{5x+Byyi
z&4Y>kUf+8kW=|X;m}ZQ>OT#m<Ns3YMJ|b#7Yx4s7g#3jYeThFL1tW#2S{?(=`t2E#
za$)Ue_^jlpyOQ`7lCDZfX}qBMAk;wZMSZ+M7Y|OM_RV5oBrhf;zX5EBxQuX5<&hKg
zs%;S4+nSso@e$g!uWEl}zC{;beWTXRW%qiCFu^ecZ^ikk?Mo1)epTz`WS}41Bj33D
z3b8qSqg$fRQzob5p%Bc>q>fxWLq@jb@uoCNjs5VBLwR7^AQ~jC?>;=W?tPe~xgdzf
z+=&Z0uz)XPmL(f<3qAK4r)s)<8s~+^FQ#WaMyH3Q2kgCc?BrwW(s=(vx8eL9EcR&C
z0#?{>_{gXB1c7sPV53ze@ee}O!g8*-z9WJli8En)d0A>XO0QrpFLTD7v3wXzM1%Mw
z;E{c)@xsPHzpRy@MxvQ&U&I7Ag^j!FPb$!~?@uZa<K%d=L{a95xc)AWAr`73-}-4U
ztV6&(RZVh+iVneAHyIC4z-fl4es8R_Wr{-QU~P0B`zg`VQu?V}!)YCP7c}LKD~diP
zf`C@CI-!;nq|64S2us<}zyhRY52|V1vV?fT^TrOJQ?76p1)q$|{vA;sZYOhotWN#_
zRO8~PH`p3X8TyXg^PSd==?JV_3z&;8(Ucq9FFUg#!@WRJ%`XuKg0tS9;~|v$e)^#v
zzxC)}V)PN{k#rrDL0UDW@ha_!ZU-<~8Lw2xb^u0A?`iJmy1h=08)tvU(QfL5z9nHJ
zK72BCe&&O!B7emZ_Wxkg_@Ty^z}1tQeuDxH(bO{s&EYZ0tDs8XIQ4{E3738cw$w&`
z@VZ)n=vr|LS*X1<KwncIT2)Uy>JjLkZ0mjnq)-{pwWs5^WN%w)qdqsjy?zt%T6;UY
zHUV^x$3LlJ_qQ;vrV%fOc=P%aP1mwcUps#7TJi<W^M&6$*ZB=c_;8Bo`LuR}l|YW|
zbxfLc2c&=3qK_KXz^@b)NgiD6k)QF0Sij%Os@9J@O=t@-EKvs|=!Yu{$gd5lPw2+_
zO^cS5|D=q(AF}&e68z{Z{k=ZHOx8R6fI;zH&jL{)Z<tu(H&n}M;RqP`;6|fDlinO+
zZ}J((4D6Ujy6hLH1$t|7t(Tx~HYw-tdTM+*k-~xZi1TB{Ln7C@L;*gNbH>Bu?_~c?
z?8zU7ceSI$fSU^}Ze4J3gp}uhh%*e>U7vc^cQtRz^^*-LLvLglxzQ(`%`06gWGMq7
z8x*0V;0h%QR)NmwUPN0QFTs)IU20zMUpDF&bkP9rfQ6;Za}h6E3@XUwJW5P2RWsxt
zindR9{z~#SSJ@hliMGQfb>x9<#w=gz1Yt0hs1BIqSjgv$b2hkH4Zm8){P2w8L!*3R
zZyQ>21ks-E+X*+wYZlcsegv7Xz`lklY#I0-?7`(TV=*FylgfO#tN>!mVCxonCnpX|
zN%dJwsy_%UUjm|lwF+$Urjz_1XkjeyFby7m_tAb^Ir#X|VJr1@8O6ITEN*P~a#H5O
zmcrS&y=(oUdLQQYnuzlPZ~df}rLkUV$#0|%jp_?D?Bm3^FZVjbetGOVm2@scGA|5~
z^1ET|PKF2@HQg*$ww=~ma?d^y?zyP2LGkmOpXchN^|-PCQeJmz`uaep3xdhkD;TsP
zbG5;wp}EYpJGp7!k00-!c{J>fnkNg@mo!qp27Ay8HLR_SwX~Tw;Eq)7(ASVNGhFqn
zWtS%Gl9;b!Kl+UZpiGy(Bnh4W7|tU1gBnV~u0FeLXXg0?4Z1fle8;=r#PR(oY5ulO
zYdP2E)jJ1?u#%R?hT;<y$L-~tk*a-`<#eX;jd%HM(=#^Sl3p)9vFbv6g0ah+Wc9N(
zRtODvO#$pxmrT>BFIjha51BBWC8C=-h0vY*M^8d-<(<o|<s{vw?dRu=JbnQ%inSLJ
zK=@;!)~egNx04f2-7-?~?zY0!vdX257;d8n$kXnT0Fs&2ujZ;Ri-~m&zbrp1<QAp5
zGG9<qhu-zkZ+qpOQI+8rb15#a@f)&dg-5s*lD`NX*l1f6oKwd<&p&<!8p=7bHe(H|
z;<T69#neeUJ#m5J_=XE+a)@tKGM>;T@bhTaZCJXi#YlAu`(BQU$b6TpWB~FdJ9Gie
z#31X_fIs|fL}i=OT^XLa+t<vjT<~sL$49R3NL@Dh@=RDho1LkWt=WgyRg(yyUl>P_
z#+uhET6lH&Q|`&WjSE71T~X|rYd2f;bllknVJ(aHff-%GHEGA=j8&?NTX*)e`XBG_
zu=oIeWH3m9wG{T1nY)Blrh90aS*Y%Zi^6b2zNQa(qr9tRI5SyK+j+v0sS`ez+(A4v
zUb_raSh++8uGTyR?A9mLy~YyLiWj7`!DRXvIcmI^{=|+Fd!b&Nc!M+ct4CwH@w(T{
z(>}Vnw1>u`oS)Da_#i3N^wJ(Axv$o^Egg>@b3{9Axi>Bo%{{Dg&SJ5KAZr8u5wD<?
zz@imW=NcQJgN1Q=?lVoTT$40tw4@8ih4WG8vq`VozejM*Tj}qABi_-f;ut?feDaR@
z(_Bqp{Nwsxw&^oQrzf}_-=_+MGap31Ft6p+9ZTp_p}j7kP!mb+Gfa)~n!JGyDa;tp
z3E#CUL96e+VE2?bxA628Tk@Kw%xzD2wWURFw|Rw?7vk8CN(Cqg65&<ql!;5Jw#|mX
zyU4DDHy`R&g87VOXS7Cte35Ll{+jznM+g$dyR;RbOW<PqePkugp*kD(!dkQ4c>1H~
z;ND#+P3NFPATe3EQxRd>h?Oa8-jU*oO!{{IQqPg!3l<bV&6i#Qf*@kOShl2%nww=G
z^qy_)uUYSOx9n?GVb1cXjofttQ~4%Zp-ZbgAseK@0&Vpllv7RbgC>@lWGwyE$8719
znU72B6$zUtG*N#HHse&s=aRQ(v!#joV^9Khv%Wkcz<*_O@OG|yRn&{>I2}YS+T6&`
zCKnXF2isnpHAJWYS=io_UbA3;KCh9~#eUq=DF64PlAO_?{Pq48CTNLoz$e}z`~DmJ
zY7$eF8-CV>2fg*%m&wfQL5m^^Ha|X*&7=0qz8<F$ttueL8@0~rz>z8;!MdO<ug&P&
zh6{vT{=AJglxDtdW(7eCGKCnc%#rbwVDQSHRDo#^JxZ9LpcLaaL^*M(ye4l^ehG_f
zEHc(Hpz=g${-bB=ci*pnpsgisa}xODHVyAG)Ajo-20Zy;viU%3=}y0N@H@_COT=sI
zk-K1tq4F_aAopO#pcOeT1$pmU$N=fjuxLs@7;$<^qQCLFtOa`%8Stu_93=N9yI+86
zq2rhyO-rY|uCne%$bYVSu}8Jo`mrr(oI@WKU3cGluGqi_)fg5qf1N2Y%n2J-GnTJ4
zw->fPup5dRn>{|pDH&YZ%Y}#ue0<A<^_kI(cTzEdfW6PQwfR`)!m}p%51Ps`=#Dki
z<gyRt4H(e}@|YiQtpZNFBn;#_wl-}ZJwpPTaFl|!0@hP8%L#M-y@7g&)t#}6Q55ia
z%^BhdX{R<b>VVouzKBKvF=3$)%iQy_1Lv;qAacv1ed=@hQ=)Bh_|Tt<U4PKV5q`Kd
z{Xtgxv=DZ|aB=9mn(6F8apv<~f`8PqHhg;BEMb0Up5HEHtI7P?KJzzHl|hrf;hG;`
zj=bKRRRAQPEmjKr(ULT^fg#@6=vava4i&qzH>-WN+t*&wiV0$TfauL50oFs#3^Tsy
z$;DwF;DyZQV?MYNkXkUBrs**x5{NAy(3c#@FBnR{9LOqx<W1hqv6&<ikw<ZL{XBVz
zhV7>b?uA+(_byE9;~rHR78sqdd`{kC7x6Akk(qJ#iwJ0Y%X5EISmAiv`Pi4o`wa=f
zDt0Tfy1_<{6nfv-zN>y?^Lk|;u0ano6A=BMUNCFH1FtJU3{R`Nr+FMeHX#G~3Fm0T
zk)Y@>{6HpN#-Q*K84b?VlwQrY+>Cx{AHJG*&6hoB6Sj0|Fivtjq-n_4#K`+-*~DHO
z1&W{ZXZBrjl2;I{wS=HNOU7_@_2ZzBcs<weAC-#ZDxq~?a89M#m=&@c=o}>ZYLRod
z-LsKzM!ovalR>oi9NqMS3C-PAjoqBNxe+B>-Va-(m%F7e6@2#ME8N9a$Z64?Qv-7~
z0BHxkt6*qa9b79@92Q=dn<|W_toaxNwIx;)+A*Hj@RCff3QfftB`JWJ+)=JE*N43K
zd~uO`xX6Nc9)JNgJKr_;bo*Xmy2NQ@SNSzvy)Ezc$7pFybt*L8g?+AT+F%vABUH$o
zN9^_q&M~{8Fg`aYun#j<D>lH5mCk`SA%wxWfR?U3pY?A(r$}k06@gLe<L4|?tQN#!
z;Tyb$2tYA24qjboP>|HyXYTPHPWQ9He-qb)0D8Eq@(S`WJRlp|Eb<p(9_x8Dga3K}
z-9Y~I)KP7!{6YoI8EUa(j$ci&b_o82@gN~8%|klFQ<kvi)@Temwcn<$+Q=?BP`)kl
z&?-hFIPm?Hvo37V<U+gQ6}N+K;`Hd%G!BiC{y>L$j<wd;<G_wz8RuzoSu(_298_*Y
zM43f^`re|F>OBsm3m5w|gSwd+i!0gklUP87=9?wv_B|t>*Mv)Q+*JzuKDoJ^5Ib2c
zGqCZo%Q)qkCQGr*HWcm4_pLdU{CF^qrM;l!s3|tVpjGq9nC9i~-)gQLSOrW-RoUT@
zK&gNMVe_Vm#$$p9+m7x}-UgL)&1vB1G09yw7m~4+Ze8m>Gb_ponyX4CoO*(1#Z@I5
zG8?h$xq<7J*kU0!bQe_4{jIwyP9C=HGoxX(z*?$qoLg^I5ZoZz-~f^=m!pWf^SYtu
zV=-PF)y&Al0}db^G<*Fe+0!ydAq+016EG<&_zJmo$gt*j!`atjZ0yr*M%3+a=8^H~
zBI9;O0#C?LRs^d^R2ZJHBPkfIr(b!e4#9b+s@l|rl9nzHMXECm)DK^#LtPz==RFz~
z&{r71j(Xjf!}pwlC+O&2IqI?2ze2P>ZUU5-JJpPkdq+Ya(mk|c<x^lkq_I90$n>FA
zhwb%p=oUD*k!pAZHVA&>>`WSYM}-Ou3mllGw-hVJVY_Z^{8O&xt24q+YMT>`Wuukm
zK=SFUFSn<#0S*zI{CD&@!Nc!qUQSZom>_0lkDqTlZCF&`((59|5*j2HNW`ItuqA92
zG7b8hW~lukm*!9wZl;HXph0*MkVkR#G(gK>V0+2`+h0=pb>-$8`U4I<>GqR%`*#-0
z&(|0c0NQmAXJ>Hfr}G97y#5xSKIF|{gaM+&DtiUp|9t)LAN&8|HlYm1sM|AK;F;Ju
zOb{g`*_Y&sE0zH2#iaDso9Ev$ZyePKp0EMyqB<~f+H!TOaEt?2(>Bo@+=>8V6iF7&
z4&5nrs(67@C$(XAkpT|#tIxCY`_KF(rqH32rxkyPp3}YiOOT;%$6!0#7c0D{^FJ3J
zP<KmeDO7sQ-uB6}zz$E@SvZNbFNh|7NkZ~!kGN&fvov<Rz9c=kP&;$waQ(RT`HC)P
zBT)*Jd#fX^VwiM*smkxxM7ZHD41ZpQ;ewew26|n^VHW7*yDOcA;VEL{x0cq4_RlrD
z-R#L+2al{S*jW8~7GPQP0Zghy%)OkyR>}&055Uk6TOW1~FkAQ=bE6&Wy^S!{K2^Un
zLP8GI3TjXagv59UW#pR*+Ffe5GlXxeCkcr)1X<e@&qGp9n%PxN+~{1ZV46xBS<+Yq
zfNi&rW{jKf0^6rz6sWgGW$rHi3{3&@Dy8Ak{o68p<a*kq+ASd6&-N$FV$~ZK3Ly=q
zJpK~79dp_GfErX~S~bt2Uo;|gc}DQ}%ZY**kzxBJe!4Pr;ovgB{wYuObWP7Q$kRg_
z@KN)sBv2x|FMfK9tmluWE8gT6#K3-SBD$MPRC=xyfgmea7Y^S_U36l^4LO&1wDNRG
z6IB#7F48IPHafb8vbu)dd;yOlt8FUTGN<9u+1qOs+r+Sw!VpqV0Wn}Z0oN%lC{shJ
zw0Po1Q?yx)k4OcaN}Kt9xwbWuLJ#Dtu-O`7?h$tFgDrK;>l^{iRTi)WHLY?<sGT0f
zTUu6*0>tLcxX~^8{0^Y^52<k#VqQ9-j-Bi)u#l_d;tIYaQ}#OS_(*i)Aq4?juVjwW
zEaF`#UIlayVX?$WJg{@$<MM#1Qo!y$tmE<bkCf3(stR%r);Lk{6?VxE%admjFbyH1
z<@ck$2J6U;2T^Fjn5z9zYQxUFhEzA6QV(}xS;QVtH=}pQ4!((7uFlOxj^RcpF4O|d
zYm}e@`6Iyi@I(b<yVl*v&2WD)E;lmJTB5MEgVk23^J4dLo4ceB-3t`Ypb@#I5+z|4
zGqScKP%Oemx@s8k{kgG)9Dv~YWVgj=2aIs4U~{{lP|a{p;m2#&)Pc;DjFseGwMyZJ
z5;Cc}XwvKBXVsUJ)>sq)`I^rX{d!FAuVs4rW<QVv%m`W44fwg9A9bAkaLt;t+I6r{
zVl#%_*{sUNrg7_sfFExo=!3*!S!+glUTBvX&JvH^8?U3lqXDR}Bk6$1U!b*73swMg
zR;zG$)znV?D0WC(ER;t<c*UOdoW{QUl0vNfnw!d-p5`J?-8zSQO>@F{t-h;%>4y(C
z2OI?6w!a9UtDX$%nYik~5qgLWuX5@ZAe{qz!QgLK>3JRjEj8VNsF1TzQzd-ZwM4EH
zgBtY!%Jv`%ghKZBjf=Z6T`sm80KFN!C}E7wY@Y4i<QbF#pq@_4`zoo?oFmC1o2MiW
z3in&5_b8)z4Sc5M4<0v8NdZ`0l(XBW`m}-y=l6NjaywNqa^uTG%7|DiXHaD=bV-wl
z8V`}O6kd2UYtbz(7a&7jE#BaZ06|>pVpgQ*J|D2rDcFU0ZKg|B_3DAKPf3`ph$}y6
z7%jUf<XaKUmz_3-gM`f^m_kp{aePGXx|7|ZF@?~Y-J#68P*jXzfq~>9ZECJ(`8TnH
zRpCwy?M|wsyBV50GVGH4(iASsI7)Rnlt~ZaXT>fy)n$&EZ#s}fG1p%c>4@h|uRi+B
zi}>**2%dHSc*<FxNWA3OZR+!k<;fTY2|1wld9)nSNk98*3zhV_Aj}A4<ayaY*V)TR
zAKc!?o2qgJ+IKvnOVqPrzqqzj9`QD~)2WbYvBPhC|B=T+P?U3E;5GIkwnLOT=X0QX
z5}$2*JRf4Kll|vv0S-OJf+O7n7X}lv$NqKB0->b`G)*IEJM9J5cwbg7dzp{xtrsCf
zhrT=UMWZpCi0OV}ZJcM(R_Q)IQ2&^+V#He{{E5tFrv;ijwz+&iD55Ehp`<(6!FROm
zowK*u{nfO^Si`070MH2zeTK8nuvb3SL`Zw`(aYm9odD~T8UW`)&Rx!}ZEilJ(l3rl
zMUauZcZ2a&a=0j|OyPo|E;q>QkexYMl$DfiB-i|d66>aP_{yur+gHGpV}7_g&~r#D
zOwc?xQLx(^+fC{jvGB}D?D1#JQO~7_4~koNn*k}*f%(z*$>lA-ua4Z%<6HEgml?z|
z0Ep)hknyPeb&fBe(x?}R4CLkTydk$&BRw5|4%4{1fVec|kFzXD`Tog6y&rW*`}!9~
zy+BDUa%^?*-;XkN7&$3?NIw_1U8F{6ZbEvRdth*0a|JpZgUb3a2F99&if${ij2tve
zu~X@yujC<}X1D9W3A@9A9Xx(HY%Ys6*{s?vCC{YnU5XS1?3V^erp%#kv04n^J;qy$
zFX!i85+cKLocotpfqdoFbK|*zVgY?nq+Slf5-z*G21ce<)%kTkVNbsKy-yP|H$n(@
z%Xsv`oz_Y}SDvyl-P<;a(UMtoIwUs)FHhqf+T*&Dfhr;Bfg~Zz_K`%jD!#`1e_217
zIwwvm-Za1{+5bG6LTBlG9Czn5y~${!+(uB)z;}y!e=jk-Z(zY}w5PRCL{P1_eN@=7
zmLnelJZ{IdGnAf80d=02)!{SuHP>$ll<-SJ$%lvs6<c+_PVpRxUOcGXoR2lqRVf1{
zV9yt|UL4nL@L!IRd^*uY*s2;SX8(E<$P!7@dIGUBE;9SF03ae{vX9*PEM_95@t|eV
z8X&1kS?Rv;1QPith+Ct~zOoa@7SfE>jMc@1($Ddx8OM1EK6IB>^i%N@&sltLp3a_#
zN(T+;(A!cng>4&AyNLj1hsR-$F^+9bgeFS=Q6}JatGxXW{FjmrPIWLbbtXNir5-pn
zh~V9+uy$j~0RwmZAOO~p)AjCb_al*-1r?ZKM=3GJ<gIe=X@2m_p!UZpwNr14$wO;c
zy#{{&%y(rcS#Rpf6u291SaB`s1YKem2s#KKE^bhXM&mSbF#y3=Tz!x$W~Y9!8lT#i
z(?=gC&H@n5f2#M;kKBq!vTj$Ng*^B<JCAQX>A*lWvB)TbKaHFa$vs-3xcIX453SW)
zP0#n`?!)e9C5#+PLD>mAH!XW*+j6FMm@S|OGZ`W1Hndp%+D`xNLt3ibekp*$@(8DH
zfR~#=*sgf-tQyUjbGOtAvU9JERFWQV3_+zfsVg059#C5NszV?}lQq7Fy443{se>o(
z?!u=#y!+&H;N+QZlIv0zjE=!z>Qdo-AbY~Cm1_0UKy41`SmB;i#BW_}QEUor{=$BY
zm%k|XYmF0-z=oYcTRG%t-W^zcD`3fZ1Cz^YC@ib+C8sv^_Oi|9vu`y)6iEmb{N6l@
z<~K%@S%5dhB;kkWH7*xyTeOsQj$JU6ypuI4?Ub_#3#sI!8wN7x<nfxKTz})Gm!0Q+
zdK!<+di+bH1=IB(h58_}M>BXc0tYR|H*aKzMkI`=OfRCwAbFN+R^tNGZ~8W-P+RL{
zXYhi6Hq?6?PyA-AI&c{wOF_b@E3Zlj*fW1mgSGmmExk2COLz=azYqhuzl=GZhs93&
zV4<nVs0*E+F5=xPqSO=K^WFl=q9+Kr$680F`!E0^!@9m)pH$p>^tMqywIFEW&e>NN
zg;izwmK5-9CEg~Hxi`fbHV?@pn%V<+%sCFlVW>^WY~HyjnO-w(?zBI^6rMARJ?Dfc
zzcQn=kMG&V!yeM|?Rtsst!zUF8l6rrD@SQbBmfv>Y`svF;N81F7Y`7>aXtMFDl;%x
zs<J@)OI*zk=X);EquDL;9K|yWwT1P|elR0}dM`rfyL!H7yS2ZQCRPNjVv54aK77_%
zmEl`NKu9i~v;+iopXF6lAFp$%<$1!H;(oD`#vSzb2(otj?wo_9e(%t+K%m|nd<1C|
z9;Z3LZ|F@Y)URuG5HHqgYz>VoJ3c>a1j+&oOb2?pM%;kq<ipn)x7!5a&gc;D`_5^4
zOv-6xG$cnSAjch`y}z>Heu!8f4_+<0EVcogq`j1aq(^~!Lg{N_^mDbuPF{q~9Pb`{
z+Ro3`Y}VQV7;vtK{9igDW)lUiFu2V=3zJ3R-E>113?4<nyle}6e6MwUN(EU{#&BWi
zXg$EtGS;v4)?)h&^WkWo#Fg-`$~{j<rPk`c0RE3`S+r(AHdME6ZGND&UUHJj@0N>>
zBPWSpz_{3Fv4or9f9zQxD<i8E#l8M3?X$X6(GY$?*{>0RYKPMdnqCG>w6r0|qi{8M
zof3BUt%7DydNn|K!GW>MV=ZGj2X!fTV3oUChJr@*$pv1^kJ+jG^D-a9>-63|P=&|I
z&xD#5Z8mycv&e1G!;3o&bwYj<u0)JA`jAJ*fL1|oq#K;o#b&FozLc5MFT&^MsTQlR
zI5v4S?5wG<ahM<$*)E~)W)q41FC0^^9q4x-`c;_X=-{aCrLKd9ix#5|!sJc4*m6}`
ztqfOsyY$;$ZwrD7BoPaly<kEn#_XmWdSy+jl5=E|9MsHo3Q>Qzi83~lE3`7cyDhO*
zQk}ibGg7(uI5n-e@6bmgCRv9-D(q6pxNPGb(EMZkJ<h!-c;ypX5ekYTPYgX_YoVA4
zL}ig3+XT%hHhQ@3wTSl``#xT%Vj+h2ffg?Mb_nQ3N{eQ4c66aVebSZhpm_)f*|Rlo
zHV~#F6*DqO$!(ksuxHuakG*<r)OAUvJRF&DGhJ*WG^4wFvh_hv<LfJsBvTt&IzrHz
zck7QHo6Y2mkex4rE3FwJwHrVo(C4u8^}jqIfHdGl7b$4jDC!treXs7M0SBOuZ<>Tg
zp7)+{5*n(ikOb88Bhs0knqy5vGEIJjDzo;xE)ZV8ZY`0NS*)}TC0F*bI@hs@<NW4#
zn1Dh~Be$w)M_dYzG5uaA-G1m5#mlN?WGhC3-X12IO;2VVrkKS}zlegf=afm8`xX@z
zWZq3_I)Ig7@YZc|x^L<q4fzn}tgBq6KR17C>mW{7q>t&ezxT0K2gHh62fVzrsFB}>
zvPyD|#IJ-MZ)X-@{Jd3tN{EtVit<3P*Vm+38l%xW0aCbvK2VYAZntvY>ow^1%Cr<-
zq^5QwV*PJ}kG<7=iJ|ScVC7#r<C~hIHr+xs{zYg=+(kY5{QaipSKb@Ohxu#ki9(hm
zOm1o3kB<iDX)S9jz&%rkEAPvYO?r!TY1duq`0;M~U)LJZCG0x582rQyyXE^Wu@lYp
zZLfd`oViedT#CGLfsuqyq6T*V<9xsNKv{;z=#i$hkO9O&;9DL`U7fpk-`{-o)#jmL
zA2h?o>hD$xcNgIJ{1^rG|5bm0+lXfVv_f0-bfyIrC^_Ly*(rHE2Hm7xoi?_Hw}kKD
zN4KUs<$c|r0dcgtUhJ8&ku&_^KfU2ULQHmtsb05YlYtE#nRtZnb)->H1qwJr6s_pu
z)n-r1JfQ%&SSuy!NhuARW7t{eaDXo{4KeJD`5$-rYz8D=6v89gfj|{2@RaX#9N|9?
zqQ8I8>)g#NC`MhbUkCnQNB_^O->raKt+^{Q{j>>wzVTO>;P=Bw){w-B^Y?zu*<Ww|
z>xw%Nh@ADJj!OLd8-IO++ZTAy$GGbTzmkIf<FkMj$iV$z{CNLg-}?8f&>_Hd{M|B6
z=jwkS)4Pkn*$idZq5bb4c?@JIUG>$x_x%4d>VE|Dzsv8R74x54<d3ENk6`{0%-^=m
zKRV{$mG_^^;~&BNBbdMKlYfru|FRtZ5zIe=`Rhde$MXFzw)#JU`F}<**L9JVM~?6S
z{i^O7{NqsmwYPs>{o`r>l*GTq2L2JuKZ5z2mix!k{%_0SpP<#>Jd1x;%s*ky|9zwU
z6N30JuGK$+`LBY}5%raLckd_6qNsa*Ys<F6BYI!#0Bn0fP?U(X)+|#vxRuYgAoVxo
zo7DuhSp9XOGESs!(IJwvw29AmDC;YS%fTQ0HJ&P#<#ZSqpA04n0^iY@qT@HZX*|Vr
z1mFe>-dx(>bReu^JJEAk44Ttdyuh{p_Q3)w!&HCwp{-h?D01jR;Ys*kpv+AW&HNdQ
zy05I}Wgp|Wh_3n$gSYg($sGEHFsOc^*EL&TLe;EEX)aKL%m@H|%-C)KxRWkGWY94%
zPv2L5bn@gaOBX71>8`C+z`!2Vg|>qD`5Z=Jzz_d1;Su=fzyW;e*s;Mv5gvtf+xBP<
zn@G-(LcX!;A`uz#rQ}cm%hKsTtczE5!7=2FB6l_b9ld_g2{5POH%mQ6PC5`i1X)Z>
zP%6xlA@&^}KiEtU;m<#<y-*s~Qf=P&y(Or=$2SCWNa<qg<0!TZ6YZwwX&6{<01(sj
zys8fZ08#tQAyNBTN))$_9UYYu)L97Bd@7vp|FTzcKvfzH<@^PWpT2nvs61!i9>r;^
z=3(5$+El4>^}}t$2S-A~E&v1Xc~{5+@Y5O&soLYu7LL%Ao!>%Hm>k^mL>&xc)NRdG
z_<ylk0b!LZrd+fZ$9E#!BR45YvM;-V8jJ}iS;yNqV+g<aO^>f;PPC*h3Y?bxUCCAF
z#9yPUXV@cThHh7AS!Oq30g7d&(;*GYY!Nf|CqAlpj7H7;JueIO&OsPMb=Qrb>?lA&
zLq4Gct(>0Jd|m7;r5dQF1Wfj^(~(-{6~J`<!An0K`jq{)sqK~6>YFrB$(O%iK%H2c
zz_T`sk%r14tvSFLfTZH5I^rWK4S!O8LT?^R6p|n*6DE&qbdiWL3XL$Ui#D)hr?(C^
z$hYp~3&>4u;YKcAznVoCd+e>^<1;iBL*Y>(IvP=}aR$?0VzjOxMe{U}?Riszh5@Q$
zZ|Swa=BYaTFi78%G}M<kAHx~+TIAK@(asxJPh3@`QGLjLHB_<A3_+3k5vg3nIU-1)
zazz?#61wD?@GPiqziz)@tKq}RQ+rb-qjJTw4MG53x(ATuTMlr^7k*0X^|2fBdpgRn
zCFHS!{Kr1W4PN~k^wZ{(7app|g*NR5l?7P>{QfQLr$@pLN<;*Ij@pF5$LIH8>hst2
z`@Xkaa{o+A_~W<V-MHNtRPsy<%JX=$9uW0X6`&KWt*zL87OpBg%K+Vb$qqfO*8Tec
zpN{aa?XH-1Vw5x&xAT>~*At>>x8w=C;oGea&|^XXe)`hpdJg30WL*pGDYF&zoqG7%
zCD%;h#It+9tsAqwpP@n(BwkhjSu9YI^_W(gEH4wA;ugkJ;Z-2FO}#_zkeu+LECgex
zD8ydS&&9=koCX3p+m4BQq&f#Sq%PL3R*;*D0^xQJx6w96++0Nr&u_e+Gpl%?ldDQi
zm5_J2tobKtC)A12gu8|6IbPjnsJ}l&IawekZThvqPc3q6S4|UhQsx#tkfJfo)6DQ}
z8X|Y+C#`cSRPjT#mU4lgte^VZw{f4TET@>;7pr|wT)$D%U42U=6kjuQoOtA?(op1J
z@DF|F^jhsw!2Z*rhChZN(9Ce`z{=e0=LQow%OGJHHxY`<sM|=g8kvsn9Sy!u9;YN&
z%D7(Vdx=NQyx5OsIo-$cAoS@CM&zGDIzl6IVJYl{B>#7%*AE#I6Vzw7E`CI4y%xST
zaP73xQCO(*nWX!NsYJk|D5f!1R<%7)RW)D_p?*|4gNbVLqmc6gcXqkjp08fC+e}Zg
zd;Ht=Bw@?MB0TD$e%x{Hz`*OgGUhJ6M(Q>;-}~hy(OG4Ux*!=D9zGsZNzaj6a4BP1
z>~}&z%PTWzxf`w+@fMyWQ|0MSIDbM@qh`8#iHNyS3nf*rZOFy0lLpo72OLaSuTN{?
zfclyvJ=aSbtF86)^$8*#Rby|B2-Kdea57lkwLrE9ikoY!s#^Dm|I$lQkcs*H<yDgX
z`n=oa%banEi5F1giTV6|e0+&$fpzcPhWmQhK14^VM1V&_gO8tI2T)~TnoI~f!yF!d
zzi)JOp^I=T^3^MQQX;>qs_L8c^xctSc;6UIrQE3KZKUS3o~|xA8b3VDQxw>>31Jst
zm-OiA-Icliy=^wOHHLm_W!lWx(Zwv%PCiAa?tSHhD5=^vJgdWXv<d;2IoZLju9Vr>
zm&=(3ln?2ki+H<YS82HW?Mv}HFO=tcY@-XDRh{z|hRQ78O7I;0Nn|ogSG2jCK1w1Z
zHa~x&JyE@^7k(nE@Yb1zO+ZII4WYZVOCEPs@Ay*}0K5y(@Ztk2AMn78vkFykF&Ne5
zSz^Mw1T+x7t{(C&ioVrSg^IIAyn(pBs*Gz=exVXEy*B4*ry=vM=oAY}2hgR&qIFfh
z&aXpxQMMSHsR&1^GYVf2zjTSs2eCi4vb^k7TYT-BsF)bx-PZz5?>W69Ru{{Xh7Gxt
zp89=Wt+YgWCI*wsoR`5fw%U_H_D*)6qY9VgSy-6V>jt6Z1=Pr8YyJTVe7&K52$x*o
zt&74gxxqNg;YJAD&MCKkAZX#$<lEB^pCIOKC$qf`yITbaY_igjc~{ker_I#;l83%p
ziQr3@F8RRw2h4awQ1yEa&~klVT8{qcgIH=s*SeTvcl(1U_m~^K6eXP>eF+mcawFIi
zy2C_;o65B%-ScDFrOe*f<>HGndYaq4<Z>tCpdB3@7P}`IS8_@}JZae=Khm~hV=rz`
z_FbV2SuGZqRpIB$M8~Vr+6INb09{Zlmzu+FUx=;22B?Hf8K?Ju`$-xxai)o2CWFCO
z{8z7Z`cbX8ZQACd-mYcQ{+g=LiN8;kGEHdK)e}kqVUuT}YSbUkJ3vzR;6Y|%sUw4f
z-_yf3)1RX32bV2lGdw+c6hfjnWHxfBU+aW{jGzQ_6yDD1iAgkv{4Hl^N&d_sNGz&y
zERl&lUF(SZoF9LCM^0IpYDQ^^uXB9iCqks$wkKj}u-4MdtWd!Og`TFPqg$yPhhCQ|
z9*>0zQy?7|Rz#87gH0>#9f70k6&~qHb!N<0WGB+sy4%fotkduCu={+DfIKz7JlOo%
zP|lb%rLCb6@2ZJ;TL*HSmmMrJ=d}a{W?~kqJ>HDbvt0LFcj4o=D7YqUkmZk%iKcS|
z)|q|OPD<8{lYn4CKg)P9*4;A$Q_+x(rTZ<C@s-8I=aF)VYYx8qhJuH)bCo8KIjyWD
z-^#rO0<*RizkpQj8RiWUxoa4@yE{8Oqc>xoTXf7-Z^+F8nY%RdzEq<HGqWQ$n`BG<
zYkZ@OR)21WM_(BHvrp7Ft%Kf_pFeq_)3E;0$1EwU#E*Nq*;+Frt=<=h|5UKRdD(<Z
zOgzl@1GL}M7`j_uG?bK5)F&%)^7XFB!EVK@hxn^qbA_py@TV>;aPWGU)U`tV&CRl>
z-amkv9n8n~$5M}Qa76E&F)=bC(lGdueb5v4R8;C%SuZ$ET-DqO+#RJVDJki<mPH4t
z+xnn($NI~kH>L>qKWZ%nHE_4_GjW@=nMg>V{W#|6XpiT*eED+1+M0OMy>ERimVNPB
zR;oR|LDx=KJNHa}+*V(SP~ZU1!PO+b#BMv-y|1et`S7~9&d)v$DOA3uHWqw*a?;kL
z@~fpKE*m*`_h88eUGTAw%e0I;^gR2zP0R0<Yi;YV%KYeil3tf)8UX3H%=62F>izd(
zE_&ecGSZ;;6|2R^&yvwD3p?hQ`+B)kQZAF_g#SFFO1<gG>uai^NC}tziI#g<cELOT
zrQW7@z{gITJOk`QrAK9aKM(rS)1k4xXX$-BLY-pn-4qta?(G%z6>x4PB3oA$%w4jF
z+dn_(DJl;*S@=3e`*+BDM+Yt6k9g6bjQBJs&kVl7GoD9}2K6=6_&31MJu2y{dSt)X
z=9N2x(eBgo?-<}pubxc_Z+yyP<p|r#`j`~J2h-DoFo%`;8W|d?8g1D1WVuZ$w{>8^
ztCvm8xZwidm%fJ!>DU}iiAvR)BSyhjS{2d<n$@%FcjjS$f=-CDPEX7<^T3<&$oP@t
zUnL36eTZmd)hrOtv_Y&(8Y^j2po<d}NcQp0uJ*?ZpYX&6)SI*4?fF_Oj{KhB!xVr0
zhK3bbti4;f=Ln<1xsT9*f3eY;)y|e?hSHrXyk#eU4Br)YavL<?%wF}V<ATB3U@Ku)
z$jMd`upJU^HVcO*_z&E1{L@-78Kc>G=pW|GM*k`OQq0#AGgDJet(z`Mk*&%{<6Tw!
z{b#n<K!WyB38SNJ-1lLybgi?alX@(}`unTr;fg~<of_zFHQtA?(`KMhn@Vj}Gd4~N
zx;H*%4%_dN@mqU|qVdy;<9qu+MfFrobO7GLK%YseZs;KcTw_@Innnf(sGhvAaEpni
zfA&K(<2H~y@kQBe$gYj(>|S~xIk&ofGD#ex--Nt556+g4=8%4$9=FIcbO{C@9!Yq5
z-1o}23y6oHyI9WiZkVLs5L_RLHl^hzL8$-J-gW;qm1S{=0jY|N;zx?0(i9Lz+9m>m
zi}a#I5h+SjWC*Y>MT8VG3g`+#q68a7CI~1cNE=EJ5JW(Vgr!JG7!V>=N(eP%Zd_1w
zcJ{M>z~qN~-g`OsynD~P=j5F4yZ0Qbtfn<AMZYn)>sd~Ak!{fFnnN4o<%g))p(_T`
zaJmhUt$ii_&S6dIqk?SXpT%QHKraIY?wj_OCK03871j7HH2BEi4L17|X;~z>vfFGQ
z%P>r}9xh+Qa=5@ype#hVJ$zFBK3w1GiG|8cv4dxJcrdiKw~(2EU_!}{xw)kQzS1c%
z)a^q?E-K~2^is>%$<c64+xV8P<O1aNr-<@l(C1rs#`9dS97H!Y>6fD^Y4!6X;{n^E
zqhFhqVK^hP^OYZ?hKDa6rreDa)Dji->>;%g9p5<2KW>NZRA2N6Qem;#<zom0RmcBS
z5{fgg-`c8taH?DQSuW}6)ACIAB%1pQlO&S;WagQ5qIYvnY^>OGW}4!dYOF(Ysz=-!
znQeyYS+0NIXB3o}A*-pWX|G<4@OR5CDk>=-58O66dDZny*9Zf<daLk-z#KYdeAQ{g
z`)0&ddz#7ixNg-Oot-18i}Y~t^c4_JRlkJ98c%;J&bYX)(Gmx6)xhIH1`rE4`Bm-O
z_kDwL8FghjWgKcpN4=S%jph&Voz=>FN<5S6^X0=@LL&Qo9=%;C-jd&>BrXIpq3?0|
z01=B=m`Is%a>Smv7Ugs@-SlYvtLBvc3MG^7)T0ZzF38b)?8&~N5ofXhk)9Ra5L)(B
zZsDqq6F&d0<fq<3>%$*S+s{A9M$_S-1{Om;rOM|ix^kWle<T6V@+C@3OAoVi^{%SQ
zlogm@CzO4krA$m9#dq42FdT_~?OvSa;#mu<#3ROxrhPej0+hW^q6vwJ?su|M5w&tE
zSdh_C&`#qQR?|y=l`<We6&TFzKaMWACPoh%nm^GSF*&^!-tgij{l!vVMycCkmDD0E
zi}_EGI$eKXX=y;jyxu}65=m?6)6&u+r?t`7R@Za$<Ax7T(|!@ZblK6<@AihbF7XjP
z-6P{O$#CpA0w%Wm4oDfyUS-g=E&$2P<Y2HX>-pUQO{@}!JDYExq%qrHbKQKnGuvx!
zN*4}4B#&m@>g=3IXlk-W^z}U!%Cy5MnaA(#qH!NQ48o!gg|v5?c?6oVMk5|Qcdt5a
z7Pm~I#O+^vms+Vr+<Q5^0Jb$c#+(MNqjvW)-L+JQmKoN=+El%Fu9tpMCj@s!>4(=o
zZ+1A`dz0U~Scl?v$;YT`=@{hzo!EDymCD4DRhHV4IgZ=pj7TA)t`a}&lUtg8lM(qo
zr`tF4yk@?7C%q3-^%Cf>+in>g9v|S3a=tF7rlb_|Q!gqtb*gbAvFOdH>OjoOIn&~I
zLb73r-fJr>gjpZ#p>XXnjX@9wF4{!y5HhMr(*ea3KL1-2agl40A_gB5>)3k2L{lG&
z(h#;wL#Ue@#gA;uI_grO(lW_)txw5HeeQ%N(ldd3QxZVkA*Bu7j>L}Jw6$Aa^HD2d
zAXi#T+HSiV^_88=ymsl*>)10b!}^aN**-LYnS{JP9YJX%A&UQQRQWbEcG_QR4g)N=
z9|892u^csCm%*%mtkSm;GY1QljMD@K;0-l%B-Mv=V!CqP9f{6(>}m{5-%AN1l!L^T
zVJ-6}O0KZiwI~vpBZzst)$GiW<m%kZn@uoUN0~?^3*>ctDLG@xxt-GquR6BOU{t`w
z)#p#1xj1~=pi(ow*bX7B>*h!FYN+azpIU-@u*ku*Q9^Ax<e(a3pjnTqx^5kBQX*UY
z+?9SZxlUGA9yPGq2$&OU-!Qt9y7om@OF}I?il927CLmP+?#{Lci=%BMZnwO}<!F_P
z16RXB8&L;i1qB5|X6X%tLby4V-*CmWLaxz4#&F_O67Ap5nR4i9WD7o3J+i&Oe{#f*
zyaaigIdhA4T}fFhy*tg`+@CdXc)zH*k*Ev5@*@Uy?2Dr%dU?5FB6ZbCk~?XL9~|7p
zkd+3$R3QlF@ApUR3Moir@|K9RYN<$Qx`Nis+R70^g8Hjd(oqsoh>?U10RruKtCkS_
zTcvlG8{x)PM)Fk`Jpk|}Y9x?f*ryhL!K#S)#<fR3S&aFlS`8NaH7_W_wAW?C!^fl!
zXc?$KIEJ;KIG+Uaajk(x&I4RO8_{);2!u$)ypc?-#slsgqX52TY*U?$fhZAg%=Cq+
zy=Phfy=^oESBg=^<+>=&aW2$Nt7n121?xiK!!dVTa99Y-rly@0p8+J45Lkg7KW?M8
zap!1=Fm@$RF)q&H_12enemi$kcf(Ht!m{3N0Yh7L<he>!l!DOCc$L>W)z8*?Q)}+3
zJ%Pqezzh9YDR?^Wv$M+kBJ1$WTuZ==$P`340|=)s$vADHX6PhJ_dyqLItPh<81ZhU
z@cRKyIHtt?#rhS=^7o2cj;&b>JDxFY!1wIhGzwMGo*RvDCN4w6^MlE~T$ll*`E(>-
z?GcLBV=2I!SEplQB6|-mY=;nf7Av{jcA@djcKSU$h_p|Jn^o#0hpwv-=vfYwA5Ht)
z=-{=+)uo7lTJI49C*j?3L8b~kOfG$>>C_HmcL6X-oN9K*Bh1~EgjwvSx)}L?0k}z2
zF;)(?zlP9}*a>O<+P~^Rh?f`P^jWn%+!<?OSpx;(Pn8D<Nz78mj=kUbpLH?76<z$b
zwMY_o@j&~#eNW<#;Q^AwgMQwP$w}tq+$*50unO|M@zpP22s`K(2~^udh@B{u4J3ZA
zC9vwGlr<~Dn4i)=SXodEi)eABAl2F01(@|)U<gE^h5#XjfeQd+U89r~iQz74o;<7a
z#F@hgwk74-epo{bi-~KjP)DHa4-rgH5YVd{x_P%q<2xLLk=camR%yI6$DW5W)dD>D
zhQ~CoWQ!JHiQ2v~wZ3!?5J^Z_^6`Ij;kzXO_rbO&kMhmMCjP(%7+=)ZKV0Q8{|_$(
z2S9;WR^PN=?dy-9j})fB4um?+Sw6mvHs29|)BU_n3J=L&Mf*Jo?pNLhgoO+Ie1G1T
zn>zuCZ>{8?-)4~aDwl>80Ph064B)#XFdn|+Bw_3SahnJr@GIP1eBZU)bc(Y8B!3Cz
n+XwNNP`;JN=Nb5a31v-QJ5Op?U3UC1ANW|Furtj&?*8-dPU+kU

literal 0
HcmV?d00001

diff --git a/docs/source/deployment/frameworks/index.md b/docs/source/deployment/frameworks/index.md
index a1b405386..683fa8217 100644
--- a/docs/source/deployment/frameworks/index.md
+++ b/docs/source/deployment/frameworks/index.md
@@ -12,5 +12,6 @@ lws
 modal
 open-webui
 skypilot
+streamlit
 triton
 :::
diff --git a/docs/source/deployment/frameworks/streamlit.md b/docs/source/deployment/frameworks/streamlit.md
new file mode 100644
index 000000000..084550ec9
--- /dev/null
+++ b/docs/source/deployment/frameworks/streamlit.md
@@ -0,0 +1,42 @@
+(deployment-streamlit)=
+
+# Streamlit
+
+[Streamlit](https://github.com/streamlit/streamlit) lets you transform Python scripts into interactive web apps in minutes, instead of weeks. Build dashboards, generate reports, or create chat apps.
+
+It can be quickly integrated with vLLM as a backend API server, enabling powerful LLM inference via API calls.
+
+## Prerequisites
+
+- Setup vLLM environment
+
+## Deploy
+
+- Start the vLLM server with the supported chat completion model, e.g.
+
+```console
+vllm serve qwen/Qwen1.5-0.5B-Chat
+```
+
+- Install streamlit and openai:
+
+```console
+pip install streamlit openai
+```
+
+- Use the script: <gh-file:examples/online_serving/streamlit_openai_chatbot_webserver.py>
+
+- Start the streamlit web UI and start to chat:
+
+```console
+streamlit run streamlit_openai_chatbot_webserver.py
+
+# or specify the VLLM_API_BASE or VLLM_API_KEY
+VLLM_API_BASE="http://vllm-server-host:vllm-server-port/v1" streamlit run streamlit_openai_chatbot_webserver.py
+
+# start with debug mode to view more details
+streamlit run streamlit_openai_chatbot_webserver.py --logger.level=debug
+```
+
+:::{image} /assets/deployment/streamlit-chat.png
+:::
diff --git a/examples/online_serving/streamlit_openai_chatbot_webserver.py b/examples/online_serving/streamlit_openai_chatbot_webserver.py
new file mode 100644
index 000000000..d8a0f211d
--- /dev/null
+++ b/examples/online_serving/streamlit_openai_chatbot_webserver.py
@@ -0,0 +1,185 @@
+# SPDX-License-Identifier: Apache-2.0
+"""
+vLLM Chat Assistant - A Streamlit Web Interface
+
+A streamlined chat interface that quickly integrates
+with vLLM API server.
+
+Features:
+- Multiple chat sessions management
+- Streaming response display
+- Configurable API endpoint
+- Real-time chat history
+
+Requirements:
+    pip install streamlit openai
+
+Usage:
+    # Start the app with default settings
+    streamlit run streamlit_openai_chatbot_webserver.py
+
+    # Start with custom vLLM API endpoint
+    VLLM_API_BASE="http://your-server:8000/v1" \
+        streamlit run streamlit_openai_chatbot_webserver.py
+
+    # Enable debug mode
+    streamlit run streamlit_openai_chatbot_webserver.py \
+        --logger.level=debug
+"""
+import os
+from datetime import datetime
+
+import streamlit as st
+from openai import OpenAI
+
+# Get command line arguments from environment variables
+openai_api_key = os.getenv('VLLM_API_KEY', "EMPTY")
+openai_api_base = os.getenv('VLLM_API_BASE', "http://localhost:8000/v1")
+
+# Initialize session states for managing chat sessions
+if "sessions" not in st.session_state:
+    st.session_state.sessions = {}
+
+if "current_session" not in st.session_state:
+    st.session_state.current_session = None
+
+if "messages" not in st.session_state:
+    st.session_state.messages = []
+
+if "active_session" not in st.session_state:
+    st.session_state.active_session = None
+
+# Initialize session state for API base URL
+if "api_base_url" not in st.session_state:
+    st.session_state.api_base_url = openai_api_base
+
+
+def create_new_chat_session():
+    """Create a new chat session with timestamp as ID"""
+    session_id = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
+    st.session_state.sessions[session_id] = []
+    st.session_state.current_session = session_id
+    st.session_state.active_session = session_id
+    st.session_state.messages = []
+
+
+def switch_to_chat_session(session_id):
+    """Switch to a different chat session"""
+    st.session_state.current_session = session_id
+    st.session_state.active_session = session_id
+    st.session_state.messages = st.session_state.sessions[session_id]
+
+
+def get_llm_response(messages, model):
+    """Get streaming response from llm
+
+    Args:
+        messages: List of message dictionaries
+        model: Name of model
+
+    Returns:
+        Streaming response object or error message string
+    """
+    try:
+        response = client.chat.completions.create(model=model,
+                                                  messages=messages,
+                                                  stream=True)
+        return response
+    except Exception as e:
+        st.error(f"Error details: {str(e)}")
+        return f"Error: {str(e)}"
+
+
+# Sidebar - API Settings first
+st.sidebar.title("API Settings")
+new_api_base = st.sidebar.text_input("API Base URL:",
+                                     value=st.session_state.api_base_url)
+if new_api_base != st.session_state.api_base_url:
+    st.session_state.api_base_url = new_api_base
+    st.rerun()
+
+st.sidebar.divider()
+
+# Sidebar - Session Management
+st.sidebar.title("Chat Sessions")
+if st.sidebar.button("New Session"):
+    create_new_chat_session()
+
+# Display all sessions in reverse chronological order
+for session_id in sorted(st.session_state.sessions.keys(), reverse=True):
+    # Mark the active session with a pinned button
+    if session_id == st.session_state.active_session:
+        st.sidebar.button(f"📍 {session_id}",
+                          key=session_id,
+                          type="primary",
+                          on_click=switch_to_chat_session,
+                          args=(session_id, ))
+    else:
+        st.sidebar.button(f"Session {session_id}",
+                          key=session_id,
+                          on_click=switch_to_chat_session,
+                          args=(session_id, ))
+
+# Main interface
+st.title("vLLM Chat Assistant")
+
+# Initialize OpenAI client with API settings
+client = OpenAI(api_key=openai_api_key, base_url=st.session_state.api_base_url)
+
+# Get and display current model id
+models = client.models.list()
+model = models.data[0].id
+st.markdown(f"**Model**: {model}")
+
+# Initialize first session if none exists
+if st.session_state.current_session is None:
+    create_new_chat_session()
+    st.session_state.active_session = st.session_state.current_session
+
+# Display chat history for current session
+for message in st.session_state.messages:
+    with st.chat_message(message["role"]):
+        st.write(message["content"])
+
+# Handle user input and generate llm response
+if prompt := st.chat_input("Type your message here..."):
+    # Save user message to session
+    st.session_state.messages.append({"role": "user", "content": prompt})
+    st.session_state.sessions[
+        st.session_state.current_session] = st.session_state.messages
+
+    # Display user message
+    with st.chat_message("user"):
+        st.write(prompt)
+
+    # Prepare messages for llm
+    messages_for_llm = [{
+        "role": m["role"],
+        "content": m["content"]
+    } for m in st.session_state.messages]
+
+    # Generate and display llm response
+    with st.chat_message("assistant"):
+        message_placeholder = st.empty()
+        full_response = ""
+
+        # Get streaming response from llm
+        response = get_llm_response(messages_for_llm, model)
+        if isinstance(response, str):
+            message_placeholder.markdown(response)
+            full_response = response
+        else:
+            for chunk in response:
+                if hasattr(chunk.choices[0].delta, "content"):
+                    content = chunk.choices[0].delta.content
+                    if content:
+                        full_response += content
+                        message_placeholder.markdown(full_response + "▌")
+
+            message_placeholder.markdown(full_response)
+
+    # Save llm response to session history
+    st.session_state.messages.append({
+        "role": "assistant",
+        "content": full_response
+    })
-- 
GitLab


From f5a3c655b2e03f81d1c7262baef0cecd15746291 Mon Sep 17 00:00:00 2001
From: TJian <tunjian.tan@embeddedllm.com>
Date: Thu, 1 May 2025 21:37:17 +0800
Subject: [PATCH 094/461] [FEAT] [ROCm]: Add Qwen/Qwen3-235B-A22B-FP8 TP4
 triton fused moe config (#17535)

Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
---
 ...,dtype=fp8_w8a8,block_shape=[128,128].json | 164 ++++++++++++++++++
 1 file changed, 164 insertions(+)
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json

diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 000000000..c275cecc1
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}
-- 
GitLab


From 98060b001dfae385c73d2380ad6a38456cbf42c9 Mon Sep 17 00:00:00 2001
From: Chauncey <chaunceyjiang@gmail.com>
Date: Thu, 1 May 2025 21:46:16 +0800
Subject: [PATCH 095/461] [Feature][Frontend]: Deprecate --enable-reasoning
 (#17452)

Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>
---
 docs/source/features/reasoning_outputs.md     | 13 ++--
 ...etion_structured_outputs_with_reasoning.py |  2 +-
 ...at_completion_tool_calls_with_reasoning.py |  2 +-
 .../openai_chat_completion_with_reasoning.py  |  2 +-
 ...hat_completion_with_reasoning_streaming.py |  2 +-
 .../openai/test_chat_with_tool_reasoning.py   |  6 +-
 tests/entrypoints/openai/test_cli_args.py     | 14 +----
 vllm/config.py                                |  5 +-
 vllm/engine/arg_utils.py                      | 17 ++++--
 vllm/engine/llm_engine.py                     |  2 +-
 vllm/entrypoints/openai/api_server.py         |  3 +-
 vllm/entrypoints/openai/cli_args.py           |  5 --
 vllm/entrypoints/openai/serving_chat.py       | 59 +++++--------------
 .../guided_decoding/__init__.py               |  4 +-
 .../outlines_logits_processors.py             |  2 +-
 .../guided_decoding/xgrammar_decoding.py      |  2 +-
 16 files changed, 49 insertions(+), 91 deletions(-)

diff --git a/docs/source/features/reasoning_outputs.md b/docs/source/features/reasoning_outputs.md
index 323bf849a..a079eb8b7 100644
--- a/docs/source/features/reasoning_outputs.md
+++ b/docs/source/features/reasoning_outputs.md
@@ -21,11 +21,10 @@ vLLM currently supports the following reasoning models:
 
 ## Quickstart
 
-To use reasoning models, you need to specify the `--enable-reasoning` and `--reasoning-parser` flags when making a request to the chat completion endpoint. The `--reasoning-parser` flag specifies the reasoning parser to use for extracting reasoning content from the model output.
+To use reasoning models, you need to specify the `--reasoning-parser` flags when making a request to the chat completion endpoint. The `--reasoning-parser` flag specifies the reasoning parser to use for extracting reasoning content from the model output.
 
 ```bash
-vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \
-    --enable-reasoning --reasoning-parser deepseek_r1
+vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --reasoning-parser deepseek_r1
 ```
 
 Next, make a request to the model that should return the reasoning content in the response.
@@ -140,8 +139,7 @@ Remember to check whether the `reasoning_content` exists in the response before
 The reasoning content is also available in the structured output. The structured output engine like `xgrammar` will use the reasoning content to generate structured output. It is only supported in v0 engine now.
 
 ```bash
-VLLM_USE_V1=0 vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \
-    --enable-reasoning --reasoning-parser deepseek_r1
+VLLM_USE_V1=0 vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --reasoning-parser deepseek_r1
 ```
 
 Please note that the `VLLM_USE_V1` environment variable must be set to `0` to use the v0 engine.
@@ -316,9 +314,8 @@ class DeepSeekReasoner(Reasoner):
 
 The structured output engine like `xgrammar` will use `end_token_id` to check if the reasoning content is present in the model output and skip the structured output if it is the case.
 
-Finally, you can enable reasoning for the model by using the `--enable-reasoning` and `--reasoning-parser` flags.
+Finally, you can enable reasoning for the model by using the `--reasoning-parser` flags.
 
 ```bash
-vllm serve <model_tag> \
-    --enable-reasoning --reasoning-parser example
+vllm serve <model_tag> --reasoning-parser example
 ```
diff --git a/examples/online_serving/openai_chat_completion_structured_outputs_with_reasoning.py b/examples/online_serving/openai_chat_completion_structured_outputs_with_reasoning.py
index cb7f30d93..5da9236c5 100644
--- a/examples/online_serving/openai_chat_completion_structured_outputs_with_reasoning.py
+++ b/examples/online_serving/openai_chat_completion_structured_outputs_with_reasoning.py
@@ -9,7 +9,7 @@ parser:
 
 ```bash
 vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \
-     --enable-reasoning --reasoning-parser deepseek_r1
+    --reasoning-parser deepseek_r1
 ```
 
 This example demonstrates how to generate chat completions from reasoning models
diff --git a/examples/online_serving/openai_chat_completion_tool_calls_with_reasoning.py b/examples/online_serving/openai_chat_completion_tool_calls_with_reasoning.py
index 8c6470aa3..9417abd39 100644
--- a/examples/online_serving/openai_chat_completion_tool_calls_with_reasoning.py
+++ b/examples/online_serving/openai_chat_completion_tool_calls_with_reasoning.py
@@ -9,7 +9,7 @@ the reasoning parser and tool calling enabled.
 
 ```bash
 vllm serve Qwen/QwQ-32B \
-     --enable-reasoning --reasoning-parser deepseek_r1 \
+     --reasoning-parser deepseek_r1 \
      --enable-auto-tool-choice --tool-call-parser hermes
      
 ```
diff --git a/examples/online_serving/openai_chat_completion_with_reasoning.py b/examples/online_serving/openai_chat_completion_with_reasoning.py
index 6f5f7b5fa..4bf7731cb 100644
--- a/examples/online_serving/openai_chat_completion_with_reasoning.py
+++ b/examples/online_serving/openai_chat_completion_with_reasoning.py
@@ -8,7 +8,7 @@ with the reasoning parser:
 
 ```bash
 vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \
-     --enable-reasoning --reasoning-parser deepseek_r1
+    --reasoning-parser deepseek_r1
 ```
 
 This example demonstrates how to generate chat completions from reasoning models
diff --git a/examples/online_serving/openai_chat_completion_with_reasoning_streaming.py b/examples/online_serving/openai_chat_completion_with_reasoning_streaming.py
index 90481cdc0..9cc0a5f24 100644
--- a/examples/online_serving/openai_chat_completion_with_reasoning_streaming.py
+++ b/examples/online_serving/openai_chat_completion_with_reasoning_streaming.py
@@ -8,7 +8,7 @@ parser:
 
 ```bash
 vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \
-     --enable-reasoning --reasoning-parser deepseek_r1
+     --reasoning-parser deepseek_r1
 ```
 
 Unlike openai_chat_completion_with_reasoning.py, this example demonstrates the
diff --git a/tests/entrypoints/openai/test_chat_with_tool_reasoning.py b/tests/entrypoints/openai/test_chat_with_tool_reasoning.py
index 53df1d924..e00f001ef 100644
--- a/tests/entrypoints/openai/test_chat_with_tool_reasoning.py
+++ b/tests/entrypoints/openai/test_chat_with_tool_reasoning.py
@@ -13,9 +13,9 @@ MODEL_NAME = "Qwen/QwQ-32B"
 @pytest.fixture(scope="module")
 def server():  # noqa: F811
     args = [
-        "--max-model-len", "8192", "--enforce-eager", "--enable-reasoning",
-        "--reasoning-parser", "deepseek_r1", "--enable-auto-tool-choice",
-        "--tool-call-parser", "hermes"
+        "--max-model-len", "8192", "--enforce-eager", "--reasoning-parser",
+        "deepseek_r1", "--enable-auto-tool-choice", "--tool-call-parser",
+        "hermes"
     ]
 
     with RemoteOpenAIServer(MODEL_NAME, args) as remote_server:
diff --git a/tests/entrypoints/openai/test_cli_args.py b/tests/entrypoints/openai/test_cli_args.py
index e0285b5e5..8d1abe28a 100644
--- a/tests/entrypoints/openai/test_cli_args.py
+++ b/tests/entrypoints/openai/test_cli_args.py
@@ -122,31 +122,23 @@ def test_enable_auto_choice_fails_with_enable_reasoning(serve_parser):
     """Ensure validation fails if reasoning is enabled with auto tool choice"""
     args = serve_parser.parse_args(args=[
         "--enable-auto-tool-choice",
-        "--enable-reasoning",
+        "--reasoning-parser",
+        "deepseek_r1",
     ])
     with pytest.raises(TypeError):
         validate_parsed_serve_args(args)
 
 
-def test_enable_reasoning_passes_with_reasoning_parser(serve_parser):
+def test_passes_with_reasoning_parser(serve_parser):
     """Ensure validation passes if reasoning is enabled 
     with a reasoning parser"""
     args = serve_parser.parse_args(args=[
-        "--enable-reasoning",
         "--reasoning-parser",
         "deepseek_r1",
     ])
     validate_parsed_serve_args(args)
 
 
-def test_enable_reasoning_fails_without_reasoning_parser(serve_parser):
-    """Ensure validation fails if reasoning is enabled 
-    without a reasoning parser"""
-    args = serve_parser.parse_args(args=["--enable-reasoning"])
-    with pytest.raises(TypeError):
-        validate_parsed_serve_args(args)
-
-
 def test_chat_template_validation_for_happy_paths(serve_parser):
     """Ensure validation passes if the chat template exists"""
     args = serve_parser.parse_args(
diff --git a/vllm/config.py b/vllm/config.py
index 37a9d078e..13b8c3378 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -3225,10 +3225,9 @@ class DecodingConfig:
     in the JSON schema. This is only supported for the `guidance` backend and
     is used to better align its behaviour with `outlines` and `xgrammar`."""
 
-    reasoning_backend: Optional[str] = None
+    reasoning_backend: str = ""
     """Select the reasoning parser depending on the model that you're using.
-    This is used to parse the reasoning content into OpenAI API format.
-    Required for `--enable-reasoning`."""
+    This is used to parse the reasoning content into OpenAI API format."""
 
     def compute_hash(self) -> str:
         """
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index d23463ded..1d9b6b47e 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -365,8 +365,9 @@ class EngineArgs:
     calculate_kv_scales: bool = CacheConfig.calculate_kv_scales
 
     additional_config: Optional[Dict[str, Any]] = None
-    enable_reasoning: Optional[bool] = None
-    reasoning_parser: Optional[str] = DecodingConfig.reasoning_backend
+    enable_reasoning: Optional[bool] = None  # DEPRECATED
+    reasoning_parser: str = DecodingConfig.reasoning_backend
+
     use_tqdm_on_load: bool = LoadConfig.use_tqdm_on_load
 
     def __post_init__(self):
@@ -798,8 +799,15 @@ class EngineArgs:
             "--enable-reasoning",
             action="store_true",
             default=False,
-            help="Whether to enable reasoning_content for the model. "
-            "If enabled, the model will be able to generate reasoning content."
+            help=
+            "[DEPRECATED] " \
+            "The --enable-reasoning flag is deprecated as of v0.8.6. "
+            "Use --reasoning-parser to specify " \
+            "the reasoning parser backend instead. "
+            "This flag (--enable-reasoning) will be " \
+            "removed in v0.10.0. "
+            "When --reasoning-parser is specified, " \
+            "reasoning mode is automatically enabled."
         )
 
         return parser
@@ -1088,7 +1096,6 @@ class EngineArgs:
             disable_additional_properties=\
                 self.guided_decoding_disable_additional_properties,
             reasoning_backend=self.reasoning_parser
-            if self.enable_reasoning else None,
         )
 
         observability_config = ObservabilityConfig(
diff --git a/vllm/engine/llm_engine.py b/vllm/engine/llm_engine.py
index 8481181eb..0930bae02 100644
--- a/vllm/engine/llm_engine.py
+++ b/vllm/engine/llm_engine.py
@@ -2096,7 +2096,7 @@ class LLMEngine:
             guided_decoding.backend = guided_decoding.backend or \
                 self.decoding_config.backend
 
-            if self.decoding_config.reasoning_backend is not None:
+            if self.decoding_config.reasoning_backend:
                 logger.debug("Building with reasoning backend %s",
                              self.decoding_config.reasoning_backend)
 
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index 136819580..9746d9697 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -967,7 +967,6 @@ async def init_app_state(
         return_tokens_as_token_ids=args.return_tokens_as_token_ids,
         enable_auto_tools=args.enable_auto_tool_choice,
         tool_parser=args.tool_call_parser,
-        enable_reasoning=args.enable_reasoning,
         reasoning_parser=args.reasoning_parser,
         enable_prompt_tokens_details=args.enable_prompt_tokens_details,
     ) if model_config.runner_type == "generate" else None
@@ -1053,7 +1052,7 @@ async def run_server(args, **uvicorn_kwargs) -> None:
                        f"(chose from {{ {','.join(valid_tool_parses)} }})")
 
     valid_reasoning_parses = ReasoningParserManager.reasoning_parsers.keys()
-    if args.enable_reasoning \
+    if args.reasoning_parser \
         and args.reasoning_parser not in valid_reasoning_parses:
         raise KeyError(
             f"invalid reasoning parser: {args.reasoning_parser} "
diff --git a/vllm/entrypoints/openai/cli_args.py b/vllm/entrypoints/openai/cli_args.py
index b3824013f..a2639d374 100644
--- a/vllm/entrypoints/openai/cli_args.py
+++ b/vllm/entrypoints/openai/cli_args.py
@@ -284,11 +284,6 @@ def validate_parsed_serve_args(args: argparse.Namespace):
         raise TypeError("Error: --enable-auto-tool-choice requires "
                         "--tool-call-parser")
 
-    # Enable reasoning needs a reasoning parser to be valid
-    if args.enable_reasoning and not args.reasoning_parser:
-        raise TypeError("Error: --enable-reasoning requires "
-                        "--reasoning-parser")
-
 
 def create_parser_for_docs() -> FlexibleArgumentParser:
     parser_for_docs = FlexibleArgumentParser(
diff --git a/vllm/entrypoints/openai/serving_chat.py b/vllm/entrypoints/openai/serving_chat.py
index dd0b67df4..83a92a980 100644
--- a/vllm/entrypoints/openai/serving_chat.py
+++ b/vllm/entrypoints/openai/serving_chat.py
@@ -58,8 +58,7 @@ class OpenAIServingChat(OpenAIServing):
         chat_template: Optional[str],
         chat_template_content_format: ChatTemplateContentFormatOption,
         return_tokens_as_token_ids: bool = False,
-        enable_reasoning: bool = False,
-        reasoning_parser: Optional[str] = None,
+        reasoning_parser: str = "",
         enable_auto_tools: bool = False,
         tool_parser: Optional[str] = None,
         enable_prompt_tokens_details: bool = False,
@@ -82,18 +81,17 @@ class OpenAIServingChat(OpenAIServing):
                 " the parallel_tool_calls client option is preset for "
                 "compatibility reasons, it will be ignored.")
 
-        self.enable_reasoning: bool = enable_reasoning
         self.reasoning_parser: Optional[Callable[[AnyTokenizer],
                                                  ReasoningParser]] = None
-        if self.enable_reasoning:
+        if reasoning_parser:
             try:
                 self.reasoning_parser = (
                     ReasoningParserManager.get_reasoning_parser(
                         reasoning_parser))
+                assert self.reasoning_parser is not None
             except Exception as e:
-                raise TypeError("Error: --enable-reasoning requires "
-                                f"reasoning_parser:'{reasoning_parser}' "
-                                "which has not been registered") from e
+                raise TypeError(
+                    f"{reasoning_parser=} has not been registered") from e
         self.tool_parser: Optional[Callable[[AnyTokenizer], ToolParser]] = None
         if self.enable_auto_tools:
             try:
@@ -423,15 +421,12 @@ class OpenAIServingChat(OpenAIServing):
             not tool_choice_function_name
             and self._should_stream_with_auto_tool_parsing(request))
 
-        should_stream_with_reasoning_parsing = (
-            self._should_stream_with_reasoning_parsing(request))
-
         all_previous_token_ids: Optional[list[list[int]]]
         function_name_returned: Optional[list[bool]] = None
 
         # Only one of these will be used, thus previous_texts and
         # all_previous_token_ids will not be used twice in the same iteration.
-        if tool_choice_auto or should_stream_with_reasoning_parsing:
+        if tool_choice_auto or self.reasoning_parser:
             # These are only required in "auto" tool choice case
             previous_texts = [""] * num_choices
             all_previous_token_ids = [[]] * num_choices
@@ -446,12 +441,7 @@ class OpenAIServingChat(OpenAIServing):
             previous_texts, all_previous_token_ids = None, None
 
         try:
-            # There is no need to check if the reasoning_parser is None
-            # because the should_stream_with_reasoning_parsing check
-            # already ensures that the reasoning_parser is not None.
-            # but the pre-commit hook requires it.
-            if should_stream_with_reasoning_parsing and \
-                self.reasoning_parser is not None:
+            if self.reasoning_parser:
                 reasoning_parser = self.reasoning_parser(tokenizer)
         except RuntimeError as e:
             logger.exception("Error in reasoning parser creation.")
@@ -459,7 +449,6 @@ class OpenAIServingChat(OpenAIServing):
             yield f"data: {data}\n\n"
             yield "data: [DONE]\n\n"
             return
-
         # Prepare the tool parser if it's needed
         try:
             if tool_choice_auto and self.tool_parser:
@@ -592,7 +581,7 @@ class OpenAIServingChat(OpenAIServing):
                     delta_message: Optional[DeltaMessage]
 
                     # just update previous_texts and previous_token_ids
-                    if tool_choice_auto or should_stream_with_reasoning_parsing:
+                    if tool_choice_auto or self.reasoning_parser:
                         assert previous_texts is not None
                         assert all_previous_token_ids is not None
                         previous_text = previous_texts[i]
@@ -603,7 +592,7 @@ class OpenAIServingChat(OpenAIServing):
 
                     # handle streaming deltas for tools with named tool_choice
                     if tool_choice_function_name:
-                        if (self.enable_reasoning
+                        if (self.reasoning_parser
                                 and not reasoning_parser.is_reasoning_end(
                                     previous_token_ids)):
                             assert reasoning_parser is not None
@@ -630,7 +619,7 @@ class OpenAIServingChat(OpenAIServing):
                                     current_text = ""
                         else:
                             # Just to add remaining `content`
-                            if self.enable_reasoning:
+                            if self.reasoning_parser:
                                 delta_text = previous_text + delta_text
                                 current_text = ""
 
@@ -660,7 +649,7 @@ class OpenAIServingChat(OpenAIServing):
 
                     # handle streaming deltas for tools with "auto" tool choice
                     # and reasoning parser
-                    elif tool_choice_auto and self.enable_reasoning:
+                    elif tool_choice_auto and self.reasoning_parser:
                         assert tool_parser is not None
                         assert reasoning_parser is not None
                         assert added_content_delta_arr is not None
@@ -728,8 +717,7 @@ class OpenAIServingChat(OpenAIServing):
                                 delta_token_ids=output.token_ids,
                                 request=request))
                     # when only reasoning
-                    elif self.enable_reasoning:
-                        assert reasoning_parser is not None
+                    elif self.reasoning_parser:
                         delta_message = (reasoning_parser.
                                          extract_reasoning_content_streaming(
                                              previous_text,
@@ -744,7 +732,7 @@ class OpenAIServingChat(OpenAIServing):
                         delta_message = DeltaMessage(content=delta_text)
 
                     # update the previous values for the next iteration
-                    if tool_choice_auto or should_stream_with_reasoning_parsing:
+                    if tool_choice_auto or self.reasoning_parser:
                         assert previous_texts is not None
                         assert all_previous_token_ids is not None
                         previous_texts[i] = current_text
@@ -931,17 +919,9 @@ class OpenAIServingChat(OpenAIServing):
                 )
             else:
                 logprobs = None
-
-            should_stream_with_reasoning_parsing = (
-                self._should_stream_with_reasoning_parsing(request))
-
-            # In the OpenAI API the finish_reason is "tools_called"
-            # if the tool choice is auto and the model produced a tool
-            # call. The same is not true for named function calls
             auto_tools_called = False
 
-            if should_stream_with_reasoning_parsing and \
-                self.reasoning_parser is not None:
+            if self.reasoning_parser:
                 try:
                     reasoning_parser = self.reasoning_parser(tokenizer)
                 except RuntimeError as e:
@@ -1176,17 +1156,6 @@ class OpenAIServingChat(OpenAIServing):
         return (request.tools and self.tool_parser and self.enable_auto_tools
                 and request.tool_choice in ['auto', None])
 
-    def _should_stream_with_reasoning_parsing(self,
-                                              request: ChatCompletionRequest):
-        """
-            Utility function to check if streamed tokens should go through the
-            reasoning parser that was configured.
-    
-            We only want to do this IF reasoning is enabled and a reasoning 
-            parser is configured.
-            """
-        return self.enable_reasoning and self.reasoning_parser is not None
-
     def _should_check_for_unstreamed_tool_arg_tokens(
         self,
         delta_message: Optional[DeltaMessage],
diff --git a/vllm/model_executor/guided_decoding/__init__.py b/vllm/model_executor/guided_decoding/__init__.py
index 4e4d697f4..a2b61a1b1 100644
--- a/vllm/model_executor/guided_decoding/__init__.py
+++ b/vllm/model_executor/guided_decoding/__init__.py
@@ -103,7 +103,7 @@ async def get_guided_decoding_logits_processor(
         reasoning_backend: str | None = None) -> LogitsProcessor | None:
 
     reasoner = None
-    if reasoning_backend is not None:
+    if reasoning_backend:
         reasoner_class = ReasoningParserManager.get_reasoning_parser(
             reasoning_backend)
         reasoner = reasoner_class(tokenizer)
@@ -146,7 +146,7 @@ def get_local_guided_decoding_logits_processor(
     guided_params = maybe_backend_fallback(guided_params)
 
     reasoner = None
-    if reasoning_backend is not None:
+    if reasoning_backend:
         reasoner_class = ReasoningParserManager.get_reasoning_parser(
             reasoning_backend)
         reasoner = reasoner_class(tokenizer)
diff --git a/vllm/model_executor/guided_decoding/outlines_logits_processors.py b/vllm/model_executor/guided_decoding/outlines_logits_processors.py
index 31af4593f..936fd0f06 100644
--- a/vllm/model_executor/guided_decoding/outlines_logits_processors.py
+++ b/vllm/model_executor/guided_decoding/outlines_logits_processors.py
@@ -61,7 +61,7 @@ class BaseLogitsProcessor:
         """Use the FSM to bias the logits before sampling the next token."""
 
         # Skip the structured logits processing if reasoning is not finished.
-        # reasoner is not None only when `--enable-reasoning` is set.
+        # reasoner is not None only when `--reasoning-parser` is set.
         if self._reasoner is not None:
             if not self._reasoner.is_reasoning_end(input_ids):
                 return scores
diff --git a/vllm/model_executor/guided_decoding/xgrammar_decoding.py b/vllm/model_executor/guided_decoding/xgrammar_decoding.py
index eb7b2b74f..ac2d73626 100644
--- a/vllm/model_executor/guided_decoding/xgrammar_decoding.py
+++ b/vllm/model_executor/guided_decoding/xgrammar_decoding.py
@@ -346,7 +346,7 @@ class XGrammarLogitsProcessor:
                  scores: torch.Tensor) -> torch.Tensor:
 
         # Skip the structured logits processing if reasoning is not finished.
-        # reasoner is not None only when `--enable-reasoning` is set.
+        # reasoner is not None only when `--reasoning-parser` is set.
         if self.reasoner is not None and \
         not self.reasoner.is_reasoning_end(
                 input_ids):
-- 
GitLab


From 28566d73b3c76aa80548a4fb91b4b97cc02b22bc Mon Sep 17 00:00:00 2001
From: Hongxia Yang <62075498+hongxiayang@users.noreply.github.com>
Date: Thu, 1 May 2025 10:54:25 -0400
Subject: [PATCH 096/461] [ROCm] remove unsupported archs from rocm triton
 flash-attention supported list (#17536)

Signed-off-by: Hongxia Yang <hongxia.yang@amd.com>
---
 vllm/attention/ops/triton_flash_attention.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/attention/ops/triton_flash_attention.py b/vllm/attention/ops/triton_flash_attention.py
index e98b52545..23ac7d7dc 100644
--- a/vllm/attention/ops/triton_flash_attention.py
+++ b/vllm/attention/ops/triton_flash_attention.py
@@ -650,7 +650,7 @@ def get_general_autotune_configs():
 
 
 def has_cdna_target():
-    ROCM_CDNA_TARGETS = ["gfx940", "gfx941", "gfx942", "gfx90a", "gfx908"]
+    ROCM_CDNA_TARGETS = ["gfx942", "gfx90a", "gfx908"]
     return triton.runtime.driver.active.get_current_target(
     ).arch in ROCM_CDNA_TARGETS
 
-- 
GitLab


From 460a2b11004229ccba1f5d5200c541496c8cf513 Mon Sep 17 00:00:00 2001
From: Sage Moore <sage@neuralmagic.com>
Date: Thu, 1 May 2025 07:59:28 -0700
Subject: [PATCH 097/461] [torch.compile] Add torch inductor pass for fusing
 silu_and_mul with subsequent scaled_fp8_quant operations (#10867)

Signed-off-by: Sage Moore <sage@neuralmagic.com>
---
 CMakeLists.txt                               |   1 +
 csrc/core/math.hpp                           |  19 +++
 csrc/ops.h                                   |   3 +
 csrc/quantization/activation_kernels.cu      | 120 +++++++++++++++++++
 csrc/torch_bindings.cpp                      |   6 +-
 tests/compile/test_functionalization.py      |  17 ++-
 tests/compile/test_silu_mul_quant_fusion.py  |  74 ++++++++++++
 tests/kernels/test_fused_quant_activation.py |  69 +++++++++++
 vllm/compilation/activation_quant_fusion.py  |  87 ++++++++++++++
 vllm/compilation/fix_functionalization.py    |  17 ++-
 vllm/compilation/pass_manager.py             |   2 +
 11 files changed, 406 insertions(+), 9 deletions(-)
 create mode 100644 csrc/quantization/activation_kernels.cu
 create mode 100644 tests/compile/test_silu_mul_quant_fusion.py
 create mode 100644 tests/kernels/test_fused_quant_activation.py
 create mode 100644 vllm/compilation/activation_quant_fusion.py

diff --git a/CMakeLists.txt b/CMakeLists.txt
index 6be9adcb8..72740279d 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -241,6 +241,7 @@ set(VLLM_EXT_SRC
   "csrc/quantization/fp8/common.cu"
   "csrc/quantization/fused_kernels/fused_layernorm_dynamic_per_token_quant.cu"
   "csrc/quantization/gguf/gguf_kernel.cu"
+  "csrc/quantization/activation_kernels.cu"
   "csrc/cuda_utils_kernels.cu"
   "csrc/prepare_inputs/advance_step.cu"
   "csrc/custom_all_reduce.cu"
diff --git a/csrc/core/math.hpp b/csrc/core/math.hpp
index b8171133f..6764e1fd6 100644
--- a/csrc/core/math.hpp
+++ b/csrc/core/math.hpp
@@ -7,3 +7,22 @@ inline constexpr uint32_t next_pow_2(uint32_t const num) {
   if (num <= 1) return num;
   return 1 << (CHAR_BIT * sizeof(num) - __builtin_clz(num - 1));
 }
+
+template <typename A, typename B>
+static inline constexpr auto div_ceil(A a, B b) {
+  return (a + b - 1) / b;
+}
+
+// Round a down to the next multiple of b. The caller is responsible for making
+// sure that b is non-zero
+template <typename T>
+inline constexpr T round_to_previous_multiple_of(T a, T b) {
+  return a % b == 0 ? a : (a / b) * b;
+}
+
+// Round a up to the next multiple of b. The caller is responsible for making
+// sure that b is non-zero
+template <typename T>
+inline constexpr T round_to_next_multiple_of(T a, T b) {
+  return a % b == 0 ? a : ((a / b) + 1) * b;
+}
diff --git a/csrc/ops.h b/csrc/ops.h
index fe120af5d..59ae09376 100644
--- a/csrc/ops.h
+++ b/csrc/ops.h
@@ -97,6 +97,9 @@ void batched_rotary_embedding(torch::Tensor& positions, torch::Tensor& query,
 
 void silu_and_mul(torch::Tensor& out, torch::Tensor& input);
 
+void silu_and_mul_quant(torch::Tensor& out, torch::Tensor& input,
+                        torch::Tensor& scale);
+
 void mul_and_silu(torch::Tensor& out, torch::Tensor& input);
 
 void gelu_and_mul(torch::Tensor& out, torch::Tensor& input);
diff --git a/csrc/quantization/activation_kernels.cu b/csrc/quantization/activation_kernels.cu
new file mode 100644
index 000000000..acc3d6722
--- /dev/null
+++ b/csrc/quantization/activation_kernels.cu
@@ -0,0 +1,120 @@
+#include <ATen/cuda/CUDAContext.h>
+#include <torch/all.h>
+#include <c10/cuda/CUDAGuard.h>
+
+#include <cmath>
+#include "core/math.hpp"
+#include "cuda_compat.h"
+#include "dispatch_utils.h"
+
+#include "quantization/fp8/common.cuh"
+
+namespace vllm {
+
+template <typename T>
+__device__ __forceinline__ T silu_kernel(const T& x) {
+  // x * sigmoid(x)
+  return (T)(((float)x) / (1.0f + expf((float)-x)));
+}
+
+// Activation and gating kernel template.
+template <typename scalar_t, scalar_t (*ACT_FN)(const scalar_t&),
+          typename fp8_type>
+__global__ void act_and_mul_quant_kernel(
+    fp8_type* __restrict__ out,          // [..., d]
+    const scalar_t* __restrict__ input,  // [..., 2, d]
+    const float* scale, const int d) {
+  const int32_t blocks_per_token = gridDim.y;
+
+  const int32_t elems_per_128bit_load = (128 / 8) / sizeof(scalar_t);
+
+  // We don't expect the hidden dimension to exceed 32 bits so int32 should
+  // be safe here.
+  const int32_t tgt_elems_per_block = div_ceil(d, blocks_per_token);
+  const int32_t elems_per_block =
+      round_to_next_multiple_of(tgt_elems_per_block, elems_per_128bit_load);
+  const int32_t block_start = blockIdx.y * elems_per_block;
+  int32_t block_end = block_start + elems_per_block;
+  block_end = block_end > d ? d : block_end;
+
+  // token_idx is 64 bit to prevent 32 bit overflow when the number of tokens
+  // is very large
+  const int64_t token_idx = blockIdx.x;
+  const scalar_t* __restrict__ x_ptr = input + token_idx * 2 * d;
+  const scalar_t* __restrict__ y_ptr = input + token_idx * 2 * d + d;
+  fp8_type* __restrict__ out_ptr = out + token_idx * d;
+
+  // 128-bit vectorized code
+  const int32_t vec_loop_end =
+      round_to_previous_multiple_of(elems_per_128bit_load, block_end);
+  const int32_t vec_end_idx = vec_loop_end / elems_per_128bit_load;
+  const int32_t vec_start_idx = block_start / elems_per_128bit_load;
+
+  const int4* __restrict__ x_128bit_ptr = reinterpret_cast<const int4*>(x_ptr);
+  const int4* __restrict__ y_128bit_ptr = reinterpret_cast<const int4*>(y_ptr);
+  int2* __restrict__ out_128bit_ptr = reinterpret_cast<int2*>(out_ptr);
+
+  float inverted_scale = 1 / *scale;
+#pragma unroll
+  for (int32_t vec_idx = vec_start_idx + threadIdx.x; vec_idx < vec_end_idx;
+       vec_idx += blockDim.x) {
+    const int4 x_128bit = VLLM_LDG(&x_128bit_ptr[vec_idx]);
+    const int4 y_128bit = VLLM_LDG(&y_128bit_ptr[vec_idx]);
+    using scalar_128bit_vec_t = std::array<scalar_t, elems_per_128bit_load>;
+    using scalar_64bit_vec_t = std::array<fp8_type, elems_per_128bit_load>;
+
+    scalar_64bit_vec_t out_vec;
+    const auto x_vec = reinterpret_cast<scalar_128bit_vec_t const&>(x_128bit);
+    const auto y_vec = reinterpret_cast<scalar_128bit_vec_t const&>(y_128bit);
+
+#pragma unroll
+    for (int i = 0; i < elems_per_128bit_load; i++) {
+      out_vec[i] = scaled_fp8_conversion<true, fp8_type>(
+          ACT_FN(x_vec[i]) * y_vec[i], inverted_scale);
+    }
+
+    out_128bit_ptr[vec_idx] = reinterpret_cast<const int2&>(out_vec);
+  }
+
+  // Scalar cleanup code
+  if (block_end > vec_loop_end) {
+    for (int64_t idx = vec_loop_end + threadIdx.x; idx < block_end;
+         idx += blockDim.x) {
+      const scalar_t x = VLLM_LDG(&x_ptr[idx]);
+      const scalar_t y = VLLM_LDG(&y_ptr[idx]);
+      out_ptr[idx] =
+          scaled_fp8_conversion<true, fp8_type>(ACT_FN(x) * y, inverted_scale);
+    }
+  }
+}
+}  // namespace vllm
+
+// Launch activation, gating, and quantize kernel.
+#define LAUNCH_ACTIVATION_GATE_KERNEL(KERNEL)                               \
+  int d = input.size(-1) / 2;                                               \
+  int64_t num_tokens = input.numel() / input.size(-1);                      \
+  dim3 grid(num_tokens, num_tokens > 16 ? num_tokens > 32 ? 1 : 2 : 4);     \
+  dim3 block(std::min(d, 512));                                             \
+  const at::cuda::OptionalCUDAGuard device_guard(device_of(input));         \
+  const cudaStream_t stream = at::cuda::getCurrentCUDAStream();             \
+  VLLM_DISPATCH_FLOATING_TYPES(                                             \
+      input.scalar_type(), "act_and_mul_kernel", [&] {                      \
+        VLLM_DISPATCH_FP8_TYPES(                                            \
+            out.scalar_type(), "fused_add_rms_norm_kernel_fp8_type", [&] {  \
+              vllm::act_and_mul_quant_kernel<scalar_t, KERNEL<scalar_t>,    \
+                                             fp8_t>                         \
+                  <<<grid, block, 0, stream>>>(out.data_ptr<fp8_t>(),       \
+                                               input.data_ptr<scalar_t>(),  \
+                                               scale.data_ptr<float>(), d); \
+            });                                                             \
+      });
+
+void silu_and_mul_quant(torch::Tensor& out,    // [..., d]
+                        torch::Tensor& input,  // [..., 2 * d]
+                        torch::Tensor& scale) {
+  TORCH_CHECK(out.dtype() == torch::kFloat8_e4m3fn);
+  TORCH_CHECK(input.dtype() == torch::kFloat16 ||
+              input.dtype() == torch::kBFloat16);
+  TORCH_CHECK(input.size(-1) % 2 == 0);
+  LAUNCH_ACTIVATION_GATE_KERNEL(vllm::silu_kernel);
+}
diff --git a/csrc/torch_bindings.cpp b/csrc/torch_bindings.cpp
index b595b0aa6..5ed330976 100644
--- a/csrc/torch_bindings.cpp
+++ b/csrc/torch_bindings.cpp
@@ -81,9 +81,13 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
 
   // Activation ops
   // Activation function used in SwiGLU.
-  ops.def("silu_and_mul(Tensor! out, Tensor input) -> ()");
+  ops.def("silu_and_mul(Tensor! result, Tensor input) -> ()");
   ops.impl("silu_and_mul", torch::kCUDA, &silu_and_mul);
 
+  ops.def(
+      "silu_and_mul_quant(Tensor! result, Tensor input, Tensor scale) -> ()");
+  ops.impl("silu_and_mul_quant", torch::kCUDA, &silu_and_mul_quant);
+
   ops.def("mul_and_silu(Tensor! out, Tensor input) -> ()");
   ops.impl("mul_and_silu", torch::kCUDA, &mul_and_silu);
 
diff --git a/tests/compile/test_functionalization.py b/tests/compile/test_functionalization.py
index 27cd10b77..1e1364ce7 100644
--- a/tests/compile/test_functionalization.py
+++ b/tests/compile/test_functionalization.py
@@ -5,6 +5,7 @@ import torch
 
 import vllm.envs as envs
 from vllm import LLM, SamplingParams
+from vllm.compilation.activation_quant_fusion import ActivationQuantFusionPass
 from vllm.compilation.fix_functionalization import FixFunctionalizationPass
 from vllm.compilation.fusion import (FUSED_OPS, FusionPass, QuantKey,
                                      kFp8DynamicTokenSym, kFp8StaticTensorSym)
@@ -17,7 +18,6 @@ from .backend import TestBackend
 OPS_IN_MODEL = [
     torch.ops._C.rotary_embedding.default,
     torch.ops._C.fused_add_rms_norm.default,
-    torch.ops._C.silu_and_mul.default,
 ]
 
 RMS_OP = torch.ops._C.rms_norm.default
@@ -29,6 +29,9 @@ RMS_QUANT_OPS = {
     ],
 }
 
+SILU_MUL_OP = torch.ops._C.silu_and_mul.default
+
+SILU_MUL_QUANT_OP = torch.ops._C.silu_and_mul_quant.default
 prompts = [
     "Hello, my name is",
     "The president of the United States is",
@@ -55,8 +58,10 @@ def test_fix_functionalization(model: str, quant_key: QuantKey,
                                           enable_noop=True))
     noop_pass = NoOpEliminationPass(vllm_config)
     fusion_pass = FusionPass.instance(vllm_config)
+    act_quant_fusion_pass = ActivationQuantFusionPass(vllm_config)
 
-    passes = [noop_pass, fusion_pass] if do_fusion else [noop_pass]
+    passes = [noop_pass, fusion_pass, act_quant_fusion_pass
+              ] if do_fusion else [noop_pass]
     func_pass = FixFunctionalizationPass(vllm_config)
     backend_func = TestBackend(*passes, func_pass)
     backend_no_func = TestBackend(*passes)
@@ -79,6 +84,7 @@ def test_fix_functionalization(model: str, quant_key: QuantKey,
     model_runner.model = torch.compile(orig_model,
                                        fullgraph=True,
                                        backend=backend_no_func)
+
     gen_no_func = llm.generate(prompts, sampling_params)
 
     for output_func, output_no_func in zip(gen_func, gen_no_func):
@@ -88,7 +94,12 @@ def test_fix_functionalization(model: str, quant_key: QuantKey,
     # and replaced by fused quantized ops in RMS_QUANT_OPS.
     rms_ops = [FUSED_OPS[(quant_key, True)], FUSED_OPS[(quant_key, False)]
                ] if do_fusion else [RMS_OP]
-    ops = OPS_IN_MODEL + rms_ops
+    silu_mul_ops = [SILU_MUL_QUANT_OP] if do_fusion and \
+        quant_key == kFp8StaticTensorSym else [
+        SILU_MUL_OP
+    ]
+
+    ops = OPS_IN_MODEL + rms_ops + silu_mul_ops
 
     for op in ops:
         find_auto_fn(backend_no_func.graph_post_pass.nodes, op)
diff --git a/tests/compile/test_silu_mul_quant_fusion.py b/tests/compile/test_silu_mul_quant_fusion.py
new file mode 100644
index 000000000..313848372
--- /dev/null
+++ b/tests/compile/test_silu_mul_quant_fusion.py
@@ -0,0 +1,74 @@
+# SPDX-License-Identifier: Apache-2.0
+import pytest
+import torch
+
+import vllm.envs as envs
+from vllm._custom_ops import scaled_fp8_quant
+from vllm.compilation.activation_quant_fusion import ActivationQuantFusionPass
+from vllm.compilation.fx_utils import find_auto_fn, find_auto_fn_maybe
+from vllm.config import CompilationConfig, VllmConfig
+from vllm.model_executor.layers.activation import SiluAndMul
+
+from .backend import TestBackend
+
+
+class TestModel(torch.nn.Module):
+
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        self.silu_and_mul = SiluAndMul()
+        self.scale = torch.rand(1, dtype=torch.float32)
+
+    def forward(self, x):
+        y = self.silu_and_mul(x)
+        x2 = scaled_fp8_quant(y, self.scale)
+        return x2
+
+
+@pytest.mark.parametrize("num_tokens", [256])
+@pytest.mark.parametrize("hidden_size", [64])
+@pytest.mark.skipif(envs.VLLM_TARGET_DEVICE != "cuda",
+                    reason="Only test on CUDA")
+def test_fusion_silu_and_mul_quant(num_tokens, hidden_size):
+    torch.set_default_device("cuda")
+    torch.set_default_dtype(torch.float16)
+
+    # Reshape pass is needed for the fusion pass to work
+    config = VllmConfig()
+    config.compilation_config = CompilationConfig(
+        pass_config=CompilationConfig.PassConfig(enable_fusion=True,
+                                                 enable_reshape=True))
+    fusion_pass = ActivationQuantFusionPass(config)
+
+    backend = TestBackend(fusion_pass)
+    model = TestModel()
+
+    # First dimension dynamic
+    x = torch.rand(num_tokens, hidden_size)
+    torch._dynamo.mark_dynamic(x, 0)
+
+    result = model(x)
+
+    model2 = torch.compile(model, backend=backend)
+    result2 = model2(x)
+
+    # Check that it gives the same answer
+    torch.testing.assert_close(result[0].to(dtype=torch.float16),
+                               result2[0].to(dtype=torch.float16),
+                               atol=1e-3,
+                               rtol=1e-3)
+
+    # Check substitution worked
+    pre_nodes = backend.graph_pre_pass.nodes
+    post_nodes = backend.graph_post_pass.nodes
+
+    silu_and_mul_quant = torch.ops._C.silu_and_mul_quant.default
+    fp8_quant = torch.ops._C.static_scaled_fp8_quant.default
+
+    # In pre-nodes, fp8 quant should be present and fused kernels should not
+    assert find_auto_fn_maybe(pre_nodes, silu_and_mul_quant) is None
+    find_auto_fn(pre_nodes, fp8_quant)
+
+    # In post-nodes, fused kernels should be present and fp8 quant should not
+    find_auto_fn(post_nodes, silu_and_mul_quant)
+    assert find_auto_fn_maybe(post_nodes, fp8_quant) is None
diff --git a/tests/kernels/test_fused_quant_activation.py b/tests/kernels/test_fused_quant_activation.py
new file mode 100644
index 000000000..fa84ad74c
--- /dev/null
+++ b/tests/kernels/test_fused_quant_activation.py
@@ -0,0 +1,69 @@
+# SPDX-License-Identifier: Apache-2.0
+import pytest
+import torch
+
+import vllm._custom_ops as ops
+from tests.kernels.utils import opcheck
+from vllm.model_executor.layers.activation import SiluAndMul
+
+DTYPES = [torch.bfloat16, torch.float16]
+QUANT_DTYPES = [torch.float8_e4m3fn]
+NUM_TOKENS = [1, 17, 86, 1234, 3045]  # Arbitrary values for testing
+HIDDEN_SIZES = [16, 48, 128, 1562, 4096]  # Arbitrary values for testing
+SEEDS = [0]
+CUDA_DEVICES = [
+    f"cuda:{i}" for i in range(1 if torch.cuda.device_count() == 1 else 2)
+]
+
+
+def ref_impl(silu_and_mul: SiluAndMul, x: torch.Tensor,
+             scale: torch.Tensor) -> torch.Tensor:
+    silu_and_mul_out = silu_and_mul.forward_native(x)
+    out, scales = ops.scaled_fp8_quant(silu_and_mul_out, scale)
+    return out
+
+
+def ops_impl(x: torch.Tensor, scale: torch.Tensor) -> torch.Tensor:
+    out_shape = (x.shape[0], x.shape[1] // 2)
+    out = torch.empty(out_shape,
+                      dtype=torch.torch.float8_e4m3fn,
+                      device=x.device)
+    torch.ops._C.silu_and_mul_quant(out, x, scale)
+    return out
+
+
+@pytest.mark.parametrize("num_tokens", NUM_TOKENS)
+@pytest.mark.parametrize("hidden_size", HIDDEN_SIZES)
+@pytest.mark.parametrize("dtype", DTYPES)
+@pytest.mark.parametrize("quant_dtype", QUANT_DTYPES)
+@pytest.mark.parametrize("seed", SEEDS)
+@pytest.mark.parametrize("device", CUDA_DEVICES)
+@torch.inference_mode()
+def test_silu_and_mul(
+    num_tokens: int,
+    hidden_size: int,
+    dtype: torch.dtype,
+    quant_dtype: torch.dtype,
+    seed: int,
+    device: str,
+) -> None:
+    torch.random.manual_seed(seed)
+    if torch.cuda.is_available():
+        torch.cuda.manual_seed(seed)
+    torch.set_default_device(device)
+
+    layer = SiluAndMul()
+
+    # Make inputs
+    scale = (torch.randn((1), device=device, dtype=torch.float32))
+    x = torch.randn(num_tokens, hidden_size, dtype=dtype)
+
+    ref_out = ref_impl(layer, x, scale)
+    ops_out = ops_impl(x, scale)
+
+    assert ref_out.dtype == quant_dtype
+    assert ops_out.dtype == quant_dtype
+    assert ref_out.shape == ops_out.shape
+    assert torch.allclose(ref_out.to(dtype=torch.float32),
+                          ops_out.to(dtype=torch.float32))
+    opcheck(torch.ops._C.silu_and_mul_quant, (ops_out, x, scale))
diff --git a/vllm/compilation/activation_quant_fusion.py b/vllm/compilation/activation_quant_fusion.py
new file mode 100644
index 000000000..1917ed8bb
--- /dev/null
+++ b/vllm/compilation/activation_quant_fusion.py
@@ -0,0 +1,87 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import torch
+from torch._higher_order_ops.auto_functionalize import auto_functionalized
+from torch._inductor.pattern_matcher import (PatternMatcherPass, fwd_only,
+                                             register_replacement)
+
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+
+from .vllm_inductor_pass import VllmInductorPass
+
+logger = init_logger(__name__)
+
+
+def silu_mul_pattern_static(result: torch.Tensor,
+                            result_silu_mul: torch.Tensor, input: torch.Tensor,
+                            scale: torch.Tensor):
+    at1 = auto_functionalized(torch.ops._C.silu_and_mul.default,
+                              result=result_silu_mul,
+                              input=input)
+    at2 = auto_functionalized(torch.ops._C.static_scaled_fp8_quant.default,
+                              result=result,
+                              input=at1[1],
+                              scale=scale)
+    return at2[1]
+
+
+def silu_mul_replacement_static(result: torch.Tensor,
+                                result_silu_mul: torch.Tensor,
+                                input: torch.Tensor, scale: torch.Tensor):
+    at = auto_functionalized(torch.ops._C.silu_and_mul_quant.default,
+                             result=result,
+                             input=input,
+                             scale=scale)
+    return at[1]
+
+
+def empty_bf16(*args, **kwargs):
+    return torch.empty(*args, **kwargs, dtype=torch.bfloat16, device="cuda")
+
+
+def empty_fp8(*args, **kwargs):
+    fp8 = torch.float8_e4m3fn
+    return torch.empty(*args, **kwargs, dtype=fp8, device="cuda")
+
+
+def empty_fp32(*args, **kwargs):
+    return torch.empty(*args, **kwargs, dtype=torch.float32, device="cuda")
+
+
+class ActivationQuantFusionPass(VllmInductorPass):
+    """
+    This pass fuses a pre-defined set of custom ops into fused ops.
+    It uses the torch pattern matcher to find the patterns and replace them.
+
+    Because patterns can only be registered once, the pass is a singleton.
+    This will be addressed in a future version of PyTorch:
+    https://github.com/pytorch/pytorch/pull/139321#issuecomment-2452354980
+    """
+
+    def __init__(self, config: VllmConfig):
+        super().__init__(config)
+
+        self.patterns: PatternMatcherPass = PatternMatcherPass(
+            pass_name="activation_quant_fusion_pass")
+
+        inputs = [
+            empty_fp8(5, 4),  # Quant output
+            empty_bf16(5, 4),  # Silu_and_mul output
+            empty_bf16(5, 4),  # Input
+            empty_fp32(1, 1)  # Scale
+        ]
+        register_replacement(silu_mul_pattern_static,
+                             silu_mul_replacement_static, inputs, fwd_only,
+                             self.patterns)
+
+    def __call__(self, graph: torch.fx.Graph):
+        self.begin()
+        self.dump_graph(graph, "before_act_quant_fusion")
+
+        count = self.patterns.apply(graph)
+        logger.debug("Replaced %s patterns in ActivationQuantFusionPass",
+                     count)
+
+        self.dump_graph(graph, "after_act_quant_fusion")
+        self.end_and_log()
diff --git a/vllm/compilation/fix_functionalization.py b/vllm/compilation/fix_functionalization.py
index 9b0e9c5d0..7f3120660 100644
--- a/vllm/compilation/fix_functionalization.py
+++ b/vllm/compilation/fix_functionalization.py
@@ -68,18 +68,25 @@ class FixFunctionalizationPass(VllmInductorPass):
                 self.defunctionalize(graph, node, mutated_args)
             elif at_target in [
                     torch.ops._C.rms_norm.default,
-                    torch.ops._C.rms_norm_static_fp8_quant.default
+                    torch.ops._C.rms_norm_static_fp8_quant.default,
             ]:
                 mutated_args = {1: 'result'}
                 self.defunctionalize(graph, node, mutated_args)
-
+            # For some reason we need to specify the args for both
+            # silu_and_mul and silu_and_mul_quant. The kwargs
+            # pathway gets the wrong answer.
             elif at_target == torch.ops._C.silu_and_mul.default:
-                mutated_args = {1: 'out'}
-                # Because we have an 'out', need to specify args directly
+                mutated_args = {1: 'result'}
+                self.defunctionalize(graph,
+                                     node,
+                                     mutated_args,
+                                     args=('result', 'input'))
+            elif at_target == torch.ops._C.silu_and_mul_quant.default:
+                mutated_args = {1: 'result'}
                 self.defunctionalize(graph,
                                      node,
                                      mutated_args,
-                                     args=('out', 'input'))
+                                     args=('result', 'input', 'scale'))
             else:
                 continue  # skip the count
 
diff --git a/vllm/compilation/pass_manager.py b/vllm/compilation/pass_manager.py
index f8e8c4971..b1646914c 100644
--- a/vllm/compilation/pass_manager.py
+++ b/vllm/compilation/pass_manager.py
@@ -7,6 +7,7 @@ from torch import fx as fx
 from vllm.config import VllmConfig
 from vllm.logger import init_logger
 
+from .activation_quant_fusion import ActivationQuantFusionPass
 from .fix_functionalization import FixFunctionalizationPass
 from .fusion import FusionPass
 from .inductor_pass import CustomGraphPass, InductorPass, get_pass_context
@@ -51,6 +52,7 @@ class PostGradPassManager(CustomGraphPass):
 
         if self.pass_config.enable_fusion:
             self.passes += [FusionPass.instance(config)]
+            self.passes += [ActivationQuantFusionPass(config)]
 
         if self.pass_config.enable_sequence_parallelism:
             self.passes += [SequenceParallelismPass(config)]
-- 
GitLab


From 7423cf0a9b24ce97f2fee99bcdb9e3abc5b189f7 Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Thu, 1 May 2025 23:05:24 +0800
Subject: [PATCH 098/461] [Misc] refactor example - cpu_offload_lmcache
 (#17460)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 examples/lmcache/README.md                    |  4 +-
 ...d_lmcache_v0.py => cpu_offload_lmcache.py} | 73 ++++++++++++++++---
 examples/lmcache/cpu_offload_lmcache_v1.py    | 57 ---------------
 3 files changed, 64 insertions(+), 70 deletions(-)
 rename examples/lmcache/{cpu_offload_lmcache_v0.py => cpu_offload_lmcache.py} (57%)
 delete mode 100644 examples/lmcache/cpu_offload_lmcache_v1.py

diff --git a/examples/lmcache/README.md b/examples/lmcache/README.md
index 7d0c23f52..95a6bf995 100644
--- a/examples/lmcache/README.md
+++ b/examples/lmcache/README.md
@@ -44,8 +44,8 @@ The main script generates several log files:
 
 ## 2. CPU Offload Examples
 
-- `cpu_offload_lmcache_v0.py` - CPU offloading implementation for vLLM v0
-- `cpu_offload_lmcache_v1.py` - CPU offloading implementation for vLLM v1
+- `python cpu_offload_lmcache.py -v v0` - CPU offloading implementation for vLLM v0
+- `python cpu_offload_lmcache.py -v v1` - CPU offloading implementation for vLLM v1
 
 ## 3. KV Cache Sharing
 
diff --git a/examples/lmcache/cpu_offload_lmcache_v0.py b/examples/lmcache/cpu_offload_lmcache.py
similarity index 57%
rename from examples/lmcache/cpu_offload_lmcache_v0.py
rename to examples/lmcache/cpu_offload_lmcache.py
index 37aea2810..bf191960b 100644
--- a/examples/lmcache/cpu_offload_lmcache_v0.py
+++ b/examples/lmcache/cpu_offload_lmcache.py
@@ -1,22 +1,37 @@
 # SPDX-License-Identifier: Apache-2.0
 """
 This file demonstrates the example usage of cpu offloading
-with LMCache.
+with LMCache in vLLM v1 or v0.
+
+Usage:
+
+    Specify vLLM version
+
+    -v v0 : Use LMCacheConnector
+            model = mistralai/Mistral-7B-Instruct-v0.2
+            (Includes enable_chunked_prefill = True)
+
+    -v v1 : Use LMCacheConnectorV1 (default)
+            model = meta-llama/Meta-Llama-3.1-8B-Instruct
+            (Without enable_chunked_prefill)
 
 Note that `lmcache` is needed to run this example.
 Requirements: Linux, Python: 3.10 or higher, CUDA: 12.1
 Learn more about LMCache environment setup, please refer to:
 https://docs.lmcache.ai/getting_started/installation.html
 """
+import argparse
 import contextlib
 import os
 import time
+from dataclasses import asdict
 
 from lmcache.experimental.cache_engine import LMCacheEngineBuilder
 from lmcache.integration.vllm.utils import ENGINE_NAME
 
 from vllm import LLM, SamplingParams
 from vllm.config import KVTransferConfig
+from vllm.engine.arg_utils import EngineArgs
 
 
 def setup_environment_variables():
@@ -32,18 +47,32 @@ def setup_environment_variables():
 
 
 @contextlib.contextmanager
-def build_llm_with_lmcache():
-    ktc = KVTransferConfig.from_cli(
-        '{"kv_connector":"LMCacheConnector", "kv_role":"kv_both"}')
+def build_llm_with_lmcache(lmcache_connector: str, model: str,
+                           vllm_version: str):
+    ktc = KVTransferConfig(
+        kv_connector=lmcache_connector,
+        kv_role="kv_both",
+    )
     # Set GPU memory utilization to 0.8 for an A40 GPU with 40GB
     # memory. Reduce the value if your GPU has less memory.
     # Note: LMCache supports chunked prefill (see vLLM#14505, LMCache#392).
-    llm = LLM(model="mistralai/Mistral-7B-Instruct-v0.2",
-              kv_transfer_config=ktc,
-              max_model_len=8000,
-              enable_chunked_prefill=True,
-              gpu_memory_utilization=0.8)
-
+    if vllm_version == "v0":
+        llm_args = EngineArgs(
+            model=model,
+            kv_transfer_config=ktc,
+            max_model_len=8000,
+            gpu_memory_utilization=0.8,
+            enable_chunked_prefill=True,  # Only in v0
+        )
+    else:
+        llm_args = EngineArgs(
+            model=model,
+            kv_transfer_config=ktc,
+            max_model_len=8000,
+            gpu_memory_utilization=0.8,
+        )
+
+    llm = LLM(**asdict(llm_args))
     try:
         yield llm
     finally:
@@ -57,6 +86,9 @@ def print_output(
     sampling_params: SamplingParams,
     req_str: str,
 ):
+    # Should be able to see logs like the following:
+    # `LMCache INFO: Storing KV cache for 6006 out of 6006 tokens for request 0`
+    # This indicates that the KV cache has been stored in LMCache.
     start = time.time()
     outputs = llm.generate(prompt, sampling_params)
     print("-" * 50)
@@ -68,10 +100,29 @@ def print_output(
     print("-" * 50)
 
 
+def parse_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("-v",
+                        "--version",
+                        choices=["v0", "v1"],
+                        default="v1",
+                        help="Specify vLLM version (default: v1)")
+    return parser.parse_args()
+
+
 def main():
+    args = parse_args()
+
+    if args.version == "v0":
+        lmcache_connector = "LMCacheConnector"
+        model = "mistralai/Mistral-7B-Instruct-v0.2"
+    else:
+        lmcache_connector = "LMCacheConnectorV1"
+        model = "meta-llama/Meta-Llama-3.1-8B-Instruct"
+
     setup_environment_variables()
 
-    with build_llm_with_lmcache() as llm:
+    with build_llm_with_lmcache(lmcache_connector, model, args.version) as llm:
 
         # This example script runs two requests with a shared prefix.
         # Define the shared prompt and specific prompts
diff --git a/examples/lmcache/cpu_offload_lmcache_v1.py b/examples/lmcache/cpu_offload_lmcache_v1.py
deleted file mode 100644
index f44075a36..000000000
--- a/examples/lmcache/cpu_offload_lmcache_v1.py
+++ /dev/null
@@ -1,57 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-"""
-This file demonstrates the example usage of cpu offloading
-with LMCache in vLLM v1.
-
-Note that lmcache needs to be installed to run this example.
-Learn more about LMCache in https://github.com/LMCache/LMCache.
-"""
-import os
-
-from lmcache.experimental.cache_engine import LMCacheEngineBuilder
-from lmcache.integration.vllm.utils import ENGINE_NAME
-
-from vllm import LLM, SamplingParams
-from vllm.config import KVTransferConfig
-
-# LMCache-related environment variables
-# Use experimental features in LMCache
-os.environ["LMCACHE_USE_EXPERIMENTAL"] = "True"
-# LMCache is set to use 256 tokens per chunk
-os.environ["LMCACHE_CHUNK_SIZE"] = "256"
-# Enable local CPU backend in LMCache
-os.environ["LMCACHE_LOCAL_CPU"] = "True"
-# Set local CPU memory limit to 5.0 GB
-os.environ["LMCACHE_MAX_LOCAL_CPU_SIZE"] = "5.0"
-
-# This example script runs two requests with a shared prefix.
-shared_prompt = "Hello, how are you?" * 1000
-first_prompt = [
-    shared_prompt + "Hello, my name is",
-]
-second_prompt = [
-    shared_prompt + "Tell me a very long story",
-]
-
-sampling_params = SamplingParams(temperature=0, top_p=0.95, max_tokens=10)
-
-ktc = KVTransferConfig.from_cli(
-    '{"kv_connector":"LMCacheConnectorV1", "kv_role":"kv_both"}')
-# Set GPU memory utilization to 0.8 for an A40 GPU with 40GB
-# memory. Reduce the value if your GPU has less memory.
-# Note that LMCache is not compatible with chunked prefill for now.
-llm = LLM(model="meta-llama/Meta-Llama-3.1-8B-Instruct",
-          kv_transfer_config=ktc,
-          max_model_len=8000,
-          gpu_memory_utilization=0.8)
-
-# Should be able to see logs like the following:
-# `LMCache INFO: Storing KV cache for 6006 out of 6006 tokens for request 0`
-# This indicates that the KV cache has been stored in LMCache.
-outputs = llm.generate(first_prompt, sampling_params)
-for output in outputs:
-    generated_text = output.outputs[0].text
-    print(f"Generated text: {generated_text!r}")
-
-# Clean up lmcache backend
-LMCacheEngineBuilder.destroy(ENGINE_NAME)
-- 
GitLab


From f2e7af9b86fcaa12f75e9052bedbb0f2aa82c0fc Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Fri, 2 May 2025 00:20:54 +0800
Subject: [PATCH 099/461] [CI/Build] Remove `awscli` dependency (#17532)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 requirements/nightly_torch_test.txt |  1 -
 requirements/rocm.txt               |  1 -
 requirements/test.in                |  1 -
 requirements/test.txt               | 15 +--------------
 4 files changed, 1 insertion(+), 17 deletions(-)

diff --git a/requirements/nightly_torch_test.txt b/requirements/nightly_torch_test.txt
index 20372a9b2..199bcafe0 100644
--- a/requirements/nightly_torch_test.txt
+++ b/requirements/nightly_torch_test.txt
@@ -13,7 +13,6 @@ librosa # required by audio tests in entrypoints/openai
 sentence-transformers
 numba == 0.61.2; python_version > '3.9'
 # testing utils
-awscli
 boto3
 botocore
 datasets
diff --git a/requirements/rocm.txt b/requirements/rocm.txt
index 0df56b258..8a84f2ff1 100644
--- a/requirements/rocm.txt
+++ b/requirements/rocm.txt
@@ -5,7 +5,6 @@ numba == 0.60.0; python_version == '3.9' # v0.61 doesn't support Python 3.9. Req
 numba == 0.61.2; python_version > '3.9'
 
 # Dependencies for AMD GPUs
-awscli
 boto3
 botocore
 datasets
diff --git a/requirements/test.in b/requirements/test.in
index ee79aae58..cdc7c563f 100644
--- a/requirements/test.in
+++ b/requirements/test.in
@@ -8,7 +8,6 @@ pytest-shard
 pytest-timeout
 
 # testing utils
-awscli
 backoff # required for phi4mm test
 blobfile # required for kimi-vl test
 einops # required for MPT, qwen-vl and Mamba
diff --git a/requirements/test.txt b/requirements/test.txt
index 4e60f08e6..d4c92f150 100644
--- a/requirements/test.txt
+++ b/requirements/test.txt
@@ -37,8 +37,6 @@ attrs==24.2.0
     #   referencing
 audioread==3.0.1
     # via librosa
-awscli==1.35.23
-    # via -r requirements/test.in
 backoff==2.2.1
     # via
     #   -r requirements/test.in
@@ -53,7 +51,6 @@ boto3==1.35.57
     # via tensorizer
 botocore==1.35.57
     # via
-    #   awscli
     #   boto3
     #   s3transfer
 bounded-pool-executor==0.0.3
@@ -81,7 +78,6 @@ click==8.1.7
     #   typer
 colorama==0.4.6
     # via
-    #   awscli
     #   sacrebleu
     #   schemathesis
     #   tqdm-multiprocess
@@ -115,8 +111,6 @@ dnspython==2.7.0
     # via email-validator
 docopt==0.6.2
     # via num2words
-docutils==0.16
-    # via awscli
 einops==0.8.0
     # via
     #   -r requirements/test.in
@@ -472,8 +466,6 @@ pyarrow==18.0.0
     # via
     #   datasets
     #   genai-perf
-pyasn1==0.6.1
-    # via rsa
 pybind11==2.13.6
     # via lm-eval
 pycparser==2.22
@@ -537,7 +529,6 @@ pytz==2024.2
 pyyaml==6.0.2
     # via
     #   accelerate
-    #   awscli
     #   datamodel-code-generator
     #   datasets
     #   genai-perf
@@ -596,16 +587,12 @@ rpds-py==0.20.1
     # via
     #   jsonschema
     #   referencing
-rsa==4.7.2
-    # via awscli
 runai-model-streamer==0.11.0
     # via -r requirements/test.in
 runai-model-streamer-s3==0.11.0
     # via -r requirements/test.in
 s3transfer==0.10.3
-    # via
-    #   awscli
-    #   boto3
+    # via boto3
 sacrebleu==2.4.3
     # via lm-eval
 safetensors==0.4.5
-- 
GitLab


From 6768ff4a222b89dac3e2f49af8772216db01952b Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Thu, 1 May 2025 18:31:44 +0100
Subject: [PATCH 100/461] Move the last arguments in `arg_utils.py` to be in
 their final groups (#17531)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 vllm/config.py           |   2 +-
 vllm/engine/arg_utils.py | 271 +++++++++++++++++++--------------------
 2 files changed, 135 insertions(+), 138 deletions(-)

diff --git a/vllm/config.py b/vllm/config.py
index 13b8c3378..864903ddc 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -1637,7 +1637,7 @@ class ParallelConfig:
     """Use expert parallelism instead of tensor parallelism for MoE layers."""
 
     max_parallel_loading_workers: Optional[int] = None
-    """Maximum number of parallal loading workers when loading model
+    """Maximum number of parallel loading workers when loading model
     sequentially in multiple batches. To avoid RAM OOM when using tensor
     parallel and large models."""
 
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 1d9b6b47e..ed32be7cb 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -474,15 +474,21 @@ class EngineArgs:
             title="LoadConfig",
             description=LoadConfig.__doc__,
         )
-        load_group.add_argument('--load-format',
+        load_group.add_argument("--load-format",
                                 choices=[f.value for f in LoadFormat],
                                 **load_kwargs["load_format"])
-        load_group.add_argument('--download-dir',
+        load_group.add_argument("--download-dir",
                                 **load_kwargs["download_dir"])
-        load_group.add_argument('--model-loader-extra-config',
+        load_group.add_argument("--model-loader-extra-config",
                                 **load_kwargs["model_loader_extra_config"])
-        load_group.add_argument('--use-tqdm-on-load',
+        load_group.add_argument("--ignore-patterns",
+                                **load_kwargs["ignore_patterns"])
+        load_group.add_argument("--use-tqdm-on-load",
                                 **load_kwargs["use_tqdm_on_load"])
+        load_group.add_argument('--qlora-adapter-name-or-path',
+                                type=str,
+                                default=None,
+                                help='Name or path of the QLoRA adapter.')
 
         # Guided decoding arguments
         guided_decoding_kwargs = get_kwargs(DecodingConfig)
@@ -501,6 +507,14 @@ class EngineArgs:
         guided_decoding_group.add_argument(
             "--guided-decoding-disable-additional-properties",
             **guided_decoding_kwargs["disable_additional_properties"])
+        guided_decoding_group.add_argument(
+            "--enable-reasoning",
+            action=argparse.BooleanOptionalAction,
+            help="[DEPRECATED] The `--enable-reasoning` flag is deprecated as "
+            "of v0.8.6. Use `--reasoning-parser` to specify the reasoning "
+            "parser backend insteadThis flag (`--enable-reasoning`) will be "
+            "removed in v0.10.0. When `--reasoning-parser` is specified, "
+            "reasoning mode is automatically enabled.")
         guided_decoding_group.add_argument(
             "--reasoning-parser",
             # This choices is a special case because it's not static
@@ -514,27 +528,31 @@ class EngineArgs:
             description=ParallelConfig.__doc__,
         )
         parallel_group.add_argument(
-            '--distributed-executor-backend',
+            "--distributed-executor-backend",
             **parallel_kwargs["distributed_executor_backend"])
         parallel_group.add_argument(
-            '--pipeline-parallel-size', '-pp',
+            "--pipeline-parallel-size", "-pp",
             **parallel_kwargs["pipeline_parallel_size"])
-        parallel_group.add_argument('--tensor-parallel-size', '-tp',
+        parallel_group.add_argument("--tensor-parallel-size", "-tp",
                                     **parallel_kwargs["tensor_parallel_size"])
-        parallel_group.add_argument('--data-parallel-size', '-dp',
+        parallel_group.add_argument("--data-parallel-size", "-dp",
                                     **parallel_kwargs["data_parallel_size"])
         parallel_group.add_argument(
-            '--enable-expert-parallel',
+            "--enable-expert-parallel",
             **parallel_kwargs["enable_expert_parallel"])
         parallel_group.add_argument(
-            '--max-parallel-loading-workers',
+            "--max-parallel-loading-workers",
             **parallel_kwargs["max_parallel_loading_workers"])
         parallel_group.add_argument(
-            '--ray-workers-use-nsight',
+            "--ray-workers-use-nsight",
             **parallel_kwargs["ray_workers_use_nsight"])
         parallel_group.add_argument(
-            '--disable-custom-all-reduce',
+            "--disable-custom-all-reduce",
             **parallel_kwargs["disable_custom_all_reduce"])
+        parallel_group.add_argument("--worker-cls",
+                                    **parallel_kwargs["worker_cls"])
+        parallel_group.add_argument("--worker-extension-cls",
+                                    **parallel_kwargs["worker_extension_cls"])
 
         # KV cache arguments
         cache_kwargs = get_kwargs(CacheConfig)
@@ -542,47 +560,34 @@ class EngineArgs:
             title="CacheConfig",
             description=CacheConfig.__doc__,
         )
-        cache_group.add_argument('--block-size', **cache_kwargs["block_size"])
-        cache_group.add_argument('--gpu-memory-utilization',
+        cache_group.add_argument("--block-size", **cache_kwargs["block_size"])
+        cache_group.add_argument("--gpu-memory-utilization",
                                  **cache_kwargs["gpu_memory_utilization"])
-        cache_group.add_argument('--swap-space', **cache_kwargs["swap_space"])
-        cache_group.add_argument('--kv-cache-dtype',
+        cache_group.add_argument("--swap-space", **cache_kwargs["swap_space"])
+        cache_group.add_argument("--kv-cache-dtype",
                                  **cache_kwargs["cache_dtype"])
-        cache_group.add_argument('--num-gpu-blocks-override',
+        cache_group.add_argument("--num-gpu-blocks-override",
                                  **cache_kwargs["num_gpu_blocks_override"])
         cache_group.add_argument("--enable-prefix-caching",
                                  **cache_kwargs["enable_prefix_caching"])
         cache_group.add_argument("--prefix-caching-hash-algo",
                                  **cache_kwargs["prefix_caching_hash_algo"])
-        cache_group.add_argument('--cpu-offload-gb',
+        cache_group.add_argument("--cpu-offload-gb",
                                  **cache_kwargs["cpu_offload_gb"])
-        cache_group.add_argument('--calculate-kv-scales',
+        cache_group.add_argument("--calculate-kv-scales",
                                  **cache_kwargs["calculate_kv_scales"])
 
-        parser.add_argument('--use-v2-block-manager',
-                            action='store_true',
-                            default=True,
-                            help='[DEPRECATED] block manager v1 has been '
-                            'removed and SelfAttnBlockSpaceManager (i.e. '
-                            'block manager v2) is now the default. '
-                            'Setting this flag to True or False'
-                            ' has no effect on vLLM behavior.')
-
-        parser.add_argument('--disable-log-stats',
-                            action='store_true',
-                            help='Disable logging statistics.')
-
         # Tokenizer arguments
         tokenizer_kwargs = get_kwargs(TokenizerPoolConfig)
         tokenizer_group = parser.add_argument_group(
             title="TokenizerPoolConfig",
             description=TokenizerPoolConfig.__doc__,
         )
-        tokenizer_group.add_argument('--tokenizer-pool-size',
+        tokenizer_group.add_argument("--tokenizer-pool-size",
                                      **tokenizer_kwargs["pool_size"])
-        tokenizer_group.add_argument('--tokenizer-pool-type',
+        tokenizer_group.add_argument("--tokenizer-pool-type",
                                      **tokenizer_kwargs["pool_type"])
-        tokenizer_group.add_argument('--tokenizer-pool-extra-config',
+        tokenizer_group.add_argument("--tokenizer-pool-extra-config",
                                      **tokenizer_kwargs["extra_config"])
 
         # Multimodal related configs
@@ -591,13 +596,13 @@ class EngineArgs:
             title="MultiModalConfig",
             description=MultiModalConfig.__doc__,
         )
-        multimodal_group.add_argument('--limit-mm-per-prompt',
+        multimodal_group.add_argument("--limit-mm-per-prompt",
                                       **multimodal_kwargs["limit_per_prompt"])
         multimodal_group.add_argument(
-            '--mm-processor-kwargs',
+            "--mm-processor-kwargs",
             **multimodal_kwargs["mm_processor_kwargs"])
         multimodal_group.add_argument(
-            '--disable-mm-preprocessor-cache',
+            "--disable-mm-preprocessor-cache",
             **multimodal_kwargs["disable_mm_preprocessor_cache"])
 
         # LoRA related configs
@@ -607,25 +612,25 @@ class EngineArgs:
             description=LoRAConfig.__doc__,
         )
         lora_group.add_argument(
-            '--enable-lora',
+            "--enable-lora",
             action=argparse.BooleanOptionalAction,
-            help='If True, enable handling of LoRA adapters.')
-        lora_group.add_argument('--enable-lora-bias',
+            help="If True, enable handling of LoRA adapters.")
+        lora_group.add_argument("--enable-lora-bias",
                                 **lora_kwargs["bias_enabled"])
-        lora_group.add_argument('--max-loras', **lora_kwargs["max_loras"])
-        lora_group.add_argument('--max-lora-rank',
+        lora_group.add_argument("--max-loras", **lora_kwargs["max_loras"])
+        lora_group.add_argument("--max-lora-rank",
                                 **lora_kwargs["max_lora_rank"])
-        lora_group.add_argument('--lora-extra-vocab-size',
+        lora_group.add_argument("--lora-extra-vocab-size",
                                 **lora_kwargs["lora_extra_vocab_size"])
         lora_group.add_argument(
-            '--lora-dtype',
+            "--lora-dtype",
             **lora_kwargs["lora_dtype"],
         )
-        lora_group.add_argument('--long-lora-scaling-factors',
+        lora_group.add_argument("--long-lora-scaling-factors",
                                 **lora_kwargs["long_lora_scaling_factors"])
-        lora_group.add_argument('--max-cpu-loras',
+        lora_group.add_argument("--max-cpu-loras",
                                 **lora_kwargs["max_cpu_loras"])
-        lora_group.add_argument('--fully-sharded-loras',
+        lora_group.add_argument("--fully-sharded-loras",
                                 **lora_kwargs["fully_sharded_loras"])
 
         # PromptAdapter related configs
@@ -635,14 +640,14 @@ class EngineArgs:
             description=PromptAdapterConfig.__doc__,
         )
         prompt_adapter_group.add_argument(
-            '--enable-prompt-adapter',
+            "--enable-prompt-adapter",
             action=argparse.BooleanOptionalAction,
-            help='If True, enable handling of PromptAdapters.')
+            help="If True, enable handling of PromptAdapters.")
         prompt_adapter_group.add_argument(
-            '--max-prompt-adapters',
+            "--max-prompt-adapters",
             **prompt_adapter_kwargs["max_prompt_adapters"])
         prompt_adapter_group.add_argument(
-            '--max-prompt-adapter-token',
+            "--max-prompt-adapter-token",
             **prompt_adapter_kwargs["max_prompt_adapter_token"])
 
         # Device arguments
@@ -659,25 +664,11 @@ class EngineArgs:
             description=SpeculativeConfig.__doc__,
         )
         speculative_group.add_argument(
-            '--speculative-config',
+            "--speculative-config",
             type=json.loads,
             default=None,
-            help='The configurations for speculative decoding.'
-            ' Should be a JSON string.')
-
-        parser.add_argument(
-            '--ignore-patterns',
-            action="append",
-            type=str,
-            default=[],
-            help="The pattern(s) to ignore when loading the model."
-            "Default to `original/**/*` to avoid repeated loading of llama's "
-            "checkpoints.")
-
-        parser.add_argument('--qlora-adapter-name-or-path',
-                            type=str,
-                            default=None,
-                            help='Name or path of the QLoRA adapter.')
+            help="The configurations for speculative decoding. Should be a "
+            "JSON string.")
 
         # Observability arguments
         observability_kwargs = get_kwargs(ObservabilityConfig)
@@ -710,9 +701,9 @@ class EngineArgs:
             description=SchedulerConfig.__doc__,
         )
         scheduler_group.add_argument(
-            '--max-num-batched-tokens',
+            "--max-num-batched-tokens",
             **scheduler_kwargs["max_num_batched_tokens"])
-        scheduler_group.add_argument('--max-num-seqs',
+        scheduler_group.add_argument("--max-num-seqs",
                                      **scheduler_kwargs["max_num_seqs"])
         scheduler_group.add_argument(
             "--max-num-partial-prefills",
@@ -723,70 +714,78 @@ class EngineArgs:
         scheduler_group.add_argument(
             "--long-prefill-token-threshold",
             **scheduler_kwargs["long_prefill_token_threshold"])
-        scheduler_group.add_argument('--num-lookahead-slots',
+        scheduler_group.add_argument("--num-lookahead-slots",
                                      **scheduler_kwargs["num_lookahead_slots"])
-        scheduler_group.add_argument('--scheduler-delay-factor',
+        scheduler_group.add_argument("--scheduler-delay-factor",
                                      **scheduler_kwargs["delay_factor"])
-        scheduler_group.add_argument('--preemption-mode',
+        scheduler_group.add_argument("--preemption-mode",
                                      **scheduler_kwargs["preemption_mode"])
-        scheduler_group.add_argument('--num-scheduler-steps',
+        scheduler_group.add_argument("--num-scheduler-steps",
                                      **scheduler_kwargs["num_scheduler_steps"])
         scheduler_group.add_argument(
-            '--multi-step-stream-outputs',
+            "--multi-step-stream-outputs",
             **scheduler_kwargs["multi_step_stream_outputs"])
-        scheduler_group.add_argument('--scheduling-policy',
+        scheduler_group.add_argument("--scheduling-policy",
                                      **scheduler_kwargs["policy"])
         scheduler_group.add_argument(
-            '--enable-chunked-prefill',
+            "--enable-chunked-prefill",
             **scheduler_kwargs["enable_chunked_prefill"])
         scheduler_group.add_argument(
             "--disable-chunked-mm-input",
             **scheduler_kwargs["disable_chunked_mm_input"])
-        parser.add_argument('--scheduler-cls',
-                            **scheduler_kwargs["scheduler_cls"])
-
-        parser.add_argument('--compilation-config',
-                            '-O',
-                            type=CompilationConfig.from_cli,
-                            default=None,
-                            help='torch.compile configuration for the model. '
-                            'When it is a number (0, 1, 2, 3), it will be '
-                            'interpreted as the optimization level.\n'
-                            'NOTE: level 0 is the default level without '
-                            'any optimization. level 1 and 2 are for internal '
-                            'testing only. level 3 is the recommended level '
-                            'for production.\n'
-                            'To specify the full compilation config, '
-                            'use a JSON string, e.g. ``{"level": 3, '
-                            '"cudagraph_capture_sizes": [1, 2, 4, 8]}``\n'
-                            'Following the convention of traditional '
-                            'compilers, using ``-O`` without space is also '
-                            'supported. ``-O3`` is equivalent to ``-O 3``.')
-
-        parser.add_argument('--kv-transfer-config',
-                            type=KVTransferConfig.from_cli,
-                            default=None,
-                            help='The configurations for distributed KV cache '
-                            'transfer. Should be a JSON string.')
-        parser.add_argument('--kv-events-config',
-                            type=KVEventsConfig.from_cli,
-                            default=None,
-                            help='The configurations for event publishing.')
-
-        parser.add_argument(
-            '--worker-cls',
-            type=str,
-            default="auto",
-            help='The worker class to use for distributed execution.')
-        parser.add_argument(
-            '--worker-extension-cls',
-            type=str,
-            default="",
-            help='The worker extension class on top of the worker cls, '
-            'it is useful if you just want to add new functions to the worker '
-            'class without changing the existing functions.')
-
-        parser.add_argument(
+        scheduler_group.add_argument("--scheduler-cls",
+                                     **scheduler_kwargs["scheduler_cls"])
+
+        # Compilation arguments
+        # compilation_kwargs = get_kwargs(CompilationConfig)
+        compilation_group = parser.add_argument_group(
+            title="CompilationConfig",
+            description=CompilationConfig.__doc__,
+        )
+        compilation_group.add_argument(
+            "--compilation-config",
+            "-O",
+            type=CompilationConfig.from_cli,
+            default=None,
+            help="torch.compile configuration for the model. "
+            "When it is a number (0, 1, 2, 3), it will be "
+            "interpreted as the optimization level.\n"
+            "NOTE: level 0 is the default level without "
+            "any optimization. level 1 and 2 are for internal "
+            "testing only. level 3 is the recommended level "
+            "for production.\n"
+            "To specify the full compilation config, "
+            "use a JSON string, e.g. ``{\"level\": 3, "
+            "\"cudagraph_capture_sizes\": [1, 2, 4, 8]}``\n"
+            "Following the convention of traditional "
+            "compilers, using ``-O`` without space is also "
+            "supported. ``-O3`` is equivalent to ``-O 3``.")
+
+        # KVTransfer arguments
+        # kv_transfer_kwargs = get_kwargs(KVTransferConfig)
+        kv_transfer_group = parser.add_argument_group(
+            title="KVTransferConfig",
+            description=KVTransferConfig.__doc__,
+        )
+        kv_transfer_group.add_argument(
+            "--kv-transfer-config",
+            type=KVTransferConfig.from_cli,
+            default=None,
+            help="The configurations for distributed KV cache "
+            "transfer. Should be a JSON string.")
+        kv_transfer_group.add_argument(
+            '--kv-events-config',
+            type=KVEventsConfig.from_cli,
+            default=None,
+            help='The configurations for event publishing.')
+
+        # vLLM arguments
+        # vllm_kwargs = get_kwargs(VllmConfig)
+        vllm_group = parser.add_argument_group(
+            title="VllmConfig",
+            description=VllmConfig.__doc__,
+        )
+        vllm_group.add_argument(
             "--additional-config",
             type=json.loads,
             default=None,
@@ -795,20 +794,18 @@ class EngineArgs:
             "configs are valid for the platform you are using. The input format"
             " is like '{\"config_key\":\"config_value\"}'")
 
-        parser.add_argument(
-            "--enable-reasoning",
-            action="store_true",
-            default=False,
-            help=
-            "[DEPRECATED] " \
-            "The --enable-reasoning flag is deprecated as of v0.8.6. "
-            "Use --reasoning-parser to specify " \
-            "the reasoning parser backend instead. "
-            "This flag (--enable-reasoning) will be " \
-            "removed in v0.10.0. "
-            "When --reasoning-parser is specified, " \
-            "reasoning mode is automatically enabled."
-        )
+        # Other arguments
+        parser.add_argument('--use-v2-block-manager',
+                            action='store_true',
+                            default=True,
+                            help='[DEPRECATED] block manager v1 has been '
+                            'removed and SelfAttnBlockSpaceManager (i.e. '
+                            'block manager v2) is now the default. '
+                            'Setting this flag to True or False'
+                            ' has no effect on vLLM behavior.')
+        parser.add_argument('--disable-log-stats',
+                            action='store_true',
+                            help='Disable logging statistics.')
 
         return parser
 
-- 
GitLab


From 88c830410468fa3549638cf78d6c354b13046921 Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Fri, 2 May 2025 02:00:53 +0800
Subject: [PATCH 101/461] [Model] Refactor Ovis2 to support original tokenizer
 (#17537)

Signed-off-by: Isotr0py <2037008807@qq.com>
---
 examples/offline_inference/vision_language.py |  2 -
 .../vision_language_multi_image.py            |  2 -
 tests/models/registry.py                      |  1 -
 vllm/model_executor/models/ovis2.py           | 75 ++++++++++++++++---
 vllm/transformers_utils/processors/ovis2.py   | 70 ++++++++---------
 5 files changed, 102 insertions(+), 48 deletions(-)

diff --git a/examples/offline_inference/vision_language.py b/examples/offline_inference/vision_language.py
index d455ea2de..755e19bb2 100644
--- a/examples/offline_inference/vision_language.py
+++ b/examples/offline_inference/vision_language.py
@@ -730,11 +730,9 @@ def run_ovis2(questions: list[str], modality: str) -> ModelRequestData:
     assert modality == "image"
 
     model_name = "AIDC-AI/Ovis2-1B"
-    tokenizer = "Isotr0py/Ovis2-tokenizer"
 
     engine_args = EngineArgs(
         model=model_name,
-        tokenizer=tokenizer,
         max_model_len=4096,
         max_num_seqs=2,
         trust_remote_code=True,
diff --git a/examples/offline_inference/vision_language_multi_image.py b/examples/offline_inference/vision_language_multi_image.py
index f16033993..48d590b05 100644
--- a/examples/offline_inference/vision_language_multi_image.py
+++ b/examples/offline_inference/vision_language_multi_image.py
@@ -439,11 +439,9 @@ def load_nvlm_d(question: str, image_urls: list[str]) -> ModelRequestData:
 # Ovis2
 def load_ovis2(question: str, image_urls: list[str]) -> ModelRequestData:
     model_name = "AIDC-AI/Ovis2-1B"
-    tokenizer = "Isotr0py/Ovis2-tokenizer"
 
     engine_args = EngineArgs(
         model=model_name,
-        tokenizer=tokenizer,
         max_model_len=8192,
         max_num_seqs=2,
         trust_remote_code=True,
diff --git a/tests/models/registry.py b/tests/models/registry.py
index 2dbe1a41f..a19c43b69 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -349,7 +349,6 @@ _MULTIMODAL_EXAMPLE_MODELS = {
                                         transformers_version_reason="Use of deprecated imports which have been removed.",  # noqa: E501
                                         extras={"phi3.5": "microsoft/Phi-3.5-vision-instruct"}),  # noqa: E501
     "Ovis2ForConditionalGeneration": _HfExamplesInfo("AIDC-AI/Ovis2-1B",
-                                                    tokenizer="Isotr0py/Ovis2-tokenizer",
                                                     trust_remote_code=True,
                                                     hf_overrides={"architectures": ["Ovis2ForConditionalGeneration"]}), # noqa: E501
     "Phi4MMForCausalLM": _HfExamplesInfo("microsoft/Phi-4-multimodal-instruct",
diff --git a/vllm/model_executor/models/ovis2.py b/vllm/model_executor/models/ovis2.py
index 638077bc8..67cc86e7f 100644
--- a/vllm/model_executor/models/ovis2.py
+++ b/vllm/model_executor/models/ovis2.py
@@ -46,8 +46,7 @@ from .utils import merge_multimodal_embeddings
 
 # Cannot find the following number from hf config.
 IMAGE_TOKEN = "<image>"
-IMAGE_ATOM_TOKEN_ID = 151666
-IMAGE_PAD_TOKEN_ID = 151672
+IMAGE_PAD_TOKEN_ID = 151655
 NUMBER_OF_TOKEN_TO_RESERVE_FOR_SEGMENT = 256
 
 
@@ -59,6 +58,12 @@ class Ovis2ImagePatchInputs(TypedDict):
     `(batch_size * num_patches, patch_size_x * patch_size_y * num_channels)`
     """
 
+    inducator_tokens: torch.Tensor
+    """
+    Shape: 
+    `(batch_size * (num_patches + 1))`
+    """
+
     patches_per_image: List[int]
     """
     List of number of total patches for each image in the batch.
@@ -138,6 +143,21 @@ class Ovis2DummyInputsBuilder(BaseDummyInputsBuilder[Ovis2ProcessingInfo]):
 
 class Ovis2MultiModalProcessor(BaseMultiModalProcessor[Ovis2ProcessingInfo]):
 
+    def image_indicators_to_visual_tokens(
+        self,
+        image_indicators: list[int],
+    ) -> list[int]:
+        """
+        Filter image indicators placeholders and convert them to corresponding 
+        tokens in visual tokenizer.
+        For example, [-301, -300, -302, -300, -303, -300, -304, -300, -305]
+        should return [vocab_size-1, vocab_size-2, ..., vocab_size-5]
+        """
+        hf_config = self.info.get_hf_config()
+        vte_vocab_size = hf_config.visual_tokenizer_config.vocab_size
+        # -300 is image_atom token, filter them out
+        return [vte_vocab_size + x + 300 for x in image_indicators if x < -300]
+
     def _call_hf_processor(
         self,
         prompt: str,
@@ -156,6 +176,16 @@ class Ovis2MultiModalProcessor(BaseMultiModalProcessor[Ovis2ProcessingInfo]):
             mm_kwargs=mm_kwargs,
         )
 
+        hf_processor = self.info.get_hf_processor()
+        image_indicators = [
+            hf_processor.construct_image_indicators(grid)
+            for grid in processed_outputs["grids"]
+        ]
+        indicator_tokens = [
+            self.image_indicators_to_visual_tokens(indicator)
+            for indicator in image_indicators
+        ]
+        processed_outputs["indicator_tokens"] = indicator_tokens
         return processed_outputs
 
     def _apply_hf_processor_tokens_only(
@@ -171,7 +201,8 @@ class Ovis2MultiModalProcessor(BaseMultiModalProcessor[Ovis2ProcessingInfo]):
         hf_processor_mm_kwargs: Mapping[str, object],
     ) -> Mapping[str, MultiModalFieldConfig]:
         return dict(pixel_values=MultiModalFieldConfig.batched("image"),
-                    grids=MultiModalFieldConfig.batched("image"))
+                    grids=MultiModalFieldConfig.batched("image"),
+                    indicator_tokens=MultiModalFieldConfig.batched("image"))
 
     def _get_prompt_updates(
         self,
@@ -230,20 +261,28 @@ class Ovis2ForConditionalGeneration(nn.Module, SupportsMultiModal):
     def _parse_and_validate_image_input(
             self, **kwargs: object) -> Optional[Ovis2ImagePatchInputs]:
         pixel_values = kwargs.pop("pixel_values", None)
-        if pixel_values is None:
+        indicator_tokens = kwargs.pop("indicator_tokens", None)
+
+        if pixel_values is None and indicator_tokens is None:
             return None
 
-        if pixel_values is not None:
+        if pixel_values is not None and indicator_tokens is not None:
             if not isinstance(pixel_values, (torch.Tensor, list)):
                 raise ValueError("Incorrect type of pixel values. "
                                  f"Got type: {type(pixel_values)}")
 
+            if not isinstance(indicator_tokens, (torch.Tensor, list)):
+                raise ValueError("Incorrect type of indicator_tokens. "
+                                 f"Got type: {type(pixel_values)}")
+
             return Ovis2ImagePatchInputs(
                 type="image_patches",
                 flat_data=flatten_bn(flatten_bn(pixel_values), concat=True),
                 patches_per_image=[
                     x.shape[0] for x in flatten_bn(pixel_values)
                 ],
+                indicator_tokens=flatten_bn(flatten_bn(indicator_tokens),
+                                            concat=True),
             )
 
         raise AssertionError("This line should be unreachable.")
@@ -252,15 +291,33 @@ class Ovis2ForConditionalGeneration(nn.Module, SupportsMultiModal):
             self, image_input: Ovis2ImagePatchInputs) -> MultiModalEmbeddings:
         image_patches_flat = image_input["flat_data"]
         patches_per_image = image_input["patches_per_image"]
+        indicator_tokens = image_input["indicator_tokens"]
+
+        indicator_per_image = list(
+            map(lambda x: x + 1 if x > 1 else x + 2, patches_per_image))
 
         target_dtype = self.visual_tokenizer.dtype
         visual_tokens = self.visual_tokenizer(
             image_patches_flat.to(target_dtype))
         visual_embeds = self.vte(visual_tokens)  # 1:1 numeric eq.
 
-        return tuple(
-            x.flatten(0, 1)
-            for x in visual_embeds.split(patches_per_image, dim=0))
+        indicator_embeds = self.vte(indicator_tokens)
+        indicator_embeds_per_image = indicator_embeds.split(
+            indicator_per_image)
+
+        visual_embeds_per_image = visual_embeds.split(patches_per_image, dim=0)
+        vision_embeddings = []
+        for indicator, visual in zip(indicator_embeds_per_image,
+                                     visual_embeds_per_image):
+            vision_embeddings_per_image = []
+            for i in range(visual.shape[0]):
+                vision_embeddings_per_image.append(
+                    torch.cat([indicator[i:i + 1], visual[i]], dim=0))
+            vision_embeddings_per_image.append(indicator[i + 1:])
+            vision_embeddings.append(
+                torch.cat(vision_embeddings_per_image, dim=0))
+
+        return tuple(vision_embeddings)
 
     def get_multimodal_embeddings(
             self, **kwargs: object) -> Optional[MultiModalEmbeddings]:
@@ -281,7 +338,7 @@ class Ovis2ForConditionalGeneration(nn.Module, SupportsMultiModal):
         if multimodal_embeddings is not None:
             inputs_embeds = merge_multimodal_embeddings(
                 input_ids, inputs_embeds, multimodal_embeddings,
-                [IMAGE_ATOM_TOKEN_ID, IMAGE_PAD_TOKEN_ID])
+                [IMAGE_PAD_TOKEN_ID])
         return inputs_embeds
 
     def forward(
diff --git a/vllm/transformers_utils/processors/ovis2.py b/vllm/transformers_utils/processors/ovis2.py
index fa5bdd40e..a633256ec 100644
--- a/vllm/transformers_utils/processors/ovis2.py
+++ b/vllm/transformers_utils/processors/ovis2.py
@@ -69,20 +69,21 @@ class OvisProcessor(ProcessorMixin):
     image_processor_class = "AutoImageProcessor"
     tokenizer_class = "Qwen2Tokenizer"
 
-    def __init__(self, image_processor=None, tokenizer=None, chat_template=None, **kwargs):
-        self.image_token = "<|image_pad|>" if not hasattr(tokenizer, "image_token") else tokenizer.image_token
-        self.video_token = "<|video_pad|>" if not hasattr(tokenizer, "video_token") else tokenizer.video_token
+    def __init__(self, image_processor=None, tokenizer=None, chat_template=None, image_pad_token=None, **kwargs):
+        self.image_token = "<image>"
+        self.image_pad_token = "<|image_pad|>" if image_pad_token is None else image_pad_token
         super().__init__(image_processor, tokenizer, chat_template=chat_template)
 
+        self.image_pad_token_id = self.tokenizer.get_vocab()[self.image_pad_token]
         self.extra_special_tokens = {
-            "image_token": "<image>",
-            "image_atom": "<image_atom>",
-            "image_start": "<img>",
-            "image_prefix": "<pre>",
-            "image_col_sep": "<col>",
-            "image_row_sep": "<row>",
-            "image_end": "</img>",
-            'image_pad': '<image_pad>',
+            "image_token": -200,
+            "image_atom": -300,
+            "image_start": -301,
+            "image_prefix": -302,
+            "image_col_sep": -303,
+            "image_row_sep": -304,
+            "image_end": -305,
+            'image_pad': self.image_pad_token_id,
         }
 
     def __call__(
@@ -157,58 +158,44 @@ class OvisProcessor(ProcessorMixin):
             if not isinstance(text, list):
                 text = [text]
 
-            tokenized_batched_text = self.tokenizer.batch_encode_plus(
-                text,
-                **output_kwargs["text_kwargs"]
-            )
+            tokenized_batched_text = self._tokenize_with_image_symbol(text)
             image_token_id = self.get_token_value("image_token")
             replaced_ids_list = []
-            replaced_attn_mask_list = []
             idx = 0
-            for ids_tensor, attn_mask in zip(tokenized_batched_text['input_ids'],
-                                             tokenized_batched_text['attention_mask']):
+            for ids_tensor in tokenized_batched_text:
                 if image_token_id in ids_tensor and "image_placeholders" in image_features:
                     if idx < len(image_features["image_placeholders"]):
                         # Converts in list for ease of use
                         ids_list = ids_tensor.tolist()
-                        attn_list = attn_mask.tolist()
 
                         new_ids = []
-                        new_attn = []
 
                         # replace placeholders
                         for i, token_id in enumerate(ids_list):
                             if token_id == image_token_id:
                                 placeholder_ids = image_features["image_placeholders"][idx]
                                 new_ids.extend(placeholder_ids)
-                                new_attn.extend([1] * len(placeholder_ids))
                                 idx += 1
                             else:
                                 new_ids.append(token_id)
-                                new_attn.append(attn_list[i])
 
                         # Converts back to tensors
                         ids_tensor = torch.tensor(new_ids, dtype=torch.long)
-                        attn_mask = torch.tensor(new_attn, dtype=torch.long)
                     else:
                         raise RuntimeError(
                             'Mismatch between the images you provided and the number of placeholder present in the text')
 
                 replaced_ids_list.append(ids_tensor)
-                replaced_attn_mask_list.append(attn_mask)
 
             if replaced_ids_list:
                 replaced_and_tokenized_ids = torch.stack(replaced_ids_list)
-                replaced_and_tokenized_attn_mask = torch.stack(replaced_attn_mask_list)
             else:
                 replaced_and_tokenized_ids = torch.tensor([], dtype=torch.long)
-                replaced_and_tokenized_attn_mask = torch.tensor([], dtype=torch.long)
 
             # Create the output with text features
             output = BatchFeature(
                 data={
                     "input_ids": replaced_and_tokenized_ids,
-                    "attention_mask": replaced_and_tokenized_attn_mask,
                 }
             )
 
@@ -219,10 +206,22 @@ class OvisProcessor(ProcessorMixin):
 
             return output
 
-
         # If only images were provided
         return BatchFeature(data=image_features)
 
+    def _tokenize_with_image_symbol(self, text_list: list[str]) -> torch.LongTensor:
+        batch_token_ids = []
+        for text in text_list:
+            text_chunks = [self.tokenizer(chunk, add_special_tokens=False).input_ids for chunk in
+                           text.split(self.image_token)]
+            token_ids = []
+            num_chuck = len(text_chunks)
+            for i, chunk in enumerate(text_chunks):
+                token_ids.extend(chunk)
+                if i < num_chuck - 1:
+                    token_ids.append(self.get_token_value("image_token"))
+            batch_token_ids.append(token_ids)
+        return torch.tensor(batch_token_ids, dtype=torch.long)
 
     def get_image_size(self):
         height = self.image_processor.crop_size["height"]
@@ -230,10 +229,9 @@ class OvisProcessor(ProcessorMixin):
         return height, width
 
     def get_token_value(self, tok):
-        return self.tokenizer.get_vocab()[self.extra_special_tokens[tok]]
-
-    def construct_image_placeholders(self, grid):
+        return self.extra_special_tokens[tok]
 
+    def construct_image_indicators(self, grid):
         image_placeholders = [self.get_token_value('image_start'),
                               self.get_token_value('image_atom'),
                               self.get_token_value('image_prefix')]
@@ -246,7 +244,11 @@ class OvisProcessor(ProcessorMixin):
                 if r < grid[0] - 1:
                     image_placeholders.append(self.get_token_value('image_row_sep'))
         image_placeholders.append(self.get_token_value('image_end'))
-        # return image_placeholders
+        return image_placeholders
+
+    def construct_image_placeholders(self, grid):
+
+        image_placeholders = self.construct_image_indicators(grid)
 
         image_atom_token_id = self.get_token_value('image_atom')
         # Extract the padding token ID from tokenizer
@@ -255,7 +257,7 @@ class OvisProcessor(ProcessorMixin):
         # Create a new list with padding tokens inserted
         padded_placeholder_tokens = []
         for token in image_placeholders:
-            padded_placeholder_tokens.append(token)
+            padded_placeholder_tokens.append(image_padding_token_id)
             if token == image_atom_token_id:
                 # Add 255 padding tokens after each image atom token
                 padded_placeholder_tokens.extend([image_padding_token_id] * 255)
@@ -394,4 +396,4 @@ class OvisProcessor(ProcessorMixin):
         return names_from_processor + ["second_per_grid_ts"]
 
 
-AutoProcessor.register("OvisProcessor", OvisProcessor)
\ No newline at end of file
+AutoProcessor.register("OvisProcessor", OvisProcessor)
-- 
GitLab


From 4acfa3354a2e100c88db99f4bcb5b5fc098211cb Mon Sep 17 00:00:00 2001
From: Hongxia Yang <62075498+hongxiayang@users.noreply.github.com>
Date: Thu, 1 May 2025 14:01:28 -0400
Subject: [PATCH 102/461] [ROCm] update installation guide to include build
 aiter from source instructions (#17542)

Signed-off-by: Hongxia Yang <hongxia.yang@amd.com>
Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>
---
 .../installation/gpu/rocm.inc.md                | 17 ++++++++++++++++-
 1 file changed, 16 insertions(+), 1 deletion(-)

diff --git a/docs/source/getting_started/installation/gpu/rocm.inc.md b/docs/source/getting_started/installation/gpu/rocm.inc.md
index 21c8d7d01..dc74368fe 100644
--- a/docs/source/getting_started/installation/gpu/rocm.inc.md
+++ b/docs/source/getting_started/installation/gpu/rocm.inc.md
@@ -73,7 +73,22 @@ Currently, there are no pre-built ROCm wheels.
     You might need to downgrade the "ninja" version to 1.10 it is not used when compiling flash-attention-2 (e.g. `pip install ninja==1.10.2.4`)
     :::
 
-3. Build vLLM. For example, vLLM on ROCM 6.3 can be built with the following steps:
+3. If you choose to build AITER yourself to use a certain branch or commit, you can build AITER using the following steps:
+
+    ```console
+    python3 -m pip uninstall -y aiter
+    git clone --recursive https://github.com/ROCm/aiter.git
+    cd aiter
+    git checkout $AITER_BRANCH_OR_COMMIT
+    git submodule sync; git submodule update --init --recursive
+    python3 setup.py develop
+    ```
+
+    :::{note}
+    You will need to config the `$AITER_BRANCH_OR_COMMIT` for your purpose.
+    :::
+
+4. Build vLLM. For example, vLLM on ROCM 6.3 can be built with the following steps:
 
     ```bash
     $ pip install --upgrade pip
-- 
GitLab


From 61c299f81fdf4df30f699a5030f1eb4b10d0cdba Mon Sep 17 00:00:00 2001
From: Chen Xia <cxia0209@gmail.com>
Date: Thu, 1 May 2025 11:04:50 -0700
Subject: [PATCH 103/461] [Misc]add configurable cuda graph size (#17201)

Signed-off-by: CXIAAAAA <cxia0209@gmail.com>
Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>
Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 vllm/config.py           | 20 +++++++++++++++++---
 vllm/engine/arg_utils.py |  5 +++++
 2 files changed, 22 insertions(+), 3 deletions(-)

diff --git a/vllm/config.py b/vllm/config.py
index 864903ddc..09ed68bb6 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -1865,6 +1865,13 @@ class SchedulerConfig:
     This config has no static default. If left unspecified by the user, it will
     be set in `EngineArgs.create_engine_config` based on the usage context."""
 
+    cuda_graph_sizes: list[int] = field(default_factory=lambda: [512])
+    """Cuda graph capture sizes, default is 512.
+    1. if one value is provided, then the capture list would follow the pattern:
+        [1, 2, 4] + [i for i in range(8, cuda_graph_sizes + 1, 8)]
+    2. more than one value (e.g. 1 2 128) is provided,
+        then the capture list will follow the provided list."""
+
     max_num_seqs: int = None  # type: ignore
     """Maximum number of sequences to be processed in a single iteration.
 
@@ -4235,13 +4242,20 @@ class VllmConfig:
             batch_size_capture_list = []
             if self.model_config is not None and \
                 not self.model_config.enforce_eager:
-                batch_size_capture_list = [1, 2, 4
-                                           ] + [i for i in range(8, 513, 8)]
+                cuda_graph_sizes = self.scheduler_config.cuda_graph_sizes
+                if len(cuda_graph_sizes) == 1:
+                    batch_size_capture_list = [1, 2, 4] + [
+                        i for i in range(8, cuda_graph_sizes[0] + 1, 8)
+                    ]
+                elif len(cuda_graph_sizes) > 1:
+                    batch_size_capture_list = sorted(cuda_graph_sizes)
+                else:
+                    raise TypeError(
+                        f"Invalid value for {cuda_graph_sizes=}.")
                 if self.parallel_config.tensor_parallel_size > 1 and \
                     self.compilation_config.pass_config.enable_sequence_parallelism:
                     batch_size_capture_list = \
                         self.update_sizes_for_sequence_parallelism(batch_size_capture_list)
-
                 max_num_tokens = self.scheduler_config.max_num_batched_tokens
                 batch_size_capture_list = [
                     size for size in batch_size_capture_list
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index ed32be7cb..3cafcb7c3 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -231,6 +231,8 @@ class EngineArgs:
     kv_cache_dtype: CacheDType = CacheConfig.cache_dtype
     seed: Optional[int] = ModelConfig.seed
     max_model_len: Optional[int] = ModelConfig.max_model_len
+    cuda_graph_sizes: list[int] = get_field(SchedulerConfig,
+                                            "cuda_graph_sizes")
     # Note: Specifying a custom executor backend by passing a class
     # is intended for expert use only. The API may change without
     # notice.
@@ -711,6 +713,8 @@ class EngineArgs:
         scheduler_group.add_argument(
             "--max-long-partial-prefills",
             **scheduler_kwargs["max_long_partial_prefills"])
+        scheduler_group.add_argument('--cuda-graph-sizes',
+                                     **scheduler_kwargs["cuda_graph_sizes"])
         scheduler_group.add_argument(
             "--long-prefill-token-threshold",
             **scheduler_kwargs["long_prefill_token_threshold"])
@@ -1042,6 +1046,7 @@ class EngineArgs:
             max_num_batched_tokens=self.max_num_batched_tokens,
             max_num_seqs=self.max_num_seqs,
             max_model_len=model_config.max_model_len,
+            cuda_graph_sizes=self.cuda_graph_sizes,
             num_lookahead_slots=num_lookahead_slots,
             delay_factor=self.scheduler_delay_factor,
             enable_chunked_prefill=self.enable_chunked_prefill,
-- 
GitLab


From 9b1769dd9ad13a5688d1e2b1b5f00b07b3716969 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Fri, 2 May 2025 02:12:19 +0800
Subject: [PATCH 104/461] [Bugfix] Fix lint error (#17547)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 vllm/config.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/vllm/config.py b/vllm/config.py
index 09ed68bb6..04d6acde7 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -4250,8 +4250,7 @@ class VllmConfig:
                 elif len(cuda_graph_sizes) > 1:
                     batch_size_capture_list = sorted(cuda_graph_sizes)
                 else:
-                    raise TypeError(
-                        f"Invalid value for {cuda_graph_sizes=}.")
+                    raise TypeError(f"Invalid value for {cuda_graph_sizes=}.")
                 if self.parallel_config.tensor_parallel_size > 1 and \
                     self.compilation_config.pass_config.enable_sequence_parallelism:
                     batch_size_capture_list = \
-- 
GitLab


From 811a6c0972daa4c5cfa7e6280ba22a24324a1141 Mon Sep 17 00:00:00 2001
From: Juan Villamizar <100237675+jpvillam-amd@users.noreply.github.com>
Date: Thu, 1 May 2025 13:18:28 -0500
Subject: [PATCH 105/461] [ROCM] Add gfx950 to the custom attention archs
 (#16034)

Signed-off-by: jpvillam <Juan.Villamizar@amd.com>
Signed-off-by: seungrokjung <seungrok.jung@amd.com>
Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>
Co-authored-by: seungrokjung <seungrok.jung@amd.com>
Co-authored-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>
---
 csrc/rocm/attention.cu | 11 ++++++-----
 vllm/platforms/rocm.py |  9 ++++++---
 2 files changed, 12 insertions(+), 8 deletions(-)

diff --git a/csrc/rocm/attention.cu b/csrc/rocm/attention.cu
index 2c3cae95e..292352649 100644
--- a/csrc/rocm/attention.cu
+++ b/csrc/rocm/attention.cu
@@ -25,8 +25,9 @@
 #include "../attention/dtype_fp8.cuh"
 #include "../quantization/fp8/amd/quant_utils.cuh"
 
-#if defined(__HIPCC__) && (defined(__gfx90a__) || defined(__gfx942__))
-  #define __HIP__MI300_MI250__
+#if defined(__HIPCC__) && \
+    (defined(__gfx90a__) || defined(__gfx942__) || defined(__gfx950__))
+  #define __HIP__GFX9__
 #endif
 
 #if defined(NDEBUG)
@@ -42,7 +43,7 @@
 #define MIN(a, b) ((a) < (b) ? (a) : (b))
 #define DIVIDE_ROUND_UP(a, b) (((a) + (b) - 1) / (b))
 
-#if defined(__HIP__MI300_MI250__)  // TODO: Add NAVI support
+#if defined(__HIP__GFX9__)  // TODO: Add NAVI support
 
   #define GCN_MFMA_INSTR1 __builtin_amdgcn_mfma_f32_16x16x4f32
   #define GCN_MFMA_INSTR __builtin_amdgcn_mfma_f32_4x4x4f16
@@ -1479,7 +1480,7 @@ __launch_bounds__(NUM_THREADS) void paged_attention_ll4mi_reduce_kernel(
   }
 }
 
-#else  // !defined(__HIP__MI300_MI250__) TODO: Add NAVI support
+#else  // !defined(__HIP__GFX9__) TODO: Add NAVI support
 
 // clang-format off
 template <typename scalar_t, typename cache_t,
@@ -1552,7 +1553,7 @@ __launch_bounds__(NUM_THREADS) void paged_attention_ll4mi_reduce_kernel(
 }
 // clang-format on
 
-#endif  // defined(__HIP__MI300_MI250__) TODO: Add NAVI support
+#endif  // defined(__HIP__GFX9__) TODO: Add NAVI support
 
 #define LAUNCH_CUSTOM_ATTENTION_MFMA16(GQA_RATIO)                              \
   paged_attention_ll4mi_QKV_mfma16_kernel<T, KVT, KV_DTYPE, OUTT, BLOCK_SIZE,  \
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index f6be3b0e8..de097ab9a 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -106,11 +106,14 @@ def use_rocm_custom_paged_attention(qtype: torch.dtype, head_size: int,
                                     max_seq_len: int,
                                     sliding_window: int) -> bool:
 
+    GPU_ARCH = torch.cuda.get_device_properties("cuda").gcnArchName
+    ON_GFX9 = any(arch in GPU_ARCH for arch in ["gfx90a", "gfx942", "gfx950"])
+
     # rocm custom page attention not support on gfx1*
     # custom paged attn always supported on V0. On V1, requires sliding window
     # disabled due to observed numerical discrepancy.
-    return (on_mi250_mi300() and (not envs.VLLM_USE_V1 or sliding_window == 0
-                                  or sliding_window == (-1, -1))
+    return (ON_GFX9 and (not envs.VLLM_USE_V1 or sliding_window == 0
+                         or sliding_window == (-1, -1))
             and (qtype == torch.half or qtype == torch.bfloat16)
             and (head_size == 64 or head_size == 128)
             and (block_size == 16 or block_size == 32)
@@ -337,7 +340,7 @@ class RocmPlatform(Platform):
     def use_custom_allreduce(cls) -> bool:
         # We only enable custom allreduce for MI300 series
         gcn_arch = torch.cuda.get_device_properties(0).gcnArchName
-        supported_archs = ['gfx94']
+        supported_archs = ['gfx94', 'gfx95']
         return any(gfx in gcn_arch for gfx in supported_archs)
 
     @classmethod
-- 
GitLab


From 04f2cfc89455a05bbeca18c9d5e6c55cd146c560 Mon Sep 17 00:00:00 2001
From: sstamenk <sstamenk@amd.com>
Date: Thu, 1 May 2025 20:51:58 +0200
Subject: [PATCH 106/461] Remove duplicate code from dbrx.py (#17550)

---
 vllm/model_executor/models/dbrx.py | 6 +-----
 1 file changed, 1 insertion(+), 5 deletions(-)

diff --git a/vllm/model_executor/models/dbrx.py b/vllm/model_executor/models/dbrx.py
index 40c0a73f5..9ec245cce 100644
--- a/vllm/model_executor/models/dbrx.py
+++ b/vllm/model_executor/models/dbrx.py
@@ -451,13 +451,9 @@ class DbrxForCausalLM(nn.Module, SupportsPP):
                 break
 
             else:
-                # Remapping the name of FP8 kv-scale.
-                name = maybe_remap_kv_scale_name(name, params_dict)
-                if name is None:
-                    continue
-
                 if is_pp_missing_parameter(name, self):
                     continue
+                # Remapping the name of FP8 kv-scale.
                 name = maybe_remap_kv_scale_name(name, params_dict)
                 if name is None:
                     continue
-- 
GitLab


From 173daac19dbf00180f1eb0752ce33fd97f48649d Mon Sep 17 00:00:00 2001
From: Chen Xia <cxia0209@gmail.com>
Date: Thu, 1 May 2025 11:52:37 -0700
Subject: [PATCH 107/461] [Bug]change the position of cuda_graph_sizes in
 dataclasses (#17548)

Signed-off-by: CXIAAAAA <cxia0209@gmail.com>
---
 vllm/config.py | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/vllm/config.py b/vllm/config.py
index 04d6acde7..c2995caca 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -1865,13 +1865,6 @@ class SchedulerConfig:
     This config has no static default. If left unspecified by the user, it will
     be set in `EngineArgs.create_engine_config` based on the usage context."""
 
-    cuda_graph_sizes: list[int] = field(default_factory=lambda: [512])
-    """Cuda graph capture sizes, default is 512.
-    1. if one value is provided, then the capture list would follow the pattern:
-        [1, 2, 4] + [i for i in range(8, cuda_graph_sizes + 1, 8)]
-    2. more than one value (e.g. 1 2 128) is provided,
-        then the capture list will follow the provided list."""
-
     max_num_seqs: int = None  # type: ignore
     """Maximum number of sequences to be processed in a single iteration.
 
@@ -1906,6 +1899,13 @@ class SchedulerConfig:
     NOTE: This will be replaced by speculative config in the future; it is
     present to enable correctness tests until then."""
 
+    cuda_graph_sizes: list[int] = field(default_factory=lambda: [512])
+    """Cuda graph capture sizes, default is 512.
+    1. if one value is provided, then the capture list would follow the pattern:
+        [1, 2, 4] + [i for i in range(8, cuda_graph_sizes + 1, 8)]
+    2. more than one value (e.g. 1 2 128) is provided,
+        then the capture list will follow the provided list."""
+
     delay_factor: float = 0.0
     """Apply a delay (of delay factor multiplied by previous
     prompt latency) before scheduling next prompt."""
-- 
GitLab


From 9b70e2b4c147ea650f9b943e6aecd977377fbbfd Mon Sep 17 00:00:00 2001
From: Chenyaaang <42742451+Chenyaaang@users.noreply.github.com>
Date: Thu, 1 May 2025 12:53:03 -0700
Subject: [PATCH 108/461] [Misc][Tools][Benchmark] Publish script to auto tune
 server parameters (#17207)

Signed-off-by: Chenyaaang <chenyangli@google.com>
---
 benchmarks/auto_tune.sh | 212 ++++++++++++++++++++++++++++++++++++++++
 1 file changed, 212 insertions(+)
 create mode 100644 benchmarks/auto_tune.sh

diff --git a/benchmarks/auto_tune.sh b/benchmarks/auto_tune.sh
new file mode 100644
index 000000000..ea63c6f71
--- /dev/null
+++ b/benchmarks/auto_tune.sh
@@ -0,0 +1,212 @@
+#!/bin/bash
+
+# This script aims to tune the best server parameter combinations to maximize throughput for given requirement. 
+# The current server parameter combination is  max_num_seqs and max_num_batched_tokens
+# It also supports additional requirement: e2e latency and prefix cache. 
+
+# Pre-requisite:
+# 1. Checkout to your branch, install/ update the correct running env. For TPU, activate conda env and install the corresponding torch, xla version. 
+# 2. If the model is customized, replace the MODEL's config with the customized config.
+# 3. Set variables (ALL REQUIRED)
+#   BASE: your directory for vllm repo
+#   MODEL: the model served by vllm
+#   DOWNLOAD_DIR: directory to download and load model weights.
+#   INPUT_LEN: request input len
+#   OUTPUT_LEN: request output len
+#   MIN_CACHE_HIT_PCT: prefix cache rate
+#   MAX_LATENCY_ALLOWED_MS: (e2e) latency requirement. If there's no latency requirement, set it to a large number like 1000000000
+# 4. Run the script, it might take a long time, you can use tmux to avoid the script stop if disconnection happens.
+# 5. The final result will be saved in RESULT file. 
+
+
+# Example use cases 
+# 1. Given input_len=1800, output_len=20, what's the best max_num_seqs and max_num_batched_tokens to get highest throughput?
+# Use INPUT_LEN=1800,  OUTPUT_LEN=20, MIN_CACHE_HIT_PCT=0, MAX_LATENCY_ALLOWED_MS=100000000000
+# 2. If we have latency requirement to be lower than 500ms, what's the best server parameter?
+# Use INPUT_LEN=1800,  OUTPUT_LEN=20, MIN_CACHE_HIT_PCT=0, MAX_LATENCY_ALLOWED_MS=500
+# 3. If we want to reach 60% prefix cache, what's the best server parameter? 
+# Use INPUT_LEN=1800,  OUTPUT_LEN=20, MIN_CACHE_HIT_PCT=60, MAX_LATENCY_ALLOWED_MS=500
+
+TAG=$(date +"%Y_%m_%d_%H_%M")
+BASE=""
+MODEL="meta-llama/Llama-3.1-8B-Instruct"
+DOWNLOAD_DIR=""
+INPUT_LEN=4000
+OUTPUT_LEN=16
+MIN_CACHE_HIT_PCT_PCT=0
+MAX_LATENCY_ALLOWED_MS=100000000000
+
+LOG_FOLDER="$BASE/auto-benchmark/$TAG"
+RESULT="$LOG_FOLDER/result.txt"
+
+echo "result file$ $RESULT"
+echo "model: $MODEL"
+echo
+
+rm -rf $LOG_FOLDER
+mkdir -p $LOG_FOLDER
+
+cd "$BASE/vllm"
+# create sonnet-4x.txt so that we can sample 2048 tokens for input
+echo "" > benchmarks/sonnet_4x.txt
+for _ in {1..4}
+do
+cat benchmarks/sonnet.txt >> benchmarks/sonnet_4x.txt
+done
+
+pip install datasets
+
+current_hash=$(git rev-parse HEAD)
+echo "hash:$current_hash" >> "$RESULT"
+echo "current_hash: $current_hash"
+
+best_throughput=0
+best_max_num_seqs=0
+best_num_batched_tokens=0
+best_goodput=0
+run_benchmark() {
+    local max_num_seqs=$1
+    local max_num_batched_tokens=$2
+    echo "max_num_seq: $max_num_seqs, max_num_batched_tokens: $max_num_batched_tokens"
+    local vllm_log="$LOG_FOLDER/vllm_log_${max_num_seqs}_${max_num_batched_tokens}.txt"
+    echo "vllm_log: $vllm_log"
+    echo
+    rm -f $vllm_log
+
+    # start the server
+    VLLM_USE_V1=1 VLLM_SERVER_DEV_MODE=1 vllm serve $MODEL \
+        --disable-log-requests \
+        --port 8004 \
+        --gpu-memory-utilization 0.98 \
+        --max-num-seqs $max_num_seqs \
+        --max-num-batched-tokens $max_num_batched_tokens \
+        --tensor-parallel-size 1 \
+        --enable-prefix-caching \
+        --load-format dummy \
+        --download-dir $DOWNLOAD_DIR \
+        --max-model-len $(( INPUT_LEN+OUTPUT_LEN )) > "$vllm_log" 2>&1 &
+    echo "wait for 10 minutes.."
+    echo
+    # wait for 10 minutes...
+    server_started=0
+    for i in {1..60}; do        
+        if grep -Fq "Application startup complete" "$vllm_log"; then
+            echo "Application started"
+            server_started=1
+            break
+        else
+            # echo "wait for 10 seconds..."
+            sleep 10
+        fi
+    done
+ 
+    if (( ! server_started )); then
+        echo "server did not start within 10 minutes, terminate the benchmarking. Please check server log at $vllm_log"
+        echo "pkill -f vllm"
+        echo
+        pkill vllm
+        sleep 10
+        return 1
+    fi
+    
+    echo "run benchmark test..."
+    echo
+    meet_latency_requirement=0
+    # get a basic qps by using request-rate inf
+    bm_log="$LOG_FOLDER/bm_log_${max_num_seqs}_${max_num_batched_tokens}_requestrate_inf.txt"
+    prefix_len=$(( INPUT_LEN * MIN_CACHE_HIT_PCT / 100 ))
+    python benchmarks/benchmark_serving.py \
+        --backend vllm \
+        --model $MODEL  \
+        --dataset-name sonnet \
+        --dataset-path benchmarks/sonnet_4x.txt \
+        --sonnet-input-len $INPUT_LEN \
+        --sonnet-output-len $OUTPUT_LEN \
+        --ignore-eos \
+        --disable-tqdm \
+        --request-rate inf \
+        --percentile-metrics ttft,tpot,itl,e2el \
+        --goodput e2el:$MAX_LATENCY_ALLOWED_MS \
+        --num-prompts 100 \
+        --sonnet-prefix-len $prefix_len \
+        --port 8004 > "$bm_log"
+    through_put=$(grep "Request throughput (req/s):" "$bm_log" | sed 's/[^0-9.]//g')
+    e2el=$(grep "P99 E2EL (ms):" "$bm_log" | awk '{print $NF}')
+    goodput=$(grep "Request goodput (req/s):" "$bm_log" | sed 's/[^0-9.]//g')
+
+    if (( $(echo "$e2el <= $MAX_LATENCY_ALLOWED_MS" | bc -l) )); then
+        meet_latency_requirement=1
+    fi
+
+    if (( ! meet_latency_requirement )); then
+    # start from request-rate as int(through_put) + 1
+        request_rate=$((${through_put%.*} + 1))
+        while ((request_rate > 0)); do
+            # clear prefix cache
+            curl -X POST http://0.0.0.0:8004/reset_prefix_cache
+            sleep 5
+            bm_log="$LOG_FOLDER/bm_log_${max_num_seqs}_${max_num_batched_tokens}_requestrate_${request_rate}.txt"
+            python benchmarks/benchmark_serving.py \
+                --backend vllm \
+                --model $MODEL  \
+                --dataset-name sonnet \
+                --dataset-path benchmarks/sonnet_4x.txt \
+                --sonnet-input-len $INPUT_LEN \
+                --sonnet-output-len $OUTPUT_LEN \
+                --ignore_eos \
+                --disable-tqdm \
+                --request-rate $request_rate \
+                --percentile-metrics ttft,tpot,itl,e2el \
+                --goodput e2el:$MAX_LATENCY_ALLOWED_MS \
+                --num-prompts 100 \
+                --sonnet-prefix-len $prefix_len \
+                --port 8004 > "$bm_log"
+            through_put=$(grep "Request throughput (req/s):" "$bm_log" | sed 's/[^0-9.]//g')
+            e2el=$(grep "P99 E2EL (ms):" "$bm_log" | awk '{print $NF}')
+            goodput=$(grep "Request goodput (req/s):" "$bm_log" | sed 's/[^0-9.]//g')
+            if (( $(echo "$e2el <= $MAX_LATENCY_ALLOWED_MS" | bc -l) )); then
+                meet_latency_requirement=1
+                break
+            fi
+            request_rate=$((request_rate-1))
+        done
+    fi
+    # write the results and update the best result.
+    if ((meet_latency_requirement)); then
+        echo "max_num_seqs: $max_num_seqs, max_num_batched_tokens: $max_num_batched_tokens, request_rate: $request_rate, e2el: $e2el, through put: $through_put, goodput: $goodput"
+        echo "max_num_seqs: $max_num_seqs, max_num_batched_tokens: $max_num_batched_tokens, request_rate: $request_rate, e2el: $e2el, through put: $through_put, goodput: $goodput" >> "$RESULT"
+        if (( $(echo "$through_put > $best_throughput" | bc -l) )); then
+            best_throughput=$through_put
+            best_max_num_seqs=$max_num_seqs
+            best_num_batched_tokens=$max_num_batched_tokens
+            best_goodput=$goodput
+        fi
+    else
+        echo "max_num_seqs: $max_num_seqs, max_num_batched_tokens: $max_num_batched_tokens does not meet latency requirement ${MAX_LATENCY_ALLOWED_MS}"
+        echo "max_num_seqs: $max_num_seqs, max_num_batched_tokens: $max_num_batched_tokens does not meet latency requirement ${MAX_LATENCY_ALLOWED_MS}" >> "$RESULT"
+    fi
+
+    echo "best_max_num_seqs: $best_max_num_seqs, best_num_batched_tokens: $best_num_batched_tokens, best_throughput: $best_throughput"
+
+    echo "pkill -f vllm"
+    echo
+    pkill vllm
+    sleep 10
+    rm -f $vllm_log
+    printf '=%.0s' $(seq 1 20)
+    return 0
+}
+
+
+num_seqs_list="128 256"
+num_batched_tokens_list="512 1024 2048 4096"
+for num_seqs in $num_seqs_list; do
+    for num_batched_tokens in $num_batched_tokens_list; do
+        run_benchmark $num_seqs $num_batched_tokens
+        exit 0
+    done
+done
+echo "finish permutations"
+echo "best_max_num_seqs: $best_max_num_seqs, best_num_batched_tokens: $best_num_batched_tokens, best_throughput: $best_throughput"
+echo "best_max_num_seqs: $best_max_num_seqs, best_num_batched_tokens: $best_num_batched_tokens, best_throughput: $best_throughput" >> "$RESULT"
+
-- 
GitLab


From 39c0813a7f1d0923adb828ff8319a068e6855c64 Mon Sep 17 00:00:00 2001
From: qizixi <qizixi@meta.com>
Date: Thu, 1 May 2025 16:19:30 -0700
Subject: [PATCH 109/461] [V1][Spec Decode] Apply torch.compile & cudagraph to
 EAGLE3 (#17504)

Signed-off-by: qizixi <qizixi@meta.com>
---
 vllm/model_executor/models/llama_eagle3.py | 25 ++++++++-----
 vllm/v1/spec_decode/eagle.py               | 42 ++++++++++------------
 2 files changed, 36 insertions(+), 31 deletions(-)

diff --git a/vllm/model_executor/models/llama_eagle3.py b/vllm/model_executor/models/llama_eagle3.py
index c42f19fee..904ff3210 100644
--- a/vllm/model_executor/models/llama_eagle3.py
+++ b/vllm/model_executor/models/llama_eagle3.py
@@ -6,7 +6,8 @@ import torch
 import torch.nn as nn
 from transformers import LlamaConfig
 
-from vllm.config import ModelConfig, VllmConfig
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
 from vllm.logger import init_logger
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import QKVParallelLinear
@@ -76,17 +77,19 @@ class LlamaDecoderLayer(LlamaDecoderLayer):
         return hidden_states, residual
 
 
+@support_torch_compile
 class LlamaModel(nn.Module):
 
     def __init__(
         self,
         *,
-        model_config: ModelConfig,
+        vllm_config: VllmConfig,
         start_layer_id: int = 0,
         prefix: str = "",
     ) -> None:
         super().__init__()
-        self.config = model_config.hf_config
+        self.config = vllm_config. \
+            speculative_config.draft_model_config.hf_config
         self.vocab_size = self.config.vocab_size
         self.embed_tokens = VocabParallelEmbedding(
             self.config.vocab_size,
@@ -119,8 +122,7 @@ class LlamaModel(nn.Module):
         hidden_states: torch.Tensor,
     ) -> tuple[torch.Tensor, torch.Tensor]:
         input_embeds = self.embed_tokens(input_ids)
-        if (hidden_states.shape[-1] != input_embeds.shape[-1]):
-            hidden_states = self.fc(hidden_states)
+        assert hidden_states.shape[-1] == input_embeds.shape[-1]
 
         residual = None
         hidden_states, residual = self.layers[0](
@@ -169,9 +171,9 @@ class Eagle3LlamaForCausalLM(LlamaForCausalLM):
 
     def __init__(self, *, vllm_config: VllmConfig, start_layer_id: int = 0):
         nn.Module.__init__(self)
-        model_config = vllm_config.speculative_config.draft_model_config
-        self.config = model_config.hf_config
-        self.model = LlamaModel(model_config=model_config,
+        self.config = vllm_config. \
+            speculative_config.draft_model_config.hf_config
+        self.model = LlamaModel(vllm_config=vllm_config,
                                 start_layer_id=start_layer_id,
                                 prefix="model")
 
@@ -214,6 +216,13 @@ class Eagle3LlamaForCausalLM(LlamaForCausalLM):
         logits_new[:, targets] = logits
         return logits_new
 
+    def combine_hidden_states(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        # combine multiple auxiliary hidden states returned by eagle3
+        return self.model.fc(hidden_states)
+
     def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
         loader = AutoWeightsLoader(
             self,
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index 81508c2e0..07097d7da 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -10,6 +10,7 @@ from vllm.logger import init_logger
 from vllm.model_executor.model_loader.loader import get_model_loader
 from vllm.model_executor.model_loader.utils import set_default_torch_dtype
 from vllm.model_executor.models import ModelRegistry
+from vllm.model_executor.models.llama_eagle3 import Eagle3LlamaForCausalLM
 from vllm.v1.attention.backends.flash_attn import FlashAttentionMetadata
 from vllm.v1.sample.metadata import SamplingMetadata
 
@@ -39,11 +40,9 @@ class EagleProposer:
 
         self.hidden_size = vllm_config.model_config.get_hidden_size()
 
-        # TODO: make eagle3 compatible with cudagraph
-        self.use_cuda_graph = self.method != 'eagle3' and \
-            (self.vllm_config.compilation_config.level
-             == CompilationLevel.PIECEWISE and
-             not self.vllm_config.model_config.enforce_eager)
+        self.use_cuda_graph = (self.vllm_config.compilation_config.level
+                               == CompilationLevel.PIECEWISE and
+                               not self.vllm_config.model_config.enforce_eager)
 
         self.cudagraph_batch_sizes = list(
             reversed(
@@ -90,6 +89,12 @@ class EagleProposer:
         batch_size = next_token_ids.shape[0]
         last_token_indices = cu_num_tokens[1:] - 1
 
+        if self.method == "eagle3":
+            assert isinstance(self.model, Eagle3LlamaForCausalLM)
+            target_hidden_states = self.model.combine_hidden_states(
+                target_hidden_states)
+            assert target_hidden_states.shape[-1] == self.hidden_size
+
         # Shift the input ids by one token.
         # E.g., [a1, b1, b2, c1, c2, c3] -> [b1, b2, c1, c2, c3, c3]
         self.input_ids[:num_tokens - 1] = target_token_ids[1:]
@@ -126,12 +131,7 @@ class EagleProposer:
         # copy inputs to buffer for cudagraph
         self.positions[:num_tokens] = target_positions
 
-        if self.method == 'eagle':
-            self.hidden_states[:num_tokens] = target_hidden_states
-            hidden_states = self.hidden_states
-        else:
-            # TODO: make eagle3 compatible with cuda graph
-            hidden_states = target_hidden_states
+        self.hidden_states[:num_tokens] = target_hidden_states
 
         with set_forward_context(attn_metadata,
                                  self.vllm_config,
@@ -139,7 +139,7 @@ class EagleProposer:
             last_hidden_states, hidden_states = self.model(
                 input_ids=self.input_ids[:num_input_tokens],
                 positions=self.positions[:num_input_tokens],
-                hidden_states=hidden_states[:num_input_tokens],
+                hidden_states=self.hidden_states[:num_input_tokens],
             )
         sample_hidden_states = last_hidden_states[last_token_indices]
         logits = self.model.compute_logits(sample_hidden_states, None)
@@ -209,10 +209,7 @@ class EagleProposer:
             self.input_ids[:batch_size] = input_ids
             self.positions[:batch_size] = clamped_positions
 
-            if self.method == 'eagle':
-                # TODO: make eagle3 compatible with cudagraph.
-                self.hidden_states[:batch_size] = hidden_states
-                hidden_states = self.hidden_states
+            self.hidden_states[:batch_size] = hidden_states
 
             # Run the model.
             with set_forward_context(attn_metadata,
@@ -221,7 +218,7 @@ class EagleProposer:
                 last_hidden_states, hidden_states = self.model(
                     input_ids=self.input_ids[:input_batch_size],
                     positions=self.positions[:input_batch_size],
-                    hidden_states=hidden_states[:input_batch_size],
+                    hidden_states=self.hidden_states[:input_batch_size],
                 )
             hidden_states = hidden_states[:batch_size]
             logits = self.model.compute_logits(last_hidden_states[:batch_size],
@@ -314,12 +311,11 @@ class EagleProposer:
     ) -> None:
         with set_forward_context(None, self.vllm_config,
                                  num_tokens=num_tokens):
-            if self.method == 'eagle':
-                self.model(
-                    input_ids=self.input_ids[:num_tokens],
-                    positions=self.positions[:num_tokens],
-                    hidden_states=self.hidden_states[:num_tokens],
-                )
+            self.model(
+                input_ids=self.input_ids[:num_tokens],
+                positions=self.positions[:num_tokens],
+                hidden_states=self.hidden_states[:num_tokens],
+            )
 
 
 # NOTE(woosuk): Currently, the below code is not used and we always use argmax
-- 
GitLab


From 24aebae1777288503657e4163e14d854ed4ab633 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Thu, 1 May 2025 18:59:35 -0600
Subject: [PATCH 110/461] [Bugfix] Disable gptq_bitblas for <SM80 to fix GPTQ
 on V100/T4 (#17541)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 vllm/model_executor/layers/quantization/gptq_bitblas.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/model_executor/layers/quantization/gptq_bitblas.py b/vllm/model_executor/layers/quantization/gptq_bitblas.py
index 6ee3a2f1b..b06c9579d 100644
--- a/vllm/model_executor/layers/quantization/gptq_bitblas.py
+++ b/vllm/model_executor/layers/quantization/gptq_bitblas.py
@@ -134,7 +134,7 @@ class GPTQBitBLASConfig(QuantizationConfig):
 
     @classmethod
     def get_min_capability(cls) -> int:
-        return 70
+        return 80
 
     @classmethod
     def get_config_filenames(cls) -> List[str]:
-- 
GitLab


From afb12e42948d50c85ffa9deb9963edda5814bffa Mon Sep 17 00:00:00 2001
From: David Xia <david@davidxia.com>
Date: Thu, 1 May 2025 22:57:21 -0400
Subject: [PATCH 111/461] [Doc] note that not all unit tests pass on CPU
 platforms (#17554)

Signed-off-by: David Xia <david@davidxia.com>
---
 docs/source/contributing/overview.md | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/docs/source/contributing/overview.md b/docs/source/contributing/overview.md
index 7c4016cae..89b31f031 100644
--- a/docs/source/contributing/overview.md
+++ b/docs/source/contributing/overview.md
@@ -58,6 +58,12 @@ Therefore, we recommend developing with Python 3.12 to minimise the chance of yo
 Currently, the repository is not fully checked by `mypy`.
 :::
 
+:::{note}
+Currently, not all unit tests pass when run on CPU platforms. If you don't have access to a GPU
+platform to run unit tests locally, rely on the continuous integration system to run the tests for
+now.
+:::
+
 ## Issues
 
 If you encounter a bug or have a feature request, please [search existing issues](https://github.com/vllm-project/vllm/issues?q=is%3Aissue) first to see if it has already been reported. If not, please [file a new issue](https://github.com/vllm-project/vllm/issues/new/choose), providing as much relevant information as possible.
-- 
GitLab


From afcb3f8863ee060f8464901a1cf0dfdf57465a90 Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Thu, 1 May 2025 23:16:26 -0400
Subject: [PATCH 112/461] [Attention] MLA move o_proj q_proj into cuda-graph
 region (#17484)

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>
---
 vllm/attention/backends/cpu_mla.py           |  5 +-
 vllm/attention/backends/flashmla.py          |  2 +-
 vllm/attention/backends/mla/common.py        | 54 +++++++-------------
 vllm/attention/backends/rocm_aiter_mla.py    |  2 +-
 vllm/attention/backends/triton_mla.py        |  2 +-
 vllm/model_executor/models/deepseek_v2.py    | 21 ++++----
 vllm/v1/attention/backends/mla/common.py     | 50 ++++++------------
 vllm/v1/attention/backends/mla/flashmla.py   |  2 +-
 vllm/v1/attention/backends/mla/triton_mla.py |  2 +-
 9 files changed, 55 insertions(+), 85 deletions(-)

diff --git a/vllm/attention/backends/cpu_mla.py b/vllm/attention/backends/cpu_mla.py
index 528df2e98..4567893a9 100644
--- a/vllm/attention/backends/cpu_mla.py
+++ b/vllm/attention/backends/cpu_mla.py
@@ -281,8 +281,7 @@ class CPUMLAImpl(MLACommonImpl[CPUMLAMetadata]):
         # remove padding
         output = output.view(-1, self.num_heads,
                              q.shape[-1])[..., :v.shape[-1]]
-        output = output.reshape(-1, self.num_heads * v.shape[-1])
-        return self.o_proj(output)[0]
+        return output.reshape(-1, self.num_heads * v.shape[-1])
 
     def _forward_decode(
             self,
@@ -303,4 +302,4 @@ class CPUMLAImpl(MLACommonImpl[CPUMLAMetadata]):
         ops.mla_decode_kvcache_cpu(o, q, kv_c_and_k_pe_cache, self.scale,
                                    decode_meta.block_tables,
                                    decode_meta.seq_lens_tensor)
-        return self._v_up_proj_and_o_proj(o)
+        return self._v_up_proj(o)
diff --git a/vllm/attention/backends/flashmla.py b/vllm/attention/backends/flashmla.py
index 5d0c23093..0e62748dd 100644
--- a/vllm/attention/backends/flashmla.py
+++ b/vllm/attention/backends/flashmla.py
@@ -239,4 +239,4 @@ class FlashMLAImpl(MLACommonImpl[FlashMLAMetadata]):
             causal=True,
         )
 
-        return self._v_up_proj_and_o_proj(o)
+        return self._v_up_proj(o)
diff --git a/vllm/attention/backends/mla/common.py b/vllm/attention/backends/mla/common.py
index 382a9a6d4..12d85b742 100644
--- a/vllm/attention/backends/mla/common.py
+++ b/vllm/attention/backends/mla/common.py
@@ -207,7 +207,7 @@ from vllm.attention.backends.utils import (PAD_SLOT_ID, compute_slot_mapping,
 from vllm.attention.ops.merge_attn_states import merge_attn_states
 from vllm.attention.utils.fa_utils import get_flash_attn_version
 from vllm.model_executor.layers.linear import (ColumnParallelLinear,
-                                               LinearBase, RowParallelLinear,
+                                               LinearBase,
                                                UnquantizedLinearMethod)
 from vllm.model_executor.layers.rotary_embedding import (
     DeepseekScalingRotaryEmbedding, RotaryEmbedding)
@@ -1032,12 +1032,7 @@ class MLACommonImpl(MLAAttentionImpl[T], Generic[T]):
         qk_head_dim: int,
         v_head_dim: int,
         rotary_emb: RotaryEmbedding,
-        # q_proj should be q_b_proj if q_lora_rank is not None, but from an
-        # attention backend perspective we rely on the layer to pass in the
-        # correct matrix
-        q_proj: ColumnParallelLinear,
         kv_b_proj: ColumnParallelLinear,
-        o_proj: RowParallelLinear,
     ) -> None:
         self.num_heads = num_heads
         self.head_size = head_size
@@ -1055,9 +1050,7 @@ class MLACommonImpl(MLAAttentionImpl[T], Generic[T]):
         self.rotary_emb = rotary_emb
         self.use_yarn_rope = isinstance(rotary_emb,
                                         DeepseekScalingRotaryEmbedding)
-        self.q_proj = q_proj
         self.kv_b_proj = kv_b_proj
-        self.o_proj = o_proj
 
         self.triton_fa_func = triton_attention
         # Handle the differences between the flash_attn_varlen from flash_attn
@@ -1141,27 +1134,13 @@ class MLACommonImpl(MLAAttentionImpl[T], Generic[T]):
             return attn_out, rest[0]
         return attn_out
 
-    def _v_up_proj_and_o_proj(self, x):
+    def _v_up_proj(self, x):
         # Convert from (B, N, L) to (N, B, L)
         x = x.view(-1, self.num_heads, self.kv_lora_rank).transpose(0, 1)
         # Multiply (N, B, L) x (N, L, V) -> (N, B, V)
         x = torch.bmm(x, self.W_UV)
         # Convert from (N, B, V) to (B, N * V)
-        x = x.transpose(0, 1).reshape(-1, self.num_heads * self.v_head_dim)
-        return self.o_proj(x)[0]
-
-    # Return `ql_nope`, `q_pe`
-    def _q_proj_and_k_up_proj(self, x):
-        q_nope, q_pe = self.q_proj(x)[0]\
-            .view(-1, self.num_heads, self.qk_head_dim)\
-            .split([self.qk_nope_head_dim, self.qk_rope_head_dim], dim=-1)
-
-        # Convert from (B, N, P) to (N, B, P)
-        q_nope = q_nope.transpose(0, 1)
-        # Multiply (N, B, P) x (N, P, L) -> (N, B, L)
-        ql_nope = torch.bmm(q_nope, self.W_UK_T)
-        # Convert from (N, B, L) to (B, N, L)
-        return ql_nope.transpose(0, 1), q_pe
+        return x.transpose(0, 1).reshape(-1, self.num_heads * self.v_head_dim)
 
     def process_weights_after_loading(self, act_dtype: torch.dtype):
 
@@ -1345,7 +1324,7 @@ class MLACommonImpl(MLAAttentionImpl[T], Generic[T]):
                 suffix_lse=suffix_lse,
             )
 
-        return self.o_proj(output.flatten(start_dim=-2))[0]
+        return output.flatten(start_dim=-2)
 
     @abstractmethod
     def _forward_decode(
@@ -1360,7 +1339,7 @@ class MLACommonImpl(MLAAttentionImpl[T], Generic[T]):
     def forward(
         self,
         layer: AttentionLayer,
-        hidden_states_or_q_c: torch.Tensor,  # query in unified attn
+        q: torch.Tensor,  # query in unified attn
         k_c_normed: torch.Tensor,  # key in unified attn
         k_pe: torch.Tensor,  # value in unified attn
         kv_cache: torch.Tensor,
@@ -1391,27 +1370,32 @@ class MLACommonImpl(MLAAttentionImpl[T], Generic[T]):
         assert hasattr(attn_metadata, "input_positions")
 
         num_prefill_tokens: int = attn_metadata.num_prefill_tokens
+        q = q.view(-1, self.num_heads, self.qk_head_dim)
 
-        decode_hs_or_q_c = hidden_states_or_q_c[num_prefill_tokens:]
+        decode_q = q[num_prefill_tokens:]
         decode_k_pe = k_pe[num_prefill_tokens:]
         decode_input_positions = \
             attn_metadata.input_positions[num_prefill_tokens:]
 
-        prefill_hs_or_q_c = hidden_states_or_q_c[:num_prefill_tokens]
+        prefill_q = q[:num_prefill_tokens]
         prefill_k_pe = k_pe[:num_prefill_tokens]
         prefill_input_positions = \
             attn_metadata.input_positions[:num_prefill_tokens]
         prefill_k_c_normed = k_c_normed[:num_prefill_tokens]
 
         if has_decode:
-            decode_ql_nope, decode_q_pe = \
-                self._q_proj_and_k_up_proj(decode_hs_or_q_c)
+            decode_q_nope, decode_q_pe = decode_q.split(
+                [self.qk_nope_head_dim, self.qk_rope_head_dim], dim=-1)
+            # Convert from (B, N, P) to (N, B, P)
+            decode_q_nope = decode_q_nope.transpose(0, 1)
+            # Multiply (N, B, P) x (N, P, L) -> (N, B, L)
+            decode_ql_nope = torch.bmm(decode_q_nope, self.W_UK_T)
+            # Convert from (N, B, L) to (B, N, L)
+            decode_ql_nope = decode_ql_nope.transpose(0, 1)
             decode_q_pe[...], decode_k_pe[...] = self.rotary_emb(
                 decode_input_positions, decode_q_pe, decode_k_pe)
 
         if has_prefill:
-            prefill_q = self.q_proj(prefill_hs_or_q_c)[0]\
-                .view(-1, self.num_heads, self.qk_head_dim)
             prefill_q_pe = prefill_q[..., self.qk_nope_head_dim:]
             prefill_q_pe[...], prefill_k_pe[...] = self.rotary_emb(
                 prefill_input_positions, prefill_q_pe, prefill_k_pe)
@@ -1429,9 +1413,9 @@ class MLACommonImpl(MLAAttentionImpl[T], Generic[T]):
 
         output = torch.empty(attn_metadata.num_prefill_tokens +
                              attn_metadata.num_decode_tokens,
-                             self.o_proj.output_size,
-                             device=hidden_states_or_q_c.device,
-                             dtype=hidden_states_or_q_c.dtype)
+                             self.v_head_dim * self.num_heads,
+                             device=q.device,
+                             dtype=q.dtype)
         if has_prefill:
             output[:num_prefill_tokens] = self._forward_prefill(
                 prefill_q, prefill_k_c_normed, prefill_k_pe, kv_cache,
diff --git a/vllm/attention/backends/rocm_aiter_mla.py b/vllm/attention/backends/rocm_aiter_mla.py
index 6e695b78e..2984bc1da 100644
--- a/vllm/attention/backends/rocm_aiter_mla.py
+++ b/vllm/attention/backends/rocm_aiter_mla.py
@@ -409,4 +409,4 @@ class AiterMLAImpl(MLACommonImpl[AiterMLAMetadata]):
                              attn_metadata.paged_kv_indices,
                              attn_metadata.paged_kv_last_page_lens)
 
-        return self._v_up_proj_and_o_proj(o)
+        return self._v_up_proj(o)
diff --git a/vllm/attention/backends/triton_mla.py b/vllm/attention/backends/triton_mla.py
index 61e5c76d9..6945c2c6e 100644
--- a/vllm/attention/backends/triton_mla.py
+++ b/vllm/attention/backends/triton_mla.py
@@ -110,4 +110,4 @@ class TritonMLAImpl(MLACommonImpl[MLACommonMetadata]):
                              decode_meta.seq_lens_tensor, attn_logits,
                              num_kv_splits, self.scale, PAGE_SIZE)
 
-        return self._v_up_proj_and_o_proj(o)
+        return self._v_up_proj(o)
diff --git a/vllm/model_executor/models/deepseek_v2.py b/vllm/model_executor/models/deepseek_v2.py
index ffa5840b4..ce86b9b2c 100644
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -454,9 +454,7 @@ class DeepseekV2MLAAttention(nn.Module):
             qk_head_dim=self.qk_head_dim,
             v_head_dim=self.v_head_dim,
             rotary_emb=self.rotary_emb,
-            q_proj=self.q_proj if self.q_lora_rank is None else self.q_b_proj,
             kv_b_proj=self.kv_b_proj,
-            o_proj=self.o_proj,
         )
 
         self.prefix = prefix
@@ -468,17 +466,22 @@ class DeepseekV2MLAAttention(nn.Module):
         hidden_states: torch.Tensor,
     ) -> torch.Tensor:
         if self.q_lora_rank is not None:
-            ckq = self.q_a_proj(hidden_states)[0]
-            hidden_states_or_q_c = self.q_a_layernorm(ckq)
+            q_c = self.q_a_proj(hidden_states)[0]
+            q_c = self.q_a_layernorm(q_c)
+            q = self.q_b_proj(q_c)[0]
         else:
-            hidden_states_or_q_c = hidden_states
+            q = self.q_proj(hidden_states)[0]
         kv_c, k_pe = self.kv_a_proj_with_mqa(hidden_states)[0].split(
             [self.kv_lora_rank, self.qk_rope_head_dim], dim=-1)
         kv_c_normed = self.kv_a_layernorm(kv_c.contiguous())
-        return self.mla_attn(hidden_states_or_q_c,
-                             kv_c_normed,
-                             k_pe,
-                             output_shape=hidden_states.shape)
+
+        attn_out = self.mla_attn(
+            q,
+            kv_c_normed,
+            k_pe,
+            output_shape=(hidden_states.shape[0],
+                          self.num_local_heads * self.v_head_dim))
+        return self.o_proj(attn_out)[0]
 
 
 class DeepseekV2DecoderLayer(nn.Module):
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index fd3be901f..3e77555d7 100644
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -200,7 +200,7 @@ from vllm.attention.ops.merge_attn_states import merge_attn_states
 from vllm.attention.utils.fa_utils import get_flash_attn_version
 from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import (ColumnParallelLinear,
-                                               LinearBase, RowParallelLinear,
+                                               LinearBase,
                                                UnquantizedLinearMethod)
 from vllm.model_executor.layers.rotary_embedding import RotaryEmbedding
 from vllm.platforms import current_platform
@@ -597,12 +597,7 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
         qk_head_dim: int,
         v_head_dim: int,
         rotary_emb: RotaryEmbedding,
-        # q_proj should be q_b_proj if q_lora_rank is not None, but from an
-        # attention backend perspective we rely on the layer to pass in the
-        # correct matrix
-        q_proj: ColumnParallelLinear,
         kv_b_proj: ColumnParallelLinear,
-        o_proj: RowParallelLinear,
     ) -> None:
         self.num_heads = num_heads
         self.head_size = head_size
@@ -625,9 +620,7 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
         if current_platform.is_cuda():
             self.rotary_emb = rotary_emb.forward_cuda
 
-        self.q_proj = q_proj
         self.kv_b_proj = kv_b_proj
-        self.o_proj = o_proj
         self.vllm_flash_attn_version = get_flash_attn_version()
 
         # Handle the differences between the flash_attn_varlen from flash_attn
@@ -684,27 +677,13 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
             return attn_out, lse
         return attn_out
 
-    def _v_up_proj_and_o_proj(self, x):
+    def _v_up_proj(self, x):
         # Convert from (B, N, L) to (N, B, L)
         x = x.view(-1, self.num_heads, self.kv_lora_rank).transpose(0, 1)
         # Multiply (N, B, L) x (N, L, V) -> (N, B, V)
         x = torch.bmm(x, self.W_UV)
         # Convert from (N, B, V) to (B, N * V)
-        x = x.transpose(0, 1).reshape(-1, self.num_heads * self.v_head_dim)
-        return self.o_proj(x)[0]
-
-    # Return `ql_nope`, `q_pe`
-    def _q_proj_and_k_up_proj(self, x):
-        q_nope, q_pe = self.q_proj(x)[0]\
-            .view(-1, self.num_heads, self.qk_head_dim)\
-            .split([self.qk_nope_head_dim, self.qk_rope_head_dim], dim=-1)
-
-        # Convert from (B, N, P) to (N, B, P)
-        q_nope = q_nope.transpose(0, 1)
-        # Multiply (N, B, P) x (N, P, L) -> (N, B, L)
-        ql_nope = torch.bmm(q_nope, self.W_UK_T)
-        # Convert from (N, B, L) to (B, N, L)
-        return ql_nope.transpose(0, 1), q_pe
+        return x.transpose(0, 1).reshape(-1, self.num_heads * self.v_head_dim)
 
     def process_weights_after_loading(self, act_dtype: torch.dtype):
 
@@ -874,7 +853,7 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
                 suffix_lse=suffix_lse,
             )
 
-        return self.o_proj(output.flatten(start_dim=-2))[0]
+        return output.flatten(start_dim=-2)
 
     @abstractmethod
     def _forward_decode(
@@ -889,7 +868,7 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
     def forward(
         self,
         layer: AttentionLayer,
-        hidden_states_or_q_c: torch.Tensor,  # query in unified attn
+        q: torch.Tensor,
         k_c_normed: torch.Tensor,  # key in unified attn
         k_pe: torch.Tensor,  # value in unified attn
         kv_cache: torch.Tensor,
@@ -908,7 +887,7 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
         # Inputs and outputs may be padded for CUDA graphs
         output_padded = output
         output = output[:num_actual_toks, ...]
-        hidden_states_or_q_c = hidden_states_or_q_c[:num_actual_toks, ...]
+        q = q[:num_actual_toks, ...]
         k_c_normed = k_c_normed[:num_actual_toks, ...]
         k_pe = k_pe[:num_actual_toks, ...]
 
@@ -923,24 +902,29 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
         has_prefill = attn_metadata.num_prefills > 0
         num_decode_tokens = attn_metadata.num_decode_tokens
 
-        decode_hs_or_q_c = hidden_states_or_q_c[:num_decode_tokens]
+        q = q.view(-1, self.num_heads, self.qk_head_dim)
+        decode_q = q[:num_decode_tokens]
         decode_k_pe = k_pe[:num_decode_tokens]
 
-        prefill_hs_or_q_c = hidden_states_or_q_c[num_decode_tokens:]
+        prefill_q = q[num_decode_tokens:]
         prefill_k_pe = k_pe[num_decode_tokens:]
         prefill_k_c_normed = k_c_normed[num_decode_tokens:]
 
         if has_decode:
             assert attn_metadata.decode is not None
-            decode_ql_nope, decode_q_pe = \
-                self._q_proj_and_k_up_proj(decode_hs_or_q_c)
+            decode_q_nope, decode_q_pe = decode_q.split(
+                [self.qk_nope_head_dim, self.qk_rope_head_dim], dim=-1)
+            # Convert from (B, N, P) to (N, B, P)
+            decode_q_nope = decode_q_nope.transpose(0, 1)
+            # Multiply (N, B, P) x (N, P, L) -> (N, B, L)
+            decode_ql_nope = torch.bmm(decode_q_nope, self.W_UK_T)
+            # Convert from (N, B, L) to (B, N, L)
+            decode_ql_nope = decode_ql_nope.transpose(0, 1)
             decode_q_pe[...], decode_k_pe[...] = self.rotary_emb(
                 attn_metadata.decode.input_positions, decode_q_pe, decode_k_pe)
 
         if has_prefill:
             assert attn_metadata.prefill is not None
-            prefill_q = self.q_proj(prefill_hs_or_q_c)[0]\
-                .view(-1, self.num_heads, self.qk_head_dim)
             prefill_q_pe = prefill_q[..., self.qk_nope_head_dim:]
 
             prefill_q_pe[...], prefill_k_pe[...] = self.rotary_emb(
diff --git a/vllm/v1/attention/backends/mla/flashmla.py b/vllm/v1/attention/backends/mla/flashmla.py
index 143bfe35b..f18c9c8b6 100644
--- a/vllm/v1/attention/backends/mla/flashmla.py
+++ b/vllm/v1/attention/backends/mla/flashmla.py
@@ -146,4 +146,4 @@ class FlashMLAImpl(MLACommonImpl[FlashMLAMetadata]):
             causal=True,
         )
 
-        return self._v_up_proj_and_o_proj(o)
+        return self._v_up_proj(o)
diff --git a/vllm/v1/attention/backends/mla/triton_mla.py b/vllm/v1/attention/backends/mla/triton_mla.py
index 8e7e4f10b..2e6b619db 100644
--- a/vllm/v1/attention/backends/mla/triton_mla.py
+++ b/vllm/v1/attention/backends/mla/triton_mla.py
@@ -115,4 +115,4 @@ class TritonMLAImpl(MLACommonImpl[MLACommonMetadata]):
                              attn_metadata.decode.seq_lens, attn_logits,
                              num_kv_splits, self.scale, PAGE_SIZE)
 
-        return self._v_up_proj_and_o_proj(o)
+        return self._v_up_proj(o)
-- 
GitLab


From 292fc59d61ba97b9a79b9649e693d0cac2dea15f Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Thu, 1 May 2025 22:05:04 -0600
Subject: [PATCH 113/461] [CI] Actually run tests/kv_transfer/test_disagg.py in
 CI (#17555)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 tests/kv_transfer/test_disagg.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tests/kv_transfer/test_disagg.py b/tests/kv_transfer/test_disagg.py
index 5b9ea6dba..dc948a48b 100644
--- a/tests/kv_transfer/test_disagg.py
+++ b/tests/kv_transfer/test_disagg.py
@@ -14,8 +14,8 @@ import torch
 # Fixture to set up environment variables and teardown servers after tests
 @pytest.fixture(scope="module", autouse=True)
 def setup_servers():
-    if torch.cuda.device_count() < 4:
-        pytest.skip("Skipping test: fewer than 4 GPUs available")
+    if torch.cuda.device_count() < 2:
+        pytest.skip("Skipping test: fewer than 2 GPUs available")
 
     # Set up environment variables
     VLLM_HOST_IP = subprocess.check_output("hostname -I | awk '{print $1}'",
-- 
GitLab


From b4003d11fc7ab82c12c3fb996e853f8d6ea9cd7a Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Thu, 1 May 2025 22:32:54 -0600
Subject: [PATCH 114/461] Check if bitblas is installed during support check
 (#17572)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 .../layers/quantization/utils/bitblas_utils.py           | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/vllm/model_executor/layers/quantization/utils/bitblas_utils.py b/vllm/model_executor/layers/quantization/utils/bitblas_utils.py
index 5d28d327e..e26ac4ea3 100644
--- a/vllm/model_executor/layers/quantization/utils/bitblas_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/bitblas_utils.py
@@ -71,6 +71,15 @@ def _check_bitblas_supported(
                 f"Only group_sizes = {BITBLAS_SUPPORTED_GROUP_SIZES} "
                 "are supported.")
 
+    # Finally, check if bitblas is installed
+    try:
+        import bitblas
+        if bitblas.__version__ < MINIMUM_BITBLAS_VERSION:
+            raise ImportError("bitblas version is wrong. Please "
+                              f"install bitblas>={MINIMUM_BITBLAS_VERSION}")
+    except ImportError:
+        return False, "BitBLAS is not installed."
+
     return True, None
 
 
-- 
GitLab


From f89d0e11bf5302307c8ebfc74dd3e7923738b27f Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Fri, 2 May 2025 13:06:08 +0800
Subject: [PATCH 115/461] [Misc] Continue refactoring model tests (#17573)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 .../offline_inference/qwen2_5_omni/only_thinker.py     |  5 ++---
 examples/offline_inference/vision_language.py          |  2 +-
 tests/conftest.py                                      | 10 +++++++++-
 tests/models/multimodal/generation/test_interleaved.py |  2 +-
 .../{generation => pooling}/test_intern_vit.py         |  9 +++------
 vllm/assets/video.py                                   |  8 ++++----
 6 files changed, 20 insertions(+), 16 deletions(-)
 rename tests/models/multimodal/{generation => pooling}/test_intern_vit.py (91%)

diff --git a/examples/offline_inference/qwen2_5_omni/only_thinker.py b/examples/offline_inference/qwen2_5_omni/only_thinker.py
index c75a99012..031e924d3 100644
--- a/examples/offline_inference/qwen2_5_omni/only_thinker.py
+++ b/examples/offline_inference/qwen2_5_omni/only_thinker.py
@@ -47,8 +47,7 @@ def get_mixed_modalities_query() -> QueryResult:
                 "image":
                 ImageAsset("cherry_blossom").pil_image.convert("RGB"),
                 "video":
-                VideoAsset(name="sample_demo_1.mp4",
-                           num_frames=16).np_ndarrays,
+                VideoAsset(name="sample_demo_1", num_frames=16).np_ndarrays,
             },
         },
         limit_mm_per_prompt={
@@ -66,7 +65,7 @@ def get_use_audio_in_video_query() -> QueryResult:
               "<|im_start|>user\n<|vision_bos|><|VIDEO|><|vision_eos|>"
               f"{question}<|im_end|>\n"
               f"<|im_start|>assistant\n")
-    asset = VideoAsset(name="sample_demo_1.mp4", num_frames=16)
+    asset = VideoAsset(name="sample_demo_1", num_frames=16)
     audio = asset.get_audio(sampling_rate=16000)
     assert not envs.VLLM_USE_V1, ("V1 does not support use_audio_in_video. "
                                   "Please launch this example with "
diff --git a/examples/offline_inference/vision_language.py b/examples/offline_inference/vision_language.py
index 755e19bb2..6cd2a774a 100644
--- a/examples/offline_inference/vision_language.py
+++ b/examples/offline_inference/vision_language.py
@@ -1109,7 +1109,7 @@ def get_multi_modal_input(args):
 
     if args.modality == "video":
         # Input video and question
-        video = VideoAsset(name="sample_demo_1.mp4",
+        video = VideoAsset(name="sample_demo_1",
                            num_frames=args.num_frames).np_ndarrays
         vid_questions = ["Why is this video funny?"]
 
diff --git a/tests/conftest.py b/tests/conftest.py
index f02b5a8c0..14a88ca47 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -97,13 +97,18 @@ class _VideoAssets(_VideoAssetsBase):
 
     def __init__(self) -> None:
         super().__init__([
-            VideoAsset("sample_demo_1.mp4"),
+            VideoAsset("sample_demo_1"),
         ])
 
     def prompts(self, prompts: _VideoAssetPrompts) -> list[str]:
         return [prompts["sample_demo_1"]]
 
 
+class _AudioAssetPrompts(TypedDict):
+    mary_had_lamb: str
+    winning_call: str
+
+
 class _AudioAssetsBase(UserList[AudioAsset]):
     pass
 
@@ -116,6 +121,9 @@ class _AudioAssets(_AudioAssetsBase):
             AudioAsset("winning_call"),
         ])
 
+    def prompts(self, prompts: _AudioAssetPrompts) -> list[str]:
+        return [prompts["mary_had_lamb"], prompts["winning_call"]]
+
 
 IMAGE_ASSETS = _ImageAssets()
 """Singleton instance of :class:`_ImageAssets`."""
diff --git a/tests/models/multimodal/generation/test_interleaved.py b/tests/models/multimodal/generation/test_interleaved.py
index 92c8155fe..10052da9b 100644
--- a/tests/models/multimodal/generation/test_interleaved.py
+++ b/tests/models/multimodal/generation/test_interleaved.py
@@ -29,7 +29,7 @@ def test_models(vllm_runner, model, dtype: str, max_tokens: int) -> None:
     image_cherry = ImageAsset("cherry_blossom").pil_image.convert("RGB")
     image_stop = ImageAsset("stop_sign").pil_image.convert("RGB")
     images = [image_cherry, image_stop]
-    video = VideoAsset(name="sample_demo_1.mp4", num_frames=16).np_ndarrays
+    video = VideoAsset(name="sample_demo_1", num_frames=16).np_ndarrays
 
     inputs = [
         (
diff --git a/tests/models/multimodal/generation/test_intern_vit.py b/tests/models/multimodal/pooling/test_intern_vit.py
similarity index 91%
rename from tests/models/multimodal/generation/test_intern_vit.py
rename to tests/models/multimodal/pooling/test_intern_vit.py
index a842d14fe..c15913b42 100644
--- a/tests/models/multimodal/generation/test_intern_vit.py
+++ b/tests/models/multimodal/pooling/test_intern_vit.py
@@ -1,13 +1,12 @@
 # SPDX-License-Identifier: Apache-2.0
-
-from typing import Optional
-
 import pytest
 import torch
 import torch.nn as nn
 from huggingface_hub import snapshot_download
 from transformers import AutoConfig, AutoModel, CLIPImageProcessor
 
+from vllm.distributed import cleanup_dist_env_and_memory
+
 from ....conftest import _ImageAssets
 
 # we use snapshot_download to prevent conflicts between
@@ -20,7 +19,6 @@ def run_intern_vit_test(
     model_id: str,
     *,
     dtype: str,
-    distributed_executor_backend: Optional[str] = None,
 ):
     model = snapshot_download(model_id, allow_patterns=DOWNLOAD_PATTERN)
 
@@ -43,7 +41,6 @@ def run_intern_vit_test(
         for pixel_value in pixel_values
     ]
 
-    from vllm.distributed import cleanup_dist_env_and_memory
     from vllm.model_executor.models.intern_vit import InternVisionModel
     vllm_model = InternVisionModel(config)
     vllm_model.load_weights(hf_model.state_dict().items())
@@ -71,7 +68,7 @@ def run_intern_vit_test(
 ])
 @pytest.mark.parametrize("dtype", [torch.half])
 @torch.inference_mode()
-def test_models(dist_init, image_assets, model_id, dtype: str) -> None:
+def test_models(image_assets, model_id, dtype: str) -> None:
     run_intern_vit_test(
         image_assets,
         model_id,
diff --git a/vllm/assets/video.py b/vllm/assets/video.py
index 133e18b68..fc3d47341 100644
--- a/vllm/assets/video.py
+++ b/vllm/assets/video.py
@@ -78,18 +78,18 @@ def video_to_pil_images_list(path: str,
 
 @dataclass(frozen=True)
 class VideoAsset:
-    name: Literal["sample_demo_1.mp4"]
+    name: Literal["sample_demo_1"]
     num_frames: int = -1
 
     @property
     def pil_images(self) -> list[Image.Image]:
-        video_path = download_video_asset(self.name)
+        video_path = download_video_asset(self.name + ".mp4")
         ret = video_to_pil_images_list(video_path, self.num_frames)
         return ret
 
     @property
     def np_ndarrays(self) -> npt.NDArray:
-        video_path = download_video_asset(self.name)
+        video_path = download_video_asset(self.name + ".mp4")
         ret = video_to_ndarrays(video_path, self.num_frames)
         return ret
 
@@ -99,5 +99,5 @@ class VideoAsset:
         
         See also: examples/offline_inference/qwen2_5_omni/only_thinker.py
         """
-        video_path = download_video_asset(self.name)
+        video_path = download_video_asset(self.name + ".mp4")
         return librosa.load(video_path, sr=sampling_rate)[0]
-- 
GitLab


From f192ca90e6e8ab7b1b0015040e521c5374f5c812 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Thu, 1 May 2025 23:14:09 -0600
Subject: [PATCH 116/461] Fix PixtralHF missing spatial_merge_size (#17571)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 vllm/model_executor/models/llava.py    |  5 ++---
 vllm/model_executor/models/mistral3.py |  8 ++------
 vllm/model_executor/models/pixtral.py  |  5 +++--
 vllm/model_executor/models/vision.py   | 25 +++++++++++--------------
 4 files changed, 18 insertions(+), 25 deletions(-)

diff --git a/vllm/model_executor/models/llava.py b/vllm/model_executor/models/llava.py
index 16f5327ee..3791b92ec 100644
--- a/vllm/model_executor/models/llava.py
+++ b/vllm/model_executor/models/llava.py
@@ -354,9 +354,8 @@ class PixtralHFMultiModalProcessor(
         image_token_id = hf_config.image_token_index
         image_end_id = vocab[processor.image_end_token]
 
-        vision_config = hf_config.vision_config
-        assert isinstance(vision_config, PixtralVisionConfig)
-        encoder_info = PixtralHFEncoderInfo(vision_config)
+        assert isinstance(hf_config.vision_config, PixtralVisionConfig)
+        encoder_info = PixtralHFEncoderInfo(hf_config)
 
         def get_replacement(item_idx: int):
             images = mm_items.get_items("image", ImageProcessorItems)
diff --git a/vllm/model_executor/models/mistral3.py b/vllm/model_executor/models/mistral3.py
index c9abe4142..6352ba236 100644
--- a/vllm/model_executor/models/mistral3.py
+++ b/vllm/model_executor/models/mistral3.py
@@ -272,12 +272,8 @@ class Mistral3MultiModalProcessor(
         image_token_id = hf_config.image_token_index
         image_end_id = vocab[processor.image_end_token]
 
-        vision_config = hf_config.vision_config
-        assert isinstance(vision_config, PixtralVisionConfig)
-        # Need to sneak in spatial_merge_size for Mistral3
-        vision_config.spatial_merge_size = getattr(hf_config,
-                                                   "spatial_merge_size", 1)
-        encoder_info = PixtralHFEncoderInfo(vision_config)
+        assert isinstance(hf_config.vision_config, PixtralVisionConfig)
+        encoder_info = PixtralHFEncoderInfo(hf_config)
 
         def get_replacement(item_idx: int):
             images = mm_items.get_items("image", ImageProcessorItems)
diff --git a/vllm/model_executor/models/pixtral.py b/vllm/model_executor/models/pixtral.py
index d756b3b8a..7b11a616e 100644
--- a/vllm/model_executor/models/pixtral.py
+++ b/vllm/model_executor/models/pixtral.py
@@ -916,8 +916,9 @@ class PixtralHFEncoderInfo(VisionEncoderInfo[PixtralVisionConfig]):
         return self.vision_config.image_size
 
     def get_patch_size(self) -> int:
-        return (self.vision_config.patch_size *
-                self.vision_config.spatial_merge_size)
+        # spatial_merge_size is needed for Mistral3
+        spatial_merge_size = getattr(self.hf_config, "spatial_merge_size", 1)
+        return self.vision_config.patch_size * spatial_merge_size
 
     def get_patch_grid_length(self) -> int:
         image_size, patch_size = self.get_image_size(), self.get_patch_size()
diff --git a/vllm/model_executor/models/vision.py b/vllm/model_executor/models/vision.py
index 05e3b3f3c..901d83ec5 100644
--- a/vllm/model_executor/models/vision.py
+++ b/vllm/model_executor/models/vision.py
@@ -19,10 +19,11 @@ _C = TypeVar("_C", bound=PretrainedConfig)
 
 class VisionEncoderInfo(ABC, Generic[_C]):
 
-    def __init__(self, vision_config: _C) -> None:
+    def __init__(self, hf_config: _C) -> None:
         super().__init__()
 
-        self.vision_config = vision_config
+        self.hf_config = hf_config
+        self.vision_config = hf_config.vision_config
 
     @abstractmethod
     def get_num_image_tokens(
@@ -57,18 +58,14 @@ def get_vision_encoder_info(
     from .pixtral import PixtralHFEncoderInfo, PixtralVisionConfig
     from .siglip import SiglipEncoderInfo, SiglipVisionConfig
 
-    vision_config = hf_config.vision_config
-    if isinstance(vision_config, CLIPVisionConfig):
-        return CLIPEncoderInfo(vision_config)
-    if isinstance(vision_config, PixtralVisionConfig):
-        # Need to sneak in spatial_merge_size for Mistral3
-        vision_config.spatial_merge_size = getattr(hf_config,
-                                                   "spatial_merge_size", 1)
-        return PixtralHFEncoderInfo(vision_config)
-    if isinstance(vision_config, SiglipVisionConfig):
-        return SiglipEncoderInfo(vision_config)
-
-    msg = f"Unsupported vision config: {type(vision_config)}"
+    if isinstance(hf_config.vision_config, CLIPVisionConfig):
+        return CLIPEncoderInfo(hf_config)
+    if isinstance(hf_config.vision_config, PixtralVisionConfig):
+        return PixtralHFEncoderInfo(hf_config)
+    if isinstance(hf_config.vision_config, SiglipVisionConfig):
+        return SiglipEncoderInfo(hf_config)
+
+    msg = f"Unsupported vision config: {type(hf_config.vision_config)}"
     raise NotImplementedError(msg)
 
 
-- 
GitLab


From 109e15a335a20251cbefa0a81bf51cd7624eae27 Mon Sep 17 00:00:00 2001
From: Jerry Zhang <jerryzh168@gmail.com>
Date: Thu, 1 May 2025 23:23:42 -0700
Subject: [PATCH 117/461] Add `pt_load_map_location` to allow loading to cuda
 (#16869)

Signed-off-by: Jerry Zhang <jerryzh168@gmail.com>
---
 tests/quantization/test_torchao.py            | 26 +++++++++++++++++++
 tests/test_config.py                          | 16 +++++++++++-
 vllm/config.py                                | 10 +++++++
 vllm/engine/arg_utils.py                      | 18 ++++++++++++-
 vllm/model_executor/model_loader/loader.py    |  2 ++
 .../model_loader/weight_utils.py              |  5 +++-
 6 files changed, 74 insertions(+), 3 deletions(-)

diff --git a/tests/quantization/test_torchao.py b/tests/quantization/test_torchao.py
index 314ec90e3..1a2022876 100644
--- a/tests/quantization/test_torchao.py
+++ b/tests/quantization/test_torchao.py
@@ -3,6 +3,7 @@ import importlib.metadata
 import importlib.util
 
 import pytest
+import torch
 
 DTYPE = ["bfloat16"]
 
@@ -21,5 +22,30 @@ def test_pre_quantized_model(vllm_runner):
     print(output)
 
 
+@pytest.mark.skipif(not TORCHAO_AVAILABLE, reason="torchao is not available")
+@pytest.mark.parametrize(
+    "pt_load_map_location",
+    [
+        "cuda:0",
+        # {"": "cuda"},
+    ])
+def test_opt_125m_int4wo_model_loading_with_params(vllm_runner,
+                                                   pt_load_map_location):
+    """
+    Test loading roberta-base model with no lm_head.
+    """
+    torch._dynamo.reset()
+    model_name = "jerryzh168/opt-125m-int4wo"
+    with vllm_runner(model_name=model_name,
+                     quantization="torchao",
+                     dtype="bfloat16",
+                     pt_load_map_location=pt_load_map_location) as llm:
+        output = llm.generate_greedy(["The capital of France is"],
+                                     max_tokens=32)
+
+        assert output
+        print(output)
+
+
 if __name__ == "__main__":
     pytest.main([__file__])
diff --git a/tests/test_config.py b/tests/test_config.py
index f2155d954..7db95e3f6 100644
--- a/tests/test_config.py
+++ b/tests/test_config.py
@@ -5,7 +5,8 @@ from typing import Literal, Union
 
 import pytest
 
-from vllm.config import ModelConfig, PoolerConfig, config, get_field
+from vllm.config import (LoadConfig, ModelConfig, PoolerConfig, VllmConfig,
+                         config, get_field)
 from vllm.model_executor.layers.pooler import PoolingType
 from vllm.platforms import current_platform
 
@@ -410,3 +411,16 @@ def test_generation_config_loading():
         override_generation_config=override_generation_config)
 
     assert model_config.get_diff_sampling_param() == override_generation_config
+
+
+@pytest.mark.parametrize("pt_load_map_location", [
+    "cuda",
+    {
+        "": "cuda"
+    },
+])
+def test_load_config_pt_load_map_location(pt_load_map_location):
+    load_config = LoadConfig(pt_load_map_location=pt_load_map_location)
+    config = VllmConfig(load_config=load_config)
+
+    assert config.load_config.pt_load_map_location == pt_load_map_location
diff --git a/vllm/config.py b/vllm/config.py
index c2995caca..81e2460c2 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -1564,6 +1564,16 @@ class LoadConfig:
     use_tqdm_on_load: bool = True
     """Whether to enable tqdm for showing progress bar when loading model
     weights."""
+    pt_load_map_location: Union[str, dict[str, str]] = "cpu"
+    """
+    pt_load_map_location: the map location for loading pytorch checkpoint, to
+    support loading checkpoints can only be loaded on certain devices like
+    "cuda", this is equivalent to {"": "cuda"}. Another supported format is
+    mapping from different devices like from GPU 1 to GPU 0:
+    {"cuda:1": "cuda:0"}. Note that when passed from command line, the strings
+    in dictionary needs to be double quoted for json parsing. For more details,
+    see original doc for `map_location` in https://pytorch.org/docs/stable/generated/torch.load.html
+    """
 
     def compute_hash(self) -> str:
         """
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 3cafcb7c3..4ffc0b767 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -64,6 +64,13 @@ def optional_type(
     return _optional_type
 
 
+def union_dict_and_str(val: str) -> Optional[Union[str, dict[str, str]]]:
+    if not re.match("^{.*}$", val):
+        return str(val)
+    else:
+        return optional_type(json.loads)(val)
+
+
 @deprecated(
     "Passing a JSON argument as a string containing comma separated key=value "
     "pairs is deprecated. This will be removed in v0.10.0. Please use a JSON "
@@ -187,6 +194,10 @@ def get_kwargs(cls: ConfigType) -> dict[str, Any]:
                 kwargs[name]["type"] = human_readable_int
         elif contains_type(type_hints, float):
             kwargs[name]["type"] = float
+        elif contains_type(type_hints,
+                           dict) and (contains_type(type_hints, str) or any(
+                               is_not_builtin(th) for th in type_hints)):
+            kwargs[name]["type"] = union_dict_and_str
         elif contains_type(type_hints, dict):
             # Dict arguments will always be optional
             kwargs[name]["type"] = optional_type(json.loads)
@@ -371,6 +382,7 @@ class EngineArgs:
     reasoning_parser: str = DecodingConfig.reasoning_backend
 
     use_tqdm_on_load: bool = LoadConfig.use_tqdm_on_load
+    pt_load_map_location: str = LoadConfig.pt_load_map_location
 
     def __post_init__(self):
         # support `EngineArgs(compilation_config={...})`
@@ -491,6 +503,8 @@ class EngineArgs:
                                 type=str,
                                 default=None,
                                 help='Name or path of the QLoRA adapter.')
+        load_group.add_argument('--pt-load-map-location',
+                                **load_kwargs["pt_load_map_location"])
 
         # Guided decoding arguments
         guided_decoding_kwargs = get_kwargs(DecodingConfig)
@@ -883,12 +897,14 @@ class EngineArgs:
 
         if self.quantization == "bitsandbytes":
             self.load_format = "bitsandbytes"
+
         return LoadConfig(
             load_format=self.load_format,
             download_dir=self.download_dir,
             model_loader_extra_config=self.model_loader_extra_config,
             ignore_patterns=self.ignore_patterns,
             use_tqdm_on_load=self.use_tqdm_on_load,
+            pt_load_map_location=self.pt_load_map_location,
         )
 
     def create_speculative_config(
@@ -1513,7 +1529,7 @@ def _warn_or_fallback(feature_name: str) -> bool:
 def human_readable_int(value):
     """Parse human-readable integers like '1k', '2M', etc.
     Including decimal values with decimal multipliers.
-    
+
     Examples:
     - '1k' -> 1,000
     - '1K' -> 1,024
diff --git a/vllm/model_executor/model_loader/loader.py b/vllm/model_executor/model_loader/loader.py
index cb9100e35..01f75db9e 100644
--- a/vllm/model_executor/model_loader/loader.py
+++ b/vllm/model_executor/model_loader/loader.py
@@ -384,6 +384,7 @@ class DefaultModelLoader(BaseModelLoader):
             weights_iterator = pt_weights_iterator(
                 hf_weights_files,
                 self.load_config.use_tqdm_on_load,
+                self.load_config.pt_load_map_location,
             )
 
         if current_platform.is_tpu():
@@ -890,6 +891,7 @@ class BitsAndBytesModelLoader(BaseModelLoader):
             iterator = pt_weights_iterator(
                 hf_weights_files,
                 self.load_config.use_tqdm_on_load,
+                self.load_config.pt_load_map_location,
             )
         for org_name, param in iterator:
             # mapping weight names from transformers to vllm while preserving
diff --git a/vllm/model_executor/model_loader/weight_utils.py b/vllm/model_executor/model_loader/weight_utils.py
index 37a8491cf..10bc55ca5 100644
--- a/vllm/model_executor/model_loader/weight_utils.py
+++ b/vllm/model_executor/model_loader/weight_utils.py
@@ -502,6 +502,7 @@ def fastsafetensors_weights_iterator(
 def pt_weights_iterator(
     hf_weights_files: List[str],
     use_tqdm_on_load: bool,
+    pt_load_map_location: Union[str, dict[str, str]] = "cpu",
 ) -> Generator[Tuple[str, torch.Tensor], None, None]:
     """Iterate over the weights in the model bin/pt files."""
     for bin_file in tqdm(
@@ -510,7 +511,9 @@ def pt_weights_iterator(
             disable=not enable_tqdm(use_tqdm_on_load),
             bar_format=_BAR_FORMAT,
     ):
-        state = torch.load(bin_file, map_location="cpu", weights_only=True)
+        state = torch.load(bin_file,
+                           map_location=pt_load_map_location,
+                           weights_only=True)
         yield from state.items()
         del state
 
-- 
GitLab


From 9e2de9b9e9f9b850312200534f11e18f008a2d29 Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Fri, 2 May 2025 15:45:01 +0800
Subject: [PATCH 118/461] [Bugifx] Remove TritonPlaceholder from sys.modules
 (#17317)

Signed-off-by: Isotr0py <2037008807@qq.com>
---
 vllm/triton_utils/importing.py | 8 +-------
 1 file changed, 1 insertion(+), 7 deletions(-)

diff --git a/vllm/triton_utils/importing.py b/vllm/triton_utils/importing.py
index fa29efbf6..0a0c0a4bd 100644
--- a/vllm/triton_utils/importing.py
+++ b/vllm/triton_utils/importing.py
@@ -1,6 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
 
-import sys
 import types
 from importlib.util import find_spec
 
@@ -45,9 +44,4 @@ if not HAS_TRITON:
             super().__init__("triton.language")
             self.constexpr = None
             self.dtype = None
-
-    sys.modules['triton'] = TritonPlaceholder()
-    sys.modules['triton.language'] = TritonLanguagePlaceholder()
-
-if 'triton' in sys.modules:
-    logger.info("Triton module has been replaced with a placeholder.")
+            self.int64 = None
-- 
GitLab


From cc2a77d7f1dfa94fe07150ae3a637604d49aa32c Mon Sep 17 00:00:00 2001
From: Andrew Sansom <qthequartermasterman@gmail.com>
Date: Fri, 2 May 2025 03:06:39 -0500
Subject: [PATCH 119/461] [Core] [Bugfix] Add Input Embeddings (#15428)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Andrew Sansom <andrew@protopia.ai>
Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
Co-authored-by: 临景 <linjing.yx@alibaba-inc.com>
Co-authored-by: Bryce1010 <bryceyx@gmail.com>
Co-authored-by: Nan2018 <nan@protopia.ai>
Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>
Co-authored-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 tests/conftest.py                             |  18 ++-
 tests/core/test_scheduler.py                  |  74 ++++++++-
 tests/core/utils.py                           |  11 +-
 .../models/language/generation/test_common.py |  26 ++++
 tests/worker/test_model_runner.py             | 143 +++++++++++++-----
 vllm/attention/backends/flashinfer.py         |  14 +-
 vllm/core/scheduler.py                        |  32 ++++
 vllm/engine/async_llm_engine.py               |   8 +
 vllm/engine/llm_engine.py                     |  16 +-
 vllm/engine/output_processor/multi_step.py    |   6 +-
 vllm/engine/output_processor/single_step.py   |   3 +-
 vllm/inputs/__init__.py                       |   6 +-
 vllm/inputs/data.py                           |  36 ++++-
 vllm/inputs/parse.py                          |  56 ++++++-
 vllm/inputs/preprocess.py                     |  71 ++++++++-
 vllm/model_executor/layers/sampler.py         |   7 +-
 vllm/sequence.py                              |  91 ++++++++++-
 vllm/spec_decode/draft_model_runner.py        |  17 ++-
 vllm/spec_decode/multi_step_worker.py         |   3 +-
 vllm/worker/enc_dec_model_runner.py           |  17 ++-
 vllm/worker/model_runner.py                   | 134 +++++++++++++---
 vllm/worker/pooling_model_runner.py           |  15 +-
 22 files changed, 691 insertions(+), 113 deletions(-)

diff --git a/tests/conftest.py b/tests/conftest.py
index 14a88ca47..571cca8ee 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -787,7 +787,7 @@ class VllmRunner:
 
     def get_inputs(
         self,
-        prompts: list[str],
+        prompts: Union[list[str], list[torch.Tensor]],
         images: Optional[PromptImageInput] = None,
         videos: Optional[PromptVideoInput] = None,
         audios: Optional[PromptAudioInput] = None,
@@ -809,16 +809,18 @@ class VllmRunner:
             if audios is not None and (audio := audios[i]) is not None:
                 multi_modal_data["audio"] = audio
 
-            inputs.append(
-                TextPrompt(prompt=prompt,
-                           multi_modal_data=multi_modal_data
-                           if multi_modal_data else None))
+            text_prompt_kwargs = {
+                ("prompt" if isinstance(prompt, str) else "prompt_embeds"):
+                prompt,
+                "multi_modal_data": multi_modal_data or None
+            }
+            inputs.append(TextPrompt(**text_prompt_kwargs))
 
         return inputs
 
     def generate(
         self,
-        prompts: list[str],
+        prompts: Union[list[str], list[torch.Tensor]],
         sampling_params: SamplingParams,
         images: Optional[PromptImageInput] = None,
         videos: Optional[PromptVideoInput] = None,
@@ -844,7 +846,7 @@ class VllmRunner:
                 output_str = sample.text
                 output_ids = list(sample.token_ids)
                 req_sample_output_ids.append(prompt_ids + output_ids)
-                req_sample_output_strs.append(prompt_str + output_str)
+                req_sample_output_strs.append((prompt_str or "") + output_str)
             outputs.append((req_sample_output_ids, req_sample_output_strs))
         return outputs
 
@@ -911,7 +913,7 @@ class VllmRunner:
 
     def generate_greedy(
         self,
-        prompts: list[str],
+        prompts: Union[list[str], list[torch.Tensor]],
         max_tokens: int,
         images: Optional[PromptImageInput] = None,
         videos: Optional[PromptVideoInput] = None,
diff --git a/tests/core/test_scheduler.py b/tests/core/test_scheduler.py
index 8bd64923f..a5ba16898 100644
--- a/tests/core/test_scheduler.py
+++ b/tests/core/test_scheduler.py
@@ -2,16 +2,18 @@
 
 import time
 from collections import deque
+from typing import Optional
 from unittest.mock import MagicMock
 
 import pytest  # noqa
+import torch
 from torch import Use  # noqa
 
 from vllm.config import CacheConfig, LoRAConfig, SchedulerConfig
 from vllm.core.interfaces import AllocStatus
 from vllm.core.scheduler import Scheduler, SchedulingBudget
 from vllm.lora.request import LoRARequest
-from vllm.sequence import SequenceGroup
+from vllm.sequence import SequenceGroup, SequenceStatus
 
 from .utils import (append_new_token, append_new_token_seq,
                     append_new_token_seq_group, create_dummy_prompt,
@@ -968,3 +970,73 @@ def test_no_multiple_partial_prefills_with_chunked_prefill_and_prefix_caching(
     ), "A partial prefix of C (4 tokens) should be prefilled, with the "
     "remaining tokens fit into 3 token budget (4-1 from the seqA). It will "
     "then be rounded down to 2 tokens on block size, thus 6 tokens in total."
+
+
+def test_no_batches_mixed_with_prompt_tokens_and_prompt_embeds():
+    """
+    Test that the scheduler does not schedule batches with prompt tokens and 
+    prompt embeddings co-mingled.
+    """
+    block_size = 2
+    max_seq_group = 3
+    scheduler = initialize_scheduler(
+        block_size=block_size,
+        num_cpu_blocks=16,
+        num_gpu_blocks=16,
+        max_num_seqs=max_seq_group,
+        max_model_len=100,
+        enable_prefix_caching=True,
+    )
+
+    # the odd indexed inputs should be passed in via embeddings,
+    # evens via token_ids
+    seq_length = 7
+    embedding_size = 5
+    num_seqs = 11
+    seq_tokens: list[list[int]] = []
+    seq_embeds: list[Optional[torch.Tensor]] = []
+    for i in range(num_seqs):
+        if i % 2:
+            seq_tokens.append(list(range(seq_length)))
+            seq_embeds.append(None)
+        else:
+            seq_tokens.append([0] * seq_length)
+            seq_embeds.append(torch.rand(embedding_size))
+
+    seq_and_seq_groups = [
+        create_dummy_prompt(f"{i}",
+                            prompt_tokens=seq_tokens[i],
+                            prompt_embeds=seq_embeds[i],
+                            block_size=block_size)
+        for i in range(len(seq_tokens))
+    ]
+
+    for _, seq_group in seq_and_seq_groups:
+        scheduler.add_seq_group(seq_group)
+
+    while not all(seq.is_finished() for seq, _ in seq_and_seq_groups):
+        unfinished_seq_groups = [
+            seq_group for _, seq_group in seq_and_seq_groups
+            if not seq_group.is_finished()
+        ]
+        _, out = schedule_and_update_computed_tokens(scheduler)
+        assert len(out.scheduled_seq_groups) > 0
+        batch_is_prompt_embeds = out.scheduled_seq_groups[
+            0].seq_group.uses_prompt_embeds()
+        expected_scheduled_seq_groups = [
+            seq_group for seq_group in unfinished_seq_groups
+            if seq_group.uses_prompt_embeds() == batch_is_prompt_embeds
+        ]
+
+        # We should have as many scheduled groups as possible, without mixing
+        assert len(out.scheduled_seq_groups) == min(
+            max_seq_group, len(expected_scheduled_seq_groups))
+        assert all(scheduled_seq_group.seq_group.uses_prompt_embeds() ==
+                   batch_is_prompt_embeds
+                   for scheduled_seq_group in out.scheduled_seq_groups)
+
+        # Finish the scheduled groups
+        for scheduled_seq_group in out.scheduled_seq_groups:
+            for seq in scheduled_seq_group.seq_group.seqs:
+                seq.status = SequenceStatus.FINISHED_STOPPED
+        scheduler.free_finished_seq_groups()
diff --git a/tests/core/utils.py b/tests/core/utils.py
index ea18b879a..84b0426b4 100644
--- a/tests/core/utils.py
+++ b/tests/core/utils.py
@@ -5,9 +5,11 @@ from collections import defaultdict
 from collections.abc import Sequence as GenericSequence
 from typing import Any, Optional
 
+import torch
+
 from vllm import SamplingParams
 from vllm.core.scheduler import Scheduler, SchedulerOutputs
-from vllm.inputs import EncoderDecoderInputs, token_inputs
+from vllm.inputs import EncoderDecoderInputs, embeds_inputs, token_inputs
 from vllm.lora.request import LoRARequest
 from vllm.sequence import (Logprob, Sequence, SequenceGroup,
                            SequenceGroupMetadata)
@@ -19,6 +21,7 @@ def create_dummy_prompt(
     block_size: Optional[int] = None,
     lora_request: Optional[LoRARequest] = None,
     prompt_tokens: Optional[list[int]] = None,
+    prompt_embeds: Optional[torch.Tensor] = None,
     min_tokens: int = 0,
     max_tokens: int = 16,
 ) -> tuple[Sequence, SequenceGroup]:
@@ -31,9 +34,13 @@ def create_dummy_prompt(
         prompt_tokens = list(range(prompt_length))
 
     prompt_str = " ".join([str(t) for t in prompt_tokens])
+    inputs = token_inputs(
+        prompt_token_ids=prompt_tokens,
+        prompt=prompt_str) if prompt_embeds is None else embeds_inputs(
+            prompt_embeds=prompt_embeds)
     prompt = Sequence(
         int(request_id),
-        inputs=token_inputs(prompt_tokens, prompt=prompt_str),
+        inputs=inputs,
         block_size=block_size,
     )
     seq_group = SequenceGroup(
diff --git a/tests/models/language/generation/test_common.py b/tests/models/language/generation/test_common.py
index ab2898ffb..fcd3fa036 100644
--- a/tests/models/language/generation/test_common.py
+++ b/tests/models/language/generation/test_common.py
@@ -1,4 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
+import os
+from typing import Optional
+
 import pytest
 import torch
 
@@ -110,6 +113,18 @@ def test_models(hf_runner, vllm_runner, example_prompts, model: str,
         hf_outputs = hf_model.generate_greedy_logprobs_limit(
             example_prompts, max_tokens, num_logprobs)
 
+        prompt_embeds: Optional[list[torch.Tensor]] = [] if os.getenv(
+            "VLLM_USE_V1") == "0" else None
+        prompt_token_ids = []
+        for prompt in example_prompts:
+            token_ids = hf_model.tokenizer(prompt,
+                                           return_tensors="pt").input_ids.to(
+                                               hf_model.model.device)
+            prompt_token_ids.append(token_ids)
+            if prompt_embeds is not None:
+                prompt_embeds.append(hf_model.model.get_input_embeddings()(
+                    token_ids).squeeze(0))
+
     with vllm_runner(
             model,
             tokenizer_name=model_info.tokenizer or model,
@@ -119,6 +134,9 @@ def test_models(hf_runner, vllm_runner, example_prompts, model: str,
     ) as vllm_model:
         vllm_outputs = vllm_model.generate_greedy_logprobs(
             example_prompts, max_tokens, num_logprobs)
+        if prompt_embeds is not None:
+            vllm_outputs_from_embeds = vllm_model.generate_greedy_logprobs(
+                prompt_embeds, max_tokens, num_logprobs)
 
     check_logprobs_close(
         outputs_0_lst=hf_outputs,
@@ -126,6 +144,14 @@ def test_models(hf_runner, vllm_runner, example_prompts, model: str,
         name_0="hf",
         name_1="vllm",
     )
+    if prompt_embeds is not None:
+        check_logprobs_close(
+            outputs_0_lst=vllm_outputs,
+            outputs_1_lst=vllm_outputs_from_embeds,
+            name_0="vllm",
+            name_1="vllm_from_embeds",
+        )
+
     if use_rocm_aiter:
         # this is to ensure that vllm engine
         # has deallocated the memory before running the next
diff --git a/tests/worker/test_model_runner.py b/tests/worker/test_model_runner.py
index b8ba69b0d..a1bdea687 100644
--- a/tests/worker/test_model_runner.py
+++ b/tests/worker/test_model_runner.py
@@ -31,8 +31,13 @@ def test_deepseek_mla_attn_backend_module():
     assert model_runner.attn_backend.__name__ == "TritonMLABackend"
 
 
-@pytest.mark.parametrize("batch_size", list(range(1, 257)))
-def test_prepare_prompt(batch_size):
+@pytest.mark.parametrize("batch_size", list(range(1, 257, 3)))
+@pytest.mark.parametrize("use_prompt_embeds", [True, False])
+def test_prepare_prompt(batch_size, use_prompt_embeds, monkeypatch):
+    if use_prompt_embeds:
+        # Prompt Embeddings is only currently supported on V0
+        monkeypatch.setenv("VLLM_USE_V1", "0")
+
     model_runner = _create_model_runner(
         "facebook/opt-125m",
         max_num_batched_tokens=100000,
@@ -43,11 +48,20 @@ def test_prepare_prompt(batch_size):
     seq_lens: list[int] = []
     seq_group_metadata_list: list[SequenceGroupMetadata] = []
     block_tables = {0: [1]}
+    expected_input_embeds_len = 0
     for i in range(batch_size):
         # make sure all tokens fit into one block
         seq_len = i % (model_runner.block_size - 1) + 1
         seq_lens.append(seq_len)
-        seq_data = SequenceData.from_seqs(range(seq_len))
+        if use_prompt_embeds:
+            seq_data = SequenceData.from_seqs(
+                prompt_token_ids=[0] * seq_len,
+                prompt_embeds=torch.rand(seq_len, 10),
+            )
+            expected_input_embeds_len += seq_len
+        else:
+            seq_data = SequenceData.from_seqs(prompt_token_ids=range(seq_len))
+
         seq_group_metadata = SequenceGroupMetadata(
             request_id=f"test_{i}",
             is_prompt=True,
@@ -68,6 +82,7 @@ def test_prepare_prompt(batch_size):
         seq_group_metadata_list)
     input_tokens = model_input.input_tokens
     input_positions = model_input.input_positions
+    input_embeds = model_input.inputs_embeds
     attn_metadata = model_input.attn_metadata
     return_seq_lens = model_input.seq_lens
     slot_mapping = attn_metadata.slot_mapping
@@ -121,7 +136,11 @@ def test_prepare_prompt(batch_size):
 
     assert len(input_tokens) == sum(seq_lens)
     assert len(input_positions) == sum(seq_lens)
-    torch.testing.assert_close(input_tokens, input_positions)
+    if expected_input_embeds_len == 0:
+        torch.testing.assert_close(input_tokens, input_positions)
+        assert input_embeds is None
+    else:
+        assert len(input_embeds) == expected_input_embeds_len
 
     sampling_metadata = SamplingMetadata.prepare(
         seq_group_metadata_list,
@@ -145,8 +164,13 @@ def test_prepare_prompt(batch_size):
     torch.testing.assert_close(actual, expected)
 
 
-@pytest.mark.parametrize("batch_size", list(range(1, 257)))
-def test_prepare_decode_cuda_graph(batch_size):
+@pytest.mark.parametrize("batch_size", list(range(1, 257, 3)))
+@pytest.mark.parametrize("use_prompt_embeds", [True, False])
+def test_prepare_decode_cuda_graph(batch_size, use_prompt_embeds, monkeypatch):
+    if use_prompt_embeds:
+        # Prompt Embeddings is only currently supported on V0
+        monkeypatch.setenv("VLLM_USE_V1", "0")
+
     model_runner = _create_model_runner(
         "facebook/opt-125m",
         seed=0,
@@ -164,10 +188,19 @@ def test_prepare_decode_cuda_graph(batch_size):
         # make sure all tokens fit into one block
         context_len = i % (model_runner.block_size - 1) + 1
         context_lens.append(context_len)
-        seq_data = SequenceData.from_seqs(range(context_len))
+        if use_prompt_embeds:
+            seq_data = SequenceData.from_seqs(
+                prompt_token_ids=[0] * context_len,
+                prompt_embeds=torch.rand(context_len, 10),
+            )
+            output_embed = torch.rand(10)
+        else:
+            seq_data = SequenceData.from_seqs(
+                prompt_token_ids=range(context_len))
+            output_embed = None
         seq_data.update_num_computed_tokens(context_len)
         # Append one token ID since prefill is finished.
-        seq_data.append_token_id(1, 0)
+        seq_data.append_token_id(1, 0, output_embed)
         seq_group_metadata = SequenceGroupMetadata(
             request_id=f"test_{i}",
             is_prompt=False,
@@ -180,9 +213,12 @@ def test_prepare_decode_cuda_graph(batch_size):
 
     model_input = model_runner._prepare_model_input_tensors(
         seq_group_metadata_list)
-    input_tokens, input_positions, attn_metadata, slot_mapping = (
-        model_input.input_tokens, model_input.input_positions,
-        model_input.attn_metadata, model_input.attn_metadata.slot_mapping)
+    input_tokens = model_input.input_tokens
+    input_positions = model_input.input_positions
+    input_embeds = model_input.inputs_embeds
+    attn_metadata = model_input.attn_metadata
+    slot_mapping = attn_metadata.slot_mapping
+
     assert len(slot_mapping) == len(input_tokens)
 
     expected_bs = model_runner.vllm_config.pad_for_cudagraph(
@@ -227,7 +263,7 @@ def test_prepare_decode_cuda_graph(batch_size):
     # block table's first index corresponds to each batch, meaning in
     # decoding it is each token.
     assert attn_metadata.block_tables.shape[0] == len(input_tokens)
-    # Block table's second dim correspondsd to each token's block number.
+    # Block table's second dim corresponds to each token's block number.
     # It is padded up to
     assert attn_metadata.block_tables.shape[1] == (
         model_runner.get_max_block_per_batch())
@@ -235,7 +271,12 @@ def test_prepare_decode_cuda_graph(batch_size):
 
     assert len(input_tokens) == expected_bs
     assert len(input_positions) == expected_bs
-    torch.allclose(input_tokens, input_positions)
+    if use_prompt_embeds:
+        expected_input_embeds_length = start_loc[-1]
+        assert len(input_embeds) == expected_input_embeds_length
+        assert expected_input_embeds_length <= expected_bs
+    else:
+        assert input_embeds is None
 
     # Verify Sampling
     expected_selected_token_indices = []
@@ -266,25 +307,27 @@ def test_empty_seq_group():
     seq_group_metadata_list: list[SequenceGroupMetadata] = []
     model_input = model_runner._prepare_model_input_tensors(
         seq_group_metadata_list)
-    input_tokens, input_positions, attn_metadata = (
-        model_input.input_tokens,
-        model_input.input_positions,
-        model_input.attn_metadata,
-    )
+
+    input_tokens = model_input.input_tokens
+    input_positions = model_input.input_positions
+    attn_metadata = model_input.attn_metadata
+
     assert input_tokens is None
     assert input_positions is None
     assert attn_metadata is None
 
     model_input = model_runner._prepare_model_input_tensors(
         seq_group_metadata_list)
-    (input_tokens, input_positions, attn_metadata, return_seq_lens) = (
-        model_input.input_tokens,
-        model_input.input_positions,
-        model_input.attn_metadata,
-        model_input.seq_lens,
-    )
+
+    input_tokens = model_input.input_tokens
+    input_positions = model_input.input_positions
+    input_embeds = model_input.inputs_embeds
+    attn_metadata = model_input.attn_metadata
+    return_seq_lens = model_input.seq_lens
+
     assert input_tokens is None
     assert input_positions is None
+    assert input_embeds is None
     assert attn_metadata is None
     assert return_seq_lens is None
 
@@ -299,9 +342,15 @@ def distributed_init():
     ensure_model_parallel_initialized(1, 1)
 
 
-@pytest.mark.parametrize("batch_size", list(range(2, 128)))
+@pytest.mark.parametrize("batch_size", list(range(2, 128, 3)))
 @pytest.mark.parametrize("enforce_eager", [True, False])
-def test_hybrid_batches(batch_size, enforce_eager, distributed_init):
+@pytest.mark.parametrize('use_prompt_embeds', [True, False])
+def test_hybrid_batches(batch_size, enforce_eager, use_prompt_embeds,
+                        distributed_init, monkeypatch):
+    if use_prompt_embeds:
+        # Prompt Embeddings is only currently supported on V0
+        monkeypatch.setenv("VLLM_USE_V1", "0")
+
     model_runner = _create_model_runner(
         "facebook/opt-125m",
         seed=0,
@@ -320,11 +369,20 @@ def test_hybrid_batches(batch_size, enforce_eager, distributed_init):
     block_tables = {0: [1]}
     prefill_batch_size = batch_size // 2
     decode_batch_size = batch_size - prefill_batch_size
+    expected_input_embeds_len = 0
     for i in range(prefill_batch_size):
         # make sure all tokens fit into one block
         seq_len = i % (model_runner.block_size - 1) + 1
         seq_lens.append(seq_len)
-        seq_data = SequenceData.from_seqs(range(seq_len))
+        if use_prompt_embeds:
+            seq_data = SequenceData.from_seqs(
+                prompt_token_ids=[0] * seq_len,
+                prompt_embeds=torch.rand(seq_len, 10),
+            )
+            expected_input_embeds_len += seq_len
+        else:
+            seq_data = SequenceData.from_seqs(
+                prompt_token_ids=range(seq_len), )
         seq_group_metadata = SequenceGroupMetadata(
             request_id=f"test_{i}",
             is_prompt=True,
@@ -340,8 +398,21 @@ def test_hybrid_batches(batch_size, enforce_eager, distributed_init):
     for i in range(prefill_batch_size, batch_size):
         # make sure all tokens fit into one block
         context_len = i % (model_runner.block_size - 1) + 1
-        seq_data = SequenceData.from_seqs(range(context_len))
-        seq_data.append_token_id(1, 0)
+        if use_prompt_embeds:
+            seq_data = SequenceData.from_seqs(
+                prompt_token_ids=[0] * context_len,
+                prompt_embeds=torch.rand(context_len, 10),
+            )
+            output_embed = torch.rand(10)
+            # This also iterates the expected input_embeds, because the model
+            # needs both the input and output embeddings passed into together
+            expected_input_embeds_len += 1
+        else:
+            seq_data = SequenceData.from_seqs(
+                prompt_token_ids=range(context_len), )
+            output_embed = None
+        assert len(seq_data.prompt_token_ids) == context_len
+        seq_data.append_token_id(1, 0, output_embed)
         seq_data.update_num_computed_tokens(context_len)
         seq_group_metadata = SequenceGroupMetadata(
             request_id=f"test_{i}",
@@ -355,11 +426,11 @@ def test_hybrid_batches(batch_size, enforce_eager, distributed_init):
         decode_metadata_list.append(seq_group_metadata)
 
     model_input = model_runner.prepare_model_input(seq_group_metadata_list)
-    (input_tokens, input_positions, attn_metadata) = (
-        model_input.input_tokens,
-        model_input.input_positions,
-        model_input.attn_metadata,
-    )
+
+    input_tokens = model_input.input_tokens
+    input_positions = model_input.input_positions
+    input_embeds = model_input.inputs_embeds
+    attn_metadata = model_input.attn_metadata
 
     prefill_meta_actual = attn_metadata.prefill_metadata
     decode_meta_actual = attn_metadata.decode_metadata
@@ -369,6 +440,10 @@ def test_hybrid_batches(batch_size, enforce_eager, distributed_init):
     assert attn_metadata.num_prefills == prefill_batch_size
     assert attn_metadata.num_decode_tokens == decode_batch_size
     assert attn_metadata.num_prefill_tokens == sum(seq_lens)
+    if expected_input_embeds_len == 0:
+        assert input_embeds is None
+    else:
+        assert len(input_embeds) == expected_input_embeds_len
 
     # Verify attn metadata is consistent. We don't need to test individual
     # values here because they are tested above.
diff --git a/vllm/attention/backends/flashinfer.py b/vllm/attention/backends/flashinfer.py
index d92177d58..37b20d073 100644
--- a/vllm/attention/backends/flashinfer.py
+++ b/vllm/attention/backends/flashinfer.py
@@ -367,9 +367,17 @@ class FlashInferState(AttentionState):
         # scheduled while CUDA graph mode is enabled. We don't run graph in that
         # case.
         if use_cuda_graph and is_decode:
-            batch_size = model_input.input_tokens.shape[0]
-            state = (self.runner.graph_runners[model_input.virtual_engine]
-                     [batch_size].attn_state)
+            if model_input.inputs_embeds is None:
+                batch_size = model_input.input_tokens.shape[0]
+                state = (
+                    self.runner.graph_runners[model_input.virtual_engine][(
+                        batch_size, False)].attn_state)
+            else:
+                batch_size = model_input.inputs_embeds.shape[0]
+                state = (
+                    self.runner.graph_runners[model_input.virtual_engine][(
+                        batch_size, True)].attn_state)
+
         model_input.attn_metadata.prefill_wrapper = state._get_prefill_wrapper(
         )
         model_input.attn_metadata.decode_wrapper = state._get_decode_wrapper()
diff --git a/vllm/core/scheduler.py b/vllm/core/scheduler.py
index 97d03d5e3..06d4ed470 100644
--- a/vllm/core/scheduler.py
+++ b/vllm/core/scheduler.py
@@ -1071,6 +1071,7 @@ class Scheduler:
             )
         ignored_seq_groups: List[SequenceGroup] = []
         seq_groups: List[ScheduledSequenceGroup] = []
+        using_prompt_embeds: bool = False
 
         waiting_queue = self.waiting
 
@@ -1138,6 +1139,15 @@ class Scheduler:
                 waiting_queue.popleft()
                 continue
 
+            # We cannot mix sequence groups that use prompt embeds and
+            # those that do not.
+            if len(seq_groups) == 0:
+                using_prompt_embeds = seq_group.uses_prompt_embeds()
+            if using_prompt_embeds != seq_group.uses_prompt_embeds():
+                leftover_waiting_sequences.appendleft(seq_group)
+                waiting_queue.popleft()
+                continue
+
             lora_int_id = 0
             if self.lora_enabled:
                 lora_int_id = seq_group.lora_int_id
@@ -1295,17 +1305,39 @@ class Scheduler:
 
         # Merge lists
         num_prefill_groups = len(prefills.seq_groups)
+        ignored_seq_groups_for_embeds = list[SequenceGroup]()
         if num_prefill_groups > 0:
             scheduled_seq_groups = prefills.seq_groups
             scheduled_seq_groups.extend(running_scheduled.decode_seq_groups)
+            ignored_seq_groups_for_embeds.clear()
         else:
             scheduled_seq_groups = running_scheduled.decode_seq_groups
+            if len(scheduled_seq_groups) > 0:
+                using_prompt_embeds = scheduled_seq_groups[
+                    0].seq_group.uses_prompt_embeds()
+                ignored_seq_groups_for_embeds.clear()
+                indices_ignored = list[int]()
+                for i, schedule_seq_group in enumerate(scheduled_seq_groups):
+                    if using_prompt_embeds !=\
+                        schedule_seq_group.seq_group.uses_prompt_embeds():
+                        ignored_seq_groups_for_embeds.append(
+                            schedule_seq_group.seq_group)
+                        indices_ignored.append(i)
+                if len(ignored_seq_groups_for_embeds) > 0:
+                    scheduled_seq_groups = [
+                        group for i, group in enumerate(scheduled_seq_groups)
+                        if i not in indices_ignored
+                    ]
+            else:
+                ignored_seq_groups_for_embeds.clear()
+
         scheduled_seq_groups.extend(swapped_in.decode_seq_groups)
 
         blocks_to_copy = running_scheduled.blocks_to_copy
         blocks_to_copy.extend(swapped_in.blocks_to_copy)
 
         ignored_seq_groups = prefills.ignored_seq_groups
+        ignored_seq_groups.extend(ignored_seq_groups_for_embeds)
         ignored_seq_groups.extend(swapped_in.infeasible_seq_groups)
 
         return SchedulerOutputs(
diff --git a/vllm/engine/async_llm_engine.py b/vllm/engine/async_llm_engine.py
index 6cc9b8814..cb0902c3a 100644
--- a/vllm/engine/async_llm_engine.py
+++ b/vllm/engine/async_llm_engine.py
@@ -489,6 +489,14 @@ class _AsyncLLMEngine(LLMEngine):
         if arrival_time is None:
             arrival_time = time.time()
 
+        if (isinstance(prompt, dict)
+                and prompt.get("prompt_embeds", None) is not None
+                and not prompt.get("prompt_token_ids", None)):
+            # We use the -2 dimension (instead of 0) in case a batched input
+            # of batch size 1 is passed in.
+            prompt["prompt_token_ids"] = [0
+                                          ] * prompt["prompt_embeds"].shape[-2]
+
         if self.tokenizer is not None:
             tokenizer = await self.get_tokenizer_async(lora_request)
             self._validate_token_prompt(prompt, tokenizer=tokenizer)
diff --git a/vllm/engine/llm_engine.py b/vllm/engine/llm_engine.py
index 0930bae02..142c8fe99 100644
--- a/vllm/engine/llm_engine.py
+++ b/vllm/engine/llm_engine.py
@@ -753,6 +753,12 @@ class LLMEngine:
         if arrival_time is None:
             arrival_time = time.time()
 
+        if (isinstance(prompt, dict)
+                and prompt.get("prompt_embeds", None) is not None
+                and not prompt.get("prompt_token_ids", None)):
+            seq_len = prompt["prompt_embeds"].shape[0]
+            prompt["prompt_token_ids"] = [0] * seq_len
+
         if self.tokenizer is not None:
             self._validate_token_prompt(
                 prompt,
@@ -1267,11 +1273,13 @@ class LLMEngine:
                 if self.scheduler_config.is_multi_step:
                     is_prefill_append = seq.data.get_num_uncomputed_tokens(
                     ) == 0
-                    seq.append_token_id(sample.output_token, sample.logprobs)
+                    seq.append_token_id(sample.output_token, sample.logprobs,
+                                        sample.output_embed)
                     if not is_prefill_append:
                         seq_group.update_num_computed_tokens(1)
                 else:
-                    seq.append_token_id(sample.output_token, sample.logprobs)
+                    seq.append_token_id(sample.output_token, sample.logprobs,
+                                        sample.output_embed)
 
     def step(self) -> List[Union[RequestOutput, PoolingRequestOutput]]:
         """Performs one decoding iteration and returns newly generated results.
@@ -2032,10 +2040,12 @@ class LLMEngine:
         tokenizer = (None if self.tokenizer is None else
                      self.tokenizer.get_lora_tokenizer(lora_request))
 
-        prompt_ids = prompt_inputs["prompt_token_ids"]
+        prompt_ids = prompt_inputs.get("prompt_token_ids", [])
         if not prompt_ids:
             if prompt_type == "encoder" and model_config.is_multimodal_model:
                 pass  # Mllama may have empty encoder inputs for text-only data
+            if prompt_inputs["type"] == "embeds":
+                pass
             else:
                 raise ValueError(f"The {prompt_type} prompt cannot be empty")
 
diff --git a/vllm/engine/output_processor/multi_step.py b/vllm/engine/output_processor/multi_step.py
index 126e7da70..0f4c7517e 100644
--- a/vllm/engine/output_processor/multi_step.py
+++ b/vllm/engine/output_processor/multi_step.py
@@ -167,6 +167,7 @@ class MultiStepOutputProcessor(SequenceGroupOutputProcessor):
                              sampling_params: SamplingParams) -> None:
         output_token_ids = [sample.output_token for sample in valid_samples]
         output_logprobs = [sample.logprobs for sample in valid_samples]
+        output_embeds = [sample.output_embed for sample in valid_samples]
 
         # Truncate to max_tokens if necessary.
         remaining_tokens = sampling_params.max_tokens - (seq.get_output_len() +
@@ -190,11 +191,12 @@ class MultiStepOutputProcessor(SequenceGroupOutputProcessor):
         is_prefill_sampled_token = seq.data.get_num_uncomputed_tokens() == 0
         # Incrementally append tokens to the sequence, as if we had only one new
         # token.
-        for output_token_id, output_logprob in zip(output_token_ids,
-                                                   output_logprobs):
+        for output_token_id, output_logprob, output_embed in zip(
+                output_token_ids, output_logprobs, output_embeds):
             seq.append_token_id(
                 token_id=output_token_id,
                 logprobs=output_logprob,
+                token_embed=output_embed,
             )
 
             if is_prefill_sampled_token:
diff --git a/vllm/engine/output_processor/single_step.py b/vllm/engine/output_processor/single_step.py
index 4d96791a1..b5b51bb25 100644
--- a/vllm/engine/output_processor/single_step.py
+++ b/vllm/engine/output_processor/single_step.py
@@ -119,7 +119,8 @@ class SingleStepOutputProcessor(SequenceGroupOutputProcessor):
         sample = outputs.samples[0]
         seq = seq_group.first_seq
         if not is_async:
-            seq.append_token_id(sample.output_token, sample.logprobs)
+            seq.append_token_id(sample.output_token, sample.logprobs,
+                                sample.output_embed)
         if sampling_params.detokenize and self.detokenizer:
             new_char_count = self.detokenizer.decode_sequence_inplace(
                 seq, sampling_params)
diff --git a/vllm/inputs/__init__.py b/vllm/inputs/__init__.py
index ca706e202..9914a9dcf 100644
--- a/vllm/inputs/__init__.py
+++ b/vllm/inputs/__init__.py
@@ -1,9 +1,9 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from .data import (DecoderOnlyInputs, EncoderDecoderInputs,
+from .data import (DecoderOnlyInputs, EmbedsInputs, EncoderDecoderInputs,
                    ExplicitEncoderDecoderPrompt, ProcessorInputs, PromptType,
                    SingletonInputs, SingletonPrompt, TextPrompt, TokenInputs,
-                   TokensPrompt, build_explicit_enc_dec_prompt,
+                   TokensPrompt, build_explicit_enc_dec_prompt, embeds_inputs,
                    to_enc_dec_tuple_list, token_inputs, zip_enc_dec_prompts)
 from .registry import (DummyData, InputContext, InputProcessingContext,
                        InputRegistry)
@@ -21,7 +21,9 @@ __all__ = [
     "SingletonPrompt",
     "ExplicitEncoderDecoderPrompt",
     "TokenInputs",
+    "EmbedsInputs",
     "token_inputs",
+    "embeds_inputs",
     "DecoderOnlyInputs",
     "EncoderDecoderInputs",
     "ProcessorInputs",
diff --git a/vllm/inputs/data.py b/vllm/inputs/data.py
index 167189ed1..6a56d044c 100644
--- a/vllm/inputs/data.py
+++ b/vllm/inputs/data.py
@@ -2,6 +2,7 @@
 from collections.abc import Iterable
 from typing import TYPE_CHECKING, Any, Generic, Literal, Optional, Union, cast
 
+import torch
 from typing_extensions import NotRequired, TypedDict, TypeVar
 
 if TYPE_CHECKING:
@@ -63,12 +64,20 @@ class TokensPrompt(TypedDict):
     """
 
 
-SingletonPrompt = Union[str, TextPrompt, TokensPrompt]
+class EmbedsPrompt(TypedDict):
+    """Schema for a prompt provided via token embeddings."""
+
+    prompt_embeds: torch.Tensor
+    """The embeddings of the prompt."""
+
+
+SingletonPrompt = Union[str, TextPrompt, TokensPrompt, EmbedsPrompt]
 """
 Set of possible schemas for a single prompt:
 
 - A text prompt (:class:`str` or :class:`TextPrompt`)
 - A tokenized prompt (:class:`TokensPrompt`)
+- An embeddings prompt (:class:`EmbedsPrompt`)
 
 Note that "singleton" is as opposed to a data structure
 which encapsulates multiple prompts, i.e. of the sort
@@ -129,6 +138,7 @@ both decoder-only and encoder/decoder input types:
 
 - A text prompt (:class:`str` or :class:`TextPrompt`)
 - A tokenized prompt (:class:`TokensPrompt`)
+- An embeddings prompt (:class:`EmbedsPrompt`)
 - A single data structure containing both an encoder and a decoder prompt
   (:class:`ExplicitEncoderDecoderPrompt`)
 """
@@ -176,7 +186,27 @@ def token_inputs(
     return inputs
 
 
-DecoderOnlyInputs = Union[TokenInputs, "MultiModalInputs"]
+class EmbedsInputs(TypedDict):
+    """Represents embeddings-based inputs."""
+
+    type: Literal["embeds"]
+    """The type of inputs."""
+
+    prompt_embeds: torch.Tensor
+    """The embeddings of the prompt."""
+
+
+def embeds_inputs(prompt_embeds: torch.Tensor) -> EmbedsInputs:
+    """Construct :class:`EmbedsInputs` from optional values."""
+    inputs = EmbedsInputs(
+        type="embeds",
+        prompt_embeds=prompt_embeds,
+    )
+
+    return inputs
+
+
+DecoderOnlyInputs = Union[TokenInputs, EmbedsInputs, "MultiModalInputs"]
 """
 The inputs in :class:`~vllm.LLMEngine` before they are
 passed to the model executor.
@@ -198,7 +228,7 @@ class EncoderDecoderInputs(TypedDict):
     """The inputs for the decoder portion."""
 
 
-SingletonInputs = Union[TokenInputs, "MultiModalInputs"]
+SingletonInputs = Union[TokenInputs, EmbedsInputs, "MultiModalInputs"]
 """
 A processed :class:`SingletonPrompt` which can be passed to
 :class:`vllm.sequence.Sequence`.
diff --git a/vllm/inputs/parse.py b/vllm/inputs/parse.py
index 28e207de1..397344e40 100644
--- a/vllm/inputs/parse.py
+++ b/vllm/inputs/parse.py
@@ -6,8 +6,9 @@ from typing_extensions import TypeIs
 
 from vllm.utils import is_list_of
 
-from .data import (ExplicitEncoderDecoderPrompt, ProcessorInputs, PromptType,
-                   SingletonInputs, SingletonPrompt, TextPrompt, TokensPrompt)
+from .data import (EmbedsInputs, EmbedsPrompt, ExplicitEncoderDecoderPrompt,
+                   ProcessorInputs, PromptType, SingletonInputs,
+                   SingletonPrompt, TextPrompt, TokensPrompt)
 
 
 class ParsedText(TypedDict):
@@ -84,30 +85,69 @@ class ParsedTokensPrompt(TypedDict):
     content: TokensPrompt
 
 
+class ParsedEmbedsPrompt(TypedDict):
+    type: Literal['embeds']
+    content: EmbedsPrompt
+
+
+@overload
+def parse_singleton_prompt(prompt: str) -> ParsedStrPrompt:
+    ...
+
+
+@overload
+def parse_singleton_prompt(prompt: TextPrompt) -> ParsedTextPrompt:
+    ...
+
+
+@overload
+def parse_singleton_prompt(prompt: TokensPrompt) -> ParsedTokensPrompt:
+    ...
+
+
+@overload
+def parse_singleton_prompt(prompt: EmbedsPrompt) -> ParsedEmbedsPrompt:
+    ...
+
+
 def parse_singleton_prompt(
     prompt: SingletonPrompt,
-) -> Union[ParsedStrPrompt, ParsedTextPrompt, ParsedTokensPrompt]:
+) -> Union[ParsedStrPrompt, ParsedTextPrompt, ParsedTokensPrompt,
+           ParsedEmbedsPrompt]:
     if isinstance(prompt, str):
         return ParsedStrPrompt(type="str", content=prompt)
     elif isinstance(prompt, dict):
-        if "prompt_token_ids" in prompt:
-            return ParsedTokensPrompt(type="tokens",
-                                      content=prompt)  # type: ignore
+        # Type ignores are because mypy does not correctly infer the TypedDicts
+        # Pyright does succeed.
+        if "prompt_embeds" in prompt:
+            return ParsedEmbedsPrompt(
+                type="embeds", content=prompt)  # type: ignore[typeddict-item]
+        elif "prompt_token_ids" in prompt:
+            return ParsedTokensPrompt(
+                type="tokens", content=prompt)  # type: ignore[typeddict-item]
         elif "prompt" in prompt:
             return ParsedTextPrompt(type="text", content=prompt)
-
-    raise TypeError("inputs must be a string, TextPrompt, or TokensPrompt")
+    raise TypeError(
+        "inputs must be a string, TextPrompt, TokensPrompt, or EmbedsPrompt")
 
 
 def is_token_prompt(prompt: PromptType) -> TypeIs[TokensPrompt]:
     return isinstance(prompt, dict) and "prompt_token_ids" in prompt
 
 
+def is_embeds_prompt(prompt: PromptType) -> TypeIs[EmbedsPrompt]:
+    return isinstance(prompt, dict) and "prompt_embeds" in prompt
+
+
 def is_explicit_encoder_decoder_prompt(
         prompt: PromptType) -> TypeIs[ExplicitEncoderDecoderPrompt]:
     return isinstance(prompt, dict) and "encoder_prompt" in prompt
 
 
+def is_embeds_inputs(inputs: SingletonInputs) -> TypeIs[EmbedsInputs]:
+    return isinstance(inputs, dict) and inputs["type"] == "embeds"
+
+
 def split_enc_dec_inputs(
     inputs: ProcessorInputs,
 ) -> tuple[Optional[SingletonInputs], SingletonInputs]:
diff --git a/vllm/inputs/preprocess.py b/vllm/inputs/preprocess.py
index 83e6907f8..5a9e3643d 100644
--- a/vllm/inputs/preprocess.py
+++ b/vllm/inputs/preprocess.py
@@ -6,6 +6,7 @@ from typing import Any, Optional, Union, cast
 
 from typing_extensions import assert_never
 
+from vllm import envs
 from vllm.config import ModelConfig
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
@@ -15,9 +16,11 @@ from vllm.multimodal.inputs import (MultiModalDataDict, MultiModalEncDecInputs,
 from vllm.prompt_adapter.request import PromptAdapterRequest
 from vllm.transformers_utils.tokenizer_group import TokenizerGroup
 
-from .data import (DecoderOnlyInputs, EncoderDecoderInputs, ProcessorInputs,
-                   PromptType, SingletonInputs, SingletonPrompt, token_inputs)
-from .parse import (ParsedStrPrompt, ParsedTextPrompt, ParsedTokensPrompt,
+from .data import (DecoderOnlyInputs, EmbedsInputs, EncoderDecoderInputs,
+                   ProcessorInputs, PromptType, SingletonInputs,
+                   SingletonPrompt, TokenInputs, embeds_inputs, token_inputs)
+from .parse import (ParsedEmbedsPrompt, ParsedStrPrompt, ParsedTextPrompt,
+                    ParsedTokensPrompt, is_embeds_inputs,
                     is_explicit_encoder_decoder_prompt, parse_singleton_prompt)
 
 logger = init_logger(__name__)
@@ -328,6 +331,10 @@ class InputPreprocessor:
         * :class:`SingletonInputs` instance
         """
         parsed = parse_singleton_prompt(prompt)
+
+        if parsed["type"] == "embeds":
+            return self._process_prompt_embeds(parsed)
+
         prompt_text, prompt_token_ids, token_type_ids, cache_salt = \
             self._get_prompt_data(parsed)
 
@@ -359,6 +366,8 @@ class InputPreprocessor:
             cache_salt=cache_salt,
         )
 
+        assert_never(parsed)
+
     async def _prompt_to_llm_inputs_async(
         self,
         prompt: SingletonPrompt,
@@ -369,6 +378,9 @@ class InputPreprocessor:
         """Async version of :meth:`_extract_prompt_components`."""
         parsed = parse_singleton_prompt(prompt)
 
+        if parsed["type"] == "embeds":
+            return self._process_prompt_embeds(parsed)
+
         prompt_text, prompt_token_ids, token_type_ids, cache_salt = \
             self._get_prompt_data(parsed)
 
@@ -399,10 +411,34 @@ class InputPreprocessor:
             cache_salt=cache_salt,
         )
 
+    def _process_prompt_embeds(self,
+                               parsed: ParsedEmbedsPrompt) -> EmbedsInputs:
+        if envs.VLLM_USE_V1:
+            raise ValueError("prompt_embeds is only available in V0.")
+
+        prompt_embeds_content = parsed["content"]
+
+        prompt_embeds = prompt_embeds_content["prompt_embeds"]
+
+        # prompt_embeds must be (seq_len, hidden_size), but if the user
+        # passes in a batch of size 1, i.e. (1, seq_len, hidden_size),
+        # we can unambiguously process the intent by squeezing the batch
+        # dimension.
+        if prompt_embeds.ndim == 3 and prompt_embeds.shape[0] == 1:
+            prompt_embeds = prompt_embeds.squeeze(dim=0)
+
+        if prompt_embeds.ndim != 2:
+            raise ValueError(
+                "prompt_embeds must be of shape (seq_len, hidden_size).")
+
+        return embeds_inputs(prompt_embeds=prompt_embeds)
+
+        assert_never(parsed)
+
     def _build_enc_dec_llm_inputs(
         self,
-        encoder_inputs: SingletonInputs,
-        decoder_inputs: Optional[SingletonInputs],
+        encoder_inputs: Union[TokenInputs, MultiModalInputs],
+        decoder_inputs: Optional[Union[TokenInputs, MultiModalInputs]],
     ) -> EncoderDecoderInputs:
         if (encoder_inputs["type"] == "token"
                 or encoder_inputs["type"] == "multimodal"):
@@ -410,6 +446,9 @@ class InputPreprocessor:
         else:
             assert_never(encoder_inputs)  # type: ignore[arg-type]
 
+        # Mypy does not correctly infer that EmbedsInputs is impossible
+        assert "prompt_token_ids" in encoder_inputs
+
         if decoder_inputs is None:
             if self.model_config.hf_config.model_type == "whisper":
                 # For Whisper models, the text prompt should go to the decoder.
@@ -441,7 +480,8 @@ class InputPreprocessor:
     def _separate_enc_dec_inputs_from_mm_processor_outputs(
         self,
         inputs: SingletonInputs,
-        decoder_inputs_to_override: Optional[SingletonInputs] = None,
+        decoder_inputs_to_override: Optional[Union[TokenInputs,
+                                                   MultiModalInputs]] = None,
     ) -> tuple[SingletonInputs, SingletonInputs]:
         """
         For encoder/decoder models only:
@@ -540,6 +580,8 @@ class InputPreprocessor:
             # For multimodal model, override decoder prompt from processor
             # with explicit decoder prompt.
             if self.model_config.is_multimodal_model:
+                assert decoder_inputs is None or not is_embeds_inputs(
+                    decoder_inputs)
                 encoder_inputs, decoder_inputs = (
                     self._separate_enc_dec_inputs_from_mm_processor_outputs(
                         encoder_inputs, decoder_inputs))
@@ -555,9 +597,12 @@ class InputPreprocessor:
                         inputs))
             else:
                 encoder_inputs = inputs
-
                 decoder_inputs = None
 
+        # Mypy does not do type inference well with TypedDicts with Literal
+        # values.
+        assert not is_embeds_inputs(encoder_inputs)
+        assert decoder_inputs is None or not is_embeds_inputs(decoder_inputs)
         return self._build_enc_dec_llm_inputs(encoder_inputs, decoder_inputs)
 
     async def _process_encoder_decoder_prompt_async(
@@ -590,6 +635,8 @@ class InputPreprocessor:
             # For multimodal model, override decoder prompt from processor
             # with explicit decoder prompt.
             if self.model_config.is_multimodal_model:
+                assert decoder_inputs is None or not is_embeds_inputs(
+                    decoder_inputs)
                 encoder_inputs, decoder_inputs = (
                     self._separate_enc_dec_inputs_from_mm_processor_outputs(
                         encoder_inputs, decoder_inputs))
@@ -605,9 +652,12 @@ class InputPreprocessor:
                         inputs))
             else:
                 encoder_inputs = inputs
-
                 decoder_inputs = None
 
+        # Mypy does not do type inference well with TypedDicts with Literal
+        # values.
+        assert not is_embeds_inputs(encoder_inputs)
+        assert decoder_inputs is None or not is_embeds_inputs(decoder_inputs)
         return self._build_enc_dec_llm_inputs(encoder_inputs, decoder_inputs)
 
     def _build_decoder_only_llm_inputs(
@@ -617,10 +667,15 @@ class InputPreprocessor:
     ) -> DecoderOnlyInputs:
         if (prompt_inputs["type"] == "token"
                 or prompt_inputs["type"] == "multimodal"):
+            # Mypy does not do type inference well with typedicts and Literal
+            # values
+            assert not is_embeds_inputs(prompt_inputs)
             prompt_inputs["prompt_token_ids"] = self._apply_prompt_adapter(
                 prompt_inputs["prompt_token_ids"],
                 prompt_adapter_request=prompt_adapter_request,
             )
+        elif (prompt_inputs["type"] == "embeds"):
+            pass
         else:
             assert_never(prompt_inputs)  # type: ignore[arg-type]
 
diff --git a/vllm/model_executor/layers/sampler.py b/vllm/model_executor/layers/sampler.py
index 1ee1332ac..9368992b2 100644
--- a/vllm/model_executor/layers/sampler.py
+++ b/vllm/model_executor/layers/sampler.py
@@ -110,6 +110,11 @@ class SamplerOutput(
     # 'broadcasted' to all other PP ranks for next step.
     sampled_token_ids_cpu: Optional[torch.Tensor] = None
 
+    # On-device tensor containing the sampled token embeddings (embeddings
+    # corresponding to the sampled token ids). Used when prompt embeddings are
+    # specified in lieu of prompt token ids or text.
+    sampled_token_embeds: Optional[torch.Tensor] = None
+
     # Spec decode metrics populated by workers.
     spec_decode_worker_metrics: Optional[SpecDecodeWorkerMetrics] = None
 
@@ -183,7 +188,7 @@ class Sampler(nn.Module):
 
         # Whether or not the SamplerOutput should have on-device tensors
         # containing the sampled token ids and probabilities. This is used by
-        # speculative decoding.
+        # speculative decoding and when prompt embeddings are specified.
         self.include_gpu_probs_tensor = False
         self.should_modify_greedy_probs_inplace = False
 
diff --git a/vllm/sequence.py b/vllm/sequence.py
index a97409523..5bc9b8a6f 100644
--- a/vllm/sequence.py
+++ b/vllm/sequence.py
@@ -166,6 +166,9 @@ class SequenceData(msgspec.Struct,
     _output_token_ids: array = msgspec.field(
         default_factory=lambda: array(VLLM_TOKEN_ID_ARRAY_TYPE, []))
 
+    _prompt_embeds: Optional[torch.Tensor] = None
+    _output_embeds: Optional[torch.Tensor] = None
+
     ### The below fields should not be passed as an argument ###
     _cumulative_logprob: float = 0.0
     _prompt_token_ids_tuple: tuple[int,
@@ -176,6 +179,7 @@ class SequenceData(msgspec.Struct,
     _num_cached_tokens: int = 0
     _stage: SequenceStage = SequenceStage.PREFILL
     _cached_all_token_ids: list[int] = msgspec.field(default_factory=list)
+    _cached_all_token_embeds: Optional[torch.Tensor] = None
 
     # It is used to get delta input. It is reset when `get_delta_and_reset`
     # is called.
@@ -208,6 +212,8 @@ class SequenceData(msgspec.Struct,
     def from_seqs(
         prompt_token_ids: GenericSequence[int],
         output_token_ids: Optional[GenericSequence[int]] = None,
+        *,
+        prompt_embeds: Optional[torch.Tensor] = None,
     ) -> "SequenceData":
         """
         Construct a :class:`SequenceData` instance from prompt and output
@@ -217,13 +223,15 @@ class SequenceData(msgspec.Struct,
                                      prompt_token_ids)
 
         if output_token_ids is None:
-            return SequenceData(prompt_token_ids_arr)
+            return SequenceData(prompt_token_ids_arr,
+                                _prompt_embeds=prompt_embeds)
 
         output_token_ids_arr = array(VLLM_TOKEN_ID_ARRAY_TYPE,
                                      output_token_ids)
 
         return SequenceData(prompt_token_ids_arr,
-                            _output_token_ids=output_token_ids_arr)
+                            _output_token_ids=output_token_ids_arr,
+                            _prompt_embeds=prompt_embeds)
 
     def __post_init__(self) -> None:
         assert self._prompt_token_ids.typecode == "l"
@@ -231,6 +239,8 @@ class SequenceData(msgspec.Struct,
         self._prompt_token_ids_tuple: tuple[int, ...] = tuple(
             self._prompt_token_ids)
         self._update_cached_all_tokens()
+        if self._prompt_embeds is not None:
+            self._update_cached_all_token_embeds()
 
     def _update_cached_all_tokens(self):
         assert isinstance(self._prompt_token_ids, array)
@@ -238,6 +248,13 @@ class SequenceData(msgspec.Struct,
         self._cached_all_token_ids: list[int] = list(self._prompt_token_ids +
                                                      self._output_token_ids)
 
+    def _update_cached_all_token_embeds(self):
+        assert isinstance(self._prompt_embeds, torch.Tensor)
+        self._cached_all_token_embeds: torch.Tensor = self._prompt_embeds
+        if self._output_embeds is not None:
+            self._cached_all_token_embeds = torch.cat(
+                (self._cached_all_token_embeds, self._output_embeds), dim=0)
+
     @property
     def cumulative_logprob(self) -> float:
         return self._cumulative_logprob
@@ -270,6 +287,15 @@ class SequenceData(msgspec.Struct,
                                        new_output_token_ids)
         self._update_cached_all_tokens()
 
+    @property
+    def output_embeds(self) -> Optional[torch.Tensor]:
+        return self._output_embeds
+
+    @output_embeds.setter
+    def output_embeds(self, new_output_token_embeds: torch.Tensor) -> None:
+        self._output_token_embeds = new_output_token_embeds
+        self._update_cached_all_token_embeds()
+
     @property
     def output_token_ids_array(self) -> array:
         """Return the prompt token ids in array type.
@@ -280,6 +306,15 @@ class SequenceData(msgspec.Struct,
         assert isinstance(self._output_token_ids, array)
         return self._output_token_ids
 
+    @property
+    def prompt_embeds(self) -> Optional[torch.Tensor]:
+        return self._prompt_embeds
+
+    @prompt_embeds.setter
+    def prompt_embeds(self, prompt_embeds: torch.Tensor) -> None:
+        self._prompt_embeds = prompt_embeds
+        self._update_cached_all_token_embeds()
+
     @property
     def mrope_position_delta(self) -> Optional[int]:
         return self._mrope_position_delta
@@ -288,11 +323,28 @@ class SequenceData(msgspec.Struct,
     def mrope_position_delta(self, new_mrope_position_delta):
         self._mrope_position_delta = new_mrope_position_delta
 
-    def append_token_id(self, token_id: int, logprob: float) -> None:
+    def append_token_id(self,
+                        token_id: int,
+                        logprob: float,
+                        token_embed: Optional[torch.Tensor] = None) -> None:
         self._output_token_ids.append(token_id)
         self._new_appended_tokens.append(token_id)
         self._cached_all_token_ids.append(token_id)
         self._cumulative_logprob += logprob
+        if token_embed is not None:
+            # Do not pass in with batch or sequence dimensions
+            assert token_embed.ndim == 1
+            token_embed = token_embed.detach().cpu().unsqueeze(0)
+            if self._output_embeds is None:
+                self._output_embeds = token_embed
+            else:
+                self._output_embeds = torch.cat(
+                    (self._output_embeds, token_embed), dim=0)
+            assert self._cached_all_token_embeds is not None
+            self._cached_all_token_embeds = torch.cat(
+                (self._cached_all_token_embeds,
+                 token_embed.to(device=self._cached_all_token_embeds.device)),
+                dim=0)
 
     def get_len(self) -> int:
         return len(self._output_token_ids) + len(self._prompt_token_ids)
@@ -306,6 +358,9 @@ class SequenceData(msgspec.Struct,
     def get_token_ids(self) -> list[int]:
         return self._cached_all_token_ids
 
+    def get_token_embeddings(self) -> Optional[torch.Tensor]:
+        return self._cached_all_token_embeds
+
     def get_prefix_token_ids(
             self, num_tokens: int
     ) -> tuple[tuple[int, ...], Optional[tuple[int, ...]]]:
@@ -387,6 +442,8 @@ class SequenceData(msgspec.Struct,
     def __repr__(self) -> str:
         return (f"SequenceData("
                 f"prompt_token_ids={self._prompt_token_ids}, "
+                f"prompt_embeds.shape="
+                f"{getattr(self._prompt_embeds, 'shape', None)}, "
                 f"output_token_ids={self.output_token_ids}, "
                 f"cumulative_logprob={self.cumulative_logprob}, "
                 f"get_num_computed_tokens={self.get_num_computed_tokens()})")
@@ -425,7 +482,10 @@ class Sequence:
         self.lora_request = lora_request
         self.prompt_adapter_request = prompt_adapter_request
 
-        self.data = SequenceData.from_seqs(self.prompt_token_ids)
+        self.data = SequenceData.from_seqs(
+            self.prompt_token_ids,
+            prompt_embeds=self.inputs["prompt_embeds"]
+            if self.inputs["type"] == "embeds" else None)
         self.output_logprobs: SampleLogprobs = []
         self.output_text = ""
 
@@ -448,14 +508,20 @@ class Sequence:
 
     @property
     def prompt(self) -> Optional[str]:
+        if self.inputs["type"] == "embeds":
+            return None
         return self.inputs.get("prompt")
 
     @property
     def prompt_token_ids(self) -> list[int]:
+        if self.inputs["type"] == "embeds":
+            return [0] * len(self.inputs["prompt_embeds"])
         return self.inputs["prompt_token_ids"]
 
     @property
     def token_type_ids(self) -> list[int]:
+        if self.inputs["type"] == "embeds":
+            return []
         return self.inputs.get("token_type_ids", [])
 
     @property
@@ -554,11 +620,14 @@ class Sequence:
         """Reset the sequence states for recomputation."""
         self.data.reset_state_for_recompute()
 
-    def append_token_id(self, token_id: int, logprobs: dict[int,
-                                                            Logprob]) -> None:
+    def append_token_id(self,
+                        token_id: int,
+                        logprobs: dict[int, Logprob],
+                        token_embed: Optional[torch.Tensor] = None) -> None:
         assert token_id in logprobs
         self.output_logprobs.append(logprobs)
-        self.data.append_token_id(token_id, logprobs[token_id].logprob)
+        self.data.append_token_id(token_id, logprobs[token_id].logprob,
+                                  token_embed)
 
     def get_len(self) -> int:
         return self.data.get_len()
@@ -889,6 +958,10 @@ class SequenceGroup:
                 f"sampling_params={self.sampling_params}, "
                 f"num_seqs={len(self.seqs)})")
 
+    def uses_prompt_embeds(self) -> bool:
+        """Returns True if the sequence group uses input embeds."""
+        return any(seq.data.prompt_embeds is not None for seq in self.seqs)
+
 
 class SequenceGroupMetadataDelta(
         msgspec.Struct,
@@ -1043,10 +1116,14 @@ class SequenceOutput(
     parent_seq_id: int
     output_token: int
     logprobs: dict[int, Logprob]
+    output_embed: Optional[torch.Tensor] = None
 
     def __repr__(self) -> str:
+        output_embed_shape = \
+            self.output_embed.shape if self.output_embed is not None else None
         return (f"SequenceOutput(parent_seq_id={self.parent_seq_id}, "
                 f"output_token={self.output_token}, "
+                f"output_embed.shape={output_embed_shape}"
                 f"logprobs={self.logprobs})")
 
     def __eq__(self, other: object) -> bool:
diff --git a/vllm/spec_decode/draft_model_runner.py b/vllm/spec_decode/draft_model_runner.py
index 24095ef2a..a6276c563 100644
--- a/vllm/spec_decode/draft_model_runner.py
+++ b/vllm/spec_decode/draft_model_runner.py
@@ -201,6 +201,9 @@ class TP1DraftModelRunner(ModelRunnerWrapperBase):
             if self.prompt_adapter_config is not None:
                 raise ValueError("TP1DraftModelRunner has no support for "
                                  "prompt_adapter_config")
+            if model_input.inputs_embeds is not None:
+                raise ValueError("TP1DraftModelRunner has no support for "
+                                 "inputs_embeds")
             if model_input.multi_modal_kwargs:
                 raise ValueError(
                     "TP1DraftModelRunner has no support for multi_modal_kwargs"
@@ -242,9 +245,16 @@ class TP1DraftModelRunner(ModelRunnerWrapperBase):
 
         # Get model
         if use_cuda_graph:
-            graph_batch_size = model_input.input_tokens.shape[0]
-            model_executable = (self.graph_runners[model_input.virtual_engine]
-                                [graph_batch_size])
+            if model_input.inputs_embeds is None:
+                graph_batch_size = model_input.input_tokens.shape[0]
+                model_executable = (
+                    self.graph_runners[model_input.virtual_engine][(
+                        graph_batch_size, False)])
+            else:
+                graph_batch_size = model_input.inputs_embeds.shape[0]
+                model_executable = (
+                    self.graph_runners[model_input.virtual_engine][(
+                        graph_batch_size, True)])
 
             if previous_hidden_states is not None:
                 hidden_states = torch.cat([
@@ -281,6 +291,7 @@ class TP1DraftModelRunner(ModelRunnerWrapperBase):
                                      self.vllm_config):
                 hidden_states = model_executable(
                     input_ids=model_input.input_tokens,
+                    inputs_embeds=None,
                     positions=model_input.input_positions,
                     intermediate_tensors=intermediate_tensors,
                     **MultiModalKwargs.as_kwargs(multi_modal_kwargs,
diff --git a/vllm/spec_decode/multi_step_worker.py b/vllm/spec_decode/multi_step_worker.py
index 1146606e9..de57403d1 100644
--- a/vllm/spec_decode/multi_step_worker.py
+++ b/vllm/spec_decode/multi_step_worker.py
@@ -282,7 +282,8 @@ class MultiStepWorker(ProposerWorkerBase, DelegateWorkerBase):
                 else:
                     count += 1
 
-                seq.append_token_id(token_id, token_logprob.logprob)
+                seq.append_token_id(token_id, token_logprob.logprob,
+                                    seq_output.output_embed)
                 seq.update_num_computed_tokens(1)
 
     @staticmethod
diff --git a/vllm/worker/enc_dec_model_runner.py b/vllm/worker/enc_dec_model_runner.py
index 4df192a87..4864163b0 100644
--- a/vllm/worker/enc_dec_model_runner.py
+++ b/vllm/worker/enc_dec_model_runner.py
@@ -49,6 +49,7 @@ class EncoderDecoderModelInput(ModelInputForGPUWithSamplingMetadata):
     def as_broadcastable_tensor_dict(self) -> Dict[str, Any]:
         tensor_dict = {
             "input_tokens": self.input_tokens,
+            "inputs_embeds": self.inputs_embeds,
             "input_positions": self.input_positions,
             "encoder_input_tokens": self.encoder_input_tokens,
             "encoder_input_positions": self.encoder_input_positions,
@@ -172,10 +173,17 @@ class EncoderDecoderModelRunner(GPUModelRunnerBase[EncoderDecoderModelInput]):
         if (model_input.attn_metadata is not None
                 and model_input.attn_metadata.prefill_metadata is None
                 and model_input.attn_metadata.decode_metadata.use_cuda_graph):
-            assert model_input.input_tokens is not None
-            graph_batch_size = model_input.input_tokens.shape[0]
-            model_executable = self.graph_runners[
-                model_input.virtual_engine][graph_batch_size]
+            if model_input.inputs_embeds is None:
+                assert model_input.input_tokens is not None
+                graph_batch_size = model_input.input_tokens.shape[0]
+                model_executable = (
+                    self.graph_runners[model_input.virtual_engine][(
+                        graph_batch_size, False)])
+            else:
+                graph_batch_size = model_input.inputs_embeds.shape[0]
+                model_executable = (
+                    self.graph_runners[model_input.virtual_engine][(
+                        graph_batch_size, True)])
         else:
             model_executable = self.model
 
@@ -189,6 +197,7 @@ class EncoderDecoderModelRunner(GPUModelRunnerBase[EncoderDecoderModelInput]):
                                  model_input.virtual_engine):
             hidden_or_intermediate_states = model_executable(
                 input_ids=model_input.input_tokens,
+                inputs_embeds=model_input.inputs_embeds,
                 positions=model_input.input_positions,
                 encoder_input_ids=model_input.encoder_input_tokens,
                 encoder_positions=model_input.encoder_input_positions,
diff --git a/vllm/worker/model_runner.py b/vllm/worker/model_runner.py
index 73e0eff9a..85814e9af 100644
--- a/vllm/worker/model_runner.py
+++ b/vllm/worker/model_runner.py
@@ -35,7 +35,8 @@ from vllm.lora.request import LoRARequest
 from vllm.lora.worker_manager import LRUCacheWorkerLoRAManager
 from vllm.model_executor import SamplingMetadata, SamplingMetadataCache
 from vllm.model_executor.layers.rotary_embedding import MRotaryEmbedding
-from vllm.model_executor.layers.sampler import SamplerOutput, get_sampler
+from vllm.model_executor.layers.sampler import (Sampler, SamplerOutput,
+                                                get_sampler)
 from vllm.model_executor.model_loader import get_model
 from vllm.model_executor.model_loader.tensorizer import TensorizerConfig
 from vllm.model_executor.models import supports_lora, supports_multimodal
@@ -85,6 +86,7 @@ class ModelInputForGPU(ModelRunnerInputBase):
     additional fields.
     """
     input_tokens: Optional[torch.Tensor] = None
+    inputs_embeds: Optional[torch.Tensor] = None
     input_positions: Optional[torch.Tensor] = None
     token_types: Optional[torch.Tensor] = None
     seq_lens: Optional[List[int]] = None
@@ -105,6 +107,7 @@ class ModelInputForGPU(ModelRunnerInputBase):
     def as_broadcastable_tensor_dict(self) -> Dict[str, Any]:
         tensor_dict = {
             "input_tokens": self.input_tokens,
+            "inputs_embeds": self.inputs_embeds,
             "input_positions": self.input_positions,
             "lora_requests": self.lora_requests,
             "lora_mapping": self.lora_mapping,
@@ -155,6 +158,7 @@ class ModelInputForGPUWithSamplingMetadata(ModelInputForGPU):
     def as_broadcastable_tensor_dict(self) -> Dict[str, Any]:
         tensor_dict = {
             "input_tokens": self.input_tokens,
+            "inputs_embeds": self.inputs_embeds,
             "input_positions": self.input_positions,
             "lora_requests": self.lora_requests,
             "lora_mapping": self.lora_mapping,
@@ -194,6 +198,7 @@ class ModelInputForGPUBuilder(ModelRunnerInputBuilderBase[ModelInputForGPU]):
 
         def simple_reinit(self):
             self.input_tokens[0].clear()  # type: ignore
+            self.inputs_embeds = None  # type: ignore
             self.input_positions[0].clear()  # type: ignore
             self.token_types[0].clear()  # type: ignore
             self.mrope_input_positions = None  # type: ignore
@@ -221,6 +226,7 @@ class ModelInputForGPUBuilder(ModelRunnerInputBuilderBase[ModelInputForGPU]):
 
             # Input tokens and positions.
             input_tokens: Optional[List[List[int]]] = None,
+            inputs_embeds: Optional[torch.Tensor] = None,
             input_positions: Optional[List[List[int]]] = None,
             token_types: Optional[List[List[int]]] = None,
             mrope_input_positions: Optional[List[List[List[int]]]] = None,
@@ -282,6 +288,8 @@ class ModelInputForGPUBuilder(ModelRunnerInputBuilderBase[ModelInputForGPU]):
                         for seq_id in range(len(self.seq_ids)):
                             self.input_tokens[seq_id].clear()
 
+                    self.inputs_embeds = inputs_embeds
+
                     if input_positions:
                         self.input_positions = input_positions
                     else:
@@ -356,6 +364,7 @@ class ModelInputForGPUBuilder(ModelRunnerInputBuilderBase[ModelInputForGPU]):
 
             else:
                 self.input_tokens = input_tokens or []
+                self.inputs_embeds = inputs_embeds
                 self.input_positions = input_positions or []
                 self.token_types = token_types or []
                 self.mrope_input_positions = mrope_input_positions or None
@@ -401,6 +410,26 @@ class ModelInputForGPUBuilder(ModelRunnerInputBuilderBase[ModelInputForGPU]):
             self.lora_index_mapping = []
             self.lora_prompt_mapping = []
 
+        def __repr__(self) -> str:
+            return (f"InterDataForSeqGroup("
+                    f"request_id={self.request_id}, "
+                    f"seq_ids={self.seq_ids}, "
+                    f"is_prompt={self.is_prompt}, "
+                    f"block_tables={self.block_tables}, "
+                    f"computed_block_nums={self.computed_block_nums}, "
+                    f"n_seqs={self.n_seqs}, "
+                    f"input_tokens={self.input_tokens}, "
+                    f"inputs_embeds.shape="
+                    f"{getattr(self.inputs_embeds, 'shape', None)}, "
+                    f"input_positions={self.input_positions}, "
+                    f"token_types={self.token_types}, "
+                    f"mrope_input_positions={self.mrope_input_positions}, "
+                    f"seq_lens={self.seq_lens}, "
+                    f"orig_seq_lens={self.orig_seq_lens}, "
+                    f"query_lens={self.query_lens}, "
+                    f"context_lens={self.context_lens}, "
+                    f"multi_modal_kwargs={self.multi_modal_kwargs}")
+
     def gen_inter_data_builder(self, num_seqs: int):
         return lambda: ModelInputForGPUBuilder.InterDataForSeqGroup(
             request_id="",
@@ -511,13 +540,21 @@ class ModelInputForGPUBuilder(ModelRunnerInputBuilderBase[ModelInputForGPU]):
             context_len = seq_data.get_num_computed_tokens()
 
         # Compute tokens.
-        tokens = seq_data.get_token_ids()[context_len:seq_len]
+        if seq_data.prompt_embeds is None:
+            tokens = seq_data.get_token_ids()[context_len:seq_len]
+            prompt_embeds = None
+        else:
+            tokens = [0] * (seq_len - context_len)
+            prompt_embeds = seq_data.get_token_embeddings(
+            )[context_len:seq_len]
+
         token_types = seq_group_metadata.token_type_ids
 
         inter_data.seq_lens[seq_idx] = seq_len
         inter_data.orig_seq_lens[seq_idx] = seq_len
         inter_data.context_lens[seq_idx] = context_len
         inter_data.input_tokens[seq_idx].extend(tokens)
+        inter_data.inputs_embeds = prompt_embeds
         inter_data.input_positions[seq_idx].extend(range(context_len, seq_len))
         inter_data.token_types[seq_idx].extend(
             token_types if token_types else [])
@@ -822,15 +859,29 @@ class ModelInputForGPUBuilder(ModelRunnerInputBuilderBase[ModelInputForGPU]):
         create on-device tensors.
         """
         # Combine and flatten intermediate data.
-        input_tokens = []
-        token_types = []
+        input_tokens = list[int]()
+        inputs_embeds_lst = list[torch.Tensor]()
+        token_types = list[int]()
         for inter_data in self.inter_data_list:
             for cur_input_tokens in inter_data.input_tokens:
                 input_tokens.extend(cur_input_tokens)
             for cur_token_types in inter_data.token_types:
                 token_types.extend(cur_token_types)
+            if inter_data.inputs_embeds is not None:
+                inputs_embeds_lst.append(
+                    inter_data.inputs_embeds.to(
+                        dtype=self.runner.model_config.dtype,
+                        device=self.runner.device))
+        inputs_embeds: Optional[torch.Tensor]
+        if len(inputs_embeds_lst) == 0:
+            inputs_embeds = None
+        else:
+            inputs_embeds = torch.cat(inputs_embeds_lst, dim=0).to(
+                dtype=self.runner.model_config.dtype,
+                device=self.runner.device)
+            assert len(inputs_embeds) == len(input_tokens)
 
-        if not input_tokens:
+        if not input_tokens and inputs_embeds is None:
             # This may happen when all prefill requests hit
             # prefix caching and there is no decode request.
             return self.model_input_cls()
@@ -980,6 +1031,7 @@ class ModelInputForGPUBuilder(ModelRunnerInputBuilderBase[ModelInputForGPU]):
 
         return self.model_input_cls(
             input_tokens=input_tokens_tensor,
+            inputs_embeds=inputs_embeds,
             input_positions=input_positions_tensor,
             token_types=token_types_tensor,
             attn_metadata=attn_metadata,
@@ -1029,7 +1081,8 @@ class GPUModelRunnerBase(ModelRunnerBase[TModelInputForGPU]):
         self.max_batchsize_to_capture = \
             self.vllm_config.compilation_config.max_capture_size
 
-        self.graph_runners: List[Dict[int, CUDAGraphRunner]] = [
+        #
+        self.graph_runners: List[Dict[Tuple[int, bool], CUDAGraphRunner]] = [
             {} for _ in range(self.parallel_config.pipeline_parallel_size)
         ]
         self.graph_memory_pool: Optional[Tuple[
@@ -1466,6 +1519,10 @@ class GPUModelRunnerBase(ModelRunnerBase[TModelInputForGPU]):
         input_positions = torch.zeros(max_batch_size,
                                       dtype=torch.long,
                                       device=self.device)
+        inputs_embeds = torch.zeros(
+            (max_batch_size, self.model_config.get_hidden_size()),
+            dtype=self.model_config.dtype,
+            device=self.device)
         if self.model_config.uses_mrope:
             input_positions = torch.tile(input_positions,
                                          (3, 1)).cuda(device=self.device)
@@ -1503,15 +1560,22 @@ class GPUModelRunnerBase(ModelRunnerBase[TModelInputForGPU]):
             # memory usage of CUDA graph.
             for virtual_engine in range(
                     self.parallel_config.pipeline_parallel_size):
-                # Only rank 0 should print progress bar during capture
-                cudagraph_capture_sizes = (tqdm(
-                    self.vllm_config.compilation_config.
+                # We need to not only iterate over batch sizes, but also whether
+                # to use inputs_embeds or not, hence we use the cartesian
+                # product.
+                cudagraph_capture_sizes = self.vllm_config.compilation_config\
+                    .cudagraph_capture_sizes
+                cudagraph_inputs_embeds = (True, False)
+                compilation_cases = itertools.product(
                     cudagraph_capture_sizes,
-                    desc="Capturing CUDA graph shapes",
-                ) if get_tensor_model_parallel_rank() == 0 else
-                                           self.vllm_config.compilation_config.
-                                           cudagraph_capture_sizes)
-                for batch_size in cudagraph_capture_sizes:
+                    cudagraph_inputs_embeds,
+                )
+                # Only rank 0 should print progress bar during capture
+                if get_tensor_model_parallel_rank() == 0:
+                    compilation_cases = tqdm(
+                        list(compilation_cases),
+                        desc="Capturing CUDA graph shapes")
+                for batch_size, use_inputs_embeds in compilation_cases:
                     attn_metadata = (
                         self.attn_state.graph_capture_get_metadata_for_batch(
                             batch_size,
@@ -1542,6 +1606,9 @@ class GPUModelRunnerBase(ModelRunnerBase[TModelInputForGPU]):
                     capture_inputs = {
                         "input_ids":
                         input_tokens[:batch_size],
+                        "inputs_embeds":
+                        inputs_embeds[:batch_size]
+                        if use_inputs_embeds else None,
                         "positions":
                         input_positions[..., :batch_size],
                         "intermediate_inputs":
@@ -1578,8 +1645,8 @@ class GPUModelRunnerBase(ModelRunnerBase[TModelInputForGPU]):
                                              virtual_engine):
                         graph_runner.capture(**capture_inputs)
                     self.graph_memory_pool = graph_runner.graph.pool()
-                    self.graph_runners[virtual_engine][batch_size] = (
-                        graph_runner)
+                    self.graph_runners[virtual_engine][(
+                        batch_size, use_inputs_embeds)] = graph_runner
 
         if self.lora_config:
             self._remove_dummy_loras()
@@ -1711,8 +1778,9 @@ class ModelRunner(GPUModelRunnerBase[ModelInputForGPUWithSamplingMetadata]):
         if prefill_meta is None and decode_meta.use_cuda_graph:
             assert model_input.input_tokens is not None
             graph_batch_size = model_input.input_tokens.shape[0]
-            model_executable = self.graph_runners[virtual_engine][
-                graph_batch_size]
+            use_inputs_embeds = model_input.inputs_embeds is not None
+            model_executable = self.graph_runners[virtual_engine][(
+                graph_batch_size, use_inputs_embeds)]
             if previous_hidden_states is not None:
                 previous_hidden_states = torch.cat([
                     previous_hidden_states,
@@ -1763,6 +1831,7 @@ class ModelRunner(GPUModelRunnerBase[ModelInputForGPUWithSamplingMetadata]):
                                      self.vllm_config, virtual_engine):
                 hidden_or_intermediate_states = model_executable(
                     input_ids=model_input.input_tokens,
+                    inputs_embeds=model_input.inputs_embeds,
                     positions=model_input.input_positions,
                     intermediate_tensors=intermediate_tensors,
                     **MultiModalKwargs.as_kwargs(multi_modal_kwargs,
@@ -1817,6 +1886,11 @@ class ModelRunner(GPUModelRunnerBase[ModelInputForGPUWithSamplingMetadata]):
             model_input.async_callback()
 
         # Sample the next token.
+        assert isinstance(self.sampler, Sampler)
+        orig_include_gpu_probs_tensor = self.sampler.include_gpu_probs_tensor
+        if model_input.inputs_embeds is not None:
+            self.sampler.include_gpu_probs_tensor = True
+
         output: SamplerOutput = self.sampler(
             logits=logits,
             sampling_metadata=model_input.sampling_metadata,
@@ -1838,6 +1912,18 @@ class ModelRunner(GPUModelRunnerBase[ModelInputForGPUWithSamplingMetadata]):
             output.model_forward_time = (orig_model_forward_time +
                                          model_forward_time)
 
+        if model_input.inputs_embeds is not None:
+            self.sampler.include_gpu_probs_tensor = \
+                orig_include_gpu_probs_tensor
+            if output.sampled_token_ids is not None:
+                output.sampled_token_embeds = self.model.get_input_embeddings(
+                    output.sampled_token_ids.squeeze(1))
+
+                for token_embed, sequence_group_output in zip(
+                        output.sampled_token_embeds, output.outputs):
+                    assert len(sequence_group_output.samples) == 1
+                    sequence_group_output.samples[0].output_embed = token_embed
+
         if self.return_hidden_states:
             # we only need to pass hidden states of most recent token
             assert model_input.sampling_metadata is not None
@@ -1931,6 +2017,7 @@ class CUDAGraphRunner(nn.Module):
     def capture(
         self,
         input_ids: torch.Tensor,
+        inputs_embeds: Optional[torch.Tensor],
         positions: torch.Tensor,
         intermediate_inputs: Optional[IntermediateTensors],
         kv_caches: List[torch.Tensor],
@@ -1947,6 +2034,7 @@ class CUDAGraphRunner(nn.Module):
         for _ in range(_NUM_WARMUP_ITERS):
             self.model(
                 input_ids=input_ids,
+                inputs_embeds=inputs_embeds,
                 positions=positions,
                 intermediate_tensors=intermediate_inputs,
                 **kwargs,
@@ -1959,6 +2047,9 @@ class CUDAGraphRunner(nn.Module):
         with torch.cuda.graph(self._graph, pool=memory_pool, stream=stream):
             output_hidden_or_intermediate_states = self.model(
                 input_ids=input_ids,
+                **({
+                    "inputs_embeds": inputs_embeds,
+                } if inputs_embeds is not None else {}),
                 positions=positions,
                 intermediate_tensors=intermediate_inputs,
                 **kwargs,
@@ -1986,6 +2077,9 @@ class CUDAGraphRunner(nn.Module):
         self.input_buffers = {
             "input_ids":
             input_ids,
+            **({
+                "inputs_embeds": inputs_embeds,
+            } if inputs_embeds is not None else {}),
             "positions":
             positions,
             "kv_caches":
@@ -2006,6 +2100,7 @@ class CUDAGraphRunner(nn.Module):
     def forward(
         self,
         input_ids: torch.Tensor,
+        inputs_embeds: Optional[torch.Tensor],
         positions: torch.Tensor,
         intermediate_tensors: Optional[IntermediateTensors],
         **kwargs,
@@ -2020,6 +2115,9 @@ class CUDAGraphRunner(nn.Module):
             # so the shape is not padded, we need to copy partial only
             self.input_buffers["positions"][:positions.shape[0]].copy_(
                 positions, non_blocking=True)
+        if inputs_embeds is not None:
+            self.input_buffers["inputs_embeds"][:inputs_embeds.shape[0]].copy_(
+                inputs_embeds, non_blocking=True)
 
         if self.backend_name != "NO_ATTENTION":
             self.input_buffers["slot_mapping"].copy_(
diff --git a/vllm/worker/pooling_model_runner.py b/vllm/worker/pooling_model_runner.py
index cbd5e2060..fdb7353f2 100644
--- a/vllm/worker/pooling_model_runner.py
+++ b/vllm/worker/pooling_model_runner.py
@@ -84,10 +84,17 @@ class PoolingModelRunner(
         #  explore how to leverage it.
         if (prefill_meta is None and decode_meta is not None
                 and decode_meta.use_cuda_graph):
-            assert model_input.input_tokens is not None
-            graph_batch_size = model_input.input_tokens.shape[0]
-            model_executable = self.graph_runners[virtual_engine][
-                graph_batch_size]
+            if model_input.inputs_embeds is None:
+                assert model_input.input_tokens is not None
+                graph_batch_size = model_input.input_tokens.shape[0]
+                model_executable = (
+                    self.graph_runners[model_input.virtual_engine][(
+                        graph_batch_size, False)])
+            else:
+                graph_batch_size = model_input.inputs_embeds.shape[0]
+                model_executable = (
+                    self.graph_runners[model_input.virtual_engine][(
+                        graph_batch_size, True)])
         else:
             model_executable = self.model
 
-- 
GitLab


From c777df79f7c304ee8d5d6ccff366a5e61fe9cae3 Mon Sep 17 00:00:00 2001
From: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
Date: Fri, 2 May 2025 04:07:03 -0400
Subject: [PATCH 120/461] [BugFix] Fix Memory Leak (#17567)

Signed-off-by: rshaw@neuralmagic.com <robertgshaw2@gmail.com>
---
 tests/v1/core/test_scheduler.py | 77 +++++++++++++++++++++++++++++++++
 vllm/v1/core/sched/scheduler.py |  5 ++-
 2 files changed, 81 insertions(+), 1 deletion(-)

diff --git a/tests/v1/core/test_scheduler.py b/tests/v1/core/test_scheduler.py
index ee4e95856..9987688b0 100644
--- a/tests/v1/core/test_scheduler.py
+++ b/tests/v1/core/test_scheduler.py
@@ -1165,3 +1165,80 @@ def test_kv_connector_handles_preemption():
     # All memory should be freed since nothing is running.
     assert scheduler.kv_cache_manager.block_pool.get_num_free_blocks() \
         == NUM_BLOCKS - 1
+
+
+def make_output(scheduler: Scheduler):
+    return ModelRunnerOutput(
+        req_ids=[req.request_id for req in scheduler.running],
+        req_id_to_index={
+            req.request_id: i
+            for i, req in enumerate(scheduler.running)
+        },
+        sampled_token_ids=[[1000]] * len(scheduler.running),
+        spec_token_ids=None,
+        logprobs=None,
+        prompt_logprobs_dict={},
+    )
+
+
+def assert_scheduler_empty(scheduler: Scheduler):
+    """Confirm the scheduler is "empty" - i.e. no leaks."""
+    # Scheduler Metadata.
+    assert len(scheduler.requests) == 0
+    assert len(scheduler.waiting) == 0
+    assert len(scheduler.running) == 0
+    assert len(scheduler.finished_req_ids) == 0
+    assert len(scheduler._cached_reqs_data) == 0
+
+    # EncoderCacheManager.
+    assert len(scheduler.encoder_cache_manager.freed) == 0
+    assert len(scheduler.encoder_cache_manager.cached) == 0
+
+    # KVCache Manager.
+    assert len(scheduler.kv_cache_manager.req_to_blocks) == 0
+    assert len(scheduler.kv_cache_manager.req_to_block_hashes) == 0
+    assert len(scheduler.kv_cache_manager.num_cached_block) == 0
+    num_free_blocks = (
+        scheduler.kv_cache_manager.block_pool.free_block_queue.num_free_blocks)
+    assert num_free_blocks == (
+        scheduler.kv_cache_manager.block_pool.num_gpu_blocks - 1)
+
+    # NOTE(rob): just the ref count on blocks will be 0. The hash
+    # value, etc will remain since we lazily evict for prefix cache.
+    for block in scheduler.kv_cache_manager.block_pool.blocks:
+        assert block.ref_cnt == 0
+        # assert block._block_hash is None
+    # assert (
+    #     len(scheduler.kv_cache_manager.block_pool.cached_block_hash_to_block
+    #           ) == 0)
+
+
+def test_memory_leak():
+    """Test that we do not have a memory leak."""
+
+    scheduler = create_scheduler(enable_prefix_caching=True)
+
+    NUM_REQUESTS = 5
+    NUM_TOKENS = 10
+    MAX_TOKENS = 10
+    requests = create_requests(num_requests=NUM_REQUESTS,
+                               num_tokens=NUM_TOKENS,
+                               max_tokens=MAX_TOKENS)
+
+    # Add each request.
+    for request in requests:
+        scheduler.add_request(request)
+        scheduler_output = scheduler.schedule()
+        model_runner_output = make_output(scheduler)
+        scheduler.update_from_output(scheduler_output, model_runner_output)
+
+    # Iterate until done.
+    while True:
+        scheduler_output = scheduler.schedule()
+        if len(scheduler.running) == 0:
+            break
+        model_runner_output = make_output(scheduler)
+        scheduler.update_from_output(scheduler_output, model_runner_output)
+
+    # Confirm no memory leak.
+    assert_scheduler_empty(scheduler)
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index ae7280a14..05472ea57 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -761,7 +761,10 @@ class Scheduler(SchedulerInterface):
 
         # Return the cached request data to the queue so they can be reused.
         for req_data in scheduler_output.scheduled_cached_reqs:
-            self._cached_reqs_data[req_data.req_id].append(req_data)
+            # NOTE(rob): since we free stopped reqs above, adding stopped reqs
+            # to _cached_reqs_data will cause a memory leak.
+            if req_data.req_id not in self.finished_req_ids:
+                self._cached_reqs_data[req_data.req_id].append(req_data)
 
         self.running = new_running
         engine_core_outputs = EngineCoreOutputs(
-- 
GitLab


From d7543862bd6b5a47496a53b3c3625ad5110215f8 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Fri, 2 May 2025 18:29:25 +0800
Subject: [PATCH 121/461] [Misc] Rename assets for testing (#17575)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 .../qwen2_5_omni/only_thinker.py              |  4 +-
 examples/offline_inference/vision_language.py |  2 +-
 tests/conftest.py                             | 56 +++++++------------
 .../multimodal/generation/test_common.py      | 21 +++----
 .../multimodal/generation/test_florence2.py   |  4 +-
 .../generation/test_granite_speech.py         |  9 +--
 .../multimodal/generation/test_interleaved.py |  2 +-
 .../multimodal/generation/test_mllama.py      | 16 +++---
 .../multimodal/generation/test_qwen2_vl.py    |  2 +-
 .../multimodal/generation/test_ultravox.py    | 44 ++++++++-------
 .../generation/vlm_utils/builders.py          | 10 ++--
 .../generation/vlm_utils/model_utils.py       |  8 +--
 .../generation/vlm_utils/runners.py           | 11 ++--
 .../multimodal/generation/vlm_utils/types.py  |  6 +-
 .../multimodal/pooling/test_intern_vit.py     |  4 +-
 .../multimodal/processing/test_h2ovl.py       |  4 +-
 .../multimodal/processing/test_idefics3.py    |  4 +-
 .../multimodal/processing/test_internvl.py    |  4 +-
 .../multimodal/processing/test_llama4.py      |  4 +-
 .../processing/test_minimax_vl_01.py          |  4 +-
 .../multimodal/processing/test_phi3v.py       |  4 +-
 .../multimodal/processing/test_phi4mm.py      |  4 +-
 .../multimodal/processing/test_qwen2_vl.py    |  4 +-
 .../multimodal/processing/test_smolvlm.py     |  4 +-
 tests/models/quantization/test_awq.py         |  4 +-
 vllm/assets/audio.py                          | 12 +++-
 vllm/assets/image.py                          |  4 +-
 vllm/assets/video.py                          | 21 +++++--
 28 files changed, 145 insertions(+), 131 deletions(-)

diff --git a/examples/offline_inference/qwen2_5_omni/only_thinker.py b/examples/offline_inference/qwen2_5_omni/only_thinker.py
index 031e924d3..c2c28d5ae 100644
--- a/examples/offline_inference/qwen2_5_omni/only_thinker.py
+++ b/examples/offline_inference/qwen2_5_omni/only_thinker.py
@@ -47,7 +47,7 @@ def get_mixed_modalities_query() -> QueryResult:
                 "image":
                 ImageAsset("cherry_blossom").pil_image.convert("RGB"),
                 "video":
-                VideoAsset(name="sample_demo_1", num_frames=16).np_ndarrays,
+                VideoAsset(name="baby_reading", num_frames=16).np_ndarrays,
             },
         },
         limit_mm_per_prompt={
@@ -65,7 +65,7 @@ def get_use_audio_in_video_query() -> QueryResult:
               "<|im_start|>user\n<|vision_bos|><|VIDEO|><|vision_eos|>"
               f"{question}<|im_end|>\n"
               f"<|im_start|>assistant\n")
-    asset = VideoAsset(name="sample_demo_1", num_frames=16)
+    asset = VideoAsset(name="baby_reading", num_frames=16)
     audio = asset.get_audio(sampling_rate=16000)
     assert not envs.VLLM_USE_V1, ("V1 does not support use_audio_in_video. "
                                   "Please launch this example with "
diff --git a/examples/offline_inference/vision_language.py b/examples/offline_inference/vision_language.py
index 6cd2a774a..aca11f5c5 100644
--- a/examples/offline_inference/vision_language.py
+++ b/examples/offline_inference/vision_language.py
@@ -1109,7 +1109,7 @@ def get_multi_modal_input(args):
 
     if args.modality == "video":
         # Input video and question
-        video = VideoAsset(name="sample_demo_1",
+        video = VideoAsset(name="baby_reading",
                            num_frames=args.num_frames).np_ndarrays
         vid_questions = ["Why is this video funny?"]
 
diff --git a/tests/conftest.py b/tests/conftest.py
index 571cca8ee..b1b4af86f 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -1,9 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
-
 import json
 import os
 import tempfile
-from collections import UserList
 from enum import Enum
 from typing import Any, Callable, Optional, TypedDict, TypeVar, Union
 
@@ -58,16 +56,12 @@ def _read_prompts(filename: str) -> list[str]:
         return prompts
 
 
-class _ImageAssetPrompts(TypedDict):
+class ImageAssetPrompts(TypedDict):
     stop_sign: str
     cherry_blossom: str
 
 
-class _ImageAssetsBase(UserList[ImageAsset]):
-    pass
-
-
-class _ImageAssets(_ImageAssetsBase):
+class ImageTestAssets(list[ImageAsset]):
 
     def __init__(self) -> None:
         super().__init__([
@@ -75,7 +69,7 @@ class _ImageAssets(_ImageAssetsBase):
             ImageAsset("cherry_blossom"),
         ])
 
-    def prompts(self, prompts: _ImageAssetPrompts) -> list[str]:
+    def prompts(self, prompts: ImageAssetPrompts) -> list[str]:
         """
         Convenience method to define the prompt for each test image.
 
@@ -85,35 +79,27 @@ class _ImageAssets(_ImageAssetsBase):
         return [prompts["stop_sign"], prompts["cherry_blossom"]]
 
 
-class _VideoAssetPrompts(TypedDict):
-    sample_demo_1: str
-
+class VideoAssetPrompts(TypedDict):
+    baby_reading: str
 
-class _VideoAssetsBase(UserList[VideoAsset]):
-    pass
 
-
-class _VideoAssets(_VideoAssetsBase):
+class VideoTestAssets(list[VideoAsset]):
 
     def __init__(self) -> None:
         super().__init__([
-            VideoAsset("sample_demo_1"),
+            VideoAsset("baby_reading"),
         ])
 
-    def prompts(self, prompts: _VideoAssetPrompts) -> list[str]:
-        return [prompts["sample_demo_1"]]
+    def prompts(self, prompts: VideoAssetPrompts) -> list[str]:
+        return [prompts["baby_reading"]]
 
 
-class _AudioAssetPrompts(TypedDict):
+class AudioAssetPrompts(TypedDict):
     mary_had_lamb: str
     winning_call: str
 
 
-class _AudioAssetsBase(UserList[AudioAsset]):
-    pass
-
-
-class _AudioAssets(_AudioAssetsBase):
+class AudioTestAssets(list[AudioAsset]):
 
     def __init__(self) -> None:
         super().__init__([
@@ -121,16 +107,16 @@ class _AudioAssets(_AudioAssetsBase):
             AudioAsset("winning_call"),
         ])
 
-    def prompts(self, prompts: _AudioAssetPrompts) -> list[str]:
+    def prompts(self, prompts: AudioAssetPrompts) -> list[str]:
         return [prompts["mary_had_lamb"], prompts["winning_call"]]
 
 
-IMAGE_ASSETS = _ImageAssets()
-"""Singleton instance of :class:`_ImageAssets`."""
-VIDEO_ASSETS = _VideoAssets()
-"""Singleton instance of :class:`_VideoAssets`."""
-AUDIO_ASSETS = _AudioAssets()
-"""Singleton instance of :class:`_AudioAssets`."""
+IMAGE_ASSETS = ImageTestAssets()
+"""Singleton instance of :class:`ImageTestAssets`."""
+VIDEO_ASSETS = VideoTestAssets()
+"""Singleton instance of :class:`VideoTestAssets`."""
+AUDIO_ASSETS = AudioTestAssets()
+"""Singleton instance of :class:`AudioTestAssets`."""
 
 
 @pytest.fixture(scope="function", autouse=True)
@@ -278,17 +264,17 @@ def example_long_prompts() -> list[str]:
 
 
 @pytest.fixture(scope="session")
-def image_assets() -> _ImageAssets:
+def image_assets() -> ImageTestAssets:
     return IMAGE_ASSETS
 
 
 @pytest.fixture(scope="session")
-def video_assets() -> _VideoAssets:
+def video_assets() -> VideoTestAssets:
     return VIDEO_ASSETS
 
 
 @pytest.fixture(scope="session")
-def audio_assets() -> _AudioAssets:
+def audio_assets() -> AudioTestAssets:
     return AUDIO_ASSETS
 
 
diff --git a/tests/models/multimodal/generation/test_common.py b/tests/models/multimodal/generation/test_common.py
index b21c80bef..44cdd6f44 100644
--- a/tests/models/multimodal/generation/test_common.py
+++ b/tests/models/multimodal/generation/test_common.py
@@ -13,8 +13,8 @@ from transformers import AutoModelForImageTextToText, AutoModelForVision2Seq
 from vllm.platforms import current_platform
 from vllm.utils import identity
 
-from ....conftest import (IMAGE_ASSETS, HfRunner, VllmRunner, _ImageAssets,
-                          _VideoAssets)
+from ....conftest import (IMAGE_ASSETS, HfRunner, ImageTestAssets,
+                          VideoTestAssets, VllmRunner)
 from ....utils import (create_new_process_for_each_test, large_gpu_mark,
                        multi_gpu_marks)
 from ...utils import check_outputs_equal
@@ -691,7 +691,7 @@ def test_single_image_models(tmp_path: PosixPath, model_type: str,
                              test_case: ExpandableVLMTestArgs,
                              hf_runner: type[HfRunner],
                              vllm_runner: type[VllmRunner],
-                             image_assets: _ImageAssets, monkeypatch):
+                             image_assets: ImageTestAssets, monkeypatch):
     if model_type in REQUIRES_V0_MODELS:
         monkeypatch.setenv("VLLM_USE_V1", "0")
     model_test_info = VLM_TEST_SETTINGS[model_type]
@@ -716,7 +716,7 @@ def test_multi_image_models(tmp_path: PosixPath, model_type: str,
                             test_case: ExpandableVLMTestArgs,
                             hf_runner: type[HfRunner],
                             vllm_runner: type[VllmRunner],
-                            image_assets: _ImageAssets, monkeypatch):
+                            image_assets: ImageTestAssets, monkeypatch):
     if model_type in REQUIRES_V0_MODELS:
         monkeypatch.setenv("VLLM_USE_V1", "0")
     model_test_info = VLM_TEST_SETTINGS[model_type]
@@ -741,7 +741,7 @@ def test_image_embedding_models(model_type: str,
                                 test_case: ExpandableVLMTestArgs,
                                 hf_runner: type[HfRunner],
                                 vllm_runner: type[VllmRunner],
-                                image_assets: _ImageAssets, monkeypatch):
+                                image_assets: ImageTestAssets, monkeypatch):
     if model_type in REQUIRES_V0_MODELS:
         monkeypatch.setenv("VLLM_USE_V1", "0")
     model_test_info = VLM_TEST_SETTINGS[model_type]
@@ -763,7 +763,7 @@ def test_image_embedding_models(model_type: str,
     ))
 def test_video_models(model_type: str, test_case: ExpandableVLMTestArgs,
                       hf_runner: type[HfRunner], vllm_runner: type[VllmRunner],
-                      video_assets: _VideoAssets, monkeypatch):
+                      video_assets: VideoTestAssets, monkeypatch):
     if model_type in REQUIRES_V0_MODELS:
         monkeypatch.setenv("VLLM_USE_V1", "0")
     model_test_info = VLM_TEST_SETTINGS[model_type]
@@ -814,7 +814,7 @@ def test_single_image_models_heavy(tmp_path: PosixPath, model_type: str,
                                    test_case: ExpandableVLMTestArgs,
                                    hf_runner: type[HfRunner],
                                    vllm_runner: type[VllmRunner],
-                                   image_assets: _ImageAssets, monkeypatch):
+                                   image_assets: ImageTestAssets, monkeypatch):
     if model_type in REQUIRES_V0_MODELS:
         monkeypatch.setenv("VLLM_USE_V1", "0")
     model_test_info = VLM_TEST_SETTINGS[model_type]
@@ -840,7 +840,7 @@ def test_multi_image_models_heavy(tmp_path: PosixPath, model_type: str,
                                   test_case: ExpandableVLMTestArgs,
                                   hf_runner: type[HfRunner],
                                   vllm_runner: type[VllmRunner],
-                                  image_assets: _ImageAssets, monkeypatch):
+                                  image_assets: ImageTestAssets, monkeypatch):
     if model_type in REQUIRES_V0_MODELS:
         monkeypatch.setenv("VLLM_USE_V1", "0")
     model_test_info = VLM_TEST_SETTINGS[model_type]
@@ -866,7 +866,8 @@ def test_image_embedding_models_heavy(model_type: str,
                                       test_case: ExpandableVLMTestArgs,
                                       hf_runner: type[HfRunner],
                                       vllm_runner: type[VllmRunner],
-                                      image_assets: _ImageAssets, monkeypatch):
+                                      image_assets: ImageTestAssets,
+                                      monkeypatch):
     if model_type in REQUIRES_V0_MODELS:
         monkeypatch.setenv("VLLM_USE_V1", "0")
     model_test_info = VLM_TEST_SETTINGS[model_type]
@@ -889,7 +890,7 @@ def test_image_embedding_models_heavy(model_type: str,
 def test_video_models_heavy(model_type: str, test_case: ExpandableVLMTestArgs,
                             hf_runner: type[HfRunner],
                             vllm_runner: type[VllmRunner],
-                            video_assets: _VideoAssets, monkeypatch):
+                            video_assets: VideoTestAssets, monkeypatch):
     if model_type in REQUIRES_V0_MODELS:
         monkeypatch.setenv("VLLM_USE_V1", "0")
     model_test_info = VLM_TEST_SETTINGS[model_type]
diff --git a/tests/models/multimodal/generation/test_florence2.py b/tests/models/multimodal/generation/test_florence2.py
index 14b64393b..b8225f5f1 100644
--- a/tests/models/multimodal/generation/test_florence2.py
+++ b/tests/models/multimodal/generation/test_florence2.py
@@ -9,7 +9,7 @@ from vllm.inputs.data import ExplicitEncoderDecoderPrompt, TextPrompt
 from vllm.multimodal.image import rescale_image_size
 from vllm.sequence import SampleLogprobs
 
-from ....conftest import IMAGE_ASSETS, HfRunner, VllmRunner, _ImageAssets
+from ....conftest import IMAGE_ASSETS, HfRunner, ImageTestAssets, VllmRunner
 from ...utils import check_logprobs_close
 
 MODELS = ["microsoft/Florence-2-base"]
@@ -118,7 +118,7 @@ def run_test(
 @pytest.mark.parametrize("max_tokens", [64])
 @pytest.mark.parametrize("num_logprobs", [5])
 def test_models(hf_runner: type[HfRunner], vllm_runner: type[VllmRunner],
-                image_assets: _ImageAssets, model: str,
+                image_assets: ImageTestAssets, model: str,
                 size_factors: list[int], dtype: str, max_tokens: int,
                 num_logprobs: int) -> None:
     images = [asset.pil_image for asset in image_assets]
diff --git a/tests/models/multimodal/generation/test_granite_speech.py b/tests/models/multimodal/generation/test_granite_speech.py
index 7c14845ec..96c444441 100644
--- a/tests/models/multimodal/generation/test_granite_speech.py
+++ b/tests/models/multimodal/generation/test_granite_speech.py
@@ -9,7 +9,8 @@ from transformers import AutoModelForSpeechSeq2Seq
 from vllm.lora.request import LoRARequest
 from vllm.sequence import SampleLogprobs
 
-from ....conftest import HfRunner, PromptAudioInput, VllmRunner, _AudioAssets
+from ....conftest import (AudioTestAssets, HfRunner, PromptAudioInput,
+                          VllmRunner)
 from ...registry import HF_EXAMPLE_MODELS
 from ...utils import check_logprobs_close
 
@@ -116,9 +117,9 @@ def run_test(
 @pytest.mark.parametrize("max_model_len", [2048])
 @pytest.mark.parametrize("max_tokens", [128])
 @pytest.mark.parametrize("num_logprobs", [10])
-def test_models(hf_runner, vllm_runner, model: str, audio_assets: _AudioAssets,
-                dtype: str, max_model_len: int, max_tokens: int,
-                num_logprobs: int) -> None:
+def test_models(hf_runner, vllm_runner, model: str,
+                audio_assets: AudioTestAssets, dtype: str, max_model_len: int,
+                max_tokens: int, num_logprobs: int) -> None:
     model_info = HF_EXAMPLE_MODELS.find_hf_info(model)
     model_info.check_available_online(on_fail="skip")
     model_info.check_transformers_version(on_fail="skip")
diff --git a/tests/models/multimodal/generation/test_interleaved.py b/tests/models/multimodal/generation/test_interleaved.py
index 10052da9b..eec84751e 100644
--- a/tests/models/multimodal/generation/test_interleaved.py
+++ b/tests/models/multimodal/generation/test_interleaved.py
@@ -29,7 +29,7 @@ def test_models(vllm_runner, model, dtype: str, max_tokens: int) -> None:
     image_cherry = ImageAsset("cherry_blossom").pil_image.convert("RGB")
     image_stop = ImageAsset("stop_sign").pil_image.convert("RGB")
     images = [image_cherry, image_stop]
-    video = VideoAsset(name="sample_demo_1", num_frames=16).np_ndarrays
+    video = VideoAsset(name="baby_reading", num_frames=16).np_ndarrays
 
     inputs = [
         (
diff --git a/tests/models/multimodal/generation/test_mllama.py b/tests/models/multimodal/generation/test_mllama.py
index 1e09c8673..99aa3c2d3 100644
--- a/tests/models/multimodal/generation/test_mllama.py
+++ b/tests/models/multimodal/generation/test_mllama.py
@@ -14,8 +14,8 @@ from vllm.model_executor.models.mllama import MllamaForConditionalGeneration
 from vllm.multimodal.image import rescale_image_size
 from vllm.sequence import SampleLogprobs
 
-from ....conftest import (IMAGE_ASSETS, HfRunner, PromptImageInput, VllmRunner,
-                          _ImageAssets)
+from ....conftest import (IMAGE_ASSETS, HfRunner, ImageTestAssets,
+                          PromptImageInput, VllmRunner)
 from ....quantization.utils import is_quant_method_supported
 from ....utils import (create_new_process_for_each_test, large_gpu_test,
                        multi_gpu_test)
@@ -90,7 +90,7 @@ def vllm_to_hf_output(vllm_output: tuple[list[int], str,
 
 
 def _get_inputs(
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     *,
     size_factors: Optional[list[float]] = None,
     sizes: Optional[list[tuple[int, int]]] = None,
@@ -126,7 +126,7 @@ def _get_inputs(
 def run_test(
     hf_runner: type[HfRunner],
     vllm_runner: type[VllmRunner],
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     model: str,
     *,
     size_factors: list[float],
@@ -143,7 +143,7 @@ def run_test(
 def run_test(
     hf_runner: type[HfRunner],
     vllm_runner: type[VllmRunner],
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     model: str,
     *,
     sizes: list[tuple[int, int]],
@@ -159,7 +159,7 @@ def run_test(
 def run_test(
     hf_runner: type[HfRunner],
     vllm_runner: type[VllmRunner],
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     model: str,
     *,
     size_factors: Optional[list[float]] = None,
@@ -433,7 +433,7 @@ def test_models_distributed(
 @pytest.mark.skipif(not is_quant_method_supported("bitsandbytes"),
                     reason='bitsandbytes is not supported on this GPU type.')
 def test_bnb_regression(
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     model: str,
     dtype: str,
     max_tokens: int,
@@ -473,7 +473,7 @@ def test_bnb_regression(
 @pytest.mark.parametrize("dtype", ["bfloat16"])
 @pytest.mark.parametrize("max_tokens", [32])
 def test_explicit_implicit_prompt(
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     model: str,
     dtype: str,
     max_tokens: int,
diff --git a/tests/models/multimodal/generation/test_qwen2_vl.py b/tests/models/multimodal/generation/test_qwen2_vl.py
index 0b27a4caf..6be401b77 100644
--- a/tests/models/multimodal/generation/test_qwen2_vl.py
+++ b/tests/models/multimodal/generation/test_qwen2_vl.py
@@ -50,7 +50,7 @@ IMAGE_PROMPTS = IMAGE_ASSETS.prompts({
 })
 
 VIDEO_PROMPTS = VIDEO_ASSETS.prompts({
-    "sample_demo_1":
+    "baby_reading":
     qwen2_vl_chat_template(
         VIDEO_PLACEHOLDER,
         "Describe this video with a short sentence ",
diff --git a/tests/models/multimodal/generation/test_ultravox.py b/tests/models/multimodal/generation/test_ultravox.py
index 1d7de946a..322d886a5 100644
--- a/tests/models/multimodal/generation/test_ultravox.py
+++ b/tests/models/multimodal/generation/test_ultravox.py
@@ -11,13 +11,22 @@ from transformers import AutoModel, AutoTokenizer
 from vllm.multimodal.audio import resample_audio_librosa
 from vllm.sequence import SampleLogprobs
 
-from ....conftest import HfRunner, VllmRunner, _AudioAssets
+from ....conftest import AUDIO_ASSETS, AudioTestAssets, HfRunner, VllmRunner
 from ....utils import RemoteOpenAIServer
 from ...registry import HF_EXAMPLE_MODELS
 from ...utils import check_logprobs_close
 
 MODEL_NAME = "fixie-ai/ultravox-v0_5-llama-3_2-1b"
 
+AUDIO_PROMPTS = AUDIO_ASSETS.prompts({
+    "mary_had_lamb":
+    "Transcribe this into English.",
+    "winning_call":
+    "What is happening in this audio clip?",
+})
+
+MULTI_AUDIO_PROMPT = "Describe each of the audios above."
+
 AudioTuple = tuple[np.ndarray, int]
 
 VLLM_PLACEHOLDER = "<|audio|>"
@@ -31,12 +40,6 @@ CHUNKED_PREFILL_KWARGS = {
 }
 
 
-@pytest.fixture(scope="module", params=("mary_had_lamb", "winning_call"))
-def audio(request):
-    from vllm.assets.audio import AudioAsset
-    return AudioAsset(request.param)
-
-
 def params_kwargs_to_cli_args(params_kwargs: dict[str, Any]) -> list[str]:
     """Convert kwargs to CLI args."""
     args = []
@@ -53,7 +56,7 @@ def params_kwargs_to_cli_args(params_kwargs: dict[str, Any]) -> list[str]:
     pytest.param({}, marks=pytest.mark.cpu_model),
     pytest.param(CHUNKED_PREFILL_KWARGS),
 ])
-def server(request, audio_assets: _AudioAssets):
+def server(request, audio_assets: AudioTestAssets):
     args = [
         "--dtype", "bfloat16", "--max-model-len", "4096", "--enforce-eager",
         "--limit-mm-per-prompt",
@@ -199,15 +202,19 @@ def run_multi_audio_test(
     pytest.param({}, marks=pytest.mark.cpu_model),
     pytest.param(CHUNKED_PREFILL_KWARGS),
 ])
-def test_models(hf_runner, vllm_runner, audio, dtype: str, max_tokens: int,
-                num_logprobs: int, vllm_kwargs: dict) -> None:
+def test_models(hf_runner, vllm_runner, audio_assets: AudioTestAssets,
+                dtype: str, max_tokens: int, num_logprobs: int,
+                vllm_kwargs: dict) -> None:
+    audio_inputs = [(
+        _get_prompt(1, audio, VLLM_PLACEHOLDER),
+        _get_prompt(1, audio, HF_PLACEHOLDER),
+        audio.audio_and_sample_rate,
+    ) for audio in audio_assets]
 
-    vllm_prompt = _get_prompt(1, "Describe the audio above.", VLLM_PLACEHOLDER)
-    hf_prompt = _get_prompt(1, "Describe the audio above.", HF_PLACEHOLDER)
     run_test(
         hf_runner,
         vllm_runner,
-        [(vllm_prompt, hf_prompt, audio.audio_and_sample_rate)],
+        audio_inputs,
         MODEL_NAME,
         dtype=dtype,
         max_tokens=max_tokens,
@@ -224,13 +231,12 @@ def test_models(hf_runner, vllm_runner, audio, dtype: str, max_tokens: int,
     pytest.param({}, marks=pytest.mark.cpu_model),
     pytest.param(CHUNKED_PREFILL_KWARGS),
 ])
-def test_models_with_multiple_audios(vllm_runner, audio_assets: _AudioAssets,
-                                     dtype: str, max_tokens: int,
-                                     num_logprobs: int,
+def test_models_with_multiple_audios(vllm_runner,
+                                     audio_assets: AudioTestAssets, dtype: str,
+                                     max_tokens: int, num_logprobs: int,
                                      vllm_kwargs: dict) -> None:
 
-    vllm_prompt = _get_prompt(len(audio_assets),
-                              "Describe each of the audios above.",
+    vllm_prompt = _get_prompt(len(audio_assets), MULTI_AUDIO_PROMPT,
                               VLLM_PLACEHOLDER)
     run_multi_audio_test(
         vllm_runner,
@@ -245,7 +251,7 @@ def test_models_with_multiple_audios(vllm_runner, audio_assets: _AudioAssets,
 
 
 @pytest.mark.asyncio
-async def test_online_serving(client, audio_assets: _AudioAssets):
+async def test_online_serving(client, audio_assets: AudioTestAssets):
     """Exercises online serving with/without chunked prefill enabled."""
 
     messages = [{
diff --git a/tests/models/multimodal/generation/vlm_utils/builders.py b/tests/models/multimodal/generation/vlm_utils/builders.py
index bf5f87ebf..e3ba955a9 100644
--- a/tests/models/multimodal/generation/vlm_utils/builders.py
+++ b/tests/models/multimodal/generation/vlm_utils/builders.py
@@ -11,7 +11,7 @@ from vllm.multimodal.image import rescale_image_size
 from vllm.multimodal.video import (rescale_video_size, resize_video,
                                    sample_frames_from_video)
 
-from .....conftest import _ImageAssets, _VideoAssets
+from .....conftest import ImageTestAssets, VideoTestAssets
 from .types import (SINGLE_IMAGE_BASE_PROMPTS, TEST_IMG_PLACEHOLDER,
                     TEST_VIDEO_PLACEHOLDER, VIDEO_BASE_PROMPT,
                     ImageSizeWrapper, SizeType, VLMTestInfo)
@@ -69,7 +69,7 @@ def get_model_prompts(base_prompts: Iterable[str],
 
 def build_single_image_inputs_from_test_info(
         test_info: VLMTestInfo,
-        image_assets: _ImageAssets,
+        image_assets: ImageTestAssets,
         size_wrapper: ImageSizeWrapper,
         tmp_path: Optional[PosixPath] = None):
     if test_info.prompt_formatter is None:
@@ -116,7 +116,7 @@ def build_single_image_inputs(images, model_prompts,
 
 def build_multi_image_inputs_from_test_info(
         test_info: VLMTestInfo,
-        image_assets: _ImageAssets,
+        image_assets: ImageTestAssets,
         size_wrapper: ImageSizeWrapper,
         tmp_path: Optional[PosixPath] = None):
     if test_info.prompt_formatter is None:
@@ -159,7 +159,7 @@ def build_multi_image_inputs(image_lists, model_prompts,
 
 def build_embedding_inputs_from_test_info(
     test_info: VLMTestInfo,
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     size_wrapper: ImageSizeWrapper,
 ):
     # These conditions will always be true if invoked through filtering,
@@ -192,7 +192,7 @@ def build_embedding_inputs_from_test_info(
 
 def build_video_inputs_from_test_info(
     test_info: VLMTestInfo,
-    video_assets: _VideoAssets,
+    video_assets: VideoTestAssets,
     size_wrapper: ImageSizeWrapper,
     num_frames: int,
 ):
diff --git a/tests/models/multimodal/generation/vlm_utils/model_utils.py b/tests/models/multimodal/generation/vlm_utils/model_utils.py
index c856fb198..aa9d3901f 100644
--- a/tests/models/multimodal/generation/vlm_utils/model_utils.py
+++ b/tests/models/multimodal/generation/vlm_utils/model_utils.py
@@ -16,7 +16,7 @@ from transformers import (AutoConfig, AutoTokenizer, BatchFeature,
 from vllm.sequence import SampleLogprobs
 from vllm.transformers_utils.tokenizer import patch_padding_side
 
-from .....conftest import HfRunner, ImageAsset, _ImageAssets
+from .....conftest import HfRunner, ImageAsset, ImageTestAssets
 from .types import RunnerOutput
 
 
@@ -238,14 +238,14 @@ def minimax_vl_01_hf_output(hf_output: RunnerOutput,
 
 
 ####### Functions for converting image assets to embeddings
-def get_llava_embeddings(image_assets: _ImageAssets):
+def get_llava_embeddings(image_assets: ImageTestAssets):
     return [asset.image_embeds for asset in image_assets]
 
 
 ####### Prompt path encoders for models that need models on disk
 def qwen_prompt_path_encoder(
-        tmp_path: PosixPath, prompt: str, assets: Union[list[ImageAsset],
-                                                        _ImageAssets]) -> str:
+        tmp_path: PosixPath, prompt: str,
+        assets: Union[list[ImageAsset], ImageTestAssets]) -> str:
     """Given a temporary dir path, export one or more image assets into the
     tempdir & replace its contents with the local path to the string so that
     the HF version of Qwen-VL can resolve the path and load the image in its
diff --git a/tests/models/multimodal/generation/vlm_utils/runners.py b/tests/models/multimodal/generation/vlm_utils/runners.py
index 023df5f16..34753121e 100644
--- a/tests/models/multimodal/generation/vlm_utils/runners.py
+++ b/tests/models/multimodal/generation/vlm_utils/runners.py
@@ -4,7 +4,8 @@ types / modalities.
 """
 from pathlib import PosixPath
 
-from .....conftest import HfRunner, VllmRunner, _ImageAssets, _VideoAssets
+from .....conftest import (HfRunner, ImageTestAssets, VideoTestAssets,
+                           VllmRunner)
 from . import builders, core
 from .types import ExpandableVLMTestArgs, VLMTestInfo
 
@@ -14,7 +15,7 @@ def run_single_image_test(*, tmp_path: PosixPath, model_test_info: VLMTestInfo,
                           test_case: ExpandableVLMTestArgs,
                           hf_runner: type[HfRunner],
                           vllm_runner: type[VllmRunner],
-                          image_assets: _ImageAssets):
+                          image_assets: ImageTestAssets):
     assert test_case.size_wrapper is not None
     inputs = builders.build_single_image_inputs_from_test_info(
         model_test_info, image_assets, test_case.size_wrapper, tmp_path)
@@ -37,7 +38,7 @@ def run_multi_image_test(*, tmp_path: PosixPath, model_test_info: VLMTestInfo,
                          test_case: ExpandableVLMTestArgs,
                          hf_runner: type[HfRunner],
                          vllm_runner: type[VllmRunner],
-                         image_assets: _ImageAssets):
+                         image_assets: ImageTestAssets):
     assert test_case.size_wrapper is not None
     inputs = builders.build_multi_image_inputs_from_test_info(
         model_test_info, image_assets, test_case.size_wrapper, tmp_path)
@@ -60,7 +61,7 @@ def run_embedding_test(*, model_test_info: VLMTestInfo,
                        test_case: ExpandableVLMTestArgs,
                        hf_runner: type[HfRunner],
                        vllm_runner: type[VllmRunner],
-                       image_assets: _ImageAssets):
+                       image_assets: ImageTestAssets):
     assert test_case.size_wrapper is not None
     inputs, vllm_embeddings = builders.build_embedding_inputs_from_test_info(
         model_test_info, image_assets, test_case.size_wrapper)
@@ -86,7 +87,7 @@ def run_video_test(
     test_case: ExpandableVLMTestArgs,
     hf_runner: type[HfRunner],
     vllm_runner: type[VllmRunner],
-    video_assets: _VideoAssets,
+    video_assets: VideoTestAssets,
 ):
     assert test_case.size_wrapper is not None
     assert test_case.num_video_frames is not None
diff --git a/tests/models/multimodal/generation/vlm_utils/types.py b/tests/models/multimodal/generation/vlm_utils/types.py
index 1ae61ea47..566293233 100644
--- a/tests/models/multimodal/generation/vlm_utils/types.py
+++ b/tests/models/multimodal/generation/vlm_utils/types.py
@@ -15,7 +15,7 @@ from vllm.config import TaskOption
 from vllm.sequence import SampleLogprobs
 from vllm.transformers_utils.tokenizer import AnyTokenizer
 
-from .....conftest import IMAGE_ASSETS, HfRunner, ImageAsset, _ImageAssets
+from .....conftest import IMAGE_ASSETS, HfRunner, ImageAsset, ImageTestAssets
 from ....utils import check_logprobs_close
 
 # meta image tag; will be replaced by the appropriate tag for the model
@@ -85,7 +85,7 @@ class VLMTestInfo(NamedTuple):
 
     # Function for converting ImageAssets to image embeddings;
     # We need to define this explicitly for embedding tests
-    convert_assets_to_embeddings: Optional[Callable[[_ImageAssets],
+    convert_assets_to_embeddings: Optional[Callable[[ImageTestAssets],
                                                     torch.Tensor]] = None
 
     # Exposed options for vLLM runner; we change these in a several tests,
@@ -141,7 +141,7 @@ class VLMTestInfo(NamedTuple):
     # for Qwen-VL, which requires encoding the image path / url into the prompt
     # for HF runner
     prompt_path_encoder: Optional[
-        Callable[[PosixPath, str, Union[list[ImageAsset], _ImageAssets]],
+        Callable[[PosixPath, str, Union[list[ImageAsset], ImageTestAssets]],
                  str]] = None  # noqa: E501
 
     # Allows configuring a test to run with custom inputs
diff --git a/tests/models/multimodal/pooling/test_intern_vit.py b/tests/models/multimodal/pooling/test_intern_vit.py
index c15913b42..038405ded 100644
--- a/tests/models/multimodal/pooling/test_intern_vit.py
+++ b/tests/models/multimodal/pooling/test_intern_vit.py
@@ -7,7 +7,7 @@ from transformers import AutoConfig, AutoModel, CLIPImageProcessor
 
 from vllm.distributed import cleanup_dist_env_and_memory
 
-from ....conftest import _ImageAssets
+from ....conftest import ImageTestAssets
 
 # we use snapshot_download to prevent conflicts between
 # dynamic_module and trust_remote_code for hf_runner
@@ -15,7 +15,7 @@ DOWNLOAD_PATTERN = ["*.json", "*.py", "*.safetensors", "*.txt", "*.model"]
 
 
 def run_intern_vit_test(
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     model_id: str,
     *,
     dtype: str,
diff --git a/tests/models/multimodal/processing/test_h2ovl.py b/tests/models/multimodal/processing/test_h2ovl.py
index 709a68657..37142b6dd 100644
--- a/tests/models/multimodal/processing/test_h2ovl.py
+++ b/tests/models/multimodal/processing/test_h2ovl.py
@@ -11,7 +11,7 @@ from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.image import rescale_image_size
 from vllm.multimodal.processing import BaseMultiModalProcessor
 
-from ....conftest import _ImageAssets
+from ....conftest import ImageTestAssets
 from ...utils import build_model_context
 
 
@@ -137,7 +137,7 @@ def _run_check(
 @pytest.mark.parametrize("kwargs_on_init", [True, False])
 def test_processor_override(
     model_id: str,
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     size_factors: list[int],
     min_dynamic_patch: int,
     max_dynamic_patch: int,
diff --git a/tests/models/multimodal/processing/test_idefics3.py b/tests/models/multimodal/processing/test_idefics3.py
index f5b5cf6b5..c35ce2f6a 100644
--- a/tests/models/multimodal/processing/test_idefics3.py
+++ b/tests/models/multimodal/processing/test_idefics3.py
@@ -5,7 +5,7 @@ from transformers import Idefics3Config
 
 from vllm.multimodal import MULTIMODAL_REGISTRY
 
-from ....conftest import _ImageAssets
+from ....conftest import ImageTestAssets
 from ...utils import build_model_context
 
 
@@ -21,7 +21,7 @@ from ...utils import build_model_context
 @pytest.mark.parametrize("num_imgs", [1, 2])
 @pytest.mark.parametrize("kwargs_on_init", [True, False])
 def test_processor_override(
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     model_id: str,
     mm_processor_kwargs: dict[str, object],
     expected_toks_per_img: int,
diff --git a/tests/models/multimodal/processing/test_internvl.py b/tests/models/multimodal/processing/test_internvl.py
index 5ac47ecc5..7ec81197a 100644
--- a/tests/models/multimodal/processing/test_internvl.py
+++ b/tests/models/multimodal/processing/test_internvl.py
@@ -11,7 +11,7 @@ from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.image import rescale_image_size
 from vllm.multimodal.processing import BaseMultiModalProcessor
 
-from ....conftest import _ImageAssets
+from ....conftest import ImageTestAssets
 from ...utils import build_model_context
 
 
@@ -94,7 +94,7 @@ def _run_check(
 @pytest.mark.parametrize("kwargs_on_init", [True, False])
 def test_processor_override(
     model_id: str,
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     size_factors: list[int],
     min_dynamic_patch: int,
     max_dynamic_patch: int,
diff --git a/tests/models/multimodal/processing/test_llama4.py b/tests/models/multimodal/processing/test_llama4.py
index 2bfc2785f..614f17dbb 100644
--- a/tests/models/multimodal/processing/test_llama4.py
+++ b/tests/models/multimodal/processing/test_llama4.py
@@ -6,7 +6,7 @@ import pytest
 from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.transformers_utils.tokenizer import encode_tokens
 
-from ....conftest import _ImageAssets
+from ....conftest import ImageTestAssets
 from ...utils import build_model_context
 
 
@@ -17,7 +17,7 @@ from ...utils import build_model_context
 @pytest.mark.parametrize("disable_mm_preprocessor_cache", [True, False])
 @pytest.mark.parametrize("tokenized_prompt", [True, False])
 def test_processor_override(
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     model_id: str,
     mm_processor_kwargs: dict,
     num_imgs: int,
diff --git a/tests/models/multimodal/processing/test_minimax_vl_01.py b/tests/models/multimodal/processing/test_minimax_vl_01.py
index 10de28ab5..9bd2b9887 100644
--- a/tests/models/multimodal/processing/test_minimax_vl_01.py
+++ b/tests/models/multimodal/processing/test_minimax_vl_01.py
@@ -7,14 +7,14 @@ from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.parse import ImageSize
 from vllm.multimodal.processing import BaseMultiModalProcessor
 
-from ....conftest import _ImageAssets
+from ....conftest import ImageTestAssets
 from ...utils import build_model_context
 
 
 @pytest.mark.parametrize("model_id", ["MiniMaxAI/MiniMax-VL-01"])
 @pytest.mark.parametrize("num_imgs", [1, 2])
 def test_processor_override(
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     model_id: str,
     num_imgs: int,
 ):
diff --git a/tests/models/multimodal/processing/test_phi3v.py b/tests/models/multimodal/processing/test_phi3v.py
index ed0d04c5c..b53351544 100644
--- a/tests/models/multimodal/processing/test_phi3v.py
+++ b/tests/models/multimodal/processing/test_phi3v.py
@@ -4,7 +4,7 @@ import pytest
 
 from vllm.multimodal import MULTIMODAL_REGISTRY
 
-from ....conftest import _ImageAssets
+from ....conftest import ImageTestAssets
 from ...utils import build_model_context
 
 
@@ -22,7 +22,7 @@ from ...utils import build_model_context
 @pytest.mark.parametrize("num_imgs", [1, 2])
 @pytest.mark.parametrize("kwargs_on_init", [True, False])
 def test_processor_override(
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     model_id: str,
     mm_processor_kwargs: dict[str, int],
     expected_toks_per_img: int,
diff --git a/tests/models/multimodal/processing/test_phi4mm.py b/tests/models/multimodal/processing/test_phi4mm.py
index 797986adb..c6e272650 100644
--- a/tests/models/multimodal/processing/test_phi4mm.py
+++ b/tests/models/multimodal/processing/test_phi4mm.py
@@ -4,7 +4,7 @@ import pytest
 
 from vllm.multimodal import MULTIMODAL_REGISTRY
 
-from ....conftest import _ImageAssets
+from ....conftest import ImageTestAssets
 from ...utils import build_model_context
 
 
@@ -22,7 +22,7 @@ from ...utils import build_model_context
 @pytest.mark.parametrize("num_imgs", [1, 2])
 @pytest.mark.parametrize("kwargs_on_init", [True, False])
 def test_processor_override(
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     model_id: str,
     mm_processor_kwargs: dict[str, int],
     expected_toks_per_img: int,
diff --git a/tests/models/multimodal/processing/test_qwen2_vl.py b/tests/models/multimodal/processing/test_qwen2_vl.py
index d8c2ca414..02abe1ca8 100644
--- a/tests/models/multimodal/processing/test_qwen2_vl.py
+++ b/tests/models/multimodal/processing/test_qwen2_vl.py
@@ -4,7 +4,7 @@ import pytest
 
 from vllm.multimodal import MULTIMODAL_REGISTRY
 
-from ....conftest import _ImageAssets
+from ....conftest import ImageTestAssets
 from ...utils import build_model_context
 
 
@@ -19,7 +19,7 @@ from ...utils import build_model_context
 @pytest.mark.parametrize("num_imgs", [1, 2])
 @pytest.mark.parametrize("kwargs_on_init", [True, False])
 def test_processor_override(
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     model_id: str,
     mm_processor_kwargs: dict[str, object],
     expected_toks_per_img: int,
diff --git a/tests/models/multimodal/processing/test_smolvlm.py b/tests/models/multimodal/processing/test_smolvlm.py
index 56edc58a7..224d1bced 100644
--- a/tests/models/multimodal/processing/test_smolvlm.py
+++ b/tests/models/multimodal/processing/test_smolvlm.py
@@ -5,7 +5,7 @@ from transformers import SmolVLMConfig
 
 from vllm.multimodal import MULTIMODAL_REGISTRY
 
-from ....conftest import _ImageAssets
+from ....conftest import ImageTestAssets
 from ...utils import build_model_context
 
 
@@ -21,7 +21,7 @@ from ...utils import build_model_context
 @pytest.mark.parametrize("num_imgs", [1, 2])
 @pytest.mark.parametrize("kwargs_on_init", [True, False])
 def test_processor_override(
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     model_id: str,
     mm_processor_kwargs: dict[str, object],
     expected_toks_per_img: int,
diff --git a/tests/models/quantization/test_awq.py b/tests/models/quantization/test_awq.py
index c02c3d90e..597c8e48f 100644
--- a/tests/models/quantization/test_awq.py
+++ b/tests/models/quantization/test_awq.py
@@ -7,7 +7,7 @@ import torch
 
 from vllm.multimodal.image import rescale_image_size
 
-from ...conftest import IMAGE_ASSETS, VllmRunner, _ImageAssets
+from ...conftest import IMAGE_ASSETS, ImageTestAssets, VllmRunner
 from ..utils import check_logprobs_close
 
 HF_IMAGE_PROMPTS = IMAGE_ASSETS.prompts({
@@ -20,7 +20,7 @@ HF_IMAGE_PROMPTS = IMAGE_ASSETS.prompts({
 
 def run_awq_test(
     vllm_runner: type[VllmRunner],
-    image_assets: _ImageAssets,
+    image_assets: ImageTestAssets,
     source_model: str,
     quant_model: str,
     *,
diff --git a/vllm/assets/audio.py b/vllm/assets/audio.py
index 0203dc092..a21eb7f59 100644
--- a/vllm/assets/audio.py
+++ b/vllm/assets/audio.py
@@ -18,19 +18,25 @@ except ImportError:
 
 ASSET_DIR = "multimodal_asset"
 
+AudioAssetName = Literal["winning_call", "mary_had_lamb"]
+
 
 @dataclass(frozen=True)
 class AudioAsset:
-    name: Literal["winning_call", "mary_had_lamb"]
+    name: AudioAssetName
+
+    @property
+    def filename(self) -> str:
+        return f"{self.name}.ogg"
 
     @property
     def audio_and_sample_rate(self) -> tuple[npt.NDArray, float]:
-        audio_path = get_vllm_public_assets(filename=f"{self.name}.ogg",
+        audio_path = get_vllm_public_assets(filename=self.filename,
                                             s3_prefix=ASSET_DIR)
         return librosa.load(audio_path, sr=None)
 
     def get_local_path(self) -> Path:
-        return get_vllm_public_assets(filename=f"{self.name}.ogg",
+        return get_vllm_public_assets(filename=self.filename,
                                       s3_prefix=ASSET_DIR)
 
     @property
diff --git a/vllm/assets/image.py b/vllm/assets/image.py
index 2b1d258da..d8cca9b74 100644
--- a/vllm/assets/image.py
+++ b/vllm/assets/image.py
@@ -10,10 +10,12 @@ from .base import get_vllm_public_assets
 
 VLM_IMAGES_DIR = "vision_model_images"
 
+ImageAssetName = Literal["stop_sign", "cherry_blossom"]
+
 
 @dataclass(frozen=True)
 class ImageAsset:
-    name: Literal["stop_sign", "cherry_blossom"]
+    name: ImageAssetName
 
     @property
     def pil_image(self) -> Image.Image:
diff --git a/vllm/assets/video.py b/vllm/assets/video.py
index fc3d47341..bf06746a9 100644
--- a/vllm/assets/video.py
+++ b/vllm/assets/video.py
@@ -2,7 +2,7 @@
 
 from dataclasses import dataclass
 from functools import lru_cache
-from typing import Literal, Optional
+from typing import ClassVar, Literal, Optional
 
 import cv2
 import numpy as np
@@ -76,20 +76,31 @@ def video_to_pil_images_list(path: str,
     ]
 
 
+VideoAssetName = Literal["baby_reading"]
+
+
 @dataclass(frozen=True)
 class VideoAsset:
-    name: Literal["sample_demo_1"]
+    name: VideoAssetName
     num_frames: int = -1
 
+    _NAME_TO_FILE: ClassVar[dict[VideoAssetName, str]] = {
+        "baby_reading": "sample_demo_1.mp4",
+    }
+
+    @property
+    def filename(self) -> str:
+        return self._NAME_TO_FILE[self.name]
+
     @property
     def pil_images(self) -> list[Image.Image]:
-        video_path = download_video_asset(self.name + ".mp4")
+        video_path = download_video_asset(self.filename)
         ret = video_to_pil_images_list(video_path, self.num_frames)
         return ret
 
     @property
     def np_ndarrays(self) -> npt.NDArray:
-        video_path = download_video_asset(self.name + ".mp4")
+        video_path = download_video_asset(self.filename)
         ret = video_to_ndarrays(video_path, self.num_frames)
         return ret
 
@@ -99,5 +110,5 @@ class VideoAsset:
         
         See also: examples/offline_inference/qwen2_5_omni/only_thinker.py
         """
-        video_path = download_video_asset(self.name + ".mp4")
+        video_path = download_video_asset(self.filename)
         return librosa.load(video_path, sr=sampling_rate)[0]
-- 
GitLab


From b8b0859b5c8ab41dd4d233e502bb2640c91d32aa Mon Sep 17 00:00:00 2001
From: Yang Wang <elainewy@meta.com>
Date: Fri, 2 May 2025 03:29:59 -0700
Subject: [PATCH 122/461] add more pytorch related tests for torch nightly
 (#17422)

Signed-off-by: Yang Wang <elainewy@meta.com>
---
 .buildkite/test-pipeline.yaml       | 4 ++++
 requirements/nightly_torch_test.txt | 8 +++++++-
 vllm/sampling_params.py             | 6 +++---
 3 files changed, 14 insertions(+), 4 deletions(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index d3c07cdda..84ee991f5 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -293,6 +293,7 @@ steps:
   parallelism: 4
 
 - label: PyTorch Compilation Unit Tests
+  torch_nightly: true
   source_file_dependencies:
     - vllm/
     - tests/compile
@@ -302,6 +303,7 @@ steps:
     - pytest -v -s compile/test_sequence_parallelism.py
 
 - label: PyTorch Fullgraph Smoke Test # 9min
+  torch_nightly: true
   source_file_dependencies:
   - vllm/
   - tests/compile
@@ -312,6 +314,7 @@ steps:
   - pytest -v -s compile/piecewise/test_toy_llama.py
 
 - label: PyTorch Fullgraph Test # 18min
+  torch_nightly: true
   source_file_dependencies:
   - vllm/
   - tests/compile
@@ -436,6 +439,7 @@ steps:
 #####  models test  #####
 
 - label: Basic Models Test # 24min
+  torch_nightly: true
   source_file_dependencies:
   - vllm/
   - tests/models
diff --git a/requirements/nightly_torch_test.txt b/requirements/nightly_torch_test.txt
index 199bcafe0..e2711354a 100644
--- a/requirements/nightly_torch_test.txt
+++ b/requirements/nightly_torch_test.txt
@@ -23,5 +23,11 @@ runai-model-streamer-s3==0.11.0
 tensorizer>=2.9.0
 lm-eval==0.4.8
 buildkite-test-collector==0.1.9
-
 lm-eval[api]==0.4.8 # required for model evaluation test
+
+# required for quantization test
+bitsandbytes>=0.45.3
+
+# required for minicpmo_26 test
+vector_quantize_pytorch
+vocos
diff --git a/vllm/sampling_params.py b/vllm/sampling_params.py
index 3ac5c5c3d..66a77681b 100644
--- a/vllm/sampling_params.py
+++ b/vllm/sampling_params.py
@@ -186,9 +186,9 @@ class SamplingParams(
         logits_processors: list of functions that modify logits based on
             previously generated tokens, and optionally prompt tokens as
             a first argument.
-        truncate_prompt_tokens: If set to -1, will use the truncation size 
-            supported by the model. If set to an integer k, will use only 
-            the last k tokens from the prompt (i.e., left truncation). 
+        truncate_prompt_tokens: If set to -1, will use the truncation size
+            supported by the model. If set to an integer k, will use only
+            the last k tokens from the prompt (i.e., left truncation).
             Defaults to None (i.e., no truncation).
         guided_decoding: If provided, the engine will construct a guided
             decoding logits processor from these parameters. Defaults to None.
-- 
GitLab


From 6d1479ca4b5a3904b6c5b4a1d741dda43efdc289 Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Fri, 2 May 2025 20:24:45 +0800
Subject: [PATCH 123/461] [doc] add the print result (#17584)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 docs/source/features/quantization/fp8.md | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/docs/source/features/quantization/fp8.md b/docs/source/features/quantization/fp8.md
index b90bb49ef..f87b2a02c 100644
--- a/docs/source/features/quantization/fp8.md
+++ b/docs/source/features/quantization/fp8.md
@@ -30,6 +30,7 @@ from vllm import LLM
 model = LLM("facebook/opt-125m", quantization="fp8")
 # INFO 06-10 17:55:42 model_runner.py:157] Loading model weights took 0.1550 GB
 result = model.generate("Hello, my name is")
+print(result[0].outputs[0].text)
 ```
 
 :::{warning}
@@ -106,6 +107,7 @@ Load and run the model in `vllm`:
 from vllm import LLM
 model = LLM("./Meta-Llama-3-8B-Instruct-FP8-Dynamic")
 model.generate("Hello my name is")
+print(result[0].outputs[0].text)
 ```
 
 Evaluate accuracy with `lm_eval` (for example on 250 samples of `gsm8k`):
@@ -188,4 +190,5 @@ from vllm import LLM
 model = LLM(model="Meta-Llama-3-8B-Instruct-FP8/")
 # INFO 06-10 21:15:41 model_runner.py:159] Loading model weights took 8.4596 GB
 result = model.generate("Hello, my name is")
+print(result[0].outputs[0].text)
 ```
-- 
GitLab


From 785d75a03b73a903ff86cd9aa23a3addcdbbd8ab Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Fri, 2 May 2025 13:24:55 +0100
Subject: [PATCH 124/461] Automatically tell users that dict args must be valid
 JSON in CLI (#17577)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 tests/engine/test_arg_utils.py |  5 +++++
 vllm/config.py                 | 19 +++++++------------
 vllm/engine/arg_utils.py       |  4 +++-
 3 files changed, 15 insertions(+), 13 deletions(-)

diff --git a/tests/engine/test_arg_utils.py b/tests/engine/test_arg_utils.py
index 16721ee9c..65471cb3a 100644
--- a/tests/engine/test_arg_utils.py
+++ b/tests/engine/test_arg_utils.py
@@ -106,6 +106,8 @@ class DummyConfigClass:
     """List with literal choices"""
     literal_literal: Literal[Literal[1], Literal[2]] = 1
     """Literal of literals with default 1"""
+    json_tip: dict = field(default_factory=dict)
+    """Dict which will be JSON in CLI"""
 
 
 @pytest.mark.parametrize(("type_hint", "expected"), [
@@ -137,6 +139,9 @@ def test_get_kwargs():
     assert kwargs["list_literal"]["choices"] == [1, 2]
     # literals of literals should have merged choices
     assert kwargs["literal_literal"]["choices"] == [1, 2]
+    # dict should have json tip in help
+    json_tip = "\n\nShould be a valid JSON string."
+    assert kwargs["json_tip"]["help"].endswith(json_tip)
 
 
 @pytest.mark.parametrize(("arg", "expected"), [
diff --git a/vllm/config.py b/vllm/config.py
index 81e2460c2..9738d2fd0 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -268,7 +268,7 @@ class ModelConfig:
     It can be a branch name, a tag name, or a commit id. If unspecified, will
     use the default version."""
     rope_scaling: dict[str, Any] = field(default_factory=dict)
-    """RoPE scaling configuration in JSON format. For example,
+    """RoPE scaling configuration. For example,
     `{"rope_type":"dynamic","factor":2.0}`."""
     rope_theta: Optional[float] = None
     """RoPE theta. Use with `rope_scaling`. In some cases, changing the RoPE
@@ -346,14 +346,13 @@ class ModelConfig:
     (stored in `~/.huggingface`)."""
     hf_overrides: HfOverrides = field(default_factory=dict)
     """If a dictionary, contains arguments to be forwarded to the Hugging Face
-    config. If a callable, it is called to update the HuggingFace config. When
-    specified via CLI, the argument must be a valid JSON string."""
+    config. If a callable, it is called to update the HuggingFace config."""
     mm_processor_kwargs: Optional[dict[str, Any]] = None
     """Arguments to be forwarded to the model's processor for multi-modal data,
     e.g., image processor. Overrides for the multi-modal processor obtained
     from `AutoProcessor.from_pretrained`. The available overrides depend on the
     model that is being run. For example, for Phi-3-Vision: `{"num_crops": 4}`.
-    When specified via CLI, the argument must be a valid JSON string."""
+    """
     disable_mm_preprocessor_cache: bool = False
     """If `True`, disable caching of the multi-modal preprocessor/mapper (not
     recommended)."""
@@ -361,15 +360,14 @@ class ModelConfig:
     """Initialize non-default neuron config or override default neuron config
     that are specific to Neuron devices, this argument will be used to
     configure the neuron config that can not be gathered from the vllm
-    arguments. e.g. `{"cast_logits_dtype": "bloat16"}`. When specified via CLI,
-    the argument must be a valid JSON string."""
+    arguments. e.g. `{"cast_logits_dtype": "bloat16"}`."""
     pooler_config: Optional["PoolerConfig"] = field(init=False)
     """Pooler config which controls the behaviour of output pooling in pooling
     models."""
     override_pooler_config: Optional[Union[dict, "PoolerConfig"]] = None
     """Initialize non-default pooling config or override default pooling config
     for the pooling model. e.g. `{"pooling_type": "mean", "normalize": false}`.
-    When specified via CLI, the argument must be a valid JSON string."""
+    """
     logits_processor_pattern: Optional[str] = None
     """Optional regex pattern specifying valid logits processor qualified names
     that can be passed with the `logits_processors` extra completion argument.
@@ -385,8 +383,7 @@ class ModelConfig:
     """Overrides or sets generation config. e.g. `{"temperature": 0.5}`. If
     used with `--generation-config auto`, the override parameters will be
     merged with the default config from the model. If used with
-    `--generation-config vllm`, only the override parameters are used.
-    When specified via CLI, the argument must be a valid JSON string."""
+    `--generation-config vllm`, only the override parameters are used."""
     enable_sleep_mode: bool = False
     """Enable sleep mode for the engine (only cuda platform is supported)."""
     model_impl: Union[str, ModelImpl] = ModelImpl.AUTO.value
@@ -1556,8 +1553,7 @@ class LoadConfig:
     cache directory of Hugging Face."""
     model_loader_extra_config: dict = field(default_factory=dict)
     """Extra config for model loader. This will be passed to the model loader
-    corresponding to the chosen load_format. This should be a JSON string that
-    will be parsed into a dictionary."""
+    corresponding to the chosen load_format."""
     ignore_patterns: Optional[Union[list[str], str]] = None
     """The list of patterns to ignore when loading the model. Default to
     "original/**/*" to avoid repeated loading of llama's checkpoints."""
@@ -2826,7 +2822,6 @@ class MultiModalConfig:
                                                  "limit_mm_per_prompt")
     """
     The maximum number of input items allowed per prompt for each modality.
-    This should be a JSON string that will be parsed into a dictionary.
     Defaults to 1 (V0) or 999 (V1) for each modality.
 
     For example, to allow up to 16 images and 2 videos per prompt:
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 4ffc0b767..0ba14c4de 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -150,7 +150,7 @@ def get_kwargs(cls: ConfigType) -> dict[str, Any]:
 
         # Get the help text for the field
         name = field.name
-        help = cls_docs[name]
+        help = cls_docs[name].strip()
         # Escape % for argparse
         help = help.replace("%", "%%")
 
@@ -165,6 +165,7 @@ def get_kwargs(cls: ConfigType) -> dict[str, Any]:
             type_hints.add(field.type)
 
         # Set other kwargs based on the type hints
+        json_tip = "\n\nShould be a valid JSON string."
         if contains_type(type_hints, bool):
             # Creates --no-<name> and --<name> flags
             kwargs[name]["action"] = argparse.BooleanOptionalAction
@@ -201,6 +202,7 @@ def get_kwargs(cls: ConfigType) -> dict[str, Any]:
         elif contains_type(type_hints, dict):
             # Dict arguments will always be optional
             kwargs[name]["type"] = optional_type(json.loads)
+            kwargs[name]["help"] += json_tip
         elif (contains_type(type_hints, str)
               or any(is_not_builtin(th) for th in type_hints)):
             kwargs[name]["type"] = str
-- 
GitLab


From 99404f53c72965b41558aceb1bc2380875f5d848 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Fri, 2 May 2025 20:36:39 +0800
Subject: [PATCH 125/461] [Security] Fix image hash collision (#17378)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 tests/multimodal/assets/image1.png | Bin 0 -> 1837 bytes
 tests/multimodal/assets/image2.png | Bin 0 -> 1837 bytes
 tests/multimodal/test_hasher.py    |  61 +++++++++++++++++++++++++++++
 vllm/multimodal/hasher.py          |  32 ++++++++++-----
 4 files changed, 83 insertions(+), 10 deletions(-)
 create mode 100644 tests/multimodal/assets/image1.png
 create mode 100644 tests/multimodal/assets/image2.png
 create mode 100644 tests/multimodal/test_hasher.py

diff --git a/tests/multimodal/assets/image1.png b/tests/multimodal/assets/image1.png
new file mode 100644
index 0000000000000000000000000000000000000000..17c7d4cdffe914614b9f53622dbf91c9df9db310
GIT binary patch
literal 1837
zcmeAS@N?(olHy`uVBq!ia0y~yV4MJC2XHV0Nrr!y|1mHyGX(gAxc>kDA1DAJK~ke&
zGz3Oc2&l||(+bQBFFaiwLn`LHnRRj2Vg(*I&rko}?}=A!VNtquZSJj^|L?3}WqqQ-
z`A!6X(0mY2JRf~se(t7K@#P;5ZCLl{Xk_K)<BvUaLzR^FhO}txjyRvCK3`ZV`S!2Z
zM<qMgZe>cFrxn)xYsZAS=YCERc=t5!#7y%QoD+?<6s{Gp(`~WWIwJdQ?|aUL?Gx&9
zcUOoNB`H)p#XT|SxcR<T^~l^$eFBXWZhYSKy>-Hxh2||Dow<9?<O^Nuel?Ms>34p|
z{;q9Hdpr-Xh}|pfyKU0(l9#1h-%2<qttfh%V)&-e=i7#irDo?``r96x-gdn7!Z+ze
zvD3ETyPxmAuiafbyJrGpk8_2I!|hCyZy}|bt-jf|8cQbx&A!X#xOdGC<2e&9D)F<H
z3mEa750~S(n7Tmoqm##*Ox2g4r*TzYvDJ5Zl*2BcGJRc3&-?g2kI!>Fe8S4-zQ?cn
zbxZh;wV_M7F4mXM%h@W?wqdVAsohp9(M?}7KHsU^{%z~rx8>5&8~b8;7Jdv{JoC%B
zdY*Z`G8~)%pD&8>Y}#?N<qD_P*PCY+)y!Az-V@Aok#&XN4!N9X$>*a2ZgGC((O0?i
z;E%yQHxDuAFsCIuQdO3P$8{W=X7j$NKewJaT`?p`v9@)wW5<UIw*JU#A7$?wu2|pt
zgLk*zVlf{li+-i6Q(W7UY_}RlC`&12mCksVuwqS%$n_7M*8eJQo%TN}P_6hYO3!e`
z^{dZXCd}(sb*vS+w0t&yYk|^}KeIjrDn8{^4DIwgt?g7*HRY&4o?KVko8_${>Q6dd
zf30r$(z=&B^JaF3;+=BolX^3CT_^9W_h|7D2#OQGB;OUUtrBO$`nBwGyOT>)$hnp)
zDvu&K<aHu5r)@1h9xv*A!bt9;`1`cTIq8uumyf8;_uC`z(&?AmC&i#W0=KwdiF}%|
zb%MP5$xVk=Ofzgbu}xO@^rg&;B^4gko}1<--d?^!FuzhLC`fTz@|)du+k<6VjvW6#
z&8bZwyo~FY^ZE|f_y0IsH!aAs{`Tdzr}&|FvrjZm*tW6oKG&UNmyQWcb6Bf&S@yZp
z54QP!6?)p-igi{c6V>HfZ+!Cq*t~k{qH2D1moTRt+=-p>tGaxCZceTD<(PQkJBK8f
zcZdmh;cv@H`zBpExnb+7t2f&Z{;3Z=(~;t2AuMF4CnkR`%JZXBNrCO#yS~X@EB5Of
zalUj<vRC~#@o>c4_i1hSi=E8O;y1qZa}%-3KbbJ^WvzC&t^W11C-2HX{C_&My#Ar{
zujj2X7tc&xeeAwikzn|`M*>C03M`n}^oQ9$R!}|nk43I>)?XJOn}Na8)z4*}Q$iB}
DJQVJy

literal 0
HcmV?d00001

diff --git a/tests/multimodal/assets/image2.png b/tests/multimodal/assets/image2.png
new file mode 100644
index 0000000000000000000000000000000000000000..0f13ce5d983d15565e1d3930b041f6917d95ce5f
GIT binary patch
literal 1837
zcmeAS@N?(olHy`uVBq!ia0y~yV4MJC2XHV0Nrr!y|1mHyGX(gAxc>kDA0)!S0B1nB
zqvU7^jD!$4!8XYNm=|7nx;TbZ%y~2G;;h9AJZ_$!{=MH5uiC<*bnDvOTQmRPS;NZu
zM1%942>u}XAf9+W`nvqwO{?O|KOEYy?$Oc6%FV|gd*+5JDeVnu(byevK1+SRuu}5v
zU$2i!cCOvZlr~Q*tohfD33Jc=oFee<Y21mK<|{ZS8f__DD`2PFVy|^X_SxR|oD170
z)aCB35GzVjsCJ5bV$N~%eXZ(|xu5z38YkTNyy<)Egf$DzTRb{*_ngTWy43w@A~)0T
z{Eq!y+m`lt9$pc<SJ-#kq~j$oOSit2a86oL^ftxtO`*@X4H-+#&bjorJvP1Vc<F_2
z(urcHZNYax-+f=ZyL5KX1jZic3KNIhnI_*tN;6x1vu!n&P6(QPm(6kSnjOY-CR|kF
zXDt^n;yE8K$8j-rf#ydik2jgBFF#M?s=Q*W@A4>zT|Q;{x|W{z@p~Sh=Xm&pmCt>T
zU-j#j@EvPImvUXKFP)dORibUfUWHP-tyZF&zGi&BQ@8!w*12!XrK30Y#quot7`Axk
zmvi+z^Lk}CI0HUk6yw>n<7UehPOYyu&n&8$uiCvQnCBwv3cnq4InR>MM+MyC{K%uP
za_7MxgL`fsV$NYsOLnBHEDMk8I5y4ZeNlgIJ#)HZNRVP}>te@_4;5_vk=H)T-Zxya
zzV!$1ZokE1K28?>N>``2wk6qaHH=V}Qpzfw@h)M-nii4kA3Cl7Ropu5e^j7a@mG|d
z;fm{5pS4Vw*RSeWD{^W1Z2r~)r6+%8eF#*1%BvXK>33S&sj6zqQGq<UuC_PJTSe5L
zbh`dp-SVY%FL&n6><+~{<<ckhX6m|5-dFF@;vo<eCw@u3D_&bA&W81C+2wX8m#C0)
zEmu??MR3ULL}pIgT6{cS)cJ&w+(+^EX_0f%BV8^ZQJe3#N8qK?FSk#ML3;#lalaDz
zG-K-odG(W<4y~AG*m7c<tnTScnHNhcJgPl6%}u<$e1%|srBG0i;<n^ByY03I%d{Lh
z{(qWNn?QIO*DvSw9jx#Fakg$+kZ1kv%WY5bL+@svXq>QZW8r<SJI5{^6PV_(R_n6t
zbEh9{^ZhFHw7C`QtV$-T%eCJ4<o~gG_0~nz{OT@YPCK|0JL6Y%`TX3RTJOs-@xpfw
zNiOdY6Yj#_mXr2Px^i;E)>T(;wjcacA9|)E#mPcg$WBj8{#=yjN2ihk+qZXplf72#
z*EiyP>7Hb-`fuXlh`I06+U^%SnVH3JeCg*VVwHa~VcyGH?QmQD>t|2im4EpEbZB|~
zL+4-5TVpPsnY#MeeX%0J@O6&_ii{OlFth0ovwy6hO70(vT;;64E<iQ|gQu&X%Q~lo
FCIF(W?gIb-

literal 0
HcmV?d00001

diff --git a/tests/multimodal/test_hasher.py b/tests/multimodal/test_hasher.py
new file mode 100644
index 000000000..17b36b368
--- /dev/null
+++ b/tests/multimodal/test_hasher.py
@@ -0,0 +1,61 @@
+# SPDX-License-Identifier: Apache-2.0
+from pathlib import Path
+
+import numpy as np
+import pytest
+import torch
+from PIL import Image, ImageDraw
+
+from vllm.multimodal.hasher import MultiModalHasher
+
+ASSETS_DIR = Path(__file__).parent / "assets"
+assert ASSETS_DIR.exists()
+
+
+# NOTE: Images that are the same visually are allowed to have the same hash
+@pytest.mark.parametrize("mode_pair", [("1", "L"), ("RGBA", "CMYK")])
+def test_hash_collision_image_mode(mode_pair):
+    mode1, mode2 = mode_pair
+    image1 = Image.new(mode1, size=(10, 10), color=1)
+    image2 = Image.new(mode2, size=(10, 10), color=1)
+
+    hasher = MultiModalHasher
+    assert hasher.hash_kwargs(image=image1) != hasher.hash_kwargs(image=image2)
+
+
+def test_hash_collision_image_palette():
+    # These images differ only in Image.palette._palette
+    image1 = Image.open(ASSETS_DIR / "image1.png")
+    image2 = Image.open(ASSETS_DIR / "image2.png")
+
+    hasher = MultiModalHasher
+    assert hasher.hash_kwargs(image=image1) != hasher.hash_kwargs(image=image2)
+
+
+def test_hash_collision_image_transpose():
+    image1 = Image.new("1", size=(10, 20))
+    ImageDraw.Draw(image1).line([(0, 0), (10, 0)])
+
+    image2 = Image.new("1", size=(20, 10))
+    ImageDraw.Draw(image2).line([(0, 0), (0, 10)])
+
+    hasher = MultiModalHasher
+    assert hasher.hash_kwargs(image=image1) != hasher.hash_kwargs(image=image2)
+
+
+def test_hash_collision_tensor_shape():
+    # The hash should be different though the data is the same when flattened
+    arr1 = torch.zeros((5, 10, 20, 3))
+    arr2 = torch.zeros((10, 20, 5, 3))
+
+    hasher = MultiModalHasher
+    assert hasher.hash_kwargs(data=arr1) != hasher.hash_kwargs(data=arr2)
+
+
+def test_hash_collision_array_shape():
+    # The hash should be different though the data is the same when flattened
+    arr1 = np.zeros((5, 10, 20, 3))
+    arr2 = np.zeros((10, 20, 5, 3))
+
+    hasher = MultiModalHasher
+    assert hasher.hash_kwargs(data=arr1) != hasher.hash_kwargs(data=arr2)
diff --git a/vllm/multimodal/hasher.py b/vllm/multimodal/hasher.py
index 11665ef66..53e289370 100644
--- a/vllm/multimodal/hasher.py
+++ b/vllm/multimodal/hasher.py
@@ -31,16 +31,20 @@ class MultiModalHasher:
             return obj.encode("utf-8")
         if isinstance(obj, bytes):
             return obj
-        if isinstance(obj, Image.Image):
-            return obj.tobytes()
+        if isinstance(obj, (int, float)):
+            return np.array(obj).tobytes()
 
-        # Convertible to NumPy arrays
+        if isinstance(obj, Image.Image):
+            return cls.item_to_bytes("image", np.array(obj.convert("RGBA")))
         if isinstance(obj, torch.Tensor):
-            obj = obj.numpy()
-        if isinstance(obj, (int, float)):
-            obj = np.array(obj)
+            return cls.item_to_bytes("tensor", obj.numpy())
         if isinstance(obj, np.ndarray):
-            return obj.tobytes()
+            return cls.item_to_bytes(
+                "ndarray", {
+                    "dtype": obj.dtype.str,
+                    "shape": obj.shape,
+                    "data": obj.data.tobytes(),
+                })
 
         logger.warning(
             "No serialization method found for %s. "
@@ -53,14 +57,22 @@ class MultiModalHasher:
         cls,
         key: str,
         obj: object,
+    ) -> bytes:
+        return b''.join(kb + vb for kb, vb in cls.iter_item_to_bytes(key, obj))
+
+    @classmethod
+    def iter_item_to_bytes(
+        cls,
+        key: str,
+        obj: object,
     ) -> Iterable[tuple[bytes, bytes]]:
         # Recursive cases
         if isinstance(obj, (list, tuple)):
             for i, elem in enumerate(obj):
-                yield from cls.item_to_bytes(f"{key}.{i}", elem)
+                yield from cls.iter_item_to_bytes(f"{key}.{i}", elem)
         elif isinstance(obj, dict):
             for k, v in obj.items():
-                yield from cls.item_to_bytes(f"{key}.{k}", v)
+                yield from cls.iter_item_to_bytes(f"{key}.{k}", v)
         else:
             key_bytes = cls.serialize_item(key)
             value_bytes = cls.serialize_item(obj)
@@ -71,7 +83,7 @@ class MultiModalHasher:
         hasher = blake3()
 
         for k, v in kwargs.items():
-            for k_bytes, v_bytes in cls.item_to_bytes(k, v):
+            for k_bytes, v_bytes in cls.iter_item_to_bytes(k, v):
                 hasher.update(k_bytes)
                 hasher.update(v_bytes)
 
-- 
GitLab


From 868c546da42accb8184c070ddd9fb94628ba9c2c Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Fri, 2 May 2025 08:03:32 -0600
Subject: [PATCH 126/461] Support W8A8 INT8 MoE for compressed-tensors (#16745)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 .../compressed_tensors_moe.py                 | 135 ++++++++++++++++++
 .../quantization/kernels/scaled_mm/cutlass.py |   2 +-
 2 files changed, 136 insertions(+), 1 deletion(-)

diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index 721e36af2..ae16a20cf 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -34,6 +34,7 @@ __all__ = [
     "CompressedTensorsMoEMethod",
     "CompressedTensorsW8A8Fp8MoEMethod",
     "CompressedTensorsW8A8Fp8MoECutlassMethod",
+    "CompressedTensorsW8A8Int8MoEMethod",
     "CompressedTensorsWNA16MarlinMoEMethod",
     "CompressedTensorsWNA16MoEMethod",
 ]
@@ -71,6 +72,8 @@ class CompressedTensorsMoEMethod(FusedMoEMethodBase):
             return CompressedTensorsW8A8Fp8MoECutlassMethod(quant_config)
         elif quant_config._is_fp8_w8a8(weight_quant, input_quant):
             return CompressedTensorsW8A8Fp8MoEMethod(quant_config)
+        elif quant_config._is_dynamic_token_w8a8(weight_quant, input_quant):
+            return CompressedTensorsW8A8Int8MoEMethod(quant_config)
         else:
             raise RuntimeError(
                 f"Unsupported FusedMoe scheme: {weight_quant}, {input_quant}")
@@ -545,6 +548,138 @@ class CompressedTensorsW8A8Fp8MoECutlassMethod(CompressedTensorsMoEMethod):
         )
 
 
+class CompressedTensorsW8A8Int8MoEMethod(CompressedTensorsMoEMethod):
+
+    def __init__(
+            self,
+            quant_config: "CompressedTensorsConfig"  # type: ignore # noqa E501
+    ):
+        self.quant_config = quant_config
+        self.weight_quant = self.quant_config.target_scheme_map["Linear"].get(
+            "weights")
+        self.input_quant = self.quant_config.target_scheme_map["Linear"].get(
+            "input_activations")
+
+        per_channel = (
+            self.weight_quant.strategy == QuantizationStrategy.CHANNEL
+            and self.input_quant.strategy == QuantizationStrategy.TOKEN)
+        if not per_channel:
+            raise ValueError(
+                "For INT8 Fused MoE layers, we require channelwise, "
+                "dynamic per token quantization. Found "
+                f"{self.weight_quant}, {self.input_quant}")
+
+        self.static_input_scales = not self.input_quant.dynamic
+        if self.static_input_scales:
+            raise ValueError(
+                "For INT8 Fused MoE layers, we require channelwise, "
+                "dynamic per token quantization. Found static input scales.")
+
+    def create_weights(self, layer: torch.nn.Module, num_experts: int,
+                       hidden_size: int, intermediate_size_per_partition: int,
+                       params_dtype: torch.dtype, **extra_weight_attrs):
+
+        params_dtype = torch.int8
+
+        # WEIGHTS
+        w13_weight = torch.nn.Parameter(torch.empty(
+            num_experts,
+            2 * intermediate_size_per_partition,
+            hidden_size,
+            dtype=params_dtype),
+                                        requires_grad=False)
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+
+        w2_weight = torch.nn.Parameter(torch.empty(
+            num_experts,
+            hidden_size,
+            intermediate_size_per_partition,
+            dtype=params_dtype),
+                                       requires_grad=False)
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+
+        # WEIGHT_SCALES
+        assert self.weight_quant.strategy == QuantizationStrategy.CHANNEL
+        w13_weight_scale = torch.nn.Parameter(torch.ones(
+            num_experts,
+            2 * intermediate_size_per_partition,
+            1,
+            dtype=torch.float32),
+                                              requires_grad=False)
+        layer.register_parameter("w13_weight_scale", w13_weight_scale)
+        w2_weight_scale = torch.nn.Parameter(torch.ones(num_experts,
+                                                        hidden_size,
+                                                        1,
+                                                        dtype=torch.float32),
+                                             requires_grad=False)
+        layer.register_parameter("w2_weight_scale", w2_weight_scale)
+        # Add PER-CHANNEL quantization for FusedMoE.weight_loader.
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.CHANNEL.value})
+        set_weight_attrs(w13_weight_scale, extra_weight_attrs)
+        set_weight_attrs(w2_weight_scale, extra_weight_attrs)
+
+        # INPUT_SCALES
+        assert not self.static_input_scales
+        layer.w13_input_scale = None
+        layer.w2_input_scale = None
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        pass
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: Optional[int] = None,
+        num_expert_group: Optional[int] = None,
+        global_num_experts: int = -1,
+        expert_map: Optional[torch.Tensor] = None,
+        custom_routing_function: Optional[Callable] = None,
+        scoring_func: str = "softmax",
+        e_score_correction_bias: Optional[torch.Tensor] = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+    ) -> torch.Tensor:
+        from vllm.model_executor.layers.fused_moe import fused_experts
+
+        topk_weights, topk_ids = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            e_score_correction_bias=e_score_correction_bias)
+
+        return fused_experts(
+            hidden_states=x,
+            w1=layer.w13_weight,
+            w2=layer.w2_weight,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            inplace=True,
+            activation=activation,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            use_int8_w8a8=True,
+            per_channel_quant=True,
+            global_num_experts=global_num_experts,
+            expert_map=expert_map,
+            w1_scale=layer.w13_weight_scale,
+            w2_scale=layer.w2_weight_scale,
+            a1_scale=layer.w13_input_scale,
+            a2_scale=layer.w2_input_scale)
+
+
 class CompressedTensorsWNA16MarlinMoEMethod(CompressedTensorsMoEMethod):
 
     def __init__(
diff --git a/vllm/model_executor/layers/quantization/kernels/scaled_mm/cutlass.py b/vllm/model_executor/layers/quantization/kernels/scaled_mm/cutlass.py
index 2bf21a05c..047724129 100644
--- a/vllm/model_executor/layers/quantization/kernels/scaled_mm/cutlass.py
+++ b/vllm/model_executor/layers/quantization/kernels/scaled_mm/cutlass.py
@@ -111,7 +111,7 @@ class CutlassScaledMMLinearKernel(ScaledMMLinearKernel):
         # * dynamic, i_s is None and x_s computed from x.
         # * static, i_s is scalar and x_s is i_s.
         symmetric = azp_adj is None
-        x_q, x_s, x_zp = ops.scaled_int8_quant(x,
+        x_q, x_s, x_zp = ops.scaled_int8_quant(x.contiguous(),
                                                i_s,
                                                i_zp,
                                                symmetric=symmetric)
-- 
GitLab


From 3a500cd0b6161933ec7e71cca8b2dfc0982b6f81 Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Fri, 2 May 2025 22:04:49 +0800
Subject: [PATCH 127/461] [doc] miss result (#17589)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 docs/source/features/quantization/fp8.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/source/features/quantization/fp8.md b/docs/source/features/quantization/fp8.md
index f87b2a02c..95e105357 100644
--- a/docs/source/features/quantization/fp8.md
+++ b/docs/source/features/quantization/fp8.md
@@ -106,7 +106,7 @@ Load and run the model in `vllm`:
 ```python
 from vllm import LLM
 model = LLM("./Meta-Llama-3-8B-Instruct-FP8-Dynamic")
-model.generate("Hello my name is")
+result = model.generate("Hello my name is")
 print(result[0].outputs[0].text)
 ```
 
-- 
GitLab


From cb234955dfd4cbad552f4bfe1de6c5a3981766a7 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Fri, 2 May 2025 23:11:53 +0800
Subject: [PATCH 128/461] [Misc] Clean up input processing (#17582)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 .../multimodal/pooling/test_intern_vit.py     |  14 +-
 vllm/engine/async_llm_engine.py               |   4 -
 vllm/engine/llm_engine.py                     |  34 +-
 vllm/engine/protocol.py                       |   3 +
 vllm/entrypoints/llm.py                       |   6 +-
 vllm/inputs/data.py                           |  23 +-
 vllm/inputs/parse.py                          |  27 +-
 vllm/inputs/preprocess.py                     | 517 ++++++++++--------
 vllm/multimodal/processing.py                 |  12 +-
 9 files changed, 357 insertions(+), 283 deletions(-)

diff --git a/tests/models/multimodal/pooling/test_intern_vit.py b/tests/models/multimodal/pooling/test_intern_vit.py
index 038405ded..76f9fbe02 100644
--- a/tests/models/multimodal/pooling/test_intern_vit.py
+++ b/tests/models/multimodal/pooling/test_intern_vit.py
@@ -6,6 +6,7 @@ from huggingface_hub import snapshot_download
 from transformers import AutoConfig, AutoModel, CLIPImageProcessor
 
 from vllm.distributed import cleanup_dist_env_and_memory
+from vllm.utils import STR_DTYPE_TO_TORCH_DTYPE
 
 from ....conftest import ImageTestAssets
 
@@ -14,6 +15,7 @@ from ....conftest import ImageTestAssets
 DOWNLOAD_PATTERN = ["*.json", "*.py", "*.safetensors", "*.txt", "*.model"]
 
 
+@torch.inference_mode()
 def run_intern_vit_test(
     image_assets: ImageTestAssets,
     model_id: str,
@@ -21,11 +23,12 @@ def run_intern_vit_test(
     dtype: str,
 ):
     model = snapshot_download(model_id, allow_patterns=DOWNLOAD_PATTERN)
+    torch_dtype = STR_DTYPE_TO_TORCH_DTYPE[dtype]
 
     img_processor = CLIPImageProcessor.from_pretrained(model)
     images = [asset.pil_image for asset in image_assets]
     pixel_values = [
-        img_processor(images, return_tensors='pt').pixel_values.to(dtype)
+        img_processor(images, return_tensors='pt').pixel_values.to(torch_dtype)
         for images in images
     ]
 
@@ -34,7 +37,7 @@ def run_intern_vit_test(
         config.norm_type = "rms_norm"
 
     hf_model = AutoModel.from_pretrained(model,
-                                         torch_dtype=dtype,
+                                         torch_dtype=torch_dtype,
                                          trust_remote_code=True).to("cuda")
     hf_outputs_per_image = [
         hf_model(pixel_value.to("cuda")).last_hidden_state
@@ -48,7 +51,7 @@ def run_intern_vit_test(
     del hf_model
     cleanup_dist_env_and_memory()
 
-    vllm_model = vllm_model.to("cuda", dtype)
+    vllm_model = vllm_model.to("cuda", torch_dtype)
     vllm_outputs_per_image = [
         vllm_model(pixel_values=pixel_value.to("cuda"))
         for pixel_value in pixel_values
@@ -66,9 +69,8 @@ def run_intern_vit_test(
     "OpenGVLab/InternViT-300M-448px",
     "OpenGVLab/InternViT-6B-448px-V1-5",
 ])
-@pytest.mark.parametrize("dtype", [torch.half])
-@torch.inference_mode()
-def test_models(image_assets, model_id, dtype: str) -> None:
+@pytest.mark.parametrize("dtype", ["half"])
+def test_models(dist_init, image_assets, model_id, dtype: str) -> None:
     run_intern_vit_test(
         image_assets,
         model_id,
diff --git a/vllm/engine/async_llm_engine.py b/vllm/engine/async_llm_engine.py
index cb0902c3a..50da9679d 100644
--- a/vllm/engine/async_llm_engine.py
+++ b/vllm/engine/async_llm_engine.py
@@ -497,10 +497,6 @@ class _AsyncLLMEngine(LLMEngine):
             prompt["prompt_token_ids"] = [0
                                           ] * prompt["prompt_embeds"].shape[-2]
 
-        if self.tokenizer is not None:
-            tokenizer = await self.get_tokenizer_async(lora_request)
-            self._validate_token_prompt(prompt, tokenizer=tokenizer)
-
         processed_inputs = await self.input_preprocessor.preprocess_async(
             prompt,
             lora_request=lora_request,
diff --git a/vllm/engine/llm_engine.py b/vllm/engine/llm_engine.py
index 142c8fe99..4398852da 100644
--- a/vllm/engine/llm_engine.py
+++ b/vllm/engine/llm_engine.py
@@ -30,7 +30,7 @@ from vllm.entrypoints.openai.logits_processors import (
     get_logits_processors as get_openai_logits_processors)
 from vllm.executor.executor_base import ExecutorBase
 from vllm.inputs import ProcessorInputs, PromptType, SingletonInputs
-from vllm.inputs.parse import is_token_prompt, split_enc_dec_inputs
+from vllm.inputs.parse import split_enc_dec_inputs
 from vllm.inputs.preprocess import InputPreprocessor
 from vllm.logger import init_logger
 from vllm.logits_process import get_bad_words_logits_processors
@@ -759,11 +759,6 @@ class LLMEngine:
             seq_len = prompt["prompt_embeds"].shape[0]
             prompt["prompt_token_ids"] = [0] * seq_len
 
-        if self.tokenizer is not None:
-            self._validate_token_prompt(
-                prompt,
-                tokenizer=self.get_tokenizer(lora_request=lora_request))
-
         processed_inputs = self.input_preprocessor.preprocess(
             prompt,
             tokenization_kwargs=tokenization_kwargs,
@@ -782,27 +777,6 @@ class LLMEngine:
             priority=priority,
         )
 
-    def _validate_token_prompt(self, prompt: PromptType,
-                               tokenizer: AnyTokenizer):
-        # Guard against out-of-vocab tokens.
-        # For some tokenizers, tokenizer.decode will happily return empty text
-        # for token ids that are out of vocab, and we don't detect token ids
-        # that are greater than the max token id before running the model.
-        # However, these token ids will later crash a cuda kernel at runtime
-        # with an index out of bounds error. This will crash the entire engine.
-        # This needs to happen before multimodal input pre-processing, which
-        # may add dummy <image> tokens that aren't part of the tokenizer's
-        # vocabulary.
-        if is_token_prompt(prompt):
-            prompt_ids = prompt["prompt_token_ids"]
-            if len(prompt_ids) == 0:
-                # Empty prompt check is handled later
-                return
-            max_input_id = max(prompt_ids)
-            if max_input_id > tokenizer.max_token_id:
-                raise ValueError(
-                    "Token id {} is out of vocabulary".format(max_input_id))
-
     def _create_sequence_group_with_sampling(
         self,
         request_id: str,
@@ -2049,6 +2023,12 @@ class LLMEngine:
             else:
                 raise ValueError(f"The {prompt_type} prompt cannot be empty")
 
+        if tokenizer is not None:
+            max_input_id = max(prompt_ids, default=0)
+            if max_input_id > tokenizer.max_token_id:
+                raise ValueError(
+                    f"Token id {max_input_id} is out of vocabulary")
+
         max_prompt_len = self.model_config.max_model_len
         if len(prompt_ids) > max_prompt_len:
             if prompt_type == "encoder" and model_config.is_multimodal_model:
diff --git a/vllm/engine/protocol.py b/vllm/engine/protocol.py
index 5632e8ad4..e9350612e 100644
--- a/vllm/engine/protocol.py
+++ b/vllm/engine/protocol.py
@@ -83,6 +83,9 @@ class EngineClient(ABC):
         else:
             processed_inputs = preprocessor._prompt_to_llm_inputs(prompt)
 
+        if processed_inputs["type"] == "embeds":
+            raise NotImplementedError
+
         prompt_token_ids = processed_inputs["prompt_token_ids"]
         prompt_text = processed_inputs.get("prompt")
         multi_modal_data = processed_inputs.get("multi_modal_data")
diff --git a/vllm/entrypoints/llm.py b/vllm/entrypoints/llm.py
index 0a302872d..69523f36f 100644
--- a/vllm/entrypoints/llm.py
+++ b/vllm/entrypoints/llm.py
@@ -27,7 +27,7 @@ from vllm.entrypoints.score_utils import (_cosine_similarity,
                                           _validate_score_input_lens)
 from vllm.entrypoints.utils import _validate_truncation_size
 from vllm.inputs import PromptType, SingletonPrompt, TextPrompt, TokensPrompt
-from vllm.inputs.parse import is_token_prompt, parse_and_batch_prompt
+from vllm.inputs.parse import parse_and_batch_prompt
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
 from vllm.model_executor.guided_decoding.guided_fields import (
@@ -567,10 +567,12 @@ class LLM:
                 mm_kwargs["mm_processor_kwargs"] = prompt[
                     "mm_processor_kwargs"]
 
-            if is_token_prompt(prompt):
+            if "prompt_token_ids" in prompt:
+                prompt = cast(TokensPrompt, prompt)  # Needed for mypy
                 prompt_tokens = prompt["prompt_token_ids"]
             else:
                 prompt_tokens = tokenizer.encode(prompt["prompt"])
+
             instances.append(
                 BeamSearchInstance(prompt_tokens, logprobs=None, **mm_kwargs))
 
diff --git a/vllm/inputs/data.py b/vllm/inputs/data.py
index 6a56d044c..86dbca180 100644
--- a/vllm/inputs/data.py
+++ b/vllm/inputs/data.py
@@ -70,6 +70,11 @@ class EmbedsPrompt(TypedDict):
     prompt_embeds: torch.Tensor
     """The embeddings of the prompt."""
 
+    cache_salt: NotRequired[str]
+    """
+    Optional cache salt to be used for prefix caching.
+    """
+
 
 SingletonPrompt = Union[str, TextPrompt, TokensPrompt, EmbedsPrompt]
 """
@@ -195,13 +200,21 @@ class EmbedsInputs(TypedDict):
     prompt_embeds: torch.Tensor
     """The embeddings of the prompt."""
 
+    cache_salt: NotRequired[str]
+    """
+    Optional cache salt to be used for prefix caching.
+    """
+
 
-def embeds_inputs(prompt_embeds: torch.Tensor) -> EmbedsInputs:
+def embeds_inputs(
+    prompt_embeds: torch.Tensor,
+    cache_salt: Optional[str] = None,
+) -> EmbedsInputs:
     """Construct :class:`EmbedsInputs` from optional values."""
-    inputs = EmbedsInputs(
-        type="embeds",
-        prompt_embeds=prompt_embeds,
-    )
+    inputs = EmbedsInputs(type="embeds", prompt_embeds=prompt_embeds)
+
+    if cache_salt is not None:
+        inputs["cache_salt"] = cache_salt
 
     return inputs
 
diff --git a/vllm/inputs/parse.py b/vllm/inputs/parse.py
index 397344e40..d17122b48 100644
--- a/vllm/inputs/parse.py
+++ b/vllm/inputs/parse.py
@@ -6,9 +6,9 @@ from typing_extensions import TypeIs
 
 from vllm.utils import is_list_of
 
-from .data import (EmbedsInputs, EmbedsPrompt, ExplicitEncoderDecoderPrompt,
-                   ProcessorInputs, PromptType, SingletonInputs,
-                   SingletonPrompt, TextPrompt, TokensPrompt)
+from .data import (EmbedsPrompt, ExplicitEncoderDecoderPrompt, ProcessorInputs,
+                   PromptType, SingletonInputs, SingletonPrompt, TextPrompt,
+                   TokensPrompt)
 
 
 class ParsedText(TypedDict):
@@ -90,6 +90,10 @@ class ParsedEmbedsPrompt(TypedDict):
     content: EmbedsPrompt
 
 
+ParsedSingletonPrompt = Union[ParsedStrPrompt, ParsedTextPrompt,
+                              ParsedTokensPrompt, ParsedEmbedsPrompt]
+
+
 @overload
 def parse_singleton_prompt(prompt: str) -> ParsedStrPrompt:
     ...
@@ -110,10 +114,7 @@ def parse_singleton_prompt(prompt: EmbedsPrompt) -> ParsedEmbedsPrompt:
     ...
 
 
-def parse_singleton_prompt(
-    prompt: SingletonPrompt,
-) -> Union[ParsedStrPrompt, ParsedTextPrompt, ParsedTokensPrompt,
-           ParsedEmbedsPrompt]:
+def parse_singleton_prompt(prompt: SingletonPrompt) -> ParsedSingletonPrompt:
     if isinstance(prompt, str):
         return ParsedStrPrompt(type="str", content=prompt)
     elif isinstance(prompt, dict):
@@ -131,23 +132,11 @@ def parse_singleton_prompt(
         "inputs must be a string, TextPrompt, TokensPrompt, or EmbedsPrompt")
 
 
-def is_token_prompt(prompt: PromptType) -> TypeIs[TokensPrompt]:
-    return isinstance(prompt, dict) and "prompt_token_ids" in prompt
-
-
-def is_embeds_prompt(prompt: PromptType) -> TypeIs[EmbedsPrompt]:
-    return isinstance(prompt, dict) and "prompt_embeds" in prompt
-
-
 def is_explicit_encoder_decoder_prompt(
         prompt: PromptType) -> TypeIs[ExplicitEncoderDecoderPrompt]:
     return isinstance(prompt, dict) and "encoder_prompt" in prompt
 
 
-def is_embeds_inputs(inputs: SingletonInputs) -> TypeIs[EmbedsInputs]:
-    return isinstance(inputs, dict) and inputs["type"] == "embeds"
-
-
 def split_enc_dec_inputs(
     inputs: ProcessorInputs,
 ) -> tuple[Optional[SingletonInputs], SingletonInputs]:
diff --git a/vllm/inputs/preprocess.py b/vllm/inputs/preprocess.py
index 5a9e3643d..97a2ce5c6 100644
--- a/vllm/inputs/preprocess.py
+++ b/vllm/inputs/preprocess.py
@@ -14,14 +14,14 @@ from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
 from vllm.multimodal.inputs import (MultiModalDataDict, MultiModalEncDecInputs,
                                     MultiModalInputs)
 from vllm.prompt_adapter.request import PromptAdapterRequest
+from vllm.transformers_utils.tokenizer import AnyTokenizer
 from vllm.transformers_utils.tokenizer_group import TokenizerGroup
 
-from .data import (DecoderOnlyInputs, EmbedsInputs, EncoderDecoderInputs,
-                   ProcessorInputs, PromptType, SingletonInputs,
-                   SingletonPrompt, TokenInputs, embeds_inputs, token_inputs)
-from .parse import (ParsedEmbedsPrompt, ParsedStrPrompt, ParsedTextPrompt,
-                    ParsedTokensPrompt, is_embeds_inputs,
-                    is_explicit_encoder_decoder_prompt, parse_singleton_prompt)
+from .data import (DecoderOnlyInputs, EmbedsInputs, EmbedsPrompt,
+                   EncoderDecoderInputs, ProcessorInputs, PromptType,
+                   SingletonInputs, SingletonPrompt, TextPrompt, TokenInputs,
+                   TokensPrompt, embeds_inputs, token_inputs)
+from .parse import is_explicit_encoder_decoder_prompt, parse_singleton_prompt
 
 logger = init_logger(__name__)
 
@@ -140,13 +140,10 @@ class InputPreprocessor:
         """
         Prepares `decoder_input_ids` for generation with encoder-decoder models.
 
-        Based on
-
-        https://github.com/huggingface/transformers/blob/
-        4037a2b5b1278736e566aec12e169100275545ea/
-        src/transformers/generation/utils.py
-
-        specifically GenerationMixin._prepare_decoder_input_ids_for_generation()
+        Based on:
+        https://github.com/huggingface/transformers/blob/4037a2b5b1278736e566aec12e169100275545ea/src/transformers/generation/utils.py
+        specifically,
+        `GenerationMixin._prepare_decoder_input_ids_for_generation()`.
 
         Arguments:
 
@@ -183,6 +180,23 @@ class InputPreprocessor:
 
         return prompt_token_ids
 
+    def _get_tokenization_kw(
+        self,
+        overrides: Optional[dict[str, Any]] = None,
+    ) -> dict[str, Any]:
+        kwargs = dict[str, Any]()
+
+        if self.model_config.hf_config.model_type == "whisper":
+            # For Whisper, special tokens should be provided by the user based
+            # on the task and language of their request. Also needed to avoid
+            # appending an EOS token to the prompt which disrupts generation.
+            kwargs["add_special_tokens"] = False
+
+        if overrides:
+            kwargs.update(overrides)
+
+        return kwargs
+
     def _tokenize_prompt(
         self,
         prompt: str,
@@ -194,18 +208,11 @@ class InputPreprocessor:
         corresponding token IDs.
         """
         tokenizer = self.get_tokenizer_group()
-        if tokenization_kwargs is None:
-            tokenization_kwargs = {}
+        tokenization_kwargs = self._get_tokenization_kw(tokenization_kwargs)
 
-        if self.model_config.hf_config.model_type == "whisper":
-            # For Whisper, special tokens should be provided by the user based
-            # on the task and language of their request. Also needed to avoid
-            # appending an EOS token to the prompt which disrupts generation.
-            tokenization_kwargs["add_special_tokens"] = False
+        encoder_config = self.model_config.encoder_config
 
-        if (self.model_config.encoder_config is not None
-                and self.model_config.encoder_config.get(
-                    "do_lower_case", False)):
+        if encoder_config and encoder_config.get("do_lower_case", False):
             prompt = prompt.lower()
 
         return tokenizer.encode(prompt=prompt,
@@ -220,18 +227,36 @@ class InputPreprocessor:
     ) -> list[int]:
         """Async version of :meth:`_tokenize_prompt`."""
         tokenizer = self.get_tokenizer_group()
-        if tokenization_kwargs is None:
-            tokenization_kwargs = {}
+        tokenization_kwargs = self._get_tokenization_kw(tokenization_kwargs)
 
-        if self.model_config.hf_config.model_type == "whisper":
-            # For Whisper, special tokens should be provided by the user based
-            # on the task and language of their request. Also needed to avoid
-            # appending an EOS token to the prompt which disrupts generation.
-            tokenization_kwargs["add_special_tokens"] = False
         return await tokenizer.encode_async(prompt=prompt,
                                             lora_request=lora_request,
                                             **tokenization_kwargs)
 
+    def _get_mm_tokenizer(
+        self,
+        lora_request: Optional[LoRARequest],
+    ) -> AnyTokenizer:
+        # PrithviGeoSpatialMAE needs to be initialized without a tokenizer
+        # while using also multi-modal input
+        if not self.tokenizer:
+            return cast(AnyTokenizer, object())  # Dummy
+
+        tokenizer_group = self.get_tokenizer_group()
+        return tokenizer_group.get_lora_tokenizer(lora_request)
+
+    async def _get_mm_tokenizer_async(
+        self,
+        lora_request: Optional[LoRARequest],
+    ) -> AnyTokenizer:
+        # PrithviGeoSpatialMAE needs to be initialized without a tokenizer
+        # while using also multi-modal input
+        if not self.tokenizer:
+            return cast(AnyTokenizer, object())  # Dummy
+
+        tokenizer_group = self.get_tokenizer_group()
+        return await tokenizer_group.get_lora_tokenizer_async(lora_request)
+
     def _process_multimodal(
         self,
         prompt: Union[str, list[int]],
@@ -244,13 +269,7 @@ class InputPreprocessor:
         Apply the model's multi-modal processor to a multi-modal prompt,
         returning the corresponding token IDs and metadata.
         """
-        # At the moment on model (PrithviGeoSpatialMAE) requires to be
-        # initialized without a tokenizer while using also multi-modal input
-        if not self.tokenizer:
-            tokenizer = object()  # Dummy
-        else:
-            tokenizer_group = self.get_tokenizer_group()
-            tokenizer = tokenizer_group.get_lora_tokenizer(lora_request)
+        tokenizer = self._get_mm_tokenizer(lora_request)
 
         mm_processor = self.mm_registry.create_processor(self.model_config,
                                                          tokenizer=tokenizer)
@@ -270,14 +289,7 @@ class InputPreprocessor:
         return_mm_hashes: bool = False,
     ) -> MultiModalInputs:
         """Async version of :meth:`_process_multimodal`."""
-        # At the moment on model (PrithviGeoSpatialMAE) requires to be
-        # initialized without a tokenizer while using also multi-modal input
-        if not self.tokenizer:
-            tokenizer = object()  # Dummy
-        else:
-            tokenizer_group = self.get_tokenizer_group()
-            tokenizer = await tokenizer_group.get_lora_tokenizer_async(
-                lora_request)
+        tokenizer = await self._get_mm_tokenizer_async(lora_request)
 
         mm_processor = self.mm_registry.create_processor(self.model_config,
                                                          tokenizer=tokenizer)
@@ -287,28 +299,160 @@ class InputPreprocessor:
         return mm_processor.apply(prompt, mm_data, mm_processor_kwargs,
                                   return_mm_hashes)
 
-    def _get_prompt_data(self, parsed_prompt: Union[ParsedStrPrompt,
-                                                    ParsedTextPrompt,
-                                                    ParsedTokensPrompt]):
-        prompt_text = None
-        prompt_token_ids = None
-        token_type_ids = None
-        cache_salt = None
+    def _process_embeds(
+        self,
+        parsed_content: EmbedsPrompt,
+    ) -> EmbedsInputs:
+        if envs.VLLM_USE_V1:
+            raise ValueError("prompt_embeds is only available in V0.")
+
+        prompt_embeds = parsed_content["prompt_embeds"]
 
-        if parsed_prompt["type"] == "str":
-            prompt_text = parsed_prompt["content"]
+        # prompt_embeds must be (seq_len, hidden_size), but if the user
+        # passes in a batch of size 1, i.e. (1, seq_len, hidden_size),
+        # we can unambiguously process the intent by squeezing the batch
+        # dimension.
+        if prompt_embeds.ndim == 3:
+            prompt_embeds = prompt_embeds.squeeze(dim=0)
+
+        if prompt_embeds.ndim != 2:
+            raise ValueError(
+                "prompt_embeds must be of shape (seq_len, hidden_size).")
+
+        return embeds_inputs(prompt_embeds=prompt_embeds,
+                             cache_salt=parsed_content.get("cache_salt"))
+
+    async def _process_embeds_async(
+        self,
+        parsed_content: EmbedsPrompt,
+    ) -> EmbedsInputs:
+        return self._process_embeds(parsed_content)
+
+    def _process_tokens(
+        self,
+        parsed_content: TokensPrompt,
+        lora_request: Optional[LoRARequest] = None,
+        return_mm_hashes: bool = False,
+    ) -> Union[TokenInputs, MultiModalInputs]:
+        prompt_token_ids = parsed_content["prompt_token_ids"]
+        token_type_ids = parsed_content.get("token_type_ids")
+
+        inputs: Union[TokenInputs, MultiModalInputs]
+        if multi_modal_data := parsed_content.get("multi_modal_data"):
+            inputs = self._process_multimodal(
+                prompt_token_ids,
+                multi_modal_data,
+                parsed_content.get("mm_processor_kwargs"),
+                lora_request=lora_request,
+                return_mm_hashes=return_mm_hashes,
+            )
         else:
-            cache_salt = parsed_prompt["content"].get("cache_salt")
-            if parsed_prompt["type"] == "text":
-                prompt_text = parsed_prompt["content"]["prompt"]
-            elif parsed_prompt["type"] == "tokens":
-                prompt_token_ids = parsed_prompt["content"].get(
-                    "prompt_token_ids")
-                token_type_ids = parsed_prompt["content"].get("token_type_ids")
-            else:
-                assert_never(parsed_prompt)
+            inputs = token_inputs(
+                prompt_token_ids=prompt_token_ids,
+                token_type_ids=token_type_ids,
+            )
+
+        if cache_salt := parsed_content.get("cache_salt"):
+            inputs["cache_salt"] = cache_salt
+
+        return inputs
+
+    async def _process_tokens_async(
+        self,
+        parsed_content: TokensPrompt,
+        lora_request: Optional[LoRARequest] = None,
+        return_mm_hashes: bool = False,
+    ) -> Union[TokenInputs, MultiModalInputs]:
+        prompt_token_ids = parsed_content["prompt_token_ids"]
+        token_type_ids = parsed_content.get("token_type_ids")
+
+        inputs: Union[TokenInputs, MultiModalInputs]
+        if multi_modal_data := parsed_content.get("multi_modal_data"):
+            inputs = await self._process_multimodal_async(
+                prompt_token_ids,
+                multi_modal_data,
+                parsed_content.get("mm_processor_kwargs"),
+                lora_request=lora_request,
+                return_mm_hashes=return_mm_hashes,
+            )
+        else:
+            inputs = token_inputs(
+                prompt_token_ids=prompt_token_ids,
+                token_type_ids=token_type_ids,
+            )
+
+        if cache_salt := parsed_content.get("cache_salt"):
+            inputs["cache_salt"] = cache_salt
+
+        return inputs
+
+    def _process_text(
+        self,
+        parsed_content: TextPrompt,
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
+        lora_request: Optional[LoRARequest] = None,
+        return_mm_hashes: bool = False,
+    ) -> Union[TokenInputs, MultiModalInputs]:
+        prompt_text = parsed_content["prompt"]
+
+        inputs: Union[TokenInputs, MultiModalInputs]
+        if multi_modal_data := parsed_content.get("multi_modal_data"):
+            inputs = self._process_multimodal(
+                prompt_text,
+                multi_modal_data,
+                parsed_content.get("mm_processor_kwargs"),
+                lora_request=lora_request,
+                return_mm_hashes=return_mm_hashes,
+            )
+        else:
+            prompt_token_ids = self._tokenize_prompt(
+                prompt_text,
+                lora_request=lora_request,
+                tokenization_kwargs=tokenization_kwargs,
+            )
+            inputs = token_inputs(
+                prompt=prompt_text,
+                prompt_token_ids=prompt_token_ids,
+            )
+
+        if cache_salt := parsed_content.get("cache_salt"):
+            inputs["cache_salt"] = cache_salt
+
+        return inputs
 
-        return prompt_text, prompt_token_ids, token_type_ids, cache_salt
+    async def _process_text_async(
+        self,
+        parsed_content: TextPrompt,
+        tokenization_kwargs: Optional[dict[str, Any]] = None,
+        lora_request: Optional[LoRARequest] = None,
+        return_mm_hashes: bool = False,
+    ) -> Union[TokenInputs, MultiModalInputs]:
+        prompt_text = parsed_content["prompt"]
+
+        inputs: Union[TokenInputs, MultiModalInputs]
+        if multi_modal_data := parsed_content.get("multi_modal_data"):
+            inputs = await self._process_multimodal_async(
+                prompt_text,
+                multi_modal_data,
+                parsed_content.get("mm_processor_kwargs"),
+                lora_request=lora_request,
+                return_mm_hashes=return_mm_hashes,
+            )
+        else:
+            prompt_token_ids = await self._tokenize_prompt_async(
+                prompt_text,
+                lora_request=lora_request,
+                tokenization_kwargs=tokenization_kwargs,
+            )
+            inputs = token_inputs(
+                prompt=prompt_text,
+                prompt_token_ids=prompt_token_ids,
+            )
+
+        if cache_salt := parsed_content.get("cache_salt"):
+            inputs["cache_salt"] = cache_salt
+
+        return inputs
 
     def _prompt_to_llm_inputs(
         self,
@@ -333,39 +477,28 @@ class InputPreprocessor:
         parsed = parse_singleton_prompt(prompt)
 
         if parsed["type"] == "embeds":
-            return self._process_prompt_embeds(parsed)
-
-        prompt_text, prompt_token_ids, token_type_ids, cache_salt = \
-            self._get_prompt_data(parsed)
-
-        # If multimodal data is present, process and return immediately
-        if parsed["type"] != "str" and parsed["content"].get(
-                "multi_modal_data") is not None:
-            inputs = self._process_multimodal(
-                prompt_text if prompt_text is not None else prompt_token_ids,
-                parsed["content"]["multi_modal_data"],
-                parsed["content"].get("mm_processor_kwargs"),
+            return self._process_embeds(parsed["content"])
+        if parsed["type"] == "tokens":
+            return self._process_tokens(
+                parsed["content"],
                 lora_request=lora_request,
                 return_mm_hashes=return_mm_hashes,
             )
-            if cache_salt is not None:
-                inputs["cache_salt"] = cache_salt
-            return inputs
-
-        if prompt_token_ids is None:
-            prompt_token_ids = self._tokenize_prompt(
-                prompt_text,
+        if parsed["type"] == "text":
+            return self._process_text(
+                parsed["content"],
+                tokenization_kwargs=tokenization_kwargs,
                 lora_request=lora_request,
+                return_mm_hashes=return_mm_hashes,
+            )
+        if parsed["type"] == "str":
+            return self._process_text(
+                TextPrompt(prompt=parsed["content"]),
                 tokenization_kwargs=tokenization_kwargs,
+                lora_request=lora_request,
+                return_mm_hashes=return_mm_hashes,
             )
 
-        return token_inputs(
-            prompt=prompt_text,
-            prompt_token_ids=prompt_token_ids,
-            token_type_ids=token_type_ids,
-            cache_salt=cache_salt,
-        )
-
         assert_never(parsed)
 
     async def _prompt_to_llm_inputs_async(
@@ -375,79 +508,49 @@ class InputPreprocessor:
         lora_request: Optional[LoRARequest] = None,
         return_mm_hashes: bool = False,
     ) -> SingletonInputs:
-        """Async version of :meth:`_extract_prompt_components`."""
+        """Async version of :meth:`_prompt_to_llm_inputs`."""
         parsed = parse_singleton_prompt(prompt)
 
         if parsed["type"] == "embeds":
-            return self._process_prompt_embeds(parsed)
-
-        prompt_text, prompt_token_ids, token_type_ids, cache_salt = \
-            self._get_prompt_data(parsed)
-
-        if parsed["type"] != "str" and parsed["content"].get(
-                "multi_modal_data") is not None:
-            inputs = await self._process_multimodal_async(
-                prompt_token_ids if prompt_text is None else prompt_text,
-                parsed["content"]["multi_modal_data"],
-                parsed["content"].get("mm_processor_kwargs"),
+            return await self._process_embeds_async(parsed["content"])
+        if parsed["type"] == "tokens":
+            return await self._process_tokens_async(
+                parsed["content"],
                 lora_request=lora_request,
                 return_mm_hashes=return_mm_hashes,
             )
-            if cache_salt is not None:
-                inputs["cache_salt"] = cache_salt
-            return inputs
-
-        if prompt_token_ids is None:
-            prompt_token_ids = await self._tokenize_prompt_async(
-                prompt_text,
+        if parsed["type"] == "text":
+            return await self._process_text_async(
+                parsed["content"],
+                tokenization_kwargs=tokenization_kwargs,
                 lora_request=lora_request,
+                return_mm_hashes=return_mm_hashes,
+            )
+        if parsed["type"] == "str":
+            return await self._process_text_async(
+                TextPrompt(prompt=parsed["content"]),
                 tokenization_kwargs=tokenization_kwargs,
+                lora_request=lora_request,
+                return_mm_hashes=return_mm_hashes,
             )
 
-        return token_inputs(
-            prompt=prompt_text,
-            prompt_token_ids=prompt_token_ids,
-            token_type_ids=token_type_ids,
-            cache_salt=cache_salt,
-        )
-
-    def _process_prompt_embeds(self,
-                               parsed: ParsedEmbedsPrompt) -> EmbedsInputs:
-        if envs.VLLM_USE_V1:
-            raise ValueError("prompt_embeds is only available in V0.")
-
-        prompt_embeds_content = parsed["content"]
-
-        prompt_embeds = prompt_embeds_content["prompt_embeds"]
-
-        # prompt_embeds must be (seq_len, hidden_size), but if the user
-        # passes in a batch of size 1, i.e. (1, seq_len, hidden_size),
-        # we can unambiguously process the intent by squeezing the batch
-        # dimension.
-        if prompt_embeds.ndim == 3 and prompt_embeds.shape[0] == 1:
-            prompt_embeds = prompt_embeds.squeeze(dim=0)
-
-        if prompt_embeds.ndim != 2:
-            raise ValueError(
-                "prompt_embeds must be of shape (seq_len, hidden_size).")
-
-        return embeds_inputs(prompt_embeds=prompt_embeds)
-
         assert_never(parsed)
 
     def _build_enc_dec_llm_inputs(
         self,
-        encoder_inputs: Union[TokenInputs, MultiModalInputs],
-        decoder_inputs: Optional[Union[TokenInputs, MultiModalInputs]],
+        encoder_inputs: SingletonInputs,
+        decoder_inputs: Optional[SingletonInputs],
     ) -> EncoderDecoderInputs:
-        if (encoder_inputs["type"] == "token"
-                or encoder_inputs["type"] == "multimodal"):
-            pass
-        else:
-            assert_never(encoder_inputs)  # type: ignore[arg-type]
+        if (encoder_inputs["type"] == "embeds"
+                or decoder_inputs and decoder_inputs["type"] == "embeds"):
+            raise ValueError("Embedding inputs are not supported for encoder-"
+                             "decoder models")
 
-        # Mypy does not correctly infer that EmbedsInputs is impossible
-        assert "prompt_token_ids" in encoder_inputs
+        # Needed for mypy
+        encoder_inputs = cast(Union[TokenInputs, MultiModalInputs],
+                              encoder_inputs)
+        decoder_inputs = cast(Optional[Union[TokenInputs, MultiModalInputs]],
+                              decoder_inputs)
 
         if decoder_inputs is None:
             if self.model_config.hf_config.model_type == "whisper":
@@ -460,74 +563,78 @@ class InputPreprocessor:
                 dec_token_ids = self._prepare_decoder_input_ids_for_generation(
                     None)
             decoder_inputs = token_inputs(dec_token_ids)
-        elif (decoder_inputs["type"] == "token"
-              or decoder_inputs["type"] == "multimodal"):
-            dec_token_ids = self._prepare_decoder_input_ids_for_generation(
-                decoder_inputs["prompt_token_ids"])
-            decoder_inputs["prompt_token_ids"] = dec_token_ids
-
+        else:
             if "multi_modal_data" in decoder_inputs:
                 raise ValueError("Multi-modal decoder inputs of encoder-"
                                  "decoder models are not supported yet")
-        else:
-            assert_never(encoder_inputs)  # type: ignore[arg-type]
+
+            dec_token_ids = self._prepare_decoder_input_ids_for_generation(
+                decoder_inputs["prompt_token_ids"])
+            decoder_inputs["prompt_token_ids"] = dec_token_ids
 
         return EncoderDecoderInputs(
             encoder=encoder_inputs,
             decoder=decoder_inputs,
         )
 
-    def _separate_enc_dec_inputs_from_mm_processor_outputs(
+    def _split_enc_dec_mm_inputs(
         self,
-        inputs: SingletonInputs,
-        decoder_inputs_to_override: Optional[Union[TokenInputs,
-                                                   MultiModalInputs]] = None,
+        inputs: Union[SingletonInputs, MultiModalEncDecInputs],
+        decoder_inputs_to_override: Optional[SingletonInputs] = None,
     ) -> tuple[SingletonInputs, SingletonInputs]:
         """
         For encoder/decoder models only:
         Separate Encoder/Decoder inputs from a MultiModalEncDecInputs
         """
+        if (inputs["type"] == "embeds" or decoder_inputs_to_override
+                and decoder_inputs_to_override["type"] == "embeds"):
+            raise ValueError("Embedding inputs are not supported for encoder-"
+                             "decoder models")
+
+        # Needed for mypy
+        inputs = cast(
+            Union[TokenInputs, MultiModalInputs, MultiModalEncDecInputs],
+            inputs,
+        )
+        decoder_inputs_to_override = cast(
+            Optional[Union[TokenInputs, MultiModalInputs]],
+            decoder_inputs_to_override,
+        )
+
         encoder_inputs: SingletonInputs
         decoder_inputs: SingletonInputs
-        if inputs["type"] == "multimodal":
-            # Multimodal data inputs
-            assert ("encoder_prompt" in inputs
-                    and "encoder_prompt_token_ids" in inputs)
+
+        if inputs["type"] == "multimodal":  # Multimodal data inputs
+            if not ("encoder_prompt" in inputs
+                    and "encoder_prompt_token_ids" in inputs):
+                raise RuntimeError("You should register an encoder-decoder "
+                                   "multi-modal processor for encoder-decoder "
+                                   "models.")
             inputs = cast(MultiModalEncDecInputs, inputs)
+
             encoder_inputs = token_inputs(
                 prompt=inputs["encoder_prompt"],
                 prompt_token_ids=inputs["encoder_prompt_token_ids"],
             )
-            if decoder_inputs_to_override is not None:
-                decoder_inputs = MultiModalInputs(
-                    type="multimodal",
-                    prompt=decoder_inputs_to_override.get("prompt", ""),
-                    prompt_token_ids=decoder_inputs_to_override[
-                        "prompt_token_ids"],
-                    mm_kwargs=inputs["mm_kwargs"],
-                    mm_hashes=inputs["mm_hashes"],
-                    mm_placeholders=inputs["mm_placeholders"],
-                )
-            else:
-                decoder_inputs = MultiModalInputs(
-                    type="multimodal",
-                    prompt=inputs["prompt"],
-                    prompt_token_ids=inputs["prompt_token_ids"],
-                    mm_kwargs=inputs["mm_kwargs"],
-                    mm_hashes=inputs["mm_hashes"],
-                    mm_placeholders=inputs["mm_placeholders"],
-                )
 
-            cache_salt = inputs.get("cache_salt")
-            if cache_salt is not None:
+            decoder_prompt_inputs = decoder_inputs_to_override or inputs
+            decoder_inputs = MultiModalInputs(
+                type="multimodal",
+                prompt=decoder_prompt_inputs.get("prompt", ""),
+                prompt_token_ids=decoder_prompt_inputs["prompt_token_ids"],
+                mm_kwargs=inputs["mm_kwargs"],
+                mm_hashes=inputs["mm_hashes"],
+                mm_placeholders=inputs["mm_placeholders"],
+            )
+            if cache_salt := inputs.get("cache_salt"):
                 decoder_inputs["cache_salt"] = cache_salt
 
-        elif inputs["type"] == "token":
-            # Text-only inputs
+        elif inputs["type"] == "token":  # Text-only inputs
             encoder_inputs = token_inputs(prompt="", prompt_token_ids=[])
             decoder_inputs = decoder_inputs_to_override or inputs
         else:
             assert_never(inputs)  # type: ignore[arg-type]
+
         return encoder_inputs, decoder_inputs
 
     def _process_encoder_decoder_prompt(
@@ -580,11 +687,9 @@ class InputPreprocessor:
             # For multimodal model, override decoder prompt from processor
             # with explicit decoder prompt.
             if self.model_config.is_multimodal_model:
-                assert decoder_inputs is None or not is_embeds_inputs(
-                    decoder_inputs)
                 encoder_inputs, decoder_inputs = (
-                    self._separate_enc_dec_inputs_from_mm_processor_outputs(
-                        encoder_inputs, decoder_inputs))
+                    self._split_enc_dec_mm_inputs(encoder_inputs,
+                                                  decoder_inputs))
         else:
             inputs = self._prompt_to_llm_inputs(
                 prompt,
@@ -593,16 +698,11 @@ class InputPreprocessor:
             if self.model_config.is_multimodal_model:
                 # Encoder-Decoder Multimodal model
                 encoder_inputs, decoder_inputs = (
-                    self._separate_enc_dec_inputs_from_mm_processor_outputs(
-                        inputs))
+                    self._split_enc_dec_mm_inputs(inputs))
             else:
                 encoder_inputs = inputs
                 decoder_inputs = None
 
-        # Mypy does not do type inference well with TypedDicts with Literal
-        # values.
-        assert not is_embeds_inputs(encoder_inputs)
-        assert decoder_inputs is None or not is_embeds_inputs(decoder_inputs)
         return self._build_enc_dec_llm_inputs(encoder_inputs, decoder_inputs)
 
     async def _process_encoder_decoder_prompt_async(
@@ -635,11 +735,9 @@ class InputPreprocessor:
             # For multimodal model, override decoder prompt from processor
             # with explicit decoder prompt.
             if self.model_config.is_multimodal_model:
-                assert decoder_inputs is None or not is_embeds_inputs(
-                    decoder_inputs)
                 encoder_inputs, decoder_inputs = (
-                    self._separate_enc_dec_inputs_from_mm_processor_outputs(
-                        encoder_inputs, decoder_inputs))
+                    self._split_enc_dec_mm_inputs(encoder_inputs,
+                                                  decoder_inputs))
         else:
             inputs = await self._prompt_to_llm_inputs_async(
                 prompt,
@@ -648,16 +746,11 @@ class InputPreprocessor:
             if self.model_config.is_multimodal_model:
                 # Encoder-Decoder Multimodal model
                 encoder_inputs, decoder_inputs = (
-                    self._separate_enc_dec_inputs_from_mm_processor_outputs(
-                        inputs))
+                    self._split_enc_dec_mm_inputs(inputs))
             else:
                 encoder_inputs = inputs
                 decoder_inputs = None
 
-        # Mypy does not do type inference well with TypedDicts with Literal
-        # values.
-        assert not is_embeds_inputs(encoder_inputs)
-        assert decoder_inputs is None or not is_embeds_inputs(decoder_inputs)
         return self._build_enc_dec_llm_inputs(encoder_inputs, decoder_inputs)
 
     def _build_decoder_only_llm_inputs(
@@ -665,19 +758,13 @@ class InputPreprocessor:
         prompt_inputs: DecoderOnlyInputs,
         prompt_adapter_request: Optional[PromptAdapterRequest],
     ) -> DecoderOnlyInputs:
-        if (prompt_inputs["type"] == "token"
-                or prompt_inputs["type"] == "multimodal"):
-            # Mypy does not do type inference well with typedicts and Literal
-            # values
-            assert not is_embeds_inputs(prompt_inputs)
+        if "prompt_token_ids" in prompt_inputs:
+            prompt_inputs = cast(Union[TokenInputs, MultiModalInputs],
+                                 prompt_inputs)  # Needed for mypy
             prompt_inputs["prompt_token_ids"] = self._apply_prompt_adapter(
                 prompt_inputs["prompt_token_ids"],
                 prompt_adapter_request=prompt_adapter_request,
             )
-        elif (prompt_inputs["type"] == "embeds"):
-            pass
-        else:
-            assert_never(prompt_inputs)  # type: ignore[arg-type]
 
         return prompt_inputs
 
diff --git a/vllm/multimodal/processing.py b/vllm/multimodal/processing.py
index e8745a8f1..58168d0e8 100644
--- a/vllm/multimodal/processing.py
+++ b/vllm/multimodal/processing.py
@@ -1670,15 +1670,17 @@ class BaseMultiModalProcessor(ABC, Generic[_I]):
             placeholders = mm_placeholders.get(modality, [])
 
             if len(placeholders) != item_count:
+                # NOTE: If you are a model developer, this can also arise from
+                # an inconsistency between `_call_hf_processor` and
+                # `_get_mm_fields_config` implementations
                 raise RuntimeError(
                     f"Expected there to be {item_count} prompt updates "
                     f"corresponding to {item_count} {modality} items, but "
                     f"instead found {len(placeholders)} prompt updates! "
-                    "Either the prompt text has missing/incorrect tokens for "
-                    "multi-modal inputs, or there is a problem with your "
-                    "implementation of merged multi-modal processor for this "
-                    "model (usually arising from an inconsistency between "
-                    "`_call_hf_processor` and `_get_prompt_updates`).")
+                    "This is likely because you forgot to include input "
+                    "placeholder tokens (e.g., `<image>`, `<|image_pad|>`) "
+                    "in the prompt. If the model has a chat template, make "
+                    "sure you have applied it before calling `LLM.generate`.")
 
     def _maybe_apply_prompt_updates(
         self,
-- 
GitLab


From 4c33d6732148fdaeb9780fa86fca1f87f2a93c19 Mon Sep 17 00:00:00 2001
From: Hui Liu <96135754+hliuca@users.noreply.github.com>
Date: Fri, 2 May 2025 09:44:07 -0700
Subject: [PATCH 129/461] [Bugfix] fix tmp_out and exp_sums dimensions (#17438)

Signed-off-by: Hui Liu <96135754+hliuca@users.noreply.github.com>
---
 vllm/attention/ops/chunked_prefill_paged_decode.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/attention/ops/chunked_prefill_paged_decode.py b/vllm/attention/ops/chunked_prefill_paged_decode.py
index 1b4758164..759b3d853 100644
--- a/vllm/attention/ops/chunked_prefill_paged_decode.py
+++ b/vllm/attention/ops/chunked_prefill_paged_decode.py
@@ -289,7 +289,7 @@ def chunked_prefill_paged_decode(
         max_num_partitions = ((max_seq_len + _PARTITION_SIZE_ROCM - 1) //
                               _PARTITION_SIZE_ROCM)
         assert _PARTITION_SIZE_ROCM % block_size == 0
-        total_num_seq = query.shape[0]
+        total_num_seq = block_table.shape[0]
         tmp_output = torch.empty(
             size=(total_num_seq, num_query_heads, max_num_partitions,
                   head_size),
-- 
GitLab


From 0f87d8f7b26d2f71117211d337952396b75dac50 Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Fri, 2 May 2025 14:01:38 -0400
Subject: [PATCH 130/461] [BugFix][Attention] Fix sliding window attention in
 V1 giving incorrect results (#17574)

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>
---
 vllm/v1/attention/backends/flash_attn.py | 36 +++++++++++++++++++++++-
 1 file changed, 35 insertions(+), 1 deletion(-)

diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index 217dcd7c3..f986d797f 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -10,9 +10,11 @@ from vllm import _custom_ops as ops
 from vllm.attention.backends.abstract import (AttentionBackend, AttentionImpl,
                                               AttentionMetadata, AttentionType,
                                               is_quantized_kv_cache)
+from vllm.attention.layer import Attention
 from vllm.attention.ops.merge_attn_states import merge_attn_states
 from vllm.attention.utils.fa_utils import (flash_attn_supports_fp8,
                                            get_flash_attn_version)
+from vllm.config import VllmConfig, get_layers_from_vllm_config
 from vllm.logger import init_logger
 from vllm.platforms import current_platform
 from vllm.utils import cdiv
@@ -273,13 +275,23 @@ def make_local_attention_virtual_batches(
         block_table_local
 
 
+def _get_sliding_window_configs(
+        vllm_config: VllmConfig) -> set[Optional[tuple[int, int]]]:
+    """Get the set of all sliding window configs used in the model."""
+    sliding_window_configs: set[Optional[tuple[int, int]]] = set()
+    layers = get_layers_from_vllm_config(vllm_config, Attention)
+    for layer in layers.values():
+        assert isinstance(layer.impl, FlashAttentionImpl)
+        sliding_window_configs.add(layer.impl.sliding_window)
+    return sliding_window_configs
+
+
 class FlashAttentionMetadataBuilder:
 
     def __init__(self, runner: "GPUModelRunner"):
         model_config = runner.model_config
 
         self.runner = runner
-        self.aot_schedule = (get_flash_attn_version() == 3)
         self.num_heads_q = model_config.get_num_attention_heads(
             runner.parallel_config)
         self.num_heads_kv = model_config.get_num_kv_heads(
@@ -287,6 +299,11 @@ class FlashAttentionMetadataBuilder:
         self.headdim = model_config.get_head_size()
         self.page_size = self.runner.block_size
 
+        self.aot_schedule = (get_flash_attn_version() == 3)
+        # Sliding window size to be used with the AOT scheduler will be
+        # populated on first build() call.
+        self.aot_sliding_window: Optional[tuple[int, int]] = None
+
     def reorder_batch(self, input_batch: "InputBatch",
                       scheduler_output: "SchedulerOutput") -> bool:
         return False
@@ -304,6 +321,22 @@ class FlashAttentionMetadataBuilder:
         slot_mapping = self.runner.slot_mapping_cpu[:num_actual_tokens].to(
             self.runner.device, non_blocking=True).long()
 
+        if self.aot_sliding_window is None:
+            self.aot_sliding_window = (-1, -1)
+            # For the AOT scheduler we need the sliding window value to be
+            # constant for all layers to. We have to populate this on the first
+            # build() call so the layers are constructed (cannot populate)
+            # in __init__.
+            if self.aot_schedule:
+                sliding_window_configs = _get_sliding_window_configs(
+                    self.runner.vllm_config)
+                if len(sliding_window_configs) == 1:
+                    sliding_window_config = sliding_window_configs.pop()
+                    if sliding_window_config is not None:
+                        self.aot_sliding_window = sliding_window_config
+                elif len(sliding_window_configs) > 1:
+                    self.aot_schedule = False
+
         def schedule(batch_size, cu_query_lens, max_query_len, seqlens,
                      max_seq_len, causal):
             if self.aot_schedule:
@@ -318,6 +351,7 @@ class FlashAttentionMetadataBuilder:
                     page_size=self.page_size,
                     cu_seqlens_q=cu_query_lens,
                     causal=causal,
+                    window_size=self.aot_sliding_window,
                 )
             return None
 
-- 
GitLab


From 3e887d2e0c1fcd65efbfe02db8a824c761fe4d41 Mon Sep 17 00:00:00 2001
From: Caleb_Du <59528230+CalebDu@users.noreply.github.com>
Date: Sat, 3 May 2025 02:31:55 +0800
Subject: [PATCH 131/461] permute/unpermute kernel for moe optimization
 (#14568)

Signed-off-by: Caleb_Du <Caleb_Du@zju.edu.cn>
---
 CMakeLists.txt                                |  14 +-
 .../kernels/benchmark_grouped_gemm_cutlass.py |   3 +-
 benchmarks/kernels/benchmark_moe.py           |   4 +-
 .../benchmark_moe_permute_unpermute.py        | 349 ++++++++++++++++++
 csrc/moe/moe_permute_unpermute_op.cu          | 133 +++++++
 csrc/moe/permute_unpermute_kernels/dispatch.h |  53 +++
 .../moe_permute_unpermute_kernel.cu           | 229 ++++++++++++
 .../moe_permute_unpermute_kernel.h            |  95 +++++
 .../moe_permute_unpermute_kernel.inl          | 211 +++++++++++
 csrc/moe/torch_bindings.cpp                   |  22 ++
 tests/kernels/moe/test_moe.py                 |   3 +-
 .../kernels/moe/test_moe_permute_unpermute.py | 223 +++++++++++
 tests/kernels/quantization/test_awq_marlin.py |   3 +-
 tests/kernels/quantization/test_block_fp8.py  |   6 +-
 .../layers/fused_moe/fused_marlin_moe.py      |   4 +-
 .../layers/fused_moe/fused_moe.py             |  19 +-
 vllm/model_executor/layers/fused_moe/layer.py |   9 +-
 .../layers/fused_moe/moe_permute_unpermute.py | 116 ++++++
 vllm/model_executor/models/arctic.py          |   6 +-
 19 files changed, 1474 insertions(+), 28 deletions(-)
 create mode 100644 benchmarks/kernels/benchmark_moe_permute_unpermute.py
 create mode 100644 csrc/moe/moe_permute_unpermute_op.cu
 create mode 100644 csrc/moe/permute_unpermute_kernels/dispatch.h
 create mode 100644 csrc/moe/permute_unpermute_kernels/moe_permute_unpermute_kernel.cu
 create mode 100644 csrc/moe/permute_unpermute_kernels/moe_permute_unpermute_kernel.h
 create mode 100644 csrc/moe/permute_unpermute_kernels/moe_permute_unpermute_kernel.inl
 create mode 100644 tests/kernels/moe/test_moe_permute_unpermute.py
 create mode 100644 vllm/model_executor/layers/fused_moe/moe_permute_unpermute.py

diff --git a/CMakeLists.txt b/CMakeLists.txt
index 72740279d..be84c8129 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -15,7 +15,6 @@ project(vllm_extensions LANGUAGES CXX)
 
 # CUDA by default, can be overridden by using -DVLLM_TARGET_DEVICE=... (used by setup.py)
 set(VLLM_TARGET_DEVICE "cuda" CACHE STRING "Target device backend for vLLM")
-
 message(STATUS "Build type: ${CMAKE_BUILD_TYPE}")
 message(STATUS "Target device: ${VLLM_TARGET_DEVICE}")
 
@@ -682,6 +681,17 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
   endif()
 endif()
 
+if(VLLM_GPU_LANG STREQUAL "CUDA")
+  set(MOE_PERMUTE_SRC
+      "csrc/moe/permute_unpermute_kernels/moe_permute_unpermute_kernel.cu"
+      "csrc/moe/moe_permute_unpermute_op.cu")
+
+  set_gencode_flags_for_srcs(
+    SRCS "${MARLIN_PERMUTE_SRC}"
+    CUDA_ARCHS "${MOE_PERMUTE_ARCHS}")
+
+  list(APPEND VLLM_MOE_EXT_SRC "${MOE_PERMUTE_SRC}")
+endif()
 message(STATUS "Enabling moe extension.")
 define_gpu_extension_target(
   _moe_C
@@ -690,6 +700,8 @@ define_gpu_extension_target(
   SOURCES ${VLLM_MOE_EXT_SRC}
   COMPILE_FLAGS ${VLLM_GPU_FLAGS}
   ARCHITECTURES ${VLLM_GPU_ARCHES}
+  INCLUDE_DIRECTORIES ${CUTLASS_INCLUDE_DIR}
+  INCLUDE_DIRECTORIES ${CUTLASS_TOOLS_UTIL_INCLUDE_DIR}
   USE_SABI 3
   WITH_SOABI)
 
diff --git a/benchmarks/kernels/benchmark_grouped_gemm_cutlass.py b/benchmarks/kernels/benchmark_grouped_gemm_cutlass.py
index bcdbf6c75..c92ea43e8 100644
--- a/benchmarks/kernels/benchmark_grouped_gemm_cutlass.py
+++ b/benchmarks/kernels/benchmark_grouped_gemm_cutlass.py
@@ -90,7 +90,8 @@ def bench_run(results: list[benchmark.Measurement], model: str,
 
     score = torch.randn((m, num_experts), device="cuda", dtype=dtype)
 
-    topk_weights, topk_ids = fused_topk(a, score, topk, renormalize=False)
+    topk_weights, topk_ids, token_expert_indices = fused_topk(
+        a, score, topk, renormalize=False)
 
     def run_triton_moe(a: torch.Tensor, w1: torch.Tensor, w2: torch.Tensor,
                        topk_weights: torch.Tensor, topk_ids: torch.Tensor,
diff --git a/benchmarks/kernels/benchmark_moe.py b/benchmarks/kernels/benchmark_moe.py
index a274537a6..c34f97dec 100644
--- a/benchmarks/kernels/benchmark_moe.py
+++ b/benchmarks/kernels/benchmark_moe.py
@@ -115,8 +115,8 @@ def benchmark_config(config: BenchmarkConfig,
         from vllm.model_executor.layers.fused_moe import override_config
         with override_config(config):
             if use_deep_gemm:
-                topk_weights, topk_ids = fused_topk(x, input_gating, topk,
-                                                    False)
+                topk_weights, topk_ids, token_expert_indices = fused_topk(
+                    x, input_gating, topk, False)
                 return fused_experts(
                     x,
                     w1,
diff --git a/benchmarks/kernels/benchmark_moe_permute_unpermute.py b/benchmarks/kernels/benchmark_moe_permute_unpermute.py
new file mode 100644
index 000000000..937df9624
--- /dev/null
+++ b/benchmarks/kernels/benchmark_moe_permute_unpermute.py
@@ -0,0 +1,349 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import argparse
+from typing import Any, TypedDict
+
+import ray
+import torch
+from transformers import AutoConfig
+
+from vllm.model_executor.layers.fused_moe.deep_gemm_moe import (
+    _moe_permute, _moe_unpermute_and_reduce)
+from vllm.model_executor.layers.fused_moe.fused_moe import *
+from vllm.model_executor.layers.fused_moe.moe_permute_unpermute import *
+from vllm.model_executor.layers.fused_moe.utils import _fp8_quantize
+from vllm.platforms import current_platform
+from vllm.utils import FlexibleArgumentParser
+
+FP8_DTYPE = current_platform.fp8_dtype()
+
+
+class BenchmarkConfig(TypedDict):
+    BLOCK_SIZE_M: int
+    BLOCK_SIZE_N: int
+    BLOCK_SIZE_K: int
+    GROUP_SIZE_M: int
+    num_warps: int
+    num_stages: int
+
+
+def benchmark_permute(num_tokens: int,
+                      num_experts: int,
+                      hidden_size: int,
+                      topk: int,
+                      dtype: torch.dtype,
+                      use_fp8_w8a8: bool,
+                      use_int8_w8a16: bool,
+                      num_iters: int = 100,
+                      use_customized_permute: bool = False) -> float:
+    # init_dtype = torch.float16 if use_fp8_w8a8 else dtype
+    hidden_states = torch.randn(num_tokens, hidden_size, dtype=dtype)
+    # output_hidden_states = torch.empty_like(hidden_states)
+    if use_fp8_w8a8:
+        align_block_size = 128  # deepgemm needs 128 m aligned block
+        qhidden_states, scale = _fp8_quantize(hidden_states, None, None)
+    else:
+        align_block_size = None
+        qhidden_states = hidden_states
+
+    gating_output = torch.randn(num_iters,
+                                num_tokens,
+                                num_experts,
+                                dtype=torch.float32)
+
+    input_gating = torch.randn(num_tokens, num_experts, dtype=torch.float32)
+    topk_weights, topk_ids, token_expert_indices = fused_topk(
+        qhidden_states, input_gating, topk, False)
+
+    def prepare(i: int):
+        input_gating.copy_(gating_output[i])
+
+    def run():
+        if use_customized_permute:
+            (permuted_hidden_states, first_token_off, inv_perm_idx,
+             m_indices) = moe_permute(
+                 qhidden_states,
+                 topk_weights=topk_weights,
+                 topk_ids=topk_ids,
+                 token_expert_indices=token_expert_indices,
+                 topk=topk,
+                 n_expert=num_experts,
+                 n_local_expert=num_experts,
+                 expert_map=None,
+                 align_block_size=align_block_size,
+             )
+        else:
+            (permuted_hidden_states, a1q_scale, sorted_token_ids, expert_ids,
+             inv_perm) = _moe_permute(qhidden_states, None, topk_ids,
+                                      num_experts, None, align_block_size)
+
+    # JIT compilation & warmup
+    run()
+    torch.cuda.synchronize()
+
+    # Capture 10 invocations with CUDA graph
+    graph = torch.cuda.CUDAGraph()
+    with torch.cuda.graph(graph):
+        for _ in range(10):
+            run()
+    torch.cuda.synchronize()
+
+    # Warmup
+    for _ in range(5):
+        graph.replay()
+    torch.cuda.synchronize()
+
+    start_event = torch.cuda.Event(enable_timing=True)
+    end_event = torch.cuda.Event(enable_timing=True)
+
+    latencies: list[float] = []
+    for i in range(num_iters):
+        prepare(i)
+        torch.cuda.synchronize()
+
+        start_event.record()
+        graph.replay()
+        end_event.record()
+        end_event.synchronize()
+        latencies.append(start_event.elapsed_time(end_event))
+    avg = sum(latencies) / (num_iters * 10) * 1000  # us
+    graph.reset()
+    return avg
+
+
+def benchmark_unpermute(num_tokens: int,
+                        num_experts: int,
+                        hidden_size: int,
+                        topk: int,
+                        dtype: torch.dtype,
+                        use_fp8_w8a8: bool,
+                        use_int8_w8a16: bool,
+                        num_iters: int = 100,
+                        use_customized_permute: bool = False) -> float:
+    # init_dtype = torch.float16 if use_fp8_w8a8 else dtype
+    hidden_states = torch.randn(num_tokens, hidden_size, dtype=dtype)
+    output_hidden_states = torch.empty_like(hidden_states)
+    if use_fp8_w8a8:
+        align_block_size = 128  # deepgemm needs 128 m aligned block
+        qhidden_states, scale = _fp8_quantize(hidden_states, None, None)
+    else:
+        align_block_size = None
+        qhidden_states = hidden_states
+
+    input_gating = torch.randn(num_tokens, num_experts, dtype=torch.float32)
+
+    topk_weights, topk_ids, token_expert_indices = fused_topk(
+        qhidden_states, input_gating, topk, False)
+
+    def prepare():
+        if use_customized_permute:
+            (permuted_hidden_states, first_token_off, inv_perm_idx,
+             m_indices) = moe_permute(
+                 qhidden_states,
+                 topk_weights=topk_weights,
+                 topk_ids=topk_ids,
+                 token_expert_indices=token_expert_indices,
+                 topk=topk,
+                 n_expert=num_experts,
+                 n_local_expert=num_experts,
+                 expert_map=None,
+                 align_block_size=align_block_size,
+             )
+            # convert to fp16/bf16 as gemm output
+            return (permuted_hidden_states.to(dtype), first_token_off,
+                    inv_perm_idx, m_indices)
+        else:
+            (permuted_qhidden_states, a1q_scale, sorted_token_ids, expert_ids,
+             inv_perm) = _moe_permute(qhidden_states, None, topk_ids,
+                                      num_experts, None, align_block_size)
+            # convert to fp16/bf16 as gemm output
+            return (permuted_qhidden_states.to(dtype), a1q_scale,
+                    sorted_token_ids, expert_ids, inv_perm)
+
+    def run(input: tuple):
+        if use_customized_permute:
+            (permuted_hidden_states, first_token_off, inv_perm_idx,
+             m_indices) = input
+            moe_unpermute(permuted_hidden_states, topk_weights, topk_ids,
+                          inv_perm_idx, first_token_off, topk, num_experts,
+                          num_experts)
+        else:
+            (permuted_hidden_states, a1q_scale, sorted_token_ids, expert_ids,
+             inv_perm) = input
+            _moe_unpermute_and_reduce(output_hidden_states,
+                                      permuted_hidden_states, inv_perm,
+                                      topk_weights)
+
+    # JIT compilation & warmup
+    input = prepare()
+    run(input)
+    torch.cuda.synchronize()
+
+    # Capture 10 invocations with CUDA graph
+    graph = torch.cuda.CUDAGraph()
+    with torch.cuda.graph(graph):
+        for _ in range(10):
+            run(input)
+    torch.cuda.synchronize()
+
+    # Warmup
+    for _ in range(5):
+        graph.replay()
+    torch.cuda.synchronize()
+
+    start_event = torch.cuda.Event(enable_timing=True)
+    end_event = torch.cuda.Event(enable_timing=True)
+
+    latencies: list[float] = []
+    for i in range(num_iters):
+        torch.cuda.synchronize()
+        start_event.record()
+        graph.replay()
+        end_event.record()
+        end_event.synchronize()
+        latencies.append(start_event.elapsed_time(end_event))
+    avg = sum(latencies) / (num_iters * 10) * 1000  # us
+    graph.reset()
+    return avg
+
+
+@ray.remote(num_gpus=1)
+class BenchmarkWorker:
+
+    def __init__(self, seed: int) -> None:
+        torch.set_default_device("cuda")
+        current_platform.seed_everything(seed)
+        self.seed = seed
+        # Get the device ID to allocate tensors and kernels
+        # on the respective GPU. This is required for Ray to work
+        # correctly with multi-GPU tuning on the ROCm platform.
+        self.device_id = int(ray.get_gpu_ids()[0])
+
+    def benchmark(
+        self,
+        num_tokens: int,
+        num_experts: int,
+        hidden_size: int,
+        topk: int,
+        dtype: torch.dtype,
+        use_fp8_w8a8: bool,
+        use_int8_w8a16: bool,
+        use_customized_permute: bool = False,
+    ) -> tuple[dict[str, int], float]:
+        current_platform.seed_everything(self.seed)
+
+        permute_time = benchmark_permute(
+            num_tokens,
+            num_experts,
+            hidden_size,
+            topk,
+            dtype,
+            use_fp8_w8a8,
+            use_int8_w8a16,
+            num_iters=100,
+            use_customized_permute=use_customized_permute)
+        unpermute_time = benchmark_unpermute(
+            num_tokens,
+            num_experts,
+            hidden_size,
+            topk,
+            dtype,
+            use_fp8_w8a8,
+            use_int8_w8a16,
+            num_iters=100,
+            use_customized_permute=use_customized_permute)
+        return permute_time, unpermute_time
+
+
+def get_weight_block_size_safety(config, default_value=None):
+
+    quantization_config = getattr(config, 'quantization_config', {})
+    if isinstance(quantization_config, dict):
+        return quantization_config.get('weight_block_size', default_value)
+    return default_value
+
+
+def main(args: argparse.Namespace):
+    print(args)
+
+    config = AutoConfig.from_pretrained(
+        args.model, trust_remote_code=args.trust_remote_code)
+    if config.architectures[0] == "DbrxForCausalLM":
+        E = config.ffn_config.moe_num_experts
+        topk = config.ffn_config.moe_top_k
+    elif config.architectures[0] == "JambaForCausalLM":
+        E = config.num_experts
+        topk = config.num_experts_per_tok
+    elif (config.architectures[0] == "DeepseekV3ForCausalLM"
+          or config.architectures[0] == "DeepseekV2ForCausalLM"):
+        E = config.n_routed_experts
+        topk = config.num_experts_per_tok
+    elif config.architectures[0] in [
+            "Qwen2MoeForCausalLM", "Qwen3MoeForCausalLM"
+    ]:
+        E = config.num_experts
+        topk = config.num_experts_per_tok
+
+    else:
+        # Support for llama4
+        config = config.get_text_config()
+        # Default: Mixtral.
+        E = config.num_local_experts
+        topk = config.num_experts_per_tok
+
+    hidden_size = config.hidden_size
+    dtype = torch.float16 if current_platform.is_rocm() else config.torch_dtype
+    use_fp8_w8a8 = args.dtype == "fp8_w8a8"
+    use_int8_w8a16 = args.dtype == "int8_w8a16"
+    use_customized_permute = args.use_customized_permute
+
+    if args.batch_size is None:
+        batch_sizes = [
+            1, 2, 4, 8, 16, 24, 32, 48, 64, 96, 128, 256, 512, 1024, 1536,
+            2048, 3072, 4096
+        ]
+    else:
+        batch_sizes = [args.batch_size]
+
+    ray.init()
+    num_gpus = int(ray.available_resources()["GPU"])
+    workers = [BenchmarkWorker.remote(args.seed) for _ in range(num_gpus)]
+
+    def _distribute(method: str, inputs: list[Any]) -> list[Any]:
+        outputs = []
+        worker_idx = 0
+        for input_args in inputs:
+            worker = workers[worker_idx]
+            worker_method = getattr(worker, method)
+            output = worker_method.remote(*input_args)
+            outputs.append(output)
+            worker_idx = (worker_idx + 1) % num_gpus
+        return ray.get(outputs)
+
+    outputs = _distribute(
+        "benchmark", [(batch_size, E, hidden_size, topk, dtype, use_fp8_w8a8,
+                       use_int8_w8a16, use_customized_permute)
+                      for batch_size in batch_sizes])
+
+    for batch_size, (permute, unpermute) in zip(batch_sizes, outputs):
+        print(f"Batch size: {batch_size}")
+        print(f"Permute time: {permute:.2f} us")
+        print(f"Unpermute time: {unpermute:.2f} us")
+
+
+if __name__ == "__main__":
+    parser = FlexibleArgumentParser()
+    parser.add_argument("--model",
+                        type=str,
+                        default="mistralai/Mixtral-8x7B-Instruct-v0.1")
+    parser.add_argument("--dtype",
+                        type=str,
+                        choices=["auto", "fp8_w8a8", "int8_w8a16"],
+                        default="auto")
+    parser.add_argument("--use-customized-permute", action="store_true")
+    parser.add_argument("--seed", type=int, default=0)
+    parser.add_argument("--batch-size", type=int, required=False)
+    parser.add_argument("--trust-remote-code", action="store_true")
+    args = parser.parse_args()
+
+    main(args)
diff --git a/csrc/moe/moe_permute_unpermute_op.cu b/csrc/moe/moe_permute_unpermute_op.cu
new file mode 100644
index 000000000..76d5f0eab
--- /dev/null
+++ b/csrc/moe/moe_permute_unpermute_op.cu
@@ -0,0 +1,133 @@
+#include <c10/core/ScalarType.h>
+#include <torch/all.h>
+#include <ATen/cuda/CUDAContext.h>
+#include "permute_unpermute_kernels/moe_permute_unpermute_kernel.h"
+#include "permute_unpermute_kernels/dispatch.h"
+#include "core/registration.h"
+
+void moe_permute(
+    const torch::Tensor& input,                      // [n_token, hidden]
+    const torch::Tensor& topk_weights,               //[n_token, topk]
+    torch::Tensor& topk_ids,                         // [n_token, topk]
+    const torch::Tensor& token_expert_indicies,      // [n_token, topk]
+    const std::optional<torch::Tensor>& expert_map,  // [n_expert]
+    int64_t n_expert, int64_t n_local_expert, int64_t topk,
+    const std::optional<int64_t>& align_block_size,
+    torch::Tensor&
+        permuted_input,  // [topk * n_token/align_block_size_m, hidden]
+    torch::Tensor& expert_first_token_offset,  // [n_local_expert + 1]
+    torch::Tensor& src_row_id2dst_row_id_map,  // [n_token, topk]
+    torch::Tensor& m_indices) {                // [align_expand_m]
+  TORCH_CHECK(topk_weights.scalar_type() == at::ScalarType::Float,
+              "topk_weights must be float32");
+  TORCH_CHECK(expert_first_token_offset.scalar_type() == at::ScalarType::Long,
+              "expert_first_token_offset must be int64");
+  TORCH_CHECK(topk_ids.scalar_type() == at::ScalarType::Int,
+              "topk_ids must be int32");
+  TORCH_CHECK(token_expert_indicies.scalar_type() == at::ScalarType::Int,
+              "token_expert_indicies must be int32");
+  TORCH_CHECK(src_row_id2dst_row_id_map.scalar_type() == at::ScalarType::Int,
+              "src_row_id2dst_row_id_map must be int32");
+  TORCH_CHECK(expert_first_token_offset.size(0) == n_local_expert + 1,
+              "expert_first_token_offset shape != n_local_expert+1")
+  TORCH_CHECK(
+      src_row_id2dst_row_id_map.sizes() == token_expert_indicies.sizes(),
+      "token_expert_indicies shape must be same as src_row_id2dst_row_id_map");
+  auto n_token = input.sizes()[0];
+  auto n_hidden = input.sizes()[1];
+  auto align_block_size_value =
+      align_block_size.has_value() ? align_block_size.value() : -1;
+  auto stream = at::cuda::getCurrentCUDAStream().stream();
+  const long sorter_size =
+      CubKeyValueSorter::getWorkspaceSize(n_token * topk, n_expert);
+  auto sort_workspace = torch::empty(
+      {sorter_size},
+      torch::dtype(torch::kInt8).device(torch::kCUDA).requires_grad(false));
+  auto permuted_experts_id = torch::empty_like(topk_ids);
+  auto dst_row_id2src_row_id_map = torch::empty_like(src_row_id2dst_row_id_map);
+  auto align_expert_first_token_offset =
+      torch::zeros_like(expert_first_token_offset);
+
+  CubKeyValueSorter sorter{};
+  int64_t* valid_num_ptr = nullptr;
+  // pre-process kernel for expert-parallelism:
+  // no local expert id plus "n_expert" offset for priority to local expert
+  // map local expert id [n, .., n+n_local_expert-1] to [0, n_local_expert -1]
+  // For example, 4 expert with ep_size=2. ep_rank=1 owns global expert id
+  // [2,3] with expert_map[-1, -1, 0, 1], preprocess_topk_id  process topk_ids
+  // and map global expert id [2, 3] to local_expert id [0, 1] and map global
+  // expert id [0, 1] ( not in ep rank=1)  to [4, 5] by plus n_expert. This map
+  // operation is to make local expert high priority in following sort topk_ids
+  // and scan local expert_first_token_offset for each ep rank for next group
+  // gemm.
+  if (expert_map.has_value()) {
+    const int* expert_map_ptr = get_ptr<int>(expert_map.value());
+    valid_num_ptr =
+        get_ptr<int64_t>(expert_first_token_offset) + n_local_expert;
+    preprocessTopkIdLauncher(get_ptr<int>(topk_ids), n_token * topk,
+                             expert_map_ptr, n_expert, stream);
+  }
+  // expert sort topk expert id and scan expert id get expert_first_token_offset
+  sortAndScanExpert(get_ptr<int>(topk_ids), get_ptr<int>(token_expert_indicies),
+                    get_ptr<int>(permuted_experts_id),
+                    get_ptr<int>(dst_row_id2src_row_id_map),
+                    get_ptr<int64_t>(expert_first_token_offset), n_token,
+                    n_expert, n_local_expert, topk, sorter,
+                    get_ptr<int>(sort_workspace), stream);
+
+  // dispatch expandInputRowsKernelLauncher
+  MOE_DISPATCH(input.scalar_type(), [&] {
+    expandInputRowsKernelLauncher<scalar_t>(
+        get_ptr<scalar_t>(input), get_ptr<scalar_t>(permuted_input),
+        get_ptr<float>(topk_weights), get_ptr<int>(permuted_experts_id),
+        get_ptr<int>(dst_row_id2src_row_id_map),
+        get_ptr<int>(src_row_id2dst_row_id_map),
+        get_ptr<int64_t>(expert_first_token_offset), n_token, valid_num_ptr,
+        n_hidden, topk, n_local_expert, align_block_size_value, stream);
+  });
+
+  // get m_indices and update expert_first_token_offset with align block
+  getMIndices(get_ptr<int64_t>(expert_first_token_offset),
+              get_ptr<int64_t>(align_expert_first_token_offset),
+              get_ptr<int>(m_indices), n_local_expert, align_block_size_value,
+              stream);
+  if (align_block_size.has_value()) {
+    // update align_expert_first_token_offset
+    expert_first_token_offset.copy_(align_expert_first_token_offset);
+  }
+}
+
+void moe_unpermute(
+    const torch::Tensor& permuted_hidden_states,     // [n_token * topk, hidden]
+    const torch::Tensor& topk_weights,               //[n_token, topk]
+    const torch::Tensor& topk_ids,                   // [n_token, topk]
+    const torch::Tensor& src_row_id2dst_row_id_map,  // [n_token, topk]
+    const torch::Tensor& expert_first_token_offset,  // [n_local_expert+1]
+    int64_t n_expert, int64_t n_local_expert, int64_t topk,
+    torch::Tensor& hidden_states  // [n_token, hidden]
+) {
+  TORCH_CHECK(src_row_id2dst_row_id_map.sizes() == topk_ids.sizes(),
+              "topk_ids shape must be same as src_row_id2dst_row_id_map");
+  TORCH_CHECK(topk_ids.scalar_type() == at::ScalarType::Int,
+              "topk_ids must be int32");
+  TORCH_CHECK(
+      permuted_hidden_states.scalar_type() == hidden_states.scalar_type(),
+      "topk_ids dtype must be same as src_row_id2dst_row_id_map");
+  auto n_token = hidden_states.size(0);
+  auto n_hidden = hidden_states.size(1);
+  auto stream = at::cuda::getCurrentCUDAStream().stream();
+  const int64_t* valid_ptr =
+      get_ptr<int64_t>(expert_first_token_offset) + n_local_expert;
+  MOE_DISPATCH(hidden_states.scalar_type(), [&] {
+    finalizeMoeRoutingKernelLauncher<scalar_t, scalar_t>(
+        get_ptr<scalar_t>(permuted_hidden_states),
+        get_ptr<scalar_t>(hidden_states), get_ptr<float>(topk_weights),
+        get_ptr<int>(src_row_id2dst_row_id_map), get_ptr<int>(topk_ids),
+        n_token, n_hidden, topk, valid_ptr, stream);
+  });
+}
+
+TORCH_LIBRARY_IMPL_EXPAND(TORCH_EXTENSION_NAME, CUDA, m) {
+  m.impl("moe_permute", &moe_permute);
+  m.impl("moe_unpermute", &moe_unpermute);
+}
\ No newline at end of file
diff --git a/csrc/moe/permute_unpermute_kernels/dispatch.h b/csrc/moe/permute_unpermute_kernels/dispatch.h
new file mode 100644
index 000000000..41932cdd8
--- /dev/null
+++ b/csrc/moe/permute_unpermute_kernels/dispatch.h
@@ -0,0 +1,53 @@
+#pragma once
+#include <cuda_fp8.h>
+#define MOE_SWITCH(TYPE, ...)                                     \
+  at::ScalarType _st = ::detail::scalar_type(TYPE);               \
+  switch (_st) {                                                  \
+    __VA_ARGS__                                                   \
+    default:                                                      \
+      TORCH_CHECK(false, "[moe permute]data type dispatch fail!") \
+  }
+
+#define MOE_DISPATCH_CASE(enum_type, ...)                  \
+  case enum_type: {                                        \
+    using scalar_t = ScalarType2CudaType<enum_type>::type; \
+    __VA_ARGS__();                                         \
+    break;                                                 \
+  }
+#define MOE_DISPATCH_FLOAT_CASE(...)                          \
+  MOE_DISPATCH_CASE(at::ScalarType::Float, __VA_ARGS__)       \
+  MOE_DISPATCH_CASE(at::ScalarType::Half, __VA_ARGS__)        \
+  MOE_DISPATCH_CASE(at::ScalarType::BFloat16, __VA_ARGS__)    \
+  MOE_DISPATCH_CASE(at::ScalarType::Float8_e5m2, __VA_ARGS__) \
+  MOE_DISPATCH_CASE(at::ScalarType::Float8_e4m3fn, __VA_ARGS__)
+
+#define MOE_DISPATCH(TYPE, ...) \
+  MOE_SWITCH(TYPE, MOE_DISPATCH_FLOAT_CASE(__VA_ARGS__))
+
+template <at::ScalarType type>
+struct ScalarType2CudaType;
+
+template <>
+struct ScalarType2CudaType<at::ScalarType::Float> {
+  using type = float;
+};
+template <>
+struct ScalarType2CudaType<at::ScalarType::Half> {
+  using type = half;
+};
+template <>
+struct ScalarType2CudaType<at::ScalarType::BFloat16> {
+  using type = __nv_bfloat16;
+};
+
+// #if __CUDA_ARCH__ >= 890
+// fp8
+template <>
+struct ScalarType2CudaType<at::ScalarType::Float8_e5m2> {
+  using type = __nv_fp8_e5m2;
+};
+template <>
+struct ScalarType2CudaType<at::ScalarType::Float8_e4m3fn> {
+  using type = __nv_fp8_e4m3;
+};
+// #endif
\ No newline at end of file
diff --git a/csrc/moe/permute_unpermute_kernels/moe_permute_unpermute_kernel.cu b/csrc/moe/permute_unpermute_kernels/moe_permute_unpermute_kernel.cu
new file mode 100644
index 000000000..aa353d0f0
--- /dev/null
+++ b/csrc/moe/permute_unpermute_kernels/moe_permute_unpermute_kernel.cu
@@ -0,0 +1,229 @@
+
+#include "moe_permute_unpermute_kernel.h"
+
+// CubKeyValueSorter definition begin
+CubKeyValueSorter::CubKeyValueSorter()
+    : num_experts_(0), num_bits_(sizeof(int) * 8) {}
+
+int CubKeyValueSorter::expertsToBits(int num_experts) {
+  // Max value we represent is V = num_experts + (num_experts - 1) = 2 *
+  // num_experts - 1 The maximum number of bits is therefore floor(log2(V)) + 1
+  return static_cast<int>(log2(2 * num_experts - 1)) + 1;
+}
+
+CubKeyValueSorter::CubKeyValueSorter(int const num_experts)
+    : num_experts_(num_experts), num_bits_(expertsToBits(num_experts)) {}
+
+void CubKeyValueSorter::updateNumExperts(int const num_experts) {
+  num_experts_ = num_experts;
+  num_bits_ = expertsToBits(num_experts);
+}
+
+size_t CubKeyValueSorter::getWorkspaceSize(size_t const num_key_value_pairs,
+                                           int const num_experts) {
+  int num_bits = expertsToBits(num_experts);
+  size_t required_storage = 0;
+  int* null_int = nullptr;
+  cub::DeviceRadixSort::SortPairs(nullptr, required_storage, null_int, null_int,
+                                  null_int, null_int, num_key_value_pairs, 0,
+                                  num_bits);
+
+  //   when num_key_value_pairs, num_experts, num_bits, required_storage = 64,
+  //   4, 3, 0 The required_storage seems to vary between 0 and 1 for the same
+  //   inputs
+  if (required_storage == 0) {
+    required_storage = 1;
+  }
+  return required_storage;
+}
+
+void CubKeyValueSorter::run(void* workspace, size_t const workspace_size,
+                            int const* keys_in, int* keys_out,
+                            int const* values_in, int* values_out,
+                            size_t const num_key_value_pairs,
+                            cudaStream_t stream) {
+  size_t expected_ws_size = getWorkspaceSize(num_key_value_pairs, num_experts_);
+  size_t actual_ws_size = workspace_size;
+
+  TORCH_CHECK(expected_ws_size <= workspace_size,
+              "[CubKeyValueSorter::run] The allocated workspace is too small "
+              "to run this problem.");
+  cub::DeviceRadixSort::SortPairs(workspace, actual_ws_size, keys_in, keys_out,
+                                  values_in, values_out, num_key_value_pairs, 0,
+                                  num_bits_, stream);
+}
+// CubKeyValueSorter definition end
+
+static inline size_t pad_to_multiple_of_16(size_t const& input) {
+  static constexpr int ALIGNMENT = 16;
+  return ALIGNMENT * ((input + ALIGNMENT - 1) / ALIGNMENT);
+}
+template <class T>
+__device__ inline int64_t findTotalEltsLessThanTarget(T const* sorted_indices,
+                                                      int64_t const arr_length,
+                                                      T const target) {
+  int64_t low = 0, high = arr_length - 1, target_location = -1;
+  while (low <= high) {
+    int64_t mid = (low + high) / 2;
+
+    if (sorted_indices[mid] >= target) {
+      high = mid - 1;
+    } else {
+      low = mid + 1;
+      target_location = mid;
+    }
+  }
+  return target_location + 1;
+}
+
+// Calculates the start offset of the tokens for a given expert. The last
+// element is the total number of valid tokens
+__global__ void computeExpertFirstTokenOffsetKernel(
+    int const* sorted_experts, int64_t const sorted_experts_len,
+    int const num_experts, int64_t* expert_first_token_offset) {
+  // First, compute the global tid. We only need 1 thread per expert.
+  int const expert = blockIdx.x * blockDim.x + threadIdx.x;
+
+  // Note that expert goes [0, num_experts] (inclusive) because we want a count
+  // for the total number of active tokens at the end of the scan.
+  if (expert >= num_experts + 1) {
+    return;
+  }
+  expert_first_token_offset[expert] =
+      findTotalEltsLessThanTarget(sorted_experts, sorted_experts_len, expert);
+}
+
+void computeExpertFirstTokenOffset(int const* sorted_indices,
+                                   int const total_indices,
+                                   int const num_experts,
+                                   int64_t* expert_first_token_offset,
+                                   cudaStream_t stream) {
+  int const num_entries = num_experts + 1;
+  int const threads = std::min(1024, num_entries);
+  int const blocks = (num_entries + threads - 1) / threads;
+
+  computeExpertFirstTokenOffsetKernel<<<blocks, threads, 0, stream>>>(
+      sorted_indices, total_indices, num_experts, expert_first_token_offset);
+}
+
+void sortAndScanExpert(int* expert_for_source_row, const int* source_rows,
+                       int* permuted_experts, int* permuted_rows,
+                       int64_t* expert_first_token_offset, int num_rows,
+                       int num_experts, int num_experts_per_node, int k,
+                       CubKeyValueSorter& sorter, void* sorter_ws,
+                       cudaStream_t stream) {
+  int64_t const expanded_num_rows = static_cast<int64_t>(k) * num_rows;
+  // We need to use the full num_experts because that is the sentinel value used
+  // by topk for disabled experts
+  sorter.updateNumExperts(num_experts);
+  size_t const sorter_ws_size_bytes = pad_to_multiple_of_16(
+      sorter.getWorkspaceSize(expanded_num_rows, num_experts));
+  sorter.run((void*)sorter_ws, sorter_ws_size_bytes, expert_for_source_row,
+             permuted_experts, source_rows, permuted_rows, expanded_num_rows,
+             stream);
+  computeExpertFirstTokenOffset(permuted_experts, expanded_num_rows,
+                                num_experts_per_node, expert_first_token_offset,
+                                stream);
+}
+
+__global__ void preprocessTopkIdKernel(int* topk_id_ptr, int size,
+                                       const int* expert_map_ptr,
+                                       int num_experts) {
+  auto tidx = threadIdx.x;
+  auto bidx = blockIdx.x;
+  auto lidx = tidx & 31;
+  auto widx = tidx >> 5;
+  auto warp_count = (blockDim.x + 31) >> 5;
+  auto offset = bidx * blockDim.x;
+  auto bound = min(offset + blockDim.x, size);
+  extern __shared__ int smem_expert_map[];
+  // store expert_map in smem
+  for (int i = tidx; i < num_experts; i += blockDim.x) {
+    smem_expert_map[i] = expert_map_ptr[i];
+  }
+  __syncthreads();
+
+  // query global expert id in expert map.
+  // if global expert id = -1 in exert map, plus n_expert
+  // else set global expert id = exert map[global expert id]
+  if (offset + tidx < bound) {
+    auto topk_id = topk_id_ptr[offset + tidx];
+    auto local_expert_idx = smem_expert_map[topk_id];
+    if (local_expert_idx == -1) {
+      topk_id += num_experts;
+    } else {
+      topk_id = local_expert_idx;
+    }
+    __syncwarp();
+    topk_id_ptr[offset + tidx] = topk_id;
+  }
+}
+void preprocessTopkIdLauncher(int* topk_id_ptr, int size,
+                              const int* expert_map_ptr, int num_experts,
+                              cudaStream_t stream) {
+  int block = std::min(size, 1024);
+  int grid = (size + block - 1) / block;
+  int smem_size = (num_experts) * sizeof(int);
+  preprocessTopkIdKernel<<<grid, block, smem_size, stream>>>(
+      topk_id_ptr, size, expert_map_ptr, num_experts);
+}
+
+template <bool ALIGN_BLOCK_SIZE>
+__global__ void getMIndicesKernel(int64_t* expert_first_token_offset,
+                                  int64_t* align_expert_first_token_offset,
+                                  int* m_indices, const int num_local_expert,
+                                  const int align_block_size) {
+  int eidx = blockIdx.x;
+  int tidx = threadIdx.x;
+  extern __shared__ int64_t smem_expert_first_token_offset[];
+  for (int i = tidx; i <= num_local_expert; i += blockDim.x) {
+    smem_expert_first_token_offset[tidx] = __ldg(expert_first_token_offset + i);
+  }
+  __syncthreads();
+  auto last_token_offset = smem_expert_first_token_offset[eidx + 1];
+  auto first_token_offset = smem_expert_first_token_offset[eidx];
+  int n_token_in_expert = last_token_offset - first_token_offset;
+
+  if constexpr (ALIGN_BLOCK_SIZE) {
+    n_token_in_expert = (n_token_in_expert + align_block_size - 1) /
+                        align_block_size * align_block_size;
+    // round up to ALIGN_BLOCK_SIZE
+    int64_t accumulate_align_offset = 0;
+    for (int i = 1; i <= eidx + 1; i++) {
+      int n_token = smem_expert_first_token_offset[i] -
+                    smem_expert_first_token_offset[i - 1];
+      accumulate_align_offset =
+          accumulate_align_offset + (n_token + align_block_size - 1) /
+                                        align_block_size * align_block_size;
+      if (i == eidx) {
+        first_token_offset = accumulate_align_offset;
+      }
+      // last block store align_expert_first_token_offset
+      if (eidx == num_local_expert - 1 && threadIdx.x == 0) {
+        align_expert_first_token_offset[i] = accumulate_align_offset;
+      }
+    }
+  }
+  for (int idx = tidx; idx < n_token_in_expert; idx += blockDim.x) {
+    // update m_indice with expert id
+    m_indices[first_token_offset + idx] = eidx;
+  }
+}
+
+void getMIndices(int64_t* expert_first_token_offset,
+                 int64_t* align_expert_first_token_offset, int* m_indices,
+                 int num_local_expert, const int align_block_size,
+                 cudaStream_t stream) {
+  int block = 256;
+  int grid = num_local_expert;
+  int smem_size = sizeof(int64_t) * (num_local_expert + 1);
+  if (align_block_size == -1) {
+    getMIndicesKernel<false><<<grid, block, smem_size, stream>>>(
+        expert_first_token_offset, align_expert_first_token_offset, m_indices,
+        num_local_expert, align_block_size);
+  } else {
+    getMIndicesKernel<true><<<grid, block, smem_size, stream>>>(
+        expert_first_token_offset, align_expert_first_token_offset, m_indices,
+        num_local_expert, align_block_size);
+  }
+}
\ No newline at end of file
diff --git a/csrc/moe/permute_unpermute_kernels/moe_permute_unpermute_kernel.h b/csrc/moe/permute_unpermute_kernels/moe_permute_unpermute_kernel.h
new file mode 100644
index 000000000..43c29721c
--- /dev/null
+++ b/csrc/moe/permute_unpermute_kernels/moe_permute_unpermute_kernel.h
@@ -0,0 +1,95 @@
+#pragma once
+// reference from tensorrt_llm moe kernel implementation archive in
+// https://github.com/BBuf/tensorrt-llm-moe/tree/master
+
+#include <c10/core/ScalarType.h>
+#include <torch/all.h>
+#include "dispatch.h"
+#include <cub/cub.cuh>
+#include <cub/device/device_radix_sort.cuh>
+#include <cub/util_type.cuh>
+#include "cutlass/numeric_size.h"
+#include "cutlass/array.h"
+
+template <typename T>
+inline T* get_ptr(torch::Tensor& t) {
+  return reinterpret_cast<T*>(t.data_ptr());
+}
+
+template <typename T>
+inline const T* get_ptr(const torch::Tensor& t) {
+  return reinterpret_cast<const T*>(t.data_ptr());
+}
+
+class CubKeyValueSorter {
+ public:
+  CubKeyValueSorter();
+
+  CubKeyValueSorter(int const num_experts);
+
+  void updateNumExperts(int const num_experts);
+
+  static size_t getWorkspaceSize(size_t const num_key_value_pairs,
+                                 int const num_experts);
+
+  void run(void* workspace, size_t const workspace_size, int const* keys_in,
+           int* keys_out, int const* values_in, int* values_out,
+           size_t const num_key_value_pairs, cudaStream_t stream);
+
+ private:
+  static int expertsToBits(int experts);
+  int num_experts_;
+  int num_bits_;
+};
+
+void computeExpertFirstTokenOffset(int const* sorted_indices,
+                                   int const total_indices,
+                                   int const num_experts,
+                                   int64_t* expert_first_token_offset,
+                                   cudaStream_t stream);
+
+void sortAndScanExpert(int* expert_for_source_row, const int* source_rows,
+                       int* permuted_experts, int* permuted_rows,
+                       int64_t* expert_first_token_offset, int num_rows,
+                       int num_experts, int num_experts_per_node, int k,
+                       CubKeyValueSorter& sorter, void* sorter_ws,
+                       cudaStream_t stream);
+
+template <typename T>
+void expandInputRowsKernelLauncher(
+    T const* unpermuted_input, T* permuted_output,
+    const float* unpermuted_scales, int* sorted_experts,
+    int const* expanded_dest_row_to_expanded_source_row,
+    int* expanded_source_row_to_expanded_dest_row,
+    int64_t* expert_first_token_offset, int64_t const num_rows,
+    int64_t const* num_valid_tokens_ptr, int64_t const cols, int const k,
+    int num_local_experts, const int& align_block_size, cudaStream_t stream);
+
+// Final kernel to unpermute and scale
+// This kernel unpermutes the original data, does the k-way reduction and
+// performs the final skip connection.
+template <typename T, typename OutputType, bool CHECK_SKIPPED>
+__global__ void finalizeMoeRoutingKernel(
+    T const* expanded_permuted_rows, OutputType* reduced_unpermuted_output,
+    float const* scales, int const* expanded_source_row_to_expanded_dest_row,
+    int const* expert_for_source_row, int64_t const orig_cols, int64_t const k,
+    int64_t const* num_valid_ptr);
+
+template <class T, class OutputType>
+void finalizeMoeRoutingKernelLauncher(
+    T const* expanded_permuted_rows, OutputType* reduced_unpermuted_output,
+    float const* scales, int const* expanded_source_row_to_expanded_dest_row,
+    int const* expert_for_source_row, int64_t const num_rows,
+    int64_t const cols, int64_t const k, int64_t const* num_valid_ptr,
+    cudaStream_t stream);
+
+void preprocessTopkIdLauncher(int* topk_id_ptr, int size,
+                              const int* expert_map_ptr, int num_experts,
+                              cudaStream_t stream);
+
+void getMIndices(int64_t* expert_first_token_offset,
+                 int64_t* align_expert_first_token_offset, int* m_indices,
+                 int num_local_expert, const int align_block_size,
+                 cudaStream_t stream);
+
+#include "moe_permute_unpermute_kernel.inl"
diff --git a/csrc/moe/permute_unpermute_kernels/moe_permute_unpermute_kernel.inl b/csrc/moe/permute_unpermute_kernels/moe_permute_unpermute_kernel.inl
new file mode 100644
index 000000000..42441800f
--- /dev/null
+++ b/csrc/moe/permute_unpermute_kernels/moe_permute_unpermute_kernel.inl
@@ -0,0 +1,211 @@
+#pragma once
+
+template <typename T, bool CHECK_SKIPPED, bool ALIGN_BLOCK_SIZE>
+__global__ void expandInputRowsKernel(
+    T const* unpermuted_input, T* permuted_output,
+    const float* unpermuted_scales, int* sorted_experts,
+    int const* expanded_dest_row_to_expanded_source_row,
+    int* expanded_source_row_to_expanded_dest_row,
+    int64_t* expert_first_token_offset, int64_t const num_rows,
+    int64_t const* num_dest_rows, int64_t const cols, int64_t k,
+    int num_local_experts, int align_block_size) {
+  // Reverse permutation map.
+  // I do this so that later, we can use the source -> dest map to do the k-way
+  // reduction and unpermuting. I need the reverse map for that reduction to
+  // allow each threadblock to do 1 k-way reduce without atomics later in MoE. 1
+  // thread block will be responsible for all k summations.
+  int64_t expanded_dest_row = blockIdx.x;
+  int64_t const expanded_source_row =
+      expanded_dest_row_to_expanded_source_row[expanded_dest_row];
+  int expert_id = sorted_experts[expanded_dest_row];
+
+  extern __shared__ int64_t smem_expert_first_token_offset[];
+  int64_t align_expanded_row_accumulate = 0;
+  if constexpr (ALIGN_BLOCK_SIZE) {
+    // load g2s
+    for (int idx = threadIdx.x; idx < num_local_experts + 1;
+         idx += blockDim.x) {
+      smem_expert_first_token_offset[idx] =
+          __ldg(expert_first_token_offset + idx);
+    }
+    __syncthreads();
+    int lane_idx = threadIdx.x & 31;
+
+    if (lane_idx == 0) {
+      // set token_offset_in_expert = 0 if this expert is not local expert
+      int token_offset_in_expert =
+          expert_id >= num_local_experts
+              ? 0
+              : expanded_dest_row - smem_expert_first_token_offset[expert_id];
+      int64_t accumulate_align_offset = 0;
+#pragma unroll 1
+      for (int eidx = 1; eidx <= min(expert_id, num_local_experts); eidx++) {
+        auto n_token_in_expert = smem_expert_first_token_offset[eidx] -
+                                 smem_expert_first_token_offset[eidx - 1];
+        accumulate_align_offset += (n_token_in_expert + align_block_size - 1) /
+                                   align_block_size * align_block_size;
+      }
+      expanded_dest_row = accumulate_align_offset + token_offset_in_expert;
+    }
+    // lane0 shuffle broadcast align_expanded_dest_row
+    expanded_dest_row = __shfl_sync(0xffffffff, expanded_dest_row, 0);
+  }
+
+  if (threadIdx.x == 0) {
+    assert(expanded_dest_row <= INT32_MAX);
+    expanded_source_row_to_expanded_dest_row[expanded_source_row] =
+        static_cast<int>(expanded_dest_row);
+  }
+
+  if (!CHECK_SKIPPED || blockIdx.x < *num_dest_rows) {
+    // Load 128-bits per thread
+    constexpr int64_t ELEM_PER_THREAD = 128 / cutlass::sizeof_bits<T>::value;
+    using DataElem = cutlass::Array<T, ELEM_PER_THREAD>;
+
+    // Duplicate and permute rows
+    int64_t const source_k_rank = expanded_source_row / num_rows;
+    int64_t const source_row = expanded_source_row % num_rows;
+
+    auto const* source_row_ptr =
+        reinterpret_cast<DataElem const*>(unpermuted_input + source_row * cols);
+    auto* dest_row_ptr =
+        reinterpret_cast<DataElem*>(permuted_output + expanded_dest_row * cols);
+
+    int64_t const start_offset = threadIdx.x;
+    int64_t const stride = blockDim.x;
+    int64_t const num_elems_in_col = cols / ELEM_PER_THREAD;
+
+    for (int elem_index = start_offset; elem_index < num_elems_in_col;
+         elem_index += stride) {
+      dest_row_ptr[elem_index] = source_row_ptr[elem_index];
+    }
+  }
+}
+
+template <typename T>
+void expandInputRowsKernelLauncher(
+    T const* unpermuted_input, T* permuted_output,
+    const float* unpermuted_scales, int* sorted_experts,
+    int const* expanded_dest_row_to_expanded_source_row,
+    int* expanded_source_row_to_expanded_dest_row,
+    int64_t* expert_first_token_offset, int64_t const num_rows,
+    int64_t const* num_valid_tokens_ptr, int64_t const cols, int const k,
+    int num_local_experts, const int& align_block_size, cudaStream_t stream) {
+  int64_t const blocks = num_rows * k;
+  int64_t const threads = 256;
+  using FuncPtr = decltype(&expandInputRowsKernel<T, true, true>);
+  FuncPtr func_map[2][2] = {
+      {&expandInputRowsKernel<T, false, false>,
+       &expandInputRowsKernel<T, false, true>},
+      {&expandInputRowsKernel<T, true, false>,
+       &expandInputRowsKernel<T, true, true>},
+  };
+  bool is_check_skip = num_valid_tokens_ptr != nullptr;
+  bool is_align_block_size = align_block_size != -1;
+  auto func = func_map[is_check_skip][is_align_block_size];
+
+  int64_t smem_size = sizeof(int64_t) * (num_local_experts + 1);
+
+  func<<<blocks, threads, smem_size, stream>>>(
+      unpermuted_input, permuted_output, unpermuted_scales, sorted_experts,
+      expanded_dest_row_to_expanded_source_row,
+      expanded_source_row_to_expanded_dest_row, expert_first_token_offset,
+      num_rows, num_valid_tokens_ptr, cols, k, num_local_experts,
+      align_block_size);
+}
+
+template <class T, class U>
+__host__ __device__ constexpr static U arrayConvert(T const& input) {
+  using Type = typename U::Element;
+  static_assert(T::kElements == U::kElements);
+  U u;
+#pragma unroll
+  for (int i = 0; i < U::kElements; i++) {
+    u[i] = static_cast<Type>(input[i]);
+  }
+  return u;
+}
+
+template <typename T, typename OutputType, bool CHECK_SKIPPED>
+__global__ void finalizeMoeRoutingKernel(
+    T const* expanded_permuted_rows, OutputType* reduced_unpermuted_output,
+    float const* scales, int const* expanded_source_row_to_expanded_dest_row,
+    int const* expert_for_source_row, int64_t const orig_cols, int64_t const k,
+    int64_t const* num_valid_ptr) {
+  assert(orig_cols % 4 == 0);
+  int64_t const original_row = blockIdx.x;
+  int64_t const num_rows = gridDim.x;
+  auto const offset = original_row * orig_cols;
+  OutputType* reduced_row_ptr = reduced_unpermuted_output + offset;
+  int64_t const num_valid = *num_valid_ptr;
+
+  // Load 128-bits per thread, according to the smallest data type we read/write
+  constexpr int64_t FINALIZE_ELEM_PER_THREAD =
+      128 / std::min(cutlass::sizeof_bits<OutputType>::value,
+                     cutlass::sizeof_bits<T>::value);
+
+  int64_t const start_offset = threadIdx.x;
+  int64_t const stride = blockDim.x;
+  int64_t const num_elems_in_col = orig_cols / FINALIZE_ELEM_PER_THREAD;
+
+  using InputElem = cutlass::Array<T, FINALIZE_ELEM_PER_THREAD>;
+  using OutputElem = cutlass::Array<OutputType, FINALIZE_ELEM_PER_THREAD>;
+  using ComputeElem = cutlass::Array<float, FINALIZE_ELEM_PER_THREAD>;
+  auto const* expanded_permuted_rows_v =
+      reinterpret_cast<InputElem const*>(expanded_permuted_rows);
+  auto* reduced_row_ptr_v = reinterpret_cast<OutputElem*>(reduced_row_ptr);
+
+#pragma unroll
+  for (int elem_index = start_offset; elem_index < num_elems_in_col;
+       elem_index += stride) {
+    ComputeElem thread_output;
+    thread_output.fill(0);
+    float row_rescale{0.f};
+    for (int k_idx = 0; k_idx < k; ++k_idx) {
+      int64_t const expanded_original_row = original_row + k_idx * num_rows;
+      int64_t const expanded_permuted_row =
+          expanded_source_row_to_expanded_dest_row[expanded_original_row];
+
+      int64_t const k_offset = original_row * k + k_idx;
+      float const row_scale = scales[k_offset];
+
+      // Check after row_rescale has accumulated
+      if (CHECK_SKIPPED && expanded_permuted_row >= num_valid) {
+        continue;
+      }
+
+      auto const* expanded_permuted_rows_row_ptr =
+          expanded_permuted_rows_v + expanded_permuted_row * num_elems_in_col;
+
+      int64_t const expert_idx = expert_for_source_row[k_offset];
+
+      ComputeElem expert_result = arrayConvert<InputElem, ComputeElem>(
+          expanded_permuted_rows_row_ptr[elem_index]);
+      thread_output = thread_output + row_scale * (expert_result);
+    }
+
+    OutputElem output_elem =
+        arrayConvert<ComputeElem, OutputElem>(thread_output);
+    reduced_row_ptr_v[elem_index] = output_elem;
+  }
+}
+
+template <class T, class OutputType>
+void finalizeMoeRoutingKernelLauncher(
+    T const* expanded_permuted_rows, OutputType* reduced_unpermuted_output,
+    float const* scales, int const* expanded_source_row_to_expanded_dest_row,
+    int const* expert_for_source_row, int64_t const num_rows,
+    int64_t const cols, int64_t const k, int64_t const* num_valid_ptr,
+    cudaStream_t stream) {
+  int64_t const blocks = num_rows;
+  int64_t const threads = 256;
+  bool const check_finished = num_valid_ptr != nullptr;
+  using FuncPtr = decltype(&finalizeMoeRoutingKernel<T, OutputType, false>);
+  FuncPtr func_map[2] = {&finalizeMoeRoutingKernel<T, OutputType, false>,
+                         &finalizeMoeRoutingKernel<T, OutputType, true>};
+  auto* const kernel = func_map[check_finished];
+  kernel<<<blocks, threads, 0, stream>>>(
+      expanded_permuted_rows, reduced_unpermuted_output, scales,
+      expanded_source_row_to_expanded_dest_row, expert_for_source_row, cols, k,
+      num_valid_ptr);
+}
diff --git a/csrc/moe/torch_bindings.cpp b/csrc/moe/torch_bindings.cpp
index d0de42251..2a8b9bb39 100644
--- a/csrc/moe/torch_bindings.cpp
+++ b/csrc/moe/torch_bindings.cpp
@@ -53,7 +53,29 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, m) {
       "int size_m, int size_n, int size_k,"
       "bool is_full_k, bool use_atomic_add,"
       "bool use_fp32_reduce, bool is_zp_float) -> Tensor");
+  m.def(
+      "marlin_gemm_moe(Tensor! a, Tensor! b_q_weights, Tensor! sorted_ids, "
+      "Tensor! topk_weights, Tensor! topk_ids, Tensor! b_scales, Tensor! "
+      "b_zeros, Tensor! g_idx, Tensor! perm, Tensor! workspace, "
+      "int b_q_type, SymInt size_m, "
+      "SymInt size_n, SymInt size_k, bool is_k_full, int num_experts, int "
+      "topk, "
+      "int moe_block_size, bool replicate_input, bool apply_weights)"
+      " -> Tensor");
+
+  m.def(
+      "moe_permute(Tensor input, Tensor topk_weight, Tensor! topk_ids,"
+      "Tensor token_expert_indicies, Tensor? expert_map, int n_expert,"
+      "int n_local_expert,"
+      "int topk, int? align_block_size,Tensor! permuted_input, Tensor! "
+      "expert_first_token_offset, Tensor! src_row_id2dst_row_id_map, Tensor! "
+      "m_indices)->()");
 
+  m.def(
+      "moe_unpermute(Tensor permuted_hidden_states, Tensor topk_weights,"
+      "Tensor topk_ids,Tensor src_row_id2dst_row_id_map, Tensor "
+      "expert_first_token_offset, int n_expert, int n_local_expert,int "
+      "topk, Tensor! hidden_states)->()");
   // conditionally compiled so impl registration is in source file
 
 #endif
diff --git a/tests/kernels/moe/test_moe.py b/tests/kernels/moe/test_moe.py
index 425f36984..f2cca65ae 100644
--- a/tests/kernels/moe/test_moe.py
+++ b/tests/kernels/moe/test_moe.py
@@ -420,7 +420,8 @@ def test_fused_marlin_moe(
 
     score = torch.randn((m, e), device="cuda", dtype=dtype)
 
-    topk_weights, topk_ids = fused_topk(a, score, topk, False)
+    topk_weights, topk_ids, token_expert_indices = fused_topk(
+        a, score, topk, False)
 
     torch_output = torch_moe(a, w_ref1, w_ref2, score, topk, e_map)
 
diff --git a/tests/kernels/moe/test_moe_permute_unpermute.py b/tests/kernels/moe/test_moe_permute_unpermute.py
new file mode 100644
index 000000000..dfcd61f77
--- /dev/null
+++ b/tests/kernels/moe/test_moe_permute_unpermute.py
@@ -0,0 +1,223 @@
+# SPDX-License-Identifier: Apache-2.0
+"""Tests for the MOE permute/unpermute kernel
+
+Run `pytest tests/kernels/test_moe_permute_unpermute.py`.
+"""
+
+from typing import Optional
+
+import numpy as np
+import pytest
+import torch
+
+from vllm.model_executor.layers.fused_moe.fused_moe import fused_topk
+from vllm.model_executor.layers.fused_moe.layer import determine_expert_map
+from vllm.model_executor.layers.fused_moe.moe_permute_unpermute import (
+    moe_permute, moe_unpermute)
+from vllm.platforms import current_platform
+
+NUM_EXPERTS = [16, 64]
+TOP_KS = [2, 4, 6, 8]
+EP_SIZE = [1, 4, 16]
+current_platform.seed_everything(0)
+
+
+def torch_permute(hidden_states: torch.Tensor,
+                  topk_ids: torch.Tensor,
+                  token_expert_indices: torch.Tensor,
+                  topk: int,
+                  n_expert: int,
+                  n_local_expert: int,
+                  start_expert: int,
+                  expert_map: Optional[torch.Tensor] = None,
+                  align_block_size: Optional[int] = None,
+                  fill_invalid_expert: int = -1) -> list[torch.Tensor]:
+    n_token, n_hidden = hidden_states.shape[0], hidden_states.shape[1]
+    if expert_map is not None:
+        is_local_expert = (expert_map[topk_ids] != -1)
+        not_local_expert = (expert_map[topk_ids] == -1)
+        topk_ids = is_local_expert * (
+            topk_ids - start_expert) + not_local_expert * (topk_ids + n_expert)
+
+    sorted_topk_ids, sorted_indices = torch.sort(topk_ids.flatten(),
+                                                 stable=True)
+    dst_row_id2src_row_id_map = token_expert_indices.flatten()[sorted_indices]
+
+    expert_first_token_offset = torch.zeros(n_local_expert + 1,
+                                            dtype=torch.int64,
+                                            device="cuda")
+    idx = 0
+    for i in range(0, n_local_expert):
+        cnt = 0
+        while idx < sorted_topk_ids.numel() and sorted_topk_ids[idx] == i:
+            cnt += 1
+            idx += 1
+        expert_first_token_offset[i + 1] = expert_first_token_offset[i] + cnt
+
+    _, src2dst_idx = torch.sort(dst_row_id2src_row_id_map)
+    valid_row_idx = []
+    if align_block_size is None:
+
+        permuted_hidden_states = hidden_states[dst_row_id2src_row_id_map %
+                                               n_token, ...]
+        permuted_row_size = permuted_hidden_states.shape[0]
+        m_indices = torch.empty(permuted_row_size,
+                                device="cuda",
+                                dtype=torch.int32).fill_(fill_invalid_expert)
+        for i in range(1, n_local_expert + 1):
+            first_token_offset = expert_first_token_offset[i - 1]
+            last_token_offset = expert_first_token_offset[i]
+            m_indices[first_token_offset:last_token_offset] = i - 1
+        src_row_id2dst_row_id_map = torch.arange(
+            0, n_token * topk, device="cuda",
+            dtype=torch.int32)[src2dst_idx].reshape((n_token, topk))
+        valid_row_idx += [i for i in range(expert_first_token_offset[-1])]
+        return [
+            permuted_hidden_states, expert_first_token_offset,
+            src_row_id2dst_row_id_map, m_indices, valid_row_idx
+        ]
+    else:
+        permuted_row_size = (topk * n_token + n_expert *
+                             (align_block_size - 1) + align_block_size -
+                             1) // align_block_size * align_block_size
+        permuted_hidden_states = torch.empty((permuted_row_size, n_hidden),
+                                             device="cuda",
+                                             dtype=hidden_states.dtype)
+        align_src_row_id2dst_row_id = torch.empty(n_token * topk,
+                                                  device="cuda",
+                                                  dtype=torch.int32)
+        align_expert_first_token_offset = torch.zeros_like(
+            expert_first_token_offset)
+        m_indices = torch.empty(permuted_row_size,
+                                device="cuda",
+                                dtype=torch.int32).fill_(fill_invalid_expert)
+        # get align_permuted_hidden_states,
+        # valid row_idx and align_expert_first_token_offset
+        for i in range(1, n_local_expert + 1):
+            first_token_offset = expert_first_token_offset[i - 1]
+            last_token_offset = expert_first_token_offset[i]
+            n_token_in_expert = last_token_offset - first_token_offset
+            align_expert_first_token_offset[
+                i] = align_expert_first_token_offset[
+                    i - 1] + (n_token_in_expert + align_block_size -
+                              1) // align_block_size * align_block_size
+            align_first_token_offset = align_expert_first_token_offset[i - 1]
+            align_last_token_offset = align_expert_first_token_offset[i]
+            dst_row_id2src_row_id_in_expert = dst_row_id2src_row_id_map[
+                first_token_offset:first_token_offset +
+                n_token_in_expert] % n_token
+            # store token in current expert with align_first_token_offset
+            permuted_hidden_states[align_first_token_offset:\
+                                   align_first_token_offset+n_token_in_expert,\
+                                      ...] = hidden_states[\
+                                       dst_row_id2src_row_id_in_expert, ...]
+            # set current expert m_indices
+            m_indices[align_first_token_offset:align_last_token_offset] = i - 1
+            valid_row_idx += [
+                i for i in range(align_first_token_offset,
+                                 align_first_token_offset + n_token_in_expert)
+            ]
+        # get align_src_row_id2dst_row_id
+        for i in range(n_token * topk):
+            eid = sorted_topk_ids[i]
+            if (eid >= n_local_expert):
+                # check token not in local expert
+                align_src_row_id2dst_row_id[
+                    i] = align_expert_first_token_offset[-1]
+                continue
+            first_token_offset = expert_first_token_offset[eid]
+            align_first_token_offset = align_expert_first_token_offset[eid]
+            token_offset = i - first_token_offset
+            align_src_row_id2dst_row_id[
+                i] = align_first_token_offset + token_offset
+        align_src_row_id2dst_row_id = align_src_row_id2dst_row_id[\
+            src2dst_idx].reshape((n_token, topk))
+        return [
+            permuted_hidden_states, align_expert_first_token_offset,
+            align_src_row_id2dst_row_id, m_indices, valid_row_idx
+        ]
+
+
+def torch_unpermute(permuted_hidden_states: torch.Tensor,
+                    topk_weights: torch.Tensor, topk_ids: torch.Tensor,
+                    token_expert_indices: torch.Tensor,
+                    src_row_id2dst_row_id_map: torch.Tensor,
+                    valid_row_idx: torch.Tensor, topk: int,
+                    n_expert: int) -> torch.Tensor:
+    # ignore invalid row
+    mask = torch.zeros(permuted_hidden_states.shape[0],
+                       dtype=bool,
+                       device="cuda")
+    mask[valid_row_idx] = True
+    permuted_hidden_states[~mask] = 0
+    idx = src_row_id2dst_row_id_map.flatten()[
+        token_expert_indices.flatten()].reshape(token_expert_indices.shape)
+    output = permuted_hidden_states[idx, ...] * topk_weights[..., None]
+    output = output.sum(dim=1).to(permuted_hidden_states.dtype)
+    return output
+
+
+@pytest.mark.parametrize("n_token", [1, 33, 64, 222, 1024, 2048, 3000, 5000])
+@pytest.mark.parametrize("n_hidden", [2048, 4096, 7168])
+@pytest.mark.parametrize("n_expert", NUM_EXPERTS)
+@pytest.mark.parametrize("topk", TOP_KS)
+@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
+@pytest.mark.parametrize("ep_size", EP_SIZE)
+@pytest.mark.parametrize("align_block_size", [None, 128])
+def test_moe_permute_unpermute(n_token: int, n_hidden: int, topk: int,
+                               n_expert: int, ep_size: int, dtype: torch.dtype,
+                               align_block_size: Optional[int]):
+    fill_invalid_expert = 0
+    ep_rank = np.random.randint(0, ep_size)
+    expert_map = None
+    n_local_expert = n_expert
+    if (ep_size != 1):
+        n_local_expert, expert_map = determine_expert_map(
+            ep_size, ep_rank, n_expert)
+        expert_map = expert_map.cuda()
+    start_expert = n_local_expert * ep_rank
+    current_platform.seed_everything(0)
+    hidden_states = torch.randn((n_token, n_hidden), device="cuda").to(dtype)
+    gating_output = torch.randn((n_token, n_expert), device="cuda").to(dtype)
+    topk_weights, topk_ids, token_expert_indices = fused_topk(
+        hidden_states, gating_output, topk, False)
+    gold0, gold1, gold2, gold3, valid_row_idx = torch_permute(
+        hidden_states,
+        topk_ids,
+        token_expert_indices,
+        topk,
+        n_expert,
+        n_local_expert,
+        start_expert,
+        expert_map=expert_map,
+        align_block_size=align_block_size,
+        fill_invalid_expert=fill_invalid_expert)
+
+    result0, result1, result2, result3 = moe_permute(
+        hidden_states, topk_weights, topk_ids, token_expert_indices, topk,
+        n_expert, n_local_expert, expert_map, align_block_size,
+        fill_invalid_expert)
+
+    # check expert_first_token_offset
+    torch.testing.assert_close(gold1, result1, atol=0, rtol=0)
+    # check src_row_id2dst_row_id_map
+    torch.testing.assert_close(gold2, result2, atol=0, rtol=0)
+    # check mindice
+    torch.testing.assert_close(gold3, result3, atol=0, rtol=0)
+    # check permuted_hidden_states, only valid token
+    torch.testing.assert_close(gold0[valid_row_idx],
+                               result0[valid_row_idx],
+                               atol=0,
+                               rtol=0)
+
+    # add a random tensor to simulate group gemm
+    result0 = 0.5 * result0 + torch.randn_like(result0)
+
+    result4 = moe_unpermute(result0, topk_weights, topk_ids, result2, result1,
+                            topk, n_expert, n_local_expert)
+    gold4 = torch_unpermute(result0, topk_weights, topk_ids,
+                            token_expert_indices, result2, valid_row_idx, topk,
+                            n_local_expert)
+
+    # check unpermuted hidden
+    torch.testing.assert_close(result4, gold4, atol=2e-2, rtol=0)
diff --git a/tests/kernels/quantization/test_awq_marlin.py b/tests/kernels/quantization/test_awq_marlin.py
index 939b0e715..c30fe60be 100644
--- a/tests/kernels/quantization/test_awq_marlin.py
+++ b/tests/kernels/quantization/test_awq_marlin.py
@@ -84,7 +84,8 @@ def test_fused_marlin_moe_awq(
 
     score = torch.randn((m, e), device="cuda", dtype=dtype)
 
-    topk_weights, topk_ids = fused_topk(a, score, topk, False)
+    topk_weights, topk_ids, token_expert_indices = fused_topk(
+        a, score, topk, False)
     marlin_output = torch.ops.vllm.fused_marlin_moe(
         a,
         qweight1,
diff --git a/tests/kernels/quantization/test_block_fp8.py b/tests/kernels/quantization/test_block_fp8.py
index c57e39f42..38c7e461b 100644
--- a/tests/kernels/quantization/test_block_fp8.py
+++ b/tests/kernels/quantization/test_block_fp8.py
@@ -338,7 +338,8 @@ def deep_gemm_w8a8_block_fp8_moe(M, K, a, w1, w2, w1_s, w2_s, score, topk,
     M, K = a.shape
     N = w2.shape[-1]
 
-    topk_weight, topk_ids = fused_topk(a, score.float(), topk, False)
+    topk_weight, topk_ids, token_expert_indices = fused_topk(
+        a, score.float(), topk, False)
 
     block_m = deep_gemm.get_m_alignment_for_contiguous_layout()
 
@@ -435,7 +436,8 @@ def test_w8a8_block_fp8_deep_gemm_fused_moe(M, N, K, E, topk, seed):
             ref_out = torch_w8a8_block_fp8_moe(a, w1, w2, w1_s, w2_s, score,
                                                topk, block_size)
 
-        topk_weights, topk_ids = fused_topk(a, score.float(), topk, False)
+        topk_weights, topk_ids, token_expert_indices = fused_topk(
+            a, score.float(), topk, False)
 
         out = deep_gemm_moe_fp8(a, w1, w2, w1_s, w2_s, topk_weights, topk_ids)
 
diff --git a/vllm/model_executor/layers/fused_moe/fused_marlin_moe.py b/vllm/model_executor/layers/fused_moe/fused_marlin_moe.py
index 62614a59c..238808b22 100644
--- a/vllm/model_executor/layers/fused_moe/fused_marlin_moe.py
+++ b/vllm/model_executor/layers/fused_moe/fused_marlin_moe.py
@@ -71,8 +71,8 @@ def single_marlin_moe(
     E = w.shape[0]
     N = w.shape[2] // (num_bits // 2)
 
-    topk_weights, topk_ids = fused_topk(hidden_states, gating_output, topk,
-                                        renormalize)
+    topk_weights, topk_ids, token_expert_indices = fused_topk(
+        hidden_states, gating_output, topk, renormalize)
 
     # This might not be an optimal config for a single MMM
     get_config_func = functools.partial(try_get_optimal_moe_config,
diff --git a/vllm/model_executor/layers/fused_moe/fused_moe.py b/vllm/model_executor/layers/fused_moe/fused_moe.py
index a209715ed..c1edbda0d 100644
--- a/vllm/model_executor/layers/fused_moe/fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/fused_moe.py
@@ -854,7 +854,7 @@ def fused_topk(
     gating_output: torch.Tensor,
     topk: int,
     renormalize: bool,
-) -> Tuple[torch.Tensor, torch.Tensor]:
+) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
     assert hidden_states.shape[0] == gating_output.shape[0], (
         "Number of tokens mismatch")
 
@@ -868,20 +868,19 @@ def fused_topk(
                            topk,
                            dtype=torch.int32,
                            device=hidden_states.device)
-    token_expert_indicies = torch.empty(M,
-                                        topk,
-                                        dtype=torch.int32,
-                                        device=hidden_states.device)
+    token_expert_indices = torch.empty(M,
+                                       topk,
+                                       dtype=torch.int32,
+                                       device=hidden_states.device)
 
     gating_output_float = gating_output.float()  # TODO(woosuk): Optimize this.
 
     topk_func = dispatch_topk_func()
     topk_weights, topk_ids = topk_func(topk_weights, topk_ids,
-                                       token_expert_indicies,
+                                       token_expert_indices,
                                        gating_output_float, renormalize)
 
-    del token_expert_indicies  # Not used. Will be used in the future.
-    return topk_weights, topk_ids
+    return topk_weights, topk_ids, token_expert_indices
 
 
 # This is used by the Deepseek-V2 and Deepseek-V3 model
@@ -1510,8 +1509,8 @@ def fused_moe(
                                               topk, renormalize,
                                               num_expert_group, topk_group)
     elif custom_routing_function is None:
-        topk_weights, topk_ids = fused_topk(hidden_states, gating_output, topk,
-                                            renormalize)
+        topk_weights, topk_ids, token_expert_indices = fused_topk(
+            hidden_states, gating_output, topk, renormalize)
     else:
         topk_weights, topk_ids = custom_routing_function(
             hidden_states, gating_output, topk, renormalize)
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 3cdf3c97a..35994c8ac 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -801,10 +801,11 @@ class FusedMoE(torch.nn.Module):
                 scoring_func=scoring_func,
                 e_score_correction_bias=e_score_correction_bias)
         elif custom_routing_function is None:
-            topk_weights, topk_ids = fused_topk(hidden_states=hidden_states,
-                                                gating_output=router_logits,
-                                                topk=top_k,
-                                                renormalize=renormalize)
+            topk_weights, topk_ids, token_expert_indices = fused_topk(
+                hidden_states=hidden_states,
+                gating_output=router_logits,
+                topk=top_k,
+                renormalize=renormalize)
         else:
             topk_weights, topk_ids = custom_routing_function(
                 hidden_states=hidden_states,
diff --git a/vllm/model_executor/layers/fused_moe/moe_permute_unpermute.py b/vllm/model_executor/layers/fused_moe/moe_permute_unpermute.py
new file mode 100644
index 000000000..cdf7e31c1
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/moe_permute_unpermute.py
@@ -0,0 +1,116 @@
+# SPDX-License-Identifier: Apache-2.0
+from typing import Optional, Tuple
+
+import torch
+
+
+def moe_permute(
+    hidden_states: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    token_expert_indices: torch.Tensor,
+    topk: int,
+    n_expert: int,
+    n_local_expert: int,
+    expert_map: Optional[torch.Tensor] = None,
+    align_block_size: Optional[int] = None,
+    fill_invalid_expert: int = -1
+) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+    """
+    This function expands and permutes activation to gather uncontinuous tokens 
+      for each expert.
+    Parameters:
+    - hidden_states (torch.Tensor): The input tensor to the MoE layer.    
+    - topk_weights (torch.Tensor): topk expert route weight for each token.
+    - topk_ids (torch.Tensor): topk expert route id for each token.
+    - token_expert_indices (torch.Tensor): indice for expanded hidden.
+    - topk (int): The number of top-k experts to select.
+    - n_expert (int): The number of expert.
+    - n_local_expert (int): The number of expert in current EP rank.
+    - expert_map (Optional[torch.Tensor]):  A tensor mapping expert indices 
+        from the global expert space to the local expert space of the expert 
+        parallel shard.
+    - align_block_size (Optional[int]): align group gemm block size for deepgemm
+    - fill_invalid_expert(int): fill expert id in m_indices for invalid expert 
+      to workaround DeepGemm unsupported -1 in m_indices
+    Returns:
+    - permuted_hidden_states (torch.Tensor): permuted activation.
+    - expert_first_token_offset (torch.Tensor): offset of the first token
+       of each expert for standard grouped gemm. if enable 'align_block_size'
+       expert_first_token_offset will align up to 'align_block_size'.
+    - src_row_id2dst_row_id_map (torch.Tensor): idx map for moe_unpermute.
+    - m_indices: m_indices for grouped gemm in deepgemm,`m_indices[i]` records 
+    the group which the j-th row of the LHS belong to.`
+    """
+    n_token, n_hidden = hidden_states.shape
+    assert (n_hidden * hidden_states.element_size()
+            ) % 16 == 0, "permue kernel need hidden dim align to 16B"
+    permuted_row_size = n_token * topk
+    if align_block_size is not None:
+        permuted_row_size = (permuted_row_size + n_expert *
+                             (align_block_size - 1) + align_block_size -
+                             1) // align_block_size * align_block_size
+
+    permuted_hidden_states = torch.empty(
+        (permuted_row_size, n_hidden),
+        dtype=hidden_states.dtype,
+        device=hidden_states.device,
+    )
+    m_indices = torch.full((permuted_row_size, ),
+                           fill_invalid_expert,
+                           dtype=torch.int32,
+                           device=hidden_states.device)
+    expert_first_token_offset = torch.empty(n_local_expert + 1,
+                                            dtype=torch.int64,
+                                            device=hidden_states.device)
+    src_row_id2dst_row_id_map = torch.empty((n_token, topk),
+                                            dtype=torch.int32,
+                                            device=hidden_states.device)
+    torch.ops._moe_C.moe_permute(hidden_states, topk_weights, topk_ids,
+                                 token_expert_indices, expert_map, n_expert,
+                                 n_local_expert, topk, align_block_size,
+                                 permuted_hidden_states,
+                                 expert_first_token_offset,
+                                 src_row_id2dst_row_id_map, m_indices)
+    return (permuted_hidden_states, expert_first_token_offset,
+            src_row_id2dst_row_id_map, m_indices)
+
+
+def moe_unpermute(
+    permuted_hidden_states: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    src_row_id2dst_row_id_map: torch.Tensor,
+    expert_first_token_offset: torch.Tensor,
+    topk: int,
+    n_expert: int,
+    n_local_expert: int,
+) -> torch.Tensor:
+    """
+    This function expands and permutes activation to gathering uncontinuous 
+      tokens for each expert.
+    Parameters:
+    - permuted_hidden_states (torch.Tensor): permuted activation.
+    - topk_weights (torch.Tensor): topk expert route weight for each token.
+    - topk_ids (torch.Tensor): topk expert route id for each token.
+    - expert_first_token_offset (torch.Tensor): offset of the first token
+       of each expert for grouped gemm.
+    - topk (int): The number of top-k experts to select.
+    - n_expert (int): The number of expert.
+    - n_local_expert (int): The number of expert in current EP rank.
+    Returns:
+    - hidden_states (torch.Tensor): The reduced and unpermuted activation 
+      tensor.  
+    """
+    n_token, n_hidden = topk_weights.shape[0], permuted_hidden_states.shape[-1]
+    assert (n_hidden * permuted_hidden_states.element_size()
+            ) % 16 == 0, "unpermue kernel need hidden dim align to 16B"
+    hidden_states = torch.empty((n_token, n_hidden),
+                                dtype=permuted_hidden_states.dtype,
+                                device=permuted_hidden_states.device)
+
+    torch.ops._moe_C.moe_unpermute(permuted_hidden_states, topk_weights,
+                                   topk_ids, src_row_id2dst_row_id_map,
+                                   expert_first_token_offset, n_expert,
+                                   n_local_expert, topk, hidden_states)
+    return hidden_states
diff --git a/vllm/model_executor/models/arctic.py b/vllm/model_executor/models/arctic.py
index dfe8f20c7..c518efdb5 100644
--- a/vllm/model_executor/models/arctic.py
+++ b/vllm/model_executor/models/arctic.py
@@ -175,10 +175,8 @@ class ArcticMoE(nn.Module):
         # router_logits: (num_tokens, n_experts)
         router_logits, _ = self.gate(hidden_states)
         do_normalize = self.top_k > 1
-        topk_weights, topk_ids = fused_topk(hidden_states,
-                                            router_logits,
-                                            self.top_k,
-                                            renormalize=do_normalize)
+        topk_weights, topk_ids, token_expert_indices = fused_topk(
+            hidden_states, router_logits, self.top_k, renormalize=do_normalize)
         # topk_ids: (num_tokens, k)
         if self.is_quant:
             if 2 * num_tokens <= self.num_experts:
-- 
GitLab


From 182f40ea8b5981864b23e08bb2a5aafc5800e976 Mon Sep 17 00:00:00 2001
From: Zhiyu <bestczy317@gmail.com>
Date: Fri, 2 May 2025 11:36:46 -0700
Subject: [PATCH 132/461] Add NVIDIA TensorRT Model Optimizer in vLLM
 documentation (#17561)

---
 docs/source/features/quantization/index.md    |  1 +
 docs/source/features/quantization/modelopt.md | 78 +++++++++++++++++++
 .../quantization/supported_hardware.md        | 12 ++-
 3 files changed, 90 insertions(+), 1 deletion(-)
 create mode 100644 docs/source/features/quantization/modelopt.md

diff --git a/docs/source/features/quantization/index.md b/docs/source/features/quantization/index.md
index c7c8aeb66..7ad46b709 100644
--- a/docs/source/features/quantization/index.md
+++ b/docs/source/features/quantization/index.md
@@ -17,6 +17,7 @@ gptqmodel
 int4
 int8
 fp8
+modelopt
 quark
 quantized_kvcache
 torchao
diff --git a/docs/source/features/quantization/modelopt.md b/docs/source/features/quantization/modelopt.md
new file mode 100644
index 000000000..001d18657
--- /dev/null
+++ b/docs/source/features/quantization/modelopt.md
@@ -0,0 +1,78 @@
+# NVIDIA TensorRT Model Optimizer
+
+The [NVIDIA TensorRT Model Optimizer](https://github.com/NVIDIA/TensorRT-Model-Optimizer) is a library designed to optimize models for inference with NVIDIA GPUs. It includes tools for Post-Training Quantization (PTQ) and Quantization Aware Training (QAT) of Large Language Models (LLMs), Vision Language Models (VLMs), and diffusion models.
+
+We recommend installing the library with:
+
+```console
+pip install nvidia-modelopt
+```
+
+## Quantizing HuggingFace Models with PTQ
+
+You can quantize HuggingFace models using the example scripts provided in the TensorRT Model Optimizer repository. The primary script for LLM PTQ is typically found within the `examples/llm_ptq` directory.
+
+Below is an example showing how to quantize a model using modelopt's PTQ API:
+
+```python
+import modelopt.torch.quantization as mtq
+from transformers import AutoModelForCausalLM
+
+# Load the model from HuggingFace
+model = AutoModelForCausalLM.from_pretrained("<path_or_model_id>")
+
+# Select the quantization config, for example, FP8
+config = mtq.FP8_DEFAULT_CFG
+
+# Define a forward loop function for calibration
+def forward_loop(model):
+    for data in calib_set:
+        model(data)
+
+# PTQ with in-place replacement of quantized modules
+model = mtq.quantize(model, config, forward_loop)
+```
+
+After the model is quantized, you can export it to a quantized checkpoint using the export API:
+
+```python
+import torch
+from modelopt.torch.export import export_hf_checkpoint
+
+with torch.inference_mode():
+    export_hf_checkpoint(
+        model,  # The quantized model.
+        export_dir,  # The directory where the exported files will be stored.
+    )
+```
+
+The quantized checkpoint can then be deployed with vLLM. As an example, the following code shows how to deploy `nvidia/Llama-3.1-8B-Instruct-FP8`, which is the FP8 quantized checkpoint derived from `meta-llama/Llama-3.1-8B-Instruct`, using vLLM:
+
+```python
+from vllm import LLM, SamplingParams
+
+def main():
+
+    model_id = "nvidia/Llama-3.1-8B-Instruct-FP8"
+    # Ensure you specify quantization='modelopt' when loading the modelopt checkpoint
+    llm = LLM(model=model_id, quantization="modelopt", trust_remote_code=True)
+
+    sampling_params = SamplingParams(temperature=0.8, top_p=0.9)
+
+    prompts = [
+        "Hello, my name is",
+        "The president of the United States is",
+        "The capital of France is",
+        "The future of AI is",
+    ]
+
+    outputs = llm.generate(prompts, sampling_params)
+
+    for output in outputs:
+        prompt = output.prompt
+        generated_text = output.outputs[0].text
+        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
+
+if __name__ == "__main__":
+    main()
+```
diff --git a/docs/source/features/quantization/supported_hardware.md b/docs/source/features/quantization/supported_hardware.md
index 08893f0e9..f8af1ba60 100644
--- a/docs/source/features/quantization/supported_hardware.md
+++ b/docs/source/features/quantization/supported_hardware.md
@@ -129,7 +129,17 @@ The table below shows the compatibility of various quantization implementations
   * ❌
   * ❌
   * ❌
-
+- * modelopt
+  * ✅︎
+  * ✅︎
+  * ✅︎
+  * ✅︎
+  * ✅︎︎
+  * ❌
+  * ❌
+  * ❌
+  * ❌
+  * ❌
 :::
 
 - Volta refers to SM 7.0, Turing to SM 7.5, Ampere to SM 8.0/8.6, Ada to SM 8.9, and Hopper to SM 9.0.
-- 
GitLab


From 9352cdb56d70bd52d4e6ea88d991bf5f4cc93393 Mon Sep 17 00:00:00 2001
From: Xiaodong Wang <xw285@cornell.edu>
Date: Fri, 2 May 2025 12:44:19 -0700
Subject: [PATCH 133/461] [Hardware][AMD] Improve OAM device ID + llama4
 Maverick MOE tuning (#16263)

Signed-off-by: Lu Fang <lufang@fb.com>
Co-authored-by: Lu Fang <lufang@fb.com>
---
 benchmarks/kernels/benchmark_moe.py           |  19 +-
 ...=1024,device_name=AMD_Instinct_MI300X.json | 200 ++++++++++++++++++
 vllm/platforms/rocm.py                        |  15 +-
 3 files changed, 231 insertions(+), 3 deletions(-)
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI300X.json

diff --git a/benchmarks/kernels/benchmark_moe.py b/benchmarks/kernels/benchmark_moe.py
index c34f97dec..9407747f7 100644
--- a/benchmarks/kernels/benchmark_moe.py
+++ b/benchmarks/kernels/benchmark_moe.py
@@ -442,8 +442,14 @@ class BenchmarkWorker:
                                                    hidden_size, search_space,
                                                    is_fp16, topk)
 
-        with torch.cuda.device(self.device_id) if current_platform.is_rocm(
-        ) else nullcontext():
+        need_device_guard = False
+        if current_platform.is_rocm():
+            visible_device = os.environ.get("ROCR_VISIBLE_DEVICES", None)
+            if visible_device != f"{self.device_id}":
+                need_device_guard = True
+
+        with torch.cuda.device(
+                self.device_id) if need_device_guard else nullcontext():
             for config in tqdm(search_space):
                 try:
                     kernel_time = benchmark_config(
@@ -578,6 +584,15 @@ def main(args: argparse.Namespace):
 
     use_deep_gemm = bool(args.use_deep_gemm)
 
+    if current_platform.is_rocm() and "HIP_VISIBLE_DEVICES" in os.environ:
+        # Ray will set ROCR_VISIBLE_DEVICES for device visibility
+        logger.warning(
+            "Ray uses ROCR_VISIBLE_DEVICES to control device accessibility."
+            "Replacing HIP_VISIBLE_DEVICES with ROCR_VISIBLE_DEVICES.")
+        val = os.environ["HIP_VISIBLE_DEVICES"]
+        os.environ["ROCR_VISIBLE_DEVICES"] = val
+        del os.environ["HIP_VISIBLE_DEVICES"]
+
     ray.init()
     num_gpus = int(ray.available_resources()["GPU"])
     workers = [BenchmarkWorker.remote(args.seed) for _ in range(num_gpus)]
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI300X.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI300X.json
new file mode 100644
index 000000000..e539335d4
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI300X.json
@@ -0,0 +1,200 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index de097ab9a..ff63f9656 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -58,6 +58,15 @@ _ROCM_PARTIALLY_SUPPORTED_MODELS: Dict[str, str] = {
      "excessive use of shared memory. If this happens, disable Triton FA "
      "by setting `VLLM_USE_TRITON_FLASH_ATTN=0`")
 }
+_ROCM_DEVICE_ID_NAME_MAP: Dict[str, str] = {
+    "0x74a0": "AMD_Instinct_MI300A",
+    "0x74a1": "AMD_Instinct_MI300X",
+    "0x74b5": "AMD_Instinct_MI300X",  # MI300X VF
+    "0x74a5": "AMD_Instinct_MI325X",
+    "0x74b9": "AMD_Instinct_MI325X",  # MI325X VF
+    "0x74a9": "AMD_Instinct_MI300X_HF",
+    "0x74bd": "AMD_Instinct_MI300X_HF",
+}
 
 # Prevent use of clashing `{CUDA/HIP}_VISIBLE_DEVICES``
 if "HIP_VISIBLE_DEVICES" in os.environ:
@@ -225,7 +234,11 @@ class RocmPlatform(Platform):
     def get_device_name(cls, device_id: int = 0) -> str:
         physical_device_id = device_id_to_physical_device_id(device_id)
         handle = amdsmi_get_processor_handles()[physical_device_id]
-        return amdsmi_get_gpu_asic_info(handle)["market_name"]
+        asic_info = amdsmi_get_gpu_asic_info(handle)
+        device_name: str = asic_info["device_id"]
+        if device_name in _ROCM_DEVICE_ID_NAME_MAP:
+            return _ROCM_DEVICE_ID_NAME_MAP[device_name]
+        return asic_info["market_name"]
 
     @classmethod
     def get_device_total_memory(cls, device_id: int = 0) -> int:
-- 
GitLab


From b90b0852e9011b48c3e8ff9009aa57e9428350d1 Mon Sep 17 00:00:00 2001
From: Richard Zou <zou3519@users.noreply.github.com>
Date: Fri, 2 May 2025 18:27:43 -0400
Subject: [PATCH 134/461] [easy] Print number of needed GPUs in skip message
 (#17594)

Signed-off-by: rzou <zou3519@gmail.com>
---
 tests/compile/test_basic_correctness.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/tests/compile/test_basic_correctness.py b/tests/compile/test_basic_correctness.py
index 0b76779b3..b6b45d1cb 100644
--- a/tests/compile/test_basic_correctness.py
+++ b/tests/compile/test_basic_correctness.py
@@ -103,7 +103,8 @@ def test_compile_correctness(
     method = test_setting.method
     fullgraph = test_setting.fullgraph
     if cuda_device_count_stateless() != pp_size * tp_size:
-        pytest.skip("Not correct CUDA devices for the test.")
+        pytest.skip(f"Need exactly {pp_size}*{tp_size} CUDA gpus but got "
+                    f"{cuda_device_count_stateless()}")
 
     with monkeypatch.context() as m:
         m.setenv("VLLM_ATTENTION_BACKEND", attn_backend)
-- 
GitLab


From 9b103a1d7664b10901b893d054eaa15dde56c48d Mon Sep 17 00:00:00 2001
From: Eric Hartford <ehartford@gmail.com>
Date: Fri, 2 May 2025 21:04:40 -0400
Subject: [PATCH 135/461] fix typo in logging (#17605)

---
 vllm/model_executor/layers/quantization/awq_marlin.py  | 2 +-
 vllm/model_executor/layers/quantization/gptq_marlin.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/awq_marlin.py b/vllm/model_executor/layers/quantization/awq_marlin.py
index 07d928b59..f7c885c2b 100644
--- a/vllm/model_executor/layers/quantization/awq_marlin.py
+++ b/vllm/model_executor/layers/quantization/awq_marlin.py
@@ -140,7 +140,7 @@ class AWQMarlinConfig(QuantizationConfig):
             from vllm.model_executor.layers.quantization.moe_wna16 import (
                 MoeWNA16Config)
             if not check_moe_marlin_supports_layer(layer, self.group_size):
-                logger.warning_one(
+                logger.warning_once(
                     f"Layer '{prefix}' is not supported by AWQMoeMarlin. "
                     "Falling back to Moe WNA16 kernels.")
                 return MoeWNA16Config.from_config(
diff --git a/vllm/model_executor/layers/quantization/gptq_marlin.py b/vllm/model_executor/layers/quantization/gptq_marlin.py
index c7f9d95f4..703d54b3b 100644
--- a/vllm/model_executor/layers/quantization/gptq_marlin.py
+++ b/vllm/model_executor/layers/quantization/gptq_marlin.py
@@ -157,7 +157,7 @@ class GPTQMarlinConfig(QuantizationConfig):
             from vllm.model_executor.layers.quantization.moe_wna16 import (
                 MoeWNA16Config)
             if not check_moe_marlin_supports_layer(layer, self.group_size):
-                logger.warning_one(
+                logger.warning_once(
                     f"Layer '{prefix}' is not supported by GPTQMoeMarlin. "
                     "Falling back to Moe WNA16 kernels.")
                 return MoeWNA16Config.from_config(
-- 
GitLab


From 3ec97e2cc5426fd843c4724a593ec17f331151c5 Mon Sep 17 00:00:00 2001
From: "Kevin H. Luu" <kevin@anyscale.com>
Date: Fri, 2 May 2025 18:54:34 -0700
Subject: [PATCH 136/461] [release] Add command to clean up Docker
 containers/images in TPU release machine (#17606)

---
 .buildkite/release-pipeline.yaml | 1 +
 1 file changed, 1 insertion(+)

diff --git a/.buildkite/release-pipeline.yaml b/.buildkite/release-pipeline.yaml
index 03e2267a1..4cc9c70a6 100644
--- a/.buildkite/release-pipeline.yaml
+++ b/.buildkite/release-pipeline.yaml
@@ -57,6 +57,7 @@ steps:
     agents:
       queue: tpu_queue_postmerge
     commands:
+      - "yes | docker system prune -a"
       - "git fetch --all"
       - "DOCKER_BUILDKIT=1 docker build --build-arg max_jobs=16 --build-arg USE_SCCACHE=1 --build-arg GIT_REPO_CHECK=1 --tag vllm/vllm-tpu:nightly --tag vllm/vllm-tpu:$BUILDKITE_COMMIT --progress plain -f docker/Dockerfile.tpu ."
       - "docker push vllm/vllm-tpu:nightly"
-- 
GitLab


From 22c6f6397f2758eb897c6f53d8dfef4ceaae8297 Mon Sep 17 00:00:00 2001
From: Liangfu Chen <liangfc@amazon.com>
Date: Fri, 2 May 2025 19:41:59 -0700
Subject: [PATCH 137/461] [Neuron][Build] Require setuptools >= 77.0.3 for PEP
 639 (#17603)

Signed-off-by: Liangfu Chen <liangfc@amazon.com>
---
 requirements/neuron.txt | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/requirements/neuron.txt b/requirements/neuron.txt
index 5f25bd054..f8e303083 100644
--- a/requirements/neuron.txt
+++ b/requirements/neuron.txt
@@ -2,5 +2,7 @@
 -r common.txt
 
 # Dependencies for Neuron devices
+packaging>=24.2
+setuptools>=77.0.3,<80.0.0
 torch-neuronx >= 2.5.0
 neuronx-cc
-- 
GitLab


From d47b605eca42d66731283d7aecfea2b62d047402 Mon Sep 17 00:00:00 2001
From: 22quinn <33176974+22quinn@users.noreply.github.com>
Date: Fri, 2 May 2025 21:40:15 -0700
Subject: [PATCH 138/461] Update test requirements to CUDA 12.8 (#17576)

Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com>
---
 .pre-commit-config.yaml |  2 +-
 requirements/test.txt   | 32 ++++++++++++++++----------------
 2 files changed, 17 insertions(+), 17 deletions(-)

diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
index 90ed492d9..5ecd7b70e 100644
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -46,7 +46,7 @@ repos:
   rev: 0.6.17
   hooks:
     - id: pip-compile
-      args: [requirements/test.in, -o, requirements/test.txt, --index-strategy, unsafe-best-match]
+      args: [requirements/test.in, -o, requirements/test.txt, --index-strategy, unsafe-best-match, --torch-backend, cu128]
       files: ^requirements/test\.(in|txt)$
 - repo: local
   hooks:
diff --git a/requirements/test.txt b/requirements/test.txt
index d4c92f150..9a15d9a0d 100644
--- a/requirements/test.txt
+++ b/requirements/test.txt
@@ -1,5 +1,5 @@
 # This file was autogenerated by uv via the following command:
-#    uv pip compile requirements/test.in -o requirements/test.txt --index-strategy unsafe-best-match
+#    uv pip compile requirements/test.in -o requirements/test.txt --index-strategy unsafe-best-match --torch-backend cu128
 absl-py==2.1.0
     # via rouge-score
 accelerate==1.0.1
@@ -349,28 +349,28 @@ numpy==1.26.4
     #   transformers
     #   tritonclient
     #   vocos
-nvidia-cublas-cu12==12.6.4.1
+nvidia-cublas-cu12==12.8.3.14
     # via
     #   nvidia-cudnn-cu12
     #   nvidia-cusolver-cu12
     #   torch
-nvidia-cuda-cupti-cu12==12.6.80
+nvidia-cuda-cupti-cu12==12.8.57
     # via torch
-nvidia-cuda-nvrtc-cu12==12.6.77
+nvidia-cuda-nvrtc-cu12==12.8.61
     # via torch
-nvidia-cuda-runtime-cu12==12.6.77
+nvidia-cuda-runtime-cu12==12.8.57
     # via torch
-nvidia-cudnn-cu12==9.5.1.17
+nvidia-cudnn-cu12==9.7.1.26
     # via torch
-nvidia-cufft-cu12==11.3.0.4
+nvidia-cufft-cu12==11.3.3.41
     # via torch
-nvidia-cufile-cu12==1.11.1.6
+nvidia-cufile-cu12==1.13.0.11
     # via torch
-nvidia-curand-cu12==10.3.7.77
+nvidia-curand-cu12==10.3.9.55
     # via torch
-nvidia-cusolver-cu12==11.7.1.2
+nvidia-cusolver-cu12==11.7.2.55
     # via torch
-nvidia-cusparse-cu12==12.5.4.2
+nvidia-cusparse-cu12==12.5.7.53
     # via
     #   nvidia-cusolver-cu12
     #   torch
@@ -378,13 +378,13 @@ nvidia-cusparselt-cu12==0.6.3
     # via torch
 nvidia-nccl-cu12==2.26.2
     # via torch
-nvidia-nvjitlink-cu12==12.6.85
+nvidia-nvjitlink-cu12==12.8.61
     # via
     #   nvidia-cufft-cu12
     #   nvidia-cusolver-cu12
     #   nvidia-cusparse-cu12
     #   torch
-nvidia-nvtx-cu12==12.6.77
+nvidia-nvtx-cu12==12.8.55
     # via torch
 opencv-python-headless==4.11.0.86
     # via
@@ -687,7 +687,7 @@ tomli==2.2.1
     # via schemathesis
 tomli-w==1.2.0
     # via schemathesis
-torch==2.7.0
+torch==2.7.0+cu128
     # via
     #   -r requirements/test.in
     #   accelerate
@@ -705,12 +705,12 @@ torch==2.7.0
     #   torchvision
     #   vector-quantize-pytorch
     #   vocos
-torchaudio==2.7.0
+torchaudio==2.7.0+cu128
     # via
     #   -r requirements/test.in
     #   encodec
     #   vocos
-torchvision==0.22.0
+torchvision==0.22.0+cu128
     # via
     #   -r requirements/test.in
     #   timm
-- 
GitLab


From e3d0a1d190678b49d541fea2bd3db8d3ce9f0430 Mon Sep 17 00:00:00 2001
From: rasmith <Randall.Smith@amd.com>
Date: Fri, 2 May 2025 23:41:10 -0500
Subject: [PATCH 139/461] [Quantizaton] [AMD] Add support for running DeepSeek
 int8 w8a8 MoE on ROCm (#17558)

Signed-off-by: Randall Smith <Randall.Smith@amd.com>
---
 vllm/_custom_ops.py                           |  4 +--
 .../layers/quantization/utils/int8_utils.py   | 28 ++++++++++++++++++-
 2 files changed, 29 insertions(+), 3 deletions(-)

diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index 7bb01507a..64f431015 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -559,7 +559,6 @@ def cutlass_scaled_mm(a: torch.Tensor,
         scale_a.shape * [1, 128] == a.shape
         scale_b.shape * [128, 128] == b.shape
     """
-    assert (b.shape[0] % 16 == 0 and b.shape[1] % 16 == 0)
     assert (out_dtype is torch.bfloat16 or out_dtype is torch.float16)
     assert bias is None or bias.shape[0] == b.shape[
         1] and bias.dtype == out_dtype
@@ -567,7 +566,8 @@ def cutlass_scaled_mm(a: torch.Tensor,
     m = a.shape[0]
     n = b.shape[1]
 
-    if current_platform.is_rocm():
+    cutlass_compatible_b = (b.shape[0] % 16 == 0 and b.shape[1] % 16 == 0)
+    if current_platform.is_rocm() or not cutlass_compatible_b:
         triton_scaled_mm_module = importlib.import_module(
             "vllm.model_executor.layers.quantization.compressed_tensors."
             "triton_scaled_mm")
diff --git a/vllm/model_executor/layers/quantization/utils/int8_utils.py b/vllm/model_executor/layers/quantization/utils/int8_utils.py
index 98b06b6c2..aaaf7a9e0 100644
--- a/vllm/model_executor/layers/quantization/utils/int8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/int8_utils.py
@@ -85,6 +85,32 @@ def block_dequant(
     return x_dq_block
 
 
+if current_platform.is_rocm():
+    from triton.language import core
+
+    # NOTE: This can be removed when hip.libdevice.round() is available.
+    @core.extern
+    def round_f32(arg0, _builder=None):
+        return core.extern_elementwise("",
+                                       "", [arg0], {
+                                           (core.dtype("fp32"), ):
+                                           ("llvm.round", core.dtype("fp32")),
+                                           (core.dtype("fp64"), ):
+                                           ("llvm.round", core.dtype("fp64")),
+                                       },
+                                       is_pure=True,
+                                       _builder=_builder)
+
+    @triton.jit
+    def round_int8(x):
+        return round_f32(x).to(tl.int8)
+else:
+
+    @triton.jit
+    def round_int8(x):
+        return tl.extra.cuda.libdevice.round(x).to(tl.int8)
+
+
 @triton.jit
 def _per_token_quant_int8(
     x_ptr,
@@ -106,7 +132,7 @@ def _per_token_quant_int8(
     absmax = tl.maximum(tl.max(tl.abs(x)), 1e-10)
     scale_x = absmax / 127
     x_q = x * (127 / absmax)
-    x_q = tl.extra.cuda.libdevice.round(x_q).to(tl.int8)
+    x_q = round_int8(x_q)
 
     tl.store(xq_ptr + row_id * stride_xq + cols, x_q, mask=mask)
     tl.store(scale_ptr + row_id, scale_x)
-- 
GitLab


From 87baebebd8c960a36e2e778d4fd97ff84843d5e3 Mon Sep 17 00:00:00 2001
From: Chenyaaang <42742451+Chenyaaang@users.noreply.github.com>
Date: Fri, 2 May 2025 21:42:44 -0700
Subject: [PATCH 140/461] [Frontend][TPU] Add TPU default
 max-num-batched-tokens based on device name  (#17508)

Signed-off-by: Chenyaaang <chenyangli@google.com>
---
 vllm/config.py           |  8 ++++++++
 vllm/engine/arg_utils.py | 32 +++++++++++++++++++++++++++++---
 vllm/platforms/tpu.py    |  4 +++-
 3 files changed, 40 insertions(+), 4 deletions(-)

diff --git a/vllm/config.py b/vllm/config.py
index 9738d2fd0..1ae8673f7 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -3140,6 +3140,14 @@ def _get_and_verify_max_len(
     # derived length from the HF model config.
     if max_model_len is None:
         max_model_len = int(derived_max_model_len)
+        if current_platform.is_tpu():
+            logger.warning(
+                "--max-model-len is not specified, "
+                "it's currently using model's default length %s, "
+                "which might be too large."
+                "Please input with --max-model-len based on your "
+                "request input length and output length, to avoid "
+                "unnecessary degradation.", max_model_len)
     elif max_model_len > derived_max_model_len:
         # Some models might have a separate key for specifying model_max_length
         # that will be bigger than derived_max_model_len. We compare user input
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 0ba14c4de..aefba620e 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1441,8 +1441,8 @@ class EngineArgs:
         # as the platform that vLLM is running on (e.g. the case of scaling
         # vLLM with Ray) and has no GPUs. In this case we use the default
         # values for non-H100/H200 GPUs.
+        from vllm.platforms import current_platform
         try:
-            from vllm.platforms import current_platform
             device_memory = current_platform.get_device_total_memory()
         except Exception:
             # This is only used to set default_max_num_batched_tokens
@@ -1463,11 +1463,37 @@ class EngineArgs:
             }
             default_max_num_seqs = 256
 
+        # tpu specific default values.
+        if current_platform.is_tpu():
+            default_max_num_batched_tokens_tpu = {
+                UsageContext.LLM_CLASS: {
+                    'V6E': 2048,
+                    'V5E': 1024,
+                    'V5P': 512,
+                },
+                UsageContext.OPENAI_API_SERVER: {
+                    'V6E': 1024,
+                    'V5E': 512,
+                    'V5P': 256,
+                }
+            }
+
         use_context_value = usage_context.value if usage_context else None
         if (self.max_num_batched_tokens is None
                 and usage_context in default_max_num_batched_tokens):
-            self.max_num_batched_tokens = default_max_num_batched_tokens[
-                usage_context]
+            if current_platform.is_tpu():
+                chip_name = current_platform.get_device_name()
+                if chip_name in default_max_num_batched_tokens_tpu[
+                        usage_context]:
+                    self.max_num_batched_tokens = \
+                        default_max_num_batched_tokens_tpu[
+                            usage_context][chip_name]
+                else:
+                    self.max_num_batched_tokens = \
+                        default_max_num_batched_tokens[usage_context]
+            else:
+                self.max_num_batched_tokens = default_max_num_batched_tokens[
+                    usage_context]
             logger.debug(
                 "Setting max_num_batched_tokens to %d for %s usage context.",
                 self.max_num_batched_tokens, use_context_value)
diff --git a/vllm/platforms/tpu.py b/vllm/platforms/tpu.py
index d5923557a..9c95e6d3f 100644
--- a/vllm/platforms/tpu.py
+++ b/vllm/platforms/tpu.py
@@ -3,6 +3,7 @@
 from typing import TYPE_CHECKING, Optional, Union
 
 import torch
+from tpu_info import device
 
 import vllm.envs as envs
 from vllm.inputs import ProcessorInputs, PromptType
@@ -54,7 +55,8 @@ class TpuPlatform(Platform):
 
     @classmethod
     def get_device_name(cls, device_id: int = 0) -> str:
-        return "tpu"
+        chip_type, _ = device.get_local_chips()
+        return f"TPU {chip_type.name}"
 
     @classmethod
     def get_device_total_memory(cls, device_id: int = 0) -> int:
-- 
GitLab


From c8386fa61d97657235497cf65b4d6c7c48be9a8a Mon Sep 17 00:00:00 2001
From: Tyler Michael Smith <tyler@neuralmagic.com>
Date: Sat, 3 May 2025 01:25:14 -0400
Subject: [PATCH 141/461] [Build/CI] Upgrade CUTLASS to 3.9.1 (#17602)

Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com>
---
 CMakeLists.txt | 7 +++----
 1 file changed, 3 insertions(+), 4 deletions(-)

diff --git a/CMakeLists.txt b/CMakeLists.txt
index be84c8129..d530646cd 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -249,9 +249,8 @@ set(VLLM_EXT_SRC
 if(VLLM_GPU_LANG STREQUAL "CUDA")
   SET(CUTLASS_ENABLE_HEADERS_ONLY ON CACHE BOOL "Enable only the header library")
 
-  # Set CUTLASS_REVISION manually -- its revision detection doesn't work in this case.
-  # Please keep this in sync with FetchContent_Declare line below.
-  set(CUTLASS_REVISION "v3.9.0" CACHE STRING "CUTLASS revision to use")
+  # Set CUTLASS_REVISION. Used for FetchContent. Also fixes some bogus messages when building.
+  set(CUTLASS_REVISION "v3.9.1" CACHE STRING "CUTLASS revision to use")
 
   # Use the specified CUTLASS source directory for compilation if VLLM_CUTLASS_SRC_DIR is provided
   if (DEFINED ENV{VLLM_CUTLASS_SRC_DIR})
@@ -269,7 +268,7 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
         cutlass
         GIT_REPOSITORY https://github.com/nvidia/cutlass.git
         # Please keep this in sync with CUTLASS_REVISION line above.
-        GIT_TAG v3.9.0
+        GIT_TAG ${CUTLASS_REVISION}
         GIT_PROGRESS TRUE
 
         # Speed up CUTLASS download by retrieving only the specified GIT_TAG instead of the history.
-- 
GitLab


From a92842454ca824ce6fcf356f31e3bf0daf53629b Mon Sep 17 00:00:00 2001
From: Gregory Shtrasberg <156009573+gshtras@users.noreply.github.com>
Date: Sat, 3 May 2025 01:25:47 -0400
Subject: [PATCH 142/461] [Bugfix][ROCm] Using device_type because on ROCm the
 API is still torch.cuda (#17601)

Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>
---
 vllm/platforms/interface.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/platforms/interface.py b/vllm/platforms/interface.py
index c5555aba1..6a78e00a9 100644
--- a/vllm/platforms/interface.py
+++ b/vllm/platforms/interface.py
@@ -406,12 +406,12 @@ class Platform:
         """Raises if this request is unsupported on this platform"""
 
     def __getattr__(self, key: str):
-        device = getattr(torch, self.device_name, None)
+        device = getattr(torch, self.device_type, None)
         if device is not None and hasattr(device, key):
             return getattr(device, key)
         else:
             logger.warning("Current platform %s does not have '%s'" \
-            " attribute.", self.device_name, key)
+            " attribute.", self.device_type, key)
             return None
 
     @classmethod
-- 
GitLab


From 887d7af882d2bcb0ce4884d8369418e226add0c4 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Sun, 4 May 2025 00:19:20 +0800
Subject: [PATCH 143/461] [Core] Gate `prompt_embeds` behind a feature flag
 (#17607)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 tests/engine/test_options.py                  | 60 +++++++++++++++++++
 tests/engine/test_skip_tokenizer_init.py      | 29 ---------
 .../models/language/generation/test_common.py |  8 ++-
 tests/worker/test_model_runner.py             |  3 +
 vllm/config.py                                |  4 ++
 vllm/engine/arg_utils.py                      |  4 ++
 vllm/inputs/preprocess.py                     |  5 +-
 vllm/worker/model_runner.py                   |  4 +-
 8 files changed, 84 insertions(+), 33 deletions(-)
 create mode 100644 tests/engine/test_options.py
 delete mode 100644 tests/engine/test_skip_tokenizer_init.py

diff --git a/tests/engine/test_options.py b/tests/engine/test_options.py
new file mode 100644
index 000000000..0cf4f69d5
--- /dev/null
+++ b/tests/engine/test_options.py
@@ -0,0 +1,60 @@
+# SPDX-License-Identifier: Apache-2.0
+from contextlib import nullcontext
+
+import pytest
+
+from vllm.entrypoints.llm import LLM
+from vllm.sampling_params import SamplingParams
+
+
+@pytest.mark.parametrize("model", ["distilbert/distilgpt2"])
+def test_skip_tokenizer_initialization(model: str):
+    # This test checks if the flag skip_tokenizer_init skips the initialization
+    # of tokenizer and detokenizer. The generated output is expected to contain
+    # token ids.
+    llm = LLM(
+        model=model,
+        skip_tokenizer_init=True,
+        enforce_eager=True,
+    )
+    sampling_params = SamplingParams(prompt_logprobs=True, detokenize=True)
+
+    with pytest.raises(ValueError, match="cannot pass text prompts when"):
+        llm.generate("abc", sampling_params)
+
+    outputs = llm.generate({"prompt_token_ids": [1, 2, 3]},
+                           sampling_params=sampling_params)
+    assert len(outputs) > 0
+    completions = outputs[0].outputs
+    assert len(completions) > 0
+    assert completions[0].text == ""
+    assert completions[0].token_ids
+
+
+@pytest.mark.parametrize("model", ["distilbert/distilgpt2"])
+@pytest.mark.parametrize("enable_prompt_embeds", [True, False])
+def test_enable_prompt_embeds(hf_runner, model: str,
+                              enable_prompt_embeds: bool):
+    prompt = "abc"
+
+    with hf_runner(model) as hf_model:
+        token_ids = hf_model.tokenizer(prompt, return_tensors="pt").input_ids
+        token_ids = token_ids.to(hf_model.model.device)
+
+        embed_layer = hf_model.model.get_input_embeddings()
+        prompt_embeds = embed_layer(token_ids).squeeze(0)
+
+    ctx = (nullcontext() if enable_prompt_embeds else pytest.raises(
+        ValueError, match="set `--enable-prompt-embeds`"))
+
+    # This test checks if the flag skip_tokenizer_init skips the initialization
+    # of tokenizer and detokenizer. The generated output is expected to contain
+    # token ids.
+    llm = LLM(
+        model=model,
+        enable_prompt_embeds=enable_prompt_embeds,
+        enforce_eager=True,
+    )
+
+    with ctx:
+        llm.generate({"prompt_embeds": prompt_embeds})
diff --git a/tests/engine/test_skip_tokenizer_init.py b/tests/engine/test_skip_tokenizer_init.py
deleted file mode 100644
index 5e197f5ff..000000000
--- a/tests/engine/test_skip_tokenizer_init.py
+++ /dev/null
@@ -1,29 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-
-import pytest
-
-from vllm.entrypoints.llm import LLM
-from vllm.sampling_params import SamplingParams
-
-
-@pytest.mark.parametrize("model", ["distilbert/distilgpt2"])
-def test_skip_tokenizer_initialization(model: str):
-    # This test checks if the flag skip_tokenizer_init skips the initialization
-    # of tokenizer and detokenizer. The generated output is expected to contain
-    # token ids.
-    llm = LLM(
-        model=model,
-        skip_tokenizer_init=True,
-    )
-    sampling_params = SamplingParams(prompt_logprobs=True, detokenize=True)
-
-    with pytest.raises(ValueError, match="cannot pass text prompts when"):
-        llm.generate("abc", sampling_params)
-
-    outputs = llm.generate({"prompt_token_ids": [1, 2, 3]},
-                           sampling_params=sampling_params)
-    assert len(outputs) > 0
-    completions = outputs[0].outputs
-    assert len(completions) > 0
-    assert completions[0].text == ""
-    assert completions[0].token_ids
diff --git a/tests/models/language/generation/test_common.py b/tests/models/language/generation/test_common.py
index fcd3fa036..c755593c9 100644
--- a/tests/models/language/generation/test_common.py
+++ b/tests/models/language/generation/test_common.py
@@ -109,12 +109,15 @@ def test_models(hf_runner, vllm_runner, example_prompts, model: str,
         # in parts of the operators
         pytest.skip(f"Skipping '{model}' model test with AITER kernel.")
 
+    use_prompt_embeds = os.getenv("VLLM_USE_V1") == "0"
+
     with hf_runner(model) as hf_model:
         hf_outputs = hf_model.generate_greedy_logprobs_limit(
             example_prompts, max_tokens, num_logprobs)
 
-        prompt_embeds: Optional[list[torch.Tensor]] = [] if os.getenv(
-            "VLLM_USE_V1") == "0" else None
+        prompt_embeds: Optional[list[torch.Tensor]] = ([] if use_prompt_embeds
+                                                       else None)
+
         prompt_token_ids = []
         for prompt in example_prompts:
             token_ids = hf_model.tokenizer(prompt,
@@ -131,6 +134,7 @@ def test_models(hf_runner, vllm_runner, example_prompts, model: str,
             tokenizer_mode=model_info.tokenizer_mode,
             trust_remote_code=model_info.trust_remote_code,
             max_num_seqs=2,
+            enable_prompt_embeds=use_prompt_embeds,
     ) as vllm_model:
         vllm_outputs = vllm_model.generate_greedy_logprobs(
             example_prompts, max_tokens, num_logprobs)
diff --git a/tests/worker/test_model_runner.py b/tests/worker/test_model_runner.py
index a1bdea687..ae4b53652 100644
--- a/tests/worker/test_model_runner.py
+++ b/tests/worker/test_model_runner.py
@@ -43,6 +43,7 @@ def test_prepare_prompt(batch_size, use_prompt_embeds, monkeypatch):
         max_num_batched_tokens=100000,
         max_num_seqs=100000,
         enable_chunked_prefill=False,
+        enable_prompt_embeds=True,
     )
 
     seq_lens: list[int] = []
@@ -179,6 +180,7 @@ def test_prepare_decode_cuda_graph(batch_size, use_prompt_embeds, monkeypatch):
         max_num_batched_tokens=100000,
         max_num_seqs=100000,
         enable_chunked_prefill=False,
+        enable_prompt_embeds=True,
     )
 
     context_lens: list[int] = []
@@ -359,6 +361,7 @@ def test_hybrid_batches(batch_size, enforce_eager, use_prompt_embeds,
         max_num_batched_tokens=100000,
         max_num_seqs=100000,
         enable_chunked_prefill=True,
+        enable_prompt_embeds=True,
     )
 
     # Add prefill requests.
diff --git a/vllm/config.py b/vllm/config.py
index 1ae8673f7..91ef9dcdb 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -321,6 +321,10 @@ class ModelConfig:
     """Skip initialization of tokenizer and detokenizer. Expects valid
     `prompt_token_ids` and `None` for prompt from the input. The generated
     output will contain token ids."""
+    enable_prompt_embeds: bool = False
+    """If `True`, enables passing text embeddings as inputs via the
+    `prompt_embeds` key. Note that enabling this will double the time required
+    for graph compilation."""
     served_model_name: Optional[Union[str, list[str]]] = None
     """The model name(s) used in the API. If multiple names are provided, the
     server will respond to any of the provided names. The model name in the
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index aefba620e..f6f8fb69f 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -234,6 +234,7 @@ class EngineArgs:
     hf_config_path: Optional[str] = ModelConfig.hf_config_path
     task: TaskOption = ModelConfig.task
     skip_tokenizer_init: bool = ModelConfig.skip_tokenizer_init
+    enable_prompt_embeds: bool = ModelConfig.enable_prompt_embeds
     tokenizer_mode: TokenizerMode = ModelConfig.tokenizer_mode
     trust_remote_code: bool = ModelConfig.trust_remote_code
     allowed_local_media_path: str = ModelConfig.allowed_local_media_path
@@ -445,6 +446,8 @@ class EngineArgs:
                                  **model_kwargs["disable_cascade_attn"])
         model_group.add_argument("--skip-tokenizer-init",
                                  **model_kwargs["skip_tokenizer_init"])
+        model_group.add_argument("--enable-prompt-embeds",
+                                 **model_kwargs["enable_prompt_embeds"])
         model_group.add_argument("--served-model-name",
                                  **model_kwargs["served_model_name"])
         # This one is a special case because it is the
@@ -874,6 +877,7 @@ class EngineArgs:
             disable_sliding_window=self.disable_sliding_window,
             disable_cascade_attn=self.disable_cascade_attn,
             skip_tokenizer_init=self.skip_tokenizer_init,
+            enable_prompt_embeds=self.enable_prompt_embeds,
             served_model_name=self.served_model_name,
             limit_mm_per_prompt=self.limit_mm_per_prompt,
             use_async_output_proc=not self.disable_async_output_proc,
diff --git a/vllm/inputs/preprocess.py b/vllm/inputs/preprocess.py
index 97a2ce5c6..53e0a477a 100644
--- a/vllm/inputs/preprocess.py
+++ b/vllm/inputs/preprocess.py
@@ -303,8 +303,11 @@ class InputPreprocessor:
         self,
         parsed_content: EmbedsPrompt,
     ) -> EmbedsInputs:
+        if not self.model_config.enable_prompt_embeds:
+            raise ValueError("You must set `--enable-prompt-embeds` to input "
+                             "`prompt_embeds`.")
         if envs.VLLM_USE_V1:
-            raise ValueError("prompt_embeds is only available in V0.")
+            raise ValueError("`prompt_embeds` is only available in V0.")
 
         prompt_embeds = parsed_content["prompt_embeds"]
 
diff --git a/vllm/worker/model_runner.py b/vllm/worker/model_runner.py
index 85814e9af..e22bbcc65 100644
--- a/vllm/worker/model_runner.py
+++ b/vllm/worker/model_runner.py
@@ -1565,7 +1565,9 @@ class GPUModelRunnerBase(ModelRunnerBase[TModelInputForGPU]):
                 # product.
                 cudagraph_capture_sizes = self.vllm_config.compilation_config\
                     .cudagraph_capture_sizes
-                cudagraph_inputs_embeds = (True, False)
+                cudagraph_inputs_embeds = ((
+                    True, False) if self.model_config.enable_prompt_embeds else
+                                           (False, ))
                 compilation_cases = itertools.product(
                     cudagraph_capture_sizes,
                     cudagraph_inputs_embeds,
-- 
GitLab


From f66f1e0fa3d73da2d537eb1d16e8354f8c4379a8 Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Sun, 4 May 2025 01:08:14 +0800
Subject: [PATCH 144/461] [Bugfix] Fix broken Qwen2.5-omni tests (#17613)

Signed-off-by: Isotr0py <2037008807@qq.com>
---
 tests/models/multimodal/generation/test_common.py     |  8 +++++---
 .../multimodal/generation/vlm_utils/model_utils.py    |  8 ++++++++
 tests/models/multimodal/processing/test_common.py     |  2 +-
 tests/models/registry.py                              | 11 +++++++----
 4 files changed, 21 insertions(+), 8 deletions(-)

diff --git a/tests/models/multimodal/generation/test_common.py b/tests/models/multimodal/generation/test_common.py
index 44cdd6f44..6e915a9f6 100644
--- a/tests/models/multimodal/generation/test_common.py
+++ b/tests/models/multimodal/generation/test_common.py
@@ -8,7 +8,8 @@ from collections import defaultdict
 from pathlib import PosixPath
 
 import pytest
-from transformers import AutoModelForImageTextToText, AutoModelForVision2Seq
+from transformers import (AutoModelForImageTextToText,
+                          AutoModelForTextToWaveform, AutoModelForVision2Seq)
 
 from vllm.platforms import current_platform
 from vllm.utils import identity
@@ -140,7 +141,7 @@ VLM_TEST_SETTINGS = {
         marks=[pytest.mark.core_model, pytest.mark.cpu_model],
     ),
     "qwen2_5_omni": VLMTestInfo(
-        models=["Qwen/Qwen2.5-Omni-7B"],
+        models=["Qwen/Qwen2.5-Omni-3B"],
         test_type=(
             VLMTestType.IMAGE,
             VLMTestType.MULTI_IMAGE,
@@ -151,8 +152,9 @@ VLM_TEST_SETTINGS = {
         video_idx_to_prompt=lambda idx: "<|vision_bos|><|VIDEO|><|vision_eos|>", # noqa: E501
         max_model_len=4096,
         max_num_seqs=2,
-        auto_cls=AutoModelForVision2Seq,
+        auto_cls=AutoModelForTextToWaveform,
         vllm_output_post_proc=model_utils.qwen2_vllm_to_hf_output,
+        patch_hf_runner=model_utils.qwen2_5_omni_patch_hf_runner,
         image_size_factors=[(), (0.25,), (0.25, 0.25, 0.25), (0.25, 0.2, 0.15)],
         marks=[pytest.mark.core_model, pytest.mark.cpu_model],
     ),
diff --git a/tests/models/multimodal/generation/vlm_utils/model_utils.py b/tests/models/multimodal/generation/vlm_utils/model_utils.py
index aa9d3901f..f0f4ed989 100644
--- a/tests/models/multimodal/generation/vlm_utils/model_utils.py
+++ b/tests/models/multimodal/generation/vlm_utils/model_utils.py
@@ -706,3 +706,11 @@ def ovis2_patch_hf_runner(hf_model: HfRunner) -> HfRunner:
 
     hf_model.processor = processor
     return hf_model
+
+
+def qwen2_5_omni_patch_hf_runner(hf_model: HfRunner) -> HfRunner:
+    """Patches and returns an instance of the HfRunner for Qwen2.5-Omni."""
+    thinker = hf_model.model.thinker
+    thinker.get_output_embeddings = lambda: thinker.lm_head
+    hf_model.model = thinker
+    return hf_model
diff --git a/tests/models/multimodal/processing/test_common.py b/tests/models/multimodal/processing/test_common.py
index 2b1d38dfd..772a2db3e 100644
--- a/tests/models/multimodal/processing/test_common.py
+++ b/tests/models/multimodal/processing/test_common.py
@@ -284,7 +284,7 @@ def _test_processing_correctness_mistral(
     "Qwen/Qwen2-VL-2B-Instruct",
     "Qwen/Qwen2.5-VL-3B-Instruct",
     "Qwen/Qwen2-Audio-7B-Instruct",
-    "Qwen/Qwen2.5-Omni-7B",
+    "Qwen/Qwen2.5-Omni-3B",
     "Skywork/Skywork-R1V-38B",
     "fixie-ai/ultravox-v0_5-llama-3_2-1b",
     "openai/whisper-large-v3",
diff --git a/tests/models/registry.py b/tests/models/registry.py
index a19c43b69..cce2c82b3 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -72,12 +72,15 @@ class _HfExamplesInfo:
             return
 
         current_version = TRANSFORMERS_VERSION
+        cur_base_version = Version(current_version).base_version
         min_version = self.min_transformers_version
         max_version = self.max_transformers_version
         msg = f"`transformers=={current_version}` installed, but `transformers"
-        if min_version and Version(current_version) < Version(min_version):
+        # Only check the base version for the min/max version, otherwise preview
+        # models cannot be run because `x.yy.0.dev0`<`x.yy.0`
+        if min_version and Version(cur_base_version) < Version(min_version):
             msg += f">={min_version}` is required to run this model."
-        elif max_version and Version(current_version) > Version(max_version):
+        elif max_version and Version(cur_base_version) > Version(max_version):
             msg += f"<={max_version}` is required to run this model."
         else:
             return
@@ -362,8 +365,8 @@ _MULTIMODAL_EXAMPLE_MODELS = {
     "Qwen2AudioForConditionalGeneration": _HfExamplesInfo("Qwen/Qwen2-Audio-7B-Instruct"),  # noqa: E501
     "Qwen2VLForConditionalGeneration": _HfExamplesInfo("Qwen/Qwen2-VL-2B-Instruct"),  # noqa: E501
     "Qwen2_5_VLForConditionalGeneration": _HfExamplesInfo("Qwen/Qwen2.5-VL-3B-Instruct"),  # noqa: E501
-    "Qwen2_5OmniModel": _HfExamplesInfo("Qwen/Qwen2.5-Omni-7B",  # noqa: E501
-                                                                  min_transformers_version="4.52"),  # noqa: E501
+    "Qwen2_5OmniModel": _HfExamplesInfo("Qwen/Qwen2.5-Omni-3B",
+                                        min_transformers_version="4.52"),
     "SkyworkR1VChatModel": _HfExamplesInfo("Skywork/Skywork-R1V-38B"),
     "SmolVLMForConditionalGeneration": _HfExamplesInfo("HuggingFaceTB/SmolVLM2-2.2B-Instruct"),  # noqa: E501
     "UltravoxModel": _HfExamplesInfo("fixie-ai/ultravox-v0_5-llama-3_2-1b",  # noqa: E501
-- 
GitLab


From 46fae69cf04db85a3b187a5fdc061b21e24b9571 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Sun, 4 May 2025 06:59:24 +0800
Subject: [PATCH 145/461] [Misc] V0 fallback for `--enable-prompt-embeds`
 (#17615)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 vllm/engine/arg_utils.py  | 6 ++++++
 vllm/inputs/preprocess.py | 3 ---
 2 files changed, 6 insertions(+), 3 deletions(-)

diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index f6f8fb69f..08dbb4c45 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1237,6 +1237,12 @@ class EngineArgs:
                                recommend_to_remove=False)
             return False
 
+        # No text embedding inputs so far.
+        if self.enable_prompt_embeds:
+            _raise_or_fallback(feature_name="--enable-prompt-embeds",
+                               recommend_to_remove=False)
+            return False
+
         # Only Fp16 and Bf16 dtypes since we only support FA.
         V1_SUPPORTED_DTYPES = [torch.bfloat16, torch.float16]
         if model_config.dtype not in V1_SUPPORTED_DTYPES:
diff --git a/vllm/inputs/preprocess.py b/vllm/inputs/preprocess.py
index 53e0a477a..fe4775b21 100644
--- a/vllm/inputs/preprocess.py
+++ b/vllm/inputs/preprocess.py
@@ -6,7 +6,6 @@ from typing import Any, Optional, Union, cast
 
 from typing_extensions import assert_never
 
-from vllm import envs
 from vllm.config import ModelConfig
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
@@ -306,8 +305,6 @@ class InputPreprocessor:
         if not self.model_config.enable_prompt_embeds:
             raise ValueError("You must set `--enable-prompt-embeds` to input "
                              "`prompt_embeds`.")
-        if envs.VLLM_USE_V1:
-            raise ValueError("`prompt_embeds` is only available in V0.")
 
         prompt_embeds = parsed_content["prompt_embeds"]
 
-- 
GitLab


From d6484ef3c3a01dc89176ed49874a327303356bee Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Sun, 4 May 2025 03:42:43 +0100
Subject: [PATCH 146/461] Add full API docs and improve the UX of navigating
 them (#17485)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .buildkite/test-pipeline.yaml                 |   2 +-
 .gitignore                                    |   1 +
 docs/Makefile                                 |   1 +
 docs/source/api/engine/async_llm_engine.md    |   7 -
 docs/source/api/engine/index.md               |  17 --
 docs/source/api/engine/llm_engine.md          |   7 -
 docs/source/api/inference_params.md           |  21 --
 docs/source/api/model/adapters.md             |   9 -
 docs/source/api/model/index.md                |  11 -
 docs/source/api/model/interfaces.md           |   9 -
 docs/source/api/model/interfaces_base.md      |   9 -
 docs/source/api/multimodal/index.md           |  28 --
 docs/source/api/multimodal/inputs.md          |  49 ----
 docs/source/api/multimodal/parse.md           |   9 -
 docs/source/api/multimodal/processing.md      |   9 -
 docs/source/api/multimodal/profiling.md       |   9 -
 docs/source/api/multimodal/registry.md        |   9 -
 docs/source/api/offline_inference/index.md    |   9 -
 docs/source/api/offline_inference/llm.md      |   7 -
 .../api/offline_inference/llm_inputs.md       |  19 --
 docs/source/api/summary.md                    | 133 +++++++++
 docs/source/autodoc2_docstring_parser.py      |  21 ++
 docs/source/conf.py                           | 136 +++++-----
 docs/source/design/arch_overview.md           |   4 +-
 docs/source/features/compatibility_matrix.md  |   6 +-
 docs/source/index.md                          |   7 +-
 docs/source/models/generative_models.md       |   2 +-
 docs/source/models/pooling_models.md          |   2 +-
 docs/source/serving/offline_inference.md      |   4 +-
 examples/offline_inference/profiling.py       |   2 +-
 requirements/docs.txt                         |  16 +-
 tests/conftest.py                             |   8 +-
 tests/tokenization/test_get_eos.py            |   2 +-
 tests/utils.py                                |   2 +-
 tests/v1/core/test_scheduler.py               |   2 +-
 vllm/attention/backends/mla/common.py         |   2 +
 vllm/attention/backends/utils.py              |   2 +-
 vllm/compilation/compiler_interface.py        |   2 +-
 vllm/config.py                                |  10 +-
 vllm/connections.py                           |   2 +-
 vllm/distributed/kv_transfer/__init__.py      |   1 +
 vllm/engine/async_llm_engine.py               |  98 +++----
 vllm/engine/llm_engine.py                     | 105 ++++----
 vllm/engine/multiprocessing/client.py         |   4 +-
 vllm/engine/multiprocessing/engine.py         |  12 +-
 vllm/engine/output_processor/multi_step.py    |   4 +-
 vllm/engine/output_processor/single_step.py   |  12 +-
 vllm/entrypoints/llm.py                       |  62 +++--
 vllm/entrypoints/openai/protocol.py           |  19 +-
 vllm/entrypoints/openai/serving_engine.py     |   4 +-
 vllm/executor/executor_base.py                |   2 +-
 vllm/inputs/__init__.py                       |   2 +-
 vllm/inputs/data.py                           |  42 +--
 vllm/inputs/preprocess.py                     |  22 +-
 vllm/inputs/registry.py                       |   8 +-
 vllm/logger.py                                |   6 +-
 vllm/lora/ops/triton_ops/__init__.py          |   4 +-
 .../{lora_expand.py => lora_expand_op.py}     |   0
 .../{lora_shrink.py => lora_shrink_op.py}     |   0
 .../layers/rejection_sampler.py               |  31 ++-
 vllm/model_executor/layers/sampler.py         |   2 +-
 .../layers/typical_acceptance_sampler.py      |  15 +-
 vllm/model_executor/models/blip2.py           |   5 +-
 vllm/model_executor/models/interfaces.py      |   4 +-
 vllm/model_executor/models/llava.py           |   5 +-
 vllm/model_executor/models/llava_next.py      |   7 +-
 vllm/model_executor/models/mistral3.py        |   5 +-
 vllm/model_executor/models/molmo.py           |   2 +-
 vllm/model_executor/models/phi4mm_utils.py    |   4 +-
 vllm/model_executor/models/pixtral.py         |   4 +-
 vllm/model_executor/models/qwen_vl.py         |   2 +-
 vllm/model_executor/models/registry.py        |  12 +-
 vllm/model_executor/models/utils.py           |   2 +-
 vllm/multimodal/__init__.py                   |   7 +-
 vllm/multimodal/base.py                       |  44 +--
 vllm/multimodal/inputs.py                     | 255 +++++++++---------
 vllm/multimodal/parse.py                      |  10 +-
 vllm/multimodal/processing.py                 | 244 ++++++++---------
 vllm/multimodal/profiling.py                  |   4 +-
 vllm/multimodal/registry.py                   |  20 +-
 vllm/multimodal/utils.py                      |  41 +--
 vllm/platforms/cpu.py                         |   2 -
 vllm/platforms/cuda.py                        |   8 +-
 vllm/platforms/interface.py                   |   6 +-
 vllm/profiler/__init__.py                     |   7 -
 vllm/sequence.py                              |  14 +-
 .../spec_decode/smaller_tp_proposer_worker.py |   3 +-
 vllm/transformers_utils/configs/dbrx.py       |   3 +-
 vllm/transformers_utils/configs/exaone.py     |  44 +--
 vllm/transformers_utils/tokenizer.py          |   8 +-
 vllm/utils.py                                 |  24 +-
 vllm/v1/attention/backends/mla/common.py      |   2 +
 vllm/v1/core/kv_cache_manager.py              |   2 +
 vllm/v1/engine/output_processor.py            |   4 +-
 vllm/v1/sample/rejection_sampler.py           |   2 +-
 vllm/v1/worker/gpu_worker.py                  |   7 +-
 vllm/v1/worker/utils.py                       |   6 +-
 vllm/worker/hpu_worker.py                     |   7 +-
 vllm/worker/multi_step_model_runner.py        |   4 +-
 vllm/worker/worker.py                         |   7 +-
 vllm/worker/xpu_worker.py                     |   9 +-
 101 files changed, 900 insertions(+), 1008 deletions(-)
 delete mode 100644 docs/source/api/engine/async_llm_engine.md
 delete mode 100644 docs/source/api/engine/index.md
 delete mode 100644 docs/source/api/engine/llm_engine.md
 delete mode 100644 docs/source/api/inference_params.md
 delete mode 100644 docs/source/api/model/adapters.md
 delete mode 100644 docs/source/api/model/index.md
 delete mode 100644 docs/source/api/model/interfaces.md
 delete mode 100644 docs/source/api/model/interfaces_base.md
 delete mode 100644 docs/source/api/multimodal/index.md
 delete mode 100644 docs/source/api/multimodal/inputs.md
 delete mode 100644 docs/source/api/multimodal/parse.md
 delete mode 100644 docs/source/api/multimodal/processing.md
 delete mode 100644 docs/source/api/multimodal/profiling.md
 delete mode 100644 docs/source/api/multimodal/registry.md
 delete mode 100644 docs/source/api/offline_inference/index.md
 delete mode 100644 docs/source/api/offline_inference/llm.md
 delete mode 100644 docs/source/api/offline_inference/llm_inputs.md
 create mode 100644 docs/source/api/summary.md
 create mode 100644 docs/source/autodoc2_docstring_parser.py
 rename vllm/lora/ops/triton_ops/{lora_expand.py => lora_expand_op.py} (100%)
 rename vllm/lora/ops/triton_ops/{lora_shrink.py => lora_shrink_op.py} (100%)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 84ee991f5..b3005b1b4 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -39,7 +39,7 @@ steps:
   - pip install -r ../../requirements/docs.txt
   - SPHINXOPTS=\"-W\" make html
   # Check API reference (if it fails, you may have missing mock imports)
-  - grep \"sig sig-object py\" build/html/api/inference_params.html
+  - grep \"sig sig-object py\" build/html/api/vllm/vllm.sampling_params.html
 
 - label: Async Engine, Inputs, Utils, Worker Test # 24min
   source_file_dependencies:
diff --git a/.gitignore b/.gitignore
index 728213ceb..2756c612b 100644
--- a/.gitignore
+++ b/.gitignore
@@ -80,6 +80,7 @@ instance/
 # Sphinx documentation
 docs/_build/
 docs/source/getting_started/examples/
+docs/source/api/vllm
 
 # PyBuilder
 .pybuilder/
diff --git a/docs/Makefile b/docs/Makefile
index 5b801f79d..d3b429dfb 100644
--- a/docs/Makefile
+++ b/docs/Makefile
@@ -22,3 +22,4 @@ help:
 clean:
 	@$(SPHINXBUILD) -M clean "$(SOURCEDIR)" "$(BUILDDIR)" $(SPHINXOPTS) $(O)
 	rm -rf "$(SOURCEDIR)/getting_started/examples"
+	rm -rf "$(SOURCEDIR)/api/vllm"
diff --git a/docs/source/api/engine/async_llm_engine.md b/docs/source/api/engine/async_llm_engine.md
deleted file mode 100644
index 904feaa50..000000000
--- a/docs/source/api/engine/async_llm_engine.md
+++ /dev/null
@@ -1,7 +0,0 @@
-# AsyncLLMEngine
-
-```{eval-rst}
-.. autoclass:: vllm.AsyncLLMEngine
-    :members:
-    :show-inheritance:
-```
diff --git a/docs/source/api/engine/index.md b/docs/source/api/engine/index.md
deleted file mode 100644
index b6544d94a..000000000
--- a/docs/source/api/engine/index.md
+++ /dev/null
@@ -1,17 +0,0 @@
-# vLLM Engine
-
-```{eval-rst}
-.. automodule:: vllm.engine
-```
-
-```{eval-rst}
-.. currentmodule:: vllm.engine
-```
-
-:::{toctree}
-:caption: Engines
-:maxdepth: 2
-
-llm_engine
-async_llm_engine
-:::
diff --git a/docs/source/api/engine/llm_engine.md b/docs/source/api/engine/llm_engine.md
deleted file mode 100644
index d6613ef55..000000000
--- a/docs/source/api/engine/llm_engine.md
+++ /dev/null
@@ -1,7 +0,0 @@
-# LLMEngine
-
-```{eval-rst}
-.. autoclass:: vllm.LLMEngine
-    :members:
-    :show-inheritance:
-```
diff --git a/docs/source/api/inference_params.md b/docs/source/api/inference_params.md
deleted file mode 100644
index 181c30cab..000000000
--- a/docs/source/api/inference_params.md
+++ /dev/null
@@ -1,21 +0,0 @@
-# Inference Parameters
-
-Inference parameters for vLLM APIs.
-
-(sampling-params)=
-
-## Sampling Parameters
-
-```{eval-rst}
-.. autoclass:: vllm.SamplingParams
-    :members:
-```
-
-(pooling-params)=
-
-## Pooling Parameters
-
-```{eval-rst}
-.. autoclass:: vllm.PoolingParams
-    :members:
-```
diff --git a/docs/source/api/model/adapters.md b/docs/source/api/model/adapters.md
deleted file mode 100644
index e103a51d0..000000000
--- a/docs/source/api/model/adapters.md
+++ /dev/null
@@ -1,9 +0,0 @@
-# Model Adapters
-
-## Module Contents
-
-```{eval-rst}
-.. automodule:: vllm.model_executor.models.adapters
-    :members:
-    :member-order: bysource
-```
diff --git a/docs/source/api/model/index.md b/docs/source/api/model/index.md
deleted file mode 100644
index 8fee3a55c..000000000
--- a/docs/source/api/model/index.md
+++ /dev/null
@@ -1,11 +0,0 @@
-# Model Development
-
-## Submodules
-
-:::{toctree}
-:maxdepth: 1
-
-interfaces_base
-interfaces
-adapters
-:::
diff --git a/docs/source/api/model/interfaces.md b/docs/source/api/model/interfaces.md
deleted file mode 100644
index 55bee57f6..000000000
--- a/docs/source/api/model/interfaces.md
+++ /dev/null
@@ -1,9 +0,0 @@
-# Optional Interfaces
-
-## Module Contents
-
-```{eval-rst}
-.. automodule:: vllm.model_executor.models.interfaces
-    :members:
-    :member-order: bysource
-```
diff --git a/docs/source/api/model/interfaces_base.md b/docs/source/api/model/interfaces_base.md
deleted file mode 100644
index 75d58d342..000000000
--- a/docs/source/api/model/interfaces_base.md
+++ /dev/null
@@ -1,9 +0,0 @@
-# Base Model Interfaces
-
-## Module Contents
-
-```{eval-rst}
-.. automodule:: vllm.model_executor.models.interfaces_base
-    :members:
-    :member-order: bysource
-```
diff --git a/docs/source/api/multimodal/index.md b/docs/source/api/multimodal/index.md
deleted file mode 100644
index 069ed53e5..000000000
--- a/docs/source/api/multimodal/index.md
+++ /dev/null
@@ -1,28 +0,0 @@
-(multi-modality)=
-
-# Multi-Modality
-
-vLLM provides experimental support for multi-modal models through the {mod}`vllm.multimodal` package.
-
-Multi-modal inputs can be passed alongside text and token prompts to [supported models](#supported-mm-models)
-via the `multi_modal_data` field in {class}`vllm.inputs.PromptType`.
-
-Looking to add your own multi-modal model? Please follow the instructions listed [here](#supports-multimodal).
-
-## Module Contents
-
-```{eval-rst}
-.. autodata:: vllm.multimodal.MULTIMODAL_REGISTRY
-```
-
-## Submodules
-
-:::{toctree}
-:maxdepth: 1
-
-inputs
-parse
-processing
-profiling
-registry
-:::
diff --git a/docs/source/api/multimodal/inputs.md b/docs/source/api/multimodal/inputs.md
deleted file mode 100644
index 21bd938be..000000000
--- a/docs/source/api/multimodal/inputs.md
+++ /dev/null
@@ -1,49 +0,0 @@
-# Input Definitions
-
-## User-facing inputs
-
-```{eval-rst}
-.. autodata:: vllm.multimodal.inputs.MultiModalDataDict
-```
-
-## Internal data structures
-
-```{eval-rst}
-.. autoclass:: vllm.multimodal.inputs.PlaceholderRange
-    :members:
-    :show-inheritance:
-```
-
-```{eval-rst}
-.. autodata:: vllm.multimodal.inputs.NestedTensors
-```
-
-```{eval-rst}
-.. autoclass:: vllm.multimodal.inputs.MultiModalFieldElem
-    :members:
-    :show-inheritance:
-```
-
-```{eval-rst}
-.. autoclass:: vllm.multimodal.inputs.MultiModalFieldConfig
-    :members:
-    :show-inheritance:
-```
-
-```{eval-rst}
-.. autoclass:: vllm.multimodal.inputs.MultiModalKwargsItem
-    :members:
-    :show-inheritance:
-```
-
-```{eval-rst}
-.. autoclass:: vllm.multimodal.inputs.MultiModalKwargs
-    :members:
-    :show-inheritance:
-```
-
-```{eval-rst}
-.. autoclass:: vllm.multimodal.inputs.MultiModalInputs
-    :members:
-    :show-inheritance:
-```
diff --git a/docs/source/api/multimodal/parse.md b/docs/source/api/multimodal/parse.md
deleted file mode 100644
index 4676139ef..000000000
--- a/docs/source/api/multimodal/parse.md
+++ /dev/null
@@ -1,9 +0,0 @@
-# Data Parsing
-
-## Module Contents
-
-```{eval-rst}
-.. automodule:: vllm.multimodal.parse
-    :members:
-    :member-order: bysource
-```
diff --git a/docs/source/api/multimodal/processing.md b/docs/source/api/multimodal/processing.md
deleted file mode 100644
index 0d81c8d39..000000000
--- a/docs/source/api/multimodal/processing.md
+++ /dev/null
@@ -1,9 +0,0 @@
-# Data Processing
-
-## Module Contents
-
-```{eval-rst}
-.. automodule:: vllm.multimodal.processing
-    :members:
-    :member-order: bysource
-```
diff --git a/docs/source/api/multimodal/profiling.md b/docs/source/api/multimodal/profiling.md
deleted file mode 100644
index b45514521..000000000
--- a/docs/source/api/multimodal/profiling.md
+++ /dev/null
@@ -1,9 +0,0 @@
-# Memory Profiling
-
-## Module Contents
-
-```{eval-rst}
-.. automodule:: vllm.multimodal.profiling
-    :members:
-    :member-order: bysource
-```
diff --git a/docs/source/api/multimodal/registry.md b/docs/source/api/multimodal/registry.md
deleted file mode 100644
index 0737a4385..000000000
--- a/docs/source/api/multimodal/registry.md
+++ /dev/null
@@ -1,9 +0,0 @@
-# Registry
-
-## Module Contents
-
-```{eval-rst}
-.. automodule:: vllm.multimodal.registry
-    :members:
-    :member-order: bysource
-```
diff --git a/docs/source/api/offline_inference/index.md b/docs/source/api/offline_inference/index.md
deleted file mode 100644
index ec2cc599d..000000000
--- a/docs/source/api/offline_inference/index.md
+++ /dev/null
@@ -1,9 +0,0 @@
-# Offline Inference
-
-:::{toctree}
-:caption: Contents
-:maxdepth: 1
-
-llm
-llm_inputs
-:::
diff --git a/docs/source/api/offline_inference/llm.md b/docs/source/api/offline_inference/llm.md
deleted file mode 100644
index 9f129d5e4..000000000
--- a/docs/source/api/offline_inference/llm.md
+++ /dev/null
@@ -1,7 +0,0 @@
-# LLM Class
-
-```{eval-rst}
-.. autoclass:: vllm.LLM
-    :members:
-    :show-inheritance:
-```
diff --git a/docs/source/api/offline_inference/llm_inputs.md b/docs/source/api/offline_inference/llm_inputs.md
deleted file mode 100644
index 21f688a12..000000000
--- a/docs/source/api/offline_inference/llm_inputs.md
+++ /dev/null
@@ -1,19 +0,0 @@
-# LLM Inputs
-
-```{eval-rst}
-.. autodata:: vllm.inputs.PromptType
-```
-
-```{eval-rst}
-.. autoclass:: vllm.inputs.TextPrompt
-    :show-inheritance:
-    :members:
-    :member-order: bysource
-```
-
-```{eval-rst}
-.. autoclass:: vllm.inputs.TokensPrompt
-    :show-inheritance:
-    :members:
-    :member-order: bysource
-```
diff --git a/docs/source/api/summary.md b/docs/source/api/summary.md
new file mode 100644
index 000000000..46de545f9
--- /dev/null
+++ b/docs/source/api/summary.md
@@ -0,0 +1,133 @@
+# Summary
+
+(configuration)=
+
+## Configuration
+
+API documentation for vLLM's configuration classes.
+
+```{autodoc2-summary}
+    vllm.config.ModelConfig
+    vllm.config.CacheConfig
+    vllm.config.TokenizerPoolConfig
+    vllm.config.LoadConfig
+    vllm.config.ParallelConfig
+    vllm.config.SchedulerConfig
+    vllm.config.DeviceConfig
+    vllm.config.SpeculativeConfig
+    vllm.config.LoRAConfig
+    vllm.config.PromptAdapterConfig
+    vllm.config.MultiModalConfig
+    vllm.config.PoolerConfig
+    vllm.config.DecodingConfig
+    vllm.config.ObservabilityConfig
+    vllm.config.KVTransferConfig
+    vllm.config.CompilationConfig
+    vllm.config.VllmConfig
+```
+
+(offline-inference-api)=
+
+## Offline Inference
+
+LLM Class.
+
+```{autodoc2-summary}
+    vllm.LLM
+```
+
+LLM Inputs.
+
+```{autodoc2-summary}
+    vllm.inputs.PromptType
+    vllm.inputs.TextPrompt
+    vllm.inputs.TokensPrompt
+```
+
+## vLLM Engines
+
+Engine classes for offline and online inference.
+
+```{autodoc2-summary}
+    vllm.LLMEngine
+    vllm.AsyncLLMEngine
+```
+
+## Inference Parameters
+
+Inference parameters for vLLM APIs.
+
+(sampling-params)=
+(pooling-params)=
+
+```{autodoc2-summary}
+    vllm.SamplingParams
+    vllm.PoolingParams
+```
+
+(multi-modality)=
+
+## Multi-Modality
+
+vLLM provides experimental support for multi-modal models through the {mod}`vllm.multimodal` package.
+
+Multi-modal inputs can be passed alongside text and token prompts to [supported models](#supported-mm-models)
+via the `multi_modal_data` field in {class}`vllm.inputs.PromptType`.
+
+Looking to add your own multi-modal model? Please follow the instructions listed [here](#supports-multimodal).
+
+```{autodoc2-summary}
+    vllm.multimodal.MULTIMODAL_REGISTRY
+```
+
+### Inputs
+
+User-facing inputs.
+
+```{autodoc2-summary}
+    vllm.multimodal.inputs.MultiModalDataDict
+```
+
+Internal data structures.
+
+```{autodoc2-summary}
+    vllm.multimodal.inputs.PlaceholderRange
+    vllm.multimodal.inputs.NestedTensors
+    vllm.multimodal.inputs.MultiModalFieldElem
+    vllm.multimodal.inputs.MultiModalFieldConfig
+    vllm.multimodal.inputs.MultiModalKwargsItem
+    vllm.multimodal.inputs.MultiModalKwargs
+    vllm.multimodal.inputs.MultiModalInputs
+```
+
+### Data Parsing
+
+```{autodoc2-summary}
+    vllm.multimodal.parse
+```
+
+### Data Processing
+
+```{autodoc2-summary}
+    vllm.multimodal.processing
+```
+
+### Memory Profiling
+
+```{autodoc2-summary}
+    vllm.multimodal.profiling
+```
+
+### Registry
+
+```{autodoc2-summary}
+    vllm.multimodal.registry
+```
+
+## Model Development
+
+```{autodoc2-summary}
+    vllm.model_executor.models.interfaces_base
+    vllm.model_executor.models.interfaces
+    vllm.model_executor.models.adapters
+```
diff --git a/docs/source/autodoc2_docstring_parser.py b/docs/source/autodoc2_docstring_parser.py
new file mode 100644
index 000000000..41c49ed1c
--- /dev/null
+++ b/docs/source/autodoc2_docstring_parser.py
@@ -0,0 +1,21 @@
+# SPDX-License-Identifier: Apache-2.0
+from docutils import nodes
+from myst_parser.parsers.sphinx_ import MystParser
+from sphinx.ext.napoleon import docstring
+
+
+class NapoleonParser(MystParser):
+
+    def parse(self, input_string: str, document: nodes.document) -> None:
+        # Get the Sphinx configuration
+        config = document.settings.env.config
+
+        parsed_content = str(
+            docstring.GoogleDocstring(
+                str(docstring.NumpyDocstring(input_string, config)),
+                config,
+            ))
+        return super().parse(parsed_content, document)
+
+
+Parser = NapoleonParser
diff --git a/docs/source/conf.py b/docs/source/conf.py
index c2ad6f9fa..060649e43 100644
--- a/docs/source/conf.py
+++ b/docs/source/conf.py
@@ -13,16 +13,17 @@
 # documentation root, use os.path.abspath to make it absolute, like shown here.
 
 import datetime
-import inspect
 import logging
 import os
+import re
 import sys
+from pathlib import Path
 
 import requests
-from sphinx.ext import autodoc
 
 logger = logging.getLogger(__name__)
-sys.path.append(os.path.abspath("../.."))
+REPO_ROOT = Path(__file__).resolve().parent.parent.parent
+sys.path.append(os.path.abspath(REPO_ROOT))
 
 # -- Project information -----------------------------------------------------
 
@@ -40,8 +41,7 @@ extensions = [
     "sphinx.ext.linkcode",
     "sphinx.ext.intersphinx",
     "sphinx_copybutton",
-    "sphinx.ext.autodoc",
-    "sphinx.ext.autosummary",
+    "autodoc2",
     "myst_parser",
     "sphinxarg.ext",
     "sphinx_design",
@@ -49,7 +49,22 @@ extensions = [
 ]
 myst_enable_extensions = [
     "colon_fence",
+    "fieldlist",
 ]
+autodoc2_packages = [
+    {
+        "path": "../../vllm",
+        "exclude_dirs": ["__pycache__", "third_party"],
+    },
+]
+autodoc2_output_dir = "api"
+autodoc2_render_plugin = "myst"
+autodoc2_hidden_objects = ["dunder", "private", "inherited"]
+autodoc2_docstring_parser_regexes = [
+    (".*", "docs.source.autodoc2_docstring_parser"),
+]
+autodoc2_sort_names = True
+autodoc2_index_template = None
 
 # Add any paths that contain templates here, relative to this directory.
 templates_path = ['_templates']
@@ -77,6 +92,11 @@ html_theme_options = {
     'repository_url': 'https://github.com/vllm-project/vllm',
     'use_repository_button': True,
     'use_edit_page_button': True,
+    # Prevents the full API being added to the left sidebar of every page.
+    # Reduces build time by 2.5x and reduces build size from ~225MB to ~95MB.
+    'collapse_navbar': True,
+    # Makes API visible in the right sidebar on API reference pages.
+    'show_toc_level': 3,
 }
 # Add any paths that contain custom static files (such as style sheets) here,
 # relative to this directory. They are copied after the builtin static files,
@@ -164,73 +184,64 @@ def linkcode_resolve(domain, info):
         return None
     if not info['module']:
         return None
-    filename = info['module'].replace('.', '/')
-    module = info['module']
-
-    # try to determine the correct file and line number to link to
-    obj = sys.modules[module]
-
-    # get as specific as we can
-    lineno: int = 0
-    filename: str = ""
-    try:
-        for part in info['fullname'].split('.'):
-            obj = getattr(obj, part)
-
-            # Skip decorator wrappers by checking if the object is a function
-            # and has a __wrapped__ attribute (which decorators typically set)
-            while hasattr(obj, '__wrapped__'):
-                obj = obj.__wrapped__
-
-            if not (inspect.isclass(obj) or inspect.isfunction(obj)
-                    or inspect.ismethod(obj)):
-                obj = obj.__class__  # Get the class of the instance
-
-            lineno = inspect.getsourcelines(obj)[1]
-            filename = (inspect.getsourcefile(obj)
-                        or f"{filename}.py").split("vllm/", 1)[1]
-    except Exception:
-        # For some things, like a class member, won't work, so
-        # we'll use the line number of the parent (the class)
-        pass
-
-    if filename.startswith("checkouts/"):
+
+    # Get path from module name
+    file = Path(f"{info['module'].replace('.', '/')}.py")
+    path = REPO_ROOT / file
+    if not path.exists():
+        path = REPO_ROOT / file.with_suffix("") / "__init__.py"
+    if not path.exists():
+        return None
+
+    # Get the line number of the object
+    with open(path) as f:
+        lines = f.readlines()
+    name = info['fullname'].split(".")[-1]
+    pattern = fr"^( {{4}})*((def|class) )?{name}\b.*"
+    for lineno, line in enumerate(lines, 1):
+        if not line or line.startswith("#"):
+            continue
+        if re.match(pattern, line):
+            break
+
+    # If the line number is not found, return None
+    if lineno == len(lines):
+        return None
+
+    # If the line number is found, create the URL
+    filename = path.relative_to(REPO_ROOT)
+    if "checkouts" in path.parts:
         # a PR build on readthedocs
-        pr_number = filename.split("/")[1]
-        filename = filename.split("/", 2)[2]
+        pr_number = REPO_ROOT.name
         base, branch = get_repo_base_and_branch(pr_number)
         if base and branch:
             return f"https://github.com/{base}/blob/{branch}/{filename}#L{lineno}"
-
     # Otherwise, link to the source file on the main branch
     return f"https://github.com/vllm-project/vllm/blob/main/{filename}#L{lineno}"
 
 
-# Mock out external dependencies here, otherwise the autodoc pages may be blank.
+# Mock out external dependencies here, otherwise sphinx-argparse won't work.
 autodoc_mock_imports = [
+    "huggingface_hub",
+    "pydantic",
+    "zmq",
+    "cloudpickle",
+    "aiohttp",
+    "starlette",
     "blake3",
-    "compressed_tensors",
     "cpuinfo",
-    "cv2",
-    "torch",
     "transformers",
     "psutil",
-    "prometheus_client",
-    "sentencepiece",
     "vllm._C",
     "PIL",
     "numpy",
-    'triton',
     "tqdm",
-    "tensorizer",
-    "pynvml",
-    "outlines",
-    "xgrammar",
-    "librosa",
-    "soundfile",
-    "gguf",
-    "lark",
-    "decord",
+    # The mocks below are required by
+    # docs/source/serving/openai_compatible_server.md's
+    # vllm.entrypoints.openai.cli_args
+    "openai",
+    "fastapi",
+    "partial_json_parser",
 ]
 
 for mock_target in autodoc_mock_imports:
@@ -241,18 +252,6 @@ for mock_target in autodoc_mock_imports:
             "been loaded into sys.modules when the sphinx build starts.",
             mock_target)
 
-
-class MockedClassDocumenter(autodoc.ClassDocumenter):
-    """Remove note about base class when a class is derived from object."""
-
-    def add_line(self, line: str, source: str, *lineno: int) -> None:
-        if line == "   Bases: :py:class:`object`":
-            return
-        super().add_line(line, source, *lineno)
-
-
-autodoc.ClassDocumenter = MockedClassDocumenter
-
 intersphinx_mapping = {
     "python": ("https://docs.python.org/3", None),
     "typing_extensions":
@@ -264,7 +263,4 @@ intersphinx_mapping = {
     "psutil": ("https://psutil.readthedocs.io/en/stable", None),
 }
 
-autodoc_preserve_defaults = True
-autodoc_warningiserror = True
-
 navigation_with_keys = False
diff --git a/docs/source/design/arch_overview.md b/docs/source/design/arch_overview.md
index 7bed0a001..94bda8b5c 100644
--- a/docs/source/design/arch_overview.md
+++ b/docs/source/design/arch_overview.md
@@ -52,8 +52,8 @@ for output in outputs:
     print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
 ```
 
-More API details can be found in the {doc}`Offline Inference
-</api/offline_inference/index>` section of the API docs.
+More API details can be found in the [Offline Inference]
+(#offline-inference-api) section of the API docs.
 
 The code for the `LLM` class can be found in <gh-file:vllm/entrypoints/llm.py>.
 
diff --git a/docs/source/features/compatibility_matrix.md b/docs/source/features/compatibility_matrix.md
index 6056ca0d3..8865d26de 100644
--- a/docs/source/features/compatibility_matrix.md
+++ b/docs/source/features/compatibility_matrix.md
@@ -42,7 +42,7 @@ Check the ❌ or 🟠 with links to see tracking issue for unsupported feature/h
   * [APC](#automatic-prefix-caching)
   * [LoRA](#lora-adapter)
   * <abbr title="Prompt Adapter">prmpt adptr</abbr>
-  * [SD](#spec_decode)
+  * [SD](#spec-decode)
   * CUDA graph
   * <abbr title="Pooling Models">pooling</abbr>
   * <abbr title="Encoder-Decoder Models">enc-dec</abbr>
@@ -122,7 +122,7 @@ Check the ❌ or 🟠 with links to see tracking issue for unsupported feature/h
   *
   *
   *
-- * [SD](#spec_decode)
+- * [SD](#spec-decode)
   * ✅
   * ✅
   * ❌
@@ -377,7 +377,7 @@ Check the ❌ or 🟠 with links to see tracking issue for unsupported feature/h
   * ✅
   * [❌](gh-issue:8475)
   * ✅
-- * [SD](#spec_decode)
+- * [SD](#spec-decode)
   * ✅
   * ✅
   * ✅
diff --git a/docs/source/index.md b/docs/source/index.md
index 56ff7a485..bbff7361f 100644
--- a/docs/source/index.md
+++ b/docs/source/index.md
@@ -194,11 +194,8 @@ contributing/vulnerability_management
 :caption: API Reference
 :maxdepth: 2
 
-api/offline_inference/index
-api/engine/index
-api/inference_params
-api/multimodal/index
-api/model/index
+api/summary
+api/vllm/vllm
 :::
 
 % Latest news and acknowledgements
diff --git a/docs/source/models/generative_models.md b/docs/source/models/generative_models.md
index 3291006ed..dd765e4a9 100644
--- a/docs/source/models/generative_models.md
+++ b/docs/source/models/generative_models.md
@@ -14,7 +14,7 @@ Usually, this is automatically inferred so you don't have to specify it.
 ## Offline Inference
 
 The {class}`~vllm.LLM` class provides various methods for offline inference.
-See [Engine Arguments](#engine-args) for a list of options when initializing the model.
+See <project:#configuration> for a list of options when initializing the model.
 
 ### `LLM.generate`
 
diff --git a/docs/source/models/pooling_models.md b/docs/source/models/pooling_models.md
index 7daa0ec1d..8c8d1832d 100644
--- a/docs/source/models/pooling_models.md
+++ b/docs/source/models/pooling_models.md
@@ -60,7 +60,7 @@ which takes priority over both the model's and Sentence Transformers's defaults.
 ## Offline Inference
 
 The {class}`~vllm.LLM` class provides various methods for offline inference.
-See [Engine Arguments](#engine-args) for a list of options when initializing the model.
+See <project:#configuration> for a list of options when initializing the model.
 
 ### `LLM.encode`
 
diff --git a/docs/source/serving/offline_inference.md b/docs/source/serving/offline_inference.md
index 894878ed1..2621eda32 100644
--- a/docs/source/serving/offline_inference.md
+++ b/docs/source/serving/offline_inference.md
@@ -25,7 +25,7 @@ The available APIs depend on the type of model that is being run:
 Please refer to the above pages for more details about each API.
 
 :::{seealso}
-[API Reference](/api/offline_inference/index)
+[API Reference](#offline-inference-api)
 :::
 
 (configuration-options)=
@@ -33,7 +33,7 @@ Please refer to the above pages for more details about each API.
 ## Configuration Options
 
 This section lists the most common options for running the vLLM engine.
-For a full list, refer to the [Engine Arguments](#engine-args) page.
+For a full list, refer to the <project:#configuration> page.
 
 (model-resolution)=
 
diff --git a/examples/offline_inference/profiling.py b/examples/offline_inference/profiling.py
index 9c818d075..99303950d 100644
--- a/examples/offline_inference/profiling.py
+++ b/examples/offline_inference/profiling.py
@@ -14,7 +14,7 @@ import tqdm
 
 from vllm import LLM, SamplingParams
 from vllm.engine.arg_utils import EngineArgs
-from vllm.profiler import layerwise_profile
+from vllm.profiler.layerwise_profile import layerwise_profile
 from vllm.utils import FlexibleArgumentParser
 
 BATCH_SIZE_DEFAULT = 1
diff --git a/requirements/docs.txt b/requirements/docs.txt
index cba86b52a..401f714ae 100644
--- a/requirements/docs.txt
+++ b/requirements/docs.txt
@@ -1,27 +1,15 @@
 sphinx==8.2.3
 sphinx-argparse==0.5.2
+sphinx-autodoc2==0.5.0
 sphinx-book-theme==1.1.4
 sphinx-copybutton==0.5.2
 sphinx-design==0.6.1
 sphinx-togglebutton==0.3.2
 myst-parser==4.0.1
 msgspec
-cloudpickle
 commonmark # Required by sphinx-argparse when using :markdownhelp:
 
 # packages to install to build the documentation
 cachetools
-pydantic >= 2.8
 -f https://download.pytorch.org/whl/cpu
-torch
-py-cpuinfo
-transformers
-mistral_common >= 1.5.4
-aiohttp
-starlette
-scipy
-openai # Required by docs/source/serving/openai_compatible_server.md's vllm.entrypoints.openai.cli_args
-fastapi # Required by docs/source/serving/openai_compatible_server.md's vllm.entrypoints.openai.cli_args
-partial-json-parser # Required by docs/source/serving/openai_compatible_server.md's vllm.entrypoints.openai.cli_args
-requests
-zmq
+torch
\ No newline at end of file
diff --git a/tests/conftest.py b/tests/conftest.py
index b1b4af86f..fa979f109 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -112,11 +112,11 @@ class AudioTestAssets(list[AudioAsset]):
 
 
 IMAGE_ASSETS = ImageTestAssets()
-"""Singleton instance of :class:`ImageTestAssets`."""
+"""Singleton instance of {class}`ImageTestAssets`."""
 VIDEO_ASSETS = VideoTestAssets()
-"""Singleton instance of :class:`VideoTestAssets`."""
+"""Singleton instance of {class}`VideoTestAssets`."""
 AUDIO_ASSETS = AudioTestAssets()
-"""Singleton instance of :class:`AudioTestAssets`."""
+"""Singleton instance of {class}`AudioTestAssets`."""
 
 
 @pytest.fixture(scope="function", autouse=True)
@@ -724,7 +724,7 @@ def hf_runner():
 class VllmRunner:
     """
     The default value of some arguments have been modified from
-    :class:`~vllm.LLM` as follows:
+    {class}`~vllm.LLM` as follows:
 
     - `trust_remote_code`: Set to `True` instead of `False` for convenience.
     - `seed`: Set to `0` instead of `None` for test reproducibility.
diff --git a/tests/tokenization/test_get_eos.py b/tests/tokenization/test_get_eos.py
index fc47bcb9d..8942f8891 100644
--- a/tests/tokenization/test_get_eos.py
+++ b/tests/tokenization/test_get_eos.py
@@ -2,7 +2,7 @@
 """
 This test file includes some cases where it is inappropriate to
 only get the `eos_token_id` from the tokenizer as defined by
-:meth:`vllm.LLMEngine._get_eos_token_id`.
+{meth}`vllm.LLMEngine._get_eos_token_id`.
 """
 from vllm.transformers_utils.config import try_get_generation_config
 from vllm.transformers_utils.tokenizer import get_tokenizer
diff --git a/tests/utils.py b/tests/utils.py
index 8f8c102b7..0983687e2 100644
--- a/tests/utils.py
+++ b/tests/utils.py
@@ -952,7 +952,7 @@ def get_client_text_logprob_generations(
         completions: list[Completion]) -> list[TextTextLogprobs]:
     '''Operates on the output of a request made to an Open-AI-protocol
     completions endpoint; obtains top-rank logprobs for each token in
-    each :class:`SequenceGroup`
+    each {class}`SequenceGroup`
     '''
     text_generations = get_client_text_generations(completions)
     text = ''.join(text_generations)
diff --git a/tests/v1/core/test_scheduler.py b/tests/v1/core/test_scheduler.py
index 9987688b0..bfe9df10d 100644
--- a/tests/v1/core/test_scheduler.py
+++ b/tests/v1/core/test_scheduler.py
@@ -44,7 +44,7 @@ def create_scheduler(
                              (None)
 
     Returns:
-      :class:`Scheduler` instance
+      {class}`Scheduler` instance
     '''
     if max_model_len is None:
         max_model_len = max_num_batched_tokens
diff --git a/vllm/attention/backends/mla/common.py b/vllm/attention/backends/mla/common.py
index 12d85b742..0100c082a 100644
--- a/vllm/attention/backends/mla/common.py
+++ b/vllm/attention/backends/mla/common.py
@@ -1,5 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 """
+# MLA Common Components
+
 This file implements common components for MLA implementations.
 
 First we define:
diff --git a/vllm/attention/backends/utils.py b/vllm/attention/backends/utils.py
index 89f1ea9b8..54ffd5c45 100644
--- a/vllm/attention/backends/utils.py
+++ b/vllm/attention/backends/utils.py
@@ -550,7 +550,7 @@ def get_num_prefill_decode_query_kv_tokens(
     based on the attention metadata and the specified attention type.
 
     Args:
-        attn_metadata (FlashAttentionMetadata): Attention Metadata object.
+        attn_metadata (AttentionMetadata): Attention Metadata object.
         attn_type (AttentionType): The type of attention being used.
     Returns:
         Tuple[int, int, int]: A tuple containing three integers:
diff --git a/vllm/compilation/compiler_interface.py b/vllm/compilation/compiler_interface.py
index c5454ccdc..b7e7a79be 100644
--- a/vllm/compilation/compiler_interface.py
+++ b/vllm/compilation/compiler_interface.py
@@ -39,7 +39,7 @@ class CompilerInterface:
         Gather all the relevant information from the vLLM config,
         to compute a hash so that we can cache the compiled model.
 
-        See :meth:`VllmConfig.compute_hash` to check what information
+        See {meth}`VllmConfig.compute_hash` to check what information
         is already considered by default. This function should only
         consider the information that is specific to the compiler.
         """
diff --git a/vllm/config.py b/vllm/config.py
index 91ef9dcdb..3bac36fcb 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -1911,10 +1911,10 @@ class SchedulerConfig:
 
     cuda_graph_sizes: list[int] = field(default_factory=lambda: [512])
     """Cuda graph capture sizes, default is 512.
-    1. if one value is provided, then the capture list would follow the pattern:
-        [1, 2, 4] + [i for i in range(8, cuda_graph_sizes + 1, 8)]
-    2. more than one value (e.g. 1 2 128) is provided,
-        then the capture list will follow the provided list."""
+    1. if one value is provided, then the capture list would follow the
+    pattern: [1, 2, 4] + [i for i in range(8, cuda_graph_sizes + 1, 8)]
+    2. more than one value (e.g. 1 2 128) is provided, then the capture list
+    will follow the provided list."""
 
     delay_factor: float = 0.0
     """Apply a delay (of delay factor multiplied by previous
@@ -2888,7 +2888,7 @@ class PoolerConfig:
     pooling_type: Optional[str] = None
     """
     The pooling method of the pooling model. This should be a key in
-    :class:`vllm.model_executor.layers.pooler.PoolingType`.
+    {class}`vllm.model_executor.layers.pooler.PoolingType`.
     """
 
     normalize: Optional[bool] = None
diff --git a/vllm/connections.py b/vllm/connections.py
index 2c259bb7c..9abc66050 100644
--- a/vllm/connections.py
+++ b/vllm/connections.py
@@ -167,4 +167,4 @@ class HTTPConnection:
 
 
 global_http_connection = HTTPConnection()
-"""The global :class:`HTTPConnection` instance used by vLLM."""
+"""The global {class}`HTTPConnection` instance used by vLLM."""
diff --git a/vllm/distributed/kv_transfer/__init__.py b/vllm/distributed/kv_transfer/__init__.py
index ec07c6fe0..a9f26607d 100644
--- a/vllm/distributed/kv_transfer/__init__.py
+++ b/vllm/distributed/kv_transfer/__init__.py
@@ -1,5 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
+from vllm.distributed.kv_transfer.kv_connector.base import KVConnectorBaseType
 from vllm.distributed.kv_transfer.kv_transfer_state import (
     ensure_kv_transfer_initialized, get_kv_transfer_group,
     has_kv_transfer_group, is_v1_kv_transfer_group)
diff --git a/vllm/engine/async_llm_engine.py b/vllm/engine/async_llm_engine.py
index 50da9679d..37bb12d44 100644
--- a/vllm/engine/async_llm_engine.py
+++ b/vllm/engine/async_llm_engine.py
@@ -475,7 +475,7 @@ class _AsyncLLMEngine(LLMEngine):
             *,
             inputs: Optional[PromptType] = None,  # DEPRECATED
     ) -> None:
-        """Async version of :meth:`add_request`."""
+        """Async version of {meth}`add_request`."""
         if inputs is not None:
             prompt = inputs
         assert prompt is not None and params is not None
@@ -582,20 +582,20 @@ async def build_guided_decoding_logits_processor_async(
 
 
 class AsyncLLMEngine(EngineClient):
-    """An asynchronous wrapper for :class:`LLMEngine`.
+    """An asynchronous wrapper for {class}`LLMEngine`.
 
-    This class is used to wrap the :class:`LLMEngine` class to make it
+    This class is used to wrap the {class}`LLMEngine` class to make it
     asynchronous. It uses asyncio to create a background loop that keeps
-    processing incoming requests. The :class:`LLMEngine` is kicked by the
+    processing incoming requests. The {class}`LLMEngine` is kicked by the
     generate method when there are requests in the waiting queue. The generate
-    method yields the outputs from the :class:`LLMEngine` to the caller.
+    method yields the outputs from the {class}`LLMEngine` to the caller.
 
     Args:
         log_requests: Whether to log the requests.
         start_engine_loop: If True, the background task to run the engine
             will be automatically started in the generate call.
-        *args: Arguments for :class:`LLMEngine`.
-        **kwargs: Arguments for :class:`LLMEngine`.
+        *args: Arguments for {class}`LLMEngine`.
+        **kwargs: Arguments for {class}`LLMEngine`.
     """
 
     _engine_class: Type[_AsyncLLMEngine] = _AsyncLLMEngine
@@ -985,7 +985,7 @@ class AsyncLLMEngine(EngineClient):
         from the LLMEngine to the caller.
 
         Args:
-            prompt: The prompt to the LLM. See :class:`~vllm.inputs.PromptType`
+            prompt: The prompt to the LLM. See {class}`~vllm.inputs.PromptType`
                 for more details about the format of each input.
             sampling_params: The sampling parameters of the request.
             request_id: The unique id of the request.
@@ -1003,7 +1003,7 @@ class AsyncLLMEngine(EngineClient):
         Details:
             - If the engine is not running, start the background loop,
               which iteratively invokes
-              :meth:`~vllm.engine.async_llm_engine.AsyncLLMEngine.engine_step`
+              {meth}`~vllm.engine.async_llm_engine.AsyncLLMEngine.engine_step`
               to process the waiting requests.
             - Add the request to the engine's `RequestTracker`.
               On the next background loop, this request will be sent to
@@ -1075,7 +1075,7 @@ class AsyncLLMEngine(EngineClient):
         from the LLMEngine to the caller.
 
         Args:
-            prompt: The prompt to the LLM. See :class:`~vllm.inputs.PromptType`
+            prompt: The prompt to the LLM. See {class}`~vllm.inputs.PromptType`
                 for more details about the format of each input.
             pooling_params: The pooling parameters of the request.
             request_id: The unique id of the request.
@@ -1089,46 +1089,48 @@ class AsyncLLMEngine(EngineClient):
             for the request.
 
         Details:
-            - If the engine is not running, start the background loop,
-              which iteratively invokes
-              :meth:`~vllm.engine.async_llm_engine.AsyncLLMEngine.engine_step`
-              to process the waiting requests.
-            - Add the request to the engine's `RequestTracker`.
-              On the next background loop, this request will be sent to
-              the underlying engine.
-              Also, a corresponding `AsyncStream` will be created.
-            - Wait for the request outputs from `AsyncStream` and yield them.
+        - If the engine is not running, start the background loop,
+            which iteratively invokes
+            {meth}`~vllm.engine.async_llm_engine.AsyncLLMEngine.engine_step`
+            to process the waiting requests.
+        - Add the request to the engine's `RequestTracker`.
+            On the next background loop, this request will be sent to
+            the underlying engine.
+            Also, a corresponding `AsyncStream` will be created.
+        - Wait for the request outputs from `AsyncStream` and yield them.
 
         Example:
-            >>> # Please refer to entrypoints/api_server.py for
-            >>> # the complete example.
-            >>>
-            >>> # initialize the engine and the example input
-            >>> # note that engine_args here is AsyncEngineArgs instance
-            >>> engine = AsyncLLMEngine.from_engine_args(engine_args)
-            >>> example_input = {
-            >>>     "input": "What is LLM?",
-            >>>     "request_id": 0,
-            >>> }
-            >>>
-            >>> # start the generation
-            >>> results_generator = engine.encode(
-            >>>    example_input["input"],
-            >>>    PoolingParams(),
-            >>>    example_input["request_id"])
-            >>>
-            >>> # get the results
-            >>> final_output = None
-            >>> async for request_output in results_generator:
-            >>>     if await request.is_disconnected():
-            >>>         # Abort the request if the client disconnects.
-            >>>         await engine.abort(request_id)
-            >>>         # Return or raise an error
-            >>>         ...
-            >>>     final_output = request_output
-            >>>
-            >>> # Process and return the final output
-            >>> ...
+        ```
+        # Please refer to entrypoints/api_server.py for
+        # the complete example.
+    
+        # initialize the engine and the example input
+        # note that engine_args here is AsyncEngineArgs instance
+        engine = AsyncLLMEngine.from_engine_args(engine_args)
+        example_input = {
+            "input": "What is LLM?",
+            "request_id": 0,
+        }
+    
+        # start the generation
+        results_generator = engine.encode(
+        example_input["input"],
+        PoolingParams(),
+        example_input["request_id"])
+    
+        # get the results
+        final_output = None
+        async for request_output in results_generator:
+            if await request.is_disconnected():
+                # Abort the request if the client disconnects.
+                await engine.abort(request_id)
+                # Return or raise an error
+                ...
+            final_output = request_output
+    
+        # Process and return the final output
+        ...
+        ```
         """
         try:
             async for output in await self.add_request(
diff --git a/vllm/engine/llm_engine.py b/vllm/engine/llm_engine.py
index 4398852da..38a20a418 100644
--- a/vllm/engine/llm_engine.py
+++ b/vllm/engine/llm_engine.py
@@ -130,11 +130,11 @@ class LLMEngine:
     iteration-level scheduling and efficient memory management to maximize the
     serving throughput.
 
-    The :class:`~vllm.LLM` class wraps this class for offline batched inference
-    and the :class:`AsyncLLMEngine` class wraps this class for online serving.
+    The {class}`~vllm.LLM` class wraps this class for offline batched inference
+    and the {class}`AsyncLLMEngine` class wraps this class for online serving.
 
-    The config arguments are derived from :class:`~vllm.EngineArgs`. (See
-    :ref:`engine-args`)
+    The config arguments are derived from {class}`~vllm.EngineArgs`. (See
+    {ref}`engine-args`)
 
     Args:
         model_config: The configuration related to the LLM model.
@@ -694,11 +694,11 @@ class LLMEngine:
 
         Args:
             request_id: The unique ID of the request.
-            prompt: The prompt to the LLM. See :class:`~vllm.inputs.PromptType`
+            prompt: The prompt to the LLM. See {class}`~vllm.inputs.PromptType`
                 for more details about the format of each input.
             params: Parameters for sampling or pooling.
-                :class:`~vllm.SamplingParams` for text generation.
-                :class:`~vllm.PoolingParams` for pooling.
+                {class}`~vllm.SamplingParams` for text generation.
+                {class}`~vllm.PoolingParams` for pooling.
             arrival_time: The arrival time of the request. If None, we use
                 the current monotonic time.
             lora_request: The LoRA request to add.
@@ -710,10 +710,10 @@ class LLMEngine:
         Details:
             - Set arrival_time to the current time if it is None.
             - Set prompt_token_ids to the encoded prompt if it is None.
-            - Create `n` number of :class:`~vllm.Sequence` objects.
-            - Create a :class:`~vllm.SequenceGroup` object
-              from the list of :class:`~vllm.Sequence`.
-            - Add the :class:`~vllm.SequenceGroup` object to the scheduler.
+            - Create `n` number of {class}`~vllm.Sequence` objects.
+            - Create a {class}`~vllm.SequenceGroup` object
+              from the list of {class}`~vllm.Sequence`.
+            - Add the {class}`~vllm.SequenceGroup` object to the scheduler.
 
         Example:
             >>> # initialize engine
@@ -861,8 +861,8 @@ class LLMEngine:
 
         Details:
             - Refer to the
-              :meth:`~vllm.core.scheduler.Scheduler.abort_seq_group`
-              from class :class:`~vllm.core.scheduler.Scheduler`.
+              {meth}`~vllm.core.scheduler.Scheduler.abort_seq_group`
+              from class {class}`~vllm.core.scheduler.Scheduler`.
 
         Example:
             >>> # initialize engine and add a request with request_id
@@ -1258,53 +1258,56 @@ class LLMEngine:
     def step(self) -> List[Union[RequestOutput, PoolingRequestOutput]]:
         """Performs one decoding iteration and returns newly generated results.
 
-        .. figure:: https://i.imgur.com/sv2HssD.png
-            :alt: Overview of the step function
-            :align: center
+        :::{figure} https://i.imgur.com/sv2HssD.png
+        :alt: Overview of the step function
+        :align: center
 
-            Overview of the step function.
+        Overview of the step function.
+        :::
 
         Details:
-            - Step 1: Schedules the sequences to be executed in the next
-              iteration and the token blocks to be swapped in/out/copy.
+        - Step 1: Schedules the sequences to be executed in the next
+            iteration and the token blocks to be swapped in/out/copy.
 
-                - Depending on the scheduling policy,
-                  sequences may be `preempted/reordered`.
-                - A Sequence Group (SG) refer to a group of sequences
-                  that are generated from the same prompt.
+            - Depending on the scheduling policy,
+                sequences may be `preempted/reordered`.
+            - A Sequence Group (SG) refer to a group of sequences
+                that are generated from the same prompt.
 
-            - Step 2: Calls the distributed executor to execute the model.
-            - Step 3: Processes the model output. This mainly includes:
+        - Step 2: Calls the distributed executor to execute the model.
+        - Step 3: Processes the model output. This mainly includes:
 
-                - Decodes the relevant outputs.
-                - Updates the scheduled sequence groups with model outputs
-                  based on its `sampling parameters` (`use_beam_search` or not).
-                - Frees the finished sequence groups.
+            - Decodes the relevant outputs.
+            - Updates the scheduled sequence groups with model outputs
+                based on its `sampling parameters` (`use_beam_search` or not).
+            - Frees the finished sequence groups.
 
-            - Finally, it creates and returns the newly generated results.
+        - Finally, it creates and returns the newly generated results.
 
         Example:
-            >>> # Please see the example/ folder for more detailed examples.
-            >>>
-            >>> # initialize engine and request arguments
-            >>> engine = LLMEngine.from_engine_args(engine_args)
-            >>> example_inputs = [(0, "What is LLM?",
-            >>>    SamplingParams(temperature=0.0))]
-            >>>
-            >>> # Start the engine with an event loop
-            >>> while True:
-            >>>     if example_inputs:
-            >>>         req_id, prompt, sampling_params = example_inputs.pop(0)
-            >>>         engine.add_request(str(req_id),prompt,sampling_params)
-            >>>
-            >>>     # continue the request processing
-            >>>     request_outputs = engine.step()
-            >>>     for request_output in request_outputs:
-            >>>         if request_output.finished:
-            >>>             # return or show the request output
-            >>>
-            >>>     if not (engine.has_unfinished_requests() or example_inputs):
-            >>>         break
+        ```
+        # Please see the example/ folder for more detailed examples.
+
+        # initialize engine and request arguments
+        engine = LLMEngine.from_engine_args(engine_args)
+        example_inputs = [(0, "What is LLM?",
+        SamplingParams(temperature=0.0))]
+    
+        # Start the engine with an event loop
+        while True:
+            if example_inputs:
+                req_id, prompt, sampling_params = example_inputs.pop(0)
+                engine.add_request(str(req_id),prompt,sampling_params)
+
+            # continue the request processing
+            request_outputs = engine.step()
+            for request_output in request_outputs:
+                if request_output.finished:
+                    # return or show the request output
+
+            if not (engine.has_unfinished_requests() or example_inputs):
+                break
+        ```
         """
         if self.parallel_config.pipeline_parallel_size > 1:
             raise NotImplementedError(
diff --git a/vllm/engine/multiprocessing/client.py b/vllm/engine/multiprocessing/client.py
index d23a4c6ed..505d3d06b 100644
--- a/vllm/engine/multiprocessing/client.py
+++ b/vllm/engine/multiprocessing/client.py
@@ -491,7 +491,7 @@ class MQLLMEngineClient(EngineClient):
         from the LLMEngine to the caller.
 
         Args:
-            prompt: The prompt to the LLM. See :class:`~vllm.inputs.PromptType`
+            prompt: The prompt to the LLM. See {class}`~vllm.inputs.PromptType`
                 for more details about the format of each input.
             sampling_params: The sampling parameters of the request.
             request_id: The unique id of the request.
@@ -560,7 +560,7 @@ class MQLLMEngineClient(EngineClient):
         from the LLMEngine to the caller.
 
         Args:
-            prompt: The prompt to the LLM. See :class:`~vllm.inputs.PromptType`
+            prompt: The prompt to the LLM. See {class}`~vllm.inputs.PromptType`
                 for more details about the format of each input.
             pooling_params: The pooling parameters of the request.
             request_id: The unique id of the request.
diff --git a/vllm/engine/multiprocessing/engine.py b/vllm/engine/multiprocessing/engine.py
index 6ed5ae0a9..3d7b73f97 100644
--- a/vllm/engine/multiprocessing/engine.py
+++ b/vllm/engine/multiprocessing/engine.py
@@ -41,18 +41,18 @@ HEALTHY_RESPONSE = (pickle.dumps(VLLM_RPC_SUCCESS_STR), )
 
 
 class MQLLMEngine:
-    """A multiprocessing wrapper for :class:`LLMEngine`.
+    """A multiprocessing wrapper for {class}`LLMEngine`.
 
-    This class is used to wrap the :class:`LLMEngine` class to enable use
+    This class is used to wrap the {class}`LLMEngine` class to enable use
     in concurrnet manner. It runs a background loop and uses zeromq to
     receive new requests and stream outputs incrementally via ipc.
 
-    The :class:`LLMEngine` generate or encode process is kicked off when a new
+    The {class}`LLMEngine` generate or encode process is kicked off when a new
     RPCProcessRequest is received by the input_socket.
 
     The self.engine_loop checks the input_socket for new requests,
     adds them to the LLMEngine if there are any, calls the internal
-    :class:`LLMEngine.step()`, and sends the RequestOutputs back over
+    {class}`LLMEngine.step()`, and sends the RequestOutputs back over
     the output_socket.
 
     If use_async_sockets is set, the logic associated with reading new
@@ -64,8 +64,8 @@ class MQLLMEngine:
         ipc_path: Base path for zeromq interprocess messaging
         use_async_sockets: Whether to make send/recv async with GPU
         log_requests: Whether to log the requests.
-        *args: Arguments for :class:`LLMEngine`.
-        **kwargs: Arguments for :class:`LLMEngine`.
+        *args: Arguments for {class}`LLMEngine`.
+        **kwargs: Arguments for {class}`LLMEngine`.
     """
 
     def __init__(self,
diff --git a/vllm/engine/output_processor/multi_step.py b/vllm/engine/output_processor/multi_step.py
index 0f4c7517e..4cfb22c5a 100644
--- a/vllm/engine/output_processor/multi_step.py
+++ b/vllm/engine/output_processor/multi_step.py
@@ -56,8 +56,8 @@ class MultiStepOutputProcessor(SequenceGroupOutputProcessor):
         scheduled computation.
 
         Args:
-          seq_group: the outputs are associated with this :class:`SequenceGroup`
-          outputs: the :class:`SequenceGroupOutput`s for all scheduler steps
+          seq_group: the outputs are associated with this {class}`SequenceGroup`
+          outputs: the {class}`SequenceGroupOutput`s for all scheduler steps
         """
         for output in outputs:
             # Concatenate single-step prompt logprob processing results.
diff --git a/vllm/engine/output_processor/single_step.py b/vllm/engine/output_processor/single_step.py
index b5b51bb25..ea4b71a5b 100644
--- a/vllm/engine/output_processor/single_step.py
+++ b/vllm/engine/output_processor/single_step.py
@@ -19,7 +19,7 @@ logger = init_logger(__name__)
 def single_step_process_prompt_logprob(
         sg_output_proc: SequenceGroupOutputProcessor, seq_group: SequenceGroup,
         output: CompletionSequenceGroupOutput) -> None:
-    """Process prompt logprobs associated with the :class:`SequenceGroupOutput`
+    """Process prompt logprobs associated with the {class}`SequenceGroupOutput`
     for a given step.
 
     Do nothing if the output has no prompt logprobs.
@@ -27,9 +27,9 @@ def single_step_process_prompt_logprob(
     Account for the fact that transformers do not compute first-token logprobs.
     
     Args:
-      sg_output_proc: :class:`SequenceGroupOutputProcessor` instance
-      seq_group: the output is associated with this :class:`SequenceGroup`
-      output: the :class:`SequenceGroupOutput` for a single scheduler step
+      sg_output_proc: {class}`SequenceGroupOutputProcessor` instance
+      seq_group: the output is associated with this {class}`SequenceGroup`
+      output: the {class}`SequenceGroupOutput` for a single scheduler step
     """
     prompt_logprobs = output.prompt_logprobs
 
@@ -103,8 +103,8 @@ class SingleStepOutputProcessor(SequenceGroupOutputProcessor):
         scheduled computation.
         
         Args:
-          seq_group: the output is associated with this :class:`SequenceGroup`
-          outputs: the :class:`SequenceGroupOutput` for a single scheduler step
+          seq_group: the output is associated with this {class}`SequenceGroup`
+          outputs: the {class}`SequenceGroupOutput` for a single scheduler step
         """
         assert len(outputs) == 1, "Single step should only have 1 output."
         output = outputs[0]
diff --git a/vllm/entrypoints/llm.py b/vllm/entrypoints/llm.py
index 69523f36f..a04ab885a 100644
--- a/vllm/entrypoints/llm.py
+++ b/vllm/entrypoints/llm.py
@@ -115,7 +115,7 @@ class LLM:
             to eager mode. Additionally for encoder-decoder models, if the
             sequence length of the encoder input is larger than this, we fall
             back to the eager mode.
-        disable_custom_all_reduce: See :class:`~vllm.config.ParallelConfig`
+        disable_custom_all_reduce: See {class}`~vllm.config.ParallelConfig`
         disable_async_output_proc: Disable async output processing.
             This may result in lower performance.
         hf_token: The token to use as HTTP bearer authorization for remote files
@@ -127,12 +127,13 @@ class LLM:
         compilation_config: Either an integer or a dictionary. If it is an
             integer, it is used as the level of compilation optimization. If it
             is a dictionary, it can specify the full compilation configuration.
-        **kwargs: Arguments for :class:`~vllm.EngineArgs`. (See
-            :ref:`engine-args`)
+        **kwargs: Arguments for {class}`~vllm.EngineArgs`. (See
+            {ref}`engine-args`)
 
-    Note:
-        This class is intended to be used for offline inference. For online
-        serving, use the :class:`~vllm.AsyncLLMEngine` class instead.
+    :::{note}
+    This class is intended to be used for offline inference. For online
+    serving, use the {class}`~vllm.AsyncLLMEngine` class instead.
+    :::
     """
 
     DEPRECATE_LEGACY: ClassVar[bool] = True
@@ -141,7 +142,7 @@ class LLM:
     DEPRECATE_INIT_POSARGS: ClassVar[bool] = True
     """
     A flag to toggle whether to deprecate positional arguments in
-    :meth:`LLM.__init__`.
+    {meth}`LLM.__init__`.
     """
 
     @classmethod
@@ -398,7 +399,7 @@ class LLM:
 
         Args:
             prompts: The prompts to the LLM. You may pass a sequence of prompts
-                for batch inference. See :class:`~vllm.inputs.PromptType`
+                for batch inference. See {class}`~vllm.inputs.PromptType`
                 for more details about the format of each prompts.
             sampling_params: The sampling parameters for text generation. If
                 None, we use the default sampling parameters.
@@ -413,13 +414,14 @@ class LLM:
                 Only applicable when priority scheduling policy is enabled.
 
         Returns:
-            A list of ``RequestOutput`` objects containing the
+            A list of `RequestOutput` objects containing the
             generated completions in the same order as the input prompts.
 
-        Note:
-            Using ``prompts`` and ``prompt_token_ids`` as keyword parameters is
-            considered legacy and may be deprecated in the future. You should
-            instead pass them via the ``inputs`` parameter.
+        :::{note}
+        Using `prompts` and `prompt_token_ids` as keyword parameters is
+        considered legacy and may be deprecated in the future. You should
+        instead pass them via the `inputs` parameter.
+        :::
         """
         runner_type = self.llm_engine.model_config.runner_type
         if runner_type not in ["generate", "transcription"]:
@@ -488,16 +490,17 @@ class LLM:
                 `self` argument, in addition to the arguments passed in `args`
                 and `kwargs`. The `self` argument will be the worker object.
             timeout: Maximum time in seconds to wait for execution. Raises a
-                :exc:`TimeoutError` on timeout. `None` means wait indefinitely.
+                {exc}`TimeoutError` on timeout. `None` means wait indefinitely.
             args: Positional arguments to pass to the worker method.
             kwargs: Keyword arguments to pass to the worker method.
 
         Returns:
             A list containing the results from each worker.
-        
-        Note:
-            It is recommended to use this API to only pass control messages,
-            and set up data-plane communication to pass data.
+
+        :::{note}
+        It is recommended to use this API to only pass control messages,
+        and set up data-plane communication to pass data.
+        :::
         """
 
         return self.llm_engine.collective_rpc(method, timeout, args, kwargs)
@@ -664,7 +667,7 @@ class LLM:
         Generate responses for a chat conversation.
 
         The chat conversation is converted into a text prompt using the
-        tokenizer and calls the :meth:`generate` method to generate the
+        tokenizer and calls the {meth}`generate` method to generate the
         responses.
 
         Multi-modal inputs can be passed in the same way you would pass them
@@ -903,7 +906,7 @@ class LLM:
 
         Args:
             prompts: The prompts to the LLM. You may pass a sequence of prompts
-                for batch inference. See :class:`~vllm.inputs.PromptType`
+                for batch inference. See {class}`~vllm.inputs.PromptType`
                 for more details about the format of each prompts.
             pooling_params: The pooling parameters for pooling. If None, we
                 use the default pooling parameters.
@@ -913,13 +916,14 @@ class LLM:
                 generation, if any.
 
         Returns:
-            A list of ``PoolingRequestOutput`` objects containing the
+            A list of `PoolingRequestOutput` objects containing the
             pooled hidden states in the same order as the input prompts.
 
-        Note:
-            Using ``prompts`` and ``prompt_token_ids`` as keyword parameters is
-            considered legacy and may be deprecated in the future. You should
-            instead pass them via the ``inputs`` parameter.
+        :::{note}
+        Using `prompts` and `prompt_token_ids` as keyword parameters is
+        considered legacy and may be deprecated in the future. You should
+        instead pass them via the `inputs` parameter.
+        :::
         """
         runner_type = self.llm_engine.model_config.runner_type
         if runner_type != "pooling":
@@ -992,7 +996,7 @@ class LLM:
 
         Args:
             prompts: The prompts to the LLM. You may pass a sequence of prompts
-                for batch inference. See :class:`~vllm.inputs.PromptType`
+                for batch inference. See {class}`~vllm.inputs.PromptType`
                 for more details about the format of each prompts.
             pooling_params: The pooling parameters for pooling. If None, we
                 use the default pooling parameters.
@@ -1036,7 +1040,7 @@ class LLM:
 
         Args:
             prompts: The prompts to the LLM. You may pass a sequence of prompts
-                for batch inference. See :class:`~vllm.inputs.PromptType`
+                for batch inference. See {class}`~vllm.inputs.PromptType`
                 for more details about the format of each prompts.
             use_tqdm: Whether to use tqdm to display the progress bar.
             lora_request: LoRA request to use for generation, if any.
@@ -1168,7 +1172,7 @@ class LLM:
             text_1: can be a single prompt or a list of prompts, in which
                 case it has to have the same length as the ``text_2`` list
             text_2: The texts to pair with the query to form the input
-                to the LLM. See :class:`~vllm.inputs.PromptType` for
+                to the LLM. See {class}`~vllm.inputs.PromptType` for
                 more details about the format of each prompts.
             use_tqdm: Whether to use tqdm to display the progress bar.
             lora_request: LoRA request to use for generation, if any.
@@ -1277,7 +1281,7 @@ class LLM:
 
     def wake_up(self, tags: Optional[list[str]] = None):
         """
-        Wake up the engine from sleep mode. See the :meth:`sleep` method
+        Wake up the engine from sleep mode. See the {meth}`sleep` method
         for more details.
         
         Args:
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
index 389557dfb..40e477f03 100644
--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -5,7 +5,6 @@
 import json
 import re
 import time
-from argparse import Namespace
 from typing import Annotated, Any, ClassVar, Literal, Optional, Union
 
 import torch
@@ -25,23 +24,7 @@ from vllm.utils import random_uuid, resolve_obj_by_qualname
 
 logger = init_logger(__name__)
 
-# torch is mocked during docs generation,
-# so we have to provide the values as literals
-_MOCK_LONG_INFO = Namespace(min=-9223372036854775808, max=9223372036854775807)
-_LONG_INFO: Union["torch.iinfo", Namespace]
-
-try:
-    from sphinx.ext.autodoc.mock import _MockModule
-
-    if isinstance(torch, _MockModule):
-        _LONG_INFO = _MOCK_LONG_INFO
-    else:
-        _LONG_INFO = torch.iinfo(torch.long)
-except ModuleNotFoundError:
-    _LONG_INFO = torch.iinfo(torch.long)
-
-assert _LONG_INFO.min == _MOCK_LONG_INFO.min
-assert _LONG_INFO.max == _MOCK_LONG_INFO.max
+_LONG_INFO = torch.iinfo(torch.long)
 
 
 class OpenAIBaseModel(BaseModel):
diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
index 6123811aa..25069c28a 100644
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -275,7 +275,7 @@ class OpenAIServing:
         add_special_tokens: bool = True,
     ) -> TextTokensPrompt:
         """
-        A simpler implementation of :meth:`_tokenize_prompt_input_or_inputs`
+        A simpler implementation of {meth}`_tokenize_prompt_input_or_inputs`
         that assumes single input.
         """
         return next(
@@ -296,7 +296,7 @@ class OpenAIServing:
         add_special_tokens: bool = True,
     ) -> Iterator[TextTokensPrompt]:
         """
-        A simpler implementation of :meth:`_tokenize_prompt_input_or_inputs`
+        A simpler implementation of {meth}`_tokenize_prompt_input_or_inputs`
         that assumes multiple inputs.
         """
         for text in prompt_inputs:
diff --git a/vllm/executor/executor_base.py b/vllm/executor/executor_base.py
index 58796e5d7..522bd9402 100644
--- a/vllm/executor/executor_base.py
+++ b/vllm/executor/executor_base.py
@@ -74,7 +74,7 @@ class ExecutorBase(ABC):
                 `self` argument, in addition to the arguments passed in `args`
                 and `kwargs`. The `self` argument will be the worker object.
             timeout: Maximum time in seconds to wait for execution. Raises a
-                :exc:`TimeoutError` on timeout. `None` means wait indefinitely.
+                {exc}`TimeoutError` on timeout. `None` means wait indefinitely.
             args: Positional arguments to pass to the worker method.
             kwargs: Keyword arguments to pass to the worker method.
 
diff --git a/vllm/inputs/__init__.py b/vllm/inputs/__init__.py
index 9914a9dcf..0673aece9 100644
--- a/vllm/inputs/__init__.py
+++ b/vllm/inputs/__init__.py
@@ -10,7 +10,7 @@ from .registry import (DummyData, InputContext, InputProcessingContext,
 
 INPUT_REGISTRY = InputRegistry()
 """
-The global :class:`~InputRegistry` which is used by :class:`~vllm.LLMEngine`
+The global {class}`~InputRegistry` which is used by {class}`~vllm.LLMEngine`
 to dispatch data processing according to the target model.
 """
 
diff --git a/vllm/inputs/data.py b/vllm/inputs/data.py
index 86dbca180..c83ab73b6 100644
--- a/vllm/inputs/data.py
+++ b/vllm/inputs/data.py
@@ -80,22 +80,22 @@ SingletonPrompt = Union[str, TextPrompt, TokensPrompt, EmbedsPrompt]
 """
 Set of possible schemas for a single prompt:
 
-- A text prompt (:class:`str` or :class:`TextPrompt`)
-- A tokenized prompt (:class:`TokensPrompt`)
-- An embeddings prompt (:class:`EmbedsPrompt`)
+- A text prompt ({class}`str` or {class}`TextPrompt`)
+- A tokenized prompt ({class}`TokensPrompt`)
+- An embeddings prompt ({class}`EmbedsPrompt`)
 
 Note that "singleton" is as opposed to a data structure
 which encapsulates multiple prompts, i.e. of the sort
 which may be utilized for encoder/decoder models when
 the user desires to express both the encoder & decoder
-prompts explicitly, i.e. :class:`ExplicitEncoderDecoderPrompt`
+prompts explicitly, i.e. {class}`ExplicitEncoderDecoderPrompt`
 
-A prompt of type :class:`SingletonPrompt` may be employed
+A prompt of type {class}`SingletonPrompt` may be employed
 as (1) input to a decoder-only model, (2) input to
 the encoder of an encoder/decoder model, in the scenario
 where the decoder-prompt is not specified explicitly, or
 (3) as a member of a larger data structure encapsulating
-more than one prompt, i.e. :class:`ExplicitEncoderDecoderPrompt`
+more than one prompt, i.e. {class}`ExplicitEncoderDecoderPrompt`
 """
 
 _T1_co = TypeVar("_T1_co",
@@ -115,18 +115,18 @@ class ExplicitEncoderDecoderPrompt(TypedDict, Generic[_T1_co, _T2_co]):
     comprising an explicit encoder prompt and a decoder prompt.
 
     The encoder and decoder prompts, respectively, may be formatted
-    according to any of the :class:`SingletonPrompt` schemas,
+    according to any of the {class}`SingletonPrompt` schemas,
     and are not required to have the same schema.
 
     Only the encoder prompt may have multi-modal data. mm_processor_kwargs
     should be at the top-level, and should not be set in the encoder/decoder
     prompts, since they are agnostic to the encoder/decoder.
 
-    Note that an :class:`ExplicitEncoderDecoderPrompt` may not
+    Note that an {class}`ExplicitEncoderDecoderPrompt` may not
     be used as an input to a decoder-only model,
-    and that the :code:`encoder_prompt` and :code:`decoder_prompt`
+    and that the `encoder_prompt` and `decoder_prompt`
     fields of this data structure themselves must be
-    :class:`SingletonPrompt` instances.
+    {class}`SingletonPrompt` instances.
     """
 
     encoder_prompt: _T1_co
@@ -141,11 +141,11 @@ PromptType = Union[SingletonPrompt, ExplicitEncoderDecoderPrompt]
 Set of possible schemas for an LLM input, including
 both decoder-only and encoder/decoder input types:
 
-- A text prompt (:class:`str` or :class:`TextPrompt`)
-- A tokenized prompt (:class:`TokensPrompt`)
-- An embeddings prompt (:class:`EmbedsPrompt`)
+- A text prompt ({class}`str` or {class}`TextPrompt`)
+- A tokenized prompt ({class}`TokensPrompt`)
+- An embeddings prompt ({class}`EmbedsPrompt`)
 - A single data structure containing both an encoder and a decoder prompt
-  (:class:`ExplicitEncoderDecoderPrompt`)
+  ({class}`ExplicitEncoderDecoderPrompt`)
 """
 
 
@@ -178,7 +178,7 @@ def token_inputs(
     prompt: Optional[str] = None,
     cache_salt: Optional[str] = None,
 ) -> TokenInputs:
-    """Construct :class:`TokenInputs` from optional values."""
+    """Construct {class}`TokenInputs` from optional values."""
     inputs = TokenInputs(type="token", prompt_token_ids=prompt_token_ids)
 
     if prompt is not None:
@@ -221,7 +221,7 @@ def embeds_inputs(
 
 DecoderOnlyInputs = Union[TokenInputs, EmbedsInputs, "MultiModalInputs"]
 """
-The inputs in :class:`~vllm.LLMEngine` before they are
+The inputs in {class}`~vllm.LLMEngine` before they are
 passed to the model executor.
 This specifies the data required for decoder-only models.
 """
@@ -229,7 +229,7 @@ This specifies the data required for decoder-only models.
 
 class EncoderDecoderInputs(TypedDict):
     """
-    The inputs in :class:`~vllm.LLMEngine` before they are
+    The inputs in {class}`~vllm.LLMEngine` before they are
     passed to the model executor.
 
     This specifies the required data for encoder-decoder models.
@@ -243,13 +243,13 @@ class EncoderDecoderInputs(TypedDict):
 
 SingletonInputs = Union[TokenInputs, EmbedsInputs, "MultiModalInputs"]
 """
-A processed :class:`SingletonPrompt` which can be passed to
-:class:`vllm.sequence.Sequence`.
+A processed {class}`SingletonPrompt` which can be passed to
+{class}`vllm.sequence.Sequence`.
 """
 
 ProcessorInputs = Union[DecoderOnlyInputs, EncoderDecoderInputs]
 """
-The inputs to :data:`vllm.inputs.InputProcessor`.
+The inputs to {data}`vllm.inputs.InputProcessor`.
 """
 
 _T1 = TypeVar("_T1", bound=SingletonPrompt, default=SingletonPrompt)
@@ -277,7 +277,7 @@ def zip_enc_dec_prompts(
 ) -> list[ExplicitEncoderDecoderPrompt[_T1, _T2]]:
     """
     Zip encoder and decoder prompts together into a list of
-    :class:`ExplicitEncoderDecoderPrompt` instances.
+    {class}`ExplicitEncoderDecoderPrompt` instances.
 
     ``mm_processor_kwargs`` may also be provided; if a dict is passed, the same
     dictionary will be used for every encoder/decoder prompt. If an iterable is
diff --git a/vllm/inputs/preprocess.py b/vllm/inputs/preprocess.py
index fe4775b21..6e8effd60 100644
--- a/vllm/inputs/preprocess.py
+++ b/vllm/inputs/preprocess.py
@@ -224,7 +224,7 @@ class InputPreprocessor:
         lora_request: Optional[LoRARequest],
         tokenization_kwargs: Optional[dict[str, Any]] = None,
     ) -> list[int]:
-        """Async version of :meth:`_tokenize_prompt`."""
+        """Async version of {meth}`_tokenize_prompt`."""
         tokenizer = self.get_tokenizer_group()
         tokenization_kwargs = self._get_tokenization_kw(tokenization_kwargs)
 
@@ -287,7 +287,7 @@ class InputPreprocessor:
         lora_request: Optional[LoRARequest],
         return_mm_hashes: bool = False,
     ) -> MultiModalInputs:
-        """Async version of :meth:`_process_multimodal`."""
+        """Async version of {meth}`_process_multimodal`."""
         tokenizer = await self._get_mm_tokenizer_async(lora_request)
 
         mm_processor = self.mm_registry.create_processor(self.model_config,
@@ -472,7 +472,7 @@ class InputPreprocessor:
 
         Returns:
 
-        * :class:`SingletonInputs` instance
+        * {class}`SingletonInputs` instance
         """
         parsed = parse_singleton_prompt(prompt)
 
@@ -508,7 +508,7 @@ class InputPreprocessor:
         lora_request: Optional[LoRARequest] = None,
         return_mm_hashes: bool = False,
     ) -> SingletonInputs:
-        """Async version of :meth:`_prompt_to_llm_inputs`."""
+        """Async version of {meth}`_prompt_to_llm_inputs`."""
         parsed = parse_singleton_prompt(prompt)
 
         if parsed["type"] == "embeds":
@@ -644,7 +644,7 @@ class InputPreprocessor:
     ) -> EncoderDecoderInputs:
         """
         For encoder/decoder models only:
-        Process an input prompt into an :class:`EncoderDecoderInputs` instance.
+        Process an input prompt into an {class}`EncoderDecoderInputs` instance.
 
         There are two types of input prompts:
         singleton prompts which carry only the
@@ -670,7 +670,7 @@ class InputPreprocessor:
 
         Returns:
 
-        * :class:`EncoderDecoderInputs` instance
+        * {class}`EncoderDecoderInputs` instance
         """
         encoder_inputs: SingletonInputs
         decoder_inputs: Optional[SingletonInputs]
@@ -710,7 +710,7 @@ class InputPreprocessor:
         prompt: PromptType,
         tokenization_kwargs: Optional[dict[str, Any]] = None,
     ) -> EncoderDecoderInputs:
-        """Async version of :meth:`_process_encoder_decoder_prompt`."""
+        """Async version of {meth}`_process_encoder_decoder_prompt`."""
         encoder_inputs: SingletonInputs
         decoder_inputs: Optional[SingletonInputs]
 
@@ -778,7 +778,7 @@ class InputPreprocessor:
     ) -> DecoderOnlyInputs:
         """
         For decoder-only models:
-        Process an input prompt into an :class:`DecoderOnlyInputs` instance.
+        Process an input prompt into an {class}`DecoderOnlyInputs` instance.
 
         Arguments:
 
@@ -789,7 +789,7 @@ class InputPreprocessor:
 
         Returns:
 
-        * :class:`DecoderOnlyInputs` instance
+        * {class}`DecoderOnlyInputs` instance
         """
 
         prompt_comps = self._prompt_to_llm_inputs(
@@ -812,7 +812,7 @@ class InputPreprocessor:
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
         return_mm_hashes: bool = False,
     ) -> DecoderOnlyInputs:
-        """Async version of :meth:`_process_decoder_only_prompt`."""
+        """Async version of {meth}`_process_decoder_only_prompt`."""
         prompt_comps = await self._prompt_to_llm_inputs_async(
             prompt,
             tokenization_kwargs=tokenization_kwargs,
@@ -863,7 +863,7 @@ class InputPreprocessor:
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
         return_mm_hashes: bool = False,
     ) -> ProcessorInputs:
-        """Async version of :meth:`preprocess`."""
+        """Async version of {meth}`preprocess`."""
         if self.model_config.is_encoder_decoder:
             assert not return_mm_hashes, (
                 "Multimodal hashes for encoder-decoder models should not be ",
diff --git a/vllm/inputs/registry.py b/vllm/inputs/registry.py
index d969922d5..aecddbcd7 100644
--- a/vllm/inputs/registry.py
+++ b/vllm/inputs/registry.py
@@ -38,7 +38,7 @@ class InputContext:
     ) -> _C:
         """
         Get the HuggingFace configuration
-        (:class:`transformers.PretrainedConfig`) of the model,
+        ({class}`transformers.PretrainedConfig`) of the model,
         additionally checking its type.
 
         Raises:
@@ -79,7 +79,7 @@ class InputContext:
     ) -> _P:
         """
         Get the HuggingFace processor
-        (:class:`transformers.ProcessorMixin`) of the model,
+        ({class}`transformers.ProcessorMixin`) of the model,
         additionally checking its type.
 
         Raises:
@@ -135,8 +135,8 @@ class InputProcessingContext(InputContext):
         kwargs: Mapping[str, object] = {},
     ) -> BatchFeature:
         """
-        Call :code:`hf_processor` on the prompt :code:`data`
-        (text, image, audio...) with configurable options :code:`kwargs`.
+        Call `hf_processor` on the prompt `data`
+        (text, image, audio...) with configurable options `kwargs`.
         """
         assert callable(hf_processor)
 
diff --git a/vllm/logger.py b/vllm/logger.py
index c162e2e04..cf32041c5 100644
--- a/vllm/logger.py
+++ b/vllm/logger.py
@@ -68,21 +68,21 @@ class _VllmLogger(Logger):
     """
     Note:
         This class is just to provide type information.
-        We actually patch the methods directly on the :class:`logging.Logger`
+        We actually patch the methods directly on the {class}`logging.Logger`
         instance to avoid conflicting with other libraries such as
         `intel_extension_for_pytorch.utils._logger`.
     """
 
     def info_once(self, msg: str, *args: Hashable) -> None:
         """
-        As :meth:`info`, but subsequent calls with the same message
+        As {meth}`info`, but subsequent calls with the same message
         are silently dropped.
         """
         _print_info_once(self, msg, *args)
 
     def warning_once(self, msg: str, *args: Hashable) -> None:
         """
-        As :meth:`warning`, but subsequent calls with the same message
+        As {meth}`warning`, but subsequent calls with the same message
         are silently dropped.
         """
         _print_warning_once(self, msg, *args)
diff --git a/vllm/lora/ops/triton_ops/__init__.py b/vllm/lora/ops/triton_ops/__init__.py
index acae0d972..5a39705e8 100644
--- a/vllm/lora/ops/triton_ops/__init__.py
+++ b/vllm/lora/ops/triton_ops/__init__.py
@@ -1,8 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from vllm.lora.ops.triton_ops.lora_expand import lora_expand
+from vllm.lora.ops.triton_ops.lora_expand_op import lora_expand
 from vllm.lora.ops.triton_ops.lora_kernel_metadata import LoRAKernelMeta
-from vllm.lora.ops.triton_ops.lora_shrink import lora_shrink
+from vllm.lora.ops.triton_ops.lora_shrink_op import lora_shrink
 
 __all__ = [
     "lora_expand",
diff --git a/vllm/lora/ops/triton_ops/lora_expand.py b/vllm/lora/ops/triton_ops/lora_expand_op.py
similarity index 100%
rename from vllm/lora/ops/triton_ops/lora_expand.py
rename to vllm/lora/ops/triton_ops/lora_expand_op.py
diff --git a/vllm/lora/ops/triton_ops/lora_shrink.py b/vllm/lora/ops/triton_ops/lora_shrink_op.py
similarity index 100%
rename from vllm/lora/ops/triton_ops/lora_shrink.py
rename to vllm/lora/ops/triton_ops/lora_shrink_op.py
diff --git a/vllm/model_executor/layers/rejection_sampler.py b/vllm/model_executor/layers/rejection_sampler.py
index 62e27b714..d1d3326ac 100644
--- a/vllm/model_executor/layers/rejection_sampler.py
+++ b/vllm/model_executor/layers/rejection_sampler.py
@@ -261,15 +261,16 @@ class RejectionSampler(SpecDecodeStochasticBaseSampler):
         True, then a token can be accepted, else it should be
         rejected.
 
-        Given :math:`q(\hat{x}_{n+1}|x_1, \dots, x_n)`, the probability of
-        :math:`\hat{x}_{n+1}` given context :math:`x_1, \dots, x_n` according
-        to the target model, and :math:`p(\hat{x}_{n+1}|x_1, \dots, x_n)`, the
+        Given {math}`q(\hat{x}_{n+1}|x_1, \dots, x_n)`, the probability of
+        {math}`\hat{x}_{n+1}` given context {math}`x_1, \dots, x_n` according
+        to the target model, and {math}`p(\hat{x}_{n+1}|x_1, \dots, x_n)`, the
         same conditional probability according to the draft model, the token
         is accepted with probability:
 
-        .. math::
-            \min\left(1, \frac{q(\hat{x}_{n+1}|x_1, \dots, x_n)}
-                           {p(\hat{x}_{n+1}|x_1, \dots, x_n)}\right)
+        :::{math}
+        \min\left(1, \frac{q(\hat{x}_{n+1}|x_1, \dots, x_n)}
+                        {p(\hat{x}_{n+1}|x_1, \dots, x_n)}\right)
+        :::
 
         This implementation does not apply causality. When using the output,
         if a token is rejected, subsequent tokens should not be used.
@@ -312,18 +313,20 @@ class RejectionSampler(SpecDecodeStochasticBaseSampler):
         target model is recovered (within hardware numerics).
 
         The probability distribution used in this rejection case is constructed
-        as follows. Given :math:`q(x|x_1, \dots, x_n)`, the probability of
-        :math:`x` given context :math:`x_1, \dots, x_n` according to the target
-        model and :math:`p(x|x_1, \dots, x_n)`, the same conditional probability
+        as follows. Given {math}`q(x|x_1, \dots, x_n)`, the probability of
+        {math}`x` given context {math}`x_1, \dots, x_n` according to the target
+        model and {math}`p(x|x_1, \dots, x_n)`, the same conditional probability
         according to the draft model:
 
-        .. math::
-            x_{n+1} \sim (q(x|x_1, \dots, x_n) - p(x|x_1, \dots, x_n))_+
+        :::{math}
+        x_{n+1} \sim (q(x|x_1, \dots, x_n) - p(x|x_1, \dots, x_n))_+
+        :::
 
-        where :math:`(f(x))_+` is defined as:
+        where {math}`(f(x))_+` is defined as:
 
-        .. math::
-            (f(x))_+ = \frac{\max(0, f(x))}{\sum_x \max(0, f(x))}
+        :::{math}
+        (f(x))_+ = \frac{\max(0, f(x))}{\sum_x \max(0, f(x))}
+        :::
 
         See https://github.com/vllm-project/vllm/pull/2336 for a visualization
         of the draft, target, and recovered probability distributions.
diff --git a/vllm/model_executor/layers/sampler.py b/vllm/model_executor/layers/sampler.py
index 9368992b2..920c0f5a6 100644
--- a/vllm/model_executor/layers/sampler.py
+++ b/vllm/model_executor/layers/sampler.py
@@ -235,7 +235,7 @@ class Sampler(nn.Module):
         * Defer Pythonization of sampling result & logprobs
           tensor
         * Encapsulate arguments required for deferred Pythonization
-          in the :class:`SamplerOutput` structure
+          in the {class}`SamplerOutput` structure
 
         Args:
             logits: (num_tokens, vocab_size).
diff --git a/vllm/model_executor/layers/typical_acceptance_sampler.py b/vllm/model_executor/layers/typical_acceptance_sampler.py
index 95362c280..527a301cd 100644
--- a/vllm/model_executor/layers/typical_acceptance_sampler.py
+++ b/vllm/model_executor/layers/typical_acceptance_sampler.py
@@ -107,14 +107,15 @@ class TypicalAcceptanceSampler(SpecDecodeDeterministicBaseSampler):
         A draft token_id x_{n+k} is accepted if it satisfies the
         following condition
     
-        .. math::
-            p_{\text{original}}(x_{n+k} | x_1, x_2, \dots, x_{n+k-1}) > 
-            \min \left( \epsilon, \delta * \exp \left(
-                -H(p_{\text{original}}(
-                    \cdot | x_1, x_2, \ldots, x_{n+k-1})) \right) \right)
+        :::{math}
+        p_{\text{original}}(x_{n+k} | x_1, x_2, \dots, x_{n+k-1}) > 
+        \min \left( \epsilon, \delta * \exp \left(
+            -H(p_{\text{original}}(
+                \cdot | x_1, x_2, \ldots, x_{n+k-1})) \right) \right)
+        :::
         
-        where :math:`p_{\text{original}}` corresponds to target_probs 
-        and :math:`\epsilon` and :math:`\delta` correspond to hyperparameters
+        where {math}`p_{\text{original}}` corresponds to target_probs 
+        and {math}`\epsilon` and {math}`\delta` correspond to hyperparameters
         specified using self._posterior_threshold and self._posterior_alpha
 
         This method computes the posterior probabilities for the given
diff --git a/vllm/model_executor/models/blip2.py b/vllm/model_executor/models/blip2.py
index eed49e74a..f44565bd2 100644
--- a/vllm/model_executor/models/blip2.py
+++ b/vllm/model_executor/models/blip2.py
@@ -681,8 +681,9 @@ class Blip2ForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP,
                 batch.
             pixel_values: The pixels in each input image.
         
-        See also:
-            :class:`Blip2ImageInputs`
+        :::{seealso}
+        {class}`Blip2ImageInputs`
+        :::
         """
 
         if intermediate_tensors is not None:
diff --git a/vllm/model_executor/models/interfaces.py b/vllm/model_executor/models/interfaces.py
index 0cda199af..7fea9647e 100644
--- a/vllm/model_executor/models/interfaces.py
+++ b/vllm/model_executor/models/interfaces.py
@@ -226,9 +226,9 @@ class SupportsPP(Protocol):
         intermediate_tensors: Optional["IntermediateTensors"],
     ) -> Union[Tensor, "IntermediateTensors"]:
         """
-        Accept :class:`IntermediateTensors` when PP rank > 0.
+        Accept {class}`IntermediateTensors` when PP rank > 0.
 
-        Return :class:`IntermediateTensors` only for the last PP rank.
+        Return {class}`IntermediateTensors` only for the last PP rank.
         """
         ...
 
diff --git a/vllm/model_executor/models/llava.py b/vllm/model_executor/models/llava.py
index 3791b92ec..6287fdb33 100644
--- a/vllm/model_executor/models/llava.py
+++ b/vllm/model_executor/models/llava.py
@@ -721,8 +721,9 @@ class LlavaForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
                 batch.
             pixel_values: The pixels in each input image.
 
-        See also:
-            :class:`LlavaImageInputs`
+        :::{seealso}
+        {class}`LlavaImageInputs`
+        :::
         """
         if intermediate_tensors is not None:
             inputs_embeds = None
diff --git a/vllm/model_executor/models/llava_next.py b/vllm/model_executor/models/llava_next.py
index c646c0f03..c7e8d6991 100644
--- a/vllm/model_executor/models/llava_next.py
+++ b/vllm/model_executor/models/llava_next.py
@@ -537,7 +537,7 @@ class LlavaNextForConditionalGeneration(nn.Module, SupportsMultiModal,
         Unlike in LLaVA-1.5, the number of image tokens inputted to the language
         model depends on the original size of the input image. Including the
         original image token in the input, the required number of image tokens
-        is given by :func:`get_llava_next_image_feature_size`.
+        is given by {func}`get_llava_next_image_feature_size`.
 
         This way, the `positions` and `attn_metadata` are consistent
         with the `input_ids`.
@@ -548,8 +548,9 @@ class LlavaNextForConditionalGeneration(nn.Module, SupportsMultiModal,
             pixel_values: The pixels in each grid patch for each input image.
             image_sizes: The original `(height, width)` for each input image.
 
-        See also:
-            :class:`LlavaNextImageInputs`
+        :::{seealso}
+        {class}`LlavaNextImageInputs`
+        :::
         """
         if intermediate_tensors is not None:
             inputs_embeds = None
diff --git a/vllm/model_executor/models/mistral3.py b/vllm/model_executor/models/mistral3.py
index 6352ba236..42ec786f3 100644
--- a/vllm/model_executor/models/mistral3.py
+++ b/vllm/model_executor/models/mistral3.py
@@ -559,8 +559,9 @@ class Mistral3ForConditionalGeneration(nn.Module, SupportsLoRA,
                 batch.
             pixel_values: The pixels in each input image.
 
-        See also:
-            :class:`Mistral3ImagePixelInputs`
+        :::{seealso}
+        {class}`Mistral3ImagePixelInputs`
+        :::
         """
         if intermediate_tensors is not None:
             inputs_embeds = None
diff --git a/vllm/model_executor/models/molmo.py b/vllm/model_executor/models/molmo.py
index 46147a333..75eebdacf 100644
--- a/vllm/model_executor/models/molmo.py
+++ b/vllm/model_executor/models/molmo.py
@@ -965,7 +965,7 @@ def select_tiling(
 
 class MolmoProcessorWrapper:
     """
-    Wraps :class:`MolmoProcessor` so that it can be called directly.
+    Wraps {class}`MolmoProcessor` so that it can be called directly.
 
     The original definition can be found here:
     https://huggingface.co/allenai/Molmo-7B-D-0924/blob/main/preprocessing_molmo.py
diff --git a/vllm/model_executor/models/phi4mm_utils.py b/vllm/model_executor/models/phi4mm_utils.py
index 9f08a1c4c..4051763ce 100644
--- a/vllm/model_executor/models/phi4mm_utils.py
+++ b/vllm/model_executor/models/phi4mm_utils.py
@@ -12,7 +12,7 @@ import torch.nn.functional as F
 from torch import Tensor, nn
 
 
-class Block(nn.Module):
+class BlockBase(nn.Module):
     """Block abstract module"""
 
     def __init__(self, input_size, output_size):
@@ -1602,7 +1602,7 @@ class AttModule(nn.Module):
         return x, memory, pos_emb, att_mask
 
 
-class AttBlock(Block, AttModule):
+class AttBlock(BlockBase, AttModule):
     """Attention Block module to support both Attention and Block module."""
 
     def memory_dims(self, max_len=False):
diff --git a/vllm/model_executor/models/pixtral.py b/vllm/model_executor/models/pixtral.py
index 7b11a616e..c0b492dbf 100644
--- a/vllm/model_executor/models/pixtral.py
+++ b/vllm/model_executor/models/pixtral.py
@@ -65,14 +65,14 @@ class PixtralImagePixelInputs(TypedDict):
     """
     Shape: `(batch_size * num_images, num_channels, image_width, image_height)`
 
-    The result of stacking :attr:`ImageEncoding.tokens` from each prompt.
+    The result of stacking {attr}`ImageEncoding.tokens` from each prompt.
     """
 
 
 class PixtralProcessorAdapter:
     """
     Provide a HF-compatible interface for
-    :class:`mistral_common.tokens.tokenizers.multimodal.ImageEncoder`.
+    {class}`mistral_common.tokens.tokenizers.multimodal.ImageEncoder`.
     """
 
     def __init__(self, tokenizer: MistralTokenizer) -> None:
diff --git a/vllm/model_executor/models/qwen_vl.py b/vllm/model_executor/models/qwen_vl.py
index 9f370d7aa..199b885a5 100644
--- a/vllm/model_executor/models/qwen_vl.py
+++ b/vllm/model_executor/models/qwen_vl.py
@@ -383,7 +383,7 @@ def _get_tokenizer_without_image_pad(
         tokenizer: PreTrainedTokenizer) -> PreTrainedTokenizer:
     """
     The logic of adding image pad tokens should only be applied in
-    :class:`QwenVLProcessor`, so they are patched out here.
+    {class}`QwenVLProcessor`, so they are patched out here.
 
     The definition of the wrapped tokenizer can be found here:
     https://huggingface.co/Qwen/Qwen-VL/blob/main/tokenization_qwen.py
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index 156a201de..e25941faa 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -19,7 +19,6 @@ import cloudpickle
 import torch.nn as nn
 
 from vllm.logger import init_logger
-from vllm.utils import is_in_doc_build
 
 from .interfaces import (has_inner_state, has_noops, is_attention_free,
                          is_hybrid, supports_cross_encoding,
@@ -375,13 +374,13 @@ class _ModelRegistry:
         """
         Register an external model to be used in vLLM.
 
-        :code:`model_cls` can be either:
+        `model_cls` can be either:
 
-        - A :class:`torch.nn.Module` class directly referencing the model.
-        - A string in the format :code:`<module>:<class>` which can be used to
+        - A {class}`torch.nn.Module` class directly referencing the model.
+        - A string in the format `<module>:<class>` which can be used to
           lazily import the model. This is useful to avoid initializing CUDA
           when importing the model and thus the related error
-          :code:`RuntimeError: Cannot re-initialize CUDA in forked subprocess`.
+          `RuntimeError: Cannot re-initialize CUDA in forked subprocess`.
         """
         if not isinstance(model_arch, str):
             msg = f"`model_arch` should be a string, not a {type(model_arch)}"
@@ -400,8 +399,7 @@ class _ModelRegistry:
                 raise ValueError(msg)
 
             model = _LazyRegisteredModel(*split_str)
-        elif isinstance(model_cls, type) and (is_in_doc_build() or issubclass(
-                model_cls, nn.Module)):
+        elif isinstance(model_cls, type) and issubclass(model_cls, nn.Module):
             model = _RegisteredModel.from_model_cls(model_cls)
         else:
             msg = ("`model_cls` should be a string or PyTorch model class, "
diff --git a/vllm/model_executor/models/utils.py b/vllm/model_executor/models/utils.py
index 7ed0560ee..1be40ecd3 100644
--- a/vllm/model_executor/models/utils.py
+++ b/vllm/model_executor/models/utils.py
@@ -66,7 +66,7 @@ class WeightsMapper:
 
 class AutoWeightsLoader:
     """
-    Helper class to load weights into a :class:`torch.nn.Module`. It is able
+    Helper class to load weights into a {class}`torch.nn.Module`. It is able
     to automatically detect child modules and parameters while iterating over
     the weights only once.
 
diff --git a/vllm/multimodal/__init__.py b/vllm/multimodal/__init__.py
index c65d9407d..756ea1131 100644
--- a/vllm/multimodal/__init__.py
+++ b/vllm/multimodal/__init__.py
@@ -8,11 +8,12 @@ from .registry import MultiModalRegistry
 
 MULTIMODAL_REGISTRY = MultiModalRegistry()
 """
-The global :class:`~MultiModalRegistry` is used by model runners to
+The global {class}`~MultiModalRegistry` is used by model runners to
 dispatch data processing according to the target model.
 
-See also:
-    :ref:`mm-processing`
+:::{seealso}
+{ref}`mm-processing`
+:::
 """
 
 __all__ = [
diff --git a/vllm/multimodal/base.py b/vllm/multimodal/base.py
index 2f93922fc..184c801e6 100644
--- a/vllm/multimodal/base.py
+++ b/vllm/multimodal/base.py
@@ -64,35 +64,35 @@ class MultiModalPlaceholderMap:
 
         Examples:
 
-        .. code-block::
+        ```
+        Prompt:    |AAAA BBBB What's in these images?|
+        Positions: |.................................|
 
-            Prompt:    |AAAA BBBB What's in these images?|
-            Positions: |.................................|
+            images      = [A, B]
+            src_ranges  = [(0, 4), (4, 8)]
+            dest_ranges = [(0, 4), (5, 9)]
 
-                images      = [A, B]
-                src_ranges  = [(0, 4), (4, 8)]
-                dest_ranges = [(0, 4), (5, 9)]
+        Prompt:    |AAAA BBBB What's in these images?|
+        Positions: |  .....                          |
 
-            Prompt:    |AAAA BBBB What's in these images?|
-            Positions: |  .....                          |
+            images      = [A, B]
+            src_ranges  = [(2, 4), (4, 6)]
+            dest_ranges = [(0, 2), (3, 5)]
 
-                images      = [A, B]
-                src_ranges  = [(2, 4), (4, 6)]
-                dest_ranges = [(0, 2), (3, 5)]
+        Prompt:    |AAAA BBBB What's in these images?|
+        Positions: |     .........                   |
 
-            Prompt:    |AAAA BBBB What's in these images?|
-            Positions: |     .........                   |
+            images      = [B]
+            src_ranges  = [(0, 4)]
+            dest_ranges = [(0, 4)]
 
-                images      = [B]
-                src_ranges  = [(0, 4)]
-                dest_ranges = [(0, 4)]
+        Prompt:    |AAAA BBBB What's in these images?|
+        Positions: |          .......................|
 
-            Prompt:    |AAAA BBBB What's in these images?|
-            Positions: |          .......................|
-
-                images      = []
-                src_ranges  = []
-                dest_ranges = []
+            images      = []
+            src_ranges  = []
+            dest_ranges = []
+        ```
         """
         seq_mm_data = seq_group.multi_modal_data
         seq_mm_placeholders = seq_group.multi_modal_placeholders
diff --git a/vllm/multimodal/inputs.py b/vllm/multimodal/inputs.py
index 978fb4231..61d8eb62f 100644
--- a/vllm/multimodal/inputs.py
+++ b/vllm/multimodal/inputs.py
@@ -26,27 +26,27 @@ _T = TypeVar("_T")
 
 HfImageItem: TypeAlias = Union[Image, np.ndarray, torch.Tensor]
 """
-A :class:`transformers.image_utils.ImageInput` representing a single image
-item, which can be passed to a HuggingFace :code:`ImageProcessor`.
+A {class}`transformers.image_utils.ImageInput` representing a single image
+item, which can be passed to a HuggingFace `ImageProcessor`.
 """
 
 HfVideoItem: TypeAlias = Union[list[Image], np.ndarray, torch.Tensor,
                                list[np.ndarray], list[torch.Tensor]]
 """
-A :class:`transformers.image_utils.VideoInput` representing a single video
-item, which can be passed to a HuggingFace :code:`VideoProcessor`.
+A {class}`transformers.image_utils.VideoInput` representing a single video
+item, which can be passed to a HuggingFace `VideoProcessor`.
 """
 
 HfAudioItem: TypeAlias = Union[list[float], np.ndarray, torch.Tensor]
 """
 Represents a single audio
-item, which can be passed to a HuggingFace :code:`AudioProcessor`.
+item, which can be passed to a HuggingFace `AudioProcessor`.
 """
 
 ImageItem: TypeAlias = Union[HfImageItem, torch.Tensor]
 """
-A :class:`transformers.image_utils.ImageInput` representing a single image
-item, which can be passed to a HuggingFace :code:`ImageProcessor`.
+A {class}`transformers.image_utils.ImageInput` representing a single image
+item, which can be passed to a HuggingFace `ImageProcessor`.
 
 Alternatively, a 3-D tensor or batch of 2-D tensors,
 which are treated as image embeddings;
@@ -55,8 +55,8 @@ these are directly passed to the model without HF processing.
 
 VideoItem: TypeAlias = Union[HfVideoItem, torch.Tensor]
 """
-A :class:`transformers.image_utils.VideoInput` representing a single video
-item, which can be passed to a HuggingFace :code:`VideoProcessor`.
+A {class}`transformers.image_utils.VideoInput` representing a single video
+item, which can be passed to a HuggingFace `VideoProcessor`.
 
 Alternatively, a 3-D tensor or batch of 2-D tensors,
 which are treated as video embeddings;
@@ -67,7 +67,7 @@ AudioItem: TypeAlias = Union[HfAudioItem, tuple[np.ndarray, float],
                              torch.Tensor]
 """
 Represents a single audio
-item, which can be passed to a HuggingFace :code:`AudioProcessor`.
+item, which can be passed to a HuggingFace `AudioProcessor`.
 
 Alternatively, a tuple `(audio, sampling_rate)`, where the sampling rate
 is different from that expected by the model;
@@ -83,7 +83,7 @@ ModalityData: TypeAlias = Union[_T, list[_T]]
 Either a single data item, or a list of data items.
 
 The number of data items allowed per modality is restricted by
-:code:`--limit-mm-per-prompt`.
+`--limit-mm-per-prompt`.
 """
 
 
@@ -105,7 +105,7 @@ MultiModalDataDict: TypeAlias = Mapping[str, ModalityData[Any]]
 """
 A dictionary containing an entry for each modality type to input.
 
-The built-in modalities are defined by :class:`MultiModalDataBuiltins`.
+The built-in modalities are defined by {class}`MultiModalDataBuiltins`.
 """
 
 
@@ -116,14 +116,14 @@ class PlaceholderRange:
 
     Example:
 
-        Prompt: :code:`AAAA BBBB What is in these images?`
+    Prompt: `AAAA BBBB What is in these images?`
 
-        Images A and B will have:
+    Images A and B will have:
 
-        .. code-block::
-
-            A: PlaceholderRange(offset=0, length=4)
-            B: PlaceholderRange(offset=5, length=4)
+    ```
+    A: PlaceholderRange(offset=0, length=4)
+    B: PlaceholderRange(offset=5, length=4)
+    ```
     """
 
     offset: int
@@ -166,7 +166,7 @@ Uses a list instead of a tensor if the dimensions of each element do not match.
 
 
 def nested_tensors_equal(a: NestedTensors, b: NestedTensors) -> bool:
-    """Equality check between :data:`NestedTensors` objects."""
+    """Equality check between {data}`NestedTensors` objects."""
     if isinstance(a, torch.Tensor):
         return isinstance(b, torch.Tensor) and torch.equal(a, b)
     elif isinstance(b, torch.Tensor):
@@ -186,7 +186,7 @@ def nested_tensors_equal(a: NestedTensors, b: NestedTensors) -> bool:
 BatchedTensorInputs: TypeAlias = Mapping[str, NestedTensors]
 """
 A dictionary containing nested tensors which have been batched via
-:meth:`MultiModalKwargs.batch`.
+{meth}`MultiModalKwargs.batch`.
 """
 
 
@@ -194,7 +194,7 @@ A dictionary containing nested tensors which have been batched via
 class MultiModalFieldElem:
     """
     Represents a keyword argument corresponding to a multi-modal item
-    in :class:`MultiModalKwargs`.
+    in {class}`MultiModalKwargs`.
     """
 
     modality: str
@@ -205,13 +205,13 @@ class MultiModalFieldElem:
 
     key: str
     """
-    The key of this field in :class:`MultiModalKwargs`,
+    The key of this field in {class}`MultiModalKwargs`,
     i.e. the name of the keyword argument to be passed to the model.
     """
 
     data: NestedTensors
     """
-    The tensor data of this field in :class:`MultiModalKwargs`,
+    The tensor data of this field in {class}`MultiModalKwargs`,
     i.e. the value of the keyword argument to be passed to the model.
     """
 
@@ -234,7 +234,7 @@ class MultiModalFieldElem:
 class BaseMultiModalField(ABC):
     """
     Defines how to interpret tensor data belonging to a keyword argument in
-    :class:`MultiModalKwargs` for multiple multi-modal items, and vice versa.
+    {class}`MultiModalKwargs` for multiple multi-modal items, and vice versa.
     """
 
     def _field_factory(self, *, modality: str, key: str):
@@ -259,10 +259,10 @@ class BaseMultiModalField(ABC):
         data: NestedTensors,
     ) -> Sequence[MultiModalFieldElem]:
         """
-        Construct :class:`MultiModalFieldElem` instances to represent
+        Construct {class}`MultiModalFieldElem` instances to represent
         the provided data.
         
-        This is the inverse of :meth:`reduce_data`.
+        This is the inverse of {meth}`reduce_data`.
         """
         raise NotImplementedError
 
@@ -272,9 +272,9 @@ class BaseMultiModalField(ABC):
 
     def reduce_data(self, elems: list[MultiModalFieldElem]) -> NestedTensors:
         """
-        Merge the data from multiple instances of :class:`MultiModalFieldElem`.
+        Merge the data from multiple instances of {class}`MultiModalFieldElem`.
 
-        This is the inverse of :meth:`build_elems`.
+        This is the inverse of {meth}`build_elems`.
         """
         field_types = [type(item.field) for item in elems]
         if len(set(field_types)) > 1:
@@ -286,8 +286,9 @@ class BaseMultiModalField(ABC):
 @dataclass(frozen=True)
 class MultiModalBatchedField(BaseMultiModalField):
     """
-    See also:
-        :func:`MultiModalFieldConfig.batched`
+    :::{seealso}
+    {func}`MultiModalFieldConfig.batched`
+    :::
     """
 
     def build_elems(
@@ -316,9 +317,10 @@ class MultiModalBatchedField(BaseMultiModalField):
 @dataclass(frozen=True)
 class MultiModalFlatField(BaseMultiModalField):
     """
-    See also:
-        :func:`MultiModalFieldConfig.flat`
-        :func:`MultiModalFieldConfig.flat_from_sizes`
+    :::{seealso}
+    {func}`MultiModalFieldConfig.flat`
+    {func}`MultiModalFieldConfig.flat_from_sizes`
+    :::
     """
     slices: Union[Sequence[slice], Sequence[Sequence[slice]]]
     dim: int = 0
@@ -358,8 +360,9 @@ class MultiModalFlatField(BaseMultiModalField):
 @dataclass(frozen=True)
 class MultiModalSharedField(BaseMultiModalField):
     """
-    See also:
-        :func:`MultiModalFieldConfig.shared`
+    :::{seealso}
+    {func}`MultiModalFieldConfig.shared`
+    :::
     """
     batch_size: int
 
@@ -390,17 +393,17 @@ class MultiModalFieldConfig:
 
         Example:
 
-            .. code-block::
-
-                Input:
-                    Data: [[AAAA]
-                        [BBBB]
-                        [CCCC]]
-
-                Output:
-                    Element 1: [AAAA]
-                    Element 2: [BBBB]
-                    Element 3: [CCCC]
+        ```
+        Input:
+            Data: [[AAAA]
+                [BBBB]
+                [CCCC]]
+
+        Output:
+            Element 1: [AAAA]
+            Element 2: [BBBB]
+            Element 3: [CCCC]
+        ```
         """
         return MultiModalFieldConfig(
             field=MultiModalBatchedField(),
@@ -425,35 +428,35 @@ class MultiModalFieldConfig:
 
         Example:
 
-            .. code-block::
-        
-                Given:
-                    slices: [slice(0, 3), slice(3, 7), slice(7, 9)]
-
-                Input:
-                    Data: [AAABBBBCC]
-
-                Output:
-                    Element 1: [AAA]
-                    Element 2: [BBBB]
-                    Element 3: [CC]
-            
-            .. code-block::
-
-                Given:
-                    slices: [
-                        (slice(None), slice(0, 3)),
-                        (slice(None), slice(3, 7)),
-                        (slice(None), slice(7, 9))]
-                    dim: 1
-
-                Input:
-                    Data: [[A],[A],[A],[B],[B],[B],[B],[C],[C]]
-
-                Output:
-                    Element 1: [[A],[A],[A]]
-                    Element 2: [[B],[B],[B],[B]]
-                    Element 3: [[C],[C]]
+        ```
+        Given:
+            slices: [slice(0, 3), slice(3, 7), slice(7, 9)]
+
+        Input:
+            Data: [AAABBBBCC]
+
+        Output:
+            Element 1: [AAA]
+            Element 2: [BBBB]
+            Element 3: [CC]
+        ```
+
+        ```
+        Given:
+            slices: [
+                (slice(None), slice(0, 3)),
+                (slice(None), slice(3, 7)),
+                (slice(None), slice(7, 9))]
+            dim: 1
+
+        Input:
+            Data: [[A],[A],[A],[B],[B],[B],[B],[C],[C]]
+
+        Output:
+            Element 1: [[A],[A],[A]]
+            Element 2: [[B],[B],[B],[B]]
+            Element 3: [[C],[C]]
+        ```
         """
         return MultiModalFieldConfig(
             field=MultiModalFlatField(slices=slices, dim=dim),
@@ -477,36 +480,36 @@ class MultiModalFieldConfig:
 
         Example:
 
-            .. code-block::
-        
-                Given:
-                    size_per_item: [3, 4, 2]
-
-                Input:
-                    Data: [AAABBBBCC]
-
-                Output:
-                    Element 1: [AAA]
-                    Element 2: [BBBB]
-                    Element 3: [CC]
-
-            
-            .. code-block::
-
-                Given:
-                    slices: [3, 4, 2]
-                    dim: 1
-
-                Input:
-                    Data: [[A],[A],[A],[B],[B],[B],[B],[C],[C]]
-
-                Output:
-                    Element 1: [[A],[A],[A]]
-                    Element 2: [[B],[B],[B],[B]]
-                    Element 3: [[C],[C]]
-    
-        See also:
-            :func:`MultiModalFieldConfig.flat`
+        ```
+        Given:
+            size_per_item: [3, 4, 2]
+
+        Input:
+            Data: [AAABBBBCC]
+
+        Output:
+            Element 1: [AAA]
+            Element 2: [BBBB]
+            Element 3: [CC]
+        ```
+
+        ```
+        Given:
+            slices: [3, 4, 2]
+            dim: 1
+
+        Input:
+            Data: [[A],[A],[A],[B],[B],[B],[B],[C],[C]]
+
+        Output:
+            Element 1: [[A],[A],[A]]
+            Element 2: [[B],[B],[B],[B]]
+            Element 3: [[C],[C]]
+        ```
+
+        :::{seealso}
+        {func}`MultiModalFieldConfig.flat`
+        :::
         """
 
         if size_per_item.ndim != 1:
@@ -535,19 +538,19 @@ class MultiModalFieldConfig:
 
         Example:
 
-            .. code-block::
-        
-                Given:
-                    batch_size: 4
+        ```
+        Given:
+            batch_size: 4
 
-                Input:
-                    Data: [XYZ]
+        Input:
+            Data: [XYZ]
 
-                Output:
-                    Element 1: [XYZ]
-                    Element 2: [XYZ]
-                    Element 3: [XYZ]
-                    Element 4: [XYZ]
+        Output:
+            Element 1: [XYZ]
+            Element 2: [XYZ]
+            Element 3: [XYZ]
+            Element 4: [XYZ]
+        ```
         """
         return MultiModalFieldConfig(
             field=MultiModalSharedField(batch_size),
@@ -570,8 +573,8 @@ class MultiModalFieldConfig:
 
 class MultiModalKwargsItem(UserDict[str, MultiModalFieldElem]):
     """
-    A collection of :class:`MultiModalFieldElem`
-    corresponding to a data item in :class:`MultiModalDataItems`.
+    A collection of {class}`MultiModalFieldElem`
+    corresponding to a data item in {class}`MultiModalDataItems`.
     """
 
     @staticmethod
@@ -590,11 +593,11 @@ class MultiModalKwargsItem(UserDict[str, MultiModalFieldElem]):
 class MultiModalKwargs(UserDict[str, NestedTensors]):
     """
     A dictionary that represents the keyword arguments to
-    :meth:`~torch.nn.Module.forward`.
+    {meth}`~torch.nn.Module.forward`.
 
-    The metadata :code:`items` enables us to obtain the keyword arguments
-    corresponding to each data item in :class:`MultiModalDataItems`, via
-    :meth:`get_item` and :meth:`get_items`.
+    The metadata `items` enables us to obtain the keyword arguments
+    corresponding to each data item in {class}`MultiModalDataItems`, via
+    {meth}`get_item` and {meth}`get_items`.
     """
 
     @staticmethod
@@ -633,7 +636,7 @@ class MultiModalKwargs(UserDict[str, NestedTensors]):
 
     @staticmethod
     def from_items(items: Sequence[MultiModalKwargsItem]):
-        """Construct a new :class:`MultiModalKwargs` from multiple items."""
+        """Construct a new {class}`MultiModalKwargs` from multiple items."""
         elems_by_key = defaultdict[str, list[MultiModalFieldElem]](list)
         for item in items:
             for key, elem in item.items():
@@ -798,7 +801,7 @@ A dictionary containing placeholder ranges for each modality.
 class MultiModalInputs(TypedDict):
     """
     Represents the outputs of
-    :class:`vllm.multimodal.processing.BaseMultiModalProcessor`,
+    {class}`vllm.multimodal.processing.BaseMultiModalProcessor`,
     ready to be passed to vLLM internals.
     """
 
@@ -823,7 +826,7 @@ class MultiModalInputs(TypedDict):
     mm_placeholders: MultiModalPlaceholderDict
     """
     For each modality, information about the placeholder tokens in
-    :code:`prompt_token_ids`.
+    `prompt_token_ids`.
     """
 
     cache_salt: NotRequired[str]
@@ -834,7 +837,7 @@ class MultiModalInputs(TypedDict):
 
 class MultiModalEncDecInputs(MultiModalInputs):
     """
-    Represents the outputs of :class:`vllm.multimodal.EncDecMultiModalProcessor`
+    Represents the outputs of {class}`vllm.multimodal.EncDecMultiModalProcessor`
     ready to be passed to vLLM internals.
     """
 
diff --git a/vllm/multimodal/parse.py b/vllm/multimodal/parse.py
index 9707b9cfc..f9588431c 100644
--- a/vllm/multimodal/parse.py
+++ b/vllm/multimodal/parse.py
@@ -25,7 +25,7 @@ _I = TypeVar("_I")
 
 class ModalityDataItems(ABC, Generic[_T, _I]):
     """
-    Represents data items for a modality in :class:`MultiModalDataItems`.
+    Represents data items for a modality in {class}`MultiModalDataItems`.
     """
 
     def __init__(self, data: _T, modality: str) -> None:
@@ -246,7 +246,7 @@ _D = TypeVar("_D", bound=ModalityDataItems[Any, Any])
 
 class MultiModalDataItems(UserDict[str, ModalityDataItems[Any, Any]]):
     """
-    As :data:`~vllm.multimodal.inputs.MultiModalDataDict`, but normalized
+    As {data}`~vllm.multimodal.inputs.MultiModalDataDict`, but normalized
     such that each entry corresponds to a list.
     """
 
@@ -254,7 +254,7 @@ class MultiModalDataItems(UserDict[str, ModalityDataItems[Any, Any]]):
         """
         Get the number of data items belonging to a modality.
         
-        If `strict=False`, return `0` instead of raising :exc:`KeyError`
+        If `strict=False`, return `0` instead of raising {exc}`KeyError`
         even if the modality is not found.
         """
         if modality not in self:
@@ -300,8 +300,8 @@ ModalityDataParser: TypeAlias = Callable[[ModalityData[Any]],
 
 class MultiModalDataParser:
     """
-    Parses :data:`~vllm.multimodal.inputs.MultiModalDataDict` into
-    :class:`MultiModalDataItems`.
+    Parses {data}`~vllm.multimodal.inputs.MultiModalDataDict` into
+    {class}`MultiModalDataItems`.
 
     Args:
         target_sr (float, optional): Enables automatic resampling of audio
diff --git a/vllm/multimodal/processing.py b/vllm/multimodal/processing.py
index 58168d0e8..27b059b3e 100644
--- a/vllm/multimodal/processing.py
+++ b/vllm/multimodal/processing.py
@@ -111,13 +111,13 @@ class PromptUpdateDetails(Generic[_S]):
 
     is_embed: Optional[Callable[["_BoundPromptSequence"], torch.Tensor]] = None
     """
-    Given :attr:`full`, return a boolean mask of shape `(len(full),)`
+    Given {attr}`full`, return a boolean mask of shape `(len(full),)`
     indicating which positions of `full` to assign embeddings to.
 
     `None` (default) means to assign embeddings to all positions of `full`.
 
     The embeddings are obtained by calling
-    :class:`SupportsMultiModal.get_multimodal_embeddings`.
+    {class}`SupportsMultiModal.get_multimodal_embeddings`.
     """
 
     @staticmethod
@@ -156,13 +156,13 @@ PromptUpdateInfo = Union[PromptSeq, PromptUpdateDetails]
 The token sequence or text that are part of the update.
 
 If only part of the content corresponds to feature placeholders, you can
-use :class:`PromptUpdateDetails` to specify which part.
+use {class}`PromptUpdateDetails` to specify which part.
 """
 
 PromptUpdateContent = Union[Callable[[int], PromptUpdateInfo],
                             PromptUpdateInfo]
 """
-Given the index of the processed item within :attr:`modality`,
+Given the index of the processed item within {attr}`modality`,
 output the corresponding token sequence (or text).
 
 For convenience, you can directly pass in the token sequence (or text)
@@ -213,52 +213,52 @@ class PromptInsertion(PromptUpdate):
 
     Example:
 
-        For each image, insert a number of ``<image>`` feature placeholders
-        equal to the feature size of the vision encoder after the ``<s>`` token:
-
-        .. code-block:: python
-
-            PromptInsertion(
-                modality="image",
-                target="<s>",
-                insertion="<image>" * image_feature_size,
-            )
-
-        Insert these tokens at the start of the prompt:
-
-        .. code-block:: python
-
-            PromptInsertion(
-                modality="image",
-                target=PromptIndexTargets.start(),
-                insertion="<image>" * image_feature_size,
-            )
-
-        Insert these tokens after a prefix ``Images:``:
-
-        .. code-block:: python
-
-            PromptInsertion(
-                modality="image",
-                target=PromptIndexTargets.prefix("Images:"),
-                insertion="<image>" * image_feature_size,
-            )
-
-        Insert these tokens at the end of the prompt:
-
-        .. code-block:: python
-
-            PromptInsertion(
-                modality="image",
-                target=PromptIndexTargets.end(),
-                insertion="<image>" * image_feature_size,
-            )
+    For each image, insert a number of ``<image>`` feature placeholders
+    equal to the feature size of the vision encoder after the ``<s>`` token:
+
+    ```python
+    PromptInsertion(
+        modality="image",
+        target="<s>",
+        insertion="<image>" * image_feature_size,
+    )
+    ```
+
+    Insert these tokens at the start of the prompt:
+
+    ```python
+    PromptInsertion(
+        modality="image",
+        target=PromptIndexTargets.start(),
+        insertion="<image>" * image_feature_size,
+    )
+    ```
+
+    Insert these tokens after a prefix ``Images:``:
+
+    ```python
+    PromptInsertion(
+        modality="image",
+        target=PromptIndexTargets.prefix("Images:"),
+        insertion="<image>" * image_feature_size,
+    )
+    ```
+
+    Insert these tokens at the end of the prompt:
+
+    ```python
+    PromptInsertion(
+        modality="image",
+        target=PromptIndexTargets.end(),
+        insertion="<image>" * image_feature_size,
+    )
+    ```
     """
 
     insertion: PromptUpdateContent = field(repr=False)
     """
-    Given the index of the processed item within :attr:`modality`,
-    output the token sequence (or text) to insert right after :attr:`target`.
+    Given the index of the processed item within {attr}`modality`,
+    output the token sequence (or text) to insert right after {attr}`target`.
 
     For convenience, you can directly pass in the token sequence (or text)
     instead of a function if it does not depend on the input.
@@ -280,57 +280,57 @@ class PromptReplacement(PromptUpdate):
 
     Example:
 
-        For each image, replace one ``<image>`` input placeholder in the prompt
-        with a number of ``<image>`` feature placeholders
-        equal to the feature size of the vision encoder:
-
-        .. code-block:: python
-
-            PromptReplacement(
-                modality="image",
-                target="<image>",
-                replacement="<image>" * image_feature_size,
-            )
-
-        As above, but further pad the feature placeholders with ``<image_bos>``
-        and `<image_eos>``, which are not supposed to be passed to the vision
-        encoder:
-
-        .. code-block:: python
-
-            PromptReplacement(
-                modality="image",
-                target="<image>",
-                replacement=PromptUpdateDetails(
-                    full="".join([
-                        "<image_bos>",
-                        "<image>" * image_feature_size,
-                        "<image_eos>",
-                    ]),
-                    features="<image>" * image_feature_size,
-                ),
-            )
-
-        To avoid unnecessary tokenization during prompt replacement,
-        we recommended passing token sequences instead of text:
-
-        .. code-block:: python
-
-            PromptReplacement(
-                modality="image",
-                target=[image_token_id],
-                replacement=PromptUpdateDetails(
-                    full=([image_bos_id] + [image_token_id] * image_feature_size
-                          + [image_eos_id]),
-                    features=[image_token_id] * image_feature_size,
-                ),
-            )
+    For each image, replace one ``<image>`` input placeholder in the prompt
+    with a number of ``<image>`` feature placeholders
+    equal to the feature size of the vision encoder:
+
+    ```python
+    PromptReplacement(
+        modality="image",
+        target="<image>",
+        replacement="<image>" * image_feature_size,
+    )
+    ```
+
+    As above, but further pad the feature placeholders with ``<image_bos>``
+    and `<image_eos>``, which are not supposed to be passed to the vision
+    encoder:
+
+    ```python
+    PromptReplacement(
+        modality="image",
+        target="<image>",
+        replacement=PromptUpdateDetails(
+            full="".join([
+                "<image_bos>",
+                "<image>" * image_feature_size,
+                "<image_eos>",
+            ]),
+            features="<image>" * image_feature_size,
+        ),
+    )
+    ```
+
+    To avoid unnecessary tokenization during prompt replacement,
+    we recommended passing token sequences instead of text:
+
+    ```python
+    PromptReplacement(
+        modality="image",
+        target=[image_token_id],
+        replacement=PromptUpdateDetails(
+            full=([image_bos_id] + [image_token_id] * image_feature_size
+                    + [image_eos_id]),
+            features=[image_token_id] * image_feature_size,
+        ),
+    )
+    ```
     """
 
     replacement: PromptUpdateContent = field(repr=False)
     """
-    Given the index of the processed item within :attr:`modality`,
-    output the token sequence (or text) to replace :attr:`target`.
+    Given the index of the processed item within {attr}`modality`,
+    output the token sequence (or text) to replace {attr}`target`.
 
     For convenience, you can directly pass in the token sequence (or text)
     instead of a function if it does not depend on the input.
@@ -384,14 +384,14 @@ _M = TypeVar("_M", bound=Union[_HasModalityAttr, _HasModalityProp])
 
 
 def full_groupby_modality(values: Iterable[_M]) -> ItemsView[str, list[_M]]:
-    """Convenience function to apply :func:`full_groupby` based on modality."""
+    """Convenience function to apply {func}`full_groupby` based on modality."""
     return full_groupby(values, key=lambda x: x.modality)
 
 
 @dataclass
 class _BoundPromptSequence:
     """
-    A :data:`_PromptSeq` bound to a tokenizer to automatically
+    A {data}`_PromptSeq` bound to a tokenizer to automatically
     convert between token sequence and text representations.
     """
     tokenizer: AnyTokenizer = field(repr=False)
@@ -443,8 +443,8 @@ class _BoundPromptContent:
 @dataclass
 class BoundPromptUpdate:
     """
-    A :class:`PromptUpdate` bound to a tokenizer to automatically convert
-    :attr:`target` and the result of :meth:`get_content` between
+    A {class}`PromptUpdate` bound to a tokenizer to automatically convert
+    {attr}`target` and the result of {meth}`get_content` between
     token sequence and text representations.
     """
     _origin: PromptUpdate
@@ -479,7 +479,7 @@ class BoundPromptUpdate:
 
     def get_content(self, item_idx: int) -> _BoundPromptContent:
         """
-        Given the index of the processed item within :attr:`modality`,
+        Given the index of the processed item within {attr}`modality`,
         output the token sequence (or text) to update.
         """
         content = self.content
@@ -516,7 +516,7 @@ def iter_token_matches(
     match_ids: list[int],
 ) -> Generator[_TokenMatch]:
     """
-    Yield each occurrence of :code:`match_ids` in :code:`token_ids`.
+    Yield each occurrence of `match_ids` in `token_ids`.
 
     Note that empty matches are ignored.
     """
@@ -545,8 +545,8 @@ def replace_token_matches(
     new_ids: list[int],
 ) -> list[int]:
     """
-    Replace each occurrence of :code:`match_ids` in :code:`token_ids`
-    with :code:`new_ids`.
+    Replace each occurrence of `match_ids` in `token_ids`
+    with `new_ids`.
 
     Note that empty matches are ignored.
     """
@@ -654,7 +654,7 @@ def find_token_matches(
     prompt: list[int],
     prompt_updates: Sequence[BoundPromptUpdate],
 ) -> Sequence[PromptTargetMatch]:
-    """Return each target of :code:`prompt_updates` found in :code:`prompt`."""
+    """Return each target of `prompt_updates` found in `prompt`."""
 
     def get_matches(update: BoundPromptUpdate):
         target = update.target
@@ -680,7 +680,7 @@ def find_text_matches(
     prompt: str,
     prompt_updates: Sequence[BoundPromptUpdate],
 ) -> Sequence[PromptTargetMatch]:
-    """Return each target of :code:`prompt_updates` found in :code:`prompt`."""
+    """Return each target of `prompt_updates` found in `prompt`."""
 
     def get_matches(update: BoundPromptUpdate):
         target = update.target
@@ -707,7 +707,7 @@ def _resolve_matches(
     mm_matches: Mapping[str, Sequence[PromptTargetMatch]],
 ) -> list[PromptTargetMatch]:
     """
-    Resolve :code:`mm_matches` to ensure that there are no overlapping matches,
+    Resolve `mm_matches` to ensure that there are no overlapping matches,
     and sort them such that earlier matches take priority over later ones.
     """
     matches = [m for matches in mm_matches.values() for m in matches]
@@ -731,7 +731,7 @@ def _apply_matches(
     mm_matches: Mapping[str, Sequence[PromptTargetMatch]],
     mm_item_counts: Mapping[str, int],
 ) -> list[_S]:
-    """Apply the updates in :code:`mm_matches` to :code:`prompt`."""
+    """Apply the updates in `mm_matches` to `prompt`."""
     out_seqs = list[Union[str, list[int]]]()
     prev_end_idx = 0
     next_idx_by_modality = defaultdict[str, int](lambda: 0)
@@ -780,7 +780,7 @@ def apply_token_matches(
     mm_matches: Mapping[str, Sequence[PromptTargetMatch]],
     mm_item_counts: Mapping[str, int],
 ) -> list[int]:
-    """Apply the updates in :code:`mm_matches` to :code:`prompt`."""
+    """Apply the updates in `mm_matches` to `prompt`."""
     if not mm_matches:
         return prompt
 
@@ -794,7 +794,7 @@ def apply_text_matches(
     mm_matches: Mapping[str, Sequence[PromptTargetMatch]],
     mm_item_counts: Mapping[str, int],
 ) -> str:
-    """Apply the updates in :code:`mm_matches` to :code:`prompt`."""
+    """Apply the updates in `mm_matches` to `prompt`."""
     if not mm_matches:
         return prompt
 
@@ -809,7 +809,7 @@ def _iter_placeholders(
     mm_item_counts: Mapping[str, int],
 ) -> Iterable[PlaceholderFeaturesInfo]:
     """
-    Yield each set of placeholder tokens found in :code:`prompt`.
+    Yield each set of placeholder tokens found in `prompt`.
 
     Matches are exclusive even when multiple modalities share
     the same placeholder tokens. In that case, the modality that
@@ -1016,7 +1016,7 @@ class ProcessingCache:
     ) -> None:
         """
         Put a processed multi-modal item into the cache
-        according to its dependencies (see :meth:`get`).
+        according to its dependencies (see {meth}`get`).
         """
         cache_key = MultiModalHasher.hash_kwargs(model_id=model_id,
                                                  **{modality: input_item},
@@ -1083,7 +1083,7 @@ _I = TypeVar("_I", bound=BaseProcessingInfo)
 
 MultiModalHashes = dict[str, list[str]]
 """
-A collection of hashes with a similar structure as :class:`MultiModalKwargs`.
+A collection of hashes with a similar structure as {class}`MultiModalKwargs`.
 """
 
 
@@ -1091,7 +1091,7 @@ class BaseMultiModalProcessor(ABC, Generic[_I]):
     """
     Abstract base class to process multi-modal inputs to be used in vLLM.
 
-    Not to be confused with :class:`transformers.ProcessorMixin`.
+    Not to be confused with {class}`transformers.ProcessorMixin`.
     """
 
     def __init__(self,
@@ -1118,10 +1118,10 @@ class BaseMultiModalProcessor(ABC, Generic[_I]):
     def _get_data_parser(self) -> MultiModalDataParser:
         """
         Construct a parser to preprocess multi-modal data items
-        before passing them to :meth:`_get_hf_mm_data`.
+        before passing them to {meth}`_get_hf_mm_data`.
 
         You can support additional modalities by creating a subclass
-        of :class:`MultiModalDataParser` that has additional subparsers.
+        of {class}`MultiModalDataParser` that has additional subparsers.
         """
         return MultiModalDataParser()
 
@@ -1130,8 +1130,8 @@ class BaseMultiModalProcessor(ABC, Generic[_I]):
         mm_data: MultiModalDataDict,
     ) -> MultiModalDataItems:
         """
-        Normalize :class:`MultiModalDataDict` to :class:`MultiModalDataItems`
-        before passing them to :meth:`_get_hf_mm_data`.
+        Normalize {class}`MultiModalDataDict` to {class}`MultiModalDataItems`
+        before passing them to {meth}`_get_hf_mm_data`.
         """
         mm_items = self.data_parser.parse_mm_data(mm_data)
         supported_mm_limits = self.info.get_supported_mm_limits()
@@ -1183,7 +1183,7 @@ class BaseMultiModalProcessor(ABC, Generic[_I]):
         inputs.
 
         Moreover, this information is critical to determine the token positions
-        in order to construct  :class:`~vllm-multimodal.input.PlaceholderRange`
+        in order to construct  {class}`~vllm-multimodal.input.PlaceholderRange`
         for each multi-modal item.
         """
         raise NotImplementedError
@@ -1237,8 +1237,8 @@ class BaseMultiModalProcessor(ABC, Generic[_I]):
         """
         Return whether the HF processor applies prompt updates.
 
-        For most HF processors, this should be :code:`True` when multi-modal
-        data items are passed, but :code:`False` when multi-modal embeddings
+        For most HF processors, this should be `True` when multi-modal
+        data items are passed, but `False` when multi-modal embeddings
         are passed.
         """
         return not any(
@@ -1307,7 +1307,7 @@ class BaseMultiModalProcessor(ABC, Generic[_I]):
         Most HF processors accept prompt text but not prompt tokens.
         If the HF processor adds or removes tokens that are not related to
         multi-modal data, you should override this method so it is consistent
-        with the output of :meth:`_apply_hf_processor_text_only` on the
+        with the output of {meth}`_apply_hf_processor_text_only` on the
         corresponding text.
         """
         return prompt_tokens
@@ -1322,7 +1322,7 @@ class BaseMultiModalProcessor(ABC, Generic[_I]):
 
         Since HF processor requires that text and multi-modal items
         correspond to each other, we generate dummy text using
-        :class:`DummyInputsBuilder` to go along with the multi-modal data.
+        {class}`DummyInputsBuilder` to go along with the multi-modal data.
         """
         mm_counts = mm_items.get_all_counts()
 
@@ -1346,10 +1346,10 @@ class BaseMultiModalProcessor(ABC, Generic[_I]):
         Apply the HF processor on the prompt text and multi-modal data.
 
         In addition, return whether prompt updates have been applied
-        (for most HF processors, this should be :code:`True`).
+        (for most HF processors, this should be `True`).
 
         Note:
-            If :code:`enable_hf_prompt_update=False`, we use HF processor
+            If `enable_hf_prompt_update=False`, we use HF processor
             to perform prompt updates if available; HF processor requires
             that the prompt corresponds to multi-modal items.
         """
diff --git a/vllm/multimodal/profiling.py b/vllm/multimodal/profiling.py
index b351acc8c..b5875124c 100644
--- a/vllm/multimodal/profiling.py
+++ b/vllm/multimodal/profiling.py
@@ -25,7 +25,7 @@ logger = init_logger(__name__)
 class ProcessorInputs:
     """
     Represents the keyword arguments to
-    :meth:`vllm.multimodal.processing.BaseMultiModalProcessor.apply`.
+    {meth}`vllm.multimodal.processing.BaseMultiModalProcessor.apply`.
     """
     prompt_text: str
     mm_data: MultiModalDataDict
@@ -63,7 +63,7 @@ class BaseDummyInputsBuilder(ABC, Generic[_I]):
     # TODO: @abstractmethod after transition
     def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
         """
-        Build the text input corresponding to :code:`mm_counts`.
+        Build the text input corresponding to `mm_counts`.
         """
         if (type(self).get_dummy_processor_inputs ==
                 BaseDummyInputsBuilder.get_dummy_processor_inputs):
diff --git a/vllm/multimodal/registry.py b/vllm/multimodal/registry.py
index 9d2b4e486..3e62f4c43 100644
--- a/vllm/multimodal/registry.py
+++ b/vllm/multimodal/registry.py
@@ -29,7 +29,7 @@ _I_co = TypeVar("_I_co", bound=BaseProcessingInfo, covariant=True)
 
 
 class ProcessingInfoFactory(Protocol[_I_co]):
-    """Constructs a :class:`MultiModalProcessor` instance from the context."""
+    """Constructs a {class}`MultiModalProcessor` instance from the context."""
 
     def __call__(
         self,
@@ -40,7 +40,7 @@ class ProcessingInfoFactory(Protocol[_I_co]):
 
 class DummyInputsBuilderFactory(Protocol[_I]):
     """
-    Constructs a :class:`BaseDummyInputsBuilder` instance from the context.
+    Constructs a {class}`BaseDummyInputsBuilder` instance from the context.
     """
 
     def __call__(self, info: _I) -> BaseDummyInputsBuilder[_I]:
@@ -48,7 +48,7 @@ class DummyInputsBuilderFactory(Protocol[_I]):
 
 
 class MultiModalProcessorFactory(Protocol[_I]):
-    """Constructs a :class:`MultiModalProcessor` instance from the context."""
+    """Constructs a {class}`MultiModalProcessor` instance from the context."""
 
     def __call__(
         self,
@@ -150,7 +150,7 @@ class MultiModalRegistry:
         Get the maximum number of tokens from each modality
         for profiling the memory usage of a model.
 
-        See :meth:`MultiModalPlugin.get_max_multimodal_tokens` for more details.
+        See {meth}`MultiModalPlugin.get_max_multimodal_tokens` for more details.
         """
         mm_limits = self.get_mm_limits_per_prompt(model_config)
 
@@ -165,7 +165,7 @@ class MultiModalRegistry:
         Get the maximum number of multi-modal tokens
         for profiling the memory usage of a model.
 
-        See :meth:`MultiModalPlugin.get_max_multimodal_tokens` for more details.
+        See {meth}`MultiModalPlugin.get_max_multimodal_tokens` for more details.
         """
         return sum(self.get_max_tokens_by_modality(model_config).values())
 
@@ -208,8 +208,9 @@ class MultiModalRegistry:
         When the model receives multi-modal data, the provided function is
         invoked to transform the data into a dictionary of model inputs.
 
-        See also:
-            :ref:`mm-processing`
+        :::{seealso}
+        {ref}`mm-processing`
+        :::
         """
 
         def wrapper(model_cls: N) -> N:
@@ -253,8 +254,9 @@ class MultiModalRegistry:
         """
         Create a multi-modal processor for a specific model and tokenizer.
 
-        See also:
-            :ref:`mm-processing`
+        :::{seealso}
+        {ref}`mm-processing`
+        :::
         """
         if not model_config.is_multimodal_model:
             raise ValueError(f"{model_config.model} is not a multimodal model")
diff --git a/vllm/multimodal/utils.py b/vllm/multimodal/utils.py
index 3f9b5be28..aef5f669a 100644
--- a/vllm/multimodal/utils.py
+++ b/vllm/multimodal/utils.py
@@ -2,7 +2,7 @@
 
 from itertools import groupby
 from pathlib import Path
-from typing import TYPE_CHECKING, Optional, TypeVar, Union
+from typing import TYPE_CHECKING, Any, Optional, TypeVar, Union
 from urllib.parse import ParseResult, urlparse
 
 import numpy as np
@@ -24,6 +24,10 @@ _M = TypeVar("_M")
 if TYPE_CHECKING:
     from .hasher import MultiModalHashDict
     from .inputs import MultiModalKwargs, MultiModalPlaceholderDict
+else:
+    MultiModalHashDict = Any
+    MultiModalKwargs = Any
+    MultiModalPlaceholderDict = Any
 
 
 class MediaConnector:
@@ -255,7 +259,7 @@ class MediaConnector:
 
 
 global_media_connector = MediaConnector()
-"""The global :class:`MediaConnector` instance used by vLLM."""
+"""The global {class}`MediaConnector` instance used by vLLM."""
 
 fetch_audio = global_media_connector.fetch_audio
 fetch_image = global_media_connector.fetch_image
@@ -293,24 +297,24 @@ def encode_video_base64(frames: npt.NDArray) -> str:
 
 
 def merge_and_sort_multimodal_metadata(
-    mm_positions: "MultiModalPlaceholderDict",
-    mm_hashes: Optional["MultiModalHashDict"],
+    mm_positions: MultiModalPlaceholderDict,
+    mm_hashes: Optional[MultiModalHashDict],
 ) -> tuple[list[str], list[PlaceholderRange], Optional[list[str]]]:
     """Given a MultiModalPlaceholderDict, merge all PlaceholderRange
     objects from all available modalities into a single list of 
-    PlaceholderRange, sorted by their offset (starting index in the input 
+    PlaceholderRange, sorted by their offset (starting index in the input
     sequence) in the ascending order.
 
-    Optionally if a MultiModalHashDict is given, same operation will be 
+    Optionally if a `MultiModalHashDict` is given, same operation will be
     applied to the object and the sorted list of hashes will be returned.
     
     Returns:
-        list[str]: List of item modalities in order of their positions in
-            the input sequence.
-        list[PlaceholderRange]: Sorted list of all PlaceholdeRanges from 
-            mm_positions.
-        Optional[list[str]]: Sorted list of all hashes from mm_hashes if 
-            given, None otherwise.
+        list[str]: List of item modalities in order of their positions in the
+        input sequence.
+        list[PlaceholderRange]: Sorted list of all PlaceholdeRanges from
+        mm_positions.
+        Optional[list[str]]: Sorted list of all hashes from mm_hashes if given,
+        None otherwise.
     """
 
     modalities = list(mm_positions.keys())
@@ -352,22 +356,23 @@ def merge_and_sort_multimodal_metadata(
 
 
 def group_mm_inputs_by_modality(
-        mm_inputs: list["MultiModalKwargs"]) -> list[list["MultiModalKwargs"]]:
-    """Group consecutive MultiModalKwargs from mm_inputs with the same modality 
-    together into the same list for batching purpose. For MultiModalKwargs with 
+        mm_inputs: list[MultiModalKwargs]) -> list[list[MultiModalKwargs]]:
+    """Group consecutive MultiModalKwargs from mm_inputs with the same modality
+    together into the same list for batching purpose. For MultiModalKwargs with
     multiple modalities, put them into their own list.
 
     Args:
         mm_inputs: List of MultiModalKwargs.
 
     Returns:
-        list[list[MultiModalKwargs]]: List of list of MultiModalKwargs, each 
-        inner list contains consecutive MultiModalKwargs with same modality.
+        list[list[vllm.multimodal.MultiModalKwargs]]: List of list of
+        `MultiModalKwargs`, each inner list contains consecutive
+        `MultiModalKwargs` with same modality.
     """
     if not mm_inputs:
         return []
 
-    def modality_group_func(mm_input: "MultiModalKwargs") -> Union[str, int]:
+    def modality_group_func(mm_input: MultiModalKwargs) -> Union[str, int]:
         # If the input has multiple modalities, return a id as the unique key
         # for the mm_input input.
         if len(mm_input.modalities) > 1:
diff --git a/vllm/platforms/cpu.py b/vllm/platforms/cpu.py
index 70553354a..e45522a4c 100644
--- a/vllm/platforms/cpu.py
+++ b/vllm/platforms/cpu.py
@@ -19,8 +19,6 @@ if TYPE_CHECKING:
 else:
     VllmConfig = None
 
-logger = init_logger(__name__)
-
 
 class CpuPlatform(Platform):
     _enum = PlatformEnum.CPU
diff --git a/vllm/platforms/cuda.py b/vllm/platforms/cuda.py
index f82af426b..ab03dece8 100644
--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
@@ -454,10 +454,4 @@ finally:
 
 CudaPlatform = NvmlCudaPlatform if nvml_available else NonNvmlCudaPlatform
 
-try:
-    from sphinx.ext.autodoc.mock import _MockModule
-
-    if not isinstance(pynvml, _MockModule):
-        CudaPlatform.log_warnings()
-except ModuleNotFoundError:
-    CudaPlatform.log_warnings()
+CudaPlatform.log_warnings()
diff --git a/vllm/platforms/interface.py b/vllm/platforms/interface.py
index 6a78e00a9..5df0e9d3d 100644
--- a/vllm/platforms/interface.py
+++ b/vllm/platforms/interface.py
@@ -146,7 +146,7 @@ class Platform:
         return self._enum == PlatformEnum.OOT
 
     def is_cuda_alike(self) -> bool:
-        """Stateless version of :func:`torch.cuda.is_available`."""
+        """Stateless version of {func}`torch.cuda.is_available`."""
         return self._enum in (PlatformEnum.CUDA, PlatformEnum.ROCM)
 
     def is_sleep_mode_available(self) -> bool:
@@ -165,7 +165,7 @@ class Platform:
         cls,
         device_id: int = 0,
     ) -> Optional[DeviceCapability]:
-        """Stateless version of :func:`torch.cuda.get_device_capability`."""
+        """Stateless version of {func}`torch.cuda.get_device_capability`."""
         return None
 
     @classmethod
@@ -180,7 +180,7 @@ class Platform:
         The ``capability`` argument can either be:
 
         - A tuple ``(major, minor)``.
-        - An integer ``<major><minor>``. (See :meth:`DeviceCapability.to_int`)
+        - An integer ``<major><minor>``. (See {meth}`DeviceCapability.to_int`)
         """
         current_capability = cls.get_device_capability(device_id=device_id)
         if current_capability is None:
diff --git a/vllm/profiler/__init__.py b/vllm/profiler/__init__.py
index 00af72b1d..e69de29bb 100644
--- a/vllm/profiler/__init__.py
+++ b/vllm/profiler/__init__.py
@@ -1,7 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-
-from .layerwise_profile import layerwise_profile
-
-__all__ = [
-    "layerwise_profile",
-]
diff --git a/vllm/sequence.py b/vllm/sequence.py
index 5bc9b8a6f..91f769d6d 100644
--- a/vllm/sequence.py
+++ b/vllm/sequence.py
@@ -27,7 +27,7 @@ VLLM_INVALID_TOKEN_ID = -1
 
 
 def array_full(token_id: int, count: int):
-    """:class:`array` equivalent of :func:`numpy.full`."""
+    """{class}`array` equivalent of {func}`numpy.full`."""
     return array(VLLM_TOKEN_ID_ARRAY_TYPE, [token_id]) * count
 
 
@@ -192,11 +192,11 @@ class SequenceData(msgspec.Struct,
     def from_prompt_token_counts(
             *token_counts: tuple[int, int]) -> "SequenceData":
         """
-        Construct a :class:`SequenceData` instance by concatenating
+        Construct a {class}`SequenceData` instance by concatenating
         prompt token sequences.
 
         Each tuple represents one token sequence, expressed in the form
-        :code:`(token_id, count)`.
+        `(token_id, count)`.
         """
         if len(token_counts) == 0:
             return SequenceData.from_seqs([])
@@ -216,7 +216,7 @@ class SequenceData(msgspec.Struct,
         prompt_embeds: Optional[torch.Tensor] = None,
     ) -> "SequenceData":
         """
-        Construct a :class:`SequenceData` instance from prompt and output
+        Construct a {class}`SequenceData` instance from prompt and output
         token sequences.
         """
         prompt_token_ids_arr = array(VLLM_TOKEN_ID_ARRAY_TYPE,
@@ -452,9 +452,9 @@ class SequenceData(msgspec.Struct,
 class Sequence:
     """Stores the data, status, and block information of a sequence.
 
-    The sequence is constructed from the :data:`DecoderOnlyInputs`
-    (for decoder-only) or :data:`EncoderDecoderInputs` (for encoder-decoder)
-    instance passed in through the :code:`inputs` constructor argument.
+    The sequence is constructed from the {data}`DecoderOnlyInputs`
+    (for decoder-only) or {data}`EncoderDecoderInputs` (for encoder-decoder)
+    instance passed in through the `inputs` constructor argument.
 
     Args:
         seq_id: The ID of the sequence.
diff --git a/vllm/spec_decode/smaller_tp_proposer_worker.py b/vllm/spec_decode/smaller_tp_proposer_worker.py
index 691956246..ea3d91d78 100644
--- a/vllm/spec_decode/smaller_tp_proposer_worker.py
+++ b/vllm/spec_decode/smaller_tp_proposer_worker.py
@@ -52,7 +52,8 @@ class SmallerTpProposerWorker(ProposerWorkerBase):
         """Create a SmallerTpProposerWorker.
 
         Args:
-            worker (MultiStepWorker): an actual worker wrapped with this class
+            worker (~vllm.spec_decode.multi_step_worker.MultiStepWorker): an
+            actual worker wrapped with this class
             draft_ranks (List[int]): if this value is given, only the GPU ranks
             written in this value participate in draft generation
         """
diff --git a/vllm/transformers_utils/configs/dbrx.py b/vllm/transformers_utils/configs/dbrx.py
index 8f40b2b7d..bffa127fe 100644
--- a/vllm/transformers_utils/configs/dbrx.py
+++ b/vllm/transformers_utils/configs/dbrx.py
@@ -196,8 +196,7 @@ class DbrxConfig(PretrainedConfig):
         initializer_range (`float`, *optional*, defaults to 0.02):
             The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
         output_router_logits (`bool`, *optional*, defaults to `False`):
-            Whether or not the router logits should be returned by the model. Enabling this will also
-            allow the model to output the auxiliary loss. See [here]() for more details
+            Whether or not the router logits should be returned by the model. Enabling this will also allow the model to output the auxiliary loss.
         router_aux_loss_coef (`float`, *optional*, defaults to 0.001):
             The aux loss factor for the total loss.
 
diff --git a/vllm/transformers_utils/configs/exaone.py b/vllm/transformers_utils/configs/exaone.py
index 39364367e..818160419 100644
--- a/vllm/transformers_utils/configs/exaone.py
+++ b/vllm/transformers_utils/configs/exaone.py
@@ -35,22 +35,22 @@ class ExaoneConfig(PretrainedConfig):
     Instantiating a configuration with the defaults will yield a similar
     configuration to that of the Exaone
 
-    Configuration objects inherit from :class:`~transformers.PretrainedConfig`
+    Configuration objects inherit from {class}`~transformers.PretrainedConfig`
     and can be used to control the model outputs. Read the documentation from :
     class:`~transformers.PretrainedConfig` for more information.
 
     Args:
-        vocab_size (:obj:`int`, `optional`, defaults to 50257):
+        vocab_size ({obj}`int`, `optional`, defaults to 50257):
             Vocabulary size of the GPT Lingvo model. Defines the number of
-            different tokens that can be represented by the :obj:`inputs_ids`
-            passed when calling :class:`~transformers.ExaoneModel`. Vocabulary
+            different tokens that can be represented by the {obj}`inputs_ids`
+            passed when calling {class}`~transformers.ExaoneModel`. Vocabulary
             size of the model.
             Defines the different tokens that can be represented by the
             `inputs_ids` passed to the forward method of :class:
             `~transformers.EXAONEModel`.
-        hidden_size (:obj:`int`, `optional`, defaults to 2048):
+        hidden_size ({obj}`int`, `optional`, defaults to 2048):
             Dimensionality of the encoder layers and the pooler layer.
-        num_layers (:obj:`int`, `optional`, defaults to 24):
+        num_layers ({obj}`int`, `optional`, defaults to 24):
             Number of hidden layers in the Transformer encoder.
         num_attention_heads (`int`, *optional*, defaults to 32):
             Number of attention heads for each attention layer in the
@@ -68,37 +68,37 @@ class ExaoneConfig(PretrainedConfig):
             specified, will default to `num_attention_heads`.
         rotary_pct (`float`, *optional*, defaults to 0.25):
             percentage of hidden dimensions to allocate to rotary embeddings
-        intermediate_size (:obj:`int`, `optional`, defaults to 8192):
+        intermediate_size ({obj}`int`, `optional`, defaults to 8192):
             Dimensionality of the "intermediate" (i.e., feed-forward) layer in
             the Transformer encoder.
-        activation_function (:obj:`str` or :obj:`function`, `optional`,
-        defaults to :obj:`"gelu_new"`):
+        activation_function ({obj}`str` or {obj}`function`, `optional`,
+        defaults to {obj}`"gelu_new"`):
             The non-linear activation function (function or string) in the
-            encoder and pooler. If string, :obj:`"gelu"`, :obj:`"relu"`,
-            :obj:`"selu"` and :obj:`"gelu_new"` are supported.
-        embed_dropout (:obj:`float`, `optional`, defaults to 0.0):
+            encoder and pooler. If string, {obj}`"gelu"`, {obj}`"relu"`,
+            {obj}`"selu"` and {obj}`"gelu_new"` are supported.
+        embed_dropout ({obj}`float`, `optional`, defaults to 0.0):
             The dropout probabilitiy for all fully connected layers in the
             embeddings, encoder, and pooler.
-        attention_dropout (:obj:`float`, `optional`, defaults to 0.0):
+        attention_dropout ({obj}`float`, `optional`, defaults to 0.0):
             The dropout ratio for the attention probabilities.
-        max_position_embeddings (:obj:`int`, `optional`, defaults to 2048):
+        max_position_embeddings ({obj}`int`, `optional`, defaults to 2048):
             The maximum sequence length that this model might ever be used with.
             Typically set this to something large just in case
             (e.g., 512 or 1024 or 2048).
-        type_vocab_size (:obj:`int`, `optional`, defaults to 2):
-            The vocabulary size of the :obj:`token_type_ids` passed when calling
-            :class:`~transformers.EXAONEModel`.
-        initializer_range (:obj:`float`, `optional`, defaults to 0.02):
+        type_vocab_size ({obj}`int`, `optional`, defaults to 2):
+            The vocabulary size of the {obj}`token_type_ids` passed when calling
+            {class}`~transformers.EXAONEModel`.
+        initializer_range ({obj}`float`, `optional`, defaults to 0.02):
             The standard deviation of the truncated_normal_initializer for
             initializing all weight matrices.
-        layer_norm_epsilon (:obj:`float`, `optional`, defaults to 1e-5):
+        layer_norm_epsilon ({obj}`float`, `optional`, defaults to 1e-5):
             The epsilon used by the layer normalization layers.
-        use_cache (:obj:`bool`, `optional`, defaults to :obj:`True`):
+        use_cache ({obj}`bool`, `optional`, defaults to {obj}`True`):
             Whether or not the model should return the last key/values
             attentions (not used by all models).
             Only relevant if ``config.is_decoder=True``.
-        gradient_checkpointing (:obj:`bool`, `optional`,
-        defaults to :obj:`False`):
+        gradient_checkpointing ({obj}`bool`, `optional`,
+        defaults to {obj}`False`):
             If True, use gradient checkpointing to save memory at the expense
             of slower backward pass.
         Example::
diff --git a/vllm/transformers_utils/tokenizer.py b/vllm/transformers_utils/tokenizer.py
index 57b9242b8..e31580ede 100644
--- a/vllm/transformers_utils/tokenizer.py
+++ b/vllm/transformers_utils/tokenizer.py
@@ -39,9 +39,9 @@ def decode_tokens(
 ) -> str:
     """
     Backend-agnostic equivalent of HF's
-    :code:`tokenizer.decode(token_ids, ...)`.
+    `tokenizer.decode(token_ids, ...)`.
 
-    :code:`skip_special_tokens=None` means to use the backend's default
+    `skip_special_tokens=None` means to use the backend's default
     settings.
     """
     if skip_special_tokens is not None:
@@ -61,9 +61,9 @@ def encode_tokens(
 ) -> list[int]:
     """
     Backend-agnostic equivalent of HF's
-    :code:`tokenizer.encode(text, ...)`.
+    `tokenizer.encode(text, ...)`.
 
-    :code:`add_special_tokens=None` means to use the backend's default
+    `add_special_tokens=None` means to use the backend's default
     settings.
     """
 
diff --git a/vllm/utils.py b/vllm/utils.py
index f85bbe3a5..3f334f94b 100644
--- a/vllm/utils.py
+++ b/vllm/utils.py
@@ -309,8 +309,8 @@ class LRUCache(cachetools.LRUCache[_K, _V], Generic[_K, _V]):
         """
         Gets the cumulative number of hits and queries against this cache.
 
-        If :code:`delta=True`, instead gets these statistics
-        since the last call that also passed :code:`delta=True`.
+        If `delta=True`, instead gets these statistics
+        since the last call that also passed `delta=True`.
         """
         info = CacheInfo(hits=self._hits, total=self._total)
 
@@ -983,7 +983,7 @@ def flatten_2d_lists(lists: Iterable[Iterable[T]]) -> list[T]:
 
 def full_groupby(values: Iterable[_V], *, key: Callable[[_V], _K]):
     """
-    Unlike :class:`itertools.groupby`, groups are not broken by
+    Unlike {class}`itertools.groupby`, groups are not broken by
     non-contiguous data.
     """
     groups = defaultdict[_K, list[_V]](list)
@@ -1773,14 +1773,6 @@ def get_cuda_view_from_cpu_tensor(cpu_tensor: torch.Tensor) -> torch.Tensor:
     return torch.ops._C.get_cuda_view_from_cpu_tensor(cpu_tensor)
 
 
-def is_in_doc_build() -> bool:
-    try:
-        from sphinx.ext.autodoc.mock import _MockModule
-        return isinstance(torch, _MockModule)
-    except ModuleNotFoundError:
-        return False
-
-
 def import_from_path(module_name: str, file_path: Union[str, os.PathLike]):
     """
     Import a Python file according to its file path.
@@ -1820,10 +1812,11 @@ class _PlaceholderBase:
     Disallows downstream usage of placeholder modules.
 
     We need to explicitly override each dunder method because
-    :meth:`__getattr__` is not called when they are accessed.
+    {meth}`__getattr__` is not called when they are accessed.
 
-    See also:
-        [Special method lookup](https://docs.python.org/3/reference/datamodel.html#special-lookup)
+    :::{seealso}
+    [Special method lookup](https://docs.python.org/3/reference/datamodel.html#special-lookup)
+    :::
     """
 
     def __getattr__(self, key: str) -> Never:
@@ -2052,9 +2045,6 @@ def direct_register_custom_op(
     library object. If you want to bind the operator to a different library,
     make sure the library object is alive when the operator is used.
     """
-    if is_in_doc_build():
-        return
-
     if not supports_custom_op():
         from vllm.platforms import current_platform
         assert not current_platform.is_cuda_alike(), (
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index 3e77555d7..8b1875e73 100644
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -1,5 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 """
+# MLA Common Components
+
 This file implements common components for MLA implementations.
 
 First we define:
diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
index cb13a5b7a..a2fa5825b 100644
--- a/vllm/v1/core/kv_cache_manager.py
+++ b/vllm/v1/core/kv_cache_manager.py
@@ -180,6 +180,7 @@ class KVCacheManager:
                 as eagle.
 
         Blocks layout:
+        ```
         -----------------------------------------------------------------------
         | < computed > | < new computed > |    < new >    | < pre-allocated > |
         -----------------------------------------------------------------------
@@ -189,6 +190,7 @@ class KVCacheManager:
         ------------------------------------------------
                                           | <new full> |
                                           --------------
+        ```
         The following *_blocks are illustrated in this layout.
 
         Returns:
diff --git a/vllm/v1/engine/output_processor.py b/vllm/v1/engine/output_processor.py
index f76c44cb8..5f5ffe6e0 100644
--- a/vllm/v1/engine/output_processor.py
+++ b/vllm/v1/engine/output_processor.py
@@ -308,7 +308,7 @@ class OutputProcessor:
             * If there is no queue (for usage with LLMEngine), 
               return a list of RequestOutput objects.
 
-        ****************** NOTE FOR DEVELOPERS ******************
+        NOTE FOR DEVELOPERS
 
         vLLM V1 minimizes the number of python loops over the full
         batch to ensure system overheads are minimized. This is the 
@@ -316,8 +316,6 @@ class OutputProcessor:
 
         If you need to touch every element of the batch, do it from
         within the loop below.
-        
-        **********************************************************
         """
 
         request_outputs: list[RequestOutput] = []
diff --git a/vllm/v1/sample/rejection_sampler.py b/vllm/v1/sample/rejection_sampler.py
index 9061a64db..b25443dd4 100644
--- a/vllm/v1/sample/rejection_sampler.py
+++ b/vllm/v1/sample/rejection_sampler.py
@@ -75,7 +75,7 @@ class RejectionSampler(nn.Module):
                 outside of the rejection sampler with the default sampling
                 strategy. It allows for more flexibility in the sampling
                 process such as top_p, top_k sampling.
-            sampling_metadata (SamplingMetadata):
+            sampling_metadata (vllm.v1.sample.metadata.SamplingMetadata):
                 Additional metadata needed for sampling, such as temperature,
                 top-k/top-p parameters, or other relevant information.
         Returns:
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index 68c4e94fc..ac6861f93 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -170,9 +170,10 @@ class Worker(WorkerBase):
         Then, it calculate the free memory that can be used for KV cache in
         bytes.
 
-        .. tip::
-            You may limit the usage of GPU memory
-            by adjusting the `gpu_memory_utilization` parameter.
+        :::{tip}
+        You may limit the usage of GPU memory
+        by adjusting the `gpu_memory_utilization` parameter.
+        :::
         """
         torch.cuda.empty_cache()
         torch.cuda.reset_peak_memory_stats()
diff --git a/vllm/v1/worker/utils.py b/vllm/v1/worker/utils.py
index e46ca0c90..267754036 100644
--- a/vllm/v1/worker/utils.py
+++ b/vllm/v1/worker/utils.py
@@ -10,7 +10,7 @@ def sanity_check_mm_encoder_outputs(
 ) -> None:
     """
     Perform sanity checks for the result of
-    :meth:`vllm.model_executor.models.SupportsMultiModal.get_multimodal_embeddings`.
+    {meth}`vllm.model_executor.models.SupportsMultiModal.get_multimodal_embeddings`.
     """
     assert isinstance(mm_embeddings, (list, tuple, torch.Tensor)), (
         "Expected multimodal embeddings to be a list/tuple of 2D tensors, "
@@ -39,7 +39,7 @@ def scatter_mm_placeholders(
     Scatter the multimodal embeddings into a contiguous tensor that represents
     the placeholder tokens.
 
-    :class:`vllm.multimodal.processing.PromptUpdateDetails.is_embed`.
+    {class}`vllm.multimodal.processing.PromptUpdateDetails.is_embed`.
 
     Args:
         embeds: The multimodal embeddings.
@@ -66,7 +66,7 @@ def gather_mm_placeholders(
     """
     Reconstructs the embeddings from the placeholder tokens.
 
-    This is the operation of :func:`scatter_mm_placeholders`.
+    This is the operation of {func}`scatter_mm_placeholders`.
     """
     if is_embed is None:
         return placeholders
diff --git a/vllm/worker/hpu_worker.py b/vllm/worker/hpu_worker.py
index 8d7d5d7ad..7898c645d 100644
--- a/vllm/worker/hpu_worker.py
+++ b/vllm/worker/hpu_worker.py
@@ -201,9 +201,10 @@ class HPUWorker(LocalOrDistributedWorkerBase):
         Then, it calculate the maximum possible number of GPU and CPU blocks
         that can be allocated with the remaining free memory.
 
-        .. tip::
-            You may limit the usage of GPU memory
-            by adjusting the `gpu_memory_utilization` parameter.
+        :::{tip}
+        You may limit the usage of GPU memory
+        by adjusting the `gpu_memory_utilization` parameter.
+        :::
         """
         # Profile the memory usage of the model and get the maximum number of
         # cache blocks that can be allocated with the remaining free memory.
diff --git a/vllm/worker/multi_step_model_runner.py b/vllm/worker/multi_step_model_runner.py
index 58bf31cf2..0825abbed 100644
--- a/vllm/worker/multi_step_model_runner.py
+++ b/vllm/worker/multi_step_model_runner.py
@@ -734,11 +734,11 @@ def _pythonize_sampler_output(
     cache: Optional[PythonizationCache],
 ) -> None:
     """ This function is only called when the output tensors are ready. 
-    See :class:`ModelOutput`. 
+    See {class}`ModelOutput`. 
     
     Modifies `output.outputs` and `pinned_sampled_token_buffer` in-place, 
     adding a Pythonized output data structure
-    (:class:`CompletionSequenceGroupOutput`) for each :class:`SequenceGroup`.
+    ({class}`CompletionSequenceGroupOutput`) for each {class}`SequenceGroup`.
 
     Args:
       model_input
diff --git a/vllm/worker/worker.py b/vllm/worker/worker.py
index 78ea990de..1a14919dd 100644
--- a/vllm/worker/worker.py
+++ b/vllm/worker/worker.py
@@ -230,9 +230,10 @@ class Worker(LocalOrDistributedWorkerBase):
         Then, it calculate the maximum possible number of GPU and CPU blocks
         that can be allocated with the remaining free memory.
 
-        .. tip::
-            You may limit the usage of GPU memory
-            by adjusting the `gpu_memory_utilization` parameter.
+        :::{tip}
+        You may limit the usage of GPU memory
+        by adjusting the `gpu_memory_utilization` parameter.
+        :::
         """
         # Profile the memory usage of the model and get the maximum number of
         # cache blocks that can be allocated with the remaining free memory.
diff --git a/vllm/worker/xpu_worker.py b/vllm/worker/xpu_worker.py
index 3aea0d741..17f533525 100644
--- a/vllm/worker/xpu_worker.py
+++ b/vllm/worker/xpu_worker.py
@@ -26,7 +26,7 @@ logger = init_logger(__name__)
 
 class XPUWorker(LoRANotSupportedWorkerBase, Worker):
     """A worker class that executes (a partition of) the model on a GPU.
-    
+
     Each worker is associated with a single XPU device. The worker is 
     responsible for maintaining the KV cache and executing the model on the 
     XPU. In case of distributed inference, each worker is assigned a partition
@@ -93,9 +93,10 @@ class XPUWorker(LoRANotSupportedWorkerBase, Worker):
         Then, it calculate the maximum possible number of GPU and CPU blocks
         that can be allocated with the remaining free memory.
 
-        .. tip::
-            You may limit the usage of GPU memory
-            by adjusting the `gpu_memory_utilization` parameter.
+        :::{tip}
+        You may limit the usage of GPU memory
+        by adjusting the `gpu_memory_utilization` parameter.
+        :::
         """
         # Profile the memory usage of the model and get the maximum number of
         # cache blocks that can be allocated with the remaining free memory.
-- 
GitLab


From 2858830c39da0ae153bc1328dbba7680f5fbebe1 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Sun, 4 May 2025 20:43:05 +0800
Subject: [PATCH 147/461] [Bugfix] Prioritize dtype in root config before
 checking text config (#17629)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 vllm/config.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/vllm/config.py b/vllm/config.py
index 3bac36fcb..40beace30 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -2954,10 +2954,12 @@ def _get_and_verify_dtype(
 ) -> torch.dtype:
     # NOTE: getattr(config, "torch_dtype", torch.float32) is not correct
     # because config.torch_dtype can be None.
-    config_dtype = getattr(config.get_text_config(), "torch_dtype", None)
+    config_dtype = getattr(config, "torch_dtype", None)
 
-    # Fallback for multi-modal models if the root config
+    # Fallbacks for multi-modal models if the root config
     # does not define torch_dtype
+    if config_dtype is None:
+        config_dtype = getattr(config.get_text_config(), "torch_dtype", None)
     if config_dtype is None and hasattr(config, "vision_config"):
         config_dtype = getattr(config.vision_config, "torch_dtype", None)
 
-- 
GitLab


From 68e1ee0072038090c236d07a4fed5d029154973b Mon Sep 17 00:00:00 2001
From: Tyler Michael Smith <tyler@neuralmagic.com>
Date: Sun, 4 May 2025 22:20:19 -0400
Subject: [PATCH 148/461] [Bugfix][Easy] Fix whitespace in shm_broadcast.py
 logging (#17635)

Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com>
---
 vllm/distributed/device_communicators/shm_broadcast.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/distributed/device_communicators/shm_broadcast.py b/vllm/distributed/device_communicators/shm_broadcast.py
index 723719c79..e33cfee21 100644
--- a/vllm/distributed/device_communicators/shm_broadcast.py
+++ b/vllm/distributed/device_communicators/shm_broadcast.py
@@ -429,7 +429,7 @@ class MessageQueue:
                             > VLLM_RINGBUFFER_WARNING_INTERVAL * n_warning):
                         logger.debug(
                             ("No available shared memory broadcast block found"
-                             "in %s second."),
+                             " in %s second."),
                             VLLM_RINGBUFFER_WARNING_INTERVAL,
                         )
                         n_warning += 1
-- 
GitLab


From 5394ad738720ab9c2dfb0d00fcd894ac27a4fd67 Mon Sep 17 00:00:00 2001
From: Chauncey <chaunceyjiang@gmail.com>
Date: Mon, 5 May 2025 10:22:35 +0800
Subject: [PATCH 149/461] [Bugfix] fix KeyError on top logprobs are special
 tokens (#17637)

Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>
---
 vllm/entrypoints/openai/serving_chat.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/vllm/entrypoints/openai/serving_chat.py b/vllm/entrypoints/openai/serving_chat.py
index 83a92a980..5c11836fb 100644
--- a/vllm/entrypoints/openai/serving_chat.py
+++ b/vllm/entrypoints/openai/serving_chat.py
@@ -1111,7 +1111,8 @@ class OpenAIServingChat(OpenAIServing):
             return_as_token_id is not None else self.return_tokens_as_token_ids
         for i, token_id in enumerate(token_ids):
             step_top_logprobs = top_logprobs[i]
-            if step_top_logprobs is None:
+            if step_top_logprobs is None or step_top_logprobs.get(
+                    token_id) is None:
                 token = tokenizer.decode(token_id)
                 if should_return_as_token_id:
                     token = f"token_id:{token_id}"
-- 
GitLab


From f62cad6431e2bce91c033c74e20835c8e0c9b288 Mon Sep 17 00:00:00 2001
From: Tyler Michael Smith <tyler@neuralmagic.com>
Date: Sun, 4 May 2025 22:23:17 -0400
Subject: [PATCH 150/461] [Build/CI] Upgrade CUTLASS to 3.9.2 (#17641)

Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com>
---
 CMakeLists.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/CMakeLists.txt b/CMakeLists.txt
index d530646cd..8012c2334 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -250,7 +250,7 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
   SET(CUTLASS_ENABLE_HEADERS_ONLY ON CACHE BOOL "Enable only the header library")
 
   # Set CUTLASS_REVISION. Used for FetchContent. Also fixes some bogus messages when building.
-  set(CUTLASS_REVISION "v3.9.1" CACHE STRING "CUTLASS revision to use")
+  set(CUTLASS_REVISION "v3.9.2" CACHE STRING "CUTLASS revision to use")
 
   # Use the specified CUTLASS source directory for compilation if VLLM_CUTLASS_SRC_DIR is provided
   if (DEFINED ENV{VLLM_CUTLASS_SRC_DIR})
-- 
GitLab


From 1d0c9d6b2d74e6884c6c63f4856ac0a2cddd0508 Mon Sep 17 00:00:00 2001
From: Jinzhen Lin <linjinzhen@hotmail.com>
Date: Tue, 6 May 2025 00:39:30 +0800
Subject: [PATCH 151/461] [Kernel] some optimizations for dense marlin and moe
 marlin (#16850)

Signed-off-by: Jinzhen Lin <linjinzhen@hotmail.com>
---
 CMakeLists.txt                                |   48 +-
 csrc/moe/marlin_moe_wna16/.gitignore          |    1 +
 csrc/moe/marlin_moe_wna16/generate_kernels.py |   20 +-
 csrc/moe/marlin_moe_wna16/kernel.h            |   10 +-
 csrc/moe/marlin_moe_wna16/marlin_template.h   |  468 ++-
 csrc/moe/marlin_moe_wna16/ops.cu              |  345 +--
 csrc/quantization/gptq_marlin/.gitignore      |    1 +
 csrc/quantization/gptq_marlin/dequant.h       |  291 ++
 .../gptq_marlin/generate_kernels.py           |  116 +
 csrc/quantization/gptq_marlin/gptq_marlin.cu  | 2505 +++--------------
 csrc/quantization/gptq_marlin/kernel.h        |   37 +
 .../gptq_marlin/marlin_template.h             | 1678 +++++++++++
 csrc/torch_bindings.cpp                       |   17 +-
 tests/kernels/moe/test_moe.py                 |  165 +-
 tests/kernels/quantization/test_awq_marlin.py |  164 --
 .../kernels/quantization/test_marlin_gemm.py  |  141 +-
 vllm/_custom_ops.py                           |   45 +-
 .../layers/fused_moe/fused_marlin_moe.py      |  189 +-
 .../layers/quantization/awq_marlin.py         |   24 +-
 .../schemes/compressed_tensors_w8a16_fp8.py   |    3 +-
 .../model_executor/layers/quantization/fp8.py |   99 +-
 .../layers/quantization/gptq_marlin.py        |   19 +-
 .../kernels/mixed_precision/marlin.py         |    6 +-
 .../layers/quantization/utils/marlin_utils.py |   76 +-
 .../quantization/utils/marlin_utils_fp8.py    |  279 +-
 vllm/scalar_type.py                           |   11 +
 26 files changed, 3501 insertions(+), 3257 deletions(-)
 create mode 100644 csrc/moe/marlin_moe_wna16/.gitignore
 create mode 100644 csrc/quantization/gptq_marlin/.gitignore
 create mode 100644 csrc/quantization/gptq_marlin/dequant.h
 create mode 100644 csrc/quantization/gptq_marlin/generate_kernels.py
 create mode 100644 csrc/quantization/gptq_marlin/kernel.h
 create mode 100644 csrc/quantization/gptq_marlin/marlin_template.h
 delete mode 100644 tests/kernels/quantization/test_awq_marlin.py

diff --git a/CMakeLists.txt b/CMakeLists.txt
index 8012c2334..4b3bfe0af 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -301,8 +301,52 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
   # are not supported by Machete yet.
   cuda_archs_loose_intersection(MARLIN_ARCHS "8.0;8.6;8.7;8.9;9.0;10.0;10.1;12.0" "${CUDA_ARCHS}")
   if (MARLIN_ARCHS)
+
+    #
+    # For the Marlin kernels we automatically generate sources for various
+    # preselected input type pairs and schedules.
+    # Generate sources:
+    set(MARLIN_GEN_SCRIPT
+      ${CMAKE_CURRENT_SOURCE_DIR}/csrc/quantization/gptq_marlin/generate_kernels.py)
+    file(MD5 ${MARLIN_GEN_SCRIPT} MARLIN_GEN_SCRIPT_HASH)
+
+    message(STATUS "Marlin generation script hash: ${MARLIN_GEN_SCRIPT_HASH}")
+    message(STATUS "Last run Marlin generate script hash: $CACHE{MARLIN_GEN_SCRIPT_HASH}")
+
+    if (NOT DEFINED CACHE{MARLIN_GEN_SCRIPT_HASH}
+        OR NOT $CACHE{MARLIN_GEN_SCRIPT_HASH} STREQUAL ${MARLIN_GEN_SCRIPT_HASH})
+      execute_process(
+        COMMAND ${CMAKE_COMMAND} -E env
+        PYTHONPATH=$PYTHONPATH
+          ${Python_EXECUTABLE} ${MARLIN_GEN_SCRIPT}
+        RESULT_VARIABLE marlin_generation_result
+        OUTPUT_VARIABLE marlin_generation_result
+        OUTPUT_FILE ${CMAKE_CURRENT_BINARY_DIR}/marlin_generation.log
+        ERROR_FILE ${CMAKE_CURRENT_BINARY_DIR}/marlin_generation.log
+      )
+
+      if (NOT marlin_generation_result EQUAL 0)
+        message(FATAL_ERROR "Marlin generation failed."
+                            " Result: \"${marlin_generation_result}\""
+                            "\nCheck the log for details: "
+                            "${CMAKE_CURRENT_BINARY_DIR}/marlin_generation.log")
+      else()
+        set(MARLIN_GEN_SCRIPT_HASH ${MARLIN_GEN_SCRIPT_HASH}
+            CACHE STRING "Last run Marlin generate script hash" FORCE)
+        message(STATUS "Marlin generation completed successfully.")
+      endif()
+    else()
+      message(STATUS "Marlin generation script has not changed, skipping generation.")
+    endif()
+
+    file(GLOB MARLIN_TEMPLATE_KERNEL_SRC "csrc/quantization/gptq_marlin/kernel_*.cu")
+    set_gencode_flags_for_srcs(
+      SRCS "${MARLIN_TEMPLATE_KERNEL_SRC}"
+      CUDA_ARCHS "${MARLIN_ARCHS}")
+
+    list(APPEND VLLM_EXT_SRC ${MARLIN_TEMPLATE_KERNEL_SRC})
+
     set(MARLIN_SRCS
-       "csrc/quantization/fp8/fp8_marlin.cu"
        "csrc/quantization/marlin/dense/marlin_cuda_kernel.cu"
        "csrc/quantization/marlin/sparse/marlin_24_cuda_kernel.cu"
        "csrc/quantization/marlin/qqq/marlin_qqq_gemm_kernel.cu"
@@ -644,7 +688,7 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
         OR NOT $CACHE{MOE_MARLIN_GEN_SCRIPT_HASH} STREQUAL ${MOE_MARLIN_GEN_SCRIPT_HASH})
       execute_process(
         COMMAND ${CMAKE_COMMAND} -E env
-        PYTHONPATH=${CMAKE_CURRENT_SOURCE_DIR}/csrc/cutlass_extensions/:${CUTLASS_DIR}/python/:${VLLM_PYTHON_PATH}:$PYTHONPATH
+        PYTHONPATH=$PYTHONPATH
           ${Python_EXECUTABLE} ${MOE_MARLIN_GEN_SCRIPT}
         RESULT_VARIABLE moe_marlin_generation_result
         OUTPUT_VARIABLE moe_marlin_generation_output
diff --git a/csrc/moe/marlin_moe_wna16/.gitignore b/csrc/moe/marlin_moe_wna16/.gitignore
new file mode 100644
index 000000000..77088552b
--- /dev/null
+++ b/csrc/moe/marlin_moe_wna16/.gitignore
@@ -0,0 +1 @@
+kernel_*.cu
\ No newline at end of file
diff --git a/csrc/moe/marlin_moe_wna16/generate_kernels.py b/csrc/moe/marlin_moe_wna16/generate_kernels.py
index d1c0d92f6..902bcd9df 100644
--- a/csrc/moe/marlin_moe_wna16/generate_kernels.py
+++ b/csrc/moe/marlin_moe_wna16/generate_kernels.py
@@ -25,15 +25,13 @@ TEMPLATE = ("template __global__ void Marlin<"
             "{{thread_k_blocks}}, "
             "{{'true' if m_block_size_8 else 'false'}}, "
             "{{stages}}, "
-            "{{'true' if has_act_order else 'false'}}, "
-            "{{'true' if has_zp else 'false'}}, "
             "{{group_blocks}}, "
             "{{'true' if is_zp_float else 'false'}}>"
             "( MARLIN_KERNEL_PARAMS );")
 
 # int8 with zero point case (vllm::kU8) is also supported,
 # we don't add it to reduce wheel size.
-SCALAR_TYPES = ["vllm::kU4", "vllm::kU4B8", "vllm::kU8B128"]
+SCALAR_TYPES = ["vllm::kU4", "vllm::kU4B8", "vllm::kU8B128", "vllm::kFE4M3fn"]
 THREAD_CONFIGS = [(128, 128, 256), (64, 256, 256), (64, 128, 128)]
 
 THREAD_M_BLOCKS = [0.5, 1, 2, 3, 4]
@@ -52,21 +50,29 @@ def remove_old_kernels():
 
 def generate_new_kernels():
     for scalar_type, dtype in itertools.product(SCALAR_TYPES, DTYPES):
-        has_zp = "B" not in scalar_type
         all_template_str_list = []
 
         for group_blocks, m_blocks, thread_configs in itertools.product(
                 GROUP_BLOCKS, THREAD_M_BLOCKS, THREAD_CONFIGS):
 
-            has_act_order = group_blocks == 0
-            if has_zp and has_act_order:
+            # act order case only support gptq-int4 and gptq-int8
+            if group_blocks == 0 and scalar_type not in [
+                    "vllm::kU4B8", "vllm::kU8B128"
+            ]:
                 continue
             if thread_configs[2] == 256:
+                # for small batch (m_blocks == 1), we only need (128, 128, 256)
+                # for large batch (m_blocks > 1), we only need (64, 256, 256)
                 if m_blocks <= 1 and thread_configs[0] != 128:
                     continue
                 if m_blocks > 1 and thread_configs[0] != 64:
                     continue
 
+            # we only support channelwise quantization and group_size == 128
+            # for fp8
+            if scalar_type == "vllm::kFE4M3fn" and group_blocks not in [-1, 8]:
+                continue
+
             k_blocks = thread_configs[0] // 16
             n_blocks = thread_configs[1] // 16
             threads = thread_configs[2]
@@ -82,8 +88,6 @@ def generate_new_kernels():
                 thread_k_blocks=k_blocks,
                 m_block_size_8=m_blocks == 0.5,
                 stages="pipe_stages",
-                has_act_order=has_act_order,
-                has_zp=has_zp,
                 group_blocks=group_blocks,
                 is_zp_float=False,
             )
diff --git a/csrc/moe/marlin_moe_wna16/kernel.h b/csrc/moe/marlin_moe_wna16/kernel.h
index 3d92660e8..c40c33d01 100644
--- a/csrc/moe/marlin_moe_wna16/kernel.h
+++ b/csrc/moe/marlin_moe_wna16/kernel.h
@@ -18,7 +18,7 @@
       const float *__restrict__ topk_weights_ptr, int top_k,                \
       bool mul_topk_weights, bool is_ep, int num_groups, int prob_m,        \
       int prob_n, int prob_k, int *locks, bool use_atomic_add,              \
-      bool use_fp32_reduce
+      bool use_fp32_reduce, int max_shared_mem
 
 namespace MARLIN_NAMESPACE_NAME {
 template <typename scalar_t,  // compute dtype, half or nv_float16
@@ -33,11 +33,9 @@ template <typename scalar_t,  // compute dtype, half or nv_float16
                                       // only works when thread_m_blocks == 1
           const int stages,  // number of stages for the async global->shared
                              // fetch pipeline
-          const bool has_act_order,  // whether act_order is enabled
-          const bool has_zp,         // whether zero-points are enabled
-          const int group_blocks,    // number of consecutive 16x16 blocks
-                                     // with a separate quantization scale
-          const bool is_zp_float     // is zero point of float16 type?
+          const int group_blocks,  // number of consecutive 16x16 blocks
+                                   // with a separate quantization scale
+          const bool is_zp_float   // is zero point of float16 type?
           >
 __global__ void Marlin(MARLIN_KERNEL_PARAMS);
 
diff --git a/csrc/moe/marlin_moe_wna16/marlin_template.h b/csrc/moe/marlin_moe_wna16/marlin_template.h
index 3705216ca..c9e199bce 100644
--- a/csrc/moe/marlin_moe_wna16/marlin_template.h
+++ b/csrc/moe/marlin_moe_wna16/marlin_template.h
@@ -25,6 +25,7 @@
 
 #include "quantization/gptq_marlin/marlin.cuh"
 #include "quantization/gptq_marlin/marlin_dtypes.cuh"
+#include "quantization/gptq_marlin/dequant.h"
 #include "core/scalar_type.hpp"
 
 #define STATIC_ASSERT_SCALAR_TYPE_VALID(scalar_t)               \
@@ -48,11 +49,9 @@ template <typename scalar_t,  // compute dtype, half or nv_float16
                                       // only works when thread_m_blocks == 1
           const int stages,  // number of stages for the async global->shared
                              // fetch pipeline
-          const bool has_act_order,  // whether act_order is enabled
-          const bool has_zp,         // whether zero-points are enabled
-          const int group_blocks,    // number of consecutive 16x16 blocks
-                                     // with a separate quantization scale
-          const bool is_zp_float     // is zero point of float16 type?
+          const int group_blocks,  // number of consecutive 16x16 blocks
+                                   // with a separate quantization scale
+          const bool is_zp_float   // is zero point of float16 type?
           >
 __global__ void Marlin(
     const int4* __restrict__ A,  // fp16 input matrix of shape mxk
@@ -77,8 +76,8 @@ __global__ void Marlin(
     int prob_k,             // reduction dimension k
     int* locks,             // extra global storage for barrier synchronization
     bool use_atomic_add,    // whether to use atomic add to reduce
-    bool use_fp32_reduce    // whether to use fp32 global reduce
-) {}
+    bool use_fp32_reduce,   // whether to use fp32 global reduce
+    int max_shared_mem) {}
 
 }  // namespace MARLIN_NAMESPACE_NAME
 
@@ -166,144 +165,6 @@ __device__ inline void ldsm(typename ScalarType<scalar_t>::FragA& frag_a,
   }
 }
 
-// Lookup-table based 3-input logical operation; explicitly used for
-// dequantization as the compiler does not seem to automatically recognize it in
-// all cases.
-template <int lut>
-__device__ inline int lop3(int a, int b, int c) {
-  int res;
-  asm volatile("lop3.b32 %0, %1, %2, %3, %4;\n"
-               : "=r"(res)
-               : "r"(a), "r"(b), "r"(c), "n"(lut));
-  return res;
-}
-
-// Constructs destination register by taking bytes from 2 sources (based on
-// mask)
-template <int start_byte, int mask>
-__device__ inline uint32_t prmt(uint32_t a) {
-  uint32_t res;
-  asm volatile("prmt.b32 %0, %1, %2, %3;\n"
-               : "=r"(res)
-               : "r"(a), "n"(start_byte), "n"(mask));
-  return res;
-}
-
-template <typename scalar_t, int bit>
-__device__ inline typename ScalarType<scalar_t>::FragB dequant(
-    int q, typename ScalarType<scalar_t>::FragB& frag_b);
-
-//
-// Efficiently dequantize 4bit values packed in an int32 value into a full
-// B-fragment of 4 fp16 values. We mostly follow the strategy in the link below,
-// with some small changes:
-// - FP16:
-// https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L215-L287
-// - BF16:
-// https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L327-L385
-//
-template <>
-__device__ inline typename ScalarType<half>::FragB dequant<half, 4>(
-    int q, typename ScalarType<half>::FragB& frag_b) {
-  const int LO = 0x000f000f;
-  const int HI = 0x00f000f0;
-  const int EX = 0x64006400;
-  // Guarantee that the `(a & b) | c` operations are LOP3s.
-  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
-  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
-  // We want signed int4 outputs, hence we fuse the `-8` symmetric zero point
-  // directly into `SUB` and `ADD`.
-  const int SUB = 0x64086408;
-  const int MUL = 0x2c002c00;
-  const int ADD = 0xd480d480;
-  frag_b[0] = __hsub2(*reinterpret_cast<half2*>(&lo),
-                      *reinterpret_cast<const half2*>(&SUB));
-  frag_b[1] = __hfma2(*reinterpret_cast<half2*>(&hi),
-                      *reinterpret_cast<const half2*>(&MUL),
-                      *reinterpret_cast<const half2*>(&ADD));
-  return frag_b;
-}
-
-template <>
-__device__ inline typename ScalarType<nv_bfloat16>::FragB
-dequant<nv_bfloat16, 4>(int q,
-                        typename ScalarType<nv_bfloat16>::FragB& frag_b) {
-  static constexpr uint32_t MASK = 0x000f000f;
-  static constexpr uint32_t EX = 0x43004300;
-
-  // Guarantee that the `(a & b) | c` operations are LOP3s.
-
-  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
-  q >>= 4;
-  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
-
-  static constexpr uint32_t MUL = 0x3F803F80;
-  static constexpr uint32_t ADD = 0xC308C308;
-
-  frag_b[0] = __hfma2(*reinterpret_cast<nv_bfloat162*>(&lo),
-                      *reinterpret_cast<const nv_bfloat162*>(&MUL),
-                      *reinterpret_cast<const nv_bfloat162*>(&ADD));
-  frag_b[1] = __hfma2(*reinterpret_cast<nv_bfloat162*>(&hi),
-                      *reinterpret_cast<const nv_bfloat162*>(&MUL),
-                      *reinterpret_cast<const nv_bfloat162*>(&ADD));
-  return frag_b;
-}
-
-//
-// Fast Int8ToFp16/Int8ToBf16: Efficiently dequantize 8bit int values to fp16 or
-// bf16 Reference:
-// - FP16:
-// https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L53-L85
-// - BF16:
-// https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L125-L175
-//
-template <>
-__device__ inline typename ScalarType<half>::FragB dequant<half, 8>(
-    int q, typename ScalarType<half>::FragB& frag_b) {
-  static constexpr uint32_t mask_for_elt_01 = 0x5250;
-  static constexpr uint32_t mask_for_elt_23 = 0x5351;
-  static constexpr uint32_t start_byte_for_fp16 = 0x64646464;
-
-  uint32_t lo = prmt<start_byte_for_fp16, mask_for_elt_01>(q);
-  uint32_t hi = prmt<start_byte_for_fp16, mask_for_elt_23>(q);
-
-  static constexpr uint32_t I8s_TO_F16s_MAGIC_NUM = 0x64806480;
-
-  frag_b[0] = __hsub2(*reinterpret_cast<half2*>(&lo),
-                      *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
-  frag_b[1] = __hsub2(*reinterpret_cast<half2*>(&hi),
-                      *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
-  return frag_b;
-}
-
-template <>
-__device__ inline typename ScalarType<nv_bfloat16>::FragB
-dequant<nv_bfloat16, 8>(int q,
-                        typename ScalarType<nv_bfloat16>::FragB& frag_b) {
-  float fp32_intermediates[4];
-  uint32_t* fp32_intermediates_casted =
-      reinterpret_cast<uint32_t*>(fp32_intermediates);
-
-  static constexpr uint32_t fp32_base = 0x4B000000;
-  fp32_intermediates_casted[0] = __byte_perm(q, fp32_base, 0x7650);
-  fp32_intermediates_casted[1] = __byte_perm(q, fp32_base, 0x7652);
-  fp32_intermediates_casted[2] = __byte_perm(q, fp32_base, 0x7651);
-  fp32_intermediates_casted[3] = __byte_perm(q, fp32_base, 0x7653);
-
-  fp32_intermediates[0] -= 8388736.f;
-  fp32_intermediates[1] -= 8388736.f;
-  fp32_intermediates[2] -= 8388736.f;
-  fp32_intermediates[3] -= 8388736.f;
-
-  uint32_t* bf16_result_ptr = reinterpret_cast<uint32_t*>(&frag_b);
-  bf16_result_ptr[0] = __byte_perm(fp32_intermediates_casted[0],
-                                   fp32_intermediates_casted[1], 0x7632);
-  bf16_result_ptr[1] = __byte_perm(fp32_intermediates_casted[2],
-                                   fp32_intermediates_casted[3], 0x7632);
-
-  return frag_b;
-}
-
 // Multiply dequantized values by the corresponding quantization scale; used
 // only for grouped quantization.
 template <typename scalar_t>
@@ -429,11 +290,9 @@ template <typename scalar_t,  // compute dtype, half or nv_float16
                                       // only works when thread_m_blocks == 1
           const int stages,  // number of stages for the async global->shared
                              // fetch pipeline
-          const bool has_act_order,  // whether act_order is enabled
-          const bool has_zp,         // whether zero-points are enabled
-          const int group_blocks,    // number of consecutive 16x16 blocks
-                                     // with a separate quantization scale
-          const bool is_zp_float     // is zero point of float16 type?
+          const int group_blocks,  // number of consecutive 16x16 blocks
+                                   // with a separate quantization scale
+          const bool is_zp_float   // is zero point of float16 type?
           >
 __global__ void Marlin(
     const int4* __restrict__ A,  // fp16 input matrix of shape mxk
@@ -458,8 +317,8 @@ __global__ void Marlin(
     int prob_k,             // reduction dimension k
     int* locks,             // extra global storage for barrier synchronization
     bool use_atomic_add,    // whether to use atomic add to reduce
-    bool use_fp32_reduce    // whether to use fp32 global reduce
-) {
+    bool use_fp32_reduce,   // whether to use fp32 global reduce
+    int max_shared_mem) {
   // Each threadblock processes one "stripe" of the B matrix with (roughly) the
   // same size, which might involve multiple column "slices" (of width 16 *
   // `thread_n_blocks`). Stripes are defined as shown in the 3x3 matrix 5 SM
@@ -481,6 +340,8 @@ __global__ void Marlin(
 
   extern __shared__ int4 sh[];
   static constexpr auto w_type = vllm::ScalarType::from_id(w_type_id);
+  constexpr bool has_zp = w_type == vllm::kU4 || w_type == vllm::kU8;
+  constexpr bool has_act_order = group_blocks == 0;
 
   constexpr int pack_factor = 32 / w_type.size_bits();
   static_assert(thread_m_blocks == 1 || !m_block_size_8);
@@ -534,13 +395,20 @@ __global__ void Marlin(
   int64_t B_expert_off = 0;
 
   int4* sh_block_sorted_ids_int4 = sh;
+  int4* sh_rd_block_sorted_ids_int4 =
+      sh_block_sorted_ids_int4 + moe_block_size / 4;
+  int4* sh_block_topk_weights_int4 =
+      sh_rd_block_sorted_ids_int4 + moe_block_size / 4;
+  // sh_block_topk_weights_int4 only need (moe_block_size / 4);
+  // but we pad to align to 256 bytes
+  int4* sh_new =
+      sh_block_topk_weights_int4 + moe_block_size / 2 + moe_block_size;
   int32_t* sh_block_sorted_ids =
       reinterpret_cast<int*>(sh_block_sorted_ids_int4);
-  int4* sh_block_topk_weights_int4 =
-      sh_block_sorted_ids_int4 + moe_block_size / 4;
+  int32_t* sh_rd_block_sorted_ids =
+      reinterpret_cast<int*>(sh_rd_block_sorted_ids_int4);
   scalar_t2* sh_block_topk_weights =
       reinterpret_cast<scalar_t2*>(sh_block_topk_weights_int4);
-  int4* sh_new = sh_block_topk_weights_int4 + moe_block_size / 4;
 
   int32_t block_num_valid_tokens = 0;
   int32_t locks_off = 0;
@@ -584,6 +452,11 @@ __global__ void Marlin(
       sh_block_sorted_ids_int4[tid4] = reinterpret_cast<const int4*>(
           sorted_token_ids_ptr)[block_id * moe_block_size / 4 + tid4];
 
+  #pragma unroll
+      for (int i = 0; i < 4; i++)
+        sh_rd_block_sorted_ids[tid4 * 4 + i] =
+            sh_block_sorted_ids[tid4 * 4 + i] / top_k;
+
       if (mul_topk_weights) {
   #pragma unroll
         for (int i = 0; i < 4; i++) {
@@ -743,6 +616,7 @@ __global__ void Marlin(
   constexpr int g_idx_stage = has_act_order ? (tb_k * sizeof(int)) / 16 : 0;
   // constexpr int act_s_row_stride      = 1;
   // int           act_s_col_stride      = act_s_row_stride * num_groups;
+  constexpr int act_s_max_num_groups = 32;
   int act_s_col_stride = 1;
   int act_s_col_warp_stride = act_s_col_stride * 8;
   int tb_n_warps = thread_n_blocks / 4;
@@ -758,9 +632,9 @@ __global__ void Marlin(
   int zp_gl_rd_delta = zp_gl_stride;
 
   // Global A read index of current thread.
-  int a_gl_rd = a_gl_stride * (threadIdx.x / a_gl_rd_delta_o) +
-                (threadIdx.x % a_gl_rd_delta_o);
-  a_gl_rd += a_gl_rd_delta_o * slice_row;
+  int a_gl_rd_row = threadIdx.x / a_gl_rd_delta_o;
+  int a_gl_rd_col = a_gl_rd_delta_o * slice_row + threadIdx.x % a_gl_rd_delta_o;
+
   // Shared write index of current thread.
   int a_sh_wr = a_sh_stride * (threadIdx.x / a_gl_rd_delta_o) +
                 (threadIdx.x % a_gl_rd_delta_o);
@@ -774,8 +648,8 @@ __global__ void Marlin(
                 (threadIdx.x % b_sh_stride_threads) * b_thread_vecs;
   b_gl_rd += b_sh_stride * slice_col;
   b_gl_rd += b_gl_rd_delta_o * slice_row;
-  int b_sh_wr = threadIdx.x * b_thread_vecs;
-  int b_sh_rd = threadIdx.x * b_thread_vecs;
+  auto b_sh_wr = threadIdx.x * b_thread_vecs;
+  auto b_sh_rd = threadIdx.x * b_thread_vecs;
 
   // For act_order
   constexpr int k_iter_size = tb_k / b_sh_wr_iters;
@@ -794,7 +668,7 @@ __global__ void Marlin(
                 s_sh_stride * slice_col + threadIdx.x;
     }
   }
-  int s_sh_wr = threadIdx.x;
+  auto s_sh_wr = threadIdx.x;
   bool s_sh_wr_pred = threadIdx.x < s_sh_stride;
 
   // Zero-points
@@ -807,7 +681,7 @@ __global__ void Marlin(
                  zp_sh_stride * slice_col + threadIdx.x;
     }
   }
-  int zp_sh_wr = threadIdx.x;
+  auto zp_sh_wr = threadIdx.x;
   bool zp_sh_wr_pred = threadIdx.x < zp_sh_stride;
 
   // We use a different scale layout for grouped and column-wise quantization as
@@ -851,7 +725,7 @@ __global__ void Marlin(
   // each warp must also write a consecutive memory segment?
   auto transform_a = [&](int i) {
     int row = i / a_gl_rd_delta_o;
-    return a_gl_rd_delta_o * row + (i % a_gl_rd_delta_o) ^ row;
+    return a_gl_rd_delta_o * row + (i % a_gl_rd_delta_o) ^ (row % 8);
   };
   // Since the computation of this remapping is non-trivial and, due to our main
   // loop unrolls, all shared memory accesses are static, we simply precompute
@@ -879,12 +753,28 @@ __global__ void Marlin(
     B_ptr[i] = B + b_gl_rd_delta_i * i + b_gl_rd;
 
   // Shared memory storage for global fetch pipelines.
-  int4* sh_a = sh_new;
-  int4* sh_b = sh_a + (stages * a_sh_stage);
-  int4* sh_g_idx = sh_b + (stages * b_sh_stage);
+  constexpr int sh_red_size = (2 * thread_n_blocks + 1) * 16 * thread_m_blocks;
+  constexpr int sh_b_size = stages * b_sh_stage;
+  int4* sh_b = sh_new;
+  int4* sh_red = sh_new;
+  int4* sh_g_idx = sh_b + (sh_red_size > sh_b_size ? sh_red_size : sh_b_size);
   int4* sh_zp = sh_g_idx + (stages * g_idx_stage);
+  constexpr int sh_s_size = has_act_order ? (act_s_max_num_groups * s_sh_stride)
+                                          : (stages * s_sh_stage);
   int4* sh_s = sh_zp + (stages * zp_sh_stage);
-  int4* sh_red = sh_b;
+  // shared memory reused by reduction should be smaller than
+  // shared memory used by weight.
+  static_assert(thread_m_blocks * 16 * thread_n_blocks * 16 / 8 <=
+                stages * b_sh_stage);
+  int4* sh_a = sh_s + sh_s_size;
+  constexpr int shm_size_used =
+      moe_block_size + stages * (g_idx_stage + zp_sh_stage) + sh_s_size +
+      (sh_red_size > sh_b_size ? sh_red_size : sh_b_size);
+
+  // all remaining shared memory is used to cache A (input)
+  // sh_a_max_row is at least ` stages * 16 * thread_m_blocks `
+  int sh_a_max_row =
+      ((max_shared_mem - 1024) / 16 - shm_size_used) / (thread_k_blocks * 2);
 
   // Register storage for double buffer of shared memory reads.
   FragA frag_a[2][thread_m_blocks];
@@ -905,15 +795,14 @@ __global__ void Marlin(
 
   int sh_first_group_id = -1;
   int sh_num_groups = -1;
-  constexpr int sh_max_num_groups = 32;
 
   auto fetch_act_order_scales_to_shared = [&](bool is_async, int first_group_id,
                                               int last_group_id) {
     sh_first_group_id = first_group_id;
     sh_num_groups = last_group_id - first_group_id + 1;
 
-    if (sh_num_groups < sh_max_num_groups) {
-      sh_num_groups = sh_max_num_groups;
+    if (sh_num_groups < act_s_max_num_groups) {
+      sh_num_groups = act_s_max_num_groups;
     }
 
     if (sh_first_group_id + sh_num_groups > num_groups) {
@@ -940,27 +829,31 @@ __global__ void Marlin(
       }
     }
   };
+
   // Asynchronously fetch the next A, B and s tile from global to the next
   // shared memory pipeline location.
-  int a_remaining_load_count_in_slice = stages;
-  auto fetch_to_shared = [&](int pipe, int a_off, bool pred = true) {
+  bool should_load_a = true;
+  int max_num_stage_groups =
+      ((sh_a_max_row - moe_block_size) / moe_block_size + 1) / stages;
+  max_num_stage_groups = max(max_num_stage_groups, 1);
+  auto fetch_to_shared = [&](int pipe, int a_off, bool pred = true,
+                             int pipe_a = 0) {
     if (pred) {
-      int4* sh_a_stage = sh_a + a_sh_stage * pipe;
-      if (prob_k > thread_k_blocks * 16 * stages || slice_col == 0 ||
-          a_remaining_load_count_in_slice > 0) {
-        a_remaining_load_count_in_slice--;
+      if (should_load_a) {
+        int4* sh_a_stage = sh_a + moe_block_size * a_sh_stride * pipe_a;
   #pragma unroll
         for (int i = 0; i < a_sh_wr_iters; i++) {
-          int a_idx = a_gl_rd_delta_i * i + a_gl_rd + a_gl_rd_delta_o * a_off;
-          int row = a_idx / a_gl_stride;
+          int row = a_gl_rd_delta_i / a_gl_stride * i + a_gl_rd_row;
           int64_t sorted_row = 0;
           if (!m_block_size_8 || row < 8)
-            sorted_row = sh_block_sorted_ids[row] / top_k;
-          int64_t true_idx = sorted_row * a_gl_stride + a_idx % a_gl_stride;
+            sorted_row = sh_rd_block_sorted_ids[row];
+          int64_t true_idx =
+              sorted_row * a_gl_stride + a_gl_rd_col + a_gl_rd_delta_o * a_off;
           cp_async4_pred(&sh_a_stage[a_sh_wr_trans[i]], &A[true_idx],
                          row < block_num_valid_tokens);
         }
       }
+
       int4* sh_b_stage = sh_b + b_sh_stage * pipe;
   #pragma unroll
       for (int i = 0; i < b_sh_wr_iters; i++) {
@@ -1063,8 +956,8 @@ __global__ void Marlin(
 
   // Load the next sub-tile from the current location in the shared memory pipe
   // into the current register buffer.
-  auto fetch_to_registers = [&](int k, int pipe) {
-    int4* sh_a_stage = sh_a + a_sh_stage * pipe;
+  auto fetch_to_registers = [&](int k, int pipe, int pipe_a = 0) {
+    int4* sh_a_stage = sh_a + moe_block_size * a_sh_stride * pipe_a;
   #pragma unroll
     for (int i = 0; i < thread_m_blocks; i++)
       ldsm<m_block_size_8 ? 2 : 4, scalar_t>(
@@ -1109,12 +1002,17 @@ __global__ void Marlin(
         }
       } else if constexpr (group_blocks != -1) {
         if constexpr (group_blocks >= thread_k_blocks) {
-          int4* sh_s_stage =
-              sh_s + s_sh_stage * ((group_blocks / thread_k_blocks) *
-                                   (pipe / (group_blocks / thread_k_blocks)));
-          reinterpret_cast<int4*>(&frag_s[k % 2])[0] = sh_s_stage[s_sh_rd];
+          if (k % b_sh_wr_iters == 0) {
+            int4* sh_s_stage =
+                sh_s + s_sh_stage * ((group_blocks / thread_k_blocks) *
+                                     (pipe / (group_blocks / thread_k_blocks)));
+            reinterpret_cast<int4*>(&frag_s[k % 2])[0] = sh_s_stage[s_sh_rd];
+          } else {
+            reinterpret_cast<int4*>(&frag_s[1])[0] =
+                reinterpret_cast<int4*>(&frag_s[0])[0];
+          }
         } else {
-          int warp_id = threadIdx.x / 32;
+          auto warp_id = threadIdx.x / 32;
           int n_warps = thread_n_blocks / 4;
 
           int warp_row = warp_id / n_warps;
@@ -1152,7 +1050,7 @@ __global__ void Marlin(
 
     // Determine "position" inside the thread-block (based on warp and
     // thread-id)
-    int warp_id = threadIdx.x / 32;
+    auto warp_id = threadIdx.x / 32;
     int n_warps =
         thread_n_blocks / 4;  // Each warp processes 4 16-size tiles over N
 
@@ -1161,7 +1059,7 @@ __global__ void Marlin(
 
     cur_k += warp_row * 16;
 
-    int th_id = threadIdx.x % 32;
+    auto th_id = threadIdx.x % 32;
     cur_k += (th_id % 4) * 2;  // Due to tensor-core layout for fp16 B matrix
 
     int s_col_shift =
@@ -1222,15 +1120,18 @@ __global__ void Marlin(
         }
 
       } else if constexpr (group_blocks >= thread_k_blocks) {
-        int4* sh_zp_stage =
-            sh_zp + zp_sh_stage * ((group_blocks / thread_k_blocks) *
-                                   (pipe / (group_blocks / thread_k_blocks)));
-        for (int i = 0; i < num_ints_per_thread; i++) {
-          frag_qzp[k % 2][i] =
-              (reinterpret_cast<int*>(sh_zp_stage))[zp_sh_rd + i];
+        if (k % b_sh_wr_iters == 0) {
+          int4* sh_zp_stage =
+              sh_zp + zp_sh_stage * ((group_blocks / thread_k_blocks) *
+                                     (pipe / (group_blocks / thread_k_blocks)));
+  #pragma unroll
+          for (int i = 0; i < num_ints_per_thread; i++) {
+            frag_qzp[k % 2][i] =
+                (reinterpret_cast<int*>(sh_zp_stage))[zp_sh_rd + i];
+          }
         }
       } else {
-        int warp_id = threadIdx.x / 32;
+        auto warp_id = threadIdx.x / 32;
         int n_warps = thread_n_blocks / 4;
 
         int warp_row = warp_id / n_warps;
@@ -1251,6 +1152,7 @@ __global__ void Marlin(
 
         sh_zp_stage += cur_group_id * zp_sh_stride;
 
+  #pragma unroll
         for (int i = 0; i < num_ints_per_thread; i++) {
           frag_qzp[k % 2][i] =
               (reinterpret_cast<int*>(sh_zp_stage))[zp_sh_rd + i];
@@ -1263,12 +1165,16 @@ __global__ void Marlin(
 
       if constexpr (group_blocks != -1) {
         if constexpr (group_blocks >= thread_k_blocks) {
-          int4* sh_zp_stage =
-              sh_zp + zp_sh_stage * ((group_blocks / thread_k_blocks) *
-                                     (pipe / (group_blocks / thread_k_blocks)));
-          reinterpret_cast<int4*>(&frag_zpf[k % 2])[0] = sh_zp_stage[zp_sh_rd];
+          if (k % b_sh_wr_iters == 0) {
+            int4* sh_zp_stage =
+                sh_zp +
+                zp_sh_stage * ((group_blocks / thread_k_blocks) *
+                               (pipe / (group_blocks / thread_k_blocks)));
+            reinterpret_cast<int4*>(&frag_zpf[k % 2])[0] =
+                sh_zp_stage[zp_sh_rd];
+          }
         } else {
-          int warp_id = threadIdx.x / 32;
+          auto warp_id = threadIdx.x / 32;
           int n_warps = thread_n_blocks / 4;
 
           int warp_row = warp_id / n_warps;
@@ -1292,6 +1198,25 @@ __global__ void Marlin(
     }
   };
 
+  auto dequant_data = [&](int q, scalar_t2* frag_b_ptr) {
+    if constexpr (has_zp && is_zp_float || !has_zp) {
+      dequant<scalar_t2, w_type_id>(q, frag_b_ptr);
+    } else {
+      static_assert(has_zp && !is_zp_float);
+      static_assert(w_type_id == vllm::kU4.id() || w_type_id == vllm::kU8.id());
+      // If (has_zp && !is_zp_float),
+      // we use not-zp version `dequant` function
+      // to improve numerical accuracy.
+      // Since both weight and zero point are dequanted using this logic,
+      // the final dequanted weight would be correct.
+      if constexpr (w_type_id == vllm::kU4.id()) {
+        dequant<scalar_t2, vllm::kU4B8.id()>(q, frag_b_ptr);
+      } else if constexpr (w_type_id == vllm::kU8.id()) {
+        dequant<scalar_t2, vllm::kU8B128.id()>(q, frag_b_ptr);
+      }
+    }
+  };
+
   // Execute the actual tensor core matmul of a sub-tile.
   bool is_first_matmul_in_slice = true;
   auto matmul = [&](int k) {
@@ -1315,15 +1240,17 @@ __global__ void Marlin(
           zp_quant_1 = frag_qzp[k2][1];
         }
 
-        dequant<scalar_t, w_type.size_bits()>(zp_quant_0, frag_zp_0);
-        dequant<scalar_t, w_type.size_bits()>(zp_quant_1, frag_zp_1);
-
-        frag_zp[0] = frag_zp_0[0];
-        frag_zp[1] = frag_zp_0[1];
-        frag_zp[2] = frag_zp_1[0];
-        frag_zp[3] = frag_zp_1[1];
+        dequant_data(zp_quant_0, reinterpret_cast<scalar_t2*>(&frag_zp));
+        dequant_data(zp_quant_1, reinterpret_cast<scalar_t2*>(&frag_zp) + 2);
       }
     }
+    if constexpr (has_zp && is_zp_float) {
+      if (is_new_zp) {
+        reinterpret_cast<int4*>(&frag_zp)[0] =
+            reinterpret_cast<int4*>(&frag_zpf[k2])[0];
+      }
+    }
+
   // We have the m dimension as the inner loop in order to encourage overlapping
   // dequantization and matmul operations.
   #pragma unroll
@@ -1342,8 +1269,8 @@ __global__ void Marlin(
         b_quant_1 = frag_b_quant_ptr[j * 2 + 1];
       }
 
-      dequant<scalar_t, w_type.size_bits()>(b_quant_0, frag_b0);
-      dequant<scalar_t, w_type.size_bits()>(b_quant_1, frag_b1);
+      dequant_data(b_quant_0, reinterpret_cast<scalar_t2*>(&frag_b0));
+      dequant_data(b_quant_1, reinterpret_cast<scalar_t2*>(&frag_b1));
 
       // Apply scale to frag_b0
       if constexpr (has_act_order) {
@@ -1351,8 +1278,7 @@ __global__ void Marlin(
         scale4<scalar_t>(frag_b0, act_frag_s[k2][0][j], act_frag_s[k2][1][j],
                          act_frag_s[k2][2][j], act_frag_s[k2][3][j], 0);
         scale4<scalar_t>(frag_b1, act_frag_s[k2][0][j], act_frag_s[k2][1][j],
-                         act_frag_s[k][2][j], act_frag_s[k2][3][j], 1);
-
+                         act_frag_s[k2][2][j], act_frag_s[k2][3][j], 1);
       } else if constexpr (has_zp && !is_zp_float && group_blocks == -1) {
         int idx = (threadIdx.x / 4) % 2;
         scalar_t2 s2 = Dtype::nums2num2(
@@ -1361,18 +1287,12 @@ __global__ void Marlin(
         if (is_new_zp) frag_zp[j] = __hmul2(frag_zp[j], s2);
         scale_and_sub<scalar_t>(frag_b0, s2.x, frag_zp[j].x);
         scale_and_sub<scalar_t>(frag_b1, s2.y, frag_zp[j].y);
-      } else if constexpr (has_zp && !is_zp_float && group_blocks != -1) {
+      } else if constexpr (has_zp && group_blocks != -1) {
         if (is_new_zp)
           frag_zp[j] = __hmul2(frag_zp[j],
                                *reinterpret_cast<scalar_t2*>(&frag_s[k2][j]));
-        scale_and_sub<scalar_t>(frag_b0, frag_s[k % 2][j][0].x, frag_zp[j].x);
-        scale_and_sub<scalar_t>(frag_b1, frag_s[k % 2][j][0].y, frag_zp[j].y);
-      } else if constexpr (has_zp && is_zp_float && group_blocks != -1) {
-        if (is_new_zp)
-          frag_zpf[k2][j] = __hmul2(
-              frag_zpf[k2][j], *reinterpret_cast<scalar_t2*>(&frag_s[k2][j]));
-        scale_and_sub<scalar_t>(frag_b0, frag_s[k2][j].x, frag_zpf[k2][j].x);
-        scale_and_sub<scalar_t>(frag_b1, frag_s[k2][j].y, frag_zpf[k2][j].y);
+        scale_and_sub<scalar_t>(frag_b0, frag_s[k2][j][0].x, frag_zp[j].x);
+        scale_and_sub<scalar_t>(frag_b1, frag_s[k2][j][0].y, frag_zp[j].y);
       } else if constexpr (group_blocks != -1) {
         scale<scalar_t>(frag_b0, frag_s[k2][j], 0);
         scale<scalar_t>(frag_b1, frag_s[k2][j], 1);
@@ -1397,7 +1317,7 @@ __global__ void Marlin(
   auto thread_block_reduce = [&]() {
     constexpr int red_off = threads / b_sh_stride_threads / 2;
     if (red_off >= 1) {
-      int red_idx = threadIdx.x / b_sh_stride_threads;
+      auto red_idx = threadIdx.x / b_sh_stride_threads;
       constexpr int red_sh_stride = b_sh_stride_threads * 4 * 2;
       constexpr int red_sh_delta = b_sh_stride_threads;
       int red_sh_rd = red_sh_stride * (threadIdx.x / b_sh_stride_threads) +
@@ -1731,7 +1651,7 @@ __global__ void Marlin(
           fetch_col_scale_to_shared();
         }
       }
-      fetch_to_shared(i, i, i < slice_iters);
+      fetch_to_shared(i, i, i < slice_iters, i);
     }
 
     zero_accums();
@@ -1740,8 +1660,10 @@ __global__ void Marlin(
     fetch_to_registers(0, 0);
     fetch_scales_to_registers(0, 0);
     fetch_zp_to_registers(0, 0);
-    a_gl_rd += a_gl_rd_delta_o * (stages - 1);
-    slice_k_start_shared_fetch += tb_k * (stages - 1);
+    a_gl_rd_col += a_gl_rd_delta_o * (stages - 1);
+    if constexpr (has_act_order) {
+      slice_k_start_shared_fetch += tb_k * (stages - 1);
+    }
   };
   if (slice_iters) {
     start_pipes();
@@ -1754,43 +1676,56 @@ __global__ void Marlin(
     // have even length meaning that the next iteration will always start at
     // index 0.
 
+    for (int stage_group_id = 0; stage_group_id < max_num_stage_groups;
+         stage_group_id++) {
   #pragma unroll
-    for (int pipe = 0; pipe < stages;) {
+      for (int pipe = 0; pipe < stages;) {
   #pragma unroll
-      for (int k = 0; k < b_sh_wr_iters; k++) {
-        fetch_to_registers(k + 1, pipe % stages);
-        fetch_scales_to_registers(k + 1, pipe);
-        fetch_zp_to_registers(k + 1, pipe);
-        if (k == b_sh_wr_iters - 2) {
-          fetch_to_shared((pipe + stages - 1) % stages, pipe,
-                          slice_iters >= stages);
-          pipe++;
-          wait_for_stage();
-          init_same_group(pipe % stages);
+        for (int k = 0; k < b_sh_wr_iters; k++) {
+          int idx =
+              (pipe >= stages && stage_group_id == max_num_stage_groups - 1)
+                  ? (pipe - stages)
+                  : (pipe + stage_group_id * stages);
+          fetch_to_registers(k + 1, pipe % stages, idx);
+          fetch_scales_to_registers(k + 1, pipe);
+          fetch_zp_to_registers(k + 1, pipe);
+          if (k == b_sh_wr_iters - 2) {
+            int idx = (pipe >= 1 && stage_group_id == max_num_stage_groups - 1)
+                          ? (pipe - 1)
+                          : (pipe + (stage_group_id + 1) * stages - 1);
+            fetch_to_shared((pipe + stages - 1) % stages, pipe,
+                            slice_iters >= stages, idx);
+            pipe++;
+            wait_for_stage();
+            init_same_group(pipe % stages);
+          }
+          matmul(k);
+        }
+        slice_iters--;
+        if (slice_iters == 0) {
+          break;
         }
-        matmul(k);
-      }
-      slice_iters--;
-      if (slice_iters == 0) {
-        break;
       }
-    }
-    a_remaining_load_count_in_slice = 0;
 
-    a_gl_rd += a_gl_rd_delta_o * stages;
-    slice_k_start += tb_k * stages;
-    slice_k_start_shared_fetch += tb_k * stages;
+      a_gl_rd_col += a_gl_rd_delta_o * stages;
 
-    if constexpr (has_act_order) {
-      int first_group_id = g_idx[slice_k_start];
-      int last_g_idx = slice_k_start + stages * tb_k * 2;
-      if (last_g_idx >= prob_k) {
-        last_g_idx = prob_k - 1;
+      if constexpr (has_act_order) {
+        slice_k_start += tb_k * stages;
+        slice_k_start_shared_fetch += tb_k * stages;
+        int first_group_id = g_idx[slice_k_start];
+        int last_g_idx = slice_k_start + stages * tb_k * 2;
+        if (last_g_idx >= prob_k) {
+          last_g_idx = prob_k - 1;
+        }
+        int last_group_id = g_idx[last_g_idx];
+        if (last_group_id >= sh_first_group_id + sh_num_groups) {
+          fetch_act_order_scales_to_shared(false, first_group_id,
+                                           last_group_id);
+          __syncthreads();
+        }
       }
-      int last_group_id = g_idx[last_g_idx];
-      if (last_group_id >= sh_first_group_id + sh_num_groups) {
-        fetch_act_order_scales_to_shared(false, first_group_id, last_group_id);
-        __syncthreads();
+      if (slice_iters == 0) {
+        break;
       }
     }
 
@@ -1877,15 +1812,30 @@ __global__ void Marlin(
       if (last || use_atomic_add)
         // only the last block in a slice actually writes the result
         write_result();
-      if (slice_row) a_remaining_load_count_in_slice = stages;
+      int old_slice_row = slice_row;
       slice_row = 0;
       slice_col_par++;
       slice_col++;
       is_first_matmul_in_slice = true;
       init_slice();
+
+      // Should we load A matrix in next slice?
+      // `slice_col == 0`: when move to a new moe block
+      // `old_slice_row > 0`:
+      //    when the last slice is not starting from k_index == 0
+      //    (only happen when it is the first slice of a threadblock)
+      // `prob_k > thread_k_blocks * 16 * stages * max_num_stage_groups`:
+      //    when the required shared memory size is larger than
+      //    the remaining shared memory
+      if (slice_col == 0 || old_slice_row ||
+          prob_k > thread_k_blocks * 16 * stages * max_num_stage_groups) {
+        should_load_a = true;
+      } else {
+        should_load_a = false;
+      }
+
       if (slice_iters) {
-        a_gl_rd = a_gl_stride * (threadIdx.x / a_gl_rd_delta_o) +
-                  (threadIdx.x % a_gl_rd_delta_o);
+        a_gl_rd_col = (threadIdx.x % a_gl_rd_delta_o);
   #pragma unroll
         for (int i = 0; i < b_sh_wr_iters; i++)
           B_ptr[i] += b_sh_stride - b_gl_rd_delta_o * k_tiles;
@@ -1900,12 +1850,10 @@ __global__ void Marlin(
           slice_k_finish = slice_k_start + tb_k * slice_iters;
           slice_k_start_shared_fetch = slice_k_start;
           slice_n_offset = act_s_col_tb_stride * slice_col;
-
         } else {
           s_gl_rd = s_sh_stride * slice_col + threadIdx.x;
           zp_gl_rd = zp_sh_stride * slice_col + threadIdx.x;
         }
-
         start_pipes();
       }
     }
diff --git a/csrc/moe/marlin_moe_wna16/ops.cu b/csrc/moe/marlin_moe_wna16/ops.cu
index a16e955a3..00b4e934c 100644
--- a/csrc/moe/marlin_moe_wna16/ops.cu
+++ b/csrc/moe/marlin_moe_wna16/ops.cu
@@ -116,7 +116,7 @@ __global__ void permute_cols_kernel(
     int base_k = 0;
 
     for (int i = 0; i < iters; i++) {
-      int cur_k = base_k + threadIdx.x;
+      auto cur_k = base_k + threadIdx.x;
       int src_pos = perm_int_ptr[cur_k];
 
       out_half[cur_k] = a_row_half[src_pos];
@@ -126,7 +126,7 @@ __global__ void permute_cols_kernel(
 
     if (rest) {
       if (threadIdx.x < rest) {
-        int cur_k = base_k + threadIdx.x;
+        auto cur_k = base_k + threadIdx.x;
         int src_pos = perm_int_ptr[cur_k];
 
         out_half[cur_k] = a_row_half[src_pos];
@@ -195,7 +195,6 @@ int get_scales_cache_size(thread_config_t const& th_config, int prob_m,
         tb_groups * pipe_stages * 2;     // Chunk size is 2x pipeline over dim K
     load_groups = max(load_groups, 32);  // We load at least 32 scale groups
     return load_groups * tb_n * 2;
-
   } else {
     int tb_scales = tb_groups * tb_n * 2;
 
@@ -203,22 +202,24 @@ int get_scales_cache_size(thread_config_t const& th_config, int prob_m,
   }
 }
 
-int get_kernel_cache_size(thread_config_t const& th_config, int thread_m_blocks,
-                          int prob_m, int prob_n, int prob_k, int num_bits,
-                          int group_size, bool has_act_order, bool is_k_full,
-                          int has_zp, int is_zp_float) {
+int get_kernel_cache_size(thread_config_t const& th_config, bool m_block_size_8,
+                          int thread_m_blocks, int prob_m, int prob_n,
+                          int prob_k, int num_bits, int group_size,
+                          bool has_act_order, bool is_k_full, int has_zp,
+                          int is_zp_float) {
   int pack_factor = 32 / num_bits;
 
   // Get B size
   int tb_k = th_config.thread_k;
   int tb_n = th_config.thread_n;
-  int tb_m = thread_m_blocks * 16;
+  int tb_m = thread_m_blocks * (m_block_size_8 ? 8 : 16);
 
-  // shm size for block_sorted_ids/block_topk_weights
+  // shm size for block_sorted_ids/rd_block_sorted_ids/block_topk_weights
   // both of them requires tb_m * 4 bytes (tb_m * int32 or tb_m * float32)
-  int sh_block_meta_size = tb_m * 4 * 2;
+  int sh_block_meta_size = tb_m * 4;
   int sh_a_size = pipe_stages * (tb_m * tb_k) * 2;
   int sh_b_size = pipe_stages * (tb_k * tb_n / pack_factor) * 4;
+  int sh_red_size = tb_m * (tb_n + 8) * 2;
   int sh_s_size =
       get_scales_cache_size(th_config, prob_m, prob_n, prob_k, num_bits,
                             group_size, has_act_order, is_k_full);
@@ -233,16 +234,17 @@ int get_kernel_cache_size(thread_config_t const& th_config, int thread_m_blocks,
       sh_zp_size = sh_s_size / 2;
   }
 
-  int total_size = sh_a_size + sh_b_size + sh_s_size + sh_zp_size +
-                   sh_g_idx_size + sh_block_meta_size;
+  int total_size = max(sh_b_size, sh_red_size) + sh_a_size + sh_s_size +
+                   sh_zp_size + sh_g_idx_size + sh_block_meta_size;
 
   return total_size;
 }
 
-bool is_valid_config(thread_config_t const& th_config, int thread_m_blocks,
-                     int prob_m, int prob_n, int prob_k, int num_bits,
-                     int group_size, bool has_act_order, bool is_k_full,
-                     int has_zp, int is_zp_float, int max_shared_mem) {
+bool is_valid_config(thread_config_t const& th_config, bool m_block_size_8,
+                     int thread_m_blocks, int prob_m, int prob_n, int prob_k,
+                     int num_bits, int group_size, bool has_act_order,
+                     bool is_k_full, int has_zp, int is_zp_float,
+                     int max_shared_mem) {
   // Sanity
   if (th_config.thread_k == -1 || th_config.thread_n == -1 ||
       th_config.num_threads == -1) {
@@ -266,143 +268,113 @@ bool is_valid_config(thread_config_t const& th_config, int thread_m_blocks,
 
   // Check that pipeline fits into cache
   int cache_size = get_kernel_cache_size(
-      th_config, thread_m_blocks, prob_m, prob_n, prob_k, num_bits, group_size,
-      has_act_order, is_k_full, has_zp, is_zp_float);
+      th_config, m_block_size_8, thread_m_blocks, prob_m, prob_n, prob_k,
+      num_bits, group_size, has_act_order, is_k_full, has_zp, is_zp_float);
   return cache_size <= max_shared_mem;
 }
 
-  #define __GET_IF(W_TYPE, THREAD_M_BLOCKS, THREAD_N_BLOCKS, THREAD_K_BLOCKS, \
-                   M_BLOCK_SIZE_8, HAS_ACT_ORDER, HAS_ZP, GROUP_BLOCKS,       \
-                   NUM_THREADS, IS_ZP_FLOAT)                                  \
-    else if (q_type == W_TYPE && thread_m_blocks == THREAD_M_BLOCKS &&        \
-             thread_n_blocks == THREAD_N_BLOCKS &&                            \
-             thread_k_blocks == THREAD_K_BLOCKS &&                            \
-             m_block_size_8 == M_BLOCK_SIZE_8 &&                              \
-             has_act_order == HAS_ACT_ORDER && has_zp == HAS_ZP &&            \
-             group_blocks == GROUP_BLOCKS && num_threads == NUM_THREADS &&    \
-             is_zp_float == IS_ZP_FLOAT) {                                    \
-      kernel = Marlin<scalar_t, W_TYPE.id(), NUM_THREADS, THREAD_M_BLOCKS,    \
-                      THREAD_N_BLOCKS, THREAD_K_BLOCKS, M_BLOCK_SIZE_8,       \
-                      pipe_stages, HAS_ACT_ORDER, HAS_ZP, GROUP_BLOCKS,       \
-                      IS_ZP_FLOAT>;                                           \
+  #define _GET_IF(W_TYPE, THREAD_M_BLOCKS, THREAD_N_BLOCKS, THREAD_K_BLOCKS, \
+                  M_BLOCK_SIZE_8, GROUP_BLOCKS, NUM_THREADS, IS_ZP_FLOAT)    \
+    else if (q_type == W_TYPE && thread_m_blocks == THREAD_M_BLOCKS &&       \
+             thread_n_blocks == THREAD_N_BLOCKS &&                           \
+             thread_k_blocks == THREAD_K_BLOCKS &&                           \
+             m_block_size_8 == M_BLOCK_SIZE_8 &&                             \
+             group_blocks == GROUP_BLOCKS && num_threads == NUM_THREADS &&   \
+             is_zp_float == IS_ZP_FLOAT) {                                   \
+      kernel = Marlin<scalar_t, W_TYPE.id(), NUM_THREADS, THREAD_M_BLOCKS,   \
+                      THREAD_N_BLOCKS, THREAD_K_BLOCKS, M_BLOCK_SIZE_8,      \
+                      pipe_stages, GROUP_BLOCKS, IS_ZP_FLOAT>;               \
     }
 
-  #define GPTQ_GET_IF_M1(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)              \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, true, false, 0, NUM_THREADS, \
-             false)                                                            \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, true, false, 0,             \
-             NUM_THREADS, false)                                               \
-                                                                               \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, false, false, -1,            \
-             NUM_THREADS, false)                                               \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, false, false, 2,             \
-             NUM_THREADS, false)                                               \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, false, false, 4,             \
-             NUM_THREADS, false)                                               \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, false, false, 8,             \
-             NUM_THREADS, false)                                               \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, false, false, -1,           \
-             NUM_THREADS, false)                                               \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, false, false, 2,            \
-             NUM_THREADS, false)                                               \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, false, false, 4,            \
-             NUM_THREADS, false)                                               \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, false, false, 8,            \
-             NUM_THREADS, false)
-
-  #define GPTQ_GET_IF_M234(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)  \
-    __GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, true, false, 0,   \
-             NUM_THREADS, false)                                     \
-    __GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, true, false, 0,   \
-             NUM_THREADS, false)                                     \
-    __GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, true, false, 0,   \
-             NUM_THREADS, false)                                     \
-                                                                     \
-    __GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, false, false, -1, \
-             NUM_THREADS, false)                                     \
-    __GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, false, false, 2,  \
-             NUM_THREADS, false)                                     \
-    __GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, false, false, 4,  \
-             NUM_THREADS, false)                                     \
-    __GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, false, false, 8,  \
-             NUM_THREADS, false)                                     \
-                                                                     \
-    __GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, false, false, -1, \
-             NUM_THREADS, false)                                     \
-    __GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, false, false, 2,  \
-             NUM_THREADS, false)                                     \
-    __GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, false, false, 4,  \
-             NUM_THREADS, false)                                     \
-    __GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, false, false, 8,  \
-             NUM_THREADS, false)                                     \
-                                                                     \
-    __GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, false, false, -1, \
-             NUM_THREADS, false)                                     \
-    __GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, false, false, 2,  \
-             NUM_THREADS, false)                                     \
-    __GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, false, false, 4,  \
-             NUM_THREADS, false)                                     \
-    __GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, false, false, 8,  \
-             NUM_THREADS, false)
-
-  #define AWQ_GET_IF_M1(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)               \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, false, true, -1,             \
-             NUM_THREADS, false)                                               \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, false, true, 2, NUM_THREADS, \
-             false)                                                            \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, false, true, 4, NUM_THREADS, \
-             false)                                                            \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, false, true, 8, NUM_THREADS, \
-             false)                                                            \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, false, true, -1,            \
-             NUM_THREADS, false)                                               \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, false, true, 2,             \
-             NUM_THREADS, false)                                               \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, false, true, 4,             \
-             NUM_THREADS, false)                                               \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, false, true, 8,             \
-             NUM_THREADS, false)
-
-  #define AWQ_GET_IF_M234(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)  \
-    __GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, false, true, -1, \
-             NUM_THREADS, false)                                    \
-    __GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, false, true, 2,  \
-             NUM_THREADS, false)                                    \
-    __GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, false, true, 4,  \
-             NUM_THREADS, false)                                    \
-    __GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, false, true, 8,  \
-             NUM_THREADS, false)                                    \
-                                                                    \
-    __GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, false, true, -1, \
-             NUM_THREADS, false)                                    \
-    __GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, false, true, 2,  \
-             NUM_THREADS, false)                                    \
-    __GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, false, true, 4,  \
-             NUM_THREADS, false)                                    \
-    __GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, false, true, 8,  \
-             NUM_THREADS, false)                                    \
-                                                                    \
-    __GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, false, true, -1, \
-             NUM_THREADS, false)                                    \
-    __GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, false, true, 2,  \
-             NUM_THREADS, false)                                    \
-    __GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, false, true, 4,  \
-             NUM_THREADS, false)                                    \
-    __GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, false, true, 8,  \
-             NUM_THREADS, false)
+  // COMMON: cases for (group_blocks in [-1, 2, 4, 8] and is_zp_float == false)
+  //         this is the most common cases
+  // BIGGROUP: cases for big group size (group_blocks in [-1, 8])
+  // FZP: cases for float-zero-point (is_zp_float = true)
+  // ACT: cases for act order case (group_blocks == 0)
+  #define COMMON_GET_IF_M1(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)       \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, -1, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 2, NUM_THREADS, false)   \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 4, NUM_THREADS, false)   \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 8, NUM_THREADS, false)   \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, 2, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, 4, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)
+
+  #define COMMON_GET_IF_M234(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)     \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, 2, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, 4, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)  \
+                                                                          \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, 2, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, 4, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)  \
+                                                                          \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, 2, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, 4, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)
+
+  #define COMMON_GET_IF(W_TYPE)            \
+    COMMON_GET_IF_M1(W_TYPE, 8, 8, 256)    \
+    COMMON_GET_IF_M1(W_TYPE, 8, 4, 128)    \
+    COMMON_GET_IF_M234(W_TYPE, 16, 4, 256) \
+    COMMON_GET_IF_M234(W_TYPE, 8, 4, 128)
+
+  #define BIGGROUP_GET_IF_M1(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)     \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, -1, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 8, NUM_THREADS, false)   \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)
+
+  #define BIGGROUP_GET_IF_M234(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)   \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)  \
+                                                                          \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)
+
+  #define BIGGROUP_GET_IF(W_TYPE)            \
+    BIGGROUP_GET_IF_M1(W_TYPE, 8, 8, 256)    \
+    BIGGROUP_GET_IF_M1(W_TYPE, 8, 4, 128)    \
+    BIGGROUP_GET_IF_M234(W_TYPE, 16, 4, 256) \
+    BIGGROUP_GET_IF_M234(W_TYPE, 8, 4, 128)
 
   // We currently have 4-bit models only with group_blocks == 4
-  #define HQQ_GET_IF(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)                  \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, false, true, 4, NUM_THREADS, \
-             true)                                                             \
-    __GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, false, true, 4,             \
-             NUM_THREADS, true)                                                \
-    __GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, false, true, 4,             \
-             NUM_THREADS, true)                                                \
-    __GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, false, true, 4,             \
-             NUM_THREADS, true)                                                \
-    __GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, false, true, 4,             \
-             NUM_THREADS, true)
+  #define FZP_GET_IF_M1(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)       \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 4, NUM_THREADS, true) \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, 4, NUM_THREADS, true)
+
+  #define FZP_GET_IF_M234(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)      \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, 4, NUM_THREADS, true) \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, 4, NUM_THREADS, true) \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, 4, NUM_THREADS, true)
+
+  #define FZP_GET_IF(W_TYPE)            \
+    FZP_GET_IF_M1(W_TYPE, 8, 8, 256)    \
+    FZP_GET_IF_M1(W_TYPE, 8, 4, 128)    \
+    FZP_GET_IF_M234(W_TYPE, 16, 4, 256) \
+    FZP_GET_IF_M234(W_TYPE, 8, 4, 128)
+
+  // We currently have 4-bit models only with group_blocks == 4
+  #define ACT_GET_IF_M1(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)        \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 0, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, 0, NUM_THREADS, false)
+
+  #define ACT_GET_IF_M234(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)       \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, 0, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, 0, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, 0, NUM_THREADS, false)
+
+  #define ACT_GET_IF(W_TYPE)            \
+    ACT_GET_IF_M1(W_TYPE, 8, 8, 256)    \
+    ACT_GET_IF_M1(W_TYPE, 8, 4, 128)    \
+    ACT_GET_IF_M234(W_TYPE, 16, 4, 256) \
+    ACT_GET_IF_M234(W_TYPE, 8, 4, 128)
 
 template <typename scalar_t>
 MarlinFuncPtr get_marlin_kernel(const vllm::ScalarType q_type,
@@ -415,23 +387,15 @@ MarlinFuncPtr get_marlin_kernel(const vllm::ScalarType q_type,
   auto kernel = MarlinDefault;
   if (false) {
   }
-  GPTQ_GET_IF_M1(vllm::kU4B8, 8, 8, 256)
-  GPTQ_GET_IF_M1(vllm::kU4B8, 8, 4, 128)
 
-  GPTQ_GET_IF_M234(vllm::kU4B8, 16, 4, 256)
-  GPTQ_GET_IF_M234(vllm::kU4B8, 8, 4, 128)
+  COMMON_GET_IF(vllm::kU4)
+  COMMON_GET_IF(vllm::kU4B8)
+  COMMON_GET_IF(vllm::kU8B128)
 
-  GPTQ_GET_IF_M1(vllm::kU8B128, 8, 8, 256)
-  GPTQ_GET_IF_M1(vllm::kU8B128, 8, 4, 128)
+  BIGGROUP_GET_IF(vllm::kFE4M3fn)
 
-  GPTQ_GET_IF_M234(vllm::kU8B128, 16, 4, 256)
-  GPTQ_GET_IF_M234(vllm::kU8B128, 8, 4, 128)
-
-  AWQ_GET_IF_M1(vllm::kU4, 8, 8, 256)
-  AWQ_GET_IF_M1(vllm::kU4, 8, 4, 128)
-
-  AWQ_GET_IF_M234(vllm::kU4, 16, 4, 256)
-  AWQ_GET_IF_M234(vllm::kU4, 8, 4, 128)
+  ACT_GET_IF(vllm::kU4B8)
+  ACT_GET_IF(vllm::kU8B128)
 
   return kernel;
 }
@@ -457,19 +421,19 @@ exec_config_t determine_exec_config(const vllm::ScalarType& q_type, int prob_m,
   for (int i = 0; i < thread_configs_size; i++) {
     thread_config_t th_config = thread_configs[i];
 
-    if (!is_valid_config(th_config, thread_m_blocks, prob_m, prob_n, prob_k,
-                         num_bits, group_size, has_act_order, is_k_full, has_zp,
-                         is_zp_float, max_shared_mem)) {
+    if (!is_valid_config(th_config, m_block_size_8, thread_m_blocks, prob_m,
+                         prob_n, prob_k, num_bits, group_size, has_act_order,
+                         is_k_full, has_zp, is_zp_float, max_shared_mem)) {
       continue;
     }
 
     int cache_size = get_kernel_cache_size(
-        th_config, thread_m_blocks, prob_m, prob_n, prob_k, num_bits,
-        group_size, has_act_order, is_k_full, has_zp, is_zp_float);
+        th_config, m_block_size_8, thread_m_blocks, prob_m, prob_n, prob_k,
+        num_bits, group_size, has_act_order, is_k_full, has_zp, is_zp_float);
 
     int group_blocks = 0;
     if (!has_act_order) {
-      group_blocks = group_size == -1 ? -1 : group_size / 16;
+      group_blocks = group_size == -1 ? -1 : (group_size / 16);
     }
 
     auto kernel = get_marlin_kernel<scalar_t>(
@@ -515,14 +479,14 @@ void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
   bool m_block_size_8 = moe_block_size == 8;
 
   if (has_zp) {
-    TORCH_CHECK(
-        q_type == vllm::kU4 || q_type == vllm::kU8,
-        "q_type must be u4 or u8 when has_zp = True. Got = ", q_type.str());
+    TORCH_CHECK(q_type == vllm::kU4,
+                "q_type must be u4 when has_zp = True. Got = ", q_type.str());
   } else {
-    TORCH_CHECK(
-        q_type == vllm::kU4B8 || q_type == vllm::kU8B128,
-        "q_type must be uint4b8 or uint8b128 when has_zp = False. Got = ",
-        q_type.str());
+    TORCH_CHECK(q_type == vllm::kU4B8 || q_type == vllm::kU8B128 ||
+                    q_type == vllm::kFE4M3fn,
+                "q_type must be uint4b8, uint8b128 or fp8e4m3 when has_zp = "
+                "False. Got = ",
+                q_type.str());
   }
 
   TORCH_CHECK(prob_m > 0 && prob_n > 0 && prob_k > 0, "Invalid MNK = [", prob_m,
@@ -631,18 +595,18 @@ void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
   int thread_k_blocks = thread_k / 16;
   int thread_n_blocks = thread_n / 16;
 
-  TORCH_CHECK(is_valid_config(thread_tfg, thread_m_blocks, prob_m, prob_n,
-                              prob_k, num_bits, group_size, has_act_order,
-                              is_k_full, has_zp, is_zp_float, max_shared_mem),
-              "Invalid thread config: thread_m_blocks = ", thread_m_blocks,
-              ", thread_k = ", thread_tfg.thread_k,
-              ", thread_n = ", thread_tfg.thread_n,
-              ", num_threads = ", thread_tfg.num_threads, " for MKN = [",
-              prob_m, ", ", prob_k, ", ", prob_n, "] and num_bits = ", num_bits,
-              ", group_size = ", group_size,
-              ", has_act_order = ", has_act_order, ", is_k_full = ", is_k_full,
-              ", has_zp = ", has_zp, ", is_zp_float = ", is_zp_float,
-              ", max_shared_mem = ", max_shared_mem);
+  TORCH_CHECK(
+      is_valid_config(thread_tfg, m_block_size_8, thread_m_blocks, prob_m,
+                      prob_n, prob_k, num_bits, group_size, has_act_order,
+                      is_k_full, has_zp, is_zp_float, max_shared_mem),
+      "Invalid thread config: thread_m_blocks = ", thread_m_blocks,
+      ", thread_k = ", thread_tfg.thread_k,
+      ", thread_n = ", thread_tfg.thread_n,
+      ", num_threads = ", thread_tfg.num_threads, " for MKN = [", prob_m, ", ",
+      prob_k, ", ", prob_n, "] and num_bits = ", num_bits,
+      ", group_size = ", group_size, ", has_act_order = ", has_act_order,
+      ", is_k_full = ", is_k_full, ", has_zp = ", has_zp,
+      ", is_zp_float = ", is_zp_float, ", max_shared_mem = ", max_shared_mem);
 
   auto kernel = get_marlin_kernel<scalar_t>(
       q_type, thread_m_blocks, thread_n_blocks, thread_k_blocks, m_block_size_8,
@@ -666,7 +630,7 @@ void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
       A_ptr, B_ptr, C_ptr, C_tmp_ptr, s_ptr, zp_ptr, g_idx_ptr,
       sorted_token_ids_ptr, expert_ids_ptr, num_tokens_past_padded_ptr,
       topk_weights_ptr, top_k, mul_topk_weights, is_ep, num_groups, prob_m,
-      prob_n, prob_k, locks, use_atomic_add, use_fp32_reduce);
+      prob_n, prob_k, locks, use_atomic_add, use_fp32_reduce, max_shared_mem);
   // clang-format on
 }
 
@@ -841,10 +805,11 @@ torch::Tensor moe_wna16_marlin_gemm(
         b_q_type == vllm::kU4,
         "b_q_type must be u4 when has_zp = True. Got = ", b_q_type.str());
   } else {
-    TORCH_CHECK(
-        b_q_type == vllm::kU4B8 || b_q_type == vllm::kU8B128,
-        "b_q_type must be uint4b8 or uint8b128 when has_zp = False. Got = ",
-        b_q_type.str());
+    TORCH_CHECK(b_q_type == vllm::kU4B8 || b_q_type == vllm::kU8B128 ||
+                    b_q_type == vllm::kFE4M3fn,
+                "b_q_type must be uint4b8, uint8b128 or fp8e4m3 when has_zp = "
+                "False. Got = ",
+                b_q_type.str());
   }
 
   if (has_zp && is_zp_float) {
diff --git a/csrc/quantization/gptq_marlin/.gitignore b/csrc/quantization/gptq_marlin/.gitignore
new file mode 100644
index 000000000..77088552b
--- /dev/null
+++ b/csrc/quantization/gptq_marlin/.gitignore
@@ -0,0 +1 @@
+kernel_*.cu
\ No newline at end of file
diff --git a/csrc/quantization/gptq_marlin/dequant.h b/csrc/quantization/gptq_marlin/dequant.h
new file mode 100644
index 000000000..3c0d77ac3
--- /dev/null
+++ b/csrc/quantization/gptq_marlin/dequant.h
@@ -0,0 +1,291 @@
+
+#include "marlin_dtypes.cuh"
+
+namespace MARLIN_NAMESPACE_NAME {
+
+#if !defined(__CUDA_ARCH__) || __CUDA_ARCH__ >= 800
+// Lookup-table based 3-input logical operation; explicitly used for
+// dequantization as the compiler does not seem to automatically recognize it in
+// all cases.
+template <int lut>
+__device__ inline int lop3(int a, int b, int c) {
+  int res;
+  asm volatile("lop3.b32 %0, %1, %2, %3, %4;\n"
+               : "=r"(res)
+               : "r"(a), "r"(b), "r"(c), "n"(lut));
+  return res;
+}
+
+// Constructs destination register by taking bytes from 2 sources (based on
+// mask)
+template <int start_byte, int mask>
+__device__ inline uint32_t prmt(uint32_t a) {
+  uint32_t res;
+  asm volatile("prmt.b32 %0, %1, %2, %3;\n"
+               : "=r"(res)
+               : "r"(a), "n"(start_byte), "n"(mask));
+  return res;
+}
+
+template <typename scalar_t2, vllm::ScalarTypeId w_type_id>
+__device__ inline void dequant(int q, scalar_t2* frag_b);
+
+//
+// Efficiently dequantize 4bit values packed in an int32 value into a full
+// B-fragment of 4 fp16 values. We mostly follow the strategy in the link below,
+// with some small changes:
+// - FP16:
+// https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L215-L287
+// - BF16:
+// https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L327-L385
+//
+template <>
+__device__ inline void dequant<half2, vllm::kU4B8.id()>(int q, half2* frag_b) {
+  const int LO = 0x000f000f;
+  const int HI = 0x00f000f0;
+  const int EX = 0x64006400;
+  // Guarantee that the `(a & b) | c` operations are LOP3s.
+  // clang-format off
+  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
+  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
+  // clang-format on
+  // We want signed int4 outputs, hence we fuse the `-8` symmetric zero point
+  // directly into `SUB` and `ADD`.
+  const int SUB = 0x64086408;
+  const int MUL = 0x2c002c00;
+  const int ADD = 0xd480d480;
+  frag_b[0] = __hsub2(*reinterpret_cast<half2*>(&lo),
+                      *reinterpret_cast<const half2*>(&SUB));
+  frag_b[1] = __hfma2(*reinterpret_cast<half2*>(&hi),
+                      *reinterpret_cast<const half2*>(&MUL),
+                      *reinterpret_cast<const half2*>(&ADD));
+}
+
+template <>
+__device__ inline void dequant<half2, vllm::kU4.id()>(int q, half2* frag_b) {
+  const int LO = 0x000f000f;
+  const int HI = 0x00f000f0;
+  const int EX = 0x64006400;
+  // Guarantee that the `(a & b) | c` operations are LOP3s.
+  // clang-format off
+  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
+  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
+  // clang-format on
+  // We want signed int4 outputs, hence we fuse the `-8` symmetric zero point
+  // directly into `SUB` and `ADD`.
+  const int SUB = 0x64006400;
+  const int MUL = 0x2c002c00;
+  const int ADD = 0xd400d400;
+  frag_b[0] = __hsub2(*reinterpret_cast<half2*>(&lo),
+                      *reinterpret_cast<const half2*>(&SUB));
+  frag_b[1] = __hfma2(*reinterpret_cast<half2*>(&hi),
+                      *reinterpret_cast<const half2*>(&MUL),
+                      *reinterpret_cast<const half2*>(&ADD));
+}
+
+template <>
+__device__ inline void dequant<nv_bfloat162, vllm::kU4B8.id()>(
+    int q, nv_bfloat162* frag_b) {
+  static constexpr uint32_t MASK = 0x000f000f;
+  static constexpr uint32_t EX = 0x43004300;
+
+  // Guarantee that the `(a & b) | c` operations are LOP3s.
+  // clang-format off
+  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
+  q >>= 4;
+  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
+  // clang-format on
+
+  static constexpr uint32_t MUL = 0x3F803F80;
+  static constexpr uint32_t ADD = 0xC308C308;
+
+  frag_b[0] = __hfma2(*reinterpret_cast<nv_bfloat162*>(&lo),
+                      *reinterpret_cast<const nv_bfloat162*>(&MUL),
+                      *reinterpret_cast<const nv_bfloat162*>(&ADD));
+  frag_b[1] = __hfma2(*reinterpret_cast<nv_bfloat162*>(&hi),
+                      *reinterpret_cast<const nv_bfloat162*>(&MUL),
+                      *reinterpret_cast<const nv_bfloat162*>(&ADD));
+}
+
+template <>
+__device__ inline void dequant<nv_bfloat162, vllm::kU4.id()>(
+    int q, nv_bfloat162* frag_b) {
+  static constexpr uint32_t MASK = 0x000f000f;
+  static constexpr uint32_t EX = 0x43004300;
+
+  // Guarantee that the `(a & b) | c` operations are LOP3s.
+  // clang-format off
+  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
+  q >>= 4;
+  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
+  // clang-format on
+
+  static constexpr uint32_t MUL = 0x3F803F80;
+  static constexpr uint32_t ADD = 0xC300C300;
+
+  frag_b[0] = __hfma2(*reinterpret_cast<nv_bfloat162*>(&lo),
+                      *reinterpret_cast<const nv_bfloat162*>(&MUL),
+                      *reinterpret_cast<const nv_bfloat162*>(&ADD));
+  frag_b[1] = __hfma2(*reinterpret_cast<nv_bfloat162*>(&hi),
+                      *reinterpret_cast<const nv_bfloat162*>(&MUL),
+                      *reinterpret_cast<const nv_bfloat162*>(&ADD));
+}
+
+//
+// Fast Int8ToFp16/Int8ToBf16: Efficiently dequantize 8bit int values to fp16 or
+// bf16 Reference:
+// - FP16:
+// https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L53-L85
+// - BF16:
+// https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L125-L175
+//
+template <>
+__device__ inline void dequant<half2, vllm::kU8B128.id()>(int q,
+                                                          half2* frag_b) {
+  static constexpr uint32_t mask_for_elt_01 = 0x5250;
+  static constexpr uint32_t mask_for_elt_23 = 0x5351;
+  static constexpr uint32_t start_byte_for_fp16 = 0x64646464;
+
+  uint32_t lo = prmt<start_byte_for_fp16, mask_for_elt_01>(q);
+  uint32_t hi = prmt<start_byte_for_fp16, mask_for_elt_23>(q);
+
+  static constexpr uint32_t I8s_TO_F16s_MAGIC_NUM = 0x64806480;
+
+  frag_b[0] = __hsub2(*reinterpret_cast<half2*>(&lo),
+                      *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
+  frag_b[1] = __hsub2(*reinterpret_cast<half2*>(&hi),
+                      *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
+}
+
+template <>
+__device__ inline void dequant<half2, vllm::kU8.id()>(int q, half2* frag_b) {
+  static constexpr uint32_t mask_for_elt_01 = 0x5250;
+  static constexpr uint32_t mask_for_elt_23 = 0x5351;
+  static constexpr uint32_t start_byte_for_fp16 = 0x64646464;
+
+  uint32_t lo = prmt<start_byte_for_fp16, mask_for_elt_01>(q);
+  uint32_t hi = prmt<start_byte_for_fp16, mask_for_elt_23>(q);
+
+  static constexpr uint32_t I8s_TO_F16s_MAGIC_NUM = 0x64006400;
+
+  frag_b[0] = __hsub2(*reinterpret_cast<half2*>(&lo),
+                      *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
+  frag_b[1] = __hsub2(*reinterpret_cast<half2*>(&hi),
+                      *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
+}
+
+template <>
+__device__ inline void dequant<nv_bfloat162, vllm::kU8B128.id()>(
+    int q, nv_bfloat162* frag_b) {
+  float fp32_intermediates[4];
+  uint32_t* fp32_intermediates_casted =
+      reinterpret_cast<uint32_t*>(fp32_intermediates);
+
+  static constexpr uint32_t fp32_base = 0x4B000000;
+  fp32_intermediates_casted[0] = __byte_perm(q, fp32_base, 0x7650);
+  fp32_intermediates_casted[1] = __byte_perm(q, fp32_base, 0x7652);
+  fp32_intermediates_casted[2] = __byte_perm(q, fp32_base, 0x7651);
+  fp32_intermediates_casted[3] = __byte_perm(q, fp32_base, 0x7653);
+
+  fp32_intermediates[0] -= 8388736.f;
+  fp32_intermediates[1] -= 8388736.f;
+  fp32_intermediates[2] -= 8388736.f;
+  fp32_intermediates[3] -= 8388736.f;
+
+  uint32_t* bf16_result_ptr = reinterpret_cast<uint32_t*>(frag_b);
+  bf16_result_ptr[0] = __byte_perm(fp32_intermediates_casted[0],
+                                   fp32_intermediates_casted[1], 0x7632);
+  bf16_result_ptr[1] = __byte_perm(fp32_intermediates_casted[2],
+                                   fp32_intermediates_casted[3], 0x7632);
+}
+
+template <>
+__device__ inline void dequant<nv_bfloat162, vllm::kU8.id()>(
+    int q, nv_bfloat162* frag_b) {
+  float fp32_intermediates[4];
+  uint32_t* fp32_intermediates_casted =
+      reinterpret_cast<uint32_t*>(fp32_intermediates);
+
+  static constexpr uint32_t fp32_base = 0x4B000000;
+  fp32_intermediates_casted[0] = __byte_perm(q, fp32_base, 0x7650);
+  fp32_intermediates_casted[1] = __byte_perm(q, fp32_base, 0x7652);
+  fp32_intermediates_casted[2] = __byte_perm(q, fp32_base, 0x7651);
+  fp32_intermediates_casted[3] = __byte_perm(q, fp32_base, 0x7653);
+
+  fp32_intermediates[0] -= 8388608.f;
+  fp32_intermediates[1] -= 8388608.f;
+  fp32_intermediates[2] -= 8388608.f;
+  fp32_intermediates[3] -= 8388608.f;
+
+  uint32_t* bf16_result_ptr = reinterpret_cast<uint32_t*>(frag_b);
+  bf16_result_ptr[0] = __byte_perm(fp32_intermediates_casted[0],
+                                   fp32_intermediates_casted[1], 0x7632);
+  bf16_result_ptr[1] = __byte_perm(fp32_intermediates_casted[2],
+                                   fp32_intermediates_casted[3], 0x7632);
+}
+
+template <>
+__device__ inline void dequant<half2, vllm::kFE4M3fn.id()>(int q,
+                                                           half2* frag_b) {
+  // Constants for FP8 (E4M3) and FP16 formats
+  constexpr int FP8_EXPONENT = 4, FP8_MANTISSA = 3, FP16_EXPONENT = 5;
+  constexpr int RIGHT_SHIFT = FP16_EXPONENT - FP8_EXPONENT;
+
+  // Calculate MASK for extracting mantissa and exponent
+  constexpr int MASK1 = 0x80000000;
+  constexpr int MASK2 = MASK1 >> (FP8_EXPONENT + FP8_MANTISSA);
+  constexpr int MASK3 = MASK2 & 0x7fffffff;
+  constexpr int MASK = MASK3 | (MASK3 >> 16);
+  // Final MASK value: 0x7F007F00
+
+  // Extract and shift FP8 values to FP16 format
+  int Out1 = (q & 0x80008000) | ((q & MASK) >> RIGHT_SHIFT);
+  int Out2 = ((q << 8) & 0x80008000) | (((q << 8) & MASK) >> RIGHT_SHIFT);
+
+  // Construct and apply exponent bias
+  constexpr int BIAS_OFFSET =
+      (1 << (FP16_EXPONENT - 1)) - (1 << (FP8_EXPONENT - 1));
+  const half2 bias_reg = __float2half2_rn(float(1 << BIAS_OFFSET));
+
+  // Convert to half2 and apply bias
+  // Note: reverse indexing is intentional because weights are permuted
+  frag_b[1] = __hmul2(*reinterpret_cast<const half2*>(&Out1), bias_reg);
+  frag_b[0] = __hmul2(*reinterpret_cast<const half2*>(&Out2), bias_reg);
+}
+
+template <>
+__device__ inline void dequant<nv_bfloat162, vllm::kFE4M3fn.id()>(
+    int q, nv_bfloat162* frag_b) {
+  // Constants for FP8 (E4M3) and BF16 formats
+  constexpr int FP8_EXPONENT = 4, FP8_MANTISSA = 3, BF16_EXPONENT = 8;
+  constexpr int RIGHT_SHIFT = BF16_EXPONENT - FP8_EXPONENT;
+
+  // Calculate MASK for extracting mantissa and exponent
+  constexpr int MASK1 = 0x80000000;
+  constexpr int MASK2 = MASK1 >> (FP8_EXPONENT + FP8_MANTISSA);
+  constexpr int MASK3 = MASK2 & 0x7fffffff;
+  constexpr int MASK = MASK3 | (MASK3 >> 16);
+  // Final MASK value: 0x7F007F00
+
+  // Extract and shift FP8 values to BF16 format
+  int Out1 = (q & 0x80008000) | ((q & MASK) >> RIGHT_SHIFT);
+  int Out2 = ((q << 8) & 0x80008000) | (((q << 8) & MASK) >> RIGHT_SHIFT);
+
+  // Construct and apply exponent bias
+  constexpr int BIAS_OFFSET =
+      (1 << (BF16_EXPONENT - 1)) - (1 << (FP8_EXPONENT - 1));
+  // Add 127 (float exponent bias) to BIAS_OFFSET and shift to float exponent
+  // position
+  constexpr uint32_t BIAS = (BIAS_OFFSET + 127) << 23;
+  const nv_bfloat162 bias_reg =
+      __float2bfloat162_rn(*reinterpret_cast<const float*>(&BIAS));
+
+  // Convert to bfloat162 and apply bias
+  // Note: reverse indexing is intentional because weights are permuted
+  frag_b[1] = __hmul2(*reinterpret_cast<const nv_bfloat162*>(&Out1), bias_reg);
+  frag_b[0] = __hmul2(*reinterpret_cast<const nv_bfloat162*>(&Out2), bias_reg);
+}
+
+#endif
+
+}  // namespace MARLIN_NAMESPACE_NAME
diff --git a/csrc/quantization/gptq_marlin/generate_kernels.py b/csrc/quantization/gptq_marlin/generate_kernels.py
new file mode 100644
index 000000000..8b4b951f3
--- /dev/null
+++ b/csrc/quantization/gptq_marlin/generate_kernels.py
@@ -0,0 +1,116 @@
+# SPDX-License-Identifier: Apache-2.0
+import glob
+import itertools
+import os
+import subprocess
+
+import jinja2
+
+FILE_HEAD = """
+// auto generated by generate.py
+// clang-format off
+
+#include "kernel.h"
+#include "marlin_template.h"
+
+namespace MARLIN_NAMESPACE_NAME {
+""".strip()
+
+TEMPLATE = ("template __global__ void Marlin<"
+            "{{scalar_t}}, "
+            "{{w_type_id}}, "
+            "{{threads}}, "
+            "{{thread_m_blocks}}, "
+            "{{thread_n_blocks}}, "
+            "{{thread_k_blocks}}, "
+            "{{'true' if m_block_size_8 else 'false'}}, "
+            "{{stages}}, "
+            "{{group_blocks}}, "
+            "{{'true' if is_zp_float else 'false'}}>"
+            "( MARLIN_KERNEL_PARAMS );")
+
+# int8 with zero point case (vllm::kU8) is also supported,
+# we don't add it to reduce wheel size.
+SCALAR_TYPES = ["vllm::kU4", "vllm::kU4B8", "vllm::kU8B128", "vllm::kFE4M3fn"]
+THREAD_CONFIGS = [(128, 128, 256), (64, 256, 256), (64, 128, 128),
+                  (128, 64, 128)]
+
+THREAD_M_BLOCKS = [0.5, 1, 2, 3, 4]
+# group_blocks:
+#   = 0 : act order case
+#   = -1 : channelwise quantization
+#   > 0 : group_size=16*group_blocks
+GROUP_BLOCKS = [0, -1, 2, 4, 8]
+DTYPES = ["fp16", "bf16"]
+
+
+def remove_old_kernels():
+    for filename in glob.glob(os.path.dirname(__file__) + "/kernel_*.cu"):
+        subprocess.call(["rm", "-f", filename])
+
+
+def generate_new_kernels():
+    for scalar_type, dtype in itertools.product(SCALAR_TYPES, DTYPES):
+        all_template_str_list = []
+
+        for group_blocks, m_blocks, thread_configs in itertools.product(
+                GROUP_BLOCKS, THREAD_M_BLOCKS, THREAD_CONFIGS):
+
+            # act order case only support gptq-int4 and gptq-int8
+            if group_blocks == 0 and scalar_type not in [
+                    "vllm::kU4B8", "vllm::kU8B128"
+            ]:
+                continue
+            if thread_configs[2] == 256:
+                # for small batch (m_blocks == 1), we only need (128, 128, 256)
+                # for large batch (m_blocks > 1), we only need (64, 256, 256)
+                if m_blocks <= 1 and thread_configs[0] != 128:
+                    continue
+                if m_blocks > 1 and thread_configs[0] != 64:
+                    continue
+
+            # we only support channelwise quantization and group_size == 128
+            # for fp8
+            if scalar_type == "vllm::kFE4M3fn" and group_blocks not in [-1, 8]:
+                continue
+
+            k_blocks = thread_configs[0] // 16
+            n_blocks = thread_configs[1] // 16
+            threads = thread_configs[2]
+
+            c_dtype = "half" if dtype == "fp16" else "nv_bfloat16"
+
+            is_zp_float_list = [False]
+            if dtype == "fp16" and scalar_type == "vllm::kU4" and \
+                    group_blocks == 4:
+                # HQQ (is_zp_float = true) only supports
+                # 4bit quantization and fp16
+                is_zp_float_list.append(True)
+
+            for is_zp_float in is_zp_float_list:
+                template_str = jinja2.Template(TEMPLATE).render(
+                    scalar_t=c_dtype,
+                    w_type_id=scalar_type + ".id()",
+                    threads=threads,
+                    thread_m_blocks=max(m_blocks, 1),
+                    thread_n_blocks=n_blocks,
+                    thread_k_blocks=k_blocks,
+                    m_block_size_8=m_blocks == 0.5,
+                    stages="pipe_stages",
+                    group_blocks=group_blocks,
+                    is_zp_float=is_zp_float,
+                )
+
+                all_template_str_list.append(template_str)
+
+        file_content = FILE_HEAD + "\n\n"
+        file_content += "\n\n".join(all_template_str_list) + "\n\n}\n"
+        filename = f"kernel_{dtype}_{scalar_type[6:].lower()}.cu"
+
+        with open(os.path.join(os.path.dirname(__file__), filename), "w") as f:
+            f.write(file_content)
+
+
+if __name__ == "__main__":
+    remove_old_kernels()
+    generate_new_kernels()
diff --git a/csrc/quantization/gptq_marlin/gptq_marlin.cu b/csrc/quantization/gptq_marlin/gptq_marlin.cu
index a974c881e..02527a481 100644
--- a/csrc/quantization/gptq_marlin/gptq_marlin.cu
+++ b/csrc/quantization/gptq_marlin/gptq_marlin.cu
@@ -19,10 +19,11 @@
  * Adapted from https://github.com/IST-DASLab/marlin
  */
 
-#include "marlin.cuh"
-#include "marlin_dtypes.cuh"
-#include "core/scalar_type.hpp"
+#ifndef MARLIN_NAMESPACE_NAME
+  #define MARLIN_NAMESPACE_NAME marlin
+#endif
 
+#include "kernel.h"
 #include "core/registration.h"
 
 #define STATIC_ASSERT_SCALAR_TYPE_VALID(scalar_t)               \
@@ -30,13 +31,12 @@
                     std::is_same<scalar_t, nv_bfloat16>::value, \
                 "only float16 and bfloat16 is supported");
 
-template <typename T>
-inline std::string str(T x) {
-  return std::to_string(x);
-}
-
 namespace marlin {
 
+__global__ void MarlinDefault(MARLIN_KERNEL_PARAMS){};
+
+using MarlinFuncPtr = void (*)(MARLIN_KERNEL_PARAMS);
+
 #if defined(__CUDA_ARCH__) && __CUDA_ARCH__ < 800
 
 __global__ void permute_cols_kernel(int4 const* __restrict__ a_int4_ptr,
@@ -44,46 +44,17 @@ __global__ void permute_cols_kernel(int4 const* __restrict__ a_int4_ptr,
                                     int4* __restrict__ out_int4_ptr, int size_m,
                                     int size_k, int lda, int block_rows) {}
 
-template <typename scalar_t,  // compute dtype, half or nv_float16
-          const vllm::ScalarTypeId w_type_id,  // weight ScalarType id
-          const int threads,          // number of threads in a threadblock
-          const int thread_m_blocks,  // number of 16x16 blocks in the m
-                                      // dimension (batchsize) of the
-                                      // threadblock
-          const int thread_n_blocks,  // same for n dimension (output)
-          const int thread_k_blocks,  // same for k dimension (reduction)
-          const int stages,  // number of stages for the async global->shared
-                             // fetch pipeline
-          const bool has_act_order,     // whether act_order is enabled
-          const int group_blocks = -1,  // number of consecutive 16x16 blocks
-                                        // with a separate quantization scale
-          const bool is_zp_float        // is zero point of float16 type?
-          >
-__global__ void Marlin(
-    const int4* __restrict__ A,  // fp16 input matrix of shape mxk
-    const int4* __restrict__ B,  // 4bit quantized weight matrix of shape kxn
-    int4* __restrict__ C,        // fp16 output buffer of shape mxn
-    int4* __restrict__ C_tmp,    // fp32 tmp output buffer (for reduce)
-    const int4* __restrict__ scales_ptr,  // fp16 quantization scales of shape
-                                          // (k/groupsize)xn
-    const int* __restrict__ g_idx,        // int32 group indices of shape k
-    int num_groups,       // number of scale groups per output channel
-    int prob_m,           // batch dimension m
-    int prob_n,           // output dimension n
-    int prob_k,           // reduction dimension k
-    int* locks,           // extra global storage for barrier synchronization
-    bool use_fp32_reduce  // whether to use fp32 global reduce
-) {}
-
 }  // namespace marlin
 
-torch::Tensor gptq_marlin_gemm(torch::Tensor& a, torch::Tensor& b_q_weight,
-                               torch::Tensor& b_scales, torch::Tensor& b_zeros,
-                               torch::Tensor& g_idx, torch::Tensor& perm,
-                               torch::Tensor& workspace,
-                               vllm::ScalarTypeId const b_q_type_id,
-                               int64_t size_m, int64_t size_n, int64_t size_k,
-                               bool is_k_full, bool has_zp, bool is_zp_float) {
+torch::Tensor gptq_marlin_gemm(
+    torch::Tensor& a, std::optional<torch::Tensor> c_or_none,
+    torch::Tensor& b_q_weight, torch::Tensor& b_scales,
+    std::optional<torch::Tensor> const& b_zeros_or_none,
+    std::optional<torch::Tensor> const& g_idx_or_none,
+    std::optional<torch::Tensor> const& perm_or_none, torch::Tensor& workspace,
+    vllm::ScalarTypeId const& b_q_type_id, int64_t size_m, int64_t size_n,
+    int64_t size_k, bool is_k_full, bool use_atomic_add, bool use_fp32_reduce,
+    bool is_zp_float) {
   TORCH_CHECK_NOT_IMPLEMENTED(false,
                               "marlin_gemm(..) requires CUDA_ARCH >= 8.0");
   return torch::empty({1, 1});
@@ -91,369 +62,6 @@ torch::Tensor gptq_marlin_gemm(torch::Tensor& a, torch::Tensor& b_q_weight,
 
 #else
 
-// m16n8k16 tensor core mma instruction with fp16 inputs and fp32
-// output/accumulation.
-template <typename scalar_t>
-__device__ inline void mma(const typename ScalarType<scalar_t>::FragA& a_frag,
-                           const typename ScalarType<scalar_t>::FragB& frag_b,
-                           typename ScalarType<scalar_t>::FragC& frag_c) {
-  const uint32_t* a = reinterpret_cast<const uint32_t*>(&a_frag);
-  const uint32_t* b = reinterpret_cast<const uint32_t*>(&frag_b);
-  float* c = reinterpret_cast<float*>(&frag_c);
-  if constexpr (std::is_same<scalar_t, half>::value) {
-    asm volatile(
-        "mma.sync.aligned.m16n8k16.row.col.f32.f16.f16.f32 "
-        "{%0,%1,%2,%3}, {%4,%5,%6,%7}, {%8,%9}, {%10,%11,%12,%13};\n"
-        : "=f"(c[0]), "=f"(c[1]), "=f"(c[2]), "=f"(c[3])
-        : "r"(a[0]), "r"(a[1]), "r"(a[2]), "r"(a[3]), "r"(b[0]), "r"(b[1]),
-          "f"(c[0]), "f"(c[1]), "f"(c[2]), "f"(c[3]));
-  } else if constexpr (std::is_same<scalar_t, nv_bfloat16>::value) {
-    asm volatile(
-        "mma.sync.aligned.m16n8k16.row.col.f32.bf16.bf16.f32 "
-        "{%0,%1,%2,%3}, {%4,%5,%6,%7}, {%8,%9}, {%10,%11,%12,%13};\n"
-        : "=f"(c[0]), "=f"(c[1]), "=f"(c[2]), "=f"(c[3])
-        : "r"(a[0]), "r"(a[1]), "r"(a[2]), "r"(a[3]), "r"(b[0]), "r"(b[1]),
-          "f"(c[0]), "f"(c[1]), "f"(c[2]), "f"(c[3]));
-  } else {
-    STATIC_ASSERT_SCALAR_TYPE_VALID(scalar_t);
-  }
-}
-
-// Instruction for loading a full 16x16 matrix fragment of operand A from shared
-// memory, directly in tensor core layout.
-template <typename scalar_t>
-__device__ inline void ldsm4(typename ScalarType<scalar_t>::FragA& frag_a,
-                             const void* smem_ptr) {
-  uint32_t* a = reinterpret_cast<uint32_t*>(&frag_a);
-  uint32_t smem = static_cast<uint32_t>(__cvta_generic_to_shared(smem_ptr));
-  asm volatile("ldmatrix.sync.aligned.m8n8.x4.shared.b16 {%0,%1,%2,%3}, [%4];\n"
-               : "=r"(a[0]), "=r"(a[1]), "=r"(a[2]), "=r"(a[3])
-               : "r"(smem));
-}
-
-// Lookup-table based 3-input logical operation; explicitly used for
-// dequantization as the compiler does not seem to automatically recognize it in
-// all cases.
-template <int lut>
-__device__ inline int lop3(int a, int b, int c) {
-  int res;
-  asm volatile("lop3.b32 %0, %1, %2, %3, %4;\n"
-               : "=r"(res)
-               : "r"(a), "r"(b), "r"(c), "n"(lut));
-  return res;
-}
-
-// Constructs destination register by taking bytes from 2 sources (based on
-// mask)
-template <int start_byte, int mask>
-__device__ inline uint32_t prmt(uint32_t a) {
-  uint32_t res;
-  asm volatile("prmt.b32 %0, %1, %2, %3;\n"
-               : "=r"(res)
-               : "r"(a), "n"(start_byte), "n"(mask));
-  return res;
-}
-
-template <typename scalar_t, vllm::ScalarTypeId w_type_id>
-__device__ inline typename ScalarType<scalar_t>::FragB dequant(int q);
-
-//
-// Efficiently dequantize 4bit values packed in an int32 value into a full
-// B-fragment of 4 fp16 values. We mostly follow the strategy in the link below,
-// with some small changes:
-// - FP16:
-// https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L215-L287
-// - BF16:
-// https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L327-L385
-//
-template <>
-__device__ inline typename ScalarType<half>::FragB
-dequant<half, vllm::kU4B8.id()>(int q) {
-  const int LO = 0x000f000f;
-  const int HI = 0x00f000f0;
-  const int EX = 0x64006400;
-  // Guarantee that the `(a & b) | c` operations are LOP3s.
-  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
-  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
-  // We want signed int4 outputs, hence we fuse the `-8` symmetric zero point
-  // directly into `SUB` and `ADD`.
-  const int SUB = 0x64086408;
-  const int MUL = 0x2c002c00;
-  const int ADD = 0xd480d480;
-  typename ScalarType<half>::FragB frag_b;
-  frag_b[0] = __hsub2(*reinterpret_cast<half2*>(&lo),
-                      *reinterpret_cast<const half2*>(&SUB));
-  frag_b[1] = __hfma2(*reinterpret_cast<half2*>(&hi),
-                      *reinterpret_cast<const half2*>(&MUL),
-                      *reinterpret_cast<const half2*>(&ADD));
-  return frag_b;
-}
-
-template <>
-__device__ inline typename ScalarType<nv_bfloat16>::FragB
-dequant<nv_bfloat16, vllm::kU4B8.id()>(int q) {
-  static constexpr uint32_t MASK = 0x000f000f;
-  static constexpr uint32_t EX = 0x43004300;
-
-  // Guarantee that the `(a & b) | c` operations are LOP3s.
-
-  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
-  q >>= 4;
-  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
-
-  typename ScalarType<nv_bfloat16>::FragB frag_b;
-  static constexpr uint32_t MUL = 0x3F803F80;
-  static constexpr uint32_t ADD = 0xC308C308;
-
-  frag_b[0] = __hfma2(*reinterpret_cast<nv_bfloat162*>(&lo),
-                      *reinterpret_cast<const nv_bfloat162*>(&MUL),
-                      *reinterpret_cast<const nv_bfloat162*>(&ADD));
-  frag_b[1] = __hfma2(*reinterpret_cast<nv_bfloat162*>(&hi),
-                      *reinterpret_cast<const nv_bfloat162*>(&MUL),
-                      *reinterpret_cast<const nv_bfloat162*>(&ADD));
-  return frag_b;
-}
-
-template <>
-__device__ inline typename ScalarType<half>::FragB
-dequant<half, vllm::kU4.id()>(int q) {
-  const int LO = 0x000f000f;
-  const int HI = 0x00f000f0;
-  const int EX = 0x64006400;
-  // Guarantee that the `(a & b) | c` operations are LOP3s.
-  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
-  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
-
-  const int SUB = 0x64006400;
-  const int MUL = 0x2c002c00;
-  const int ADD = 0xd400d400;
-  typename ScalarType<half>::FragB frag_b;
-  frag_b[0] = __hsub2(*reinterpret_cast<half2*>(&lo),
-                      *reinterpret_cast<const half2*>(&SUB));
-  frag_b[1] = __hfma2(*reinterpret_cast<half2*>(&hi),
-                      *reinterpret_cast<const half2*>(&MUL),
-                      *reinterpret_cast<const half2*>(&ADD));
-  return frag_b;
-}
-
-template <>
-__device__ inline typename ScalarType<nv_bfloat16>::FragB
-dequant<nv_bfloat16, vllm::kU4.id()>(int q) {
-  static constexpr uint32_t MASK = 0x000f000f;
-  static constexpr uint32_t EX = 0x43004300;
-
-  // Guarantee that the `(a & b) | c` operations are LOP3s.
-
-  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
-  q >>= 4;
-  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
-
-  typename ScalarType<nv_bfloat16>::FragB frag_b;
-  static constexpr uint32_t MUL = 0x3F803F80;
-  static constexpr uint32_t ADD = 0xC300C300;
-
-  frag_b[0] = __hfma2(*reinterpret_cast<nv_bfloat162*>(&lo),
-                      *reinterpret_cast<const nv_bfloat162*>(&MUL),
-                      *reinterpret_cast<const nv_bfloat162*>(&ADD));
-  frag_b[1] = __hfma2(*reinterpret_cast<nv_bfloat162*>(&hi),
-                      *reinterpret_cast<const nv_bfloat162*>(&MUL),
-                      *reinterpret_cast<const nv_bfloat162*>(&ADD));
-  return frag_b;
-}
-
-//
-// Fast Int8ToFp16/Int8ToBf16: Efficiently dequantize 8bit int values to fp16 or
-// bf16 Reference:
-// - FP16:
-// https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L53-L85
-// - BF16:
-// https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L125-L175
-//
-template <>
-__device__ inline typename ScalarType<half>::FragB
-dequant<half, vllm::kU8B128.id()>(int q) {
-  static constexpr uint32_t mask_for_elt_01 = 0x5250;
-  static constexpr uint32_t mask_for_elt_23 = 0x5351;
-  static constexpr uint32_t start_byte_for_fp16 = 0x64646464;
-
-  uint32_t lo = prmt<start_byte_for_fp16, mask_for_elt_01>(q);
-  uint32_t hi = prmt<start_byte_for_fp16, mask_for_elt_23>(q);
-
-  static constexpr uint32_t I8s_TO_F16s_MAGIC_NUM = 0x64806480;
-
-  typename ScalarType<half>::FragB frag_b;
-  frag_b[0] = __hsub2(*reinterpret_cast<half2*>(&lo),
-                      *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
-  frag_b[1] = __hsub2(*reinterpret_cast<half2*>(&hi),
-                      *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
-  return frag_b;
-}
-
-template <>
-__device__ inline typename ScalarType<nv_bfloat16>::FragB
-dequant<nv_bfloat16, vllm::kU8B128.id()>(int q) {
-  typename ScalarType<nv_bfloat16>::FragB frag_b;
-
-  float fp32_intermediates[4];
-  uint32_t* fp32_intermediates_casted =
-      reinterpret_cast<uint32_t*>(fp32_intermediates);
-
-  static constexpr uint32_t fp32_base = 0x4B000000;
-  fp32_intermediates_casted[0] = __byte_perm(q, fp32_base, 0x7650);
-  fp32_intermediates_casted[1] = __byte_perm(q, fp32_base, 0x7652);
-  fp32_intermediates_casted[2] = __byte_perm(q, fp32_base, 0x7651);
-  fp32_intermediates_casted[3] = __byte_perm(q, fp32_base, 0x7653);
-
-  fp32_intermediates[0] -= 8388736.f;
-  fp32_intermediates[1] -= 8388736.f;
-  fp32_intermediates[2] -= 8388736.f;
-  fp32_intermediates[3] -= 8388736.f;
-
-  uint32_t* bf16_result_ptr = reinterpret_cast<uint32_t*>(&frag_b);
-  bf16_result_ptr[0] = __byte_perm(fp32_intermediates_casted[0],
-                                   fp32_intermediates_casted[1], 0x7632);
-  bf16_result_ptr[1] = __byte_perm(fp32_intermediates_casted[2],
-                                   fp32_intermediates_casted[3], 0x7632);
-
-  return frag_b;
-}
-
-template <>
-__device__ inline typename ScalarType<half>::FragB
-dequant<half, vllm::kU8.id()>(int q) {
-  static constexpr uint32_t mask_for_elt_01 = 0x5250;
-  static constexpr uint32_t mask_for_elt_23 = 0x5351;
-  static constexpr uint32_t start_byte_for_fp16 = 0x64646464;
-
-  uint32_t lo = prmt<start_byte_for_fp16, mask_for_elt_01>(q);
-  uint32_t hi = prmt<start_byte_for_fp16, mask_for_elt_23>(q);
-
-  static constexpr uint32_t I8s_TO_F16s_MAGIC_NUM = 0x64006400;
-
-  typename ScalarType<half>::FragB frag_b;
-  frag_b[0] = __hsub2(*reinterpret_cast<half2*>(&lo),
-                      *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
-  frag_b[1] = __hsub2(*reinterpret_cast<half2*>(&hi),
-                      *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
-  return frag_b;
-}
-
-template <>
-__device__ inline typename ScalarType<nv_bfloat16>::FragB
-dequant<nv_bfloat16, vllm::kU8.id()>(int q) {
-  typename ScalarType<nv_bfloat16>::FragB frag_b;
-
-  float fp32_intermediates[4];
-  uint32_t* fp32_intermediates_casted =
-      reinterpret_cast<uint32_t*>(fp32_intermediates);
-
-  static constexpr uint32_t fp32_base = 0x4B000000;
-  fp32_intermediates_casted[0] = __byte_perm(q, fp32_base, 0x7650);
-  fp32_intermediates_casted[1] = __byte_perm(q, fp32_base, 0x7652);
-  fp32_intermediates_casted[2] = __byte_perm(q, fp32_base, 0x7651);
-  fp32_intermediates_casted[3] = __byte_perm(q, fp32_base, 0x7653);
-
-  fp32_intermediates[0] -= 8388608.f;
-  fp32_intermediates[1] -= 8388608.f;
-  fp32_intermediates[2] -= 8388608.f;
-  fp32_intermediates[3] -= 8388608.f;
-
-  uint32_t* bf16_result_ptr = reinterpret_cast<uint32_t*>(&frag_b);
-  bf16_result_ptr[0] = __byte_perm(fp32_intermediates_casted[0],
-                                   fp32_intermediates_casted[1], 0x7632);
-  bf16_result_ptr[1] = __byte_perm(fp32_intermediates_casted[2],
-                                   fp32_intermediates_casted[3], 0x7632);
-
-  return frag_b;
-}
-
-// Multiply dequantized values by the corresponding quantization scale; used
-// only for grouped quantization.
-template <typename scalar_t>
-__device__ inline void scale(typename ScalarType<scalar_t>::FragB& frag_b,
-                             typename ScalarType<scalar_t>::FragS& frag_s,
-                             int i) {
-  using scalar_t2 = typename ScalarType<scalar_t>::scalar_t2;
-  scalar_t2 s =
-      ScalarType<scalar_t>::num2num2(reinterpret_cast<scalar_t*>(&frag_s)[i]);
-  frag_b[0] = __hmul2(frag_b[0], s);
-  frag_b[1] = __hmul2(frag_b[1], s);
-}
-
-template <typename scalar_t>
-__device__ inline void sub_zp(typename ScalarType<scalar_t>::FragB& frag_b,
-                              typename ScalarType<scalar_t>::scalar_t2& frag_zp,
-                              int i) {
-  using scalar_t2 = typename ScalarType<scalar_t>::scalar_t2;
-  scalar_t2 zp =
-      ScalarType<scalar_t>::num2num2(reinterpret_cast<scalar_t*>(&frag_zp)[i]);
-  frag_b[0] = __hsub2(frag_b[0], zp);
-  frag_b[1] = __hsub2(frag_b[1], zp);
-}
-
-// Same as above, but for act_order (each K is multiplied individually)
-template <typename scalar_t>
-__device__ inline void scale4(typename ScalarType<scalar_t>::FragB& frag_b,
-                              typename ScalarType<scalar_t>::FragS& frag_s_1,
-                              typename ScalarType<scalar_t>::FragS& frag_s_2,
-                              typename ScalarType<scalar_t>::FragS& frag_s_3,
-                              typename ScalarType<scalar_t>::FragS& frag_s_4,
-                              int i) {
-  using scalar_t2 = typename ScalarType<scalar_t>::scalar_t2;
-  scalar_t2 s_val_1_2;
-  s_val_1_2.x = reinterpret_cast<scalar_t*>(&frag_s_1)[i];
-  s_val_1_2.y = reinterpret_cast<scalar_t*>(&frag_s_2)[i];
-
-  scalar_t2 s_val_3_4;
-  s_val_3_4.x = reinterpret_cast<scalar_t*>(&frag_s_3)[i];
-  s_val_3_4.y = reinterpret_cast<scalar_t*>(&frag_s_4)[i];
-
-  frag_b[0] = __hmul2(frag_b[0], s_val_1_2);
-  frag_b[1] = __hmul2(frag_b[1], s_val_3_4);
-}
-
-// Given 2 floats multiply by 2 scales (halves)
-template <typename scalar_t>
-__device__ inline void scale_float(float* c,
-                                   typename ScalarType<scalar_t>::FragS& s) {
-  scalar_t* s_ptr = reinterpret_cast<scalar_t*>(&s);
-  c[0] = __fmul_rn(c[0], ScalarType<scalar_t>::num2float(s_ptr[0]));
-  c[1] = __fmul_rn(c[1], ScalarType<scalar_t>::num2float(s_ptr[1]));
-}
-
-// Wait until barrier reaches `count`, then lock for current threadblock.
-__device__ inline void barrier_acquire(int* lock, int count) {
-  if (threadIdx.x == 0) {
-    int state = -1;
-    do
-      // Guarantee that subsequent writes by this threadblock will be visible
-      // globally.
-      asm volatile("ld.global.acquire.gpu.b32 %0, [%1];\n"
-                   : "=r"(state)
-                   : "l"(lock));
-    while (state != count);
-  }
-  __syncthreads();
-}
-
-// Release barrier and increment visitation count.
-__device__ inline void barrier_release(int* lock, bool reset = false) {
-  __syncthreads();
-  if (threadIdx.x == 0) {
-    if (reset) {
-      lock[0] = 0;
-      return;
-    }
-    int val = 1;
-    // Make sure that all writes since acquiring this barrier are visible
-    // globally, while releasing the barrier.
-    asm volatile("fence.acq_rel.gpu;\n");
-    asm volatile("red.relaxed.gpu.global.add.s32 [%0], %1;\n"
-                 :
-                 : "l"(lock), "r"(val));
-  }
-}
-
 // For a given "a" of size [M,K] performs a permutation of the K columns based
 // on the given "perm" indices.
 __global__ void permute_cols_kernel(int4 const* __restrict__ a_int4_ptr,
@@ -510,1304 +118,19 @@ __global__ void permute_cols_kernel(int4 const* __restrict__ a_int4_ptr,
   }
 }
 
-template <typename scalar_t,  // compute dtype, half or nv_float16
-          const vllm::ScalarTypeId w_type_id,  // weight ScalarType id
-          const int threads,          // number of threads in a threadblock
-          const int thread_m_blocks,  // number of 16x16 blocks in the m
-                                      // dimension (batchsize) of the
-                                      // threadblock
-          const int thread_n_blocks,  // same for n dimension (output)
-          const int thread_k_blocks,  // same for k dimension (reduction)
-          const int stages,  // number of stages for the async global->shared
-                             // fetch pipeline
-          const bool has_act_order,     // whether act_order is enabled
-          const bool has_zp,            // whether zero-points are enabled
-          const int group_blocks = -1,  // number of consecutive 16x16 blocks
-                                        // with a separate quantization scale
-          const bool is_zp_float        // is zero point of float16 type?
-          >
-__global__ void Marlin(
-    const int4* __restrict__ A,  // fp16 input matrix of shape mxk
-    const int4* __restrict__ B,  // 4bit quantized weight matrix of shape kxn
-    int4* __restrict__ C,        // fp16 output buffer of shape mxn
-    int4* __restrict__ C_tmp,    // fp32 tmp output buffer (for reduce)
-    const int4* __restrict__ scales_ptr,  // fp16 quantization scales of shape
-                                          // (k/groupsize)xn
-    const int4* __restrict__ zp_ptr,      // 4bit packed zero-points of shape
-                                          // (k/groupsize)x(n/pack_factor)
-    const int* __restrict__ g_idx,        // int32 group indices of shape k
-    int num_groups,       // number of scale groups per output channel
-    int prob_m,           // batch dimension m
-    int prob_n,           // output dimension n
-    int prob_k,           // reduction dimension k
-    int lda,              // A.stride(0), equal to prob_k is A is contiguous
-    int* locks,           // extra global storage for barrier synchronization
-    bool use_atomic_add,  // whether to use atomic add to reduce
-    bool use_fp32_reduce  // whether to use fp32 global reduce
-) {
-  // Each threadblock processes one "stripe" of the B matrix with (roughly) the
-  // same size, which might involve multiple column "slices" (of width 16 *
-  // `thread_n_blocks`). Stripes are defined as shown in the 3x3 matrix 5 SM
-  // example:
-  //   0 1 3
-  //   0 2 3
-  //   1 2 4
-  // While this kind of partitioning makes things somewhat more complicated, it
-  // ensures good utilization of all SMs for many kinds of shape and GPU
-  // configurations, while requiring as few slow global cross-threadblock
-  // reductions as possible.
-  using Dtype = ScalarType<scalar_t>;
-  using scalar_t2 = typename ScalarType<scalar_t>::scalar_t2;
-  using FragA = typename ScalarType<scalar_t>::FragA;
-  using FragB = typename ScalarType<scalar_t>::FragB;
-  using FragC = typename ScalarType<scalar_t>::FragC;
-  using FragS = typename ScalarType<scalar_t>::FragS;
-  using FragZP = typename ScalarType<scalar_t>::FragZP;
-
-  static constexpr auto w_type = vllm::ScalarType::from_id(w_type_id);
-
-  constexpr int pack_factor = 32 / w_type.size_bits();
-
-  // For larger GEMMs we run multiple batchsize 64 versions in parallel for a
-  // better partitioning with less reductions
-  int parallel = 1;
-  if (prob_m > 16 * thread_m_blocks) {
-    parallel = prob_m / (16 * thread_m_blocks);
-    prob_m = 16 * thread_m_blocks;
-  }
-
-  int k_tiles = prob_k / 16 / thread_k_blocks;
-  int n_tiles = prob_n / 16 / thread_n_blocks;
-  int iters = div_ceil(k_tiles * n_tiles * parallel, gridDim.x);
-
-  if constexpr (!has_act_order && group_blocks != -1) {
-    if (group_blocks >= thread_k_blocks) {
-      // Ensure that the number of tiles in each stripe is a multiple of the
-      // groupsize; this avoids an annoying special case where a stripe starts
-      // in the middle of group.
-      iters = (group_blocks / thread_k_blocks) *
-              div_ceil(iters, (group_blocks / thread_k_blocks));
-    }
-  }
-
-  int slice_row = (iters * blockIdx.x) % k_tiles;
-  int slice_col_par = (iters * blockIdx.x) / k_tiles;
-  int slice_col = slice_col_par;
-  int slice_iters;  // number of threadblock tiles in the current slice
-  int slice_count =
-      0;          // total number of active threadblocks in the current slice
-  int slice_idx;  // index of threadblock in current slice; numbered bottom to
-                  // top
-
-  int par_id = 0;
-
-  // We can easily implement parallel problem execution by just remapping
-  // indices and advancing global pointers
-  if (slice_col_par >= n_tiles) {
-    A += (slice_col_par / n_tiles) * 16 * thread_m_blocks * lda / 8;
-    C += (slice_col_par / n_tiles) * 16 * thread_m_blocks * prob_n / 8;
-    locks += (slice_col_par / n_tiles) * n_tiles;
-    slice_col = slice_col_par % n_tiles;
-    par_id = slice_col_par / n_tiles;
-  }
-
-  // Compute all information about the current slice which is required for
-  // synchronization.
-  auto init_slice = [&]() {
-    slice_iters =
-        iters * (blockIdx.x + 1) - (k_tiles * slice_col_par + slice_row);
-    if (slice_iters < 0 || slice_col_par >= n_tiles * parallel) slice_iters = 0;
-    if (slice_iters == 0) return;
-    if (slice_row + slice_iters > k_tiles) slice_iters = k_tiles - slice_row;
-    slice_count = 1;
-    slice_idx = 0;
-    int col_first = iters * div_ceil(k_tiles * slice_col_par, iters);
-    if (col_first <= k_tiles * (slice_col_par + 1)) {
-      int col_off = col_first - k_tiles * slice_col_par;
-      slice_count = div_ceil(k_tiles - col_off, iters);
-      if (col_off > 0) slice_count++;
-      int delta_first = iters * blockIdx.x - col_first;
-      if (delta_first < 0 || (col_off == 0 && delta_first == 0))
-        slice_idx = slice_count - 1;
-      else {
-        slice_idx = slice_count - 1 - delta_first / iters;
-        if (col_off > 0) slice_idx--;
-      }
-    }
-    if (slice_col == n_tiles) {
-      A += 16 * thread_m_blocks * lda / 8;
-      C += 16 * thread_m_blocks * prob_n / 8;
-      locks += n_tiles;
-      slice_col = 0;
-      par_id++;
-    }
-  };
-  init_slice();
-
-  // A sizes/strides
-
-  // stride of the A matrix in global memory
-  int a_gl_stride = lda / 8;
-  // stride of an A matrix tile in shared memory
-  constexpr int a_sh_stride = 16 * thread_k_blocks / 8;
-  // delta between subsequent A tiles in global memory
-  constexpr int a_gl_rd_delta_o = 16 * thread_k_blocks / 8;
-  // between subsequent accesses within a tile
-  int a_gl_rd_delta_i = a_gl_stride * (threads / a_gl_rd_delta_o);
-  // between shared memory writes
-  constexpr int a_sh_wr_delta = a_sh_stride * (threads / a_gl_rd_delta_o);
-  // between shared memory tile reads
-  constexpr int a_sh_rd_delta_o = 2 * ((threads / 32) / (thread_n_blocks / 4));
-  // within a shared memory tile
-  constexpr int a_sh_rd_delta_i = a_sh_stride * 16;
-  // overall size of a tile
-  constexpr int a_sh_stage = a_sh_stride * (16 * thread_m_blocks);
-  // number of shared write iterations for a tile
-  constexpr int a_sh_wr_iters = div_ceil(a_sh_stage, a_sh_wr_delta);
-
-  // B sizes/strides
-  int b_gl_stride = 16 * prob_n / (pack_factor * 4);
-  constexpr int b_sh_stride = ((thread_n_blocks * 16) * 16 / pack_factor) / 4;
-  constexpr int b_thread_vecs = w_type.size_bits() == 4 ? 1 : 2;
-  constexpr int b_sh_stride_threads = b_sh_stride / b_thread_vecs;
-
-  int b_gl_rd_delta_o = b_gl_stride * thread_k_blocks;
-  int b_gl_rd_delta_i = b_gl_stride * (threads / b_sh_stride_threads);
-  constexpr int b_sh_wr_delta = threads * b_thread_vecs;
-  constexpr int b_sh_rd_delta = threads * b_thread_vecs;
-  constexpr int b_sh_stage = b_sh_stride * thread_k_blocks;
-  constexpr int b_sh_wr_iters = b_sh_stage / b_sh_wr_delta;
-
-  // Scale sizes/strides without act_order
-  int s_gl_stride = prob_n / 8;
-  constexpr int s_sh_stride = 16 * thread_n_blocks / 8;
-  constexpr int s_tb_groups =
-      !has_act_order && group_blocks != -1 && group_blocks < thread_k_blocks
-          ? thread_k_blocks / group_blocks
-          : 1;
-  constexpr int s_sh_stage = s_tb_groups * s_sh_stride;
-  int s_gl_rd_delta = s_gl_stride;
-
-  // Scale size/strides with act_order
-  constexpr int tb_k = 16 * thread_k_blocks;
-  constexpr int g_idx_stage = has_act_order ? (tb_k * sizeof(int)) / 16 : 0;
-  // constexpr int act_s_row_stride      = 1;
-  // int           act_s_col_stride      = act_s_row_stride * num_groups;
-  int act_s_col_stride = 1;
-  int act_s_col_warp_stride = act_s_col_stride * 8;
-  int tb_n_warps = thread_n_blocks / 4;
-  int act_s_col_tb_stride = act_s_col_warp_stride * tb_n_warps;
-
-  // Zero-points sizes/strides
-  int zp_gl_stride = is_zp_float ? prob_n / 8 : (prob_n / pack_factor) / 4;
-  constexpr int zp_sh_stride = is_zp_float
-                                   ? 16 * thread_n_blocks / 8
-                                   : ((16 * thread_n_blocks) / pack_factor) / 4;
-  constexpr int zp_tb_groups = s_tb_groups;
-  constexpr int zp_sh_stage = has_zp ? zp_tb_groups * zp_sh_stride : 0;
-  int zp_gl_rd_delta = zp_gl_stride;
-
-  // Global A read index of current thread.
-  int a_gl_rd = a_gl_stride * (threadIdx.x / a_gl_rd_delta_o) +
-                (threadIdx.x % a_gl_rd_delta_o);
-  a_gl_rd += a_gl_rd_delta_o * slice_row;
-  // Shared write index of current thread.
-  int a_sh_wr = a_sh_stride * (threadIdx.x / a_gl_rd_delta_o) +
-                (threadIdx.x % a_gl_rd_delta_o);
-  // Shared read index.
-  int a_sh_rd =
-      a_sh_stride * ((threadIdx.x % 32) % 16) + (threadIdx.x % 32) / 16;
-  a_sh_rd += 2 * ((threadIdx.x / 32) / (thread_n_blocks / 4));
-
-  int b_gl_rd = b_gl_stride * (threadIdx.x / b_sh_stride_threads) +
-                (threadIdx.x % b_sh_stride_threads) * b_thread_vecs;
-  b_gl_rd += b_sh_stride * slice_col;
-  b_gl_rd += b_gl_rd_delta_o * slice_row;
-  auto b_sh_wr = threadIdx.x * b_thread_vecs;
-  auto b_sh_rd = threadIdx.x * b_thread_vecs;
-
-  // For act_order
-  constexpr int k_iter_size = tb_k / b_sh_wr_iters;
-  int slice_k_start = tb_k * slice_row;
-  int slice_k_finish = slice_k_start + tb_k * slice_iters;
-  int slice_k_start_shared_fetch = slice_k_start;
-  int slice_n_offset = act_s_col_tb_stride * slice_col;
-
-  // No act_order
-  int s_gl_rd;
-  if constexpr (!has_act_order) {
-    if constexpr (group_blocks == -1) {
-      s_gl_rd = s_sh_stride * slice_col + threadIdx.x;
-    } else {
-      s_gl_rd = s_gl_stride * ((thread_k_blocks * slice_row) / group_blocks) +
-                s_sh_stride * slice_col + threadIdx.x;
-    }
-  }
-  auto s_sh_wr = threadIdx.x;
-  bool s_sh_wr_pred = threadIdx.x < s_sh_stride;
-
-  // Zero-points
-  int zp_gl_rd;
-  if constexpr (has_zp) {
-    if constexpr (group_blocks == -1) {
-      zp_gl_rd = zp_sh_stride * slice_col + threadIdx.x;
-    } else {
-      zp_gl_rd = zp_gl_stride * ((thread_k_blocks * slice_row) / group_blocks) +
-                 zp_sh_stride * slice_col + threadIdx.x;
-    }
-  }
-  auto zp_sh_wr = threadIdx.x;
-  bool zp_sh_wr_pred = threadIdx.x < zp_sh_stride;
-
-  // We use a different scale layout for grouped and column-wise quantization as
-  // we scale a `half2` tile in column-major layout in the former and in
-  // row-major in the latter case.
-  int s_sh_rd;
-  if constexpr (group_blocks != -1)
-    s_sh_rd = 8 * ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
-              (threadIdx.x % 32) / 4;
-  else
-    s_sh_rd = 8 * ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
-              (threadIdx.x % 32) % 4;
-
-  // Zero-points have the same read layout as the scales
-  // (without column-wise case)
-  constexpr int num_col_threads = 8;
-  constexpr int num_row_threads = 4;
-  constexpr int num_ints_per_thread = 8 / pack_factor;
-  int zp_sh_rd;
-  if constexpr (has_zp) {
-    if constexpr (is_zp_float) {
-      if constexpr (group_blocks != -1) {
-        zp_sh_rd = 8 * ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
-                   (threadIdx.x % 32) / 4;
-      }
-    } else {
-      zp_sh_rd = num_ints_per_thread * num_col_threads *
-                     ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
-                 num_ints_per_thread * ((threadIdx.x % 32) / num_row_threads);
-    }
-  }
-
-  // Precompute which thread should not read memory in which iterations; this is
-  // needed if there are more threads than required for a certain tilesize or
-  // when the batchsize is not a multiple of 16.
-  bool a_sh_wr_pred[a_sh_wr_iters];
-  #pragma unroll
-  for (int i = 0; i < a_sh_wr_iters; i++)
-    a_sh_wr_pred[i] = a_sh_wr_delta * i + a_sh_wr < a_sh_stride * prob_m;
-
-  // To ensure that writing and reading A tiles to/from shared memory, the
-  // latter in fragment format, is fully bank conflict free, we need to use a
-  // rather fancy XOR-based layout. The key here is that neither reads nor
-  // writes of the 16-byte `int4` blocks of 8 consecutive threads involve the
-  // same shared memory banks. Further, it seems (based on NSight-Compute) that
-  // each warp must also write a consecutive memory segment?
-  auto transform_a = [&](int i) {
-    int row = i / a_gl_rd_delta_o;
-    return a_gl_rd_delta_o * row + (i % a_gl_rd_delta_o) ^ row;
-  };
-  // Since the computation of this remapping is non-trivial and, due to our main
-  // loop unrolls, all shared memory accesses are static, we simply precompute
-  // both transformed reads and writes.
-  int a_sh_wr_trans[a_sh_wr_iters];
-  #pragma unroll
-  for (int i = 0; i < a_sh_wr_iters; i++)
-    a_sh_wr_trans[i] = transform_a(a_sh_wr_delta * i + a_sh_wr);
-  int a_sh_rd_trans[b_sh_wr_iters][thread_m_blocks];
-  #pragma unroll
-  for (int i = 0; i < b_sh_wr_iters; i++) {
-  #pragma unroll
-    for (int j = 0; j < thread_m_blocks; j++)
-      a_sh_rd_trans[i][j] =
-          transform_a(a_sh_rd_delta_o * i + a_sh_rd_delta_i * j + a_sh_rd);
-  }
-
-  // Since B-accesses have non-constant stride they have to be computed at
-  // runtime; we break dependencies between subsequent accesses with a tile by
-  // maintining multiple pointers (we have enough registers), a tiny
-  // optimization.
-  const int4* B_ptr[b_sh_wr_iters];
-  #pragma unroll
-  for (int i = 0; i < b_sh_wr_iters; i++)
-    B_ptr[i] = B + b_gl_rd_delta_i * i + b_gl_rd;
-
-  extern __shared__ int4 sh[];
-  // Shared memory storage for global fetch pipelines.
-  int4* sh_a = sh;
-  int4* sh_b = sh_a + (stages * a_sh_stage);
-  int4* sh_g_idx = sh_b + (stages * b_sh_stage);
-  int4* sh_zp = sh_g_idx + (stages * g_idx_stage);
-  int4* sh_s = sh_zp + (stages * zp_sh_stage);
-  int4* sh_red = sh_s + (stages * s_sh_stage);
-
-  // Register storage for double buffer of shared memory reads.
-  FragA frag_a[2][thread_m_blocks];
-  I4 frag_b_quant[2][b_thread_vecs];
-  FragC frag_c[thread_m_blocks][4][2];
-  FragS frag_s[2][4];                    // No act-order
-  FragS act_frag_s[2][4][4];             // For act-order
-  int frag_qzp[2][num_ints_per_thread];  // Zero-points
-  FragZP frag_zp;                        // Zero-points in fp16
-  FragZP frag_zpf[2];                    // Zero-points in fp16 in HQQ
-
-  // Zero accumulators.
-  auto zero_accums = [&]() {
-  #pragma unroll
-    for (int i = 0; i < thread_m_blocks * 4 * 2 * 4; i++)
-      reinterpret_cast<float*>(frag_c)[i] = 0;
-  };
-
-  int sh_first_group_id = -1;
-  int sh_num_groups = -1;
-  constexpr int sh_max_num_groups = 32;
-
-  auto fetch_scales_to_shared = [&](bool is_async, int first_group_id,
-                                    int last_group_id) {
-    sh_first_group_id = first_group_id;
-    sh_num_groups = last_group_id - first_group_id + 1;
-
-    if (sh_num_groups < sh_max_num_groups) {
-      sh_num_groups = sh_max_num_groups;
-    }
-
-    if (sh_first_group_id + sh_num_groups > num_groups) {
-      sh_num_groups = num_groups - sh_first_group_id;
-    }
-
-    int row_offset = first_group_id * s_gl_stride;
-
-    if (is_async) {
-      for (int i = 0; i < sh_num_groups; i++) {
-        if (threadIdx.x < s_sh_stride) {
-          cp_async4_pred(&sh_s[(i * s_sh_stride) + threadIdx.x],
-                         &scales_ptr[row_offset + (i * s_gl_stride) +
-                                     slice_n_offset + threadIdx.x]);
-        }
-      }
-    } else {
-      for (int i = 0; i < sh_num_groups; i++) {
-        if (threadIdx.x < s_sh_stride) {
-          sh_s[(i * s_sh_stride) + threadIdx.x] =
-              scales_ptr[row_offset + (i * s_gl_stride) + slice_n_offset +
-                         threadIdx.x];
-        }
-      }
-    }
-  };
-  // Asynchronously fetch the next A, B and s tile from global to the next
-  // shared memory pipeline location.
-  auto fetch_to_shared = [&](int pipe, int a_off, bool pred = true) {
-    if (pred) {
-      int4* sh_a_stage = sh_a + a_sh_stage * pipe;
-  #pragma unroll
-      for (int i = 0; i < a_sh_wr_iters; i++) {
-        cp_async4_pred(
-            &sh_a_stage[a_sh_wr_trans[i]],
-            &A[a_gl_rd_delta_i * i + a_gl_rd + a_gl_rd_delta_o * a_off],
-            a_sh_wr_pred[i]);
-      }
-      int4* sh_b_stage = sh_b + b_sh_stage * pipe;
-  #pragma unroll
-      for (int i = 0; i < b_sh_wr_iters; i++) {
-  #pragma unroll
-        for (int j = 0; j < b_thread_vecs; j++) {
-          cp_async4(&sh_b_stage[b_sh_wr_delta * i + b_sh_wr + j], B_ptr[i] + j);
-        }
-
-        B_ptr[i] += b_gl_rd_delta_o;
-      }
-
-      if constexpr (has_act_order) {
-        // Fetch g_idx thread-block portion
-        int full_pipe = a_off;
-        int cur_k = slice_k_start_shared_fetch + tb_k * full_pipe;
-        if (cur_k < prob_k && cur_k < slice_k_finish) {
-          int4* sh_g_idx_stage = sh_g_idx + g_idx_stage * pipe;
-
-          int4 const* cur_g_idx_stage_ptr =
-              reinterpret_cast<int4 const*>(&g_idx[cur_k]);
-
-          if (threadIdx.x < g_idx_stage) {
-            cp_async4_pred(&sh_g_idx_stage[threadIdx.x],
-                           &cur_g_idx_stage_ptr[threadIdx.x]);
-          }
-        }
-      } else {
-        if constexpr (group_blocks != -1) {
-          int4* sh_s_stage = sh_s + s_sh_stage * pipe;
-
-          if constexpr (group_blocks >= thread_k_blocks) {
-            if (s_sh_wr_pred) {
-              cp_async4(&sh_s_stage[s_sh_wr], &scales_ptr[s_gl_rd]);
-            }
-            // Only fetch scales if this tile starts a new group
-            if ((pipe + 1) % (group_blocks / thread_k_blocks) == 0) {
-              s_gl_rd += s_gl_rd_delta;
-            }
-          } else {
-            for (int i = 0; i < s_tb_groups; i++) {
-              if (s_sh_wr_pred) {
-                cp_async4(&sh_s_stage[i * s_sh_stride + s_sh_wr],
-                          &scales_ptr[s_gl_rd]);
-              }
-              s_gl_rd += s_gl_rd_delta;
-            }
-          }
-        }
-
-        if constexpr (has_zp && group_blocks != -1) {
-          int4* sh_zp_stage = sh_zp + zp_sh_stage * pipe;
-
-          if constexpr (group_blocks >= thread_k_blocks) {
-            // Only fetch zero-points if this tile starts a new group
-            if (pipe % (group_blocks / thread_k_blocks) == 0) {
-              if (zp_sh_wr_pred) {
-                cp_async4(&sh_zp_stage[zp_sh_wr], &zp_ptr[zp_gl_rd]);
-              }
-              zp_gl_rd += zp_gl_rd_delta;
-            }
-          } else {
-            for (int i = 0; i < zp_tb_groups; i++) {
-              if (zp_sh_wr_pred) {
-                cp_async4(&sh_zp_stage[i * zp_sh_stride + zp_sh_wr],
-                          &zp_ptr[zp_gl_rd]);
-              }
-              zp_gl_rd += zp_gl_rd_delta;
-            }
-          }
-        }
-      }
-    }
-    // Insert a fence even when we are winding down the pipeline to ensure that
-    // waiting is also correct at this point.
-    cp_async_fence();
-  };
-
-  auto fetch_zp_to_shared = [&]() {
-    if (zp_sh_wr_pred) {
-      cp_async4(&sh_zp[zp_sh_wr], &zp_ptr[zp_gl_rd]);
-    }
-  };
-
-  // Wait until the next thread tile has been loaded to shared memory.
-  auto wait_for_stage = [&]() {
-    // We only have `stages - 2` active fetches since we are double buffering
-    // and can only issue the next fetch when it is guaranteed that the previous
-    // shared memory load is fully complete (as it may otherwise be
-    // overwritten).
-    cp_async_wait<stages - 2>();
-    __syncthreads();
-  };
-
-  // Load the next sub-tile from the current location in the shared memory pipe
-  // into the current register buffer.
-  auto fetch_to_registers = [&](int k, int pipe) {
-    int4* sh_a_stage = sh_a + a_sh_stage * pipe;
-  #pragma unroll
-    for (int i = 0; i < thread_m_blocks; i++)
-      ldsm4<scalar_t>(frag_a[k % 2][i],
-                      &sh_a_stage[a_sh_rd_trans[k % b_sh_wr_iters][i]]);
-    int4* sh_b_stage = sh_b + b_sh_stage * pipe;
-
-  #pragma unroll
-    for (int i = 0; i < b_thread_vecs; i++) {
-      frag_b_quant[k % 2][i] = *reinterpret_cast<I4*>(
-          &sh_b_stage[b_sh_rd_delta * (k % b_sh_wr_iters) + b_sh_rd + i]);
-    }
-  };
-
-  bool is_same_group[stages];
-  int same_group_id[stages];
-
-  auto init_same_group = [&](int pipe) {
-    if constexpr (!has_act_order) {
-      is_same_group[pipe] = false;
-      same_group_id[pipe] = 0;
-      return;
-    }
-
-    int4* sh_g_idx_stage = sh_g_idx + g_idx_stage * pipe;
-    int* sh_g_idx_int_ptr = reinterpret_cast<int*>(sh_g_idx_stage);
-
-    int group_id_1 = sh_g_idx_int_ptr[0];
-    int group_id_2 = sh_g_idx_int_ptr[tb_k - 1];
-
-    is_same_group[pipe] = group_id_1 == group_id_2;
-    same_group_id[pipe] = group_id_1;
-  };
-
-  auto fetch_scales_to_registers = [&](int k, int full_pipe) {
-    int pipe = full_pipe % stages;
-
-    if constexpr (!has_act_order) {
-      // No act-order case
-      if constexpr (group_blocks != -1) {
-        if constexpr (group_blocks >= thread_k_blocks) {
-          int4* sh_s_stage = sh_s + s_sh_stage * pipe;
-          reinterpret_cast<int4*>(&frag_s[k % 2])[0] = sh_s_stage[s_sh_rd];
-        } else {
-          auto warp_id = threadIdx.x / 32;
-          int n_warps = thread_n_blocks / 4;
-
-          int warp_row = warp_id / n_warps;
-
-          int cur_k = warp_row * 16;
-          cur_k += k_iter_size * (k % b_sh_wr_iters);
-
-          int k_blocks = cur_k / 16;
-          int cur_group_id = k_blocks / group_blocks;
-
-          int4* sh_s_stage = sh_s + s_sh_stage * pipe;
-
-          reinterpret_cast<int4*>(&frag_s[k % 2])[0] =
-              sh_s_stage[s_sh_rd + cur_group_id * s_sh_stride];
-        }
-      }
-
-      return;
-    }
-
-    // Act-order case
-
-    // Determine K of the "current" thread-block
-    int cur_k = slice_k_start + tb_k * full_pipe;
-    if (cur_k >= prob_k || cur_k >= slice_k_finish) {
-      return;
-    }
-
-    // Reset (to current thread-block) since we read g_idx portion from the
-    // shared memory
-    cur_k = 0;
-
-    // Progress to current iteration
-    cur_k += k_iter_size * (k % b_sh_wr_iters);
-
-    // Determine "position" inside the thread-block (based on warp and
-    // thread-id)
-    auto warp_id = threadIdx.x / 32;
-    int n_warps =
-        thread_n_blocks / 4;  // Each warp processes 4 16-size tiles over N
-
-    int warp_row = warp_id / n_warps;
-    int warp_col = warp_id % n_warps;
-
-    cur_k += warp_row * 16;
-
-    auto th_id = threadIdx.x % 32;
-    cur_k += (th_id % 4) * 2;  // Due to tensor-core layout for fp16 B matrix
-
-    int s_col_shift =
-        /*slice_n_offset +*/ (act_s_col_warp_stride * warp_col) +
-        (th_id / 4) * act_s_col_stride;
-
-    if (is_same_group[pipe]) {
-      if (k % 2 == 0) {
-        *(reinterpret_cast<int4*>(&(act_frag_s[k % 2][0][0]))) =
-            sh_s[(same_group_id[pipe] - sh_first_group_id) * s_sh_stride +
-                 s_col_shift];
-      } else {
-        *(reinterpret_cast<int4*>(&(act_frag_s[k % 2][0][0]))) =
-            *(reinterpret_cast<int4*>(&(act_frag_s[(k - 1) % 2][0][0])));
-      }
-
-      for (int i = 1; i < 4; i++) {
-        *(reinterpret_cast<int4*>(&(act_frag_s[k % 2][i][0]))) =
-            *(reinterpret_cast<int4*>(&(act_frag_s[k % 2][0][0])));
-      }
-      return;
-    }
-
-    int4* sh_g_idx_stage = sh_g_idx + g_idx_stage * pipe;
-    int* sh_g_idx_int_ptr = reinterpret_cast<int*>(sh_g_idx_stage);
-
-    constexpr int k_frag_offsets[4] = {0, 1, 8,
-                                       9};  // Tensor core offsets per thread
-
-  #pragma unroll
-    for (int i = 0; i < 4; i++) {
-      int actual_k = cur_k + k_frag_offsets[i];
-
-      int group_id = sh_g_idx_int_ptr[actual_k];
-      int rel_group_id = group_id - sh_first_group_id;
-
-      *(reinterpret_cast<int4*>(&(act_frag_s[k % 2][i][0]))) =
-          sh_s[rel_group_id * s_sh_stride + s_col_shift];
-    }
-  };
-
-  auto fetch_zp_to_registers = [&](int k, int full_pipe) {
-    // This code does not handle group_blocks == 0,
-    // which signifies act_order.
-    // has_zp implies AWQ, which doesn't have act_order,
-    static_assert(!has_zp || group_blocks != 0);
-
-    if constexpr (has_zp && !is_zp_float) {
-      int pipe = full_pipe % stages;
-
-      if constexpr (group_blocks == -1) {
-        for (int i = 0; i < num_ints_per_thread; i++) {
-          frag_qzp[k % 2][i] = (reinterpret_cast<int*>(sh_zp))[zp_sh_rd + i];
-        }
-
-      } else if constexpr (group_blocks >= thread_k_blocks) {
-        int4* sh_zp_stage =
-            sh_zp + zp_sh_stage * ((group_blocks / thread_k_blocks) *
-                                   (pipe / (group_blocks / thread_k_blocks)));
-        for (int i = 0; i < num_ints_per_thread; i++) {
-          frag_qzp[k % 2][i] =
-              (reinterpret_cast<int*>(sh_zp_stage))[zp_sh_rd + i];
-        }
-      } else {
-        auto warp_id = threadIdx.x / 32;
-        int n_warps = thread_n_blocks / 4;
-
-        int warp_row = warp_id / n_warps;
-
-        int cur_k = warp_row * 16;
-        cur_k += k_iter_size * (k % b_sh_wr_iters);
-
-        int k_blocks = cur_k / 16;
-        int cur_group_id = 0;
-
-        // Suppress bogus and persistent divide-by-zero warning
-  #pragma nv_diagnostic push
-  #pragma nv_diag_suppress divide_by_zero
-        cur_group_id = k_blocks / group_blocks;
-  #pragma nv_diagnostic pop
-
-        int4* sh_zp_stage = sh_zp + zp_sh_stage * pipe;
-
-        sh_zp_stage += cur_group_id * zp_sh_stride;
-
-        for (int i = 0; i < num_ints_per_thread; i++) {
-          frag_qzp[k % 2][i] =
-              (reinterpret_cast<int*>(sh_zp_stage))[zp_sh_rd + i];
-        }
-      }
-    }
-
-    else if constexpr (has_zp && is_zp_float) {
-      int pipe = full_pipe % stages;
-
-      if constexpr (group_blocks != -1) {
-        if constexpr (group_blocks >= thread_k_blocks) {
-          int4* sh_zp_stage =
-              sh_zp + zp_sh_stage * ((group_blocks / thread_k_blocks) *
-                                     (pipe / (group_blocks / thread_k_blocks)));
-          reinterpret_cast<int4*>(&frag_zpf[k % 2])[0] = sh_zp_stage[zp_sh_rd];
-        } else {
-          auto warp_id = threadIdx.x / 32;
-          int n_warps = thread_n_blocks / 4;
-
-          int warp_row = warp_id / n_warps;
-
-          int cur_k = warp_row * 16;
-          cur_k += k_iter_size * (k % b_sh_wr_iters);
-
-          int k_blocks = cur_k / 16;
-          // Suppress bogus and persistent divide-by-zero warning
-  #pragma nv_diagnostic push
-  #pragma nv_diag_suppress divide_by_zero
-          int cur_group_id = k_blocks / group_blocks;
-  #pragma nv_diagnostic pop
-
-          int4* sh_zp_stage = sh_zp + zp_sh_stage * pipe;
-
-          reinterpret_cast<int4*>(&frag_zpf[k % 2])[0] =
-              sh_zp_stage[zp_sh_rd + cur_group_id * zp_sh_stride];
-        }
-      }
-    }
-  };
-
-  // Execute the actual tensor core matmul of a sub-tile.
-  auto matmul = [&](int k) {
-    if constexpr (has_zp && !is_zp_float) {
-      FragB frag_zp_0;
-      FragB frag_zp_1;
-      int zp_quant_0, zp_quant_1;
-
-      if constexpr (w_type.size_bits() == 4) {
-        zp_quant_0 = frag_qzp[k % 2][0];
-        zp_quant_1 = zp_quant_0 >> 8;
-      } else {
-        static_assert(w_type.size_bits() == 8);
-        zp_quant_0 = frag_qzp[k % 2][0];
-        zp_quant_1 = frag_qzp[k % 2][1];
-      }
-
-      frag_zp_0 = dequant<scalar_t, w_type_id>(zp_quant_0);
-      frag_zp_1 = dequant<scalar_t, w_type_id>(zp_quant_1);
-
-      frag_zp[0] = frag_zp_0[0];
-      frag_zp[1] = frag_zp_0[1];
-      frag_zp[2] = frag_zp_1[0];
-      frag_zp[3] = frag_zp_1[1];
-    }
-
-  // We have the m dimension as the inner loop in order to encourage overlapping
-  // dequantization and matmul operations.
-  #pragma unroll
-    for (int j = 0; j < 4; j++) {
-      FragB frag_b0;
-      FragB frag_b1;
-      int b_quant_0, b_quant_1;
-
-      if constexpr (w_type.size_bits() == 4) {
-        b_quant_0 = frag_b_quant[k % 2][0][j];
-        b_quant_1 = b_quant_0 >> 8;
-      } else {
-        static_assert(w_type.size_bits() == 8);
-        int* frag_b_quant_ptr = reinterpret_cast<int*>(frag_b_quant[k % 2]);
-        b_quant_0 = frag_b_quant_ptr[j * 2 + 0];
-        b_quant_1 = frag_b_quant_ptr[j * 2 + 1];
-      }
-
-      frag_b0 = dequant<scalar_t, w_type_id>(b_quant_0);
-      frag_b1 = dequant<scalar_t, w_type_id>(b_quant_1);
-
-      // Apply zero-point to frag_b0
-      if constexpr (has_zp && !is_zp_float) {
-        sub_zp<scalar_t>(frag_b0, frag_zp[j], 0);
-      }
-
-      else if constexpr (has_zp && is_zp_float && group_blocks != -1) {
-        sub_zp<scalar_t>(frag_b0, frag_zpf[k % 2][j], 0);
-      }
-
-      // Apply scale to frag_b0
-      if constexpr (has_act_order) {
-        scale4<scalar_t>(frag_b0, act_frag_s[k % 2][0][j],
-                         act_frag_s[k % 2][1][j], act_frag_s[k % 2][2][j],
-                         act_frag_s[k % 2][3][j], 0);
-      } else {
-        if constexpr (group_blocks != -1) {
-          scale<scalar_t>(frag_b0, frag_s[k % 2][j], 0);
-        }
-      }
-
-      // Apply zero-point to frag_b1
-      if constexpr (has_zp && !is_zp_float) {
-        sub_zp<scalar_t>(frag_b1, frag_zp[j], 1);
-      }
-
-      else if constexpr (has_zp && is_zp_float && group_blocks != -1) {
-        sub_zp<scalar_t>(frag_b1, frag_zpf[k % 2][j], 1);
-      }
-
-      // Apply scale to frag_b1
-      if constexpr (has_act_order) {
-        scale4<scalar_t>(frag_b1, act_frag_s[k % 2][0][j],
-                         act_frag_s[k % 2][1][j], act_frag_s[k % 2][2][j],
-                         act_frag_s[k % 2][3][j], 1);
-
-      } else {
-        if constexpr (group_blocks != -1) {
-          scale<scalar_t>(frag_b1, frag_s[k % 2][j], 1);
-        }
-      }
-
-  #pragma unroll
-      for (int i = 0; i < thread_m_blocks; i++) {
-        mma<scalar_t>(frag_a[k % 2][i], frag_b0, frag_c[i][j][0]);
-        mma<scalar_t>(frag_a[k % 2][i], frag_b1, frag_c[i][j][1]);
-      }
-    }
-  };
-
-  // Since we slice across the k dimension of a tile in order to increase the
-  // number of warps while keeping the n dimension of a tile reasonable, we have
-  // multiple warps that accumulate their partial sums of the same output
-  // location; which we have to reduce over in the end. We do in shared memory.
-  auto thread_block_reduce = [&]() {
-    constexpr int red_off = threads / b_sh_stride_threads / 2;
-    if (red_off >= 1) {
-      auto red_idx = threadIdx.x / b_sh_stride_threads;
-      constexpr int red_sh_stride = b_sh_stride_threads * 4 * 2;
-      constexpr int red_sh_delta = b_sh_stride_threads;
-      int red_sh_rd = red_sh_stride * (threadIdx.x / b_sh_stride_threads) +
-                      (threadIdx.x % b_sh_stride_threads);
-
-      // Parallel logarithmic shared memory reduction. We make sure to avoid any
-      // unnecessary read or write iterations, e.g., for two warps we write only
-      // once by warp 1 and read only once by warp 0.
-
-  #pragma unroll
-      for (int m_block = 0; m_block < thread_m_blocks; m_block++) {
-  #pragma unroll
-        for (int i = red_off; i > 0; i /= 2) {
-          if (i <= red_idx && red_idx < 2 * i) {
-  #pragma unroll
-            for (int j = 0; j < 4 * 2; j++) {
-              int red_sh_wr =
-                  red_sh_delta * j + (red_sh_rd - red_sh_stride * i);
-              if (i < red_off) {
-                float* c_rd = reinterpret_cast<float*>(
-                    &sh_red[red_sh_delta * j + red_sh_rd]);
-                float* c_wr = reinterpret_cast<float*>(&sh_red[red_sh_wr]);
-  #pragma unroll
-                for (int k = 0; k < 4; k++)
-                  reinterpret_cast<FragC*>(frag_c)[4 * 2 * m_block + j][k] +=
-                      c_rd[k] + c_wr[k];
-              }
-              sh_red[red_sh_wr] =
-                  reinterpret_cast<int4*>(&frag_c)[4 * 2 * m_block + j];
-            }
-          }
-          __syncthreads();
-        }
-        if (red_idx == 0) {
-  #pragma unroll
-          for (int i = 0; i < 4 * 2; i++) {
-            float* c_rd =
-                reinterpret_cast<float*>(&sh_red[red_sh_delta * i + red_sh_rd]);
-  #pragma unroll
-            for (int j = 0; j < 4; j++)
-              reinterpret_cast<FragC*>(frag_c)[4 * 2 * m_block + i][j] +=
-                  c_rd[j];
-          }
-        }
-        __syncthreads();
-      }
-    }
-  };
-
-  // Since multiple threadblocks may process parts of the same column slice, we
-  // finally have to globally reduce over the results. As the striped
-  // partitioning minimizes the number of such reductions and our outputs are
-  // usually rather small, we perform this reduction serially in L2 cache.
-  auto global_reduce_fp16 = [&](bool first = false, bool last = false) {
-    // We are very careful here to reduce directly in the output buffer to
-    // maximize L2 cache utilization in this step. To do this, we write out
-    // results in FP16 (but still reduce with FP32 compute).
-    constexpr int active_threads = 32 * thread_n_blocks / 4;
-    if (threadIdx.x < active_threads) {
-      int c_gl_stride = prob_n / 8;
-      int c_gl_wr_delta_o = 8 * c_gl_stride;
-      int c_gl_wr_delta_i = 4 * (active_threads / 32);
-      int c_gl_wr = c_gl_stride * ((threadIdx.x % 32) / 4) +
-                    4 * (threadIdx.x / 32) + threadIdx.x % 4;
-      c_gl_wr += (2 * thread_n_blocks) * slice_col;
-      constexpr int c_sh_wr_delta = active_threads;
-      auto c_sh_wr = threadIdx.x;
-
-      int row = (threadIdx.x % 32) / 4;
-
-      if (!first) {
-  // Interestingly, doing direct global accesses here really seems to mess up
-  // the compiler and lead to slowdowns, hence we also use async-copies even
-  // though these fetches are not actually asynchronous.
-  #pragma unroll
-        for (int i = 0; i < thread_m_blocks * 4; i++) {
-          cp_async4_pred(
-              &sh_red[c_sh_wr + c_sh_wr_delta * i],
-              &C[c_gl_wr + c_gl_wr_delta_o * (i / 2) +
-                 c_gl_wr_delta_i * (i % 2)],
-              i < (thread_m_blocks - 1) * 4 || 8 * (i / 2) + row < prob_m);
-        }
-        cp_async_fence();
-        cp_async_wait<0>();
-      }
-
-  #pragma unroll
-      for (int i = 0; i < thread_m_blocks * 4; i++) {
-        if (i < (thread_m_blocks - 1) * 4 || 8 * (i / 2) + row < prob_m) {
-          if (!first) {
-            int4 c_red = sh_red[c_sh_wr + i * c_sh_wr_delta];
-  #pragma unroll
-            for (int j = 0; j < 2 * 4; j++) {
-              reinterpret_cast<float*>(
-                  &frag_c)[4 * 2 * 4 * (i / 4) + 4 * j + (i % 4)] +=
-                  Dtype::num2float(reinterpret_cast<scalar_t*>(&c_red)[j]);
-            }
-          }
-          if (!last) {
-            int4 c;
-  #pragma unroll
-            for (int j = 0; j < 2 * 4; j++) {
-              reinterpret_cast<scalar_t*>(&c)[j] =
-                  Dtype::float2num(reinterpret_cast<float*>(
-                      &frag_c)[4 * 2 * 4 * (i / 4) + 4 * j + (i % 4)]);
-            }
-            C[c_gl_wr + c_gl_wr_delta_o * (i / 2) + c_gl_wr_delta_i * (i % 2)] =
-                c;
-          }
-        }
-      }
-    }
-  };
-
-  // Globally reduce over threadblocks that compute the same column block.
-  // We use a tmp C buffer to reduce in full fp32 precision.
-  auto global_reduce_fp32 = [&](bool first = false, bool last = false) {
-    constexpr int tb_m = thread_m_blocks * 16;
-    constexpr int tb_n = thread_n_blocks * 16;
-
-    constexpr int c_size = tb_m * tb_n * sizeof(float) / 16;
-
-    constexpr int active_threads = 32 * thread_n_blocks / 4;
-    bool is_th_active = threadIdx.x < active_threads;
-
-    int par_offset = c_size * n_tiles * par_id;
-    int slice_offset = c_size * slice_col;
-
-    constexpr int num_floats = thread_m_blocks * 4 * 2 * 4;
-    constexpr int th_size = num_floats * sizeof(float) / 16;
-
-    int c_cur_offset = par_offset + slice_offset;
-
-    if (!is_th_active) {
-      return;
-    }
-
-    if (!first) {
-      float* frag_c_ptr = reinterpret_cast<float*>(&frag_c);
-  #pragma unroll
-      for (int k = 0; k < th_size; k++) {
-        sh_red[threadIdx.x] =
-            C_tmp[c_cur_offset + active_threads * k + threadIdx.x];
-
-        float* sh_c_ptr = reinterpret_cast<float*>(&sh_red[threadIdx.x]);
-  #pragma unroll
-        for (int f = 0; f < 4; f++) {
-          frag_c_ptr[k * 4 + f] += sh_c_ptr[f];
-        }
-      }
-    }
-
-    if (!last) {
-      int4* frag_c_ptr = reinterpret_cast<int4*>(&frag_c);
-  #pragma unroll
-      for (int k = 0; k < th_size; k++) {
-        C_tmp[c_cur_offset + active_threads * k + threadIdx.x] = frag_c_ptr[k];
-      }
-    }
-  };
-
-  // Write out the reduce final result in the correct layout. We only actually
-  // reshuffle matrix fragments in this step, the reduction above is performed
-  // in fragment layout.
-  auto write_result = [&]() {
-    int c_gl_stride = prob_n / 8;
-    constexpr int c_sh_stride = 2 * thread_n_blocks + 1;
-    int c_gl_wr_delta = c_gl_stride * (threads / (2 * thread_n_blocks));
-    constexpr int c_sh_rd_delta =
-        c_sh_stride * (threads / (2 * thread_n_blocks));
-
-    int c_gl_wr = c_gl_stride * (threadIdx.x / (2 * thread_n_blocks)) +
-                  (threadIdx.x % (2 * thread_n_blocks));
-    c_gl_wr += (2 * thread_n_blocks) * slice_col;
-    int c_sh_wr =
-        (4 * c_sh_stride) * ((threadIdx.x % 32) / 4) + (threadIdx.x % 32) % 4;
-    c_sh_wr += 32 * (threadIdx.x / 32);
-    int c_sh_rd = c_sh_stride * (threadIdx.x / (2 * thread_n_blocks)) +
-                  (threadIdx.x % (2 * thread_n_blocks));
-
-    int c_gl_wr_end = c_gl_stride * prob_m;
-
-    // We first reorder in shared memory to guarantee the most efficient final
-    // global write patterns
-    auto write = [&](int idx, float c0, float c1, FragS& s) {
-      scalar_t2 res =
-          Dtype::nums2num2(Dtype::float2num(c0), Dtype::float2num(c1));
-
-      // For per-column quantization we finally apply the scale here (only for
-      // 4-bit)
-      if constexpr (!has_act_order && group_blocks == -1 &&
-                    w_type.size_bits() == 4) {
-        res = __hmul2(res, s[0]);
-      }
-
-      ((scalar_t2*)sh_red)[idx] = res;
-    };
-
-    if (threadIdx.x / 32 < thread_n_blocks / 4) {
-  #pragma unroll
-      for (int i = 0; i < thread_m_blocks; i++) {
-  #pragma unroll
-        for (int j = 0; j < 4; j++) {
-          int wr = c_sh_wr + 8 * j;
-          write(wr + (4 * c_sh_stride) * 0 + 0, frag_c[i][j][0][0],
-                frag_c[i][j][0][1], frag_s[j / 2][2 * (j % 2) + 0]);
-          write(wr + (4 * c_sh_stride) * 8 + 0, frag_c[i][j][0][2],
-                frag_c[i][j][0][3], frag_s[j / 2][2 * (j % 2) + 0]);
-          write(wr + (4 * c_sh_stride) * 0 + 4, frag_c[i][j][1][0],
-                frag_c[i][j][1][1], frag_s[j / 2][2 * (j % 2) + 1]);
-          write(wr + (4 * c_sh_stride) * 8 + 4, frag_c[i][j][1][2],
-                frag_c[i][j][1][3], frag_s[j / 2][2 * (j % 2) + 1]);
-        }
-        c_sh_wr += 16 * (4 * c_sh_stride);
-      }
-    }
-    __syncthreads();
-
-  #pragma unroll
-    for (int i = 0;
-         i < div_ceil(16 * thread_m_blocks, threads / (2 * thread_n_blocks));
-         i++) {
-      if (c_gl_wr < c_gl_wr_end) {
-        if (use_atomic_add && slice_count > 1) {
-          scalar_t2* C_half2 = reinterpret_cast<scalar_t2*>(&C[c_gl_wr]);
-          scalar_t2* sh_red_half2 =
-              reinterpret_cast<scalar_t2*>(&sh_red[c_sh_rd]);
-  #pragma unroll
-          for (int a = 0; a < 4; a++) {
-            atomicAdd(&C_half2[a], sh_red_half2[a]);
-          }
-        } else {
-          C[c_gl_wr] = sh_red[c_sh_rd];
-        }
-        c_gl_wr += c_gl_wr_delta;
-        c_sh_rd += c_sh_rd_delta;
-      }
-    }
-  };
-
-  // Start global fetch and register load pipelines.
-  auto start_pipes = [&]() {
-
-  #pragma unroll
-    for (int i = 0; i < stages - 1; i++) {
-      if (has_act_order && i == 0) {
-        int last_g_idx = slice_k_start + stages * tb_k * 2;
-        if (last_g_idx >= prob_k) {
-          last_g_idx = prob_k - 1;
-        }
-        fetch_scales_to_shared(true, g_idx[slice_k_start], g_idx[last_g_idx]);
-      }
-
-      if constexpr (has_zp && !is_zp_float && group_blocks == -1) {
-        if (i == 0) {
-          fetch_zp_to_shared();
-        }
-      }
-      fetch_to_shared(i, i, i < slice_iters);
-    }
-
-    zero_accums();
-    wait_for_stage();
-    init_same_group(0);
-    fetch_to_registers(0, 0);
-    fetch_scales_to_registers(0, 0);
-    fetch_zp_to_registers(0, 0);
-    a_gl_rd += a_gl_rd_delta_o * (stages - 1);
-    slice_k_start_shared_fetch += tb_k * (stages - 1);
-  };
-  if (slice_iters) {
-    start_pipes();
-  }
-
-  // Main loop.
-  while (slice_iters) {
-    // We unroll over both the global fetch and the register load pipeline to
-    // ensure all shared memory accesses are static. Note that both pipelines
-    // have even length meaning that the next iteration will always start at
-    // index 0.
-
-  #pragma unroll
-    for (int pipe = 0; pipe < stages;) {
-  #pragma unroll
-      for (int k = 0; k < b_sh_wr_iters; k++) {
-        fetch_to_registers(k + 1, pipe % stages);
-        fetch_scales_to_registers(k + 1, pipe);
-        fetch_zp_to_registers(k + 1, pipe);
-        if (k == b_sh_wr_iters - 2) {
-          fetch_to_shared((pipe + stages - 1) % stages, pipe,
-                          slice_iters >= stages);
-          pipe++;
-          wait_for_stage();
-          init_same_group(pipe % stages);
-        }
-        matmul(k);
-      }
-      slice_iters--;
-      if (slice_iters == 0) {
-        break;
-      }
-    }
-
-    a_gl_rd += a_gl_rd_delta_o * stages;
-    slice_k_start += tb_k * stages;
-    slice_k_start_shared_fetch += tb_k * stages;
-
-    if constexpr (has_act_order) {
-      int first_group_id = g_idx[slice_k_start];
-      int last_g_idx = slice_k_start + stages * tb_k * 2;
-      if (last_g_idx >= prob_k) {
-        last_g_idx = prob_k - 1;
-      }
-      int last_group_id = g_idx[last_g_idx];
-      if (last_group_id >= sh_first_group_id + sh_num_groups) {
-        fetch_scales_to_shared(false, first_group_id, last_group_id);
-        __syncthreads();
-      }
-    }
-
-    // Process results and, if necessary, proceed to the next column slice.
-    // While this pattern may not be the most readable, other ways of writing
-    // the loop seemed to noticeably worse performance after compilation.
-    if (slice_iters == 0) {
-      cp_async_wait<0>();
-      bool last = slice_idx == slice_count - 1;
-      // For per-column scales, we only fetch them here in the final step before
-      // write-out
-      if constexpr (!has_act_order && group_blocks == -1) {
-        if constexpr (w_type.size_bits() == 8) {
-          if (s_sh_wr_pred) {
-            cp_async4(&sh_s[s_sh_wr], &scales_ptr[s_gl_rd]);
-          }
-          cp_async_fence();
-        } else {
-          if (last || use_atomic_add) {
-            if (s_sh_wr_pred) {
-              cp_async4(&sh_s[s_sh_wr], &scales_ptr[s_gl_rd]);
-            }
-            cp_async_fence();
-          }
-        }
-      }
-
-      thread_block_reduce();
-      if constexpr (!has_act_order && group_blocks == -1) {
-        if constexpr (w_type.size_bits() == 8) {
-          cp_async_wait<0>();
-          __syncthreads();
-          if (threadIdx.x / 32 < thread_n_blocks / 4) {
-            reinterpret_cast<int4*>(&frag_s)[0] = sh_s[s_sh_rd + 0];
-            reinterpret_cast<int4*>(&frag_s)[1] = sh_s[s_sh_rd + 4];
-          }
-
-        } else {
-          if (last || use_atomic_add) {
-            cp_async_wait<0>();
-            __syncthreads();
-            if (threadIdx.x / 32 < thread_n_blocks / 4) {
-              reinterpret_cast<int4*>(&frag_s)[0] = sh_s[s_sh_rd + 0];
-              reinterpret_cast<int4*>(&frag_s)[1] = sh_s[s_sh_rd + 4];
-            }
-          }
-        }
-      }
-
-      // For 8-bit channelwise, we apply the scale before the global reduction
-      // that converts the fp32 results to fp16 (so that we avoid possible
-      // overflow in fp16)
-      if constexpr (!has_act_order && group_blocks == -1 &&
-                    w_type.size_bits() == 8) {
-        if (threadIdx.x / 32 < thread_n_blocks / 4) {
-  #pragma unroll
-          for (int i = 0; i < thread_m_blocks; i++) {
-  #pragma unroll
-            for (int j = 0; j < 4; j++) {
-              scale_float<scalar_t>(
-                  reinterpret_cast<float*>(&frag_c[i][j][0][0]),
-                  frag_s[j / 2][2 * (j % 2) + 0]);
-              scale_float<scalar_t>(
-                  reinterpret_cast<float*>(&frag_c[i][j][0][2]),
-                  frag_s[j / 2][2 * (j % 2) + 0]);
-
-              scale_float<scalar_t>(
-                  reinterpret_cast<float*>(&frag_c[i][j][1][0]),
-                  frag_s[j / 2][2 * (j % 2) + 1]);
-              scale_float<scalar_t>(
-                  reinterpret_cast<float*>(&frag_c[i][j][1][2]),
-                  frag_s[j / 2][2 * (j % 2) + 1]);
-            }
-          }
-        }
-      }
-
-      if (slice_count > 1 && !use_atomic_add) {
-        // only globally reduce if there is more than one block in a slice
-        barrier_acquire(&locks[slice_col], slice_idx);
-        if (use_fp32_reduce) {
-          global_reduce_fp32(slice_idx == 0, last);
-        } else {
-          global_reduce_fp16(slice_idx == 0, last);
-        }
-        barrier_release(&locks[slice_col], last);
-      }
-      if (last || use_atomic_add)
-        // only the last block in a slice actuallywrites the result
-        write_result();
-      slice_row = 0;
-      slice_col_par++;
-      slice_col++;
-      init_slice();
-      if (slice_iters) {
-        a_gl_rd = a_gl_stride * (threadIdx.x / a_gl_rd_delta_o) +
-                  (threadIdx.x % a_gl_rd_delta_o);
-  #pragma unroll
-        for (int i = 0; i < b_sh_wr_iters; i++)
-          B_ptr[i] += b_sh_stride - b_gl_rd_delta_o * k_tiles;
-        if (slice_col == 0) {
-  #pragma unroll
-          for (int i = 0; i < b_sh_wr_iters; i++) B_ptr[i] -= b_gl_stride;
-        }
-
-        // Update slice k/n for scales loading
-        if constexpr (has_act_order) {
-          slice_k_start = tb_k * slice_row;
-          slice_k_finish = slice_k_start + tb_k * slice_iters;
-          slice_k_start_shared_fetch = slice_k_start;
-          slice_n_offset = act_s_col_tb_stride * slice_col;
-
-        } else {
-          s_gl_rd = s_sh_stride * slice_col + threadIdx.x;
-          zp_gl_rd = zp_sh_stride * slice_col + threadIdx.x;
-        }
-
-        start_pipes();
-      }
-    }
-  }
-}
-
-  #define __CALL_IF(W_TYPE, THREAD_M_BLOCKS, THREAD_N_BLOCKS, THREAD_K_BLOCKS, \
-                    HAS_ACT_ORDER, HAS_ZP, GROUP_BLOCKS, NUM_THREADS,          \
-                    IS_ZP_FLOAT)                                               \
-    else if (q_type == W_TYPE && thread_m_blocks == THREAD_M_BLOCKS &&         \
-             thread_n_blocks == THREAD_N_BLOCKS &&                             \
-             thread_k_blocks == THREAD_K_BLOCKS &&                             \
-             has_act_order == HAS_ACT_ORDER && has_zp == HAS_ZP &&             \
-             group_blocks == GROUP_BLOCKS && num_threads == NUM_THREADS &&     \
-             is_zp_float == IS_ZP_FLOAT) {                                     \
-      if constexpr (!IS_ZP_FLOAT || std::is_same<scalar_t, half>::value) {     \
-        cudaFuncSetAttribute(                                                  \
-            Marlin<scalar_t, W_TYPE.id(), NUM_THREADS, THREAD_M_BLOCKS,        \
-                   THREAD_N_BLOCKS, THREAD_K_BLOCKS, pipe_stages,              \
-                   HAS_ACT_ORDER, HAS_ZP, GROUP_BLOCKS, IS_ZP_FLOAT>,          \
-            cudaFuncAttributeMaxDynamicSharedMemorySize, max_shared_mem);      \
-        Marlin<scalar_t, W_TYPE.id(), NUM_THREADS, THREAD_M_BLOCKS,            \
-               THREAD_N_BLOCKS, THREAD_K_BLOCKS, pipe_stages, HAS_ACT_ORDER,   \
-               HAS_ZP, GROUP_BLOCKS, IS_ZP_FLOAT>                              \
-            <<<blocks, NUM_THREADS, max_shared_mem, stream>>>(                 \
-                A_ptr, B_ptr, C_ptr, C_tmp_ptr, s_ptr, zp_ptr, g_idx_ptr,      \
-                num_groups, prob_m, prob_n, prob_k, lda, locks,                \
-                part_use_atomic_add, use_fp32_reduce);                         \
-      }                                                                        \
-    }
-
 typedef struct {
   int thread_k;
   int thread_n;
   int num_threads;
 } thread_config_t;
 
-typedef struct {
-  int max_m_blocks;
-  thread_config_t tb_cfg;
-} exec_config_t;
-
 thread_config_t small_batch_thread_configs[] = {
     // Ordered by priority
 
     // thread_k, thread_n, num_threads
     {128, 128, 256},
     {64, 128, 128},
-    {128, 64, 128},
-};
+    {128, 64, 128}};
 
 thread_config_t large_batch_thread_configs[] = {
     // Ordered by priority
@@ -1815,9 +138,12 @@ thread_config_t large_batch_thread_configs[] = {
     // thread_k, thread_n, num_threads
     {64, 256, 256},
     {64, 128, 128},
-    {128, 64, 128},
+    {128, 64, 128}};
 
-};
+typedef struct {
+  int blocks_per_sm;
+  thread_config_t tb_cfg;
+} exec_config_t;
 
 int get_scales_cache_size(thread_config_t const& th_config, int prob_m,
                           int prob_n, int prob_k, int num_bits, int group_size,
@@ -1842,7 +168,6 @@ int get_scales_cache_size(thread_config_t const& th_config, int prob_m,
         tb_groups * pipe_stages * 2;     // Chunk size is 2x pipeline over dim K
     load_groups = max(load_groups, 32);  // We load at least 32 scale groups
     return load_groups * tb_n * 2;
-
   } else {
     int tb_scales = tb_groups * tb_n * 2;
 
@@ -1850,49 +175,43 @@ int get_scales_cache_size(thread_config_t const& th_config, int prob_m,
   }
 }
 
-bool is_valid_cache_size(thread_config_t const& th_config, int max_m_blocks,
-                         int prob_m, int prob_n, int prob_k, int num_bits,
-                         int scales_cache_size, int max_shared_mem) {
+int get_kernel_cache_size(thread_config_t const& th_config, int thread_m_blocks,
+                          int prob_m, int prob_n, int prob_k, int num_bits,
+                          int group_size, bool has_act_order, bool is_k_full,
+                          int has_zp, int is_zp_float) {
   int pack_factor = 32 / num_bits;
 
   // Get B size
   int tb_k = th_config.thread_k;
   int tb_n = th_config.thread_n;
-
-  int b_size = (tb_k * tb_n / pack_factor) * 4;
-
-  // Get A size
-  int m_blocks = div_ceil(prob_m, 16);
-  int tb_max_m = 16;
-
-  while (true) {
-    if (m_blocks >= max_m_blocks) {
-      tb_max_m *= max_m_blocks;
-      break;
-    }
-
-    max_m_blocks--;
-    if (max_m_blocks == 0) {
-      TORCH_CHECK(false, "Unexpected m_blocks = ", m_blocks);
-    }
+  int tb_m = thread_m_blocks * 16;
+  int sh_a_size = pipe_stages * (tb_m * tb_k) * 2;
+  int sh_b_size = pipe_stages * (tb_k * tb_n / pack_factor) * 4;
+  int sh_red_size = tb_m * (tb_n + 8);
+  int sh_s_size =
+      get_scales_cache_size(th_config, prob_m, prob_n, prob_k, num_bits,
+                            group_size, has_act_order, is_k_full);
+  int sh_g_idx_size = has_act_order && !is_k_full ? pipe_stages * tb_k / 4 : 0;
+  int sh_zp_size = 0;
+  if (has_zp) {
+    if (is_zp_float)
+      sh_zp_size = sh_s_size;
+    else if (num_bits == 4)
+      sh_zp_size = sh_s_size / 4;
+    else if (num_bits == 8)
+      sh_zp_size = sh_s_size / 2;
   }
 
-  int a_size = (tb_max_m * tb_k) * 2;
-
-  float pipe_size = (a_size + b_size) * pipe_stages;
-
-  float reduce_size = max(th_config.num_threads * 32 * 4,
-                          (tb_n / 64) * 32 * (tb_max_m / 16) * 4 * 2 * 4 * 2);
+  int total_size = max(sh_b_size, sh_red_size) + sh_a_size + sh_s_size +
+                   sh_zp_size + sh_g_idx_size;
 
-  TORCH_CHECK(max_shared_mem / 2 > scales_cache_size);  // Sanity
-
-  return pipe_size + reduce_size < 0.95f * (max_shared_mem - scales_cache_size);
+  return total_size;
 }
 
-bool is_valid_config(thread_config_t const& th_config, int max_m_blocks,
+bool is_valid_config(thread_config_t const& th_config, int thread_m_blocks,
                      int prob_m, int prob_n, int prob_k, int num_bits,
                      int group_size, bool has_act_order, bool is_k_full,
-                     int max_shared_mem) {
+                     int has_zp, int is_zp_float, int max_shared_mem) {
   // Sanity
   if (th_config.thread_k == -1 || th_config.thread_n == -1 ||
       th_config.num_threads == -1) {
@@ -1914,163 +233,204 @@ bool is_valid_config(thread_config_t const& th_config, int max_m_blocks,
     return false;
   }
 
-  //  Determine cache for scales
-  int scales_cache_size =
-      get_scales_cache_size(th_config, prob_m, prob_n, prob_k, num_bits,
-                            group_size, has_act_order, is_k_full);
-
   // Check that pipeline fits into cache
-  if (!is_valid_cache_size(th_config, max_m_blocks, prob_m, prob_n, prob_k,
-                           num_bits, scales_cache_size, max_shared_mem)) {
-    return false;
-  }
-
-  return true;
+  int cache_size = get_kernel_cache_size(
+      th_config, thread_m_blocks, prob_m, prob_n, prob_k, num_bits, group_size,
+      has_act_order, is_k_full, has_zp, is_zp_float);
+  return cache_size <= max_shared_mem;
 }
 
-int determine_reduce_max_m(int prob_m, int max_par) {
-  constexpr int tile_m_size = 16;
+  #define _GET_IF(W_TYPE, THREAD_M_BLOCKS, THREAD_N_BLOCKS, THREAD_K_BLOCKS, \
+                  M_BLOCK_SIZE_8, GROUP_BLOCKS, NUM_THREADS, IS_ZP_FLOAT)    \
+    else if (q_type == W_TYPE && thread_m_blocks == THREAD_M_BLOCKS &&       \
+             thread_n_blocks == THREAD_N_BLOCKS &&                           \
+             thread_k_blocks == THREAD_K_BLOCKS &&                           \
+             m_block_size_8 == M_BLOCK_SIZE_8 &&                             \
+             group_blocks == GROUP_BLOCKS && num_threads == NUM_THREADS &&   \
+             is_zp_float == IS_ZP_FLOAT) {                                   \
+      kernel = Marlin<scalar_t, W_TYPE.id(), NUM_THREADS, THREAD_M_BLOCKS,   \
+                      THREAD_N_BLOCKS, THREAD_K_BLOCKS, M_BLOCK_SIZE_8,      \
+                      pipe_stages, GROUP_BLOCKS, IS_ZP_FLOAT>;               \
+    }
+
+  // COMMON: cases for (group_blocks in [-1, 2, 4, 8] and is_zp_float == false)
+  //         this is the most common cases
+  // BIGGROUP: cases for big group size (group_blocks in [-1, 8])
+  // FZP: cases for float-zero-point (is_zp_float = true)
+  // ACT: cases for act order case (group_blocks == 0)
+  #define COMMON_GET_IF_M1(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)       \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, -1, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 2, NUM_THREADS, false)   \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 4, NUM_THREADS, false)   \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 8, NUM_THREADS, false)   \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, 2, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, 4, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)
+
+  #define COMMON_GET_IF_M234(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)     \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, 2, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, 4, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)  \
+                                                                          \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, 2, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, 4, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)  \
+                                                                          \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, 2, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, 4, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)
+
+  #define COMMON_GET_IF(W_TYPE)            \
+    COMMON_GET_IF_M1(W_TYPE, 8, 8, 256)    \
+    COMMON_GET_IF_M1(W_TYPE, 8, 4, 128)    \
+    COMMON_GET_IF_M1(W_TYPE, 4, 8, 128)    \
+    COMMON_GET_IF_M234(W_TYPE, 16, 4, 256) \
+    COMMON_GET_IF_M234(W_TYPE, 8, 4, 128)  \
+    COMMON_GET_IF_M234(W_TYPE, 4, 8, 128)
+
+  #define BIGGROUP_GET_IF_M1(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)     \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, -1, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 8, NUM_THREADS, false)   \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)
+
+  #define BIGGROUP_GET_IF_M234(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)   \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)  \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)
+
+  #define BIGGROUP_GET_IF(W_TYPE)            \
+    BIGGROUP_GET_IF_M1(W_TYPE, 8, 8, 256)    \
+    BIGGROUP_GET_IF_M1(W_TYPE, 8, 4, 128)    \
+    BIGGROUP_GET_IF_M1(W_TYPE, 4, 8, 128)    \
+    BIGGROUP_GET_IF_M234(W_TYPE, 16, 4, 256) \
+    BIGGROUP_GET_IF_M234(W_TYPE, 8, 4, 128)  \
+    BIGGROUP_GET_IF_M234(W_TYPE, 4, 8, 128)
+
+  // We currently have 4-bit models only with group_blocks == 4
+  #define FZP_GET_IF_M1(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)       \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 4, NUM_THREADS, true) \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, 4, NUM_THREADS, true)
+
+  #define FZP_GET_IF_M234(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)      \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, 4, NUM_THREADS, true) \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, 4, NUM_THREADS, true) \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, 4, NUM_THREADS, true)
+
+  #define FZP_GET_IF(W_TYPE)            \
+    FZP_GET_IF_M1(W_TYPE, 8, 8, 256)    \
+    FZP_GET_IF_M1(W_TYPE, 8, 4, 128)    \
+    FZP_GET_IF_M1(W_TYPE, 4, 8, 128)    \
+    FZP_GET_IF_M234(W_TYPE, 16, 4, 256) \
+    FZP_GET_IF_M234(W_TYPE, 8, 4, 128)  \
+    FZP_GET_IF_M234(W_TYPE, 4, 8, 128)
+
+  // We currently have 4-bit models only with group_blocks == 4
+  #define ACT_GET_IF_M1(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)        \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 0, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, 0, NUM_THREADS, false)
+
+  #define ACT_GET_IF_M234(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)       \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, 0, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, 0, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, 0, NUM_THREADS, false)
+
+  #define ACT_GET_IF(W_TYPE)            \
+    ACT_GET_IF_M1(W_TYPE, 8, 8, 256)    \
+    ACT_GET_IF_M1(W_TYPE, 8, 4, 128)    \
+    ACT_GET_IF_M1(W_TYPE, 4, 8, 128)    \
+    ACT_GET_IF_M234(W_TYPE, 16, 4, 256) \
+    ACT_GET_IF_M234(W_TYPE, 8, 4, 128)  \
+    ACT_GET_IF_M234(W_TYPE, 4, 8, 128)
 
-  if (prob_m <= tile_m_size) {
-    return tile_m_size;
+template <typename scalar_t>
+MarlinFuncPtr get_marlin_kernel(const vllm::ScalarType q_type,
+                                int thread_m_blocks, int thread_n_blocks,
+                                int thread_k_blocks, bool m_block_size_8,
+                                bool has_act_order, bool has_zp,
+                                int group_blocks, int num_threads,
+                                bool is_zp_float) {
+  int num_bits = q_type.size_bits();
+  auto kernel = MarlinDefault;
+  if (false) {
+  }
 
-  } else if (prob_m <= tile_m_size * 2) {
-    return tile_m_size * 2;
+  COMMON_GET_IF(vllm::kU4)
+  COMMON_GET_IF(vllm::kU4B8)
+  COMMON_GET_IF(vllm::kU8B128)
 
-  } else if (prob_m <= tile_m_size * 3) {
-    return tile_m_size * 3;
+  BIGGROUP_GET_IF(vllm::kFE4M3fn)
 
-  } else if (prob_m <= tile_m_size * 4) {
-    return tile_m_size * 4;
+  ACT_GET_IF(vllm::kU4B8)
+  ACT_GET_IF(vllm::kU8B128)
 
-  } else {
-    int cur_par = min(div_ceil(prob_m, tile_m_size * 4), max_par);
-    return tile_m_size * 4 * cur_par;
+  if (std::is_same<scalar_t, half>::value) {
+    if (false) {
+    }
+    FZP_GET_IF(vllm::kU4)
   }
+
+  return kernel;
 }
 
-exec_config_t determine_thread_config(int prob_m, int prob_n, int prob_k,
-                                      int num_bits, int group_size,
-                                      bool has_act_order, bool is_k_full,
-                                      int max_shared_mem) {
-  int max_m_blocks = 4;
-  while (max_m_blocks > 0) {
-    if (prob_m <= 16) {
-      for (auto th_config : small_batch_thread_configs) {
-        if (is_valid_config(th_config, max_m_blocks, prob_m, prob_n, prob_k,
-                            num_bits, group_size, has_act_order, is_k_full,
-                            max_shared_mem)) {
-          return exec_config_t{max_m_blocks, th_config};
-        }
-      }
-    } else {
-      for (auto th_config : large_batch_thread_configs) {
-        if (is_valid_config(th_config, max_m_blocks, prob_m, prob_n, prob_k,
-                            num_bits, group_size, has_act_order, is_k_full,
-                            max_shared_mem)) {
-          return exec_config_t{max_m_blocks, th_config};
-        }
-      }
+template <typename scalar_t>
+exec_config_t determine_exec_config(const vllm::ScalarType& q_type, int prob_m,
+                                    int prob_n, int prob_k, int thread_m_blocks,
+                                    bool m_block_size_8, int num_bits,
+                                    int group_size, bool has_act_order,
+                                    bool is_k_full, bool has_zp,
+                                    bool is_zp_float, int max_shared_mem,
+                                    int sms) {
+  exec_config_t exec_cfg = exec_config_t{1, thread_config_t{-1, -1, -1}};
+  thread_config_t* thread_configs = thread_m_blocks > 1
+                                        ? large_batch_thread_configs
+                                        : small_batch_thread_configs;
+  int thread_configs_size =
+      thread_m_blocks > 1
+          ? sizeof(large_batch_thread_configs) / sizeof(thread_config_t)
+          : sizeof(small_batch_thread_configs) / sizeof(thread_config_t);
+
+  for (int i = 0; i < thread_configs_size; i++) {
+    thread_config_t th_config = thread_configs[i];
+
+    if (!is_valid_config(th_config, thread_m_blocks, prob_m, prob_n, prob_k,
+                         num_bits, group_size, has_act_order, is_k_full, has_zp,
+                         is_zp_float, max_shared_mem)) {
+      continue;
     }
 
-    max_m_blocks--;  // Process less M blocks per invocation to reduce cache
-                     // usage
-  }
+    int cache_size = get_kernel_cache_size(
+        th_config, thread_m_blocks, prob_m, prob_n, prob_k, num_bits,
+        group_size, has_act_order, is_k_full, has_zp, is_zp_float);
 
-  return exec_config_t{0, {-1, -1, -1}};
-}
+    int group_blocks = 0;
+    if (!has_act_order) {
+      group_blocks = group_size == -1 ? -1 : group_size / 16;
+    }
 
-  #define GPTQ_CALL_IF(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)             \
-    __CALL_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, false, 0, NUM_THREADS,   \
-              false)                                                        \
-    __CALL_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, true, false, 0, NUM_THREADS,   \
-              false)                                                        \
-    __CALL_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, true, false, 0, NUM_THREADS,   \
-              false)                                                        \
-    __CALL_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, true, false, 0, NUM_THREADS,   \
-              false)                                                        \
-                                                                            \
-    __CALL_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, false, -1, NUM_THREADS, \
-              false)                                                        \
-    __CALL_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, false, 2, NUM_THREADS,  \
-              false)                                                        \
-    __CALL_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, false, 4, NUM_THREADS,  \
-              false)                                                        \
-    __CALL_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, false, 8, NUM_THREADS,  \
-              false)                                                        \
-                                                                            \
-    __CALL_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, false, -1, NUM_THREADS, \
-              false)                                                        \
-    __CALL_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, false, 2, NUM_THREADS,  \
-              false)                                                        \
-    __CALL_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, false, 4, NUM_THREADS,  \
-              false)                                                        \
-    __CALL_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, false, 8, NUM_THREADS,  \
-              false)                                                        \
-                                                                            \
-    __CALL_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, false, -1, NUM_THREADS, \
-              false)                                                        \
-    __CALL_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, false, 2, NUM_THREADS,  \
-              false)                                                        \
-    __CALL_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, false, 4, NUM_THREADS,  \
-              false)                                                        \
-    __CALL_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, false, 8, NUM_THREADS,  \
-              false)                                                        \
-                                                                            \
-    __CALL_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, false, -1, NUM_THREADS, \
-              false)                                                        \
-    __CALL_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, false, 2, NUM_THREADS,  \
-              false)                                                        \
-    __CALL_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, false, 4, NUM_THREADS,  \
-              false)                                                        \
-    __CALL_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, false, 8, NUM_THREADS,  \
-              false)
-
-  #define AWQ_CALL_IF(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)             \
-    __CALL_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, true, -1, NUM_THREADS, \
-              false)                                                       \
-    __CALL_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, true, 2, NUM_THREADS,  \
-              false)                                                       \
-    __CALL_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, true, 4, NUM_THREADS,  \
-              false)                                                       \
-    __CALL_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, true, 8, NUM_THREADS,  \
-              false)                                                       \
-                                                                           \
-    __CALL_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, true, -1, NUM_THREADS, \
-              false)                                                       \
-    __CALL_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, true, 2, NUM_THREADS,  \
-              false)                                                       \
-    __CALL_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, true, 4, NUM_THREADS,  \
-              false)                                                       \
-    __CALL_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, true, 8, NUM_THREADS,  \
-              false)                                                       \
-                                                                           \
-    __CALL_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, true, -1, NUM_THREADS, \
-              false)                                                       \
-    __CALL_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, true, 2, NUM_THREADS,  \
-              false)                                                       \
-    __CALL_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, true, 4, NUM_THREADS,  \
-              false)                                                       \
-    __CALL_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, true, 8, NUM_THREADS,  \
-              false)                                                       \
-                                                                           \
-    __CALL_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, true, -1, NUM_THREADS, \
-              false)                                                       \
-    __CALL_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, true, 2, NUM_THREADS,  \
-              false)                                                       \
-    __CALL_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, true, 4, NUM_THREADS,  \
-              false)                                                       \
-    __CALL_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, true, 8, NUM_THREADS, false)
+    auto kernel = get_marlin_kernel<scalar_t>(
+        q_type, thread_m_blocks, th_config.thread_n / 16,
+        th_config.thread_k / 16, m_block_size_8, has_act_order, has_zp,
+        group_blocks, th_config.num_threads, is_zp_float);
 
-  // We currently have 4-bit models only with group_blocks == 4
-  #define HQQ_CALL_IF(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)            \
-    __CALL_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, true, 4, NUM_THREADS, \
-              true)                                                       \
-    __CALL_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, true, 4, NUM_THREADS, \
-              true)                                                       \
-    __CALL_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, true, 4, NUM_THREADS, \
-              true)                                                       \
-    __CALL_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, true, 4, NUM_THREADS, true)
+    if (kernel == MarlinDefault) continue;
+
+    // int m_tiles = div_ceil(prob_m, thread_m_blocks * 16);
+    // int n_tiles = prob_n / th_config.thread_n;
+    // int k_tiles = prob_k / th_config.thread_k;
+
+    return {1, th_config};
+  }
+
+  return exec_cfg;
+}
 
 template <typename scalar_t>
 void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
@@ -2078,78 +438,24 @@ void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
                int prob_n, int prob_k, int lda, void* workspace,
                vllm::ScalarType const& q_type, bool has_act_order,
                bool is_k_full, bool has_zp, int num_groups, int group_size,
-               int dev, cudaStream_t stream, int thread_k, int thread_n,
-               int sms, int max_par, bool use_atomic_add, bool use_fp32_reduce,
-               bool is_zp_float) {
+               int dev, cudaStream_t stream, int thread_k_init,
+               int thread_n_init, int sms, bool use_atomic_add,
+               bool use_fp32_reduce, bool is_zp_float) {
   if (has_zp) {
     TORCH_CHECK(
         q_type == vllm::kU4 || q_type == vllm::kU8,
         "q_type must be u4 or u8 when has_zp = True. Got = ", q_type.str());
   } else {
-    TORCH_CHECK(
-        q_type == vllm::kU4B8 || q_type == vllm::kU8B128,
-        "q_type must be uint4b8 or uint8b128 when has_zp = False. Got = ",
-        q_type.str());
+    TORCH_CHECK(q_type == vllm::kU4B8 || q_type == vllm::kU8B128 ||
+                    q_type == vllm::kFE4M3fn,
+                "q_type must be uint4b8, uint8b128 or float8_e4m3fn when "
+                "has_zp = False. Got = ",
+                q_type.str());
   }
 
   TORCH_CHECK(prob_m > 0 && prob_n > 0 && prob_k > 0, "Invalid MNK = [", prob_m,
               ", ", prob_n, ", ", prob_k, "]");
 
-  // TODO: remove alias when we start supporting other 8bit types
-  int num_bits = q_type.size_bits();
-  int tot_m = prob_m;
-  int tot_m_blocks = div_ceil(tot_m, 16);
-  int pad = 16 * tot_m_blocks - tot_m;
-
-  if (sms == -1) {
-    cudaDeviceGetAttribute(&sms, cudaDevAttrMultiProcessorCount, dev);
-  }
-
-  int max_shared_mem = 0;
-  cudaDeviceGetAttribute(&max_shared_mem,
-                         cudaDevAttrMaxSharedMemoryPerBlockOptin, dev);
-  TORCH_CHECK(max_shared_mem > 0);
-
-  // Set thread config
-  exec_config_t exec_cfg;
-  if (thread_k != -1 && thread_n != -1) {
-    // User-defined config
-    exec_cfg =
-        exec_config_t{4, thread_config_t{thread_k, thread_n, default_threads}};
-  } else {
-    // Auto config
-    exec_cfg =
-        determine_thread_config(prob_m, prob_n, prob_k, num_bits, group_size,
-                                has_act_order, is_k_full, max_shared_mem);
-  }
-
-  TORCH_CHECK(exec_cfg.max_m_blocks > 0 &&
-                  is_valid_config(exec_cfg.tb_cfg, exec_cfg.max_m_blocks,
-                                  prob_m, prob_n, prob_k, num_bits, group_size,
-                                  has_act_order, is_k_full, max_shared_mem),
-              "Invalid thread config: max_m_blocks = ", exec_cfg.max_m_blocks,
-              ", thread_k = ", exec_cfg.tb_cfg.thread_k,
-              ", thread_n = ", exec_cfg.tb_cfg.thread_n,
-              ", num_threads = ", exec_cfg.tb_cfg.num_threads, " for MKN = [",
-              prob_m, ", ", prob_k, ", ", prob_n, "] and num_bits = ", num_bits,
-              ", group_size = ", group_size,
-              ", has_act_order = ", has_act_order, ", is_k_full = ", is_k_full,
-              ", max_shared_mem = ", max_shared_mem);
-
-  int num_threads = exec_cfg.tb_cfg.num_threads;
-  thread_k = exec_cfg.tb_cfg.thread_k;
-  thread_n = exec_cfg.tb_cfg.thread_n;
-
-  int thread_k_blocks = thread_k / 16;
-  int thread_n_blocks = thread_n / 16;
-
-  int blocks = sms;
-
-  TORCH_CHECK(prob_n % thread_n == 0, "prob_n = ", prob_n,
-              " is not divisible by thread_n = ", thread_n);
-  TORCH_CHECK(prob_k % thread_k == 0, "prob_k = ", prob_k,
-              " is not divisible by thread_k = ", thread_k);
-
   int group_blocks = 0;
   if (has_act_order) {
     if (is_k_full) {
@@ -2161,7 +467,6 @@ void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
       TORCH_CHECK(group_size == 0);
       group_blocks = 0;
     }
-
   } else {
     if (group_size == -1) {
       group_blocks = -1;
@@ -2172,6 +477,7 @@ void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
     }
   }
 
+  int num_bits = q_type.size_bits();
   const int4* A_ptr = (const int4*)A;
   const int4* B_ptr = (const int4*)B;
   int4* C_ptr = (int4*)C;
@@ -2186,106 +492,138 @@ void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
 
   if (has_act_order) {
     // Permute A columns
-    int block_rows = div_ceil(prob_m, blocks);
-    permute_cols_kernel<<<blocks, default_threads, 0, stream>>>(
+    int block_rows = div_ceil(prob_m, sms);
+    // avoid ">>>" being formatted to "> > >"
+    // clang-format off
+    permute_cols_kernel<<<sms, default_threads, 0, stream>>>(
         A_ptr, perm_ptr, a_tmp_ptr, prob_m, prob_k, lda, block_rows);
+    // clang-format on
     A_ptr = a_tmp_ptr;
     lda = prob_k;
-  }
 
-  // If we have a full K, then we can run the non-act-order version of Marlin
-  // (since the weight rows are reordered by increasing group ids, and by having
-  // a full K, we have full original groups)
-  if (is_k_full) {
-    has_act_order = false;
+    // If we have a full K, then we can run the non-act-order version of Marlin
+    // (since the weight rows are reordered by increasing group ids, and by
+    // having a full K, we have full original groups)
+    if (is_k_full) has_act_order = false;
   }
 
-  // Main loop
-  for (int i = 0; i < tot_m_blocks; i += exec_cfg.max_m_blocks) {
-    int thread_m_blocks = tot_m_blocks - i;
-    prob_m = tot_m - 16 * i;
-    int par = 1;
-    if (thread_m_blocks > exec_cfg.max_m_blocks) {
-      // Note that parallel > 1 currently only works for inputs without any
-      // padding
-      par = (16 * thread_m_blocks - pad) / (16 * exec_cfg.max_m_blocks);
-      if (par > max_par) par = max_par;
-      prob_m = (16 * exec_cfg.max_m_blocks) * par;
-      i += exec_cfg.max_m_blocks * (par - 1);
-      thread_m_blocks = exec_cfg.max_m_blocks;
+  int max_shared_mem = 0;
+  cudaDeviceGetAttribute(&max_shared_mem,
+                         cudaDevAttrMaxSharedMemoryPerBlockOptin, dev);
+  TORCH_CHECK(max_shared_mem > 0);
+
+  int max_par = 16;
+  if (prob_n <= 4096) max_par = 16 * 8;
+  int max_shared_mem_new = max_shared_mem;
+  int rest_m = prob_m;
+  int max_thread_m_blocks = 4;
+  while (rest_m) {
+    int par_count = rest_m / (max_thread_m_blocks * 16);
+    if (par_count > max_par) par_count = max_par;
+    int prob_m_split =
+        par_count > 0 ? (par_count * (max_thread_m_blocks * 16)) : rest_m;
+
+    int thread_k = thread_k_init;
+    int thread_n = thread_n_init;
+
+    int thread_m_blocks = min(div_ceil(prob_m_split, 16), max_thread_m_blocks);
+    int m_block_size_8 = prob_m_split <= 8;
+
+    // Set thread config
+    exec_config_t exec_cfg;
+    thread_config_t thread_tfg;
+    if (thread_k != -1 && thread_n != -1) {
+      thread_tfg = thread_config_t{thread_k, thread_n, default_threads};
+      exec_cfg = exec_config_t{1, thread_tfg};
+      TORCH_CHECK(prob_n % thread_n == 0, "prob_n = ", prob_n,
+                  " is not divisible by thread_n = ", thread_n);
+      TORCH_CHECK(prob_k % thread_k == 0, "prob_k = ", prob_k,
+                  " is not divisible by thread_k = ", thread_k);
+    } else {
+      // Auto config
+      exec_cfg = determine_exec_config<scalar_t>(
+          q_type, prob_m_split, prob_n, prob_k, thread_m_blocks, m_block_size_8,
+          num_bits, group_size, has_act_order, is_k_full, has_zp, is_zp_float,
+          max_shared_mem, sms);
+      thread_tfg = exec_cfg.tb_cfg;
+      if (thread_tfg.thread_k == -1 && max_thread_m_blocks > 1) {
+        max_thread_m_blocks--;
+        continue;
+      }
     }
 
-    // atomic add reduce have better performance only when m * n is small
-    bool part_use_atomic_add =
-        use_atomic_add && div_ceil(prob_m, 64) * prob_n <= 2048;
+    int num_threads = thread_tfg.num_threads;
+    thread_k = thread_tfg.thread_k;
+    thread_n = thread_tfg.thread_n;
+    int blocks = sms * exec_cfg.blocks_per_sm;
+    if (exec_cfg.blocks_per_sm > 1)
+      max_shared_mem_new = max_shared_mem / exec_cfg.blocks_per_sm - 1024;
 
-    if (false) {
-    }
-    GPTQ_CALL_IF(vllm::kU4B8, 16, 4, 256)
-    GPTQ_CALL_IF(vllm::kU4B8, 8, 8, 256)
-    GPTQ_CALL_IF(vllm::kU4B8, 8, 4, 128)
-    GPTQ_CALL_IF(vllm::kU4B8, 4, 8, 128)
-    GPTQ_CALL_IF(vllm::kU8B128, 16, 4, 256)
-    GPTQ_CALL_IF(vllm::kU8B128, 8, 8, 256)
-    GPTQ_CALL_IF(vllm::kU8B128, 8, 4, 128)
-    GPTQ_CALL_IF(vllm::kU8B128, 4, 8, 128)
-
-    AWQ_CALL_IF(vllm::kU4, 16, 4, 256)
-    AWQ_CALL_IF(vllm::kU4, 8, 8, 256)
-    AWQ_CALL_IF(vllm::kU4, 8, 4, 128)
-    AWQ_CALL_IF(vllm::kU4, 4, 8, 128)
-    AWQ_CALL_IF(vllm::kU8, 16, 4, 256)
-    AWQ_CALL_IF(vllm::kU8, 8, 8, 256)
-    AWQ_CALL_IF(vllm::kU8, 8, 4, 128)
-    AWQ_CALL_IF(vllm::kU8, 4, 8, 128)
-
-    HQQ_CALL_IF(vllm::kU4, 16, 4, 256)
-    HQQ_CALL_IF(vllm::kU4, 8, 8, 256)
-    HQQ_CALL_IF(vllm::kU4, 8, 4, 128)
-    HQQ_CALL_IF(vllm::kU4, 4, 8, 128)
-    else {
+    int thread_k_blocks = thread_k / 16;
+    int thread_n_blocks = thread_n / 16;
+
+    TORCH_CHECK(
+        is_valid_config(thread_tfg, thread_m_blocks, prob_m_split, prob_n,
+                        prob_k, num_bits, group_size, has_act_order, is_k_full,
+                        has_zp, is_zp_float, max_shared_mem_new),
+        "Invalid thread config: thread_m_blocks = ", thread_m_blocks,
+        ", thread_k = ", thread_tfg.thread_k,
+        ", thread_n = ", thread_tfg.thread_n,
+        ", num_threads = ", thread_tfg.num_threads, " for MKN = [", prob_m,
+        ", ", prob_k, ", ", prob_n, "] and num_bits = ", num_bits,
+        ", prob_m_split = ", prob_m_split, ", group_size = ", group_size,
+        ", has_act_order = ", has_act_order, ", is_k_full = ", is_k_full,
+        ", has_zp = ", has_zp, ", is_zp_float = ", is_zp_float,
+        ", max_shared_mem_new = ", max_shared_mem_new);
+
+    auto kernel = get_marlin_kernel<scalar_t>(
+        q_type, thread_m_blocks, thread_n_blocks, thread_k_blocks,
+        m_block_size_8, has_act_order, has_zp, group_blocks, num_threads,
+        is_zp_float);
+
+    if (kernel == MarlinDefault) {
       TORCH_CHECK(false, "Unsupported shapes: MNK = [", prob_m, ", ", prob_n,
                   ", ", prob_k, "]", ", has_act_order = ", has_act_order,
                   ", num_groups = ", num_groups, ", group_size = ", group_size,
+                  ", prob_m_split = ", prob_m_split,
                   ", thread_m_blocks = ", thread_m_blocks,
                   ", thread_n_blocks = ", thread_n_blocks,
                   ", thread_k_blocks = ", thread_k_blocks,
-                  ", num_bits = ", num_bits);
+                  ", num_threads = ", num_threads, ", num_bits = ", num_bits);
     }
 
-    A_ptr += 16 * thread_m_blocks * (lda / 8) * par;
-    C_ptr += 16 * thread_m_blocks * (prob_n / 8) * par;
+    cudaFuncSetAttribute(kernel, cudaFuncAttributeMaxDynamicSharedMemorySize,
+                         max_shared_mem_new);
+
+    bool part_use_atomic_add =
+        use_atomic_add && div_ceil(prob_m_split, 64) * prob_n <= 2048;
+
+    // avoid ">>>" being formatted to "> > >"
+    // clang-format off
+    kernel<<<blocks, num_threads, max_shared_mem_new, stream>>>(
+        A_ptr, B_ptr, C_ptr, C_tmp_ptr, s_ptr, zp_ptr, g_idx_ptr, num_groups,
+        prob_m_split, prob_n, prob_k, lda, locks, part_use_atomic_add,
+        use_fp32_reduce, max_shared_mem_new);
+    // clang-format on
+
+    A_ptr += prob_m_split * (lda / 8);
+    C_ptr += prob_m_split * (prob_n / 8);
+    rest_m -= prob_m_split;
   }
 }
 
 }  // namespace marlin
 
-torch::Tensor gptq_marlin_gemm(torch::Tensor& a, torch::Tensor& b_q_weight,
-                               torch::Tensor& b_scales, torch::Tensor& b_zeros,
-                               torch::Tensor& g_idx, torch::Tensor& perm,
-                               torch::Tensor& workspace,
-                               vllm::ScalarTypeId const& b_q_type_id,
-                               int64_t size_m, int64_t size_n, int64_t size_k,
-                               bool is_k_full, bool has_zp, bool use_atomic_add,
-                               bool use_fp32_reduce, bool is_zp_float) {
+torch::Tensor gptq_marlin_gemm(
+    torch::Tensor& a, std::optional<torch::Tensor> c_or_none,
+    torch::Tensor& b_q_weight, torch::Tensor& b_scales,
+    std::optional<torch::Tensor> const& b_zeros_or_none,
+    std::optional<torch::Tensor> const& g_idx_or_none,
+    std::optional<torch::Tensor> const& perm_or_none, torch::Tensor& workspace,
+    vllm::ScalarTypeId const& b_q_type_id, int64_t size_m, int64_t size_n,
+    int64_t size_k, bool is_k_full, bool use_atomic_add, bool use_fp32_reduce,
+    bool is_zp_float) {
   vllm::ScalarType const b_q_type = vllm::ScalarType::from_id(b_q_type_id);
-  if (has_zp) {
-    TORCH_CHECK(
-        b_q_type == vllm::kU4 || b_q_type == vllm::kU8,
-        "b_q_type must be u4 or u8 when has_zp = True. Got = ", b_q_type.str());
-  } else {
-    TORCH_CHECK(
-        b_q_type == vllm::kU4B8 || b_q_type == vllm::kU8B128,
-        "b_q_type must be uint4b8 or uint8b128 when has_zp = False. Got = ",
-        b_q_type.str());
-  }
-
-  if (has_zp && is_zp_float) {
-    TORCH_CHECK(a.scalar_type() == at::ScalarType::Half,
-                "Computation type must be float16 (half) when using float zero "
-                "points.");
-  }
-
   int pack_factor = 32 / b_q_type.size_bits();
 
   // Verify A
@@ -2295,15 +633,19 @@ torch::Tensor gptq_marlin_gemm(torch::Tensor& a, torch::Tensor& b_q_weight,
               ", size_k = ", size_k);
 
   // Verify B
-  TORCH_CHECK(size_k % marlin::tile_size == 0, "size_k = ", size_k,
-              " is not divisible by tile_size = ", marlin::tile_size);
-  TORCH_CHECK((size_k / marlin::tile_size) == b_q_weight.size(0),
+  TORCH_CHECK(
+      size_k % MARLIN_NAMESPACE_NAME::tile_size == 0, "size_k = ", size_k,
+      " is not divisible by tile_size = ", MARLIN_NAMESPACE_NAME::tile_size);
+  TORCH_CHECK((size_k / MARLIN_NAMESPACE_NAME::tile_size) == b_q_weight.size(0),
               "Shape mismatch: b_q_weight.size(0) = ", b_q_weight.size(0),
-              ", size_k = ", size_k, ", tile_size = ", marlin::tile_size);
-  TORCH_CHECK(b_q_weight.size(1) % marlin::tile_size == 0,
-              "b_q_weight.size(1) = ", b_q_weight.size(1),
-              " is not divisible by tile_size = ", marlin::tile_size);
-  int actual_size_n = (b_q_weight.size(1) / marlin::tile_size) * pack_factor;
+              ", size_k = ", size_k,
+              ", tile_size = ", MARLIN_NAMESPACE_NAME::tile_size);
+  TORCH_CHECK(
+      b_q_weight.size(1) % MARLIN_NAMESPACE_NAME::tile_size == 0,
+      "b_q_weight.size(1) = ", b_q_weight.size(1),
+      " is not divisible by tile_size = ", MARLIN_NAMESPACE_NAME::tile_size);
+  int actual_size_n =
+      (b_q_weight.size(1) / MARLIN_NAMESPACE_NAME::tile_size) * pack_factor;
   TORCH_CHECK(size_n == actual_size_n, "size_n = ", size_n,
               ", actual_size_n = ", actual_size_n);
 
@@ -2320,63 +662,47 @@ torch::Tensor gptq_marlin_gemm(torch::Tensor& a, torch::Tensor& b_q_weight,
   TORCH_CHECK(b_scales.device().is_cuda(), "b_scales is not on GPU");
   TORCH_CHECK(b_scales.is_contiguous(), "b_scales is not contiguous");
 
-  TORCH_CHECK(b_zeros.device().is_cuda(), "b_zeros is not on GPU");
-  TORCH_CHECK(b_zeros.is_contiguous(), "b_zeros is not contiguous");
-
-  TORCH_CHECK(g_idx.device().is_cuda(), "g_idx is not on GPU");
-  TORCH_CHECK(g_idx.is_contiguous(), "g_idx is not contiguous");
-
-  TORCH_CHECK(perm.device().is_cuda(), "perm is not on GPU");
-  TORCH_CHECK(perm.is_contiguous(), "perm is not contiguous");
+  // thread_k: `k` size of a thread_tile in `weights` (can usually be left as
+  // auto -1)
+  int thread_k = -1;
+  // thread_n: `n` size of a thread_tile in `weights` (can usually be left as
+  // auto -1)
+  int thread_n = -1;
+  // sms: number of SMs to use for the kernel
+  int sms = -1;
+  cudaDeviceGetAttribute(&sms, cudaDevAttrMultiProcessorCount, a.get_device());
 
   // Alloc buffers
   const at::cuda::OptionalCUDAGuard device_guard(device_of(a));
   auto options = torch::TensorOptions().dtype(a.dtype()).device(a.device());
   torch::Tensor c;
-  if (use_atomic_add) {
-    c = torch::zeros({size_m, size_n}, options);
+  if (c_or_none.has_value()) {
+    c = c_or_none.value();
+    TORCH_CHECK(c.device().is_cuda(), "c is not on GPU");
+    TORCH_CHECK(c.is_contiguous(), "c is not contiguous");
+    TORCH_CHECK(c.size(0) == size_m, "Shape mismatch: c.size(0) = ", c.size(0),
+                ", size_m = ", size_m);
+    TORCH_CHECK(c.size(1) == size_n, "Shape mismatch: c.size(1) = ", c.size(1),
+                ", size_n = ", size_n);
   } else {
     c = torch::empty({size_m, size_n}, options);
   }
-
-  torch::Tensor a_tmp;
-  bool has_act_order = g_idx.size(0) != 0;
-  if (has_act_order) {
-    a_tmp = torch::empty({size_m, size_k}, options);
-  } else {
-    a_tmp = torch::empty({0}, options);
-  }
+  if (size_m == 0) return c;
 
   // Alloc C tmp buffer that is going to be used for the global reduce
   torch::Tensor c_tmp;
-  int reduce_max_m = marlin::determine_reduce_max_m(size_m, marlin::max_par);
-  int reduce_n = size_n;
   auto options_fp32 =
       torch::TensorOptions().dtype(at::kFloat).device(a.device());
   if (use_fp32_reduce) {
-    c_tmp = torch::empty({reduce_max_m, reduce_n}, options_fp32);
+    int max_m_block_size = (size_m + 16 - 1) / 16 * 16;
+    max_m_block_size = min(max_m_block_size, 64);
+    int max_c_tmp_size =
+        sms * max_m_block_size * MARLIN_NAMESPACE_NAME::max_thread_n;
+    c_tmp = torch::empty({max_c_tmp_size}, options_fp32);
   } else {
-    reduce_max_m = 0;
-    reduce_n = 0;
     c_tmp = torch::empty({0}, options_fp32);
   }
 
-  // thread_k: `k` size of a thread_tile in `weights` (can usually be left as
-  // auto -1)
-  int thread_k = -1;
-  // thread_n: `n` size of a thread_tile in `weights` (can usually be left as
-  // auto -1)
-  int thread_n = -1;
-  // sms: number of SMs to use for the kernel (can usually be left as auto -1)
-  int sms = -1;
-
-  // Verify g_idx and perm
-  TORCH_CHECK((g_idx.size(0) == 0 && perm.size(0) == 0) ||
-                  (g_idx.size(0) == size_k && perm.size(0) == size_k),
-              "Unexpected g_idx.size(0) = ", g_idx.size(0),
-              " and perm.size(0) = ", perm.size(0),
-              ", where size_k = ", size_k);
-
   // Detect groupsize and act_order
   int num_groups = -1;
   int group_size = -1;
@@ -2387,7 +713,31 @@ torch::Tensor gptq_marlin_gemm(torch::Tensor& a, torch::Tensor& b_q_weight,
               " is not size_n = ", size_n);
   num_groups = b_scales.size(0);
 
+  torch::Tensor g_idx, perm, a_tmp;
+  if (g_idx_or_none.has_value() && perm_or_none.has_value()) {
+    g_idx = g_idx_or_none.value();
+    perm = perm_or_none.value();
+
+    TORCH_CHECK(g_idx.device().is_cuda(), "g_idx is not on GPU");
+    TORCH_CHECK(g_idx.is_contiguous(), "g_idx is not contiguous");
+    TORCH_CHECK(perm.device().is_cuda(), "perm is not on GPU");
+    TORCH_CHECK(perm.is_contiguous(), "perm is not contiguous");
+
+    // Verify g_idx and perm
+    TORCH_CHECK((g_idx.size(-1) == 0 && perm.size(-1) == 0) ||
+                    (g_idx.size(-1) == size_k && perm.size(-1) == size_k),
+                "Unexpected g_idx.size(-1) = ", g_idx.size(-1),
+                " and perm.size(-1) = ", perm.size(-1),
+                ", where size_k = ", size_k);
+  } else {
+    g_idx = torch::empty({0}, options);
+    perm = torch::empty({0}, options);
+    a_tmp = torch::empty({0}, options);
+  }
+  bool has_act_order = g_idx.size(-1) > 0 && perm.size(-1) > 0;
+
   if (has_act_order) {
+    a_tmp = torch::empty({size_m, size_k}, options);
     if (is_k_full) {
       TORCH_CHECK(num_groups > 1, "For act_order, num_groups must be > 1");
       TORCH_CHECK(size_k % num_groups == 0, "size_k = ", size_k,
@@ -2398,6 +748,7 @@ torch::Tensor gptq_marlin_gemm(torch::Tensor& a, torch::Tensor& b_q_weight,
     }
 
   } else {
+    a_tmp = torch::empty({0}, options);
     if (num_groups > 1) {
       TORCH_CHECK(
           size_k % num_groups == 0, "size_k = ", size_k,
@@ -2408,6 +759,33 @@ torch::Tensor gptq_marlin_gemm(torch::Tensor& a, torch::Tensor& b_q_weight,
     }
   }
 
+  torch::Tensor b_zeros;
+  if (b_zeros_or_none.has_value()) {
+    b_zeros = b_zeros_or_none.value();
+    TORCH_CHECK(b_zeros.device().is_cuda(), "b_zeros is not on GPU");
+    TORCH_CHECK(b_zeros.is_contiguous(), "b_zeros is not contiguous");
+  } else {
+    b_zeros = torch::empty({0}, options);
+  }
+  bool has_zp = b_zeros.size(-1) > 0;
+  if (has_zp) {
+    TORCH_CHECK(
+        b_q_type == vllm::kU4 || b_q_type == vllm::kU8,
+        "b_q_type must be u4 or u8 when has_zp = True. Got = ", b_q_type.str());
+  } else {
+    TORCH_CHECK(b_q_type == vllm::kU4B8 || b_q_type == vllm::kU8B128 ||
+                    b_q_type == vllm::kFE4M3fn,
+                "b_q_type must be uint4b8, uint8b128 or float8_e4m3fn when "
+                "has_zp = False. Got = ",
+                b_q_type.str());
+  }
+
+  if (has_zp && is_zp_float) {
+    TORCH_CHECK(a.scalar_type() == at::ScalarType::Half,
+                "Computation type must be float16 (half) when using float zero "
+                "points.");
+  }
+
   // Verify b_zeros
   if (has_zp) {
     int rank = b_zeros.sizes().size();
@@ -2431,9 +809,11 @@ torch::Tensor gptq_marlin_gemm(torch::Tensor& a, torch::Tensor& b_q_weight,
   }
 
   // Verify workspace size
-  TORCH_CHECK(size_n % marlin::min_thread_n == 0, "size_n = ", size_n,
-              ", is not divisible by min_thread_n = ", marlin::min_thread_n);
-  int min_workspace_size = (size_n / marlin::min_thread_n) * marlin::max_par;
+  TORCH_CHECK(size_n % MARLIN_NAMESPACE_NAME::min_thread_n == 0,
+              "size_n = ", size_n, ", is not divisible by min_thread_n = ",
+              MARLIN_NAMESPACE_NAME::min_thread_n);
+
+  int min_workspace_size = sms;
   TORCH_CHECK(workspace.numel() >= min_workspace_size,
               "workspace.numel = ", workspace.numel(),
               " is below min_workspace_size = ", min_workspace_size);
@@ -2447,8 +827,7 @@ torch::Tensor gptq_marlin_gemm(torch::Tensor& a, torch::Tensor& b_q_weight,
         a_tmp.data_ptr<at::Half>(), size_m, size_n, size_k, a.stride(0),
         workspace.data_ptr(), b_q_type, has_act_order, is_k_full, has_zp,
         num_groups, group_size, dev, at::cuda::getCurrentCUDAStream(dev),
-        thread_k, thread_n, sms, marlin::max_par, use_atomic_add,
-        use_fp32_reduce, is_zp_float);
+        thread_k, thread_n, sms, use_atomic_add, use_fp32_reduce, is_zp_float);
   } else if (a.scalar_type() == at::ScalarType::BFloat16) {
     marlin::marlin_mm<nv_bfloat16>(
         a.data_ptr<at::BFloat16>(), b_q_weight.data_ptr(),
@@ -2458,7 +837,7 @@ torch::Tensor gptq_marlin_gemm(torch::Tensor& a, torch::Tensor& b_q_weight,
         a.stride(0), workspace.data_ptr(), b_q_type, has_act_order, is_k_full,
         has_zp, num_groups, group_size, dev,
         at::cuda::getCurrentCUDAStream(dev), thread_k, thread_n, sms,
-        marlin::max_par, use_atomic_add, use_fp32_reduce, is_zp_float);
+        use_atomic_add, use_fp32_reduce, is_zp_float);
   } else {
     TORCH_CHECK(false, "gpt_marlin_gemm only supports bfloat16 and float16");
   }
diff --git a/csrc/quantization/gptq_marlin/kernel.h b/csrc/quantization/gptq_marlin/kernel.h
new file mode 100644
index 000000000..eb2700c95
--- /dev/null
+++ b/csrc/quantization/gptq_marlin/kernel.h
@@ -0,0 +1,37 @@
+
+#ifndef MARLIN_NAMESPACE_NAME
+  #define MARLIN_NAMESPACE_NAME marlin
+#endif
+
+#include "marlin.cuh"
+#include "marlin_dtypes.cuh"
+#include "core/scalar_type.hpp"
+
+#define MARLIN_KERNEL_PARAMS                                                 \
+  const int4 *__restrict__ A, const int4 *__restrict__ B,                    \
+      int4 *__restrict__ C, int4 *__restrict__ C_tmp,                        \
+      const int4 *__restrict__ scales_ptr, const int4 *__restrict__ zp_ptr,  \
+      const int *__restrict__ g_idx, int num_groups, int prob_m, int prob_n, \
+      int prob_k, int lda, int *locks, bool use_atomic_add,                  \
+      bool use_fp32_reduce, int max_shared_mem
+
+namespace MARLIN_NAMESPACE_NAME {
+template <typename scalar_t,  // compute dtype, half or nv_float16
+          const vllm::ScalarTypeId w_type_id,  // weight ScalarType id
+          const int threads,          // number of threads in a threadblock
+          const int thread_m_blocks,  // number of 16x16 blocks in the m
+                                      // dimension (batchsize) of the
+                                      // threadblock
+          const int thread_n_blocks,  // same for n dimension (output)
+          const int thread_k_blocks,  // same for k dimension (reduction)
+          const bool m_block_size_8,  // whether m_block_size == 8
+                                      // only works when thread_m_blocks == 1
+          const int stages,  // number of stages for the async global->shared
+                             // fetch pipeline
+          const int group_blocks,  // number of consecutive 16x16 blocks
+                                   // with a separate quantization scale
+          const bool is_zp_float   // is zero point of float16 type?
+          >
+__global__ void Marlin(MARLIN_KERNEL_PARAMS);
+
+}
diff --git a/csrc/quantization/gptq_marlin/marlin_template.h b/csrc/quantization/gptq_marlin/marlin_template.h
new file mode 100644
index 000000000..ca05b8a25
--- /dev/null
+++ b/csrc/quantization/gptq_marlin/marlin_template.h
@@ -0,0 +1,1678 @@
+/*
+ * Modified by Neural Magic
+ * Copyright (C) Marlin.2024 Elias Frantar
+ *
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ *         http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+/*
+ * Adapted from https://github.com/IST-DASLab/marlin
+ */
+
+#ifndef MARLIN_NAMESPACE_NAME
+  #define MARLIN_NAMESPACE_NAME marlin
+#endif
+
+#include "marlin.cuh"
+#include "marlin_dtypes.cuh"
+#include "dequant.h"
+#include "core/scalar_type.hpp"
+
+#define STATIC_ASSERT_SCALAR_TYPE_VALID(scalar_t)               \
+  static_assert(std::is_same<scalar_t, half>::value ||          \
+                    std::is_same<scalar_t, nv_bfloat16>::value, \
+                "only float16 and bfloat16 is supported");
+
+namespace MARLIN_NAMESPACE_NAME {
+
+#if defined(__CUDA_ARCH__) && __CUDA_ARCH__ < 800
+
+template <typename scalar_t,  // compute dtype, half or nv_float16
+          const vllm::ScalarTypeId w_type_id,  // weight ScalarType id
+          const int threads,          // number of threads in a threadblock
+          const int thread_m_blocks,  // number of 16x16 blocks in the m
+                                      // dimension (batchsize) of the
+                                      // threadblock
+          const int thread_n_blocks,  // same for n dimension (output)
+          const int thread_k_blocks,  // same for k dimension (reduction)
+          const bool m_block_size_8,  // whether m_block_size == 8
+                                      // only works when thread_m_blocks == 1
+          const int stages,  // number of stages for the async global->shared
+                             // fetch pipeline
+          const bool has_act_order,  // whether act_order is enabled
+          const int group_blocks,    // number of consecutive 16x16 blocks
+                                     // with a separate quantization scale
+          const bool is_zp_float     // is zero point of float16 type?
+          >
+__global__ void Marlin(
+    const int4* __restrict__ A,  // fp16 input matrix of shape mxk
+    const int4* __restrict__ B,  // 4bit quantized weight matrix of shape kxn
+    int4* __restrict__ C,        // fp16 output buffer of shape mxn
+    int4* __restrict__ C_tmp,    // fp32 tmp output buffer (for reduce)
+    const int4* __restrict__ scales_ptr,  // fp16 quantization scales of shape
+                                          // (k/groupsize)xn
+    const int* __restrict__ g_idx,        // int32 group indices of shape k
+    int num_groups,       // number of scale groups per output channel
+    int prob_m,           // batch dimension m
+    int prob_n,           // output dimension n
+    int prob_k,           // reduction dimension k
+    int* locks,           // extra global storage for barrier synchronization
+    bool use_fp32_reduce  // whether to use fp32 global reduce
+) {}
+
+}  // namespace marlin
+
+#else
+
+// m16n8k16 tensor core mma instruction with fp16 inputs and fp32
+// output/accumulation.
+template <typename scalar_t>
+__device__ inline void mma(const typename ScalarType<scalar_t>::FragA& a_frag,
+                           const typename ScalarType<scalar_t>::FragB& frag_b,
+                           typename ScalarType<scalar_t>::FragC& frag_c) {
+  const uint32_t* a = reinterpret_cast<const uint32_t*>(&a_frag);
+  const uint32_t* b = reinterpret_cast<const uint32_t*>(&frag_b);
+  float* c = reinterpret_cast<float*>(&frag_c);
+  if constexpr (std::is_same<scalar_t, half>::value) {
+    asm volatile(
+        "mma.sync.aligned.m16n8k16.row.col.f32.f16.f16.f32 "
+        "{%0,%1,%2,%3}, {%4,%5,%6,%7}, {%8,%9}, {%10,%11,%12,%13};\n"
+        : "=f"(c[0]), "=f"(c[1]), "=f"(c[2]), "=f"(c[3])
+        : "r"(a[0]), "r"(a[1]), "r"(a[2]), "r"(a[3]), "r"(b[0]), "r"(b[1]),
+          "f"(c[0]), "f"(c[1]), "f"(c[2]), "f"(c[3]));
+  } else if constexpr (std::is_same<scalar_t, nv_bfloat16>::value) {
+    asm volatile(
+        "mma.sync.aligned.m16n8k16.row.col.f32.bf16.bf16.f32 "
+        "{%0,%1,%2,%3}, {%4,%5,%6,%7}, {%8,%9}, {%10,%11,%12,%13};\n"
+        : "=f"(c[0]), "=f"(c[1]), "=f"(c[2]), "=f"(c[3])
+        : "r"(a[0]), "r"(a[1]), "r"(a[2]), "r"(a[3]), "r"(b[0]), "r"(b[1]),
+          "f"(c[0]), "f"(c[1]), "f"(c[2]), "f"(c[3]));
+  } else {
+    STATIC_ASSERT_SCALAR_TYPE_VALID(scalar_t);
+  }
+}
+
+template <typename scalar_t>
+__device__ inline void mma_trans(
+    const typename ScalarType<scalar_t>::FragA& a_frag,
+    const typename ScalarType<scalar_t>::FragB& frag_b,
+    const typename ScalarType<scalar_t>::FragB& frag_b2,
+    typename ScalarType<scalar_t>::FragC& frag_c) {
+  const uint32_t* a = reinterpret_cast<const uint32_t*>(&a_frag);
+  const uint32_t* b = reinterpret_cast<const uint32_t*>(&frag_b);
+  const uint32_t* b2 = reinterpret_cast<const uint32_t*>(&frag_b2);
+  float* c = reinterpret_cast<float*>(&frag_c);
+  if constexpr (std::is_same<scalar_t, half>::value) {
+    asm volatile(
+        "mma.sync.aligned.m16n8k16.row.col.f32.f16.f16.f32 "
+        "{%0,%1,%2,%3}, {%4,%5,%6,%7}, {%8,%9}, {%10,%11,%12,%13};\n"
+        : "=f"(c[0]), "=f"(c[1]), "=f"(c[2]), "=f"(c[3])
+        : "r"(b[0]), "r"(b2[0]), "r"(b[1]), "r"(b2[1]), "r"(a[0]), "r"(a[1]),
+          "f"(c[0]), "f"(c[1]), "f"(c[2]), "f"(c[3]));
+  } else if constexpr (std::is_same<scalar_t, nv_bfloat16>::value) {
+    asm volatile(
+        "mma.sync.aligned.m16n8k16.row.col.f32.bf16.bf16.f32 "
+        "{%0,%1,%2,%3}, {%4,%5,%6,%7}, {%8,%9}, {%10,%11,%12,%13};\n"
+        : "=f"(c[0]), "=f"(c[1]), "=f"(c[2]), "=f"(c[3])
+        : "r"(b[0]), "r"(b2[0]), "r"(b[1]), "r"(b2[1]), "r"(a[0]), "r"(a[1]),
+          "f"(c[0]), "f"(c[1]), "f"(c[2]), "f"(c[3]));
+  } else {
+    STATIC_ASSERT_SCALAR_TYPE_VALID(scalar_t);
+  }
+}
+
+// Instruction for loading a full 16x16 matrix fragment of operand A from shared
+// memory, directly in tensor core layout.
+template <int count, typename scalar_t>
+__device__ inline void ldsm(typename ScalarType<scalar_t>::FragA& frag_a,
+                            const void* smem_ptr) {
+  uint32_t* a = reinterpret_cast<uint32_t*>(&frag_a);
+  uint32_t smem = static_cast<uint32_t>(__cvta_generic_to_shared(smem_ptr));
+  if constexpr (count == 4) {
+    asm volatile(
+        "ldmatrix.sync.aligned.m8n8.x4.shared.b16 {%0,%1,%2,%3}, [%4];\n"
+        : "=r"(a[0]), "=r"(a[1]), "=r"(a[2]), "=r"(a[3])
+        : "r"(smem));
+  } else if constexpr (count == 2) {
+    asm volatile("ldmatrix.sync.aligned.m8n8.x2.shared.b16 {%0,%1}, [%2];\n"
+                 : "=r"(a[0]), "=r"(a[1])
+                 : "r"(smem));
+  } else if constexpr (count == 1) {
+    asm volatile("ldmatrix.sync.aligned.m8n8.x1.shared.b16 {%0}, [%1];\n"
+                 : "=r"(a[0])
+                 : "r"(smem));
+  } else {
+    static_assert(count == 1 || count == 2 || count == 4, "invalid count");
+  }
+}
+
+// Multiply dequantized values by the corresponding quantization scale; used
+// only for grouped quantization.
+template <typename scalar_t>
+__device__ inline void scale(typename ScalarType<scalar_t>::FragB& frag_b,
+                             typename ScalarType<scalar_t>::FragS& frag_s,
+                             int i) {
+  using scalar_t2 = typename ScalarType<scalar_t>::scalar_t2;
+  scalar_t2 s =
+      ScalarType<scalar_t>::num2num2(reinterpret_cast<scalar_t*>(&frag_s)[i]);
+  frag_b[0] = __hmul2(frag_b[0], s);
+  frag_b[1] = __hmul2(frag_b[1], s);
+}
+
+template <typename scalar_t>
+__device__ inline void scale_and_sub(
+    typename ScalarType<scalar_t>::FragB& frag_b, scalar_t s, scalar_t zp) {
+  using scalar_t2 = typename ScalarType<scalar_t>::scalar_t2;
+  scalar_t2 s2 = ScalarType<scalar_t>::num2num2(s);
+  scalar_t2 zp2 = ScalarType<scalar_t>::num2num2(zp);
+  frag_b[0] = __hfma2(frag_b[0], s2, __hneg2(zp2));
+  frag_b[1] = __hfma2(frag_b[1], s2, __hneg2(zp2));
+}
+
+template <typename scalar_t>
+__device__ inline void sub_zp(typename ScalarType<scalar_t>::FragB& frag_b,
+                              typename ScalarType<scalar_t>::scalar_t2& frag_zp,
+                              int i) {
+  using scalar_t2 = typename ScalarType<scalar_t>::scalar_t2;
+  scalar_t2 zp =
+      ScalarType<scalar_t>::num2num2(reinterpret_cast<scalar_t*>(&frag_zp)[i]);
+  frag_b[0] = __hsub2(frag_b[0], zp);
+  frag_b[1] = __hsub2(frag_b[1], zp);
+}
+
+// Same as above, but for act_order (each K is multiplied individually)
+template <typename scalar_t>
+__device__ inline void scale4(typename ScalarType<scalar_t>::FragB& frag_b,
+                              typename ScalarType<scalar_t>::FragS& frag_s_1,
+                              typename ScalarType<scalar_t>::FragS& frag_s_2,
+                              typename ScalarType<scalar_t>::FragS& frag_s_3,
+                              typename ScalarType<scalar_t>::FragS& frag_s_4,
+                              int i) {
+  using scalar_t2 = typename ScalarType<scalar_t>::scalar_t2;
+  scalar_t2 s_val_1_2;
+  s_val_1_2.x = reinterpret_cast<scalar_t*>(&frag_s_1)[i];
+  s_val_1_2.y = reinterpret_cast<scalar_t*>(&frag_s_2)[i];
+
+  scalar_t2 s_val_3_4;
+  s_val_3_4.x = reinterpret_cast<scalar_t*>(&frag_s_3)[i];
+  s_val_3_4.y = reinterpret_cast<scalar_t*>(&frag_s_4)[i];
+
+  frag_b[0] = __hmul2(frag_b[0], s_val_1_2);
+  frag_b[1] = __hmul2(frag_b[1], s_val_3_4);
+}
+
+// Given 2 floats multiply by 2 scales (halves)
+template <typename scalar_t>
+__device__ inline void scale_float(float* c,
+                                   typename ScalarType<scalar_t>::FragS& s) {
+  scalar_t* s_ptr = reinterpret_cast<scalar_t*>(&s);
+  c[0] = __fmul_rn(c[0], ScalarType<scalar_t>::num2float(s_ptr[0]));
+  c[1] = __fmul_rn(c[1], ScalarType<scalar_t>::num2float(s_ptr[1]));
+}
+
+// Wait until barrier reaches `count`, then lock for current threadblock.
+__device__ inline void barrier_acquire(int* lock, int count) {
+  if (threadIdx.x == 0) {
+    int state = -1;
+    do
+      // Guarantee that subsequent writes by this threadblock will be visible
+      // globally.
+      asm volatile("ld.global.acquire.gpu.b32 %0, [%1];\n"
+                   : "=r"(state)
+                   : "l"(lock));
+    while (state != count);
+  }
+  __syncthreads();
+}
+
+// Release barrier and increment visitation count.
+__device__ inline void barrier_release(int* lock, bool reset = false) {
+  __syncthreads();
+  if (threadIdx.x == 0) {
+    if (reset) {
+      lock[0] = 0;
+      return;
+    }
+    int val = 1;
+    // Make sure that all writes since acquiring this barrier are visible
+    // globally, while releasing the barrier.
+    asm volatile("fence.acq_rel.gpu;\n");
+    asm volatile("red.relaxed.gpu.global.add.s32 [%0], %1;\n"
+                 :
+                 : "l"(lock), "r"(val));
+  }
+}
+
+// Wait until value of lock to be negative, and then add 1
+__device__ inline void wait_negative_and_add(int* lock) {
+  if (threadIdx.x == 0) {
+    int state = 0;
+    do
+      // Guarantee that subsequent writes by this threadblock will be visible
+      // globally.
+      asm volatile("ld.global.acquire.gpu.b32 %0, [%1];\n"
+                   : "=r"(state)
+                   : "l"(lock));
+    while (state >= 0);
+    atomicAdd(lock, 1);
+  }
+  __syncthreads();
+}
+
+template <typename scalar_t,  // compute dtype, half or nv_float16
+          const vllm::ScalarTypeId w_type_id,  // weight ScalarType id
+          const int threads,          // number of threads in a threadblock
+          const int thread_m_blocks,  // number of 16x16 blocks in the m
+                                      // dimension (batchsize) of the
+                                      // threadblock
+          const int thread_n_blocks,  // same for n dimension (output)
+          const int thread_k_blocks,  // same for k dimension (reduction)
+          const bool m_block_size_8,  // whether m_block_size == 8
+                                      // only works when thread_m_blocks == 1
+          const int stages,  // number of stages for the async global->shared
+                             // fetch pipeline
+          const int group_blocks,  // number of consecutive 16x16 blocks
+                                   // with a separate quantization scale
+          const bool is_zp_float   // is zero point of float16 type?
+          >
+__global__ void Marlin(
+    const int4* __restrict__ A,  // fp16 input matrix of shape mxk
+    const int4* __restrict__ B,  // 4bit quantized weight matrix of shape kxn
+    int4* __restrict__ C,        // fp16 output buffer of shape mxn
+    int4* __restrict__ C_tmp,    // fp32 tmp output buffer (for reduce)
+    const int4* __restrict__ scales_ptr,  // fp16 quantization scales of shape
+                                          // (k/groupsize)xn
+    const int4* __restrict__ zp_ptr,      // 4bit packed zero-points of shape
+                                          // (k/groupsize)x(n/pack_factor)
+    const int* __restrict__ g_idx,        // int32 group indices of shape k
+    int num_groups,        // number of scale groups per output channel
+    int prob_m,            // batch dimension m
+    int prob_n,            // output dimension n
+    int prob_k,            // reduction dimension k
+    int lda,               // A.stride(0), equal to prob_k is A is contiguous
+    int* locks,            // extra global storage for barrier synchronization
+    bool use_atomic_add,   // whether to use atomic add to reduce
+    bool use_fp32_reduce,  // whether to use fp32 global reduce
+    int max_shared_mem) {
+  // Each threadblock processes one "stripe" of the B matrix with (roughly) the
+  // same size, which might involve multiple column "slices" (of width 16 *
+  // `thread_n_blocks`). Stripes are defined as shown in the 3x3 matrix 5 SM
+  // example:
+  //   0 1 3
+  //   0 2 3
+  //   1 2 4
+  // While this kind of partitioning makes things somewhat more complicated, it
+  // ensures good utilization of all SMs for many kinds of shape and GPU
+  // configurations, while requiring as few slow global cross-threadblock
+  // reductions as possible.
+  using Dtype = ScalarType<scalar_t>;
+  using scalar_t2 = typename ScalarType<scalar_t>::scalar_t2;
+  using FragA = typename ScalarType<scalar_t>::FragA;
+  using FragB = typename ScalarType<scalar_t>::FragB;
+  using FragC = typename ScalarType<scalar_t>::FragC;
+  using FragS = typename ScalarType<scalar_t>::FragS;
+  using FragZP = typename ScalarType<scalar_t>::FragZP;
+
+  static constexpr auto w_type = vllm::ScalarType::from_id(w_type_id);
+  constexpr bool has_zp = w_type == vllm::kU4 || w_type == vllm::kU8;
+  constexpr bool has_act_order = group_blocks == 0;
+  constexpr int m_block_size = m_block_size_8 ? 8 : (16 * thread_m_blocks);
+
+  constexpr int pack_factor = 32 / w_type.size_bits();
+  static_assert(thread_m_blocks == 1 || !m_block_size_8);
+
+  // For larger GEMMs we run multiple batchsize 64 versions in parallel for a
+  // better partitioning with less reductions
+  int parallel = 1;
+  if (prob_m > m_block_size) {
+    parallel = prob_m / m_block_size;
+    prob_m = m_block_size;
+  }
+
+  int k_tiles = prob_k / 16 / thread_k_blocks;
+  int n_tiles = prob_n / 16 / thread_n_blocks;
+  int iters = div_ceil(k_tiles * n_tiles * parallel, gridDim.x);
+
+  if constexpr (!has_act_order && group_blocks != -1) {
+    if (group_blocks >= thread_k_blocks) {
+      // Ensure that the number of tiles in each stripe is a multiple of the
+      // groupsize; this avoids an annoying special case where a stripe starts
+      // in the middle of group.
+      iters = (group_blocks / thread_k_blocks) *
+              div_ceil(iters, (group_blocks / thread_k_blocks));
+    }
+  }
+
+  int slice_row = (iters * blockIdx.x) % k_tiles;
+  int slice_col_par = (iters * blockIdx.x) / k_tiles;
+  int slice_col = slice_col_par;
+  int slice_iters;  // number of threadblock tiles in the current slice
+  int slice_count =
+      0;          // total number of active threadblocks in the current slice
+  int slice_idx;  // index of threadblock in current slice; numbered bottom to
+                  // top
+
+  int par_id = 0;
+  int locks_off = 0;
+
+  // We can easily implement parallel problem execution by just remapping
+  // indices and advancing global pointers
+  if (slice_col_par >= n_tiles) {
+    A += (slice_col_par / n_tiles) * 16 * thread_m_blocks * lda / 8;
+    C += (slice_col_par / n_tiles) * 16 * thread_m_blocks * prob_n / 8;
+    slice_col = slice_col_par % n_tiles;
+    par_id = slice_col_par / n_tiles;
+  }
+  if (parallel * n_tiles >= gridDim.x) {
+    // when parallel * n_tiles >= sms
+    // then there are at most $sms$ conflict tile blocks
+    locks_off = blockIdx.x;
+  } else {
+    locks_off = (iters * blockIdx.x) / k_tiles - 1;
+  }
+
+  // Compute all information about the current slice which is required for
+  // synchronization.
+  auto init_slice = [&](bool first_init = false) {
+    slice_iters =
+        iters * (blockIdx.x + 1) - (k_tiles * slice_col_par + slice_row);
+    if (slice_iters < 0 || slice_col_par >= n_tiles * parallel) slice_iters = 0;
+    if (slice_iters == 0) return;
+    if (slice_row + slice_iters > k_tiles) slice_iters = k_tiles - slice_row;
+    slice_count = 1;
+    slice_idx = 0;
+    int col_first = iters * div_ceil(k_tiles * slice_col_par, iters);
+    if (col_first <= k_tiles * (slice_col_par + 1)) {
+      int col_off = col_first - k_tiles * slice_col_par;
+      slice_count = div_ceil(k_tiles - col_off, iters);
+      if (col_off > 0) slice_count++;
+      int delta_first = iters * blockIdx.x - col_first;
+      if (delta_first < 0 || (col_off == 0 && delta_first == 0))
+        slice_idx = slice_count - 1;
+      else {
+        slice_idx = slice_count - 1 - delta_first / iters;
+        if (col_off > 0) slice_idx--;
+      }
+    }
+    if (parallel * n_tiles >= gridDim.x) {
+      if (slice_count > 1 && slice_idx == slice_count - 1) {
+        locks_off++;
+      }
+    } else {
+      locks_off++;
+    }
+
+    if (first_init && use_atomic_add && slice_count > 1 && slice_idx == 0) {
+      constexpr int threads_per_m = 16 * thread_n_blocks / 8;
+      int m_per_thread =
+          div_ceil(thread_m_blocks * 16, threads / threads_per_m);
+      if (m_block_size_8) m_per_thread = div_ceil(8, threads / threads_per_m);
+      for (int i = 0; i < m_per_thread; i++) {
+        int row = threads / threads_per_m * i + threadIdx.x / threads_per_m;
+        if (row < prob_m) {
+          int col = slice_col * 16 * thread_n_blocks / 8 +
+                    threadIdx.x % threads_per_m;
+          C[row * prob_n / 8 + col] = {0, 0, 0, 0};
+        }
+      }
+      // After write zero to output, write a negative value to lock.
+      // Every SM that processes the same slice would wait for
+      // the negative value, and then atomicAdd 1 to it.
+      // After all SMs are processed, the lock value would back to 0 again.
+      __syncthreads();
+      if (threadIdx.x == 0) locks[locks_off] = 1 - slice_count;
+    }
+
+    if (slice_col == n_tiles) {
+      A += 16 * thread_m_blocks * lda / 8;
+      C += 16 * thread_m_blocks * prob_n / 8;
+      slice_col = 0;
+      par_id++;
+    }
+  };
+  init_slice(true);
+
+  // A sizes/strides
+
+  // stride of the A matrix in global memory
+  int a_gl_stride = lda / 8;
+  // stride of an A matrix tile in shared memory
+  constexpr int a_sh_stride = 16 * thread_k_blocks / 8;
+  // delta between subsequent A tiles in global memory
+  constexpr int a_gl_rd_delta_o = 16 * thread_k_blocks / 8;
+  // between subsequent accesses within a tile
+  int a_gl_rd_delta_i = a_gl_stride * (threads / a_gl_rd_delta_o);
+  // between shared memory writes
+  constexpr int a_sh_wr_delta = a_sh_stride * (threads / a_gl_rd_delta_o);
+  // between shared memory tile reads
+  constexpr int a_sh_rd_delta_o = 2 * ((threads / 32) / (thread_n_blocks / 4));
+  // within a shared memory tile
+  constexpr int a_sh_rd_delta_i = a_sh_stride * 16;
+  // overall size of a tile
+  constexpr int a_sh_stage = a_sh_stride * m_block_size;
+  // number of shared write iterations for a tile
+  constexpr int a_sh_wr_iters = div_ceil(a_sh_stage, a_sh_wr_delta);
+
+  // B sizes/strides
+  int b_gl_stride = 16 * prob_n / (pack_factor * 4);
+  constexpr int b_sh_stride = ((thread_n_blocks * 16) * 16 / pack_factor) / 4;
+  constexpr int b_thread_vecs = w_type.size_bits() == 4 ? 1 : 2;
+  constexpr int b_sh_stride_threads = b_sh_stride / b_thread_vecs;
+
+  int b_gl_rd_delta_o = b_gl_stride * thread_k_blocks;
+  int b_gl_rd_delta_i = b_gl_stride * (threads / b_sh_stride_threads);
+  constexpr int b_sh_wr_delta = threads * b_thread_vecs;
+  constexpr int b_sh_rd_delta = threads * b_thread_vecs;
+  constexpr int b_sh_stage = b_sh_stride * thread_k_blocks;
+  constexpr int b_sh_wr_iters = b_sh_stage / b_sh_wr_delta;
+
+  // Scale sizes/strides without act_order
+  int s_gl_stride = prob_n / 8;
+  constexpr int s_sh_stride = 16 * thread_n_blocks / 8;
+  constexpr int s_tb_groups =
+      !has_act_order && group_blocks != -1 && group_blocks < thread_k_blocks
+          ? thread_k_blocks / group_blocks
+          : 1;
+  constexpr int s_sh_stage = s_tb_groups * s_sh_stride;
+  int s_gl_rd_delta = s_gl_stride;
+
+  // Scale size/strides with act_order
+  constexpr int tb_k = 16 * thread_k_blocks;
+  constexpr int g_idx_stage = has_act_order ? (tb_k * sizeof(int)) / 16 : 0;
+  // constexpr int act_s_row_stride      = 1;
+  // int           act_s_col_stride      = act_s_row_stride * num_groups;
+  constexpr int act_s_max_num_groups = 32;
+  int act_s_col_stride = 1;
+  int act_s_col_warp_stride = act_s_col_stride * 8;
+
+  int tb_n_warps = thread_n_blocks / 4;
+  int act_s_col_tb_stride = act_s_col_warp_stride * tb_n_warps;
+
+  // Zero-points sizes/strides
+  int zp_gl_stride = is_zp_float ? prob_n / 8 : (prob_n / pack_factor) / 4;
+  constexpr int zp_sh_stride = is_zp_float
+                                   ? 16 * thread_n_blocks / 8
+                                   : ((16 * thread_n_blocks) / pack_factor) / 4;
+  constexpr int zp_tb_groups = s_tb_groups;
+  constexpr int zp_sh_stage = has_zp ? zp_tb_groups * zp_sh_stride : 0;
+  int zp_gl_rd_delta = zp_gl_stride;
+
+  // Global A read index of current thread.
+  int a_gl_rd = a_gl_stride * (threadIdx.x / a_gl_rd_delta_o) +
+                (threadIdx.x % a_gl_rd_delta_o);
+  a_gl_rd += a_gl_rd_delta_o * slice_row;
+  // Shared write index of current thread.
+  int a_sh_wr = a_sh_stride * (threadIdx.x / a_gl_rd_delta_o) +
+                (threadIdx.x % a_gl_rd_delta_o);
+  // Shared read index.
+  int a_sh_rd =
+      a_sh_stride * ((threadIdx.x % 32) % (16 / (m_block_size_8 ? 2 : 1))) +
+      (threadIdx.x % 32) / (16 / (m_block_size_8 ? 2 : 1));
+  a_sh_rd += 2 * ((threadIdx.x / 32) / (thread_n_blocks / 4));
+
+  int b_gl_rd = b_gl_stride * (threadIdx.x / b_sh_stride_threads) +
+                (threadIdx.x % b_sh_stride_threads) * b_thread_vecs;
+  b_gl_rd += b_sh_stride * slice_col;
+  b_gl_rd += b_gl_rd_delta_o * slice_row;
+  auto b_sh_wr = threadIdx.x * b_thread_vecs;
+  auto b_sh_rd = threadIdx.x * b_thread_vecs;
+
+  // For act_order
+  constexpr int k_iter_size = tb_k / b_sh_wr_iters;
+  int slice_k_start = tb_k * slice_row;
+  int slice_k_finish = slice_k_start + tb_k * slice_iters;
+  int slice_k_start_shared_fetch = slice_k_start;
+  int slice_n_offset = act_s_col_tb_stride * slice_col;
+
+  // No act_order
+  int s_gl_rd;
+  if constexpr (!has_act_order) {
+    if constexpr (group_blocks == -1) {
+      s_gl_rd = s_sh_stride * slice_col + threadIdx.x;
+    } else {
+      s_gl_rd = s_gl_stride * ((thread_k_blocks * slice_row) / group_blocks) +
+                s_sh_stride * slice_col + threadIdx.x;
+    }
+  }
+  auto s_sh_wr = threadIdx.x;
+  bool s_sh_wr_pred = threadIdx.x < s_sh_stride;
+
+  // Zero-points
+  int zp_gl_rd;
+  if constexpr (has_zp) {
+    if constexpr (group_blocks == -1) {
+      zp_gl_rd = zp_sh_stride * slice_col + threadIdx.x;
+    } else {
+      zp_gl_rd = zp_gl_stride * ((thread_k_blocks * slice_row) / group_blocks) +
+                 zp_sh_stride * slice_col + threadIdx.x;
+    }
+  }
+  auto zp_sh_wr = threadIdx.x;
+  bool zp_sh_wr_pred = threadIdx.x < zp_sh_stride;
+
+  // We use a different scale layout for grouped and column-wise quantization as
+  // we scale a `half2` tile in column-major layout in the former and in
+  // row-major in the latter case.
+  int s_sh_rd;
+  if constexpr (group_blocks != -1)
+    s_sh_rd = 8 * ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
+              (threadIdx.x % 32) / 4;
+  else if constexpr (group_blocks == -1 && (m_block_size_8 || has_zp))
+    s_sh_rd = 8 * ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
+              (threadIdx.x % 32) / 8;
+  else
+    s_sh_rd = 8 * ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
+              (threadIdx.x % 32) % 4;
+
+  // Zero-points have the same read layout as the scales
+  // (without column-wise case)
+  constexpr int num_col_threads = 8;
+  constexpr int num_row_threads = 4;
+  constexpr int num_ints_per_thread = 8 / pack_factor;
+  int zp_sh_rd;
+  if constexpr (has_zp) {
+    if constexpr (is_zp_float) {
+      if constexpr (group_blocks != -1) {
+        zp_sh_rd = 8 * ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
+                   (threadIdx.x % 32) / 4;
+      }
+    } else {
+      zp_sh_rd = num_ints_per_thread * num_col_threads *
+                     ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
+                 num_ints_per_thread * ((threadIdx.x % 32) / num_row_threads);
+    }
+  }
+
+  // Precompute which thread should not read memory in which iterations; this is
+  // needed if there are more threads than required for a certain tilesize or
+  // when the batchsize is not a multiple of 16.
+  bool a_sh_wr_pred[a_sh_wr_iters];
+  #pragma unroll
+  for (int i = 0; i < a_sh_wr_iters; i++)
+    a_sh_wr_pred[i] = a_sh_wr_delta * i + a_sh_wr < a_sh_stride * prob_m;
+
+  // To ensure that writing and reading A tiles to/from shared memory, the
+  // latter in fragment format, is fully bank conflict free, we need to use a
+  // rather fancy XOR-based layout. The key here is that neither reads nor
+  // writes of the 16-byte `int4` blocks of 8 consecutive threads involve the
+  // same shared memory banks. Further, it seems (based on NSight-Compute) that
+  // each warp must also write a consecutive memory segment?
+  auto transform_a = [&](int i) {
+    int row = i / a_gl_rd_delta_o;
+    return a_gl_rd_delta_o * row + (i % a_gl_rd_delta_o) ^ (row % 8);
+  };
+  // Since the computation of this remapping is non-trivial and, due to our main
+  // loop unrolls, all shared memory accesses are static, we simply precompute
+  // both transformed reads and writes.
+  int a_sh_wr_trans[a_sh_wr_iters];
+  #pragma unroll
+  for (int i = 0; i < a_sh_wr_iters; i++)
+    a_sh_wr_trans[i] = transform_a(a_sh_wr_delta * i + a_sh_wr);
+  int a_sh_rd_trans[b_sh_wr_iters][thread_m_blocks];
+  #pragma unroll
+  for (int i = 0; i < b_sh_wr_iters; i++) {
+  #pragma unroll
+    for (int j = 0; j < thread_m_blocks; j++)
+      a_sh_rd_trans[i][j] =
+          transform_a(a_sh_rd_delta_o * i + a_sh_rd_delta_i * j + a_sh_rd);
+  }
+
+  // Since B-accesses have non-constant stride they have to be computed at
+  // runtime; we break dependencies between subsequent accesses with a tile by
+  // maintining multiple pointers (we have enough registers), a tiny
+  // optimization.
+  const int4* B_ptr[b_sh_wr_iters];
+  #pragma unroll
+  for (int i = 0; i < b_sh_wr_iters; i++)
+    B_ptr[i] = B + b_gl_rd_delta_i * i + b_gl_rd;
+
+  extern __shared__ int4 sh[];
+  // Shared memory storage for global fetch pipelines.
+  constexpr int sh_red_size = (2 * thread_n_blocks + 1) * 16 * thread_m_blocks;
+  constexpr int sh_b_size = stages * b_sh_stage;
+  int4* sh_b = sh;
+  int4* sh_red = sh;
+  int4* sh_g_idx = sh_b + (sh_red_size > sh_b_size ? sh_red_size : sh_b_size);
+  int4* sh_zp = sh_g_idx + (stages * g_idx_stage);
+  constexpr int sh_s_size = has_act_order ? (act_s_max_num_groups * s_sh_stride)
+                                          : (stages * s_sh_stage);
+  int4* sh_s = sh_zp + (stages * zp_sh_stage);
+  // shared memory reused by reduction should be smaller than
+  // shared memory used by weight.
+  static_assert(thread_m_blocks * 16 * thread_n_blocks * 16 / 8 <=
+                stages * b_sh_stage);
+  int4* sh_a = sh_s + sh_s_size;
+  // constexpr int shm_size_used =
+  //     stages * (g_idx_stage + zp_sh_stage) + sh_s_size +
+  //     (sh_red_size > sh_b_size ? sh_red_size : sh_b_size);
+
+  // Register storage for double buffer of shared memory reads.
+  FragA frag_a[2][thread_m_blocks];
+  I4 frag_b_quant[2][b_thread_vecs];
+  FragC frag_c[thread_m_blocks][4][2];
+  FragS frag_s[2][4];                    // No act-order
+  FragS act_frag_s[2][4][4];             // For act-order
+  int frag_qzp[2][num_ints_per_thread];  // Zero-points
+  FragZP frag_zp;                        // Zero-points in fp16
+  FragZP frag_zpf[2];                    // Zero-points in fp16 in HQQ
+
+  // Zero accumulators.
+  auto zero_accums = [&]() {
+  #pragma unroll
+    for (int i = 0; i < thread_m_blocks * 4 * 2 * 4; i++)
+      reinterpret_cast<float*>(frag_c)[i] = 0;
+  };
+
+  int sh_first_group_id = -1;
+  int sh_num_groups = -1;
+
+  auto fetch_act_order_scales_to_shared = [&](bool is_async, int first_group_id,
+                                              int last_group_id) {
+    sh_first_group_id = first_group_id;
+    sh_num_groups = last_group_id - first_group_id + 1;
+
+    if (sh_num_groups < act_s_max_num_groups) {
+      sh_num_groups = act_s_max_num_groups;
+    }
+
+    if (sh_first_group_id + sh_num_groups > num_groups) {
+      sh_num_groups = num_groups - sh_first_group_id;
+    }
+
+    int row_offset = first_group_id * s_gl_stride;
+
+    if (is_async) {
+      for (int i = 0; i < sh_num_groups; i++) {
+        if (threadIdx.x < s_sh_stride) {
+          cp_async4_pred(&sh_s[(i * s_sh_stride) + threadIdx.x],
+                         &scales_ptr[row_offset + (i * s_gl_stride) +
+                                     slice_n_offset + threadIdx.x]);
+        }
+      }
+    } else {
+      for (int i = 0; i < sh_num_groups; i++) {
+        if (threadIdx.x < s_sh_stride) {
+          sh_s[(i * s_sh_stride) + threadIdx.x] =
+              scales_ptr[row_offset + (i * s_gl_stride) + slice_n_offset +
+                         threadIdx.x];
+        }
+      }
+    }
+  };
+  // Asynchronously fetch the next A, B and s tile from global to the next
+  // shared memory pipeline location.
+  auto fetch_to_shared = [&](int pipe, int a_off, bool pred = true) {
+    if (pred) {
+      int4* sh_a_stage = sh_a + a_sh_stage * pipe;
+  #pragma unroll
+      for (int i = 0; i < a_sh_wr_iters; i++) {
+        cp_async4_pred(
+            &sh_a_stage[a_sh_wr_trans[i]],
+            &A[a_gl_rd_delta_i * i + a_gl_rd + a_gl_rd_delta_o * a_off],
+            a_sh_wr_pred[i]);
+      }
+      int4* sh_b_stage = sh_b + b_sh_stage * pipe;
+  #pragma unroll
+      for (int i = 0; i < b_sh_wr_iters; i++) {
+  #pragma unroll
+        for (int j = 0; j < b_thread_vecs; j++) {
+          cp_async4(&sh_b_stage[b_sh_wr_delta * i + b_sh_wr + j], B_ptr[i] + j);
+        }
+
+        B_ptr[i] += b_gl_rd_delta_o;
+      }
+
+      if constexpr (has_act_order) {
+        // Fetch g_idx thread-block portion
+        int full_pipe = a_off;
+        int cur_k = slice_k_start_shared_fetch + tb_k * full_pipe;
+        if (cur_k < prob_k && cur_k < slice_k_finish) {
+          int4* sh_g_idx_stage = sh_g_idx + g_idx_stage * pipe;
+
+          int4 const* cur_g_idx_stage_ptr =
+              reinterpret_cast<int4 const*>(&g_idx[cur_k]);
+
+          if (threadIdx.x < g_idx_stage) {
+            cp_async4_pred(&sh_g_idx_stage[threadIdx.x],
+                           &cur_g_idx_stage_ptr[threadIdx.x]);
+          }
+        }
+      } else {
+        if constexpr (group_blocks != -1) {
+          int4* sh_s_stage = sh_s + s_sh_stage * pipe;
+
+          if constexpr (group_blocks >= thread_k_blocks) {
+            // Only fetch scales if this tile starts a new group
+            if (pipe % (group_blocks / thread_k_blocks) == 0) {
+              if (s_sh_wr_pred) {
+                cp_async4(&sh_s_stage[s_sh_wr], &scales_ptr[s_gl_rd]);
+              }
+              s_gl_rd += s_gl_rd_delta;
+            }
+          } else {
+            for (int i = 0; i < s_tb_groups; i++) {
+              if (s_sh_wr_pred) {
+                cp_async4(&sh_s_stage[i * s_sh_stride + s_sh_wr],
+                          &scales_ptr[s_gl_rd]);
+              }
+              s_gl_rd += s_gl_rd_delta;
+            }
+          }
+        }
+
+        if constexpr (has_zp && group_blocks != -1) {
+          int4* sh_zp_stage = sh_zp + zp_sh_stage * pipe;
+
+          if constexpr (group_blocks >= thread_k_blocks) {
+            // Only fetch zero-points if this tile starts a new group
+            if (pipe % (group_blocks / thread_k_blocks) == 0) {
+              if (zp_sh_wr_pred) {
+                cp_async4(&sh_zp_stage[zp_sh_wr], &zp_ptr[zp_gl_rd]);
+              }
+              zp_gl_rd += zp_gl_rd_delta;
+            }
+          } else {
+            for (int i = 0; i < zp_tb_groups; i++) {
+              if (zp_sh_wr_pred) {
+                cp_async4(&sh_zp_stage[i * zp_sh_stride + zp_sh_wr],
+                          &zp_ptr[zp_gl_rd]);
+              }
+              zp_gl_rd += zp_gl_rd_delta;
+            }
+          }
+        }
+      }
+    }
+    // Insert a fence even when we are winding down the pipeline to ensure that
+    // waiting is also correct at this point.
+    cp_async_fence();
+  };
+
+  auto fetch_col_zp_to_shared = [&]() {
+    if (zp_sh_wr_pred) {
+      cp_async4(&sh_zp[zp_sh_wr], &zp_ptr[zp_gl_rd]);
+    }
+  };
+
+  auto fetch_col_scale_to_shared = [&]() {
+    if (s_sh_wr_pred) {
+      cp_async4(&sh_s[s_sh_wr], &scales_ptr[s_gl_rd]);
+    }
+  };
+
+  // Wait until the next thread tile has been loaded to shared memory.
+  auto wait_for_stage = [&]() {
+    // We only have `stages - 2` active fetches since we are double buffering
+    // and can only issue the next fetch when it is guaranteed that the previous
+    // shared memory load is fully complete (as it may otherwise be
+    // overwritten).
+    cp_async_wait<stages - 2>();
+    __syncthreads();
+  };
+
+  // Load the next sub-tile from the current location in the shared memory pipe
+  // into the current register buffer.
+  auto fetch_to_registers = [&](int k, int pipe) {
+    int4* sh_a_stage = sh_a + a_sh_stage * pipe;
+  #pragma unroll
+    for (int i = 0; i < thread_m_blocks; i++)
+      ldsm<m_block_size_8 ? 2 : 4, scalar_t>(
+          frag_a[k % 2][i], &sh_a_stage[a_sh_rd_trans[k % b_sh_wr_iters][i]]);
+    int4* sh_b_stage = sh_b + b_sh_stage * pipe;
+
+  #pragma unroll
+    for (int i = 0; i < b_thread_vecs; i++) {
+      frag_b_quant[k % 2][i] = *reinterpret_cast<I4*>(
+          &sh_b_stage[b_sh_rd_delta * (k % b_sh_wr_iters) + b_sh_rd + i]);
+    }
+  };
+
+  bool is_same_group[stages];
+  int same_group_id[stages];
+
+  auto init_same_group = [&](int pipe) {
+    if constexpr (!has_act_order) {
+      return;
+    }
+
+    int4* sh_g_idx_stage = sh_g_idx + g_idx_stage * pipe;
+    int* sh_g_idx_int_ptr = reinterpret_cast<int*>(sh_g_idx_stage);
+
+    int group_id_1 = sh_g_idx_int_ptr[0];
+    int group_id_2 = sh_g_idx_int_ptr[tb_k - 1];
+
+    is_same_group[pipe] = group_id_1 == group_id_2;
+    same_group_id[pipe] = group_id_1;
+  };
+
+  auto fetch_scales_to_registers = [&](int k, int full_pipe) {
+    int pipe = full_pipe % stages;
+
+    if constexpr (!has_act_order) {
+      // No act-order case
+      if constexpr (group_blocks == -1) {
+        // load only when starting a new slice
+        if (k == 0 && full_pipe == 0) {
+          reinterpret_cast<int4*>(&frag_s)[0] = sh_s[s_sh_rd];
+          reinterpret_cast<int4*>(&frag_s)[1] = sh_s[s_sh_rd + 4];
+        }
+      } else if constexpr (group_blocks != -1) {
+        if constexpr (group_blocks >= thread_k_blocks) {
+          if (k % b_sh_wr_iters == 0) {
+            int4* sh_s_stage =
+                sh_s + s_sh_stage * ((group_blocks / thread_k_blocks) *
+                                     (pipe / (group_blocks / thread_k_blocks)));
+            reinterpret_cast<int4*>(&frag_s[k % 2])[0] = sh_s_stage[s_sh_rd];
+          } else {
+            reinterpret_cast<int4*>(&frag_s[1])[0] =
+                reinterpret_cast<int4*>(&frag_s[0])[0];
+          }
+        } else {
+          auto warp_id = threadIdx.x / 32;
+          int n_warps = thread_n_blocks / 4;
+
+          int warp_row = warp_id / n_warps;
+
+          int cur_k = warp_row * 16;
+          cur_k += k_iter_size * (k % b_sh_wr_iters);
+
+          int k_blocks = cur_k / 16;
+          int cur_group_id = k_blocks / group_blocks;
+
+          int4* sh_s_stage = sh_s + s_sh_stage * pipe;
+
+          reinterpret_cast<int4*>(&frag_s[k % 2])[0] =
+              sh_s_stage[s_sh_rd + cur_group_id * s_sh_stride];
+        }
+      }
+
+      return;
+    }
+
+    // Act-order case
+
+    // Determine K of the "current" thread-block
+    int cur_k = slice_k_start + tb_k * full_pipe;
+    if (cur_k >= prob_k || cur_k >= slice_k_finish) {
+      return;
+    }
+
+    // Reset (to current thread-block) since we read g_idx portion from the
+    // shared memory
+    cur_k = 0;
+
+    // Progress to current iteration
+    cur_k += k_iter_size * (k % b_sh_wr_iters);
+
+    // Determine "position" inside the thread-block (based on warp and
+    // thread-id)
+    auto warp_id = threadIdx.x / 32;
+    int n_warps =
+        thread_n_blocks / 4;  // Each warp processes 4 16-size tiles over N
+
+    int warp_row = warp_id / n_warps;
+    int warp_col = warp_id % n_warps;
+
+    cur_k += warp_row * 16;
+
+    auto th_id = threadIdx.x % 32;
+    cur_k += (th_id % 4) * 2;  // Due to tensor-core layout for fp16 B matrix
+
+    int s_col_shift =
+        /*slice_n_offset +*/ (act_s_col_warp_stride * warp_col) +
+        (th_id / 4) * act_s_col_stride;
+
+    if (is_same_group[pipe]) {
+      if (k % 2 == 0) {
+        *(reinterpret_cast<int4*>(&(act_frag_s[k % 2][0][0]))) =
+            sh_s[(same_group_id[pipe] - sh_first_group_id) * s_sh_stride +
+                 s_col_shift];
+      } else {
+        *(reinterpret_cast<int4*>(&(act_frag_s[k % 2][0][0]))) =
+            *(reinterpret_cast<int4*>(&(act_frag_s[(k - 1) % 2][0][0])));
+      }
+
+      for (int i = 1; i < 4; i++) {
+        *(reinterpret_cast<int4*>(&(act_frag_s[k % 2][i][0]))) =
+            *(reinterpret_cast<int4*>(&(act_frag_s[k % 2][0][0])));
+      }
+      return;
+    }
+
+    int4* sh_g_idx_stage = sh_g_idx + g_idx_stage * pipe;
+    int* sh_g_idx_int_ptr = reinterpret_cast<int*>(sh_g_idx_stage);
+
+    constexpr int k_frag_offsets[4] = {0, 1, 8,
+                                       9};  // Tensor core offsets per thread
+
+  #pragma unroll
+    for (int i = 0; i < 4; i++) {
+      int actual_k = cur_k + k_frag_offsets[i];
+
+      int group_id = sh_g_idx_int_ptr[actual_k];
+      int rel_group_id = group_id - sh_first_group_id;
+
+      *(reinterpret_cast<int4*>(&(act_frag_s[k % 2][i][0]))) =
+          sh_s[rel_group_id * s_sh_stride + s_col_shift];
+    }
+  };
+
+  auto fetch_zp_to_registers = [&](int k, int full_pipe) {
+    // This code does not handle group_blocks == 0,
+    // which signifies act_order.
+    // has_zp implies AWQ, which doesn't have act_order,
+    static_assert(!has_zp || group_blocks != 0);
+
+    if constexpr (has_zp && !is_zp_float) {
+      int pipe = full_pipe % stages;
+
+      if constexpr (group_blocks == -1) {
+        // load only when starting a new slice
+        if (k == 0 && full_pipe == 0) {
+  #pragma unroll
+          for (int i = 0; i < num_ints_per_thread; i++) {
+            frag_qzp[k % 2][i] = (reinterpret_cast<int*>(sh_zp))[zp_sh_rd + i];
+          }
+        }
+
+      } else if constexpr (group_blocks >= thread_k_blocks) {
+        if (k % b_sh_wr_iters == 0) {
+          int4* sh_zp_stage =
+              sh_zp + zp_sh_stage * ((group_blocks / thread_k_blocks) *
+                                     (pipe / (group_blocks / thread_k_blocks)));
+  #pragma unroll
+          for (int i = 0; i < num_ints_per_thread; i++) {
+            frag_qzp[k % 2][i] =
+                (reinterpret_cast<int*>(sh_zp_stage))[zp_sh_rd + i];
+          }
+        }
+      } else {
+        auto warp_id = threadIdx.x / 32;
+        int n_warps = thread_n_blocks / 4;
+
+        int warp_row = warp_id / n_warps;
+
+        int cur_k = warp_row * 16;
+        cur_k += k_iter_size * (k % b_sh_wr_iters);
+
+        int k_blocks = cur_k / 16;
+        int cur_group_id = 0;
+
+        // Suppress bogus and persistent divide-by-zero warning
+  #pragma nv_diagnostic push
+  #pragma nv_diag_suppress divide_by_zero
+        cur_group_id = k_blocks / group_blocks;
+  #pragma nv_diagnostic pop
+
+        int4* sh_zp_stage = sh_zp + zp_sh_stage * pipe;
+
+        sh_zp_stage += cur_group_id * zp_sh_stride;
+
+  #pragma unroll
+        for (int i = 0; i < num_ints_per_thread; i++) {
+          frag_qzp[k % 2][i] =
+              (reinterpret_cast<int*>(sh_zp_stage))[zp_sh_rd + i];
+        }
+      }
+    }
+
+    else if constexpr (has_zp && is_zp_float) {
+      int pipe = full_pipe % stages;
+
+      if constexpr (group_blocks != -1) {
+        if constexpr (group_blocks >= thread_k_blocks) {
+          if (k % b_sh_wr_iters == 0) {
+            int4* sh_zp_stage =
+                sh_zp +
+                zp_sh_stage * ((group_blocks / thread_k_blocks) *
+                               (pipe / (group_blocks / thread_k_blocks)));
+            reinterpret_cast<int4*>(&frag_zpf[k % 2])[0] =
+                sh_zp_stage[zp_sh_rd];
+          }
+        } else {
+          auto warp_id = threadIdx.x / 32;
+          int n_warps = thread_n_blocks / 4;
+
+          int warp_row = warp_id / n_warps;
+
+          int cur_k = warp_row * 16;
+          cur_k += k_iter_size * (k % b_sh_wr_iters);
+
+          int k_blocks = cur_k / 16;
+          // Suppress bogus and persistent divide-by-zero warning
+  #pragma nv_diagnostic push
+  #pragma nv_diag_suppress divide_by_zero
+          int cur_group_id = k_blocks / group_blocks;
+  #pragma nv_diagnostic pop
+
+          int4* sh_zp_stage = sh_zp + zp_sh_stage * pipe;
+
+          reinterpret_cast<int4*>(&frag_zpf[k % 2])[0] =
+              sh_zp_stage[zp_sh_rd + cur_group_id * zp_sh_stride];
+        }
+      }
+    }
+  };
+
+  auto dequant_data = [&](int q, scalar_t2* frag_b_ptr) {
+    if constexpr (has_zp && is_zp_float || !has_zp) {
+      dequant<scalar_t2, w_type_id>(q, frag_b_ptr);
+    } else {
+      static_assert(has_zp && !is_zp_float);
+      static_assert(w_type_id == vllm::kU4.id() || w_type_id == vllm::kU8.id());
+      // If (has_zp && !is_zp_float),
+      // we use not-zp version `dequant` function
+      // to improve numerical accuracy.
+      // Since both weight and zero point are dequanted using this logic,
+      // the final dequanted weight would be correct.
+      if constexpr (w_type_id == vllm::kU4.id()) {
+        dequant<scalar_t2, vllm::kU4B8.id()>(q, frag_b_ptr);
+      } else if constexpr (w_type_id == vllm::kU8.id()) {
+        dequant<scalar_t2, vllm::kU8B128.id()>(q, frag_b_ptr);
+      }
+    }
+  };
+
+  // Execute the actual tensor core matmul of a sub-tile.
+  bool is_first_matmul_in_slice = true;
+  auto matmul = [&](int k) {
+    int k2 = k % 2;
+    const bool is_new_zp =
+        ((group_blocks != -1) && (group_blocks < thread_k_blocks || k == 0)) ||
+        (group_blocks == -1 && is_first_matmul_in_slice);
+    if constexpr (has_zp && !is_zp_float) {
+      if (is_new_zp) {
+        if constexpr (group_blocks == -1) is_first_matmul_in_slice = false;
+        FragB frag_zp_0;
+        FragB frag_zp_1;
+        int zp_quant_0, zp_quant_1;
+
+        if constexpr (w_type.size_bits() == 4) {
+          zp_quant_0 = frag_qzp[k2][0];
+          zp_quant_1 = zp_quant_0 >> 8;
+        } else {
+          static_assert(w_type.size_bits() == 8);
+          zp_quant_0 = frag_qzp[k2][0];
+          zp_quant_1 = frag_qzp[k2][1];
+        }
+
+        dequant_data(zp_quant_0, reinterpret_cast<scalar_t2*>(&frag_zp));
+        dequant_data(zp_quant_1, reinterpret_cast<scalar_t2*>(&frag_zp) + 2);
+      }
+    }
+    if constexpr (has_zp && is_zp_float) {
+      if (is_new_zp) {
+        reinterpret_cast<int4*>(&frag_zp)[0] =
+            reinterpret_cast<int4*>(&frag_zpf[k2])[0];
+      }
+    }
+
+  // We have the m dimension as the inner loop in order to encourage overlapping
+  // dequantization and matmul operations.
+  #pragma unroll
+    for (int j = 0; j < 4; j++) {
+      FragB frag_b0;
+      FragB frag_b1;
+      int b_quant_0, b_quant_1;
+
+      if constexpr (w_type.size_bits() == 4) {
+        b_quant_0 = frag_b_quant[k2][0][j];
+        b_quant_1 = b_quant_0 >> 8;
+      } else {
+        static_assert(w_type.size_bits() == 8);
+        int* frag_b_quant_ptr = reinterpret_cast<int*>(frag_b_quant[k2]);
+        b_quant_0 = frag_b_quant_ptr[j * 2 + 0];
+        b_quant_1 = frag_b_quant_ptr[j * 2 + 1];
+      }
+
+      dequant_data(b_quant_0, reinterpret_cast<scalar_t2*>(&frag_b0));
+      dequant_data(b_quant_1, reinterpret_cast<scalar_t2*>(&frag_b1));
+
+      // Apply scale to frag_b0
+      if constexpr (has_act_order) {
+        static_assert(group_blocks != -1);
+        scale4<scalar_t>(frag_b0, act_frag_s[k2][0][j], act_frag_s[k2][1][j],
+                         act_frag_s[k2][2][j], act_frag_s[k2][3][j], 0);
+        scale4<scalar_t>(frag_b1, act_frag_s[k2][0][j], act_frag_s[k2][1][j],
+                         act_frag_s[k2][2][j], act_frag_s[k2][3][j], 1);
+      } else if constexpr (has_zp && !is_zp_float && group_blocks == -1) {
+        int idx = (threadIdx.x / 4) % 2;
+        scalar_t2 s2 = Dtype::nums2num2(
+            reinterpret_cast<scalar_t*>(&frag_s[j / 2][j % 2 * 2 + 0])[idx],
+            reinterpret_cast<scalar_t*>(&frag_s[j / 2][j % 2 * 2 + 1])[idx]);
+        if (is_new_zp) frag_zp[j] = __hmul2(frag_zp[j], s2);
+        scale_and_sub<scalar_t>(frag_b0, s2.x, frag_zp[j].x);
+        scale_and_sub<scalar_t>(frag_b1, s2.y, frag_zp[j].y);
+      } else if constexpr (has_zp && group_blocks != -1) {
+        if (is_new_zp)
+          frag_zp[j] = __hmul2(frag_zp[j],
+                               *reinterpret_cast<scalar_t2*>(&frag_s[k2][j]));
+        scale_and_sub<scalar_t>(frag_b0, frag_s[k2][j][0].x, frag_zp[j].x);
+        scale_and_sub<scalar_t>(frag_b1, frag_s[k2][j][0].y, frag_zp[j].y);
+      } else if constexpr (group_blocks != -1) {
+        scale<scalar_t>(frag_b0, frag_s[k2][j], 0);
+        scale<scalar_t>(frag_b1, frag_s[k2][j], 1);
+      }
+
+  #pragma unroll
+      for (int i = 0; i < thread_m_blocks; i++) {
+        if constexpr (m_block_size_8) {
+          mma_trans<scalar_t>(frag_a[k2][i], frag_b0, frag_b1, frag_c[i][j][0]);
+        } else {
+          mma<scalar_t>(frag_a[k2][i], frag_b0, frag_c[i][j][0]);
+          mma<scalar_t>(frag_a[k2][i], frag_b1, frag_c[i][j][1]);
+        }
+      }
+    }
+  };
+
+  // Since we slice across the k dimension of a tile in order to increase the
+  // number of warps while keeping the n dimension of a tile reasonable, we have
+  // multiple warps that accumulate their partial sums of the same output
+  // location; which we have to reduce over in the end. We do in shared memory.
+  auto thread_block_reduce = [&]() {
+    constexpr int red_off = threads / b_sh_stride_threads / 2;
+    if (red_off >= 1) {
+      auto red_idx = threadIdx.x / b_sh_stride_threads;
+      constexpr int red_sh_stride = b_sh_stride_threads * 4 * 2;
+      constexpr int red_sh_delta = b_sh_stride_threads;
+      int red_sh_rd = red_sh_stride * (threadIdx.x / b_sh_stride_threads) +
+                      (threadIdx.x % b_sh_stride_threads);
+
+      // Parallel logarithmic shared memory reduction. We make sure to avoid any
+      // unnecessary read or write iterations, e.g., for two warps we write only
+      // once by warp 1 and read only once by warp 0.
+
+  #pragma unroll
+      for (int m_block = 0; m_block < thread_m_blocks; m_block++) {
+  #pragma unroll
+        for (int i = red_off; i > 0; i /= 2) {
+          if (i <= red_idx && red_idx < 2 * i) {
+  #pragma unroll
+            for (int j = 0; j < 4 * 2; j += (m_block_size_8 ? 2 : 1)) {
+              int red_sh_wr =
+                  red_sh_delta * j + (red_sh_rd - red_sh_stride * i);
+              if (i < red_off) {
+                float* c_rd = reinterpret_cast<float*>(
+                    &sh_red[red_sh_delta * j + red_sh_rd]);
+                float* c_wr = reinterpret_cast<float*>(&sh_red[red_sh_wr]);
+  #pragma unroll
+                for (int k = 0; k < 4; k++)
+                  reinterpret_cast<FragC*>(frag_c)[4 * 2 * m_block + j][k] +=
+                      c_rd[k] + c_wr[k];
+              }
+              sh_red[red_sh_wr] =
+                  reinterpret_cast<int4*>(&frag_c)[4 * 2 * m_block + j];
+            }
+          }
+          __syncthreads();
+        }
+        if (red_idx == 0) {
+  #pragma unroll
+          for (int i = 0; i < 4 * 2; i += (m_block_size_8 ? 2 : 1)) {
+            float* c_rd =
+                reinterpret_cast<float*>(&sh_red[red_sh_delta * i + red_sh_rd]);
+  #pragma unroll
+            for (int j = 0; j < 4; j++)
+              reinterpret_cast<FragC*>(frag_c)[4 * 2 * m_block + i][j] +=
+                  c_rd[j];
+          }
+        }
+        __syncthreads();
+      }
+    }
+  };
+
+  // Since multiple threadblocks may process parts of the same column slice, we
+  // finally have to globally reduce over the results. As the striped
+  // partitioning minimizes the number of such reductions and our outputs are
+  // usually rather small, we perform this reduction serially in L2 cache.
+  auto global_reduce_fp16 = [&](bool first = false, bool last = false) {
+    // We are very careful here to reduce directly in the output buffer to
+    // maximize L2 cache utilization in this step. To do this, we write out
+    // results in FP16 (but still reduce with FP32 compute).
+    constexpr int active_threads = 32 * thread_n_blocks / 4;
+    if (threadIdx.x < active_threads) {
+      int c_gl_stride = prob_n / 8;
+      int c_gl_wr_delta_o = 8 * c_gl_stride;
+      int c_gl_wr_delta_i = 4 * (active_threads / 32);
+      int c_gl_wr;
+      if constexpr (m_block_size_8) {
+        c_gl_wr = c_gl_stride * ((threadIdx.x % 4) * 2) +
+                  4 * (threadIdx.x / 32) + (threadIdx.x % 32) / 8;
+        c_gl_wr += (2 * thread_n_blocks) * slice_col;
+      } else {
+        c_gl_wr = c_gl_stride * ((threadIdx.x % 32) / 4) +
+                  4 * (threadIdx.x / 32) + threadIdx.x % 4;
+        c_gl_wr += (2 * thread_n_blocks) * slice_col;
+      }
+      constexpr int c_sh_wr_delta = active_threads;
+      auto c_sh_wr = threadIdx.x;
+
+      int row = (threadIdx.x % 32) / 4;
+
+      if (!first) {
+  // Interestingly, doing direct global accesses here really seems to mess up
+  // the compiler and lead to slowdowns, hence we also use async-copies even
+  // though these fetches are not actually asynchronous.
+  #pragma unroll
+        for (int i = 0; i < (m_block_size_8 ? 2 : thread_m_blocks * 4); i++) {
+          if constexpr (m_block_size_8) {
+            cp_async4_pred(&sh_red[c_sh_wr + c_sh_wr_delta * i],
+                           &C[c_gl_wr + i * c_gl_stride +
+                              (threadIdx.x % 8) / 4 * c_gl_wr_delta_i],
+                           (threadIdx.x % 4) * 2 + i < prob_m);
+          } else {
+            cp_async4_pred(
+                &sh_red[c_sh_wr + c_sh_wr_delta * i],
+                &C[c_gl_wr + c_gl_wr_delta_o * (i / 2) +
+                   c_gl_wr_delta_i * (i % 2)],
+                i < (thread_m_blocks - 1) * 4 || 8 * (i / 2) + row < prob_m);
+          }
+        }
+        cp_async_fence();
+        cp_async_wait<0>();
+      }
+
+  #pragma unroll
+      for (int i = 0; i < (m_block_size_8 ? 2 : thread_m_blocks * 4); i++) {
+        bool mask = (!m_block_size_8) && (i < (thread_m_blocks - 1) * 4 ||
+                                          8 * (i / 2) + row < prob_m) ||
+                    (m_block_size_8) && ((threadIdx.x % 4) * 2 + i < prob_m);
+        if (mask) {
+          if (!first) {
+            int4 c_red = sh_red[c_sh_wr + i * c_sh_wr_delta];
+  #pragma unroll
+            for (int j = 0; j < 2 * 4; j++) {
+              int delta = 0;
+              if constexpr (m_block_size_8) {
+                delta = j % 2 == 1 ? -2 : 0;
+              }
+              reinterpret_cast<float*>(
+                  &frag_c)[4 * 2 * 4 * (i / 4) + 4 * j + (i % 4) + delta] +=
+                  Dtype::num2float(reinterpret_cast<scalar_t*>(&c_red)[j]);
+            }
+          }
+          if (!last) {
+            int4 c;
+  #pragma unroll
+            for (int j = 0; j < 2 * 4; j++) {
+              int delta = 0;
+              if constexpr (m_block_size_8) {
+                delta = j % 2 == 1 ? -2 : 0;
+              }
+              reinterpret_cast<scalar_t*>(&c)[j] =
+                  Dtype::float2num(reinterpret_cast<float*>(
+                      &frag_c)[4 * 2 * 4 * (i / 4) + 4 * j + (i % 4) + delta]);
+            }
+            if constexpr (m_block_size_8)
+              C[c_gl_wr + i * c_gl_stride +
+                (threadIdx.x % 8) / 4 * c_gl_wr_delta_i] = c;
+            else
+              C[c_gl_wr + c_gl_wr_delta_o * (i / 2) +
+                c_gl_wr_delta_i * (i % 2)] = c;
+          }
+        }
+      }
+    }
+  };
+
+  // Globally reduce over threadblocks that compute the same column block.
+  // We use a tmp C buffer to reduce in full fp32 precision.
+  auto global_reduce_fp32 = [&](bool first = false, bool last = false) {
+    constexpr int tb_m = thread_m_blocks * 16;
+    constexpr int tb_n = thread_n_blocks * 16;
+
+    constexpr int c_size = tb_m * tb_n * sizeof(float) / 16;
+
+    constexpr int active_threads = 32 * thread_n_blocks / 4;
+    bool is_th_active = threadIdx.x < active_threads;
+
+    constexpr int num_floats = thread_m_blocks * 4 * 2 * 4;
+    constexpr int th_size = num_floats * sizeof(float) / 16;
+
+    int c_cur_offset = locks_off * c_size;
+
+    if (!is_th_active) {
+      return;
+    }
+
+    if (!first) {
+      float* frag_c_ptr = reinterpret_cast<float*>(&frag_c);
+  #pragma unroll
+      for (int k = 0; k < th_size; k += (m_block_size_8 ? 2 : 1)) {
+        sh_red[threadIdx.x] =
+            C_tmp[c_cur_offset + active_threads * k + threadIdx.x];
+
+        float* sh_c_ptr = reinterpret_cast<float*>(&sh_red[threadIdx.x]);
+  #pragma unroll
+        for (int f = 0; f < 4; f++) {
+          frag_c_ptr[k * 4 + f] += sh_c_ptr[f];
+        }
+      }
+    }
+
+    if (!last) {
+      int4* frag_c_ptr = reinterpret_cast<int4*>(&frag_c);
+  #pragma unroll
+      for (int k = 0; k < th_size; k += (m_block_size_8 ? 2 : 1)) {
+        C_tmp[c_cur_offset + active_threads * k + threadIdx.x] = frag_c_ptr[k];
+      }
+    }
+  };
+
+  // Write out the reduce final result in the correct layout. We only actually
+  // reshuffle matrix fragments in this step, the reduction above is performed
+  // in fragment layout.
+  auto write_result = [&]() {
+    int c_gl_stride = prob_n / 8;
+    constexpr int c_sh_stride = 2 * thread_n_blocks + 1;
+    int c_gl_wr_delta = c_gl_stride * (threads / (2 * thread_n_blocks));
+    constexpr int c_sh_rd_delta =
+        c_sh_stride * (threads / (2 * thread_n_blocks));
+
+    int c_gl_wr = c_gl_stride * (threadIdx.x / (2 * thread_n_blocks)) +
+                  (threadIdx.x % (2 * thread_n_blocks));
+    c_gl_wr += (2 * thread_n_blocks) * slice_col;
+    int c_sh_wr;
+    if constexpr (m_block_size_8) {
+      c_sh_wr = (8 * c_sh_stride) * ((threadIdx.x % 32) % 4 * 2) +
+                (threadIdx.x % 32) / 4;
+      c_sh_wr += 64 * (threadIdx.x / 32);
+    } else {
+      c_sh_wr =
+          (4 * c_sh_stride) * ((threadIdx.x % 32) / 4) + (threadIdx.x % 32) % 4;
+      c_sh_wr += 32 * (threadIdx.x / 32);
+    }
+
+    int c_sh_rd = c_sh_stride * (threadIdx.x / (2 * thread_n_blocks)) +
+                  (threadIdx.x % (2 * thread_n_blocks));
+
+    int c_gl_wr_end = c_gl_stride * prob_m;
+    // We first reorder in shared memory to guarantee the most efficient final
+    // global write patterns
+    auto write = [&](int idx, float c0, float c1, FragS& s) {
+      scalar_t2 res =
+          Dtype::nums2num2(Dtype::float2num(c0), Dtype::float2num(c1));
+
+      // For per-column quantization we finally apply the scale here (only for
+      // 4-bit)
+      if constexpr (!has_act_order && group_blocks == -1 &&
+                    w_type.size_bits() == 4 && !has_zp) {
+        res = __hmul2(res, s[0]);
+      }
+
+      if constexpr (m_block_size_8) {
+        ((scalar_t*)sh_red)[idx] = res.x;
+        ((scalar_t*)sh_red)[idx + 8 * c_sh_stride] = res.y;
+      } else {
+        ((scalar_t2*)sh_red)[idx] = res;
+      }
+    };
+
+    if (threadIdx.x / 32 < thread_n_blocks / 4) {
+  #pragma unroll
+      for (int i = 0; i < thread_m_blocks; i++) {
+  #pragma unroll
+        for (int j = 0; j < 4; j++) {
+          if constexpr (m_block_size_8) {
+            int wr = c_sh_wr + 16 * j;
+            write(wr, frag_c[i][j][0][0], frag_c[i][j][0][1],
+                  frag_s[j / 2][2 * (j % 2) + 0]);
+            write(wr + 8, frag_c[i][j][0][2], frag_c[i][j][0][3],
+                  frag_s[j / 2][2 * (j % 2) + 1]);
+          } else {
+            int wr = c_sh_wr + 8 * j;
+            write(wr + (4 * c_sh_stride) * 0 + 0, frag_c[i][j][0][0],
+                  frag_c[i][j][0][1], frag_s[j / 2][2 * (j % 2) + 0]);
+            write(wr + (4 * c_sh_stride) * 8 + 0, frag_c[i][j][0][2],
+                  frag_c[i][j][0][3], frag_s[j / 2][2 * (j % 2) + 0]);
+            write(wr + (4 * c_sh_stride) * 0 + 4, frag_c[i][j][1][0],
+                  frag_c[i][j][1][1], frag_s[j / 2][2 * (j % 2) + 1]);
+            write(wr + (4 * c_sh_stride) * 8 + 4, frag_c[i][j][1][2],
+                  frag_c[i][j][1][3], frag_s[j / 2][2 * (j % 2) + 1]);
+          }
+        }
+        c_sh_wr += 16 * (4 * c_sh_stride);
+      }
+    }
+    __syncthreads();
+
+  #pragma unroll
+    for (int i = 0;
+         i < div_ceil(16 * thread_m_blocks, threads / (2 * thread_n_blocks));
+         i++) {
+      if (c_gl_wr < c_gl_wr_end) {
+        if (use_atomic_add && slice_count > 1) {
+          scalar_t2* C_half2 = reinterpret_cast<scalar_t2*>(&C[c_gl_wr]);
+          scalar_t2* sh_red_half2 =
+              reinterpret_cast<scalar_t2*>(&sh_red[c_sh_rd]);
+  #pragma unroll
+          for (int a = 0; a < 4; a++) {
+            atomicAdd(&C_half2[a], sh_red_half2[a]);
+          }
+        } else {
+          C[c_gl_wr] = sh_red[c_sh_rd];
+        }
+        c_gl_wr += c_gl_wr_delta;
+        c_sh_rd += c_sh_rd_delta;
+      }
+    }
+    __syncthreads();
+  };
+
+  // Start global fetch and register load pipelines.
+  auto start_pipes = [&]() {
+
+  #pragma unroll
+    for (int i = 0; i < stages - 1; i++) {
+      if (has_act_order && i == 0) {
+        int last_g_idx = slice_k_start + stages * tb_k * 2;
+        if (last_g_idx >= prob_k) {
+          last_g_idx = prob_k - 1;
+        }
+        fetch_act_order_scales_to_shared(true, g_idx[slice_k_start],
+                                         g_idx[last_g_idx]);
+      }
+
+      if constexpr (has_zp && !is_zp_float && group_blocks == -1) {
+        if (i == 0) {
+          fetch_col_zp_to_shared();
+          fetch_col_scale_to_shared();
+        }
+      }
+      fetch_to_shared(i, i, i < slice_iters);
+    }
+
+    zero_accums();
+    wait_for_stage();
+    init_same_group(0);
+    fetch_to_registers(0, 0);
+    fetch_scales_to_registers(0, 0);
+    fetch_zp_to_registers(0, 0);
+    a_gl_rd += a_gl_rd_delta_o * (stages - 1);
+    if constexpr (has_act_order) {
+      slice_k_start_shared_fetch += tb_k * (stages - 1);
+    }
+  };
+  if (slice_iters) {
+    start_pipes();
+  }
+
+  // Main loop.
+  while (slice_iters) {
+    // We unroll over both the global fetch and the register load pipeline to
+    // ensure all shared memory accesses are static. Note that both pipelines
+    // have even length meaning that the next iteration will always start at
+    // index 0.
+
+  #pragma unroll
+    for (int pipe = 0; pipe < stages;) {
+  #pragma unroll
+      for (int k = 0; k < b_sh_wr_iters; k++) {
+        fetch_to_registers(k + 1, pipe % stages);
+        fetch_scales_to_registers(k + 1, pipe);
+        fetch_zp_to_registers(k + 1, pipe);
+        if (k == b_sh_wr_iters - 2) {
+          fetch_to_shared((pipe + stages - 1) % stages, pipe,
+                          slice_iters >= stages);
+          pipe++;
+          wait_for_stage();
+          init_same_group(pipe % stages);
+        }
+        matmul(k);
+      }
+      slice_iters--;
+      if (slice_iters == 0) {
+        break;
+      }
+    }
+
+    a_gl_rd += a_gl_rd_delta_o * stages;
+
+    if constexpr (has_act_order) {
+      slice_k_start += tb_k * stages;
+      slice_k_start_shared_fetch += tb_k * stages;
+      int first_group_id = g_idx[slice_k_start];
+      int last_g_idx = slice_k_start + stages * tb_k * 2;
+      if (last_g_idx >= prob_k) {
+        last_g_idx = prob_k - 1;
+      }
+      int last_group_id = g_idx[last_g_idx];
+      if (last_group_id >= sh_first_group_id + sh_num_groups) {
+        fetch_act_order_scales_to_shared(false, first_group_id, last_group_id);
+        __syncthreads();
+      }
+    }
+
+    // Process results and, if necessary, proceed to the next column slice.
+    // While this pattern may not be the most readable, other ways of writing
+    // the loop seemed to noticeably worse performance after compilation.
+    if (slice_iters == 0) {
+      cp_async_wait<0>();
+      bool last = slice_idx == slice_count - 1;
+      // For per-column scales, we only fetch them here in the final step before
+      // write-out
+      if constexpr (!has_act_order && group_blocks == -1 && !has_zp) {
+        if (w_type.size_bits() == 8 || (last || use_atomic_add)) {
+          if (s_sh_wr_pred) {
+            cp_async4(&sh_s[s_sh_wr], &scales_ptr[s_gl_rd]);
+          }
+          cp_async_fence();
+        }
+      }
+
+      thread_block_reduce();
+      if constexpr (!has_act_order && group_blocks == -1 && !has_zp) {
+        if (w_type.size_bits() == 8 || (last || use_atomic_add)) {
+          cp_async_wait<0>();
+          __syncthreads();
+          if (threadIdx.x / 32 < thread_n_blocks / 4) {
+            reinterpret_cast<int4*>(&frag_s)[0] = sh_s[s_sh_rd + 0];
+            reinterpret_cast<int4*>(&frag_s)[1] = sh_s[s_sh_rd + 4];
+            if constexpr (m_block_size_8) {
+              int idx = (threadIdx.x / 4) % 2;
+              scalar_t2* frag_s_half2 = reinterpret_cast<scalar_t2*>(frag_s);
+  #pragma unroll
+              for (int i = 0; i < 8; i++) {
+                frag_s_half2[i] = Dtype::num2num2(
+                    reinterpret_cast<scalar_t*>(&frag_s_half2[i])[idx]);
+              }
+            }
+          }
+        }
+      }
+
+      // For 8-bit channelwise, we apply the scale before the global reduction
+      // that converts the fp32 results to fp16 (so that we avoid possible
+      // overflow in fp16)
+      if constexpr (!has_act_order && group_blocks == -1 &&
+                    w_type.size_bits() == 8 && !has_zp) {
+        if (threadIdx.x / 32 < thread_n_blocks / 4) {
+  #pragma unroll
+          for (int i = 0; i < thread_m_blocks; i++) {
+  #pragma unroll
+            for (int j = 0; j < 4; j++) {
+              scale_float<scalar_t>(
+                  reinterpret_cast<float*>(&frag_c[i][j][0][0]),
+                  frag_s[j / 2][2 * (j % 2) + 0]);
+              scale_float<scalar_t>(
+                  reinterpret_cast<float*>(&frag_c[i][j][0][2]),
+                  frag_s[j / 2][2 * (j % 2) + (m_block_size_8 ? 1 : 0)]);
+
+              if constexpr (!m_block_size_8) {
+                scale_float<scalar_t>(
+                    reinterpret_cast<float*>(&frag_c[i][j][1][0]),
+                    frag_s[j / 2][2 * (j % 2) + 1]);
+                scale_float<scalar_t>(
+                    reinterpret_cast<float*>(&frag_c[i][j][1][2]),
+                    frag_s[j / 2][2 * (j % 2) + 1]);
+              }
+            }
+          }
+        }
+      }
+
+      if (slice_count > 1 && !use_atomic_add) {
+        // only globally reduce if there is more than one block in a slice
+        barrier_acquire(&locks[locks_off], slice_idx);
+        if (use_fp32_reduce) {
+          global_reduce_fp32(slice_idx == 0, last);
+        } else {
+          global_reduce_fp16(slice_idx == 0, last);
+        }
+        barrier_release(&locks[locks_off], last);
+      }
+      if (use_atomic_add && slice_count > 1 && slice_idx != 0)
+        wait_negative_and_add(&locks[locks_off]);
+      if (last || use_atomic_add)
+        // only the last block in a slice actually writes the result
+        write_result();
+      slice_row = 0;
+      slice_col_par++;
+      slice_col++;
+      is_first_matmul_in_slice = true;
+      init_slice();
+
+      if (slice_iters) {
+        a_gl_rd = a_gl_stride * (threadIdx.x / a_gl_rd_delta_o) +
+                  (threadIdx.x % a_gl_rd_delta_o);
+  #pragma unroll
+        for (int i = 0; i < b_sh_wr_iters; i++)
+          B_ptr[i] += b_sh_stride - b_gl_rd_delta_o * k_tiles;
+        if (slice_col == 0) {
+  #pragma unroll
+          for (int i = 0; i < b_sh_wr_iters; i++) B_ptr[i] -= b_gl_stride;
+        }
+
+        // Update slice k/n for scales loading
+        if constexpr (has_act_order) {
+          slice_k_start = tb_k * slice_row;
+          slice_k_finish = slice_k_start + tb_k * slice_iters;
+          slice_k_start_shared_fetch = slice_k_start;
+          slice_n_offset = act_s_col_tb_stride * slice_col;
+
+        } else {
+          s_gl_rd = s_sh_stride * slice_col + threadIdx.x;
+          zp_gl_rd = zp_sh_stride * slice_col + threadIdx.x;
+        }
+
+        start_pipes();
+      }
+    }
+  }
+}
+
+}  // namespace MARLIN_NAMESPACE_NAME
+
+#endif
diff --git a/csrc/torch_bindings.cpp b/csrc/torch_bindings.cpp
index 5ed330976..f59b42d88 100644
--- a/csrc/torch_bindings.cpp
+++ b/csrc/torch_bindings.cpp
@@ -291,12 +291,11 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
 
   // gptq_marlin Optimized Quantized GEMM for GPTQ.
   ops.def(
-      "gptq_marlin_gemm(Tensor a, Tensor b_q_weight, Tensor b_scales, "
-      "Tensor b_zeros, Tensor g_idx, Tensor perm, Tensor workspace, "
-      "int b_q_type, "
+      "gptq_marlin_gemm(Tensor a, Tensor? c_or_none, Tensor b_q_weight, "
+      "Tensor b_scales, Tensor? b_zeros_or_none, Tensor? g_idx_or_none, "
+      "Tensor? perm_or_none, Tensor workspace, int b_q_type, "
       "SymInt size_m, SymInt size_n, SymInt size_k, bool is_k_full, "
-      "bool has_zp, bool use_atomic_add, bool use_fp32_reduce, "
-      "bool is_zp_float) -> Tensor",
+      "bool use_atomic_add, bool use_fp32_reduce, bool is_zp_float) -> Tensor",
       {stride_tag});
   // conditionally compiled so impl registration is in source file
 
@@ -341,14 +340,6 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
   ops.def("ggml_moe_get_block_size", &ggml_moe_get_block_size);
 
 #ifndef USE_ROCM
-  // fp8_marlin Optimized Quantized GEMM for FP8 weight-only.
-  ops.def(
-      "fp8_marlin_gemm(Tensor a, Tensor b_q_weight, Tensor b_scales, "
-      "Tensor! workspace, int num_bits, SymInt size_m, SymInt size_n, "
-      "SymInt size_k) -> Tensor",
-      {stride_tag});
-  // conditionally compiled so impl registration is in source file
-
   // marlin_qqq_gemm for QQQ.
   ops.def(
       "marlin_qqq_gemm(Tensor a, Tensor b_q_weight, "
diff --git a/tests/kernels/moe/test_moe.py b/tests/kernels/moe/test_moe.py
index f2cca65ae..abf3e3667 100644
--- a/tests/kernels/moe/test_moe.py
+++ b/tests/kernels/moe/test_moe.py
@@ -11,19 +11,20 @@ from transformers import MixtralConfig
 from transformers.models.mixtral.modeling_mixtral import MixtralSparseMoeBlock
 
 import vllm.model_executor.layers.fused_moe  # noqa
-from tests.kernels.utils import (opcheck, stack_and_dev, torch_moe,
-                                 torch_moe_single)
+from tests.kernels.utils import opcheck, stack_and_dev, torch_moe
 from vllm.model_executor.layers.fused_moe import fused_moe
 from vllm.model_executor.layers.fused_moe.fused_moe import fused_topk
 from vllm.model_executor.layers.fused_moe.moe_torch_iterative import (
     fused_moe as iterative_moe)
+from vllm.model_executor.layers.quantization.utils.marlin_utils_fp8 import (
+    marlin_quant_fp8_torch)
 from vllm.model_executor.layers.quantization.utils.marlin_utils_test import (
     awq_marlin_quantize, marlin_quantize)
 from vllm.model_executor.layers.quantization.utils.quant_utils import (
     quantize_weights)
 from vllm.model_executor.models.mixtral import MixtralMoE
 from vllm.platforms import current_platform
-from vllm.scalar_type import scalar_types
+from vllm.scalar_type import ScalarType, scalar_types
 
 NUM_EXPERTS = [8, 64]
 EP_SIZE = [1, 4]
@@ -285,7 +286,7 @@ def test_mixtral_moe(dtype: torch.dtype, padding: bool, use_rocm_aiter: bool,
                                    atol=mixtral_moe_tol[dtype])
 
 
-@pytest.mark.parametrize("m", [1, 33, 123])
+@pytest.mark.parametrize("m", [1, 123, 666])
 @pytest.mark.parametrize("n", [128, 1024])
 @pytest.mark.parametrize("k", [256, 2048])
 @pytest.mark.parametrize("e", [4, 12])
@@ -294,8 +295,10 @@ def test_mixtral_moe(dtype: torch.dtype, padding: bool, use_rocm_aiter: bool,
 @pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
 @pytest.mark.parametrize("group_size", [-1, 32, 128])
 @pytest.mark.parametrize("act_order", [True, False])
-@pytest.mark.parametrize("num_bits", [4, 8])
-@pytest.mark.parametrize("has_zp", [True, False])
+@pytest.mark.parametrize("quant_type", [
+    scalar_types.uint4, scalar_types.uint8b128, scalar_types.uint4b8,
+    scalar_types.float8_e4m3fn
+])
 @pytest.mark.parametrize("is_k_full", [True, False])
 @pytest.mark.skipif(current_platform.is_rocm(), reason="Skip for rocm")
 def test_fused_marlin_moe(
@@ -308,14 +311,22 @@ def test_fused_marlin_moe(
     dtype: torch.dtype,
     group_size: int,
     act_order: bool,
-    num_bits: int,
-    has_zp: bool,
+    quant_type: ScalarType,
     is_k_full: bool,
 ):
-    current_platform.seed_everything(7)
+    torch.cuda.manual_seed(0)
+    has_zp = quant_type in [scalar_types.uint4, scalar_types.uint8]
+
+    if quant_type == scalar_types.float8_e4m3fn:
+        if group_size not in [-1, 128]:
+            return
+        if act_order:
+            return
 
     # Filter act_order
     if act_order:
+        if quant_type == scalar_types.float8_e4m3fn:
+            return
         if group_size == -1:
             return
         if group_size in (k, n):
@@ -326,17 +337,9 @@ def test_fused_marlin_moe(
         if not is_k_full:
             return
 
-    if has_zp:
-        # we don't build kernel for int8 with zero
-        if num_bits == 8:
-            return
-        quant_type = scalar_types.uint4 if num_bits == 4 else scalar_types.uint8
-    else:
-        quant_type = scalar_types.uint4b8 \
-                if num_bits == 4 else scalar_types.uint8b128
     a = torch.randn((m, k), device="cuda", dtype=dtype) / 10
-    w1 = torch.randn((e, 2 * n, k), device="cuda", dtype=dtype) / 10
-    w2 = torch.randn((e, k, n), device="cuda", dtype=dtype) / 10
+    w1 = torch.randn((e, 2 * n, k), device="cuda", dtype=dtype) / 20
+    w2 = torch.randn((e, k, n), device="cuda", dtype=dtype) / 20
 
     if ep_size > 1:
         local_e = e // ep_size
@@ -364,17 +367,23 @@ def test_fused_marlin_moe(
             qweight1_l.append(qweight1)
             scales1_l.append(scales1)
             zeros1_l.append(zeros1)
-        else:
+        elif quant_type != scalar_types.float8_e4m3fn:
             test_perm = torch.randperm(k)
-            quant_res = marlin_quantize(w1[i].transpose(1, 0), quant_type,
-                                        group_size, act_order, test_perm)
-            w_ref1, qweight1, scales1, g_idx1, sort_indices1, _ = quant_res
+            w_ref1, qweight1, scales1, g_idx1, sort_indices1, _ = \
+                marlin_quantize(w1[i].transpose(1, 0), quant_type,
+                                group_size, act_order, test_perm)
 
             w_ref1_l.append(w_ref1.T)
             qweight1_l.append(qweight1)
             scales1_l.append(scales1)
             g_idx1_l.append(g_idx1)
             sort_indices1_l.append(sort_indices1)
+        else:
+            w_ref1, qweight1, scales1 = marlin_quant_fp8_torch(
+                w1[i], group_size)
+            w_ref1_l.append(w_ref1.T)
+            qweight1_l.append(qweight1)
+            scales1_l.append(scales1)
 
     w_ref1 = stack_and_dev(w_ref1_l)
     qweight1 = stack_and_dev(qweight1_l).contiguous()
@@ -399,17 +408,23 @@ def test_fused_marlin_moe(
             qweight2_l.append(qweight2)
             scales2_l.append(scales2)
             zeros2_l.append(zeros2)
-        else:
+        elif quant_type != scalar_types.float8_e4m3fn:
             test_perm = torch.randperm(n)
-            quant_res = marlin_quantize(w2[i].transpose(1, 0), quant_type,
-                                        group_size, act_order, test_perm)
-            w_ref2, qweight2, scales2, g_idx2, sort_indices2, _ = quant_res
+            w_ref2, qweight2, scales2, g_idx2, sort_indices2, _ = \
+                marlin_quantize(w2[i].transpose(1, 0), quant_type,
+                                group_size, act_order, test_perm)
 
             w_ref2_l.append(w_ref2.T)
             qweight2_l.append(qweight2)
             scales2_l.append(scales2)
             g_idx2_l.append(g_idx2)
             sort_indices2_l.append(sort_indices2)
+        else:
+            w_ref2, qweight2, scales2 = marlin_quant_fp8_torch(
+                w2[i], group_size)
+            w_ref2_l.append(w_ref2.T)
+            qweight2_l.append(qweight2)
+            scales2_l.append(scales2)
 
     w_ref2 = stack_and_dev(w_ref2_l)
     qweight2 = stack_and_dev(qweight2_l).contiguous()
@@ -442,102 +457,10 @@ def test_fused_marlin_moe(
         sort_indices2=sort_indices2,
         w1_zeros=zeros1,
         w2_zeros=zeros2,
-        num_bits=num_bits,
+        quant_type_id=quant_type.id,
         is_k_full=is_k_full)
 
-    torch.testing.assert_close(marlin_output, torch_output, atol=2e-2, rtol=0)
-
-
-@pytest.mark.skip("This test is here for the sake of debugging, "
-                  "don't run it in automated tests.")
-@pytest.mark.parametrize("m", [1, 33, 123])
-@pytest.mark.parametrize("n", [128, 1024])
-@pytest.mark.parametrize("k", [256, 2048])
-@pytest.mark.parametrize("e", [4, 12])
-@pytest.mark.parametrize("topk", [2, 3])
-@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
-@pytest.mark.parametrize("group_size", [-1, 32, 128])
-@pytest.mark.parametrize("act_order", [True, False])
-@pytest.mark.parametrize("num_bits", [4, 8])
-@pytest.mark.parametrize("has_zp", [True, False])
-@pytest.mark.parametrize("is_k_full", [True, False])
-def test_single_marlin_moe_multiply(m: int, n: int, k: int, e: int, topk: int,
-                                    dtype: torch.dtype, group_size: int,
-                                    act_order: bool, num_bits: int,
-                                    has_zp: bool, is_k_full: bool):
-    # Filter act_order
-    if act_order:
-        if group_size == -1:
-            return
-        if group_size in (k, n):
-            return
-        if has_zp:
-            return
-    else:
-        if not is_k_full:
-            return
-
-    if has_zp:
-        quant_type = scalar_types.uint4 if num_bits == 4 else scalar_types.uint8
-    else:
-        quant_type = scalar_types.uint4b8 \
-                if num_bits == 4 else scalar_types.uint8b128
-    a = torch.randn((m, k), device="cuda", dtype=dtype) / 10
-    w = torch.randn((e, n, k), device="cuda", dtype=dtype) / 10
-
-    w_ref_l = []
-    qweight_l = []
-    scales_l = []
-    zeros_l = []
-    g_idx_l = []
-    sort_indices_l = []
-
-    for i in range(w.shape[0]):
-        if has_zp:
-            w_ref, qweight, scales, zeros = awq_marlin_quantize(
-                w[i].transpose(1, 0), quant_type, group_size)
-
-            w_ref_l.append(w_ref.T)
-            qweight_l.append(qweight)
-            scales_l.append(scales)
-            zeros_l.append(zeros)
-        else:
-            test_perm = torch.randperm(k)
-            w_ref, qweight, scales, g_idx, sort_indices, _ = marlin_quantize(
-                w[i].transpose(1, 0), quant_type, group_size, act_order,
-                test_perm)
-
-            w_ref_l.append(w_ref.T)
-            qweight_l.append(qweight)
-            scales_l.append(scales)
-            g_idx_l.append(g_idx)
-            sort_indices_l.append(sort_indices)
-
-    w_ref = stack_and_dev(w_ref_l)
-    qweight = stack_and_dev(qweight_l).contiguous()
-    scales = stack_and_dev(scales_l)
-    g_idx = stack_and_dev(g_idx_l) if g_idx_l else None
-    zeros = stack_and_dev(zeros_l) if zeros_l else None
-    sort_indices = stack_and_dev(sort_indices_l) if sort_indices_l else None
-
-    score = torch.randn((m, e), device="cuda", dtype=dtype)
-    marlin_output = torch.ops.vllm.single_marlin_moe(
-        a,
-        qweight,
-        scales,
-        score,
-        topk,
-        renormalize=False,
-        g_idx=g_idx,
-        sort_indices=sort_indices,
-        w_zeros=zeros,
-        num_bits=num_bits,
-        is_k_full=is_k_full,
-    )
-
-    torch_output = torch_moe_single(a, w_ref, score, topk)
-
-    torch.testing.assert_close(marlin_output, torch_output, atol=2e-2, rtol=0)
+    torch.testing.assert_close(marlin_output, torch_output, atol=5e-2, rtol=0)
 
 
 def test_moe_align_block_size_opcheck():
diff --git a/tests/kernels/quantization/test_awq_marlin.py b/tests/kernels/quantization/test_awq_marlin.py
deleted file mode 100644
index c30fe60be..000000000
--- a/tests/kernels/quantization/test_awq_marlin.py
+++ /dev/null
@@ -1,164 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-"""Test AWQ with fused MoE Marlin kernels.
-
-Run `pytest tests/kernels/test_awq_marlin.py`.
-"""
-import pytest
-import torch
-
-import vllm.model_executor.layers.fused_moe  # noqa
-from tests.kernels.utils import (compute_max_diff, stack_and_dev, torch_moe,
-                                 torch_moe_single)
-from vllm import _custom_ops as ops
-from vllm.model_executor.layers.fused_moe.fused_moe import fused_topk
-from vllm.model_executor.layers.quantization.utils.marlin_utils_test import (
-    awq_marlin_quantize)
-from vllm.scalar_type import scalar_types
-
-NUM_EXPERTS = [8, 64]
-TOP_KS = [2, 6]
-GROUP_SIZES = [-1, 32, 128]
-
-
-@pytest.mark.parametrize("m", [1, 33, 64, 222])
-@pytest.mark.parametrize("n", [128, 2048])
-@pytest.mark.parametrize("k", [128, 1024])
-@pytest.mark.parametrize("e", NUM_EXPERTS)
-@pytest.mark.parametrize("topk", TOP_KS)
-@pytest.mark.parametrize("group_size", GROUP_SIZES)
-@pytest.mark.skipif(not (ops.supports_moe_ops
-                         and hasattr(torch.ops._moe_C, "marlin_gemm_moe")),
-                    reason="Marlin is not supported on this GPU type.")
-def test_fused_marlin_moe_awq(
-    m: int,
-    n: int,
-    k: int,
-    e: int,
-    topk: int,
-    group_size: int,
-):
-    torch.manual_seed(7)
-
-    num_bits = 4
-    quant_type = scalar_types.uint4
-    dtype = torch.float16
-    a = torch.randn((m, k), device="cuda", dtype=dtype) / 10
-    w1 = torch.randn((e, 2 * n, k), device="cuda", dtype=dtype) / 10
-    w2 = torch.randn((e, k, n), device="cuda", dtype=dtype) / 10
-
-    w_ref1_l = []
-    qweights1_l = []
-    scales1_l = []
-    zp1_l = []
-
-    for i in range(w1.shape[0]):
-        w_ref1, qweight1, scales1, zp1 = awq_marlin_quantize(
-            w1[i].transpose(1, 0), quant_type, group_size)
-        w_ref1_l.append(w_ref1)
-        qweights1_l.append(qweight1)
-        scales1_l.append(scales1)
-        zp1_l.append(zp1)
-
-    w_ref1 = stack_and_dev(w_ref1_l)
-    qweight1 = stack_and_dev(qweights1_l).contiguous()
-    scales1 = stack_and_dev(scales1_l)
-    zp1 = stack_and_dev(zp1_l)
-
-    w_ref2_l = []
-    qweights2_l = []
-    scales2_l = []
-    zp2_l = []
-
-    for i in range(w2.shape[0]):
-        w_ref2, qweight2, scales2, zp2 = awq_marlin_quantize(
-            w2[i].transpose(1, 0), quant_type, group_size)
-        w_ref2_l.append(w_ref2)
-        qweights2_l.append(qweight2)
-        scales2_l.append(scales2)
-        zp2_l.append(zp2)
-
-    w_ref2 = stack_and_dev(w_ref2_l)
-    qweight2 = stack_and_dev(qweights2_l).contiguous()
-    scales2 = stack_and_dev(scales2_l)
-    zp2 = stack_and_dev(zp2_l)
-
-    score = torch.randn((m, e), device="cuda", dtype=dtype)
-
-    topk_weights, topk_ids, token_expert_indices = fused_topk(
-        a, score, topk, False)
-    marlin_output = torch.ops.vllm.fused_marlin_moe(
-        a,
-        qweight1,
-        qweight2,
-        scales1,
-        scales2,
-        score,
-        topk_weights,
-        topk_ids,
-        w1_zeros=zp1,
-        w2_zeros=zp2,
-        num_bits=num_bits,
-    )
-
-    torch_output = torch_moe(a, w_ref1.transpose(1, 2), w_ref2.transpose(1, 2),
-                             score, topk, None)
-
-    assert compute_max_diff(marlin_output, torch_output) < 4e-2
-
-
-@pytest.mark.skip("This test is here for the sake of debugging, "
-                  "don't run it in automated tests.")
-@pytest.mark.parametrize("m", [64, 512, 222, 33, 1])
-@pytest.mark.parametrize("n", [128, 2048, 256, 1024])
-@pytest.mark.parametrize("k", [128, 1024, 512])
-@pytest.mark.parametrize("e", [8, 64])
-@pytest.mark.parametrize("topk", [2, 6])
-@pytest.mark.parametrize("group_size", [-1, 32, 64, 128])
-def test_single_marlin_moe_multiply_awq(
-    m: int,
-    n: int,
-    k: int,
-    e: int,
-    topk: int,
-    group_size: int,
-):
-    torch.manual_seed(7)
-
-    num_bits = 4
-    quant_type = scalar_types.uint4
-    dtype = torch.float16
-    a = torch.randn((m, k), device="cuda", dtype=dtype) / 10
-    w = torch.randn((e, n, k), device="cuda", dtype=dtype) / 10
-
-    w_ref_l = []
-    qweights_l = []
-    scales_l = []
-    zp_l = []
-
-    for i in range(w.shape[0]):
-        w_ref, qweight, scales, zp = awq_marlin_quantize(
-            w[i].transpose(1, 0), quant_type, group_size)
-        w_ref_l.append(w_ref)
-        qweights_l.append(qweight)
-        scales_l.append(scales)
-        zp_l.append(zp)
-
-    w_ref = stack_and_dev(w_ref_l)
-    qweight = stack_and_dev(qweights_l).contiguous()
-    scales = stack_and_dev(scales_l).contiguous()
-    zp = stack_and_dev(zp_l).contiguous()
-
-    score = torch.randn((m, e), device="cuda", dtype=dtype)
-
-    marlin_output = torch.ops.vllm.single_marlin_moe(a,
-                                                     qweight,
-                                                     scales,
-                                                     score,
-                                                     topk,
-                                                     renormalize=False,
-                                                     w_zeros=zp,
-                                                     num_bits=num_bits)
-
-    torch_output = torch_moe_single(a, w_ref.transpose(1, 2), score, topk)
-
-    assert compute_max_diff(marlin_output, torch_output) < 1e-2
diff --git a/tests/kernels/quantization/test_marlin_gemm.py b/tests/kernels/quantization/test_marlin_gemm.py
index 3165201aa..c125e0b5e 100644
--- a/tests/kernels/quantization/test_marlin_gemm.py
+++ b/tests/kernels/quantization/test_marlin_gemm.py
@@ -18,9 +18,10 @@ from vllm.model_executor.layers.quantization.qqq import (
 from vllm.model_executor.layers.quantization.utils.marlin_utils import (
     GPTQ_MARLIN_MAX_PARALLEL, GPTQ_MARLIN_MIN_THREAD_N,
     MARLIN_SUPPORTED_GROUP_SIZES, marlin_make_empty_g_idx,
-    marlin_permute_scales, query_marlin_supported_quant_types)
+    marlin_make_workspace_new, marlin_permute_scales,
+    query_marlin_supported_quant_types)
 from vllm.model_executor.layers.quantization.utils.marlin_utils_fp8 import (
-    pack_fp8_to_int32)
+    marlin_quant_fp8_torch)
 from vllm.model_executor.layers.quantization.utils.marlin_utils_test import (
     MarlinWorkspace, awq_marlin_quantize, get_weight_perm, marlin_quantize,
     marlin_weights)
@@ -73,7 +74,7 @@ def rand_data(shape, dtype=torch.float16):
 @pytest.mark.parametrize("k_chunk", MARLIN_K_CHUNKS)
 @pytest.mark.parametrize("n_chunk", MARLIN_N_CHUNKS)
 @pytest.mark.parametrize("quant_type",
-                         query_marlin_supported_quant_types(False))
+                         query_marlin_supported_quant_types(False, False))
 @pytest.mark.parametrize("group_size", MARLIN_SUPPORTED_GROUP_SIZES)
 @pytest.mark.parametrize("act_order", ACT_ORDER_OPTS)
 @pytest.mark.parametrize("mnk_factors", MNK_FACTORS)
@@ -138,7 +139,7 @@ def test_gptq_marlin_repack(k_chunk, n_chunk, quant_type, group_size,
 @pytest.mark.parametrize("k_chunk", MARLIN_K_CHUNKS)
 @pytest.mark.parametrize("n_chunk", MARLIN_N_CHUNKS)
 @pytest.mark.parametrize("quant_type",
-                         query_marlin_supported_quant_types(False))
+                         query_marlin_supported_quant_types(True))
 @pytest.mark.parametrize("group_size", MARLIN_SUPPORTED_GROUP_SIZES)
 @pytest.mark.parametrize("mnk_factors", MNK_FACTORS)
 def test_awq_marlin_repack(k_chunk, n_chunk, quant_type, group_size,
@@ -220,38 +221,50 @@ def test_gptq_marlin_gemm(
         if group_size == size_k:
             return
 
+    if size_k % group_size != 0:
+        return
+
     a_input = rand_data((size_m, size_k))
     b_weight = rand_data((size_k, size_n))
 
-    w_ref, marlin_q_w, marlin_s, g_idx, sort_indices, _ = marlin_quantize(
-        b_weight, quant_type, group_size, act_order)
+    if quant_type == scalar_types.float8_e4m3fn:
+        if group_size not in [-1, 128]:
+            return
+        if act_order:
+            return
+        w_ref, marlin_q_w, marlin_s = marlin_quant_fp8_torch(
+            b_weight.T, group_size)
+        g_idx = None
+        sort_indices = None
+    else:
+        w_ref, marlin_q_w, marlin_s, g_idx, sort_indices, _ = marlin_quantize(
+            b_weight, quant_type, group_size, act_order)
 
     marlin_zp = marlin_make_empty_g_idx(marlin_s.device)
 
-    workspace = MarlinWorkspace(size_n, GPTQ_MARLIN_MIN_THREAD_N,
-                                GPTQ_MARLIN_MAX_PARALLEL)
+    workspace = marlin_make_workspace_new(w_ref.device)
 
-    opcheck(torch.ops._C.gptq_marlin_gemm,
-            (a_input, marlin_q_w, marlin_s, marlin_zp, g_idx, sort_indices,
-             workspace.scratch, quant_type.id, a_input.shape[0],
-             b_weight.shape[1], a_input.shape[1], is_k_full, False,
-             use_atomic_add, use_fp32_reduce, False),
-            test_utils=DEFAULT_OPCHECK_TEST_UTILS)
+    opcheck(
+        torch.ops._C.gptq_marlin_gemm,
+        (a_input, None, marlin_q_w, marlin_s, marlin_zp, g_idx, sort_indices,
+         workspace, quant_type.id, a_input.shape[0], b_weight.shape[1],
+         a_input.shape[1], is_k_full, use_atomic_add, use_fp32_reduce, False),
+        test_utils=DEFAULT_OPCHECK_TEST_UTILS)
 
     output = ops.gptq_marlin_gemm(
         a_input,
+        None,
         marlin_q_w,
         marlin_s,
         marlin_zp,
         g_idx,
         sort_indices,
-        workspace.scratch,
+        workspace,
         quant_type,
         a_input.shape[0],
         b_weight.shape[1],
         a_input.shape[1],
         is_k_full=is_k_full,
-        has_zp=False,
         use_atomic_add=use_atomic_add,
         use_fp32_reduce=use_fp32_reduce,
         is_zp_float=False,
@@ -326,80 +339,6 @@ def test_gptq_marlin_24_gemm(k_chunk, n_chunk, quant_type, group_size,
     assert max_diff < 0.04
 
 
-@pytest.mark.skipif(not is_quant_method_supported("fp8"),
-                    reason="Marlin is not supported on this GPU type.")
-@pytest.mark.parametrize("k_chunk", MARLIN_K_CHUNKS)
-@pytest.mark.parametrize("n_chunk", MARLIN_N_CHUNKS)
-@pytest.mark.parametrize("num_bits", [8])
-@pytest.mark.parametrize("group_size", [-1])
-@pytest.mark.parametrize("mnk_factors", MNK_FACTORS)
-@pytest.mark.parametrize("dtype", DTYPES)
-def test_fp8_marlin_gemm(
-    k_chunk,
-    n_chunk,
-    num_bits,
-    group_size,
-    mnk_factors,
-    dtype,
-):
-    m_factor, n_factor, k_factor = mnk_factors
-
-    size_m = m_factor
-    size_k = k_chunk * k_factor
-    size_n = n_chunk * n_factor
-
-    a_input = rand_data((size_m, size_k), dtype=dtype)
-    b_weight = rand_data((size_k, size_n), dtype=dtype)
-
-    # WEIGHTS
-    fp8_weight, weight_scale = ops.scaled_fp8_quant(b_weight, scale=None)
-    # Repack weights to gptq format (packed int32 elements)
-    packed_gptq_qweight = pack_fp8_to_int32(fp8_weight)
-    # Repack weights to marlin format
-    marlin_qweight = ops.gptq_marlin_repack(
-        b_q_weight=packed_gptq_qweight,
-        perm=torch.empty(0, dtype=torch.int, device="cuda"),
-        size_k=size_k,
-        size_n=size_n,
-        num_bits=8,
-    )
-
-    # WEIGHT SCALES
-    # Currently Marlin doesn't support per-tensor scales, so we
-    # expand it to channelwise
-    scales = weight_scale.repeat(1, size_n).to(a_input.dtype).to("cuda")
-    # Permute scales
-    marlin_scales = marlin_permute_scales(s=scales,
-                                          size_k=size_k,
-                                          size_n=size_n,
-                                          group_size=-1)
-
-    workspace = MarlinWorkspace(size_n, GPTQ_MARLIN_MIN_THREAD_N,
-                                GPTQ_MARLIN_MAX_PARALLEL)
-
-    opcheck(torch.ops._C.fp8_marlin_gemm,
-            (a_input, marlin_qweight, marlin_scales, workspace.scratch,
-             num_bits, a_input.shape[0], b_weight.shape[1], a_input.shape[1]))
-
-    output = ops.fp8_marlin_gemm(
-        a=a_input,
-        b_q_weight=marlin_qweight,
-        b_scales=marlin_scales,
-        workspace=workspace.scratch,
-        num_bits=num_bits,
-        size_m=a_input.shape[0],
-        size_n=b_weight.shape[1],
-        size_k=a_input.shape[1],
-    )
-    output_ref = torch.matmul(a_input, b_weight)
-
-    torch.cuda.synchronize()
-
-    max_diff = compute_max_diff(output, output_ref)
-
-    assert max_diff < 0.04
-
-
 @pytest.mark.skipif(not is_quant_method_supported("gptq_marlin"),
                     reason="Marlin is not supported on this GPU type.")
 @pytest.mark.parametrize("k_chunk", MARLIN_K_CHUNKS)
@@ -432,25 +371,23 @@ def test_awq_marlin_gemm(
     g_idx = torch.empty(0, dtype=torch.int, device=marlin_q_w.device)
     sort_indices = torch.empty(0, dtype=torch.int, device=marlin_q_w.device)
     is_k_full = True
-    has_zp = True
 
-    workspace = MarlinWorkspace(size_n, GPTQ_MARLIN_MIN_THREAD_N,
-                                GPTQ_MARLIN_MAX_PARALLEL)
+    workspace = marlin_make_workspace_new(a_input.device)
 
     output = ops.gptq_marlin_gemm(
         a_input,
+        None,
         marlin_q_w,
         marlin_s,
         marlin_zp,
         g_idx,
         sort_indices,
-        workspace.scratch,
+        workspace,
         quant_type,
         a_input.shape[0],
         b_weight.shape[1],
         a_input.shape[1],
         is_k_full=is_k_full,
-        has_zp=has_zp,
         use_fp32_reduce=use_fp32_reduce,
         is_zp_float=False,
     )
@@ -508,23 +445,22 @@ def test_hqq_marlin_gemm(
     g_idx = marlin_make_empty_g_idx(dev)
     g_idx_sort_indices = marlin_make_empty_g_idx(dev)
 
-    workspace = MarlinWorkspace(size_n, GPTQ_MARLIN_MIN_THREAD_N,
-                                GPTQ_MARLIN_MAX_PARALLEL)
+    workspace = marlin_make_workspace_new(b_weight.device)
 
     output = ops.gptq_marlin_gemm(
         a_input,
+        None,
         marlin_w_q,
         marlin_s,
         marlin_zp,
         g_idx,
         g_idx_sort_indices,
-        workspace.scratch,
+        workspace,
         quant_type,
         a_input.shape[0],
         b_weight.shape[0],
         a_input.shape[1],
         is_k_full=True,
-        has_zp=True,
         use_fp32_reduce=use_fp32_reduce,
         is_zp_float=True,
     )
@@ -621,23 +557,22 @@ def test_marlin_gemm_subset_input():
         b_weight, quant_type, group_size, False)
 
     marlin_zp = marlin_make_empty_g_idx(marlin_s.device)
-    workspace = MarlinWorkspace(size_n, GPTQ_MARLIN_MIN_THREAD_N,
-                                GPTQ_MARLIN_MAX_PARALLEL)
+    workspace = marlin_make_workspace_new(a_input.device)
 
     output = ops.gptq_marlin_gemm(
         a_input,
+        None,
         marlin_q_w,
         marlin_s,
         marlin_zp,
         g_idx,
         sort_indices,
-        workspace.scratch,
+        workspace,
         quant_type,
         a_input.shape[0],
         b_weight.shape[1],
         a_input.shape[1],
         is_k_full=True,
-        has_zp=False,
         use_atomic_add=False,
         use_fp32_reduce=True,
         is_zp_float=False,
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index 64f431015..44377ccb2 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -325,18 +325,18 @@ if hasattr(torch.ops._C, "gptq_marlin_24_gemm"):
 
     @register_fake("_C::gptq_marlin_gemm")
     def _gptq_marlin_gemm_fake(a: torch.Tensor,
+                               c: Optional[torch.Tensor],
                                b_q_weight: torch.Tensor,
                                b_scales: torch.Tensor,
-                               b_zeros: torch.Tensor,
-                               g_idx: torch.Tensor,
-                               perm: torch.Tensor,
+                               b_zeros: Optional[torch.Tensor],
+                               g_idx: Optional[torch.Tensor],
+                               perm: Optional[torch.Tensor],
                                workspace: torch.Tensor,
-                               b_q_type: ScalarType,
+                               b_q_type_id: int,
                                size_m: torch.SymInt,
                                size_n: torch.SymInt,
                                size_k: torch.SymInt,
-                               is_k_full: bool,
-                               has_zp: bool = False,
+                               is_k_full: bool = True,
                                use_atomic_add: bool = False,
                                use_fp32_reduce: bool = False,
                                is_zp_float: bool = False) -> torch.Tensor:
@@ -407,14 +407,6 @@ if hasattr(torch.ops._C, "gptq_marlin_24_gemm"):
                            dtype=codebooks.dtype,
                            device=codebooks.device)
 
-    @register_fake("_C::fp8_marlin_gemm")
-    def _fp8_marlin_gemm_fake(a: torch.Tensor, b_q_weight: torch.Tensor,
-                              b_scales: torch.Tensor, workspace: torch.Tensor,
-                              num_bits: int, size_m: torch.SymInt,
-                              size_n: torch.SymInt,
-                              size_k: torch.SymInt) -> torch.Tensor:
-        return torch.empty((size_m, size_n), dtype=a.dtype, device=a.device)
-
     @register_fake("_C::machete_mm")
     def machete_mm_fake(
         a: torch.Tensor,
@@ -815,35 +807,26 @@ def awq_marlin_moe_repack(b_q_weight: torch.Tensor, perm: torch.Tensor,
 
 
 def gptq_marlin_gemm(a: torch.Tensor,
+                     c: Optional[torch.Tensor],
                      b_q_weight: torch.Tensor,
                      b_scales: torch.Tensor,
-                     b_zeros: torch.Tensor,
-                     g_idx: torch.Tensor,
-                     perm: torch.Tensor,
+                     b_zeros: Optional[torch.Tensor],
+                     g_idx: Optional[torch.Tensor],
+                     perm: Optional[torch.Tensor],
                      workspace: torch.Tensor,
                      b_q_type: ScalarType,
                      size_m: int,
                      size_n: int,
                      size_k: int,
-                     is_k_full: bool,
-                     has_zp: bool = False,
+                     is_k_full: bool = True,
                      use_atomic_add: bool = False,
                      use_fp32_reduce: bool = False,
                      is_zp_float: bool = False) -> torch.Tensor:
-    return torch.ops._C.gptq_marlin_gemm(a, b_q_weight, b_scales, b_zeros,
+    return torch.ops._C.gptq_marlin_gemm(a, c, b_q_weight, b_scales, b_zeros,
                                          g_idx, perm, workspace, b_q_type.id,
                                          size_m, size_n, size_k, is_k_full,
-                                         has_zp, use_atomic_add,
-                                         use_fp32_reduce, is_zp_float)
-
-
-# fp8 marlin
-def fp8_marlin_gemm(a: torch.Tensor, b_q_weight: torch.Tensor,
-                    b_scales: torch.Tensor, workspace: torch.Tensor,
-                    num_bits: int, size_m: int, size_n: int,
-                    size_k: int) -> torch.Tensor:
-    return torch.ops._C.fp8_marlin_gemm(a, b_q_weight, b_scales, workspace,
-                                        num_bits, size_m, size_n, size_k)
+                                         use_atomic_add, use_fp32_reduce,
+                                         is_zp_float)
 
 
 # machete
diff --git a/vllm/model_executor/layers/fused_moe/fused_marlin_moe.py b/vllm/model_executor/layers/fused_moe/fused_marlin_moe.py
index 238808b22..b96d34ec2 100644
--- a/vllm/model_executor/layers/fused_moe/fused_marlin_moe.py
+++ b/vllm/model_executor/layers/fused_moe/fused_marlin_moe.py
@@ -7,163 +7,13 @@ import torch
 
 import vllm._custom_ops as ops
 from vllm.model_executor.layers.fused_moe.fused_moe import (
-    fused_topk, moe_align_block_size, try_get_optimal_moe_config)
-from vllm.scalar_type import scalar_types
+    moe_align_block_size, try_get_optimal_moe_config)
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    marlin_make_workspace_new, maybe_warn_marlin_atomic_add)
+from vllm.scalar_type import ScalarType, scalar_types
 from vllm.utils import direct_register_custom_op
 
 
-def get_scalar_type(num_bits: int, has_zp: bool):
-    if has_zp:
-        return scalar_types.uint4 if num_bits == 4 else scalar_types.uint8
-    else:
-        return scalar_types.uint4b8 if num_bits == 4 else scalar_types.uint8b128
-
-
-def single_marlin_moe(
-    hidden_states: torch.Tensor,
-    w: torch.Tensor,
-    scales: torch.Tensor,
-    gating_output: torch.Tensor,
-    topk: int,
-    renormalize: bool,
-    global_num_experts: int = -1,
-    expert_map: Optional[torch.Tensor] = None,
-    g_idx: Optional[torch.Tensor] = None,
-    sort_indices: Optional[torch.Tensor] = None,
-    w_zeros: Optional[torch.Tensor] = None,
-    workspace: Optional[torch.Tensor] = None,
-    num_bits: int = 8,
-    is_k_full: bool = True,
-) -> torch.Tensor:
-    """
-    This function computes the multiplication of hidden_states with expert
-    weights used in Marlin MoE, using weights w and top-k gating mechanism.
-    Its purpose is testing and debugging the fused MoE kernel.
-
-    Parameters:
-    - hidden_states (torch.Tensor): The input tensor to the Marlin Mul.
-    - w (torch.Tensor): The set of expert weights.
-    - scales (torch.Tensor): The quantization scales.
-    - gating_output (torch.Tensor): The output of the gating operation
-        (before softmax).
-    - g_idx (Optional[torch.Tensor]): Optional act_order indices.
-    - sort_indices (Optional[torch.Tensor]): Optional act_order input
-      permutation.
-    - topk (int): The number of top-k experts to select.
-    - renormalize (bool): If True, renormalize the top-k weights to sum to 1.
-    - w_zeros (Optional[torch.Tensor]): Optional zero points to be used for w.
-    - num_bits (bool): The number of bits in expert weights quantization.
-
-    Returns:
-    - torch.Tensor: The output tensor after applying the MoE layer.
-    """
-    # Check constraints.
-    assert hidden_states.shape[0] == gating_output.shape[0], (
-        "Number of tokens mismatch")
-    assert hidden_states.shape[1] == w.shape[1] * 16, "Hidden size mismatch"
-    assert gating_output.shape[1] == w.shape[0], "Number of experts mismatch"
-    assert hidden_states.is_contiguous(), "Hidden_states must be contiguous"
-    assert w.is_contiguous(), "Expert weights must be contiguous"
-    assert hidden_states.dtype in [torch.float16, torch.bfloat16]
-    assert num_bits in [4, 8]
-
-    M, K = hidden_states.shape
-    E = w.shape[0]
-    N = w.shape[2] // (num_bits // 2)
-
-    topk_weights, topk_ids, token_expert_indices = fused_topk(
-        hidden_states, gating_output, topk, renormalize)
-
-    # This might not be an optimal config for a single MMM
-    get_config_func = functools.partial(try_get_optimal_moe_config,
-                                        w.shape,
-                                        w.shape,
-                                        topk_ids.shape[1],
-                                        None,
-                                        is_marlin=True)
-    config = get_config_func(M)
-
-    block_size_m = config['BLOCK_SIZE_M']
-
-    if global_num_experts == -1:
-        global_num_experts = E
-    sorted_token_ids, expert_ids, num_tokens_post_padded = \
-        moe_align_block_size(topk_ids, block_size_m, E, expert_map)
-
-    if workspace is None:
-        max_workspace_size = (max(2 * N, K) // 64) * \
-            (sorted_token_ids.size(0) // block_size_m)
-        device = hidden_states.device
-        sms = torch.cuda.get_device_properties(device).multi_processor_count
-        max_workspace_size = min(max_workspace_size, sms)
-        workspace = torch.zeros(max_workspace_size,
-                                dtype=torch.int,
-                                device=device,
-                                requires_grad=False)
-
-    scalar_type = get_scalar_type(num_bits, w_zeros is not None)
-    intermediate_cache = torch.empty(
-        (M * topk_ids.shape[1], N),
-        device=hidden_states.device,
-        dtype=hidden_states.dtype,
-    )
-
-    ops.moe_wna16_marlin_gemm(hidden_states,
-                              intermediate_cache,
-                              w,
-                              scales,
-                              w_zeros,
-                              g_idx,
-                              sort_indices,
-                              workspace,
-                              sorted_token_ids,
-                              expert_ids,
-                              num_tokens_post_padded,
-                              topk_weights,
-                              moe_block_size=block_size_m,
-                              top_k=topk,
-                              mul_topk_weights=False,
-                              is_ep=expert_map is not None,
-                              b_q_type=scalar_type,
-                              size_m=M,
-                              size_n=N,
-                              size_k=K,
-                              is_k_full=is_k_full,
-                              use_atomic_add=False,
-                              use_fp32_reduce=True,
-                              is_zp_float=False)
-    intermediate_cache = intermediate_cache.view(-1, topk, N)
-
-    return torch.sum(intermediate_cache.view(*intermediate_cache.shape), dim=1)
-
-
-def single_marlin_moe_fake(
-    hidden_states: torch.Tensor,
-    w: torch.Tensor,
-    scales: torch.Tensor,
-    gating_output: torch.Tensor,
-    topk: int,
-    renormalize: bool,
-    global_num_experts: int = -1,
-    expert_map: Optional[torch.Tensor] = None,
-    g_idx: Optional[torch.Tensor] = None,
-    sort_indices: Optional[torch.Tensor] = None,
-    w_zeros: Optional[torch.Tensor] = None,
-    workspace: Optional[torch.Tensor] = None,
-    num_bits: int = 8,
-    is_k_full: bool = True,
-) -> torch.Tensor:
-    return torch.empty_like(hidden_states)
-
-
-direct_register_custom_op(
-    op_name="single_marlin_moe",
-    op_func=single_marlin_moe,
-    mutates_args=[],
-    fake_impl=single_marlin_moe_fake,
-)
-
-
 def fused_marlin_moe(hidden_states: torch.Tensor,
                      w1: torch.Tensor,
                      w2: torch.Tensor,
@@ -172,6 +22,7 @@ def fused_marlin_moe(hidden_states: torch.Tensor,
                      gating_output: torch.Tensor,
                      topk_weights: torch.Tensor,
                      topk_ids: torch.Tensor,
+                     quant_type_id: int,
                      global_num_experts: int = -1,
                      expert_map: Optional[torch.Tensor] = None,
                      g_idx1: Optional[torch.Tensor] = None,
@@ -181,7 +32,6 @@ def fused_marlin_moe(hidden_states: torch.Tensor,
                      w1_zeros: Optional[torch.Tensor] = None,
                      w2_zeros: Optional[torch.Tensor] = None,
                      workspace: Optional[torch.Tensor] = None,
-                     num_bits: int = 8,
                      is_k_full: bool = True,
                      inplace: bool = False) -> torch.Tensor:
     """
@@ -211,6 +61,15 @@ def fused_marlin_moe(hidden_states: torch.Tensor,
     Returns:
     - torch.Tensor: The output tensor after applying the MoE layer.
     """
+    quant_type = ScalarType.from_id(quant_type_id)
+    assert quant_type in [
+        scalar_types.uint4, scalar_types.uint8b128, scalar_types.uint4b8,
+        scalar_types.float8_e4m3fn
+    ]
+
+    int4_scalar_types = [scalar_types.uint4, scalar_types.uint4b8]
+    num_bits = 4 if quant_type in int4_scalar_types else 8
+
     # Check constraints.
     assert hidden_states.shape[0] == gating_output.shape[
         0], "Number of tokens mismatch"
@@ -248,18 +107,7 @@ def fused_marlin_moe(hidden_states: torch.Tensor,
                              expert_map)
 
     if workspace is None:
-        max_workspace_size = (max(2 * N, K) // 64) * \
-            (sorted_token_ids.size(0) // block_size_m)
-        device = hidden_states.device
-        sms = torch.cuda.get_device_properties(device).multi_processor_count
-        max_workspace_size = min(max_workspace_size, sms * 4)
-        workspace = torch.zeros(max_workspace_size,
-                                dtype=torch.int,
-                                device=device,
-                                requires_grad=False)
-
-    scalar_type1 = get_scalar_type(num_bits, w1_zeros is not None)
-    scalar_type2 = get_scalar_type(num_bits, w2_zeros is not None)
+        workspace = marlin_make_workspace_new(hidden_states.device, 4)
 
     intermediate_cache2 = torch.empty(
         (M * topk_ids.shape[1], N),
@@ -276,6 +124,7 @@ def fused_marlin_moe(hidden_states: torch.Tensor,
     intermediate_cache3 = intermediate_cache13[:M * topk_ids.shape[1] * K]
     intermediate_cache3 = intermediate_cache3.view(-1, K)
 
+    maybe_warn_marlin_atomic_add(hidden_states.device, hidden_states.dtype)
     use_atomic_add = hidden_states.dtype == torch.half or \
         torch.cuda.get_device_capability(hidden_states.device)[0] >= 9
 
@@ -296,7 +145,7 @@ def fused_marlin_moe(hidden_states: torch.Tensor,
         top_k=topk,
         mul_topk_weights=False,
         is_ep=expert_map is not None,
-        b_q_type=scalar_type1,
+        b_q_type=quant_type,
         size_m=M,
         size_n=2 * N,
         size_k=K,
@@ -328,7 +177,7 @@ def fused_marlin_moe(hidden_states: torch.Tensor,
         top_k=1,
         mul_topk_weights=True,
         is_ep=expert_map is not None,
-        b_q_type=scalar_type2,
+        b_q_type=quant_type,
         size_m=M * topk,
         size_n=K,
         size_k=N,
@@ -351,6 +200,7 @@ def fused_marlin_moe_fake(hidden_states: torch.Tensor,
                           gating_output: torch.Tensor,
                           topk_weights: torch.Tensor,
                           topk_ids: torch.Tensor,
+                          quant_type_id: int,
                           global_num_experts: int = -1,
                           expert_map: Optional[torch.Tensor] = None,
                           g_idx1: Optional[torch.Tensor] = None,
@@ -360,7 +210,6 @@ def fused_marlin_moe_fake(hidden_states: torch.Tensor,
                           w1_zeros: Optional[torch.Tensor] = None,
                           w2_zeros: Optional[torch.Tensor] = None,
                           workspace: Optional[torch.Tensor] = None,
-                          num_bits: int = 8,
                           is_k_full: bool = True,
                           inplace: bool = False) -> torch.Tensor:
     return torch.empty_like(hidden_states)
diff --git a/vllm/model_executor/layers/quantization/awq_marlin.py b/vllm/model_executor/layers/quantization/awq_marlin.py
index f7c885c2b..556166f19 100644
--- a/vllm/model_executor/layers/quantization/awq_marlin.py
+++ b/vllm/model_executor/layers/quantization/awq_marlin.py
@@ -22,9 +22,10 @@ from vllm.model_executor.layers.quantization.utils import replace_parameter
 from vllm.model_executor.layers.quantization.utils.marlin_utils import (
     apply_awq_marlin_linear, awq_to_marlin_zero_points, check_marlin_supported,
     check_marlin_supports_layer, check_moe_marlin_supports_layer,
-    marlin_make_empty_g_idx, marlin_make_workspace, marlin_moe_permute_scales,
-    marlin_permute_scales, moe_awq_to_marlin_zero_points,
-    verify_marlin_supported, verify_marlin_supports_shape)
+    marlin_make_empty_g_idx, marlin_make_workspace_new,
+    marlin_moe_permute_scales, marlin_permute_scales,
+    moe_awq_to_marlin_zero_points, verify_marlin_supported,
+    verify_marlin_supports_shape)
 from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
 from vllm.model_executor.parameter import (GroupQuantScaleParameter,
                                            PackedvLLMParameter)
@@ -267,8 +268,7 @@ class AWQMarlinLinearMethod(LinearMethodBase):
                                           requires_grad=False)
 
         # Allocate marlin workspace
-        layer.workspace = marlin_make_workspace(
-            layer.output_size_per_partition, device)
+        layer.workspace = marlin_make_workspace_new(device)
 
         # Repack weights from AWQ format to marlin format.
         marlin_qweight = ops.awq_marlin_repack(
@@ -322,6 +322,9 @@ class AWQMoEMethod(FusedMoEMethodBase):
 
     def __init__(self, quant_config: AWQMarlinConfig):
         self.quant_config = quant_config
+        if self.quant_config.weight_bits != 4:
+            raise ValueError("AWQMoEMethod only supports 4bit now.")
+        self.quant_type = scalar_types.uint4
 
     def create_weights(self, layer: torch.nn.Module, num_experts: int,
                        hidden_size: int, intermediate_size_per_partition: int,
@@ -396,11 +399,7 @@ class AWQMoEMethod(FusedMoEMethodBase):
         set_weight_attrs(w2_qzeros, extra_weight_attrs)
 
         device = layer.w13_qweight.device
-        sms = torch.cuda.get_device_properties(device).multi_processor_count
-        layer.workspace = torch.zeros((sms * 4, ),
-                                      dtype=torch.int,
-                                      device=device,
-                                      requires_grad=False)
+        layer.workspace = marlin_make_workspace_new(device, 4)
 
     def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
         num_experts = layer.w13_qweight.shape[0]
@@ -511,10 +510,9 @@ class AWQMoEMethod(FusedMoEMethodBase):
             router_logits,
             topk_weights,
             topk_ids,
+            quant_type_id=self.quant_type.id,
             global_num_experts=global_num_experts,
             expert_map=expert_map,
             w1_zeros=layer.w13_qzeros,
             w2_zeros=layer.w2_qzeros,
-            workspace=layer.workspace,
-            num_bits=self.quant_config.weight_bits,
-        )
+            workspace=layer.workspace)
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a16_fp8.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a16_fp8.py
index 5c8261908..1b54e154e 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a16_fp8.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a16_fp8.py
@@ -55,7 +55,7 @@ class CompressedTensorsW8A16Fp8(CompressedTensorsScheme):
             # required by torch.compile to be torch.nn.Parameter
             layer.input_scale = torch.nn.Parameter(layer.input_scale.data,
                                                    requires_grad=False)
-        prepare_fp8_layer_for_marlin(layer, strategy="channel")
+        prepare_fp8_layer_for_marlin(layer)
 
     def create_weights(self, layer: torch.nn.Module, input_size: int,
                        output_partition_sizes: List[int],
@@ -68,6 +68,7 @@ class CompressedTensorsW8A16Fp8(CompressedTensorsScheme):
         layer.input_size_per_partition = input_size_per_partition
         layer.output_size_per_partition = output_size_per_partition
         layer.orig_dtype = params_dtype
+        layer.weight_block_size = None
 
         # WEIGHT
         weight = ModelWeightParameter(data=torch.empty(
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index 5515ba27e..f7056016f 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -21,19 +21,21 @@ from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.kv_cache import BaseKVCacheMethod
 from vllm.model_executor.layers.quantization.utils.marlin_utils_fp8 import (
-    apply_fp8_marlin_linear, prepare_fp8_layer_for_marlin)
+    apply_fp8_marlin_linear, prepare_fp8_layer_for_marlin,
+    prepare_moe_fp8_layer_for_marlin)
 from vllm.model_executor.layers.quantization.utils.quant_utils import (
     is_layer_skipped)
 from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
-    Fp8LinearOp, all_close_1d, convert_to_channelwise,
-    cutlass_block_fp8_supported, cutlass_fp8_supported,
-    maybe_create_device_identity, normalize_e4m3fn_to_e4m3fnuz,
-    per_tensor_dequantize, requantize_with_max_scale)
+    Fp8LinearOp, all_close_1d, cutlass_block_fp8_supported,
+    cutlass_fp8_supported, maybe_create_device_identity,
+    normalize_e4m3fn_to_e4m3fnuz, per_tensor_dequantize,
+    requantize_with_max_scale)
 from vllm.model_executor.parameter import (BlockQuantScaleParameter,
                                            ModelWeightParameter,
                                            PerTensorScaleParameter)
 from vllm.model_executor.utils import set_weight_attrs
 from vllm.platforms import current_platform
+from vllm.scalar_type import scalar_types
 
 ACTIVATION_SCHEMES = ["static", "dynamic"]
 
@@ -181,10 +183,6 @@ class Fp8LinearMethod(LinearMethodBase):
             self.use_marlin = False
 
         self.block_quant = self.quant_config.weight_block_size is not None
-        if self.block_quant:
-            # Marlin doesn't support block-wise fp8
-            self.use_marlin = False
-
         self.fp8_linear = Fp8LinearOp(
             # Default to using per_token quantization if cutlass is supported
             use_per_token_if_dynamic=cutlass_fp8_supported())
@@ -203,10 +201,16 @@ class Fp8LinearMethod(LinearMethodBase):
 
         output_size_per_partition = sum(output_partition_sizes)
         weight_loader = extra_weight_attrs.get("weight_loader")
+        layer.logical_widths = output_partition_sizes
+        layer.input_size_per_partition = input_size_per_partition
+        layer.output_size_per_partition = output_size_per_partition
+        layer.orig_dtype = params_dtype
+        layer.weight_block_size = None
 
         if self.block_quant:
             tp_size = get_tensor_model_parallel_world_size()
             assert self.quant_config.weight_block_size is not None
+            layer.weight_block_size = self.quant_config.weight_block_size
             block_n, block_k = (
                 self.quant_config.weight_block_size[0],
                 self.quant_config.weight_block_size[1],
@@ -229,12 +233,6 @@ class Fp8LinearMethod(LinearMethodBase):
                             f"{output_partition_size} is not divisible by "
                             f"weight quantization block_n = {block_n}.")
 
-        layer.logical_widths = output_partition_sizes
-
-        layer.input_size_per_partition = input_size_per_partition
-        layer.output_size_per_partition = output_size_per_partition
-        layer.orig_dtype = params_dtype
-
         # WEIGHT
         weight_dtype = (torch.float8_e4m3fn
                         if self.quant_config.is_checkpoint_fp8_serialized else
@@ -303,9 +301,11 @@ class Fp8LinearMethod(LinearMethodBase):
         return weight
 
     def process_weights_after_loading(self, layer: Module) -> None:
+        size_k_first = True
         # TODO(rob): refactor block quant into separate class.
         if self.block_quant:
             assert self.quant_config.activation_scheme == "dynamic"
+            size_k_first = False
             if current_platform.is_fp8_fnuz():
                 weight, weight_scale_inv, _ = \
                     normalize_e4m3fn_to_e4m3fnuz(
@@ -321,21 +321,12 @@ class Fp8LinearMethod(LinearMethodBase):
             layer.weight = Parameter(weight, requires_grad=False)
             layer.weight_scale_inv = Parameter(weight_scale_inv,
                                                requires_grad=False)
-            return
 
         # If checkpoint not serialized fp8, quantize the weights.
-        if not self.quant_config.is_checkpoint_fp8_serialized:
+        elif not self.quant_config.is_checkpoint_fp8_serialized:
             qweight, weight_scale = ops.scaled_fp8_quant(layer.weight,
                                                          scale=None)
 
-            # If using marlin (w8a16), kernel uses channelwise weights,
-            # so extend the weight scales to be channelwise.
-            if self.use_marlin:
-                assert weight_scale.numel() == 1
-                weight_scale = convert_to_channelwise(
-                    weight_scale.expand(len(layer.logical_widths)),
-                    layer.logical_widths)
-
             # Update the layer with the new values.
             layer.weight = Parameter(qweight.t(), requires_grad=False)
             layer.weight_scale = Parameter(weight_scale, requires_grad=False)
@@ -349,20 +340,14 @@ class Fp8LinearMethod(LinearMethodBase):
             if self.quant_config.activation_scheme == "static":
                 layer.input_scale = torch.nn.Parameter(layer.input_scale.data,
                                                        requires_grad=False)
-            # If using marlin (w8a16), kernel uses channelwise weights,
-            # so extend the weight scales to be channelwise.
-            if self.use_marlin:
-                weight = layer.weight
-                weight_scale = convert_to_channelwise(layer.weight_scale,
-                                                      layer.logical_widths)
+
+            weight = layer.weight
+            weight_scale = layer.weight_scale
 
             # If using w8a8, torch._scaled_mm needs per tensor, so
             # requantize the logical shards as a single weight.
-            else:
+            if not self.use_marlin:
                 # Dequant -> Quant with max scale so we can run per tensor.
-                weight = layer.weight
-                weight_scale = layer.weight_scale
-
                 if current_platform.is_fp8_fnuz():
                     weight, weight_scale, input_scale = \
                         normalize_e4m3fn_to_e4m3fnuz(
@@ -388,7 +373,7 @@ class Fp8LinearMethod(LinearMethodBase):
                                               requires_grad=False)
 
         if self.use_marlin:
-            prepare_fp8_layer_for_marlin(layer)
+            prepare_fp8_layer_for_marlin(layer, size_k_first)
             # Activations not quantized for marlin.
             del layer.input_scale
 
@@ -444,6 +429,14 @@ class Fp8MoEMethod(FusedMoEMethodBase):
         self.quant_config = quant_config
         self.block_quant = self.quant_config.weight_block_size is not None
 
+        # For GPUs that lack FP8 hardware support, we can leverage the Marlin
+        # kernel for fast weight-only FP8 quantization
+        self.use_marlin = (not current_platform.has_device_capability(89)
+                           or envs.VLLM_TEST_FORCE_FP8_MARLIN)
+        # Disable marlin for rocm
+        if current_platform.is_rocm():
+            self.use_marlin = False
+
         # Check for DeepGemm support.
         self.allow_deep_gemm = False
         if envs.VLLM_USE_DEEP_GEMM:
@@ -461,10 +454,17 @@ class Fp8MoEMethod(FusedMoEMethodBase):
                        intermediate_size_per_partition: int,
                        params_dtype: torch.dtype, **extra_weight_attrs):
 
+        layer.intermediate_size_per_partition = intermediate_size_per_partition
+        layer.hidden_size = hidden_size
+        layer.num_experts = num_experts
+        layer.orig_dtype = params_dtype
+        layer.weight_block_size = None
+
         if self.quant_config.is_checkpoint_fp8_serialized:
             params_dtype = torch.float8_e4m3fn
         if self.block_quant:
             assert self.quant_config.weight_block_size is not None
+            layer.weight_block_size = self.quant_config.weight_block_size
             tp_size = get_tensor_model_parallel_world_size()
             block_n, block_k = (
                 self.quant_config.weight_block_size[0],
@@ -630,10 +630,8 @@ class Fp8MoEMethod(FusedMoEMethodBase):
                     layer.w2_weight_scale_inv = \
                         dg.get_col_major_tma_aligned_tensor(layer.w2_weight_scale_inv).contiguous()
 
-            return
-
         # If checkpoint is fp16, quantize in place.
-        if not self.quant_config.is_checkpoint_fp8_serialized:
+        elif not self.quant_config.is_checkpoint_fp8_serialized:
             fp8_dtype = current_platform.fp8_dtype()
             w13_weight = torch.empty_like(layer.w13_weight.data,
                                           dtype=fp8_dtype)
@@ -677,8 +675,6 @@ class Fp8MoEMethod(FusedMoEMethodBase):
                                                       requires_grad=False)
                 layer.w2_weight = torch.nn.Parameter(shuffled_w2,
                                                      requires_grad=False)
-            return
-
         # If checkpoint is fp8, we need to handle that the
         # MoE kernels require single activation scale and single weight
         # scale for w13 per expert.
@@ -766,7 +762,12 @@ class Fp8MoEMethod(FusedMoEMethodBase):
 
             layer.w13_weight_scale = torch.nn.Parameter(max_w13_scales,
                                                         requires_grad=False)
-            return
+
+        if self.use_marlin:
+            prepare_moe_fp8_layer_for_marlin(layer, False)
+            # Activations not quantized for marlin.
+            del layer.w13_input_scale
+            del layer.w2_input_scale
 
     def apply(
         self,
@@ -801,6 +802,20 @@ class Fp8MoEMethod(FusedMoEMethodBase):
             e_score_correction_bias=e_score_correction_bias,
         )
 
+        if self.use_marlin:
+            return torch.ops.vllm.fused_marlin_moe(
+                x,
+                layer.w13_weight,
+                layer.w2_weight,
+                layer.w13_weight_scale,
+                layer.w2_weight_scale,
+                router_logits,
+                topk_weights,
+                topk_ids,
+                quant_type_id=scalar_types.float8_e4m3fn.id,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map)
+
         return fused_experts(
             x,
             layer.w13_weight,
diff --git a/vllm/model_executor/layers/quantization/gptq_marlin.py b/vllm/model_executor/layers/quantization/gptq_marlin.py
index 703d54b3b..56aafca87 100644
--- a/vllm/model_executor/layers/quantization/gptq_marlin.py
+++ b/vllm/model_executor/layers/quantization/gptq_marlin.py
@@ -21,8 +21,8 @@ from vllm.model_executor.layers.quantization.utils.gptq_utils import (
     get_linear_quant_method)
 from vllm.model_executor.layers.quantization.utils.marlin_utils import (
     check_marlin_supported, check_moe_marlin_supports_layer,
-    marlin_moe_permute_scales, marlin_repeat_scales_on_all_ranks,
-    verify_marlin_supported)
+    marlin_make_workspace_new, marlin_moe_permute_scales,
+    marlin_repeat_scales_on_all_ranks, verify_marlin_supported)
 from vllm.model_executor.parameter import (ChannelQuantScaleParameter,
                                            GroupQuantScaleParameter,
                                            PackedColumnParameter,
@@ -350,6 +350,13 @@ class GPTQMarlinMoEMethod(FusedMoEMethodBase):
 
     def __init__(self, quant_config: GPTQMarlinConfig) -> None:
         self.quant_config = quant_config
+        if self.quant_config.quant_type.size_bits == 4:
+            self.quant_type = scalar_types.uint4b8
+        elif self.quant_config.quant_type.size_bits == 8:
+            self.quant_type = scalar_types.uint8b128
+        else:
+            raise ValueError(
+                "GPTQMarlinMoEMethod only supports int4 and int8 now.")
 
     def create_weights(
         self,
@@ -498,11 +505,7 @@ class GPTQMarlinMoEMethod(FusedMoEMethodBase):
         set_weight_attrs(w2_g_idx_sort_indices, extra_weight_attrs)
 
         device = layer.w13_qweight.device
-        sms = torch.cuda.get_device_properties(device).multi_processor_count
-        layer.workspace = torch.zeros((sms * 4, ),
-                                      dtype=torch.int,
-                                      device=device,
-                                      requires_grad=False)
+        layer.workspace = marlin_make_workspace_new(device, 4)
 
     def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
 
@@ -633,12 +636,12 @@ class GPTQMarlinMoEMethod(FusedMoEMethodBase):
             router_logits,
             topk_weights,
             topk_ids,
+            quant_type_id=self.quant_type.id,
             global_num_experts=global_num_experts,
             expert_map=expert_map,
             g_idx1=layer.w13_g_idx,
             g_idx2=layer.w2_g_idx,
             sort_indices1=layer.w13_g_idx_sort_indices,
             sort_indices2=layer.w2_g_idx_sort_indices,
-            num_bits=self.quant_config.quant_type.size_bits,
             workspace=layer.workspace,
             is_k_full=self.is_k_full)
diff --git a/vllm/model_executor/layers/quantization/kernels/mixed_precision/marlin.py b/vllm/model_executor/layers/quantization/kernels/mixed_precision/marlin.py
index 7bd824ff9..97fcde161 100644
--- a/vllm/model_executor/layers/quantization/kernels/mixed_precision/marlin.py
+++ b/vllm/model_executor/layers/quantization/kernels/mixed_precision/marlin.py
@@ -8,7 +8,7 @@ from vllm import _custom_ops as ops
 from vllm.model_executor.layers.quantization.utils.marlin_utils import (
     MARLIN_SUPPORTED_GROUP_SIZES, apply_gptq_marlin_linear,
     check_marlin_supports_shape, marlin_is_k_full, marlin_make_empty_g_idx,
-    marlin_make_workspace, marlin_permute_scales, marlin_sort_g_idx,
+    marlin_make_workspace_new, marlin_permute_scales, marlin_sort_g_idx,
     marlin_zero_points, query_marlin_supported_quant_types, unpack_cols)
 from vllm.model_executor.parameter import (BasevLLMParameter,
                                            permute_param_layout_)
@@ -53,8 +53,7 @@ class MarlinLinearKernel(MPLinearKernel):
         self.is_k_full = marlin_is_k_full(c.has_g_idx, row_parallel)
 
         # Allocate marlin workspace.
-        self.workspace = marlin_make_workspace(c.partition_weight_shape[1],
-                                               device)
+        self.workspace = marlin_make_workspace_new(device)
 
         # Default names since marlin requires empty parameters for these,
         # TODO: remove this requirement from marlin (allow optional tensors)
@@ -127,6 +126,5 @@ class MarlinLinearKernel(MPLinearKernel):
             wtype=c.weight_type,
             input_size_per_partition=c.partition_weight_shape[0],
             output_size_per_partition=c.partition_weight_shape[1],
-            has_zp=self.config.zero_points,
             is_k_full=self.is_k_full,
             bias=bias)
diff --git a/vllm/model_executor/layers/quantization/utils/marlin_utils.py b/vllm/model_executor/layers/quantization/utils/marlin_utils.py
index 4a190480d..a2b1b7cb0 100644
--- a/vllm/model_executor/layers/quantization/utils/marlin_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils.py
@@ -7,12 +7,15 @@ import torch
 
 import vllm.envs as envs
 from vllm import _custom_ops as ops
+from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import LinearBase
 from vllm.platforms import current_platform
 from vllm.scalar_type import ScalarType, scalar_types
 
 from .quant_utils import pack_cols, unpack_cols
 
+logger = init_logger(__name__)
+
 GPTQ_MARLIN_TILE = 16
 GPTQ_MARLIN_MIN_THREAD_N = 64
 GPTQ_MARLIN_MIN_THREAD_K = 128
@@ -29,9 +32,11 @@ USE_FP32_REDUCE_DEFAULT = True
 # For binary size and compile time, we don't support the same types for with and
 #  without runtime zero-point. We support common cases, i.e. AWQ and GPTQ.
 #  TODO: we may want to move this into the C++ so its closer to the actual impl
-def query_marlin_supported_quant_types(has_zp: bool,
-                                       device_capability: Optional[int] = None
-                                       ):
+def query_marlin_supported_quant_types(
+    has_zp: bool,
+    include_fp_type: bool = True,
+    device_capability: Optional[int] = None,
+):
     if device_capability is None:
         capability_tuple = current_platform.get_device_capability()
         device_capability = (-1 if capability_tuple is None else
@@ -42,12 +47,13 @@ def query_marlin_supported_quant_types(has_zp: bool,
 
     if has_zp:
         # AWQ style, unsigned + runtime zero-point
-        return [scalar_types.uint4, scalar_types.uint8]
+        return [scalar_types.uint4]
     else:
         # GPTQ style, unsigned + symmetric bias
-        # TODO: once fp8_marlin is merged into "gptq_marlin" we should be able
-        #  to add `scalar_types.float8_e4m3fn` here
-        return [scalar_types.uint4b8, scalar_types.uint8b128]
+        res = [scalar_types.uint4b8, scalar_types.uint8b128]
+        if include_fp_type:
+            res += [scalar_types.float8_e4m3fn]
+        return res
 
 
 def _check_marlin_supported(
@@ -62,7 +68,7 @@ def _check_marlin_supported(
                              capability_tuple.to_int())
 
     supported_types = query_marlin_supported_quant_types(
-        has_zp, device_capability)
+        has_zp, True, device_capability)
 
     if quant_type not in supported_types:
         return (False, f"Marlin does not support weight_bits = {quant_type}. "
@@ -175,6 +181,17 @@ def marlin_make_workspace(output_size_per_partition: int,
                        requires_grad=False)
 
 
+def marlin_make_workspace_new(device: torch.device,
+                              max_blocks_per_sm: int = 1) -> torch.Tensor:
+    # In the new marlin kernel, we use the num of threadblocks as workspace
+    # size. The num of threadblocks is is sms_count * max_blocks_per_sm.
+    sms = torch.cuda.get_device_properties(device).multi_processor_count
+    return torch.zeros(sms * max_blocks_per_sm,
+                       dtype=torch.int,
+                       device=device,
+                       requires_grad=False)
+
+
 def marlin_is_k_full(act_order: bool, is_row_parallel: bool) -> bool:
     return (not act_order) or (act_order and not is_row_parallel)
 
@@ -304,21 +321,50 @@ def moe_awq_to_marlin_zero_points(q_zp_packed: torch.Tensor, size_k: int,
     return output
 
 
+def maybe_warn_marlin_atomic_add(device, dtype):
+    if torch.compiler.is_dynamo_compiling():
+        return
+    device_capability = torch.cuda.get_device_capability(device)
+    if device_capability[0] < 9 and dtype == torch.bfloat16:
+        logger.info_once(
+            "You are running Marlin kernel with bf16 on GPUs before SM90. "
+            "You can consider change to fp16 to achieve better performance "
+            "if possible.")
+
+
+def maybe_warn_marlin_atomic_add_env():
+    if torch.compiler.is_dynamo_compiling():
+        return
+    if envs.VLLM_MARLIN_USE_ATOMIC_ADD:
+        return
+    logger.info_once(
+        "Marlin kernel can achieve better performance for small size_n "
+        "with experimental use_atomic_add feature. "
+        "You can consider set environment variable "
+        "VLLM_MARLIN_USE_ATOMIC_ADD to 1 if possible.")
+
+
 def should_use_atomic_add_reduce(m: int, n: int, k: int, device: torch.device,
                                  dtype: torch.dtype) -> bool:
+
+    # the performance of atomicAdd is better than global reduce
+    # only when m*n is small and k is large
+    if n >= 2048 or k < 2048 or device.type != "cuda":
+        return False
+
     # disable atomicAdd reduce by default,
     # one can enable it with VLLM_MARLIN_USE_ATOMIC_ADD=1
-    if not envs.VLLM_MARLIN_USE_ATOMIC_ADD or device.type != "cuda":
+    if not envs.VLLM_MARLIN_USE_ATOMIC_ADD:
+        maybe_warn_marlin_atomic_add_env()
         return False
 
     # sm8x doesn't support atomicAdd + bfloat16 natively
     device_capability = torch.cuda.get_device_capability(device)
     if device_capability[0] < 9 and dtype == torch.bfloat16:
+        maybe_warn_marlin_atomic_add(device, dtype)
         return False
 
-    # the performance of atomicAdd is better than global reduce
-    # only when m*n is small and k is large
-    return n < 2048 and k >= 2048
+    return True
 
 
 def apply_gptq_marlin_linear(
@@ -332,7 +378,6 @@ def apply_gptq_marlin_linear(
         wtype: ScalarType,
         output_size_per_partition: int,
         input_size_per_partition: int,
-        has_zp: bool,
         is_k_full: bool,
         bias: Optional[torch.Tensor] = None,
         use_fp32_reduce: bool = USE_FP32_REDUCE_DEFAULT) -> torch.Tensor:
@@ -346,6 +391,7 @@ def apply_gptq_marlin_linear(
                                                   dtype=input.dtype)
 
     output = ops.gptq_marlin_gemm(reshaped_x,
+                                  None,
                                   weight,
                                   weight_scale,
                                   weight_zp,
@@ -358,7 +404,6 @@ def apply_gptq_marlin_linear(
                                   size_k=input_size_per_partition,
                                   is_k_full=is_k_full,
                                   use_atomic_add=use_atomic_add,
-                                  has_zp=has_zp,
                                   use_fp32_reduce=use_fp32_reduce,
                                   is_zp_float=False)
 
@@ -391,6 +436,7 @@ def apply_awq_marlin_linear(
                                                   dtype=input.dtype)
 
     output = ops.gptq_marlin_gemm(reshaped_x,
+                                  None,
                                   weight,
                                   weight_scale,
                                   weight_zp,
@@ -401,8 +447,6 @@ def apply_awq_marlin_linear(
                                   size_m=reshaped_x.shape[0],
                                   size_n=output_size_per_partition,
                                   size_k=input_size_per_partition,
-                                  is_k_full=True,
-                                  has_zp=True,
                                   use_atomic_add=use_atomic_add,
                                   use_fp32_reduce=use_fp32_reduce,
                                   is_zp_float=False)
diff --git a/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py b/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py
index 6120a8e66..1e0078e24 100644
--- a/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py
@@ -6,9 +6,11 @@ import torch
 
 import vllm._custom_ops as ops
 from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    USE_FP32_REDUCE_DEFAULT, marlin_make_workspace_new, marlin_permute_scales,
+    should_use_atomic_add_reduce)
 from vllm.platforms import current_platform
-
-from .marlin_utils import marlin_make_workspace, marlin_permute_scales
+from vllm.scalar_type import scalar_types
 
 logger = init_logger(__name__)
 
@@ -18,30 +20,40 @@ def is_fp8_marlin_supported():
 
 
 def apply_fp8_marlin_linear(
-    input: torch.Tensor,
-    weight: torch.Tensor,
-    weight_scale: torch.Tensor,
-    workspace: torch.Tensor,
-    size_n: int,
-    size_k: int,
-    bias: Optional[torch.Tensor],
-) -> torch.Tensor:
+        input: torch.Tensor,
+        weight: torch.Tensor,
+        weight_scale: torch.Tensor,
+        workspace: torch.Tensor,
+        size_n: int,
+        size_k: int,
+        bias: Optional[torch.Tensor],
+        use_fp32_reduce: bool = USE_FP32_REDUCE_DEFAULT) -> torch.Tensor:
     # For GPUs that lack FP8 hardware support, we can leverage the
     # Marlin kernel for fast weight-only FP8 quantization
 
     reshaped_x = input.reshape(-1, input.shape[-1])
     out_shape = input.shape[:-1] + (size_n, )
 
-    output = ops.fp8_marlin_gemm(
-        a=reshaped_x,
-        b_q_weight=weight,
-        b_scales=weight_scale,
-        workspace=workspace,
-        num_bits=8,
-        size_m=reshaped_x.shape[0],
-        size_n=size_n,
-        size_k=size_k,
-    )
+    use_atomic_add = should_use_atomic_add_reduce(m=reshaped_x.size(0),
+                                                  n=size_n,
+                                                  k=size_k,
+                                                  device=input.device,
+                                                  dtype=input.dtype)
+
+    output = ops.gptq_marlin_gemm(a=reshaped_x,
+                                  c=None,
+                                  b_q_weight=weight,
+                                  b_scales=weight_scale,
+                                  b_zeros=None,
+                                  g_idx=None,
+                                  perm=None,
+                                  workspace=workspace,
+                                  b_q_type=scalar_types.float8_e4m3fn,
+                                  size_m=reshaped_x.size(0),
+                                  size_n=size_n,
+                                  size_k=size_k,
+                                  use_atomic_add=use_atomic_add,
+                                  use_fp32_reduce=use_fp32_reduce)
 
     if bias is not None:
         output.add_(bias)  # In-place add
@@ -50,7 +62,7 @@ def apply_fp8_marlin_linear(
 
 
 def prepare_fp8_layer_for_marlin(layer: torch.nn.Module,
-                                 strategy: str = "tensor") -> None:
+                                 size_k_first: bool = True) -> None:
     logger.warning_once(
         "Your GPU does not have native support for FP8 computation but "
         "FP8 quantization is being used. Weight-only FP8 compression will "
@@ -60,51 +72,234 @@ def prepare_fp8_layer_for_marlin(layer: torch.nn.Module,
     part_size_n = layer.output_size_per_partition
     part_size_k = layer.input_size_per_partition
 
+    if size_k_first:
+        assert layer.weight.shape == (part_size_k, part_size_n)
+    else:
+        assert layer.weight.shape == (part_size_n, part_size_k)
+
     device = layer.weight.device
 
     # WORKSPACE
-    layer.workspace = marlin_make_workspace(part_size_n, device)
+    layer.workspace = marlin_make_workspace_new(device)
 
     # WEIGHT
     # Repack weights to marlin format
-    marlin_qweight = ops.gptq_marlin_repack(b_q_weight=pack_fp8_to_int32(
-        layer.weight),
-                                            perm=torch.empty(0,
-                                                             dtype=torch.int,
-                                                             device=device),
+    perm = torch.empty(0, dtype=torch.int, device=device)
+    qweight = pack_fp8_to_int32(layer.weight, size_k_first)
+    if not size_k_first:
+        qweight = qweight.T.contiguous()
+
+    marlin_qweight = ops.gptq_marlin_repack(b_q_weight=qweight,
+                                            perm=perm,
                                             size_k=part_size_k,
                                             size_n=part_size_n,
                                             num_bits=8)
     layer.weight = torch.nn.Parameter(marlin_qweight, requires_grad=False)
 
     # WEIGHT SCALES
-    scales = layer.weight_scale.to(layer.orig_dtype)
     # Permute scales
+    if "weight_scale" in dir(layer):
+        scales = layer.weight_scale.to(layer.orig_dtype)
+    elif "weight_scale_inv" in dir(layer):
+        scales = layer.weight_scale_inv.to(layer.orig_dtype)
+        del layer.weight_scale_inv
+
+    if layer.weight_block_size is None:
+        group_size = -1
+    else:
+        group_size = layer.weight_block_size[1]
+
+    # marlin kernel only support channel-wise and group-wise quantization
+    # we need to convert the scales
+    if layer.weight_block_size is None:
+        if scales.nelement() == 1:
+            # tensor-wise quantization -> channel-wise quantization
+            # (1, 1) =>(repeat)=> (1, size_n)
+            scales = scales.view(1, 1).repeat_interleave(part_size_n, 1)
+        elif scales.nelement() > 1 and scales.nelement() != part_size_n:
+            assert part_size_n % scales.nelement() == 0
+            s_size = scales.nelement()
+            # tensor-wise quantization (for gate-up proj)
+            #     -> channel-wise quantization
+            # (1, s_size) =>(repeat)=> (1, size_n)
+            scales = scales.view(1, s_size)
+            scales = scales.repeat_interleave(part_size_n // s_size, 1)
+        else:
+            # channel-wise quantization
+            # (1, size_n)
+            scales = scales.view(1, part_size_n)
+    else:
+        # block-wise quantization -> group-wise quantization
+        # (size_k // block_size[1], ceil(size_n / block_size[0]))
+        #  =>(repeat)=> (size_k // block_size[1], size_n)
+        block_n = layer.weight_block_size[0]
+        scales = scales.T.repeat_interleave(block_n, 1)
+        # size_n may not divisible by block_size[0]
+        scales = scales[:, :part_size_n]
+
     marlin_scales = marlin_permute_scales(s=scales,
                                           size_k=part_size_k,
                                           size_n=part_size_n,
-                                          group_size=-1)
+                                          group_size=group_size)
     layer.weight_scale = torch.nn.Parameter(marlin_scales, requires_grad=False)
 
 
-def pack_fp8_to_int32(fp8_tensor: torch.Tensor) -> torch.Tensor:
+def prepare_moe_fp8_layer_for_marlin(layer: torch.nn.Module,
+                                     size_k_first: bool = True) -> None:
+    logger.warning_once(
+        "Your GPU does not have native support for FP8 computation but "
+        "FP8 quantization is being used. Weight-only FP8 compression will "
+        "be used leveraging the Marlin kernel. This may degrade "
+        "performance for compute-heavy workloads.")
+
+    e = layer.num_experts
+    k = layer.hidden_size
+    n = layer.intermediate_size_per_partition
+
+    # WORKSPACE
+    device = layer.w13_weight.device
+    layer.workspace = marlin_make_workspace_new(device, 4)
+    perm = torch.empty(0, dtype=torch.int, device=device)
+
+    # WEIGHT
+    # Repack weights to marlin format
+    for name in ["w13_weight", "w2_weight"]:
+        weight = getattr(layer, name)
+        tensor_list = []
+        if "w13" in name:
+            size_n, size_k = n * 2, k
+        else:
+            size_n, size_k = k, n
+
+        if size_k_first:
+            assert weight.shape == (e, size_k, size_n)
+        else:
+            assert weight.shape == (e, size_n, size_k)
+
+        for i in range(e):
+            qweight = pack_fp8_to_int32(weight[i], size_k_first)
+            if not size_k_first:
+                qweight = qweight.T.contiguous()
+
+            marlin_qweight = ops.gptq_marlin_repack(b_q_weight=qweight,
+                                                    perm=perm,
+                                                    size_k=size_k,
+                                                    size_n=size_n,
+                                                    num_bits=8)
+            tensor_list.append(marlin_qweight)
+
+        weight = torch.cat([x.unsqueeze(0) for x in tensor_list], 0)
+        weight = torch.nn.Parameter(weight, requires_grad=False)
+
+        setattr(layer, name, weight)
+
+    # WEIGHT SCALES
+    # Permute scales
+    if layer.weight_block_size is None:
+        group_size = -1
+    else:
+        group_size = layer.weight_block_size[1]
+
+    for name in ["w13", "w2"]:
+        if name + "_weight_scale" in dir(layer):
+            new_name = name + "_weight_scale"
+            scales = getattr(layer, new_name).to(layer.orig_dtype)
+            delattr(layer, new_name)
+        elif name + "_weight_scale_inv" in dir(layer):
+            new_name = name + "_weight_scale_inv"
+            scales = getattr(layer, new_name).to(layer.orig_dtype)
+            delattr(layer, new_name)
+
+        tensor_list = []
+        if "w13" in name:
+            size_n, size_k = n * 2, k
+        else:
+            size_n, size_k = k, n
+
+        # marlin kernel only support channel-wise and group-wise quantization
+        # we need to convert the scales
+        if layer.weight_block_size is None:
+            if scales.nelement() == e:
+                # tensor-wise quantization -> channel-wise quantization
+                # (e, 1, 1) =>(repeat)=> (e, 1, size_n)
+                scales = scales.view(e, 1, 1).repeat_interleave(size_n, 2)
+            elif scales.nelement() > e and scales.nelement() != e * size_n:
+                assert (e * size_n) % scales.nelement() == 0
+                s_size = scales.nelement() // e
+                # tensor-wise quantization (for gate-up proj)
+                #     -> channel-wise quantization
+                # (e, 1, s_size) =>(repeat)=> (e, 1, size_n)
+                scales = scales.view(e, 1, s_size)
+                scales = scales.repeat_interleave(size_n // s_size, 2)
+            else:
+                # channel-wise quantization
+                # (e, 1, size_n)
+                scales = scales.view(e, 1, size_n)
+        else:
+            # block-wise quantization -> group-wise quantization
+            # (e, size_k // block_size[1], ceil(size_n / block_size[0]))
+            #  =>(repeat)=> (e, size_k // block_size[1], size_n)
+            block_n = layer.weight_block_size[0]
+            scales = scales.permute(0, 2, 1).repeat_interleave(block_n, 2)
+            # size_n may not divisible by block_size[0]
+            scales = scales[..., :size_n].contiguous()
+
+        for i in range(e):
+            marlin_scales = marlin_permute_scales(s=scales[i],
+                                                  size_k=size_k,
+                                                  size_n=size_n,
+                                                  group_size=group_size)
+            tensor_list.append(marlin_scales)
+
+        scales = torch.cat([x.unsqueeze(0) for x in tensor_list], 0)
+        scales = torch.nn.Parameter(scales, requires_grad=False)
+
+        setattr(layer, name + "_weight_scale", scales)
+
+
+def pack_fp8_to_int32(fp8_tensor: torch.Tensor,
+                      size_k_first: bool = True) -> torch.Tensor:
     """
     Repack FP8 weights to gptq format (packed int32 elements)
     """
     assert fp8_tensor.dtype == torch.float8_e4m3fn
-    assert fp8_tensor.shape[0] % 4 == 0
+    assert fp8_tensor.ndim == 2
+
+    fp8_tensor = fp8_tensor.T if size_k_first else fp8_tensor
+    fp8_tensor = fp8_tensor.contiguous()
+    # fp8_tensor is contiguous and have shape (N, K) now
+    # with `.view(torch.int32)`, it become (N, K // 4)
+    int32_tensor = fp8_tensor.view(torch.int32)
+    return int32_tensor.T.contiguous() if size_k_first else int32_tensor
+
 
-    # Reshape to prepare for packing
-    reshaped = fp8_tensor.reshape(-1, 4, *fp8_tensor.shape[1:])
+def marlin_quant_fp8_torch(weight, group_size):
+    size_n, size_k = weight.shape
+    device = weight.device
 
-    # Convert fp8 to uint8 (byte) representation
-    byte_tensor = reshaped.view(torch.uint8)
+    if group_size != -1:
+        scales = weight.view(size_n, -1, group_size).abs().max(-1)[0] / 448
+        repeated_scales = scales.repeat_interleave(group_size, 1)
+        fp8_weight = (weight / repeated_scales).to(torch.float8_e4m3fn)
+        weight_ref = fp8_weight.to(weight.dtype) * repeated_scales
+    else:
+        scales = weight.view(size_n, 1, group_size).abs().max(-1)[0] / 448
+        repeated_scales = scales.repeat_interleave(size_k, 1)
+        fp8_weight = (weight / repeated_scales).to(torch.float8_e4m3fn)
+        weight_ref = fp8_weight.to(weight.dtype) * repeated_scales
+
+    packed_weight = pack_fp8_to_int32(fp8_weight, False).T.contiguous()
+    marlin_qweight = ops.gptq_marlin_repack(
+        b_q_weight=packed_weight,
+        perm=torch.empty(0, dtype=torch.int, device=device),
+        size_k=size_k,
+        size_n=size_n,
+        num_bits=8,
+    )
 
-    # Pack 4 uint8 values into one int32
-    packed = (byte_tensor[:, 0].to(torch.int32) |
-              (byte_tensor[:, 1].to(torch.int32) << 8) |
-              (byte_tensor[:, 2].to(torch.int32) << 16) |
-              (byte_tensor[:, 3].to(torch.int32) << 24))
+    marlin_scales = marlin_permute_scales(s=scales.T,
+                                          size_k=size_k,
+                                          size_n=size_n,
+                                          group_size=group_size)
 
-    return packed.view(fp8_tensor.shape[0] // 4,
-                       *fp8_tensor.shape[1:]).contiguous()
+    return weight_ref.T, marlin_qweight, marlin_scales
diff --git a/vllm/scalar_type.py b/vllm/scalar_type.py
index 1d7675dda..5d893a3a5 100644
--- a/vllm/scalar_type.py
+++ b/vllm/scalar_type.py
@@ -6,6 +6,8 @@ from dataclasses import dataclass
 from enum import Enum
 from typing import Optional, Union
 
+_SCALAR_TYPES_ID_MAP = {}
+
 
 # Mirrors enum in `core/scalar_type.hpp`
 class NanRepr(Enum):
@@ -158,6 +160,8 @@ class ScalarType:
         assert offset <= 64, \
             f"ScalarType fields too big {offset} to fit into an int64"
 
+        _SCALAR_TYPES_ID_MAP[val] = self
+
         return val
 
     @property
@@ -295,6 +299,13 @@ class ScalarType:
         ret.id  # noqa B018: make sure the id is cached
         return ret
 
+    @classmethod
+    def from_id(cls, scalar_type_id: int):
+        if scalar_type_id not in _SCALAR_TYPES_ID_MAP:
+            raise ValueError(
+                f"scalar_type_id {scalar_type_id} doesn't exists.")
+        return _SCALAR_TYPES_ID_MAP[scalar_type_id]
+
 
 # naming generally follows: https://github.com/jax-ml/ml_dtypes
 # for floating point types (leading f) the scheme is:
-- 
GitLab


From cc05b90d86eb87452c0d314cd9dced8774c0ed6f Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Tue, 6 May 2025 01:52:40 +0800
Subject: [PATCH 152/461] [Doc] Fix broken cuda installation doc rendering
 (#17654)

Signed-off-by: Isotr0py <2037008807@qq.com>
---
 requirements/docs.txt | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/requirements/docs.txt b/requirements/docs.txt
index 401f714ae..385de8416 100644
--- a/requirements/docs.txt
+++ b/requirements/docs.txt
@@ -1,11 +1,11 @@
-sphinx==8.2.3
+sphinx==7.4.7
 sphinx-argparse==0.5.2
 sphinx-autodoc2==0.5.0
 sphinx-book-theme==1.1.4
 sphinx-copybutton==0.5.2
 sphinx-design==0.6.1
 sphinx-togglebutton==0.3.2
-myst-parser==4.0.1
+myst-parser==3.0.1  # `myst-parser==4.0.1` breaks inline code in titles
 msgspec
 commonmark # Required by sphinx-argparse when using :markdownhelp:
 
-- 
GitLab


From aea302be6c3c323207502a973fe341c3bcf7288f Mon Sep 17 00:00:00 2001
From: "Thomas J. Fan" <thomasjpfan@gmail.com>
Date: Mon, 5 May 2025 13:55:32 -0400
Subject: [PATCH 153/461] Use git-path commit in hook (#17616)

Signed-off-by: Thomas J. Fan <thomasjpfan@gmail.com>
---
 .pre-commit-config.yaml | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
index 5ecd7b70e..30a7430f0 100644
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -101,8 +101,8 @@ repos:
     args:
       - -c
       - |
-        if ! grep -q "^Signed-off-by: $(git config user.name) <$(git config user.email)>" .git/COMMIT_EDITMSG; then
-          printf "\nSigned-off-by: $(git config user.name) <$(git config user.email)>\n" >> .git/COMMIT_EDITMSG
+        if ! grep -q "^Signed-off-by: $(git config user.name) <$(git config user.email)>" "$(git rev-parse --git-path COMMIT_EDITMSG)"; then
+          printf "\nSigned-off-by: $(git config user.name) <$(git config user.email)>\n" >> "$(git rev-parse --git-path COMMIT_EDITMSG)"
         fi
     language: system
     verbose: true
-- 
GitLab


From d3efde817619d9f573f7571ed49ba5e8dd2be9b4 Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Mon, 5 May 2025 16:30:22 -0400
Subject: [PATCH 154/461] [Benchmarks] Remove invalid option under V1 engine
 (#17651)

Signed-off-by: Russell Bryant <rbryant@redhat.com>
---
 benchmarks/benchmark_serving_structured_output.py | 12 ------------
 benchmarks/run_structured_output_benchmark.sh     | 11 +++--------
 2 files changed, 3 insertions(+), 20 deletions(-)

diff --git a/benchmarks/benchmark_serving_structured_output.py b/benchmarks/benchmark_serving_structured_output.py
index 7c40e39ac..9084255d2 100644
--- a/benchmarks/benchmark_serving_structured_output.py
+++ b/benchmarks/benchmark_serving_structured_output.py
@@ -414,7 +414,6 @@ async def benchmark(
     ignore_eos: bool,
     max_concurrency: Optional[int],
     structured_output_ratio: float,
-    structured_output_backend: str,
     goodput_config_dict: Optional[dict[str, float]] = None,
 ):
     if backend in ASYNC_REQUEST_FUNCS:
@@ -426,8 +425,6 @@ async def benchmark(
         extra_body = {}
         # Add the schema to the extra_body
         extra_body[request.structure_type] = request.schema
-        # Add the specific structured_output_backend
-        extra_body["guided_decoding_backend"] = structured_output_backend
         return extra_body
 
     print("Starting initial single prompt test run...")
@@ -785,7 +782,6 @@ def main(args: argparse.Namespace):
             ignore_eos=args.ignore_eos,
             max_concurrency=args.max_concurrency,
             structured_output_ratio=args.structured_output_ratio,
-            structured_output_backend=args.structured_output_backend,
             goodput_config_dict=goodput_config_dict,
         ))
 
@@ -1000,14 +996,6 @@ if __name__ == "__main__":
                         type=float,
                         default=1.0,
                         help="Ratio of Structured Outputs requests")
-    parser.add_argument("--structured-output-backend",
-                        type=str,
-                        choices=[
-                            "outlines", "lm-format-enforcer", "xgrammar",
-                            "guidance", "auto"
-                        ],
-                        default="auto",
-                        help="Backend to use for structured outputs")
 
     args = parser.parse_args()
     main(args)
diff --git a/benchmarks/run_structured_output_benchmark.sh b/benchmarks/run_structured_output_benchmark.sh
index 126dfbc24..53dc7ed70 100755
--- a/benchmarks/run_structured_output_benchmark.sh
+++ b/benchmarks/run_structured_output_benchmark.sh
@@ -9,13 +9,10 @@ BACKEND=${2:-"vllm"}
 # Define the dataset to use
 DATASET=${3:-"xgrammar_bench"}
 
-# Define the guided decoding backend
-GUIDED_BACKEND=${4:-"xgrammar"}
-
 SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
-OUTPUT_DIR=${5:-"$SCRIPT_DIR/structured_output_benchmark_results"}
+OUTPUT_DIR=${4:-"$SCRIPT_DIR/structured_output_benchmark_results"}
 
-GUIDED_RATIO=${6:-0.5}
+GUIDED_RATIO=${5:-0.5}
 
 # Create output directory if it doesn't exist
 mkdir -p "$OUTPUT_DIR"
@@ -27,7 +24,6 @@ QPS_VALUES=(70 60 50 25 20 15 10)
 COMMON_PARAMS="--backend $BACKEND \
                --model $MODEL \
                --dataset $DATASET \
-               --structured-output-backend $GUIDED_BACKEND \
                --structured-output-ratio $GUIDED_RATIO \
                --save-results \
                --result-dir $OUTPUT_DIR"
@@ -35,7 +31,6 @@ COMMON_PARAMS="--backend $BACKEND \
 echo "Starting structured output benchmark with model: $MODEL"
 echo "Backend: $BACKEND"
 echo "Dataset: $DATASET"
-echo "Structured output backend: $GUIDED_BACKEND"
 echo "Results will be saved to: $OUTPUT_DIR"
 echo "----------------------------------------"
 
@@ -48,7 +43,7 @@ for qps in "${QPS_VALUES[@]}"; do
   GIT_BRANCH=$(git rev-parse --abbrev-ref HEAD 2>/dev/null || echo "unknown")
 
   # Construct filename for this run
-  FILENAME="${GUIDED_BACKEND}_${BACKEND}_${qps}qps_$(basename $MODEL)_${DATASET}_${GIT_HASH}.json"
+  FILENAME="${BACKEND}_${qps}qps_$(basename $MODEL)_${DATASET}_${GIT_HASH}.json"
 
   # Run the benchmark
   python "$SCRIPT_DIR/benchmark_serving_structured_output.py" $COMMON_PARAMS \
-- 
GitLab


From 5ea5c514daf103e71fdae45beed44fcd97b314ce Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Mon, 5 May 2025 13:53:19 -0700
Subject: [PATCH 155/461] [BugFix] Increase timeout for startup failure test
 (#17642)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 tests/v1/engine/test_engine_core_client.py | 35 +++++++++++++---------
 1 file changed, 21 insertions(+), 14 deletions(-)

diff --git a/tests/v1/engine/test_engine_core_client.py b/tests/v1/engine/test_engine_core_client.py
index ae072a47e..fd8d1fd7f 100644
--- a/tests/v1/engine/test_engine_core_client.py
+++ b/tests/v1/engine/test_engine_core_client.py
@@ -1,12 +1,13 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import asyncio
+import os
+import signal
 import time
 import uuid
 from threading import Thread
 from typing import Optional
 
-import psutil
 import pytest
 from transformers import AutoTokenizer
 
@@ -17,8 +18,8 @@ from vllm.platforms import current_platform
 from vllm.usage.usage_lib import UsageContext
 from vllm.v1.engine import EngineCoreRequest
 from vllm.v1.engine.core import EngineCore
-from vllm.v1.engine.core_client import (AsyncMPClient, EngineCoreClient,
-                                        SyncMPClient)
+from vllm.v1.engine.core_client import (AsyncMPClient, CoreEngine,
+                                        EngineCoreClient, SyncMPClient)
 from vllm.v1.executor.abstract import Executor
 
 from ...distributed.conftest import MockSubscriber
@@ -337,34 +338,40 @@ def test_kv_cache_events(
                 "Token ids should be the same as the custom tokens")
         finally:
             client.shutdown()
-        return
 
 
-@pytest.mark.timeout(10)
+@pytest.mark.timeout(20)
 def test_startup_failure(monkeypatch: pytest.MonkeyPatch):
 
     with monkeypatch.context() as m, pytest.raises(Exception) as e_info:
         m.setenv("VLLM_USE_V1", "1")
 
+        # Monkey-patch to extract core process pid while it's starting.
+        core_proc_pid = [None]
+        ce_ctor = CoreEngine.__init__
+
+        def patched_ce_ctor(self, *args, **kwargs):
+            ce_ctor(self, *args, **kwargs)
+            core_proc_pid[0] = self.proc_handle.proc.pid
+
+        m.setattr(CoreEngine, "__init__", patched_ce_ctor)
+
+        t = time.time()
         engine_args = EngineArgs(model=MODEL_NAME)
         vllm_config = engine_args.create_engine_config(
             usage_context=UsageContext.UNKNOWN_CONTEXT)
         executor_class = Executor.get_class(vllm_config)
+        print(f"VllmConfig creation took {time.time() - t:.2f} seconds.")
 
         # Start another thread to wait for engine core process to start
         # and kill it - simulate fatal uncaught process exit.
-        this_proc = psutil.Process()
-        children_before = set(this_proc.children())
 
         def kill_first_child():
-            while True:
+            while (child_pid := core_proc_pid[0]) is None:
                 time.sleep(0.5)
-                children = set(this_proc.children()) - children_before
-                if children:
-                    child = children.pop()
-                    print("Killing child core process", child.pid)
-                    child.kill()
-                    break
+            print(f"Killing child core process {child_pid}")
+            assert isinstance(child_pid, int)
+            os.kill(child_pid, signal.SIGKILL)
 
         Thread(target=kill_first_child, daemon=True).start()
 
-- 
GitLab


From 9765940824ab7c35b8dc1566b98777942c083481 Mon Sep 17 00:00:00 2001
From: XiongfeiWei <isaacwxf23@gmail.com>
Date: Mon, 5 May 2025 14:19:58 -0700
Subject: [PATCH 156/461] [TPU] Enable gemma3-27b with TP>1 on multi-chips.
 (#17335)

Signed-off-by: Xiongfei Wei <isaacwxf23@gmail.com>
---
 tests/v1/tpu/test_basic.py | 43 ++++++++++++++++++++++++++++++++++++++
 vllm/platforms/tpu.py      |  1 +
 2 files changed, 44 insertions(+)

diff --git a/tests/v1/tpu/test_basic.py b/tests/v1/tpu/test_basic.py
index a4571a554..1c0210b6a 100644
--- a/tests/v1/tpu/test_basic.py
+++ b/tests/v1/tpu/test_basic.py
@@ -8,6 +8,7 @@ from __future__ import annotations
 from typing import TYPE_CHECKING
 
 import pytest
+from torch_xla._internal import tpu
 
 from vllm.platforms import current_platform
 
@@ -63,3 +64,45 @@ def test_basic(
         output = vllm_outputs[0][1]
 
         assert "1024" in output or "0, 1" in output
+
+
+TP_SIZE_8 = 8
+
+
+@pytest.mark.skipif(not current_platform.is_tpu(),
+                    reason="This is a test for TPU only")
+@pytest.mark.skipif(tpu.num_available_chips() < TP_SIZE_8,
+                    reason=f"This test requires {TP_SIZE_8} TPU chips.")
+def test_gemma3_27b_with_text_input_and_tp(
+    vllm_runner: type[VllmRunner],
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    model = "google/gemma-3-27b-it"
+    max_tokens = 16
+    tensor_parallel_size = TP_SIZE_8
+    max_num_seqs = 4
+    prompts = [
+        "A robot may not injure a human being",
+        "It is only with the heart that one can see rightly;",
+        "The greatest glory in living lies not in never falling,",
+    ]
+    answers = [
+        " or, through inaction, allow a human being to come to harm.",
+        " what is essential is invisible to the eye.",
+        " but in rising every time we fall.",
+    ]
+
+    with monkeypatch.context() as m:
+        m.setenv("VLLM_USE_V1", "1")
+
+        with vllm_runner(
+                model,
+                max_num_batched_tokens=256,
+                max_num_seqs=max_num_seqs,
+                tensor_parallel_size=tensor_parallel_size) as vllm_model:
+            vllm_outputs = vllm_model.generate_greedy(prompts, max_tokens)
+        # vllm_outputs is a list of tuples whose first element is the token id
+        # and the second element is the output (including the prompt).
+        for output, answer in zip(vllm_outputs, answers):
+            generated_text = output[1]
+            assert answer in generated_text
diff --git a/vllm/platforms/tpu.py b/vllm/platforms/tpu.py
index 9c95e6d3f..52deaf122 100644
--- a/vllm/platforms/tpu.py
+++ b/vllm/platforms/tpu.py
@@ -30,6 +30,7 @@ class TpuPlatform(Platform):
     dispatch_key: str = "XLA"
     ray_device_key: str = "TPU"
     device_control_env_var: str = "TPU_VISIBLE_CHIPS"
+    simple_compile_backend: str = "openxla"
 
     supported_quantization: list[str] = ["tpu_int8", "compressed-tensors"]
 
-- 
GitLab


From 5941e0b7ea5f5204f01ed3ff69d0965bdf9106a8 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Nicol=C3=B2=20Lucchesi?= <nlucches@redhat.com>
Date: Mon, 5 May 2025 23:20:15 +0200
Subject: [PATCH 157/461] [TPU][V1] Add support for top-logprobs (#17072)

Signed-off-by: NickLucche <nlucches@redhat.com>
---
 tests/v1/tpu/test_sampler.py       | 48 ++++++++++++++++++++++++++++++
 vllm/v1/sample/tpu/metadata.py     | 13 +++++---
 vllm/v1/sample/tpu/sampler.py      | 14 ++-------
 vllm/v1/worker/tpu_model_runner.py | 47 ++++++++++++++++++++++++++++-
 4 files changed, 105 insertions(+), 17 deletions(-)

diff --git a/tests/v1/tpu/test_sampler.py b/tests/v1/tpu/test_sampler.py
index c6b492b5a..57c195982 100644
--- a/tests/v1/tpu/test_sampler.py
+++ b/tests/v1/tpu/test_sampler.py
@@ -61,3 +61,51 @@ def test_sampler_different(model_name: str):
         # to have deterministic results over many tokens, tests the first ~20
         # tokens match.
         assert output[0].outputs[0].text[:20] == output[1].outputs[0].text[:20]
+
+
+@pytest.mark.parametrize("model_name", ["Qwen/Qwen2.5-1.5B-Instruct"])
+# TODO TPU will appear busy if we fan-out test params here
+@pytest.mark.parametrize("n_prompts", [1])
+@pytest.mark.skipif(not current_platform.is_tpu(),
+                    reason="This test needs a TPU")
+def test_logprobs(model_name: str, n_prompts: int):
+    """
+    Request top logprobs with different sampling settings and check
+    that results contains the requested number, ordered ascendingly.  
+    """
+
+    def check_num_logprobs(logprobs, expected_num: int):
+        for step in logprobs:
+            prev_logp = 1.0
+            # order by rank
+            sorted_step = dict(
+                sorted(step.items(), key=lambda item: item[1].rank))
+
+            # Can contain the sampled token
+            assert len(step) == expected_num or len(step) == expected_num + 1
+            # Check results are ordered by prob value
+            for rankno, (tid, logp) in enumerate(sorted_step.items()):
+                assert logp.logprob <= prev_logp
+                prev_logp = logp.logprob
+                assert logp.rank == rankno + 1
+
+    llm = LLM(model_name,
+              enforce_eager=False,
+              max_num_seqs=1,
+              max_model_len=128,
+              max_num_batched_tokens=128)
+    prompts = [
+        "Write a short story about a robot that dreams for the first time."
+    ] * n_prompts
+    greedy_sampling_params = SamplingParams(temperature=0.0, max_tokens=64,\
+         logprobs=4)
+    regular_sampling_params = SamplingParams(temperature=0.4, max_tokens=64,\
+         logprobs=4)
+    topkp_sampling_params = SamplingParams(temperature=0.4, max_tokens=64,\
+         logprobs=4, top_k=12, top_p=0.5)
+
+    for sp in [greedy_sampling_params, regular_sampling_params, \
+               topkp_sampling_params]:
+        output = llm.generate(prompts, sp)
+        for o in output:
+            check_num_logprobs(o.outputs[0].logprobs, 4)
diff --git a/vllm/v1/sample/tpu/metadata.py b/vllm/v1/sample/tpu/metadata.py
index d4ea8c2de..a1c7dcdb1 100644
--- a/vllm/v1/sample/tpu/metadata.py
+++ b/vllm/v1/sample/tpu/metadata.py
@@ -31,8 +31,10 @@ class TPUSupportedSamplingMetadata:
 
     all_greedy: bool = True
 
-    # unsupported, you need to return an extra tensor of static size BxV
-    max_num_logprobs = None
+    # Whether logprobs are to be gathered in this batch of request. To balance
+    # out compile time and runtime, a fixed `max_number_logprobs` value is used
+    # when gathering logprobs, regardless of the values specified in the batch.
+    logprobs: bool = False
 
     # TODO No penalties for now
     no_penalties: bool = True
@@ -84,10 +86,12 @@ class TPUSupportedSamplingMetadata:
                 we want to pre-compile a graph with sampling parameters, even if
                 they are not strictly needed for greedy decoding.
         """
+        needs_logprobs = input_batch.max_num_logprobs>0 if \
+            input_batch.max_num_logprobs else False
         # Early return to avoid unnecessary cpu to tpu copy
         if (input_batch.all_greedy is True
                 and generate_params_if_all_greedy is False):
-            return cls(all_greedy=True)
+            return cls(all_greedy=True, logprobs=needs_logprobs)
 
         num_reqs = input_batch.num_reqs
 
@@ -115,4 +119,5 @@ class TPUSupportedSamplingMetadata:
             top_k=input_batch.top_k_cpu_tensor[:padded_num_reqs].to(
                 xla_device),
             min_p=input_batch.min_p_cpu_tensor[:padded_num_reqs].to(
-                xla_device))
+                xla_device),
+            logprobs=needs_logprobs)
diff --git a/vllm/v1/sample/tpu/sampler.py b/vllm/v1/sample/tpu/sampler.py
index 33526c003..7c31a2984 100644
--- a/vllm/v1/sample/tpu/sampler.py
+++ b/vllm/v1/sample/tpu/sampler.py
@@ -22,27 +22,18 @@ class Sampler(nn.Module):
         logits: torch.Tensor,
         sampling_metadata: TPUSupportedSamplingMetadata,
     ) -> SamplerOutput:
-        # NOTE(woosuk): Use the original logits (before any penalties or
-        # temperature scaling) for the top-k logprobs.
-        # This is different from the V0 sampler, which uses the logits that
-        # is used for sampling (after penalties and temperature scaling).
-
         # Use float32 for the logits.
         logits = logits.to(torch.float32)
         # Sample the next token.
         sampled = self.sample(logits, sampling_metadata)
 
-        # Use int32 to reduce the tensor size.
-        sampled = sampled.to(torch.int32)
-
-        # These are GPU tensors.
+        # These are TPU tensors.
         sampler_output = SamplerOutput(
             # The sampled tokens are expanded to 2D tensor with shape
             # [num_requests, 1], where each row represents one generated
             # token per request.
             sampled_token_ids=sampled.unsqueeze(-1),
-            logprobs_tensors=None,
-        )
+            logprobs_tensors=None)
         return sampler_output
 
     def apply_temperature(
@@ -50,7 +41,6 @@ class Sampler(nn.Module):
         logits: torch.Tensor,
         temp: torch.Tensor,
     ) -> torch.Tensor:
-        # Use in-place division to avoid creating a new tensor.
         return logits.div_(temp.unsqueeze(dim=1))
 
     def greedy_sample(self, logits: torch.Tensor) -> torch.Tensor:
diff --git a/vllm/v1/worker/tpu_model_runner.py b/vllm/v1/worker/tpu_model_runner.py
index d716542f7..8e162d517 100644
--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@@ -791,8 +791,18 @@ class TPUModelRunner:
                                             arange)
         selected_token_ids = self.sample_from_logits(logits,
                                                      tpu_sampling_metadata)
+
+        # NOTE (NickLucche) Use the original logits (before any penalties or
+        # temperature scaling) for the top-k logprobs. We can't enforce it due
+        # to recompilations outside torch.compiled code, so just make sure
+        # `sample_from_logits` does not modify the logits in-place.
+        logprobs = self.gather_logprobs(logits, selected_token_ids) \
+            if tpu_sampling_metadata.logprobs else None
+
         # Remove padding on cpu and keep dynamic op outside of xla graph.
         selected_token_ids = selected_token_ids.cpu()[:num_reqs]
+        logprobs_lists = logprobs.tolists() \
+            if tpu_sampling_metadata.logprobs else None
 
         # Update the cache state concurrently. Code above will not block until
         # we use `selected_token_ids`. Add mark_step if post-processing changes
@@ -862,7 +872,7 @@ class TPUModelRunner:
             req_id_to_index=self.input_batch.req_id_to_index,
             sampled_token_ids=valid_sampled_token_ids,
             spec_token_ids=None,
-            logprobs=None,
+            logprobs=logprobs_lists,
             prompt_logprobs_dict=prompt_logprobs_dict,
         )
 
@@ -1121,6 +1131,22 @@ class TPUModelRunner:
         logger.info("Compilation finished in %.2f [secs].", end - start)
         self._update_num_xla_graphs("sample_from_logits")
 
+    def _precompile_gather_logprobs(self) -> None:
+        logger.info("Compiling gather_logprobs with different input shapes.")
+        start = time.perf_counter()
+        for num_reqs in self.num_reqs_paddings:
+            dummy_logits = torch.zeros((num_reqs, self.vocab_size),
+                                       device=self.device,
+                                       dtype=self._hidden_states_dtype)
+            dummy_tokens = torch.zeros((num_reqs, 1),
+                                       dtype=torch.int64).to(self.device)
+            self.gather_logprobs(dummy_logits, dummy_tokens)
+            logger.info("  -- num_seqs: %d", num_reqs)
+        xm.wait_device_ops()
+        end = time.perf_counter()
+        logger.info("Compilation finished in %.2f [secs].", end - start)
+        self._update_num_xla_graphs("gather_logprobs")
+
     def capture_model(self) -> None:
         """
         Precompile all the subgraphs with possible input shapes.
@@ -1131,6 +1157,7 @@ class TPUModelRunner:
         self._precompile_compute_logits()
         self._precompile_structured_decoding()
         self._precompile_sample_from_logits()
+        self._precompile_gather_logprobs()
 
     def profile_run(
         self,
@@ -1254,6 +1281,10 @@ class TPUModelRunner:
     def sample_from_logits(
             self, logits: torch.Tensor,
             sampling_metadata: TPUSupportedSamplingMetadata) -> torch.Tensor:
+        """
+        Sample with xla-friendly function. This function is to be traced 
+        separately from `forward` for lighter compilation overhead.
+        """
         if sampling_metadata.all_greedy:
             out_tokens = torch.argmax(logits, dim=-1, keepdim=True)
         else:
@@ -1261,6 +1292,20 @@ class TPUModelRunner:
                                       sampling_metadata).sampled_token_ids
         return out_tokens
 
+    @torch.compile(backend="openxla", fullgraph=True, dynamic=False)
+    def gather_logprobs(self, logits: torch.Tensor,
+                        sampled_tokens: torch.Tensor) -> LogprobsTensors:
+        """
+        Gather the top_logprobs with corresponding tokens. Use a fixed number
+        of logprobs as an alternative to having multiple pre-compiled graphs.
+        Select the number of logprobs actually demanded by each request on CPU.
+        """
+        logprobs = self.sampler.compute_logprobs(logits)
+        return self.sampler.gather_logprobs(
+            logprobs,
+            self.model_config.max_logprobs,
+            token_ids=sampled_tokens.squeeze(-1))
+
     @torch.compile(backend="openxla", fullgraph=True, dynamic=False)
     def structured_decode(self, require_struct_decoding: torch.Tensor,
                           grammar_bitmask: torch.Tensor, logits: torch.Tensor,
-- 
GitLab


From 90bd2ae172007b7e84e15eea45b37826d5da1a67 Mon Sep 17 00:00:00 2001
From: Varun Sundar Rabindranath <varunsundar08@gmail.com>
Date: Tue, 6 May 2025 06:04:29 +0530
Subject: [PATCH 158/461] [Bugfix] LoRA - Retire unused maxnreg LoRA kernel
 argument (#17677)

---
 vllm/lora/ops/triton_ops/lora_expand_op.py | 2 --
 vllm/lora/ops/triton_ops/lora_shrink_op.py | 2 --
 2 files changed, 4 deletions(-)

diff --git a/vllm/lora/ops/triton_ops/lora_expand_op.py b/vllm/lora/ops/triton_ops/lora_expand_op.py
index eacc6fb46..e41ae1d95 100644
--- a/vllm/lora/ops/triton_ops/lora_expand_op.py
+++ b/vllm/lora/ops/triton_ops/lora_expand_op.py
@@ -204,7 +204,6 @@ def _lora_expand(
     NUM_WARPS = 4
     NUM_CTAS = 1
     NUM_STAGES = 2
-    MAX_NREG = None
 
     EVEN_K = K % BLOCK_K == 0  # type: ignore
 
@@ -258,7 +257,6 @@ def _lora_expand(
         num_warps=NUM_WARPS,
         num_ctas=NUM_CTAS,
         num_stages=NUM_STAGES,
-        maxnreg=MAX_NREG,
     )
 
     return
diff --git a/vllm/lora/ops/triton_ops/lora_shrink_op.py b/vllm/lora/ops/triton_ops/lora_shrink_op.py
index 82331939d..fb0422cf0 100644
--- a/vllm/lora/ops/triton_ops/lora_shrink_op.py
+++ b/vllm/lora/ops/triton_ops/lora_shrink_op.py
@@ -168,7 +168,6 @@ def _lora_shrink(
     NUM_WARPS = 4
     NUM_CTAS = 1
     NUM_STAGES = 2
-    MAX_NREG = None
 
     EVEN_K = K % (BLOCK_K * SPLIT_K) == 0  # type: ignore
 
@@ -213,7 +212,6 @@ def _lora_shrink(
         num_warps=NUM_WARPS,
         num_ctas=NUM_CTAS,
         num_stages=NUM_STAGES,
-        maxnreg=MAX_NREG,
     )
 
     return
-- 
GitLab


From 98834fefaaabe7219e35499ada8d6026a1f9b6a2 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Mon, 5 May 2025 20:41:14 -0400
Subject: [PATCH 159/461] Update nm to rht in doc links + refine fp8 doc
 (#17678)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 docs/source/features/quantization/fp8.md | 86 +++++-------------------
 docs/source/serving/offline_inference.md |  2 +-
 2 files changed, 16 insertions(+), 72 deletions(-)

diff --git a/docs/source/features/quantization/fp8.md b/docs/source/features/quantization/fp8.md
index 95e105357..21969bbc2 100644
--- a/docs/source/features/quantization/fp8.md
+++ b/docs/source/features/quantization/fp8.md
@@ -19,24 +19,6 @@ FP8 computation is supported on NVIDIA GPUs with compute capability > 8.9 (Ada L
 FP8 models will run on compute capability > 8.0 (Ampere) as weight-only W8A16, utilizing FP8 Marlin.
 :::
 
-## Quick Start with Online Dynamic Quantization
-
-Dynamic quantization of an original precision BF16/FP16 model to FP8 can be achieved with vLLM without any calibration data required. You can enable the feature by specifying `--quantization="fp8"` in the command line or setting `quantization="fp8"` in the LLM constructor.
-
-In this mode, all Linear modules (except for the final `lm_head`) have their weights quantized down to FP8_E4M3 precision with a per-tensor scale. Activations have their minimum and maximum values calculated during each forward pass to provide a dynamic per-tensor scale for high accuracy. As a result, latency improvements are limited in this mode.
-
-```python
-from vllm import LLM
-model = LLM("facebook/opt-125m", quantization="fp8")
-# INFO 06-10 17:55:42 model_runner.py:157] Loading model weights took 0.1550 GB
-result = model.generate("Hello, my name is")
-print(result[0].outputs[0].text)
-```
-
-:::{warning}
-Currently, we load the model at original precision before quantizing down to 8-bits, so you need enough memory to load the whole model.
-:::
-
 ## Installation
 
 To produce performant FP8 quantized models with vLLM, you'll need to install the [llm-compressor](https://github.com/vllm-project/llm-compressor/) library:
@@ -45,12 +27,6 @@ To produce performant FP8 quantized models with vLLM, you'll need to install the
 pip install llmcompressor
 ```
 
-Additionally, install `vllm` and `lm-evaluation-harness` for evaluation:
-
-```console
-pip install vllm lm-eval==0.4.4
-```
-
 ## Quantization Process
 
 The quantization process involves three main steps:
@@ -101,6 +77,12 @@ tokenizer.save_pretrained(SAVE_DIR)
 
 ### 3. Evaluating Accuracy
 
+Install `vllm` and `lm-evaluation-harness` for evaluation:
+
+```console
+pip install vllm lm-eval==0.4.4
+```
+
 Load and run the model in `vllm`:
 
 ```python
@@ -137,58 +119,20 @@ Here's an example of the resulting scores:
 
 If you encounter any issues or have feature requests, please open an issue on the `vllm-project/llm-compressor` GitHub repository.
 
-## Deprecated Flow
-
-:::{note}
-The following information is preserved for reference and search purposes.
-The quantization method described below is deprecated in favor of the `llmcompressor` method described above.
-:::
-
-For static per-tensor offline quantization to FP8, please install the [AutoFP8 library](https://github.com/neuralmagic/autofp8).
-
-```bash
-git clone https://github.com/neuralmagic/AutoFP8.git
-pip install -e AutoFP8
-```
-
-This package introduces the `AutoFP8ForCausalLM` and `BaseQuantizeConfig` objects for managing how your model will be compressed.
-
-## Offline Quantization with Static Activation Scaling Factors
-
-You can use AutoFP8 with calibration data to produce per-tensor static scales for both the weights and activations by enabling the `activation_scheme="static"` argument.
-
-```python
-from datasets import load_dataset
-from transformers import AutoTokenizer
-from auto_fp8 import AutoFP8ForCausalLM, BaseQuantizeConfig
-
-pretrained_model_dir = "meta-llama/Meta-Llama-3-8B-Instruct"
-quantized_model_dir = "Meta-Llama-3-8B-Instruct-FP8"
+## Online Dynamic Quantization
 
-tokenizer = AutoTokenizer.from_pretrained(pretrained_model_dir, use_fast=True)
-tokenizer.pad_token = tokenizer.eos_token
-
-# Load and tokenize 512 dataset samples for calibration of activation scales
-ds = load_dataset("mgoin/ultrachat_2k", split="train_sft").select(range(512))
-examples = [tokenizer.apply_chat_template(batch["messages"], tokenize=False) for batch in ds]
-examples = tokenizer(examples, padding=True, truncation=True, return_tensors="pt").to("cuda")
-
-# Define quantization config with static activation scales
-quantize_config = BaseQuantizeConfig(quant_method="fp8", activation_scheme="static")
-
-# Load the model, quantize, and save checkpoint
-model = AutoFP8ForCausalLM.from_pretrained(pretrained_model_dir, quantize_config)
-model.quantize(examples)
-model.save_quantized(quantized_model_dir)
-```
+Dynamic quantization of an original precision BF16/FP16 model to FP8 can be achieved with vLLM without any calibration data required. You can enable the feature by specifying `--quantization="fp8"` in the command line or setting `quantization="fp8"` in the LLM constructor.
 
-Your model checkpoint with quantized weights and activations should be available at `Meta-Llama-3-8B-Instruct-FP8/`.
-Finally, you can load the quantized model checkpoint directly in vLLM.
+In this mode, all Linear modules (except for the final `lm_head`) have their weights quantized down to FP8_E4M3 precision with a per-tensor scale. Activations have their minimum and maximum values calculated during each forward pass to provide a dynamic per-tensor scale for high accuracy. As a result, latency improvements are limited in this mode.
 
 ```python
 from vllm import LLM
-model = LLM(model="Meta-Llama-3-8B-Instruct-FP8/")
-# INFO 06-10 21:15:41 model_runner.py:159] Loading model weights took 8.4596 GB
+model = LLM("facebook/opt-125m", quantization="fp8")
+# INFO 06-10 17:55:42 model_runner.py:157] Loading model weights took 0.1550 GB
 result = model.generate("Hello, my name is")
 print(result[0].outputs[0].text)
 ```
+
+:::{warning}
+Currently, we load the model at original precision before quantizing down to 8-bits, so you need enough memory to load the whole model.
+:::
diff --git a/docs/source/serving/offline_inference.md b/docs/source/serving/offline_inference.md
index 2621eda32..e46361955 100644
--- a/docs/source/serving/offline_inference.md
+++ b/docs/source/serving/offline_inference.md
@@ -95,7 +95,7 @@ You can convert the model checkpoint to a sharded checkpoint using <gh-file:exam
 
 Quantized models take less memory at the cost of lower precision.
 
-Statically quantized models can be downloaded from HF Hub (some popular ones are available at [Neural Magic](https://huggingface.co/neuralmagic))
+Statically quantized models can be downloaded from HF Hub (some popular ones are available at [Red Hat AI](https://huggingface.co/RedHatAI))
 and used directly without extra configuration.
 
 Dynamic quantization is also supported via the `quantization` option -- see [here](#quantization-index) for more details.
-- 
GitLab


From 999328be0d180c40417131252d7a0838c3f1f403 Mon Sep 17 00:00:00 2001
From: Stan Wozniak <77159600+s3woz@users.noreply.github.com>
Date: Tue, 6 May 2025 06:00:31 +0200
Subject: [PATCH 160/461] [Model] Add GraniteMoeHybrid 4.0 model (#17497)

Signed-off-by: Thomas Ortner <boh@zurich.ibm.com>
Signed-off-by: Stanislaw Wozniak <stw@zurich.ibm.com>
Co-authored-by: Thomas Ortner <boh@zurich.ibm.com>
Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>
Co-authored-by: Tyler Michael Smith <tysmith@redhat.com>
---
 docs/source/models/supported_models.md        |   5 +
 .../generation/test_granitemoehybrid.py       |  41 ++
 .../models/language/generation/test_hybrid.py |   3 +
 tests/models/registry.py                      |   2 +
 .../model_executor/models/granitemoehybrid.py | 585 ++++++++++++++++++
 vllm/model_executor/models/registry.py        |   1 +
 6 files changed, 637 insertions(+)
 create mode 100644 tests/models/language/generation/test_granitemoehybrid.py
 create mode 100644 vllm/model_executor/models/granitemoehybrid.py

diff --git a/docs/source/models/supported_models.md b/docs/source/models/supported_models.md
index 831f9a86d..e2bbb231d 100644
--- a/docs/source/models/supported_models.md
+++ b/docs/source/models/supported_models.md
@@ -385,6 +385,11 @@ See [this page](#generative-models) for more information on how to use generativ
   * `ibm-granite/granite-3.0-1b-a400m-base`, `ibm-granite/granite-3.0-3b-a800m-instruct`, `ibm/PowerMoE-3b`, etc.
   * ✅︎
   * ✅︎
+- * `GraniteMoeHybridForCausalLM`
+  * Granite 4.0 MoE Hybrid
+  * `ibm-granite/granite-4.0-tiny-preview`, etc.
+  * ✅︎
+  * ✅︎
 - * `GraniteMoeSharedForCausalLM`
   * Granite MoE Shared
   * `ibm-research/moe-7b-1b-active-shared-experts` (test model)
diff --git a/tests/models/language/generation/test_granitemoehybrid.py b/tests/models/language/generation/test_granitemoehybrid.py
new file mode 100644
index 000000000..da3f5e110
--- /dev/null
+++ b/tests/models/language/generation/test_granitemoehybrid.py
@@ -0,0 +1,41 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import pytest
+
+from ...utils import check_logprobs_close
+
+# Path of the checkpoints
+MODELS = [
+    "ibm-granite/granite-4.0-tiny-preview",
+]
+
+
+@pytest.mark.skip(
+    reason="Granite 4.0 is not yet available in huggingface transformers")
+@pytest.mark.parametrize("model", MODELS)
+@pytest.mark.parametrize("dtype", ["float16", "bfloat16"])
+@pytest.mark.parametrize("max_tokens", [64])
+@pytest.mark.parametrize("num_logprobs", [5])
+def test_model_equivalence_to_hf_greedy(
+    hf_runner,
+    vllm_runner,
+    example_prompts,
+    model: str,
+    dtype: str,
+    max_tokens: int,
+    num_logprobs: int,
+):
+    with vllm_runner(model, dtype=dtype) as vllm_model:
+        vllm_outputs = vllm_model.generate_greedy_logprobs(
+            example_prompts, max_tokens, num_logprobs)
+
+    with hf_runner(model, dtype=dtype) as hf_model:
+        hf_outputs = hf_model.generate_greedy_logprobs_limit(
+            example_prompts, max_tokens, num_logprobs)
+
+    check_logprobs_close(
+        outputs_0_lst=hf_outputs,
+        outputs_1_lst=vllm_outputs,
+        name_0="hf",
+        name_1="vllm",
+    )
diff --git a/tests/models/language/generation/test_hybrid.py b/tests/models/language/generation/test_hybrid.py
index 880967b4a..9b7a42ace 100644
--- a/tests/models/language/generation/test_hybrid.py
+++ b/tests/models/language/generation/test_hybrid.py
@@ -23,6 +23,9 @@ SSM_MODELS = [
 
 HYBRID_MODELS = [
     "ai21labs/Jamba-tiny-dev",
+    # NOTE: ibm-granite/granite-4.0-tiny-preview are skipped currently as
+    # it is not yet available in huggingface transformers
+    # "ibm-granite/granite-4.0-tiny-preview",
     # NOTE: Running Plamo2 in transformers implementation requires to install
     # causal-conv1d package, which is not listed as a test dependency as it's
     # not compatible with pip-compile.
diff --git a/tests/models/registry.py b/tests/models/registry.py
index cce2c82b3..cd5e1dab0 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -166,6 +166,8 @@ _TEXT_GENERATION_EXAMPLE_MODELS = {
                                           {"1b": "EleutherAI/pythia-1.4b"}),
     "GraniteForCausalLM": _HfExamplesInfo("ibm/PowerLM-3b"),
     "GraniteMoeForCausalLM": _HfExamplesInfo("ibm/PowerMoE-3b"),
+    "GraniteMoeHybridForCausalLM": _HfExamplesInfo("ibm-granite/granite-4.0-tiny-preview",  # noqa: E501
+                                                   min_transformers_version="4.52.0"),  # noqa: E501
     "GraniteMoeSharedForCausalLM": _HfExamplesInfo("ibm-research/moe-7b-1b-active-shared-experts"),  # noqa: E501
     "Grok1ModelForCausalLM": _HfExamplesInfo("hpcai-tech/grok-1",
                                              trust_remote_code=True),
diff --git a/vllm/model_executor/models/granitemoehybrid.py b/vllm/model_executor/models/granitemoehybrid.py
new file mode 100644
index 000000000..dea9a0da3
--- /dev/null
+++ b/vllm/model_executor/models/granitemoehybrid.py
@@ -0,0 +1,585 @@
+# SPDX-License-Identifier: Apache-2.0
+"""Inference-only GraniteMoeHybrid model."""
+# Added by the IBM Team, 2025
+from typing import Iterable, Optional, Set, Tuple
+
+import torch
+from torch import nn
+from transformers import GraniteMoeHybridConfig
+
+from vllm.attention.layer import Attention
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import divide, get_tensor_model_parallel_world_size
+from vllm.distributed.parallel_state import get_pp_group
+from vllm.forward_context import get_forward_context
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import ReplicatedLinear
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.mamba2_metadata import (
+    Mamba2Metadata, prepare_mamba2_metadata)
+from vllm.model_executor.layers.mamba.mamba_mixer2 import (
+    MambaMixer2, extra_groups_for_head_shards)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    DEFAULT_VOCAB_PADDING_SIZE, ParallelLMHead, VocabParallelEmbedding)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.mamba_cache import (MambaCacheManager,
+                                                    MambaCacheParams)
+from vllm.model_executor.sampling_metadata import SamplingMetadata
+from vllm.sequence import IntermediateTensors
+from vllm.utils import LayerBlockType
+
+from .granitemoe import GraniteMoeMoE
+from .granitemoeshared import GraniteMoeSharedMLP
+from .interfaces import (HasInnerState, IsHybrid, SupportsLoRA, SupportsPP,
+                         SupportsQuant, SupportsV0Only)
+from .utils import (AutoWeightsLoader, make_empty_intermediate_tensors_factory,
+                    make_layers, maybe_prefix)
+
+
+class GraniteMoeHybridMambaDecoderLayer(nn.Module):
+
+    def __init__(self,
+                 config: GraniteMoeHybridConfig,
+                 layer_idx: int,
+                 cache_config: Optional[CacheConfig] = None,
+                 quant_config: Optional[QuantizationConfig] = None,
+                 prefix: str = "") -> None:
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+        self.residual_multiplier = config.residual_multiplier
+
+        self.mamba = MambaMixer2(hidden_size= config.hidden_size,
+                                ssm_state_size = config.mamba_d_state,
+                                conv_kernel_size = config.mamba_d_conv,
+                                intermediate_size = config.mamba_expand *\
+                                                    config.hidden_size,
+                                use_conv_bias = config.mamba_conv_bias,
+                                use_bias = config.mamba_proj_bias,
+                                n_groups=config.mamba_n_groups,
+                                num_heads=config.mamba_n_heads,
+                                head_dim=config.mamba_d_head,
+                                rms_norm_eps=config.rms_norm_eps,
+                                activation=config.hidden_act,
+                                quant_config=quant_config)
+
+        self.block_sparse_moe = GraniteMoeMoE(
+            num_experts=config.num_local_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.block_sparse_moe")
+
+        self.shared_mlp = None if \
+            getattr(config, 'shared_intermediate_size', 0) == 0 \
+            else GraniteMoeSharedMLP(
+                config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.shared_mlp"
+            )
+
+        self.input_layernorm = RMSNorm(config.hidden_size,
+                                       eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(config.hidden_size,
+                                                eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        residual: Optional[torch.Tensor],
+        mamba_cache_params: MambaCacheParams,
+        mamba2_metadata: Mamba2Metadata,
+        **kwargs,
+    ):
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        hidden_states = self.mamba(hidden_states, mamba_cache_params,
+                                   mamba2_metadata)
+        hidden_states = residual + hidden_states * self.residual_multiplier
+
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        if self.shared_mlp is None:
+            hidden_states = self.block_sparse_moe(hidden_states)
+        else:
+            # create a copy since block_sparse_moe modifies in-place
+            moe_hidden_states = hidden_states.clone()
+            moe_hidden_states = self.block_sparse_moe(moe_hidden_states)
+            hidden_states = moe_hidden_states + self.shared_mlp(hidden_states)
+            del moe_hidden_states
+        hidden_states = residual + hidden_states * self.residual_multiplier
+
+        return hidden_states, residual
+
+
+class GraniteMoeHybridAttentionDecoderLayer(nn.Module):
+
+    def __init__(
+        self,
+        config: GraniteMoeHybridConfig,
+        layer_idx: int,
+        cache_config: Optional[CacheConfig] = None,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.residual_multiplier = config.residual_multiplier
+
+        self.self_attn = GraniteMoeHybridAttention(
+            config,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn")
+
+        self.block_sparse_moe = GraniteMoeMoE(
+            num_experts=config.num_local_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.block_sparse_moe")
+
+        self.shared_mlp = None if \
+            getattr(config, 'shared_intermediate_size', 0) == 0 \
+            else GraniteMoeSharedMLP(
+                config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.shared_mlp"
+            )
+
+        self.input_layernorm = RMSNorm(config.hidden_size,
+                                       eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(config.hidden_size,
+                                                eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: Optional[torch.Tensor],
+        mamba_cache_params: MambaCacheParams,
+        mamba2_metadata: Mamba2Metadata,
+    ) -> torch.Tensor:
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        hidden_states = residual + hidden_states * self.residual_multiplier
+
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        if self.shared_mlp is None:
+            hidden_states = self.block_sparse_moe(hidden_states)
+        else:
+            # create a copy since block_sparse_moe modifies in-place
+            moe_hidden_states = hidden_states.clone()
+            moe_hidden_states = self.block_sparse_moe(moe_hidden_states)
+            hidden_states = moe_hidden_states + self.shared_mlp(hidden_states)
+            del moe_hidden_states
+        hidden_states = residual + hidden_states * self.residual_multiplier
+
+        return hidden_states, residual
+
+
+class GraniteMoeHybridAttention(nn.Module):
+
+    def __init__(
+        self,
+        config: GraniteMoeHybridConfig,
+        cache_config: Optional[CacheConfig] = None,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.causal = True
+        self.hidden_size = config.hidden_size
+        self.attention_bias = config.attention_bias
+        self.attention_multiplier = config.attention_multiplier
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.hidden_size // self.num_heads
+        self.num_key_value_heads = config.num_key_value_heads
+
+        self.q_proj = ReplicatedLinear(self.hidden_size,
+                                       self.num_heads * self.head_dim,
+                                       bias=self.attention_bias,
+                                       quant_config=quant_config,
+                                       prefix=f"{prefix}.q_proj")
+
+        self.k_proj = ReplicatedLinear(self.hidden_size,
+                                       self.num_key_value_heads *
+                                       self.head_dim,
+                                       bias=self.attention_bias,
+                                       quant_config=quant_config,
+                                       prefix=f"{prefix}.k_proj")
+
+        self.v_proj = ReplicatedLinear(self.hidden_size,
+                                       self.num_key_value_heads *
+                                       self.head_dim,
+                                       bias=self.attention_bias,
+                                       quant_config=quant_config,
+                                       prefix=f"{prefix}.v_proj")
+
+        self.o_proj = ReplicatedLinear(self.hidden_size,
+                                       self.hidden_size,
+                                       bias=self.attention_bias,
+                                       quant_config=quant_config,
+                                       prefix=f"{prefix}.o_proj")
+
+        if config.position_embedding_type == "rope":
+            self.rotary_emb = get_rope(
+                self.head_dim,
+                rotary_dim=self.head_dim,
+                max_position=config.max_position_embeddings,
+                base=int(config.rope_theta),
+                rope_scaling=config.rope_scaling \
+                    if hasattr(config, "rope_scaling") \
+                    and config.rope_scaling is not None else None,
+                is_neox_style=True,
+            )
+        else:
+            self.rotary_emb = None
+
+        self.attn = Attention(self.num_heads,
+                              self.head_dim,
+                              self.attention_multiplier,
+                              num_kv_heads=self.num_key_value_heads,
+                              cache_config=cache_config,
+                              quant_config=quant_config,
+                              prefix=f"{prefix}.attn")
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+
+        query = self.q_proj(hidden_states)[0]
+        key = self.k_proj(hidden_states)[0]
+        value = self.v_proj(hidden_states)[0]
+
+        if self.rotary_emb is not None:
+            query, key = self.rotary_emb(positions, query, key)
+
+        hidden_states = self.attn(query, key, value)
+        del query, key, value
+
+        hidden_states = self.o_proj(hidden_states)[0]
+        return hidden_states
+
+
+ALL_DECODER_LAYER_TYPES = {
+    "attention": GraniteMoeHybridAttentionDecoderLayer,
+    "mamba": GraniteMoeHybridMambaDecoderLayer,
+}
+
+
+class GraniteMoeHybridModel(nn.Module):
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        lora_config = vllm_config.lora_config
+
+        self.config = config
+        lora_vocab = ((lora_config.lora_extra_vocab_size *
+                       (lora_config.max_loras or 1)) if lora_config else 0)
+        self.vocab_size = config.vocab_size + lora_vocab
+        self.org_vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            self.vocab_size,
+            config.hidden_size,
+            org_num_embeddings=config.vocab_size,
+        )
+        self.embedding_multiplier = config.embedding_multiplier
+
+        def get_layer(prefix: str):
+            layer_idx = int(prefix.rsplit(".", 1)[1])
+            layer_class = ALL_DECODER_LAYER_TYPES[
+                config.layer_types[layer_idx]]
+            return layer_class(
+                config,
+                layer_idx,
+                cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers, get_layer, prefix=f"{prefix}.layers")
+        self.make_empty_intermediate_tensors = (
+            make_empty_intermediate_tensors_factory(
+                ["hidden_states", "residual"], config.hidden_size))
+
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        mamba_cache_params: MambaCacheParams,
+        intermediate_tensors: Optional[IntermediateTensors] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+
+        attn_metadata = get_forward_context().attn_metadata
+        mamba2_metadata = prepare_mamba2_metadata(
+            chunk_size=self.config.mamba_chunk_size,
+            input_ids=input_ids,
+            attn_metadata=attn_metadata,
+        )
+
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = hidden_states * self.embedding_multiplier
+            residual = None
+        else:
+            if intermediate_tensors is None:
+                raise RuntimeError('Intermediate tensors may not be None!')
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        num_attn = 0
+        for i in range(len(self.layers)):
+            layer = self.layers[i]
+            if isinstance(layer, GraniteMoeHybridAttentionDecoderLayer):
+                num_attn += 1
+
+            layer_mamba_cache_params = None
+            if isinstance(layer, GraniteMoeHybridMambaDecoderLayer):
+                layer_mamba_cache_params = mamba_cache_params.at_layer_idx(
+                    i - num_attn)
+
+            hidden_states, residual = layer(
+                positions=positions,
+                hidden_states=hidden_states,
+                residual=residual,
+                mamba_cache_params=layer_mamba_cache_params,
+                mamba2_metadata=mamba2_metadata)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({
+                "hidden_states": hidden_states,
+                "residual": residual
+            })
+
+        hidden_states = self.norm(hidden_states)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[Tuple[str,
+                                                   torch.Tensor]]) -> Set[str]:
+        params_dict = dict(self.named_parameters())
+        loaded_params: Set[str] = set()
+
+        def _load(n, p):
+            param = params_dict[n]
+            weight_loader = getattr(param, "weight_loader",
+                                    default_weight_loader)
+            weight_loader(param, p)
+            loaded_params.add(n)
+
+        def _load_expert(n, p, name, shard_id, expert_id):
+            param = params_dict[n]
+            weight_loader = getattr(param, "weight_loader",
+                                    default_weight_loader)
+            weight_loader(param,
+                          p,
+                          name,
+                          shard_id=shard_id,
+                          expert_id=expert_id)
+            loaded_params.add(n)
+
+        for n, p in weights:
+            if "A_log" in n:
+                n = n.replace("A_log", "A")
+
+            # Logic analogous to: https://github.com/vllm-project/vllm/blob/f49e5aff11c986ed4d45202b1716c5d74786efa9/vllm/model_executor/models/granitemoeshared.py#L215
+            # Mapping different experts' layout:
+            #  from HF (input_linear, output_linear, router)
+            #  to vLLM (experts_w13({e}.w1, {e}.w2), experts_w3({e}.w3), gate)
+            if n.endswith('.block_sparse_moe.input_linear.weight'):
+                for e in range(p.size(0)):
+                    w1_name = n.replace(
+                        '.block_sparse_moe.input_linear.weight',
+                        f".block_sparse_moe.experts.{e}.w1.weight")
+                    w3_name = n.replace(
+                        '.block_sparse_moe.input_linear.weight',
+                        f".block_sparse_moe.experts.{e}.w3.weight")
+                    w1_param, w3_param = p[e].chunk(2, dim=0)
+                    _load_expert(n.replace('.input_linear.', '.experts.w13_'),
+                                 w1_param,
+                                 w1_name,
+                                 shard_id='w1',
+                                 expert_id=e)
+                    _load_expert(n.replace('.input_linear.', '.experts.w13_'),
+                                 w3_param,
+                                 w3_name,
+                                 shard_id='w3',
+                                 expert_id=e)
+            elif n.endswith('.block_sparse_moe.output_linear.weight'):
+                for e in range(p.size(0)):
+                    w2_name = n.replace(
+                        '.block_sparse_moe.output_linear.weight',
+                        f".block_sparse_moe.experts.{e}.w2.weight")
+                    w2_param = p[e]
+                    _load_expert(n.replace('.output_linear.', '.experts.w2_'),
+                                 w2_param,
+                                 w2_name,
+                                 shard_id='w2',
+                                 expert_id=e)
+            elif n.endswith('.block_sparse_moe.router.layer.weight'):
+                gate_name = n.replace('.block_sparse_moe.router.layer.weight',
+                                      ".block_sparse_moe.gate.weight")
+                _load(gate_name, p)
+            else:
+                _load(n, p)
+
+        return loaded_params
+
+
+class GraniteMoeHybridForCausalLM(nn.Module, HasInnerState, SupportsLoRA,
+                                  SupportsPP, IsHybrid, SupportsV0Only,
+                                  SupportsQuant):
+    packed_modules_mapping = {}
+    embedding_modules = {
+        "embed_tokens": "input_embeddings",
+        "lm_head": "output_embeddings",
+    }
+    embedding_padding_modules = ["lm_head"]
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        self.vllm_config = vllm_config
+        self.model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        lora_config = vllm_config.lora_config
+        scheduler_config = vllm_config.scheduler_config
+        if cache_config.enable_prefix_caching:
+            raise RuntimeError(
+                "GraniteMoeHybrid currently does not support prefix caching")
+
+        self.quant_config = vllm_config.quant_config
+        self.config = config
+        self.scheduler_config = scheduler_config
+        self.model = GraniteMoeHybridModel(vllm_config=vllm_config,
+                                           prefix=maybe_prefix(
+                                               prefix, "model"))
+        self.unpadded_vocab_size = config.vocab_size
+        if lora_config:
+            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
+
+        self.lm_head = ParallelLMHead(
+            self.unpadded_vocab_size,
+            config.hidden_size,
+            org_num_embeddings=config.vocab_size,
+            padding_size=DEFAULT_VOCAB_PADDING_SIZE
+            # We need bigger padding if using lora for kernel
+            # compatibility
+            if not lora_config else lora_config.lora_vocab_padding_size,
+            quant_config=self.quant_config,
+            prefix=maybe_prefix(prefix, "lm_head"))
+        if config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+        self.logits_processor = LogitsProcessor(self.unpadded_vocab_size,
+                                                config.vocab_size,
+                                                scale=1 /
+                                                self.config.logits_scaling)
+
+        # Used to track and store by the Mamba cache between steps.
+        self.mamba_cache: Optional[MambaCacheManager] = None
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors)
+
+    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.get_input_embeddings(input_ids)
+
+    def forward(self,
+                input_ids: torch.Tensor,
+                positions: torch.Tensor,
+                intermediate_tensors: Optional[IntermediateTensors] = None,
+                inputs_embeds: Optional[torch.Tensor] = None,
+                **kwargs):
+        if self.mamba_cache is None:
+            num_mamba_layers = self.model_config.get_num_layers_by_block_type(
+                self.vllm_config.parallel_config, LayerBlockType.mamba)
+            self.mamba_cache = MambaCacheManager(
+                self.vllm_config, self.model_config.dtype, num_mamba_layers,
+                *self._get_mamba_cache_shape())
+
+        mamba_cache_params = self.mamba_cache.current_run_tensors(**kwargs)
+        hidden_states = self.model(input_ids, positions, mamba_cache_params,
+                                   intermediate_tensors, inputs_embeds)
+
+        return hidden_states
+
+    def copy_inputs_before_cuda_graphs(self, input_buffers, **kwargs):
+        return self.mamba_cache.copy_inputs_before_cuda_graphs(
+            input_buffers, **kwargs)
+
+    def get_seqlen_agnostic_capture_inputs(self, batch_size: int):
+        return self.mamba_cache.get_seqlen_agnostic_capture_inputs(batch_size)
+
+    def _get_mamba_cache_shape(
+            self) -> Tuple[Tuple[int, int], Tuple[int, int]]:
+        world_size = get_tensor_model_parallel_world_size()
+        hidden_size = self.config.hidden_size
+
+        conv_state_shape, temporal_state_shape = None, None
+
+        intermediate_size = self.config.mamba_expand * hidden_size
+
+        # if n_groups is not divisible by world_size, need to extend the shards
+        # to ensure all groups needed by a head is sharded along with it
+        n_groups = (self.config.mamba_n_groups + extra_groups_for_head_shards(
+            self.config.mamba_n_groups, world_size))
+
+        # - heads and n_groups are TP-ed
+        conv_dim = (intermediate_size +
+                    2 * n_groups * self.config.mamba_d_state)
+        conv_state_shape = (
+            divide(conv_dim, world_size),
+            self.config.mamba_d_conv - 1,
+        )
+
+        # These are not TP-ed as they depend on A, dt_bias, D
+        # - they are typically small
+        #   e.g., (h_heads, d_head, d_state) = (128, 64, 128)
+        temporal_state_shape = (
+            divide(self.config.mamba_n_heads, world_size),
+            self.config.mamba_d_head,
+            self.config.mamba_d_state,
+        )
+        return conv_state_shape, temporal_state_shape
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+    ) -> Optional[torch.Tensor]:
+        logits = self.logits_processor(self.lm_head, hidden_states,
+                                       sampling_metadata)
+        return logits
+
+    def load_weights(self, weights: Iterable[Tuple[str,
+                                                   torch.Tensor]]) -> Set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index e25941faa..19153efd8 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -64,6 +64,7 @@ _TEXT_GENERATION_MODELS = {
     "GPTNeoXForCausalLM": ("gpt_neox", "GPTNeoXForCausalLM"),
     "GraniteForCausalLM": ("granite", "GraniteForCausalLM"),
     "GraniteMoeForCausalLM": ("granitemoe", "GraniteMoeForCausalLM"),
+    "GraniteMoeHybridForCausalLM": ("granitemoehybrid", "GraniteMoeHybridForCausalLM"),   # noqa: E501
     "GraniteMoeSharedForCausalLM": ("granitemoeshared", "GraniteMoeSharedForCausalLM"),   # noqa: E501
     "GritLM": ("gritlm", "GritLM"),
     "Grok1ModelForCausalLM": ("grok1", "Grok1ForCausalLM"),
-- 
GitLab


From edbf2d609e6a23a105cc109844a187d72727b014 Mon Sep 17 00:00:00 2001
From: Richard Zou <zou3519@users.noreply.github.com>
Date: Tue, 6 May 2025 02:46:11 -0400
Subject: [PATCH 161/461] [easy] Fix logspam on PiecewiseBackend errors
 (#17138)

Signed-off-by: rzou <zou3519@gmail.com>
---
 vllm/compilation/backends.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/vllm/compilation/backends.py b/vllm/compilation/backends.py
index fcaf4a0f9..a1ff5fb11 100644
--- a/vllm/compilation/backends.py
+++ b/vllm/compilation/backends.py
@@ -241,6 +241,8 @@ class PiecewiseCompileInterpreter(torch.fx.Interpreter):
         self.graph_pool = graph_pool
         self.vllm_config = vllm_config
         self.vllm_backend = vllm_backend
+        # When True, it annoyingly dumps the torch.fx.Graph on errors.
+        self.extra_traceback = False
 
     def run(self, *args):
         fake_args = [
-- 
GitLab


From dc47ba32f81bb479eaee43c5b6d42e72d1cb3be4 Mon Sep 17 00:00:00 2001
From: Mikhail Podvitskii <podvitskiymichael@gmail.com>
Date: Tue, 6 May 2025 09:00:08 +0200
Subject: [PATCH 162/461] [Bugfix] Fixed prompt length for random dataset
 (#17408)

Signed-off-by: Mikhail Podvitskii <podvitskiymichael@gmail.com>
---
 benchmarks/benchmark_dataset.py | 17 +++++++++++++++--
 1 file changed, 15 insertions(+), 2 deletions(-)

diff --git a/benchmarks/benchmark_dataset.py b/benchmarks/benchmark_dataset.py
index 9c614baf1..b81c2f819 100644
--- a/benchmarks/benchmark_dataset.py
+++ b/benchmarks/benchmark_dataset.py
@@ -315,13 +315,15 @@ class RandomDataset(BenchmarkDataset):
         )
 
         vocab_size = tokenizer.vocab_size
+        num_special_tokens = tokenizer.num_special_tokens_to_add()
+        real_input_len = input_len - num_special_tokens
 
         prefix_token_ids = (np.random.randint(
             0, vocab_size, size=prefix_len).tolist() if prefix_len > 0 else [])
 
         # New sampling logic: [X * (1 - b), X * (1 + b)]
-        input_low = int(input_len * (1 - range_ratio))
-        input_high = int(input_len * (1 + range_ratio))
+        input_low = int(real_input_len * (1 - range_ratio))
+        input_high = int(real_input_len * (1 + range_ratio))
         output_low = int(output_len * (1 - range_ratio))
         output_high = int(output_len * (1 + range_ratio))
 
@@ -344,6 +346,17 @@ class RandomDataset(BenchmarkDataset):
                          vocab_size).tolist()
             token_sequence = prefix_token_ids + inner_seq
             prompt = tokenizer.decode(token_sequence)
+            # After decoding the prompt we have to encode and decode it again.
+            # This is done because in some cases N consecutive tokens
+            # give a string tokenized into != N number of tokens.
+            # For example for GPT2Tokenizer:
+            # [6880, 6881] -> ['Ġcalls', 'here'] ->
+            # [1650, 939, 486] -> ['Ġcall', 'sh', 'ere']
+            # To avoid uncontrolled change of the prompt length,
+            # the encoded sequence is truncated before being decode again.
+            re_encoded_sequence = tokenizer.encode(
+                prompt, add_special_tokens=False)[:input_lens[i]]
+            prompt = tokenizer.decode(re_encoded_sequence)
             total_input_len = prefix_len + int(input_lens[i])
             requests.append(
                 SampleRequest(
-- 
GitLab


From 63ced7b43f56c4f81b73b0ad176e820f70b2e782 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Tue, 6 May 2025 15:51:02 +0800
Subject: [PATCH 163/461] [Doc] Update notes for H2O-VL and Gemma3 (#17219)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 docs/source/models/supported_models.md | 7 +------
 1 file changed, 1 insertion(+), 6 deletions(-)

diff --git a/docs/source/models/supported_models.md b/docs/source/models/supported_models.md
index e2bbb231d..a5b63cf7b 100644
--- a/docs/source/models/supported_models.md
+++ b/docs/source/models/supported_models.md
@@ -1118,11 +1118,6 @@ See [this page](#generative-models) for more information on how to use generativ
 <sup>E</sup> Pre-computed embeddings can be inputted for this modality.  
 <sup>+</sup> Multiple items can be inputted per text prompt for this modality.
 
-:::{important}
-Pan-and-scan image pre-processing is currently supported on V0 (but not V1).
-You can enable it by passing `--mm-processor-kwargs '{"do_pan_and_scan": true}'`.
-:::
-
 :::{warning}
 Both V0 and V1 support `Gemma3ForConditionalGeneration` for text-only inputs.
 However, there are differences in how they handle text + image inputs:
@@ -1142,7 +1137,7 @@ This limitation exists because the model's mixed attention pattern (bidirectiona
 :::
 
 :::{note}
-`h2oai/h2ovl-mississippi-2b` will be available in V1 once we support backends other than FlashAttention.
+`h2oai/h2ovl-mississippi-2b` will be available in V1 once we support head size 80.
 :::
 
 :::{note}
-- 
GitLab


From 6eae34533a893d26b5f6d178c3b5885aa229e520 Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Tue, 6 May 2025 04:07:15 -0400
Subject: [PATCH 164/461] [Misc] Fix ScalarType float4 naming  (#17690)

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>
---
 tests/kernels/quantization/test_nvfp4_quant.py | 2 +-
 tests/test_scalartype.py                       | 2 +-
 vllm/scalar_type.py                            | 2 +-
 3 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/tests/kernels/quantization/test_nvfp4_quant.py b/tests/kernels/quantization/test_nvfp4_quant.py
index 93735fc09..b8aa16721 100644
--- a/tests/kernels/quantization/test_nvfp4_quant.py
+++ b/tests/kernels/quantization/test_nvfp4_quant.py
@@ -17,7 +17,7 @@ PAD_SHAPES = [(90, 64), (150, 64), (128, 48), (128, 80), (150, 80), (90, 48),
 SEEDS = [42]
 CUDA_DEVICES = ['cuda:0']
 
-FLOAT4_E2M1_MAX = scalar_types.float4_e2m1fn.max()
+FLOAT4_E2M1_MAX = scalar_types.float4_e2m1f.max()
 FLOAT8_E4M3_MAX = torch.finfo(torch.float8_e4m3fn).max
 
 # E2M1 to float
diff --git a/tests/test_scalartype.py b/tests/test_scalartype.py
index d0e57ea86..eecfa1db3 100644
--- a/tests/test_scalartype.py
+++ b/tests/test_scalartype.py
@@ -11,7 +11,7 @@ from vllm.scalar_type import scalar_types
     (0, 15, scalar_types.uint4),
     (-8, 7, scalar_types.uint4b8),
     (-128, 127, scalar_types.uint8b128),
-    (-6., 6., scalar_types.float4_e2m1fn),
+    (-6., 6., scalar_types.float4_e2m1f),
     (-28., 28., scalar_types.float6_e3m2f),
     (torch.int8, scalar_types.int8),
     (torch.uint8, scalar_types.uint8),
diff --git a/vllm/scalar_type.py b/vllm/scalar_type.py
index 5d893a3a5..fc1761c84 100644
--- a/vllm/scalar_type.py
+++ b/vllm/scalar_type.py
@@ -333,7 +333,7 @@ class scalar_types:
     float6_e3m2f = ScalarType.float_(3, 2, True, NanRepr.NONE)
 
     # fp4, https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
-    float4_e2m1fn = ScalarType.float_(2, 1, True, NanRepr.NONE)
+    float4_e2m1f = ScalarType.float_(2, 1, True, NanRepr.NONE)
 
     # "gptq" types
     uint2b2 = ScalarType.uint(2, 2)
-- 
GitLab


From 05e1f96419281a3a2d58f56b136347b4af1906ba Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 6 May 2025 09:56:48 +0100
Subject: [PATCH 165/461] Fix `dockerfilegraph` pre-commit hook (#17698)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .pre-commit-config.yaml                       |   2 --
 .../dockerfile-stages-dependency.png          | Bin 120680 -> 121821 bytes
 tools/update-dockerfile-graph.sh              |   9 ++++++---
 3 files changed, 6 insertions(+), 5 deletions(-)

diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
index 30a7430f0..3dc06952c 100644
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -125,8 +125,6 @@ repos:
     name: Update Dockerfile dependency graph
     entry: tools/update-dockerfile-graph.sh
     language: script
-    files: ^docker/Dockerfile$
-    pass_filenames: false
   # Keep `suggestion` last
   - id: suggestion
     name: Suggestion
diff --git a/docs/source/assets/contributing/dockerfile-stages-dependency.png b/docs/source/assets/contributing/dockerfile-stages-dependency.png
index 6ace54f6676203dc05aa2a9d44248b621771c8a2..0838bfa37fe62d60fba9adcbd18c81de0809f253 100644
GIT binary patch
literal 121821
zcmcG$cU+Et-#>mLWHii(R8~kO?b0+tT4-oWXlZHhBtnw$Y0*+r+EGeri9%`bol1M}
z{e2$ind`c~*YCc6zrTLx{kSjk={(Qlc)wrcIbQGMp@N(=&3eZ5Boc|{+}TqXNhDeq
z5@}^Q^-BE9;pF$~_+!mA8R=7`CF1`=Gb3M+NGzmtrz9`i2KF}@SSock3A6@1+)qWV
zL%Z!%1PjY1n!6kK>N7nR?z@=#Zsm55u#eYbs+9X;1;fw2I~h?L&GhDmLgEqLtB0vr
z)z&F*syyhna-HtVoy~M}cB9jVUr9ge)@jsu#5)X)i90O4&rsejy3i?R?&IUL0++J<
zQdl*jxc2W4B$DfzlXKhu{iEUe{~vxj!re>$2KtES&!3lw&BdmrrA0;Q*Tico7Od#i
zsCX+|QBm<qz_dADGb8E)`B!P4PjV1{SsS>GUHS9qPxeorKH1sXF*^=R;*ZLQuGDWL
zBlT|FnCP#w7;epF3$na;=FFMOhs1ka@3Y3ge}BApBk=?M2E0>Vd||vOfJc0$;{`r{
zLgw1F->xfG6^jgg_T<VE6crWi6(oLFBJ-`&2K<@hY=UdUWjT!gVDmeAWz@&-;-yOt
z<K5=9Ivx>`kqwiZY3U;(BEEh5)>o6TG?l%SdGpuHgwHR1efh6_ePG_6&t(2}lj56I
z#D_AH28ci)O{#C(wyh#kK6~I}gV_9VUi6E1@7|sCpj}v;$`-fmE*)~7%2>B<-KK+7
zVM-brpDlaJg)IIQ1qxYIMJp+FwYRr(eIEYOV4A&<m`Ce*Y!C5~3gQMWM64ycs3q%{
z)h6k-*mVU(^VHSVsc6}Cu4d49>g&5*=UAw-{Zx|;n|$yItKQ1rzkd&3xOlO=N=4hL
zfXRl}pnQM*E#ku@GQ%i0zj(8+I!>U)acqnH2}MQ4O~FDVU$@|UCl?pyq<3wMTKZ_*
zz<=ZCKN&+=b7LjqbS0L(l?J07KZrd@&Luv|b(RuSt_weL!A^spy5hAmg-`TXM3yW}
zwTNH;{`Bn06*NWFaq7&@(`^nznKpBi18o6D@t^+Wu4TSe8KwC5b0o;o=(<o)`R-D|
z6Q*4sJFyWiGlkmCW_dJNEyb>tjBmWfX1hJa=i5HpjeW`M@9!619PthkwtB?7mADvs
z(dG4Di}kP3c3IH%7TvyQk3|tTHbcDQ>B%tJ)x4I-kxOqce44B`k~x3gjYYrW?XTD?
zAMB?FnXEX8PhmM<pGy46Yunk`shj`UZn91<FONMw?e|Cl^VI4Q3F9kSjx(RSg6G;i
znAb>R;U~MqmuB9)kb5Ldxs08Z%V7K%Bw`b6Q7puxSG>`U<?vyHpZ^^8)3P_HeC@jM
z>#gjoVzIe?tUeF5TSrF+gSO+yc!j+8@@LR2e@5b?M~^n`JA;7OAW6TUjZHp8Y@z={
z$rItNi7rPtI5NA#JQt@6#MelcMk$5|@aP5G{(h+FL4*ovZzy?}C06lU_t*Y-!M2vT
zR(`$WKr9P?@2Q-{*w3Hm*NRW)V#V*W=vT+q?K1srK3*m*%|sMB(gVKbYlvRA<=|sx
zaWQJQGhU1f6A3P&$gXfXs{W;)KYtdBPBrf2xk)AYG$7#9t-ANt1NEnu-+y@d{cmQ*
zx?F}FTG-jyJ-xj{#GGblx<Z((_O?nWUc7i4iN~dy$U^Owdw1>9!jOyng$s|D7eQpX
zez}S&tE$@Ou4eeh$7i*qSs_PiRP)NDf1W=djTB#ar(5tulK!Y_Vym9`+?D0J;QxM#
zTvTXE>hwYu{Icf{P`hoB6Kq2+$eum>KzNf`&P+}ABA@MWYk7J3^z<|?k&cn~Q12<?
z&Ltk#QlfFqp9nv#^)aad0RhNKw_XnVhgnW@&4^=3`pcIuKi<jnHaVI1@0;|=DO&n;
z>$YtR-O}RgYrMr5Z3}%l!hfyW{XO4nS53Cd5)1X{*cj4jFshySCK5L#6(vp{*ZJaZ
z)mM$%LlO~DgMvw`KQc0cDthbu`SbKtbSH*$T$biqqPCE0e9}|12IJJzLF69{JCL8u
zLbp4LgG6@m8S)}-@xpJeO;?UnGp<kWiA!xhf(_u{5S^&Jgv}$qyi&-4a>-X4ElNby
zKi*pBcD27Y$z%8Jvz6u~Hx_D>^q#i})HRaFPz6$qYR)i``$?3=a*AwJPc?D+6QJkD
za#ltrW9HAR@F%N=#nn;_C)$~p1gYJS0Alz$+zRn^y@8ZUPm?#^Q{n09d6#8}(CzCD
zAB~B3xu7JxL>{nEJCD6;`N!Ay?{}&H{jL{m^0W*{e!6hkmBZWO)KY}!`aj%dnf~p`
zrR6-+xxAoOGRs?c_18;2EdB<!P~?m>vy&xmDa)|PpS$h1yvyvR<a5L&xu#S4fW)d}
zM%A%qn+7@8DYR_db0SSCMp=^n^K5U7h|S<*VOrvM6+DtniTlte-7E=a;=E6@YrFAg
zSHlDQ_Xpnod03MER`X{eHa5292E$aIwHm)1y27?EE)`{_CCf=!S-J8GDOzQsYeiea
zQQ{-7x<pWN)F~BtBm0VfwdB*FASMO|2CLn!y-ZHyWo>)8xVY-~6Td7GwEU4-F}+E3
z)7zs;vgVqG_)QuGOUYm5x)4NJ--#yN?pDrpt3Kiao6ep++g%<ZLr;Ygtb+@{%T@Tz
z-|s~WGb@W$iqU^T>ere!GDJJXrg{kz-I1iALb>Irp+}ycd8h5|?Xhgu33g+D+QOou
z4lQ3-QyJw}vtsI{-k*DMu<W3YHcINjL8JQ{cW$<dXZ+OvzA$Ug;xB=gMo$?pCXvZL
zzgg7GD-F*co<Z-;`{v7`9wtjJT9r(cqS2dy+G4f|D?!|Xr}t8bd=vYTBmebVEZc>x
zdN0ppKM@&Bi)wdNI(_<^l8UBJaBy>m&CvY(e8T5hME1QOEw=4mPM^yz$%}5&GAs@h
znzKDj+#YG~Yw|LX=;vojT!PUd|NMGoVPWAi9?pE466&tAlz1Ys9OB|iQ1kQgIqgr*
z9anofa-fk|1g9D;q`mhvy*c+HHZ~SZ&r1mbQl<98W&HI(OG@g?KZntG0ybOGlfSxG
zgpzyYA4n3il>Yu-Kb4`<Oyzqsx5TI<pod1jd4mqzgIih{3t7^*a%HDga%QUiL~qE_
ze3vwn)n(7^9E<`cj=(NK*7XJij6gjIf3k-7*qr7H@-~seE?>D~*WxsF<HikH|6@Ae
z9&JPGIc;FjQ=ekAG#)7)gyKV>m5vwkS);xYGJg3^zk+O<XMB>R_t<sx>4rGZ_Ne63
ziq8)xc%zvPw3k>dElf>ym$eUO3~8Y^qGF)qB;mTykhIKlSKnPjqxRwEFEK4<;zC@b
zD20-wn2ti|JozDn$z^^d0niUUFv)3d^7H4<yG+tp@uGGk>hjLx9et}C?FaAgGMVm?
zcTu}|aWj=9@<|(6Khak+RGYL<Tzm;JV2jmyBEC2c<P)V!4yQx`N&vfl|Gcy~m)dOK
zmuBAnr#Og!d#ShTj`Q)Q=#>N$m9=GYGBwdP0~fu4Gc7bMEUZ^E(_tzeI~p6?`2I$r
z38!<DRn0wJ>|xz6RcB{sL2H1j%Aa%-b1h4Y05cnF^n$FazuenUBG~?Td9w!UCw$dS
zt^l%OO-w$I<g0yRB9?%}O({F1Q*RR!6OC%(=|sm%YqS~pZ`I=ZzD$Ij_OxyZjT8TP
ztM1~qj2nf%*$V@vTefV;KK{bTXCh}6o#XsS0k=H47)x+a(w`J&xiC@V;n3*ZG(FPZ
z{`>criGAKDHs>ignD$n_BepngkBIdx<Xa5WTrQn+DeA+HKjc*kt^T_s!UM?_Sv?U&
zMMday_xq4S#Qq<tY<|UWtX5?&Ag+c$9&XFieNIi>hO64Y?n5)f8f~WTS5BEUvu27`
zvc6&yTRj_~GeCKpu$WkuN`h9#&f=dxADufyyp?1aK&e*r0r<8iI?KVvPliE$ekuj#
zlT~v=+1hGqjPZ2B-J$3SO&e29Tf`2&CciK02BjfLTz|=H@P6(N@VHW(fJvh&@kSKo
z=<1%Ho($&2>Jai$yUw1Y<mrP8j`OLGrvhHSR7+`oe?x|;piTvqE=~<u)$c6G%KG{V
zr6nt{Eyv8P5rC*tAGYp{|C@tZfr)S4?EgY8#iYMwisiUAXN__USdL*6HZ3!w5X5G3
z(90njo2Jx<FlwSRZTJ}X-yi+`R&Aor)GC7HR0*@Q_pvABfBU8sXEWG1Bg-&z`(CP?
zRZsZ=yfg^T(X=p`+A{lrOfvp50n)RX?r?AG?A5nSOiZfmb6i(w+wmcsqg^vlo=wxg
zyDW}{IDJoB%gAR~iE3!3si>IbI5XO`F?((>gL@s(oJbNJ%Qa!|B}GMUe7mXrL^ePe
z+C|<3;H{R@t+>t1%puR7ZHljny)q_Sb0zU=Zq}N(Bu~!tD8mInC@X;%AM{G%=g72*
zR4GO&-z?{eh!)7SL}gG>R=(fY7oQPdAAo>7u5ncBbDH6Fp_a?S1fAIQ)ezn4%F_&*
zl~`soQM=I&)B0yN`Hy!J&8p}k88;|+{!QZj`}ZRp8qEusv|S7)`|IRSjGRi_bL?u4
zKeujl=9iwxkUg9L)gOSed)O09Y7^UjvL~GA4!vv0HJS>D@=DPBT3Rzw?0}!fMP=nl
zpMa_u6>Y03B@hg5ndK#+bXn3~9<$aQo?^jvhV1EY0eZnRvwaB++qU`q^Ur52pg^Np
z9==XXOKT5RF004xQP2`rv8-7-9+%;}%*hB>4Wc}GpBVkl7UK9GDUM1d|B62jVC3-O
z!{T#wCD*3*t<D9Fo2m#|<kcv_EnpLQZWbXjPNEunFgptZ6E<f$m;$~{Hkf+fI6_VU
zL(k>J*#OA$a87%ytAtJ-;RE<!{Pn>me1c$``<CO!j}uIGvVW%aF5UgA27vxaG~oWy
z*Leb({Gy@@TrM**pnrE+YQgd*YP4IDbPIs*Q;ZuX!#p{AYm?f+vYx+q5%WjHvYY;9
zRQ>D8;XFFJl1BT!I3?Y4=gzhLAn2DQy@qw&jkdPZ*C%6c-lt_^4E{Wr-k0^f7brRC
zn2wa8p&>n$jPFsQu_7Mz6hoiq&&xkqbd9tZAZ2a;6a|37Dvd47P0?{#{o<?X?;IoV
z0*mtUmLEa|!Ho^z0-1SkUPv`*!j0joM6CO5LCluW4_=D9I3rPQT<)P}#cO;T{n%gv
zvaSu4;Nr!L9<)qyLY@CGXxX-<)My!@{M~YXnlSxC-g$HgX!_49Q?b$S`yfdK2L?92
zKIzd8(4JJV#{oPVf15r_3Bkmn-$2jd#pDgh;ISX?jtp@YrgpPwaY{w+2f&>^<E%|Y
zYtEgVW-@;y|0+r05~W)G*G~!}__(~&8X6jZacKB5AoBx}=fsYXp<6?`l~J00`I~e9
z{aZEI8#6@>jokz~0xnw5pp>0Pe243T_c9371X@dricVQkDc_dxZhG35f;V!UFHivT
zY&@EL+i%cxZ~k>TCYO<=*>7o4aHnmVvx!oZ<6Kw(l?yb%=E{{Te}QPm2xzc}Lkpn5
zGetdee)c~7`;}eALAwM@c2nh!b{2*guN?MLj#b^nX+PP&(|9xSNuhESn4{1F)Vv$;
z78o0S8QI|_Oe-+~^u@qAJKnS9|NiY#(#Bo<M>UFqMMZ!(Tdr5fULkYg5VJ4q{_7HG
za?qUezG*Mb)&S66X6ND>3ilRU@79{u{=}$0*#H~>uYbYcRZo3<tiH2)P)Qy$ZT?Il
zIIS_k061pm`8)May&^-sD5GTxLNYfu4?p9z-YxX=XGf5EV%wL1bac^RCF$S1eTyKw
z_m}MWQWk|K55yc|m>bLVFH`3afHxp2^C9mpMViznAEtKO!1ejqzJ2?aSwqt@#Mgmj
z)+E#wxP>YgZJHqU#JjxlIZ(2AG_>tHeah~W7ysI_aI&TyVJ~yx!bZ2&V28oOM~*zg
ziqcc%LfRSm!4^U#X@(mbA8Zm?{-z*G<qys6u21Rv{%jxWK(fK5D!CV=O={WB3t;tI
zs3aX7=b3C8H(Bi_R*hx*f8+pP3i|F~Qw9OPSXtWuKqHM0-qH8k!TlQz%ZZ-KPviCv
zQ<u4hWm=YWb%?BuF+P_I5?=VtkWEcq#PRMjGQrwp*7}mqNLe-0xGK8JechI@C*)@L
z^}+HY7SRYa63mDy_t7?X0AgmV-L0ev6yU|ywc^w@D6?l#%Rsb=3;lXQ1K755C-L{I
zB}cWhKD#U}qL)h2&qIOBZgtxbCP%ef)q1c|2m%#AAv?8Og}k^Ex{e|n84z77pyV*`
ziA?(mdtj}+36y8Bl<mfQS|uz{sNAa>PNKzus(Vt{A^mcq^PUYyLEtmIOiu-LK`13-
zV`JdkyAPRUPE>;eKq-N60n&Q&`t?&mWEk~eSt*&kXl_1&x}RpzRUEbQLZF~I1W!qN
z$B}OgdG~4NAP<F~U%6Xw4-$t618O%27hS;)oFXD3%Nj)NHzj4|Gh|J`b&WyiPoJg?
z8#*_Zef!!=xqcKC-2!R`!F$DPaIt15ziIOcsF46F5FLhd*Jgw50>#Dky;`|87A<b*
z?JJY@;wmm3&!posC+nAGhfNf;d6i4)^5tacJyB6n^(sJ{AP+Xkq}`7ABxXmmNV%Zs
z?T|fFcIY;xTLCFIf@6XPH>E?z{opV)sOed=7BLVO_8WcGr9Y|QOP=;ZuL^d<DES$&
zbAM?<;*^}&Ob2?#U{6N<N8`E9<0jJ~5dF@}$TVc^K)E>qg@J)fYd4kT`SU+fzQs_T
zGc&g4)EJ}xqm|ir`lz_EJn-}+WK44GkO3&maY|PAXKK&?X0T~Amp0an1MSx~>AX)X
zHr<N&cItD0RPBhw`3!BNtqqw@$e929^H2THHM<jik6yXmY}Xa1nZZx(_Vw#my<odP
z*jH$C#P!o3pg^I?W^mywfU24vj&#eOQLwj(p_V0eHW?WiQ&58Fp?l)}iFwWoecH_6
zK~{`(wcY?3jRf_>?}ETVoWrs~Gs&LH96B9DX66t4DVgCg1YH{%rYw`wR|sOaD`W*0
zz~N-&<l<*C-Xhn)#0DBt*GkeeFbLc%@+a2V7=YB%J;(VLm~f4j!vKL4hs{buB|#Xa
zpwEWOl6!FF+T{g$K?v3aRE^V~1St##h(e*C`kgs5GlO8)N;A{3_4oC)9!RNq!YrNz
z_?hx@Q>{3MM%pk!XtqFnanqi+Z{9TCF60nsw$(*bUKV}r_li;M0^VB-vlB5*8*bjb
z2^yB|gdLlVx8FsT3k;fdHP`Lo7B+t4dR}TbTzZq!R1=ekHQ^Mf#HuRB=-gS5K6ma1
z^e^$NIj)j-*C;8O0_)Uv7W#n|i>qXkZzg(K(Q_J|Zuj=yB@nO7>ErKjTcxDZ1T+b$
zD8^?)yms~?!rr;}T_l1lMvlm{NDyfhv;~OG0QqX4HkFz|T+T$QK-CT8GpYt`jV`w7
zs~&*IaH22v!+aRA`J^l<N|$vy4hYtk=P@*A_5Q;LHrbbzk@6u<*_A4>;0cfcq2M^D
zA_ciZ<mKgu>OSZ}B*NkncqBMjOFd3Ilq}mFAzo@gKLk1lKL&6{51KFJL48UG-r`K}
z4s&;RkGf4RUlYsJ%HbxG9VUv9kPuiHUI?jXF|9=GP->HP17D5CrO4B%9O@r00AT^*
zUP-rnSMt?0K}KF)9Jk^;oySb5=YM<bvL2kJDJhu?o|~6H0G@!CQRjO!Mg~pGGE{Cf
z*-PvUu@Ap|`EmuE9|}O-`x^vMt#i6#e+UEx)$#6Hx;<i!(|}p8{`qIC)m~!3LRU}<
zODH2!T4VkIz-+WNGUp~bW)t}L?{A({<J&dUE$x0kWXnP#3|Q1=s%U7;W5>2{-Fgen
zbpH4()N<-E5}yF5D4ZY!%=q~D9#Q+<Fllz~+}Sc4Us+iRl%aS1IxiYNa0e91_zKNb
zqLsQXEIUz>^i=2{G0Jg2fBmAFO8Zq(lJL>v<<qC700@W!ybxtfR+WlSX9<l3_KU)p
zL&V#+&5)S{nk+BfzI}UOfhuRk_4a%(4<>6>cq>%_0H=fBLdZRv)PL`56uDK=2e`Sp
zH8wUTnrG;jg&|Q@M5@6c0s2+=OtP~wuA>zjI#&=#l@OCrRVRh{B_Q*x->{+U*DC?o
zJbv2FcGzb0+jEt#iIsF+buW`FRMN6QTXmQlNX^SPmXj-nGIe=C71^h(T%B`g75>qC
zk7(A!Pl($gPLp+mdRb#ZLygET#@iADM~)s1giwFOPqP|}ziid5r6QL!*M-L3su+vg
zx4+~MJU<|VK6+(9_2$h#p^|sM<Qoq)XI{E^ak86}D2GtUvwEsf8)M?rd*d?(4a?vB
z2#%nbl2Lk_!^y&`1P41Or`G%H=W5fOAeKS|Q5aA~N&E2rJ-&gvV0Q&DkkcmvtVPy4
zCkONjG=vw@*wicyvZ6!^4W<N-{xDQS2;M1XZC|jYw>y6tW)B?#wZ~3_Xy~+mL{G-9
zrTDzo&UV%oufqpJYgj6m;qvnIjEUQ|qVf?q`}nwJb`W_fGwD?ZmbMUEB_XP!pz!q7
zt6lsie#jV@4u%ECd3Zj2_<%fs#R%O^L)s34&GTo^6u}Dj<QEipGx8BM$ha)*G*i>2
ztJ;Asi!+2o2c5ptPrDh?$}&2lc}TA25_yTR08qF*yc$+-*dD8%8egCE=FJ;OP<K|X
zz3)Xp4&IyVur6pjK`hiyz%HS;qMeA}OkGpE@AT=@*i0auwl-W590!}lnJ(#9WH(3u
z(BIXb_*qy8Oah$~R}P>aW9_@}2pSB6`kq$<HXSxofuLa&RtU0VRvTouteHQchNqve
z2tA11IR?~#etbV$g@Hqj_xg8wN}~(C-%sW+3f?e4I5g9FA%+VG*x=@o(Xr%Q7Im21
zxGNQG&lFbYV+&=Yk>B6eGFg_|AoQZ{k}A*Y=(M4qP0x>&aKVlMegPV?{p<Bgl1nPf
z`3&m;d*})boEkg$O;qAFt_&3LJ$(2Owc$r`G3~BYU><MS3r=dT3m2W8vwF!+kixQO
zk)%xCM)j&Rj>CuFSs&%$;SmwZh&F%q@+D(?AhGErlB4FeN^+u3y5K6VBwagQn-(PQ
zvN$`@7sG^t*9X<0HjU|oEdg_`?b<?qldEYY<@V?PbA20Lszo*aodqz>h6tlL(DB-1
zk1)iAMDqsdT3Fa`f=5UWtZZyuAlSspR7w(`=t}+dUtsR4i-M|Z8l2)p^H(okT!QyB
zpbCBmFAW)jWL8hs--N604}bsuJuQ>4BlaEaF7x*z_Tm#`MF^p&ljIvpqR`AlKiCaE
zetv#0UTonvX#vzQEZDqdONM37asARzTo<HIw7VVBt3$W{3KSYku8@lnzSZz?AdgPm
zvF#qinH}qhD|`^KT*i3!uU@@+0|O^ESH_Q%gM%aP|FN)@L0}8s%;JkS*>jpYIy&@J
z0PIF6P|HQDHi_)m<qQ%w3OtWnjX)(!^T1QlOh%|0&!qS4<TpX%h`ql$u_Y!d$`)#8
z2oefeggy#dI`S91pCZRe>(V7<<&TC{(d6>_DkMZ(QE_A<30)Ee_NJa5axDCb@cE(j
ztvQ#qw1S^LrMDs{3X3&GdO%_RUn?`u@#EJ5m$&`<fiq;Gk!9uoceVZ3n`Y0DuTfAT
z7Ir!E<W?i+mG{@t_^Y1WxOtNnPUNk|Nsu+<a=y@t+96Sl5r6`S;E!-xa*yx#N<*!S
z;vx2-@*x!O12VquUJV3(#xGVq;R9ZR-*>B#=-_ecsZY%1NVJEBK99)(VbD{d8WN84
zHwNuS=$6aT;XvV%wJz{kQA7>fzTDGkw?-CLIgda4SN}tJ;PXH|Y9m*-=2!ytiA~n(
zDtQ<f7+{P+2!G%An9Q5|H<1fNs1Ey~L*LO#ccsFQYe>?SPSHh~BG+SUNM2sM1c-~H
zCU6zZJlK3%NIH5d*_XVB4;|7cSo<g9E?r+z$T6cozMfM%>jV}}HSsFwMb#6m6IwRS
zZoy+mn<l%<_F>VkPTjV!AQ~GKLokwKy=2ENXAh-QFuEd#yE;0sWT>}zsfhRn1PD>0
z9}o?1+R;V63)0nWza3WO3ou+RZ1`e~VW7EVnE`F!AfU5=V`9x7;ZDdeT3#}GmdI3~
zMB%*+3@G3}>?+E0UZVeFwOW3kD&>9G*RNlX8;D^{#l4ZE0x=6vaOu(|U4&k*H+*4q
z!aW)A)<7#ZTaib51SP&HWq1<fFcO-zXxw1SC=l~AW6;C22UOM6)DpBZ@h`2pcSWpv
zw>J2b6kJ4yb5;?!oE#J?8s^{bF=#;xsGtNz&YjcbP>ni?aR>l@ph%te$$`|CcrZWf
z(bAK2OoC=tYtw*TOrecj+r5p%=&qG%AE%lW)|&|Y22x{=Qsqu2b*&OFC~JAu<<kFN
z(9pcpKHl1if>uhOIg-DND|5UY-rWR5(6y3gMcf6j|A||CTt~jNS`~Bz6y3rfKi2I^
z1;*7%(WR{LPF{TlTpHjMl(xs=D|4K6e>^`xtQ;f}g4dl2BC`Y9qvS=;X+Cu5kSgd*
zZ5o;h;@RMDq$+te06G4R2-kWa%3Xx&)PA<JfC!8?e6}6w3USdIP<?SwmT1h0<|4Mk
ztx)pv1=%QDTS=k$q4xhqm%CE2qzHU%W*NA&;Lz6A*0pJ(y;0%6+uL<RmdCZOQHE@$
z#ZhI+>u-&wiuF#g28*yJY%0S>s0m;3MTs_xgvJ3;ZQq&4XXP<ZLZ*wnmx<XhMLps|
z_I?11N^Nl#xz+fmqr(vcAOD#@s5_MWaaA*iNmddhB5>e9CmKKonh7Q-+=+=Uax;-w
zMQJ8$1OJsus6qXWpFY$l{R>WD>EW*sSEi7Gh!(c&RzM51x;Z`E1_Jf?7+DtNJ+*9<
z_G&-?0i;BPs+(q}=;YluEO^Op{L;r~8^4LS&>w&JY6Zk+Mb@X9E&=(I*&+rI#FpmA
zfQJYhm~w4-x@5hnmJYZ5U!`p2)BmxQk*>wQdD8(^yb!YxQ$Qf87=EINWu-Y}e=Ns2
zEHsowKtKTb4_r|2go%=uO9>FyKY~<o7n9o}h6L3p0Kzph`TrfzftwI(Lw@zklN(Pc
z>y=D<D>*qi_&O#ggV~D{3D{(%|Ft~1F8GkaW2F(`AG$BfEHGw$nz?R@E_iJpI3-e`
zCEEprhUh<n^cOHgl+m(a0`w3@X(oz~Vq#+-3+JW6J1G%coNgDjmzf%DB6Om$8Biot
zTSsq`GBnO7Od^A2>cj*Lig2|fyo{cx@F(@*>bA;!U013C^^`1vm44Zgf6&+%yp5(3
zsu{665b?J$FsNL<e2Qsplm*BbTsq+BqVL}y2p2XVVrPdrP(@*tKYiF^7MO?r=OWpf
zlZ5b{9B2T4`ve_{&>5l4p&oCtIz+;x5NsXH{NTG_)(k+M>=l#<l981)ZvJeCGK5O8
zdCS0MYKegd26NUZ;o!#T+ZmXzn(Fof>2R2C^O)-9C^<290U!0N3x(4Kg1}%I$C)R)
z?SMIk%G5ct=SM-pUzVgARNRCO<zTs?B>K;Zn3rR*hQ%MEg(yFG=6(o!P25<T88NU1
zDg2qAUutB^t*hD3(Ei|>p-d9i_sRPk&&kO>5iS!rLT;3ChK;`e{BxPu@c?L^Ks_6G
zl)|(k$`9>zTv-t$<!IW9^74bSFD=o-r2)r6?-TomPvz43EC|^frnC(T7<qmYV*^9Y
zqU`K3fb@~U_PxO-{8S|E?Vj0Pgx!pBNo|LL6nMR0&yZRA4T!302p;s?2h)XslG;ua
zRrnEPrHuV3@d|`!3*#UJvu~M0PNp5-pMmV%1huRzbHk>_swVBd)mR)N?gCk->Ip2I
ziQXze5n2q^T#A%S@>)k4b~*ESM;W>dA=M{jPO8yUVH^6&!lem3XstI;pF)gs7IJ0J
zLs&tXexL=B2OSOJGznP@gEElrk@-&;`OecYxMnJ(4m4m-i1{EwRYRyo%R$h|N=w7k
zXXc-pp61Ls40EMRr<!2mZ_h8nev&s$ifp+DQ8`g3Z?ap{VdQk}zk>JQk*p$JVhD2@
zcm=oCSaITOIW!-v;ydEf(f((C${?I!k$}l4AjA+v;b+%=g;v>sshJHMHbABt!Ni+N
zP#`zvvUc)-HcERjT1`}`q#D(5`o8<W_`?6n5stHwas*(z2?4_q^Q<<_c6#t2&_Bq-
zO<1+)sot0bIjF|a_0X)f#X|i3YoS?iYNjUx2cs8f-Q7b=Xd4)3-Nk=P6&Xi3?aIpA
zgG<mp3kx$~)840Jc80(m2+yJH4^^nnLzISC&%SuIlwLGV4FvO2(_zkdRGKycUG$1P
zah(;eYf!3b@;vC|&z~1YvU7dvcn<yabkKtYVi{n;2*b)m2~Y}xWZZc;GVr+L^e{N>
ztiuh#oNe2;XH8VALoIp<f~Xhbq--U|!C~Bp*evia`TjksB7+NblG3g!J~pCqIL(fu
z)vsE!ahQ#)05}-ux~(QAS^fIf!^=h3?SjDckS*9B^*=Chx6TO`HQ*>{VPlYgFm6kf
zRW8$KW`I!5kUTJ<@(7c*G-n4=O(7nQ1J-0hU{q2uDGU3yQ!miG`ifqPX-k&%&}x!G
z4Pg+0ci$sM15gkru^||2^yc5DL@2J#^V2B$_dLKzA~6|;91?=t58k2wVa0^(jT@a9
zvmB|sB%e7yTBy`gT8`R)zSSNb6CWMdGVnh_nKtbxfJYFhf^Xld&J*3jbyYRcLPFMT
zFSb=Fs0ViKHWdwS!^)@~F6%azvTWVHU2I{z0@Erp5Ike#h)dqWCI|cXq<bz&pWg73
zlL(Yak3IHLhFl?N*9c9*WdkSPKD3fV&qI&{XsSz4Z_U9=+5!*-=*bgLPtrc*-$5wV
zP{X^50=Dcqc<><X_6W?tmMo~Oa*ToUw|0;1Rk)T|@wNc$vRuIN2na6@Ho4$b6d(-N
z=IiULyj<fntI}j;Wt$2q^Fd46nB#(PWj^*xz_cly??eS44lxfM`=R*#rB#Uz2yS9B
z*ctz?Z2YzqRm1^9ld$@e_tB9u6paQN2%Xq@ZXh9h(cacSICwFSd2tx;F3(s^np_3q
z`Rat-C^7Lf+#=`2$Ttf&_;#^S*QubsoC!h;!psB;O<No69fulC8)6ot{<1_K@K8u2
zK9*<>(;1>dLNf#_#ZV1ROBUoi#1@AZVBqg>WWnPtAzsdo1GVTvI6xoCMsclFv&SHQ
z6o%H>*z_Q|TQ9678P-6C;)IY06u$2S;m~W^H1S>gN}Z`5`Ul0qWh$ek3F0{huMBMe
zxNnj37jsH4v05>GFr^}EfzS+4@Q~;CJusME4yUXXl+G#pI7wn53F(Gf@u4?HPY#2h
zuS~OquqpMI*S>^Mpl<T1b8&8nZi(p?sE_&Yuju_Ey&4iH3Hc0_xT~wn!(*THlfV;p
zx7F0@Q?tzBb%LHP{`~Q87VXfu2TJJ2GbB>fD4ZO^lLcS^t{Eq^LnJ@p8_nGXG7Ln;
z($Qq)<TSw$CPuC#knmx}t9j2t>?ZP`O)d~h=_aaNLJa~rH3v7u)OV;@bkO7gF>1iP
zG+lsn2B?|)#^uZn@6IXvAcVQgYHGr`dUU+0HXUf>gf)#eapqNTP7?OyL$Pp7@7#9I
ztm)tI5oWh;tChwYK&P!hU1D6M>%bqdsOwtlR}-_|=s2S+)JU!xOwB~+8)J;%sMIPF
zuLLndfH3kfYeM^lU$}tslIXpal*knf83OAyRG$JT@h+_}!C9ek!w4#E&4hD=H9UIg
z5Zo@s@H0eL!??><fR)~$dV`iVlEd&+z$d%06{s*yaT@fb&}MtkYUha<ZR3_KQEE3x
zIwvrizqoGeDumW<lr|#USg0`wF$7o3C?S)-S0QJS=q|*7In;Q1DopWyZ~SC|PW}1S
z4D!xpzMZ*Xw?z@`x!p03fl(XKTu&I3zkvnB(ReBvAd{eKL=*pngB6Cqzdpo&F`kz9
zYzMBUbD2Jg(iBF!x}S}JbHq$KM(8E!zkd7H<g&DYd6<*v+)>(waZc($_|TZKN@|}N
zu|HE72?NQGPfR>U?FMxg#J-0pBf^!7v7w=@s88A{hD!8QK$MFOEsNF26rlLIS0Kwo
zn?;LV=N1YZfEa$J!`LAK@%v4Q@@7!+mT*|HzQjxp#)wJ0mkDPB^mI>rf!D4n)NxE2
zoZ7Xnwgj4nCPt1>1UJ%|W(<7PUL5r+JF_xW>s<=)bIzTcXc{#d7QY~E!*GMvg)JUP
z=<PcTO7fKTq%W8D9x6$=V+0u5_e5|nvEc6#6Nmq~B=@7RaD!W`NXtwy0Iad`29g2;
zv>7;W1i*o=Nuntyd`XkWG_wT^`-}rVd-2mHG82X*G5>h44-@wD9c<zc`RPa#9>nD|
zLlQ@EkAYBomj&ayg@gwO%_ZvOfGLv7nlM3-Gm`X}o14LK%n%AYaju{as;|6o&l`wd
zEYv6~AK{*1$tffGu1h0;PMVlYLK-1RhyfQ}m#y(+F!H4V{}sH2={-bh*nE`1LY
zsXr4A3ev_JBMul924KFF8E1vJ6LAK+z9nk`L8fGSC%qa)2aVNopq`J~jo3PjkpgN^
z4kKW^zZKI*yD`F(R#=Pj7Gb~PYmT?`csRw##&RKnmM}Gr*?iK38)0BfDnTYhC?TW6
zXx}rxJf`yngN=7tzJLGjkCC5}U{SKI4!=YMvJJ)VAxZ=>R7Oa~w3g@-#L1CJ5@ueZ
z`UV9pfEmE-28tI)i-%rF%YyRWMAQK)NjMn5mq>gDI8u9w!A1$u6f7Uk4ZMzxJt`))
zXo`7;cag!2IJ%HCn&7fv1bZIf7Ar|86vVg&-s!rko+Gsp;2{B0$~J`N1sNG)Mu6T3
zs{v8=7gP$jRzytzpONoS_^NB~Fie7(F94GbZddV%Xj<vnbX0;l#H@@0Gf@FBAqeFa
zqa8TO&}p37w4FFSfpO(GuvLywyP?=+O*K2f^m>TZ%UKZ}8{3bmFHWN7uwc{+WOk{{
z+u8E#Ch1eKj~@gP-ZJ6tyM@BXfTBPMSHzi!I<Q7->q(4axUpa~_zQ-lULX`GR(5YV
zd3D9-&FHB>S!OWzYC^Y)<p@-dMTqu0sB#}{+6P3m9kUrrNj6<~6ylebrnydTR@|g^
zZ&LQayF(HCWirAm-U?S4XeS5u>Yr2-j5{Bc%vE6UTB-h2^`$HI2i)~p=W0_&=GteS
zhDsK0{yBL6-3exw%*H9cnuV9#gFAT==B!qbB=*6(6~vJQC~w^Av2k%dbG*Pr`Wvt5
z>dsB{si>+R;^1J~y!p88@YQpAR3xv<`ub6@W$f%e!8C=bk(`opAZQbbbavyT9R!+c
z&DgSM&tPxwd1_EJap!r#^QJ2#h^l)^<ejapEh1dHyodNj-it3^zI^uVSzB8h<Zc8N
zi#x^{Rm;yoU6;ta0_jLchn4j@=*}Vd&g+gJJEod+Z8htg&`{En58i&eo9q#gT7nSn
zb2BrWV(V9tT0HPswY9bMQkZ=j`~7W$23Zwh0j0PCZ3**zei;0*<iz)v(tpm(EbwNQ
zr!Ffm$E@<U%&lul5*MMYSXx>(XS>K#6Py^xjB<NxqRB>J>)h|YK9QS6JEYFSDGUz_
zyMF!pe&YVQd3iU|&>V0Fs@K6R-gCLN#7*KAngn%khoD(2SSmFuuuF)bdDt7Cl_VC}
z($&?~?oSCr>fXJ!pAsb3{C8()95!#>jBeB?vW@(HsqctM{nqa82j%LdX*uAAyKBJj
zFpuST>p1y0@IPK2k&$d1nN>A4A;)yw-c+n0vAENNrQ)MEOYPme7aZ<jk0loNxZ!0d
zhxuu9Bcnbz|HCu$vvTCQ8O9G#YQ>!A{prKP!+CHL;9TS?((uwQq1$iXy*td>0i&t8
zx%ofu%FN0t;touYbeWYoHd5!$KQgGx34BZ3@4Kv7exw<;1!)Rn6gOk!O7??7%Y^O6
z57FE*Hn#iBsCi@!sq~m~f|l%Eq|P~hvI!7%50~Zc;UPm7+ot(Zv~qKE-JgQrd+p>o
zLxj$J2*xWXdn!EWH`CJ(|M|6xxKz?+1t-Zov__oop=O0{_#9%@(m%xdgg*OOT$}}6
zm-P*1QnD9kV~F*cW`6tjZGC;c`%~;P8rxZ6vh^^%rX)nX1v~-{EXs9bQxjMxIRZ$P
z810hQPqgg0_~Rz3Nfpdaxx1iMGQ^cXeb5_Yx-dUa&5EuMU>CpSNdE4Tbc-(9g*BD=
z`DYM+<jbeq<DGgnccs(=36?bHg>>R#KtfD&92xd(+LQ$F3*sZ{Jg@rxFp&u<m{!2<
zogvaGH7V(tr7(%)^D9{NRs3FO<i?{%>&drI6Zf*W0o<dzTVLud^ri-YE*9bgkl|Ky
zlg5k}0*;@4A3!2ef79^!8JIv^T&qVSP!hs&a;PO_QT6iW$`}={A8!e%zKTF`T_qvw
zSV2j!q{PODzDFQJBX~srJTP#6v{UBaUku0Rj)Vj?a^Tie@_jq=gBPQoKQI2hRzXY4
z8JdaIS!ih+H*VY?L`!m|2dM3C{KUh$|JbpoC0#O<#gBT2npYewItT3qyN;uV+KE?J
z9I?d(Wx0rniSZs25b(Qo5IqR;dpU_?7Y>TPHjFk6VCTWOtlH8K;;!Z|uUxeXzA`_)
z0Y&YcuphI;g$oz#?S)ydV@3{$iM)ni%D5abnv$27cK~%9FGrq}Cr{GRc>^7tL+J+y
z*V5NNM1wWm|7sn{^-$5eM?yDHFxwSnCyX&1$m(9uZUu*4a+Fx*X}jxsdg6AYZ*Z1}
zlT)tz(>w|MMe;5Z@H`P8wCU;TyjP3Wh;JfZ3e4RFT-aLFz~{xQNfLs_#>Nn@zx0|S
z9lh47OvFjBJn;5rbB96v8tjM0hbUw@@?o&wc^`Or`P@1v?v8T+WuXwFp8ujkue5k_
z?cblzVhte$s?oveuRBOt4j@mg?l7Y<t#MYE0rg!$qbe1@aqr$ecY1h?_kR-Qs<rEN
zT%7D(6oPa7FPK+m4tmm;f6$XB!ae7XkaVWYk`@s{h^f1WQGP55lh2EGtZsuC_ZrtB
z4frAY5QJIkE+Fadm@BpX`SYhd6gm^lbHYZ+k&gh#v|O=5EQG5^!<mGV%!_HPl<Pbz
zNUf!@S9l=Fe-Sn!Rx?L_2u>^%j1y=(@SWdS;9vER4nO23%^&iw*eb@mhNOQhE!uQ!
zbX30-*}CQ&aWJP<FFY#htSSTF3XlH&TT;~C1$nRJNz=t;?3a74kT==c9*aCUI9OIz
z_VMFKC}VJY6)#`@=gkYaAk#CQ9UY~ir#-im7j&1!%P$`JxI?dv1zB!xD;d8R77Cm_
zF8&6j4CN@LJRbo%HPE24cV_+{P<l{_oaVjk?7J8lkGykim9C)<QJkEdMA`J=CytA>
z=G@u*!(&$L!%BLQS+VtT=7w%svk{@8Iql|}tZT%de*Jn1J8^!O^y3{P@D0wrS;fLX
z{&W2}AF(z1`!RwJUH7!ESjf=e;2s8sso}PhKW@Tv8Ll|_;TUOJ@zCMJWuyTl3*)Z%
zUUlT-Dku<GnBE%9yXorcu4Bb%=Kh+5kT(@GLf;As8tUqhq?@DygMu(fq&e2`r?d0k
z{rezk`Cq>}F3txy`z1t0)uQ;odDyjUSB><!YtY42RsCTAqgeQHX^)PM+MWo8o{6_X
z0x$aY3&iHg<lT!_cCn<^S1`+|R<Fif)e(MvepuODT=EctQPSbONlO<L6~#irY!U7P
zYeg?cv<BluiJDq;baeeE3q6bz?AsR(UG~8OXGdpeQ?^S>P0bVvE<~$Gk-5T{Ag4SR
z;L)Sr-d@1Ll;q^f($c8HB0o+|@aJs(6NZ(CAYPky%!%u>8k|0TuU2nyrc`>}(1{hT
za~>8VSXYT~LV^SgkUnz;o74~1fiNueLv&xne-;=2hn<w;?ItA4%?8k*zaKHT>n@tO
zh_LY6h=>JzjVA+F{I`uToA7dfT3T8Pz<!%<J2e$2Cnt`9l$Dm&W;tcNeS4GRiK+<h
z@ohvZAiB7Qwic{;#@(=SFva;?_Ws?-$Sxcf$FxOuk8<+j1jb2F1JOZ!CSge7^%)=q
zqg$}k>fn@Nxxf0DA#^drfbteGfW5@R08l|<f~gMIA{@mfjrM%iVA5tk=FXi5&LA4`
za)0{Z!2<;OIpLtCmZ^ZM5^Pfkz8T{mp!l*8n)ptv0VYmy_+1DR9Iz;kMn*+PtGzJ5
zs0(qjrZsofWIo=9V>~V{F0!(}(6u3qYu>WC`!pv<LRwmSQi@}|amTi8Rsdq)GDp>t
z&z^b9Z)zasve^IU&%vw<D?*P$sCs+C9Fq5n6)T?qq5!7QYD+6CZzhqC7~F*xpf^7~
z@^92Z+8>*w(jqJ@jESHvQqX6)Q66Upsr!b8hI)F=QQOT;#(8=cqEGiunEBAk-o@Xp
z@#!VO&NR2QjMbF<ft^Nl{G1oOnnN-&GGbz4f{F+M2jdj8v$H7KN${nhtH9!b%*KRC
zq$Z0+bb3%D^@|s!mb>syQF}|AhQK~z)FU%96AwdJy;Ab()vK14<1H>rngxT;AE%#C
zCJoCvIywdh2I?P$sSXQDN2e^)!REk$2si}({{D#j=1&%pVPSh&SXyyB4{1119k**L
z5CS<k3=Y-rbtj$^0E=?fT3YP1r<WIs;w=RQ1w4!aP?~PfiKv7GE?)<L=p-DJv1b4w
zWdQC2-oAe02GL}{KHLId2H@_=lP6+kt**(*<Ee6k9UTPV_B}xqTf9QKVI{u%Nb?u7
zl6co>DEXt#z4g-cpkr>nx{mLdb<GsgeO7Gu96gPhAiwp5@yR`@+|(O3V7!o#gG~t^
zP<VO6_M>JtHUfNn#uab9P!qw&z&U+6HSPZt?G*kX!D41<xsi@8LAMx&4Bi+PkqW?#
z(Vtm(ASo#+J(3O+y(!KM_Ii4H>0)1yXaoKIU*Df{+riB4%KRPO6rc>RuS!p6<8Wy0
zc5BWGR1(&c_aV!lN9};BFE3wGR%Q+iH2(ZC)*k&QX|7ONNlh)?dO%Ihz5#Q#DBKuQ
zibk(KbZC4CJGQuhN)(ZYi7Xs?@JQF&vtx%XKAI5+&Ws_)Bj=t0#6rnHDU}Zt#3^5P
zsqfHgx_<v2jeDVus@GEyX(dl48<Zu*8SUbR2KC;hb+oj;mco3`{rn0#iju!!#a++1
z#mp*eYC6GlfU4XBv~%}BWe$eO8{b`GTfO=o{-Lk8w|c4#iH-WVpNp#na1Kg%)l}OK
zEF711)_!+f`bI|HsN5%W6&Owtfe8T0jT877ZOud|APCe--bO~I+KyaP8&-Sx@#7@K
z4*jF_)Ts9Xrvr_;P+%OzLh@0+1~GhE#hss@zkU05Uc^a!d$z!DC!&HEy%H!XEmi1_
z2beE;$>*7mrj01=^zVYR2z!jh9TI||u<((?hm{x;Z~kILN=uzJF^T{1!GfuR^T-ht
zayE_y0Un;1`bl-nw*s>APL7V+FV5TjVq1cki$@i#V?}hw>IQpxgoH5n{^w&?$V*9W
zGhwV-n(g9(Q^T&VuJ^C7KPqU42Pt&y*f6#ZP26bJ?q};aZhTWEbN~K*06c@l_Qi3n
zY-c9~-5rUmIy&Yvqc_k?(u??=W-Xs&u358&h;4HzDJhJ9X+GJudGnXA;2_)h9%r)i
z@+NaiZynNIP2yvNbz*G%i~DMI?3LsN4%QAdLKH_S52ztQC+wc*LnSP$u8tQ*&%B9>
z!Rw4-hX!R7BESk^Pac@l3!`<1EFa&ycN!kIL4R+r+Sm`9{#t<f$mr;FSV`&o>!KPn
zY)qk6pj^XP2J#M|a01-@w9cthrz(>|$a6}>YB-uQI!qYvYa1GpUxl9j<L2m?qLLDN
zV|MADr!9uic^g;N(l8p#{ZNBb8zG4@0)^=`O<(EjRa-DVP}%w5RIK+lQe_}40|@g%
zYhbGy85ooiMkh#~lm|XboQ=&RAK)$QCJ#TqNp<W_FGQTitH<kD-LYP__V(pzz=({D
zjA3Vv|M=`Ub6i+B{oo4-uCKJ*6V2Ptz;jSzs}ppZ9?q@8Sh$J}E(?00%I(|l3F1qB
zO~)TNc#v>0QD%#ai&63Zqs)I@Rh2594W$)2r_=+~ktm;n*Veqeyzt+65$Wj{%E1AL
z$uC2ri&d4C{{B5{uSoL^rLi11pyapeVQ11xSJUH=b?`fgaAlGA2O}A@wY3>>bnye%
zny5E~qcArafzxx|8`iJSV%7Bpo<U15Q`OcE(cSNm0FaZyqj&QrtRg@9Yleoxct}ls
z#9H^Kphb{XwJu$%`2M}SyDa>-z0Tiz`T;#T?epgoXdsaHu%AHd#5g_~UXpLyHU0TB
z%a!i*&oMC%ClqxVISRYbNMC=)&YiIJWC@!1ZowN1+>~a%Pf$=0?E-@$$bPU@Yzop8
zA--v@4FNZXYK6-_c;LXu%sg<+N3cg?D0~gg`{d-<nY&wd@75r?7KV4|3*x@y<uQxe
zZ{4{wz}GjwYi!%rtq^iEtoq)9@!#(F4ol@hmzGi&8WAunFAXejC8a71vEqRxS}H12
zul~$n`UztE-hKNJdKlNWI}r>u1<(fdlkI{(OMFIN8Q({-MD`muuJ?`?#6(2+1O%L;
z{!vm=QdG3nO1hSbCZO6sr6R|B+ewX*LsDnqL&J}9yL-1K)4?ww01{0zDk}|*7Ye$6
zKtPfwL!Y|6{Vb+X!OdPge-67B`A3X5#HkCcT6Gse@bkwHKGlO0#AFQ6AvO!M4!}Xg
z+<1Ko;auWb0+m%&2mEWjN8KjkY9kq5C+LIrY}&Mm7aL#!i&^MqA0D!Up0JJ;ZU&G5
zaps7FP=c=gM#ft_20)8UPPWAKKfzbcddedjdBFT$m2~0Y`zWN}sMFUJ9!juK<1Opg
zW7@9@V-#<(gNQ$Pq%y)>)7+;{pAN!WqTB(wVH%!jka)NPJnVz=!5RZM#E}8m`mC%h
zT-o?9JLD$D%6NfqF!z63W#AHs3vqk5JI|}Cs^a!AXc-oE4OPWs<IZd30heN@_;Ab}
za010ZTnG2X9KElfUrcl~MpTg_mhd$CZ%`)jLdzI&x)pjDvzX&q>K{LT2sut46C>*-
z^cgq;q=5<Gni>H>2h>e~MIda{RwPR*0&9||i};l^Ggh1;2DE2miv+V9-)DrdKrh0{
z-us_GGD*X_2BEzTb5ld08cOwo7&C!a*^GmjfT$1$Ecb<!5MvE6^Z=kB6xE~sP0FI<
zjgPcTzxIHs?&IY}GuDo=LQM^gXj%-_Uc_64MmJe8;4shBREtZ+aphj@9M%*o55J)X
zOLV&FDG=Q(_)&xxAnY?=-}q!j7Wzhn8U{4rCHD^?is1GGjZc!Nx7D+qGw<D7Jtg@L
z*;AHNTdUgb3Wor32U_r6U~~qJ5)%Nnh;!ht?%rOA6b<N$=g;>dC5TB{-XDY^HZ@ez
zOgy&7)s-~q3k;@_?W}n@7|{lRFgh}#V_H;Li0L#Unc>I-RIC2dJm5~hdFM_$m;#_@
zm(d_DUmnMj;GT%nL68y=2{F1WjPi6-xAmjfX}&!!AfUItXRsw(9D}K^^Y9mWP`$&L
zpikeO)b_A%=V{#AKvM=_m`^4*LK;(NfG2<}Q#b{(olC2zeL?%Axp`1Rtvc1pT%4c8
z?Wn7&e!m6J8U~DvoSZX;%Fyy5Fo?o?dD)U;dc(+Q*Y4d#&0pF_^xqw5fEEVsU8{aj
zE-(!U>*emfLPB;xO5EJsMZV9UZx#z-W@2)})GOGKn!0+8w(@WL+`aC#4Gj(s4j)pf
zsa9f?<a{1X{&b){sk7jd$TIc;&G*-TU`gxLPn<Y`$s`p6e{XMj&GR{Rk$~;#mzn69
zndJ-B&(Ro;;DmmFAV2>{>#Ed#Hqz84ph*l!sLyu!K7Fd7ruNhPToG!OzDpyVnQ#by
zDQ9E1CnqOk2Cg2fa9=3!4W5iMi(Q_c{{G`ffWN=0y86;+A(yzlj&NlNbTtMBKh$IH
zuI*Cafq_v;T01*oB|kvYpo1%R8{_d}HUsrmi}N$Te_xxNL{o5HnB_Zqw5Y18>dTkk
zfQq}>K&8K8?IDEwXL2Jqpo=1!p+In`C1X4idW$h)<CN_0&dwD33B$>%^X^Z{yy^|U
z(*)=f7A+8&Qp+&;kc&k4aqI`m9zHki(<gwC@}EDWbJI16<}y!@X_Ya!`%3kyR!UVU
zUAUn1-d|vY@U1%A+H&LRF~^9P%h(^UjEp&GEMQs(4Gjt~Xh7J?A~sK)#(*KwZ}39j
zB&OAXQjwv00=DNbT!@`rT@4j5+L;-TZL3Bmw@vNFH#?hcju+dADO+=MJfY(msAF`r
zA#?-)3WH~aUymmqSisDm)n}iJqunhCQ+zces+j|N7}y+A7vD27F(HbnXHZ<UG)`Y#
zg6UwsfcGt50y;GT_(Dp&A3aJ(1vE1=L#x09Bbtz2k$<kJI-1qlv($tp2USanX&8%-
zB&xWb3^Darh`2Ux`pT70;C8~ov#2=9i#Yp^*C-My>?cbvBzk?E7Pzo_7>i3l6}1)H
znVDVCLcr1fbakOUUlt)|>I_Puhu}a79&Ds~`ZOBzH15%6sCi;^^avN1xXYp=Kn_Ng
zGL%Q>rX~l}8F`KC2?@_Czz|Fp8s_*4aqE76l=+Vzts}Va+_?if{dxrECLBg(zkU42
zxW&S$S;2^eZ+B38VYrD8+MP*L`iSjk1fi{igZ8J}5g_b%(iqG#`0Bn8x+6vK^t)Sn
zdeWZtH?CjD*+d-!gE~YBl$q}CZo*RrTM!j>LbF57i=U<I_1+6H5S0a$f?YZG7+@a$
z8y>}S{dxxq8O$HZ-a$b@p!+x*Rg?2@;SiT<iUQ;YfB&<(V9l?CqA>?q^0mr$=Kb14
z(`ngSfy+utagz^{XFmb}L3z4ZC%jKY<dt&zuAMupjGoya0Lr7WjvbOzRD707yryuB
z6=z6I0kKU?7V|VmR!;n?tDC`~47|-EY|O;?ICLKzh()bW1xEw@1pWu5$FbD2-6ADW
zE6P;z&|r~yi#WRlA7?W)6>Lht7YyWp2u_WR?1aDqJ>K2<ZNRf<+?XChuh=A&|AYzb
zKL)R`u#2jy)A$hR;1Gb0;^+um!$;oUQ{&@X?HO<)>ytsnK}Pw2<KL>QKO)7E9_anV
z#1F0n?H0c=gT}+I5?}eoi!hduh>h4xYan{q@b4312v+SXeE#g&V>~?JnwnTAaN_ed
zUw(c6Zadx$Vo4lAId$qQYAPgDVQgPC59Inzv@-Xn_#Zs9!T?XBfG7D5@+R5`++#!`
zFo3>_rnLxEa1yEfYE>!>4ZL`(Yiby%sobA_`631J3p2LZuJjm`GTfm_RkY9DyQ^3`
zFkptj3pl2;l80^}u(!QEuQC$ji6PMEl)MFT77kruv(#=TCNymW%tH@uJ;ckbh>I!s
zr<rlrE&~1ZXrC@r@_PJuJEsOZ;!o~}etrxza=|C;#=8}tJlhD|fQEaVodwMNCuFhG
z(qVL8RJDWdC;$?er_MNd90QQz;vw|q*um)4N`P)icpPzHaR;^S#$^44woo8UWD8zE
zO9+Iz)b~kAuZ>0Sy1BtR;^-}feG`$3n&iJ%P7xiWVC#9{<YI8ux+*d*n8n4_H#F2Z
zewzUS4#pux^s8}clnJa06BFScCSbrGDTTkG@@%gfn-KXYAmE3_4*`tA2y^yAxpaaU
zuy(Bnt{w;+SAn(rgb{r_;){tx>l4Zoiu&r6cOb5yi{asyd!LAunSGspj5yeS$v(rZ
zP3rCESM=qO9x%?cap&>ts4O6nNPi%=BIbK(#VU_6HNqW{x|VkLj^o#<n>g9oWtP;M
z8XM(8#AK<>EiC#l4PNRtmo8$~O4@R)D?i#lz5#q45g9i#k43;$irNhBt~ie^w1&}v
z9Y(3RVQVYM3WaSSw4h_hjzxLLew}bTO`Sx}Ks~(!$@{p%(dEZ!aq!b@eipGO$(2di
zQZHV-h|=L>*t{8M9M7}^gRW=FGwIM6=={`w?TR8(=qJ!h?zp$OiI@S#LOFu=hDDnK
zrU81r6fj+sjZ1i4jdQxN(_BFIfnL%3pd#0w(k{2V)A8-=R}4PIYJ7U087KwjxCA8?
zBRyU?^o;T$CgzNomz0zYi}!(%muWM!XD%faWfl<?46h#sG=w!gQUMhiDWf*=k(QP=
zdAz#3d=yQgsNy|J1DgLH*atx3;EzW*-sD(A4R||ljh;GwOTGtywzn4yP3|S{J9zwf
z8}!?vUAjavk@PzfZ*t>L38nD{L#YR-RT!7($qx+;#c-y1OJZo~Rg6?7j}vDXA<|x$
zia=;#qnt3Q2jYiG6HvMjA3wsOQ;K*?hXsy^NX3@JdF8%zRbsKlCKtjFH}*r#Cg$C{
zbK)n93ky*N-t59DHsaK`ni%1&46k~Ay}bmd6TElw+<$ld8eFgAH+Yc>N~ZePu6>E!
z?$r5n+mn+Wuvx0(Fl!|<@EpTY(}eVmqevSNu+cIFfTLDuZ2*WVBJK*<9W0d;`(;G2
zj0!J3H5E{2M{q$)OUN1wSi~lyAbu$>e&XAV0cyZa8U2!Ch*XuAXqX8YPI%rU$jiEW
z&o|=q9w6sSaXcPrhHWm0TNefg`uFP*;2oj$2^crLVPGHx2@=x0d8HQb4)oxcaTtYm
zTfL!I>@_BgKYSR&!!*Ghi77jLJEl0fpv?eAen?9CWZ4613H-|g@!>Ou@0erGCGH4O
z#Eo32_z9%7fGIDf0!&&yKHNSzJbYDc>!shq+GuEY4h|Kz@Gmd)a5Ufq1Z4Bmx}YfM
z`^=XP!9`h`Zl`-Y?#s%~o}pVn3x+e>j*Jd)D_f(`#}Lc>1sp{`6qFd|!E0T8Ps`|f
zHPt^gr>I}6xH_^=#zl*2(0K3IvE%I0SNPa5#w{Cu`(TP;a1aR53<eIMCXma8@|}0w
zon}TOkeO0keB1&8NX7$Rpt0bWoQ9j#)zz(gIKojmFsm0j0(sA!^W>R?r>yRHdhMm|
zxdAK;ghs{6*Py+qZfA5)p3K82rV^8`fx(Z)XFwg&r%pY1NkfDy<z=Xcg@d`mD`q!(
zz3QI)D?TG@WL|yU5!`&QTYgc&H^k-^wW~OMt+KTenuY73=dn@kV>6gSP)Z%M{k&q;
zno@ten6C%f*$c-R9(#JWN40^g5RMJhZo*>C*pK)GE|4X79!7v)=N-J@pR=|0;l1GC
zJr;K^E8(#NywlLjF>866W(ze{@}+~Dl%3|_XW4Js!FnB7QmW<r#bkE9g%NDoPxXNE
z+Gs&*C7cEcg^+E?HP#IPbNR?W*MXbyhz(Jod~{?KRX``c6PBWA>U#Bd@mD^a=}sR`
zVWFokuc(-Dbgnx73#}M%2ZHb8#~YJ&$FM#e*=Ys-0dbuXCvQ|P7v|&Hs--JC@p}Na
z?`<CTIey!^`Nz+n<ynzRBeo}Qs$gmf^+j;7-bO}KQ?vUempeVm7Q&nn>caHQ44<lU
zigWJlBFvGpGi7L~I85&u#U|u%?$m2P!^EVurA8;Rw#_N?U5O78J)=JXSi?EcE{2IJ
zOgLBVJwWdX1ecbcj>3Zji4D!oxF;>d$yc0QOz%BlT#2E<+(1wN>OV@daO*2Mb#>dp
zR!UX7Gty8-D_Gdrq$~GdU>=Xg+Y1BVf<GSWEiy1ND*P<ks&#-&5GbLLrF8!M`ifi~
zWMo*D&MiCu2YA@P5zTdKsO7^{xmEdDV{uMcrmkn?&bSp+S61RgYFw%2h14Y+$wvXU
zKfL*sk53h(AOrSNK$~OV<ZoduFtK837Uw6Fg`tKm7Rj!iBesY+NJz>9PrmS*wMwLq
z3L;X3OR=3SLPA&I^K~bp`r#nvW-0W-YMk6Z?-1}O)SVtu!IM0i9mgcjoOv5ue*vBB
zxKS=zf9c08DGUimpc`IDaX(ZgX5a6z7y2TKzfu82l%$5=D3JHx&AfO3&#81T9rovD
zoR=`jNh54AOG{o>{MHT7Cg>G_OfagKhTHBYBn%<1;WFX{%+fzFfCqzoz1=u_FkkPo
zo!tx`0ASDv5BkYoXDh1-)PsWj{LNBmAc;VK))P8SB`UxuHw`<jtgM6#JL@z_NQ7To
z7Z)Wk<X>!_zlZypJMfQ}lcOVJze`j4=c`U7(~gS(Oa`BI^46d^EA9(8ZYgyZqbX^T
zH^i6f1Y(6I<E~$ic1idmcdmOAjAXyyU`{qR;t>{V9s9O}NyE%|E}X6k!BbM>60BDt
zK|$n1Q)#IglpG|js@;dAHe2xu&|W8}1r&06DNOHRqyfmec9lPaJuM+~GY$5vUgLuY
zC%R>w6T>+=NKWoqKX67C=l5iyO}JnlIL-2UK@J2eW<TOVjN$iGbfMb2KZOyRk&#i;
zL3tPk$@RR{$&>g+FetX3Q$(y~aY1Lg@$v$E0rSVa0s@g%>4+1E-dDNw^BqU*p+7?}
zMbu^Y{sLs45k2Zl81XHv=agFvjf_0&za8z6B^1I0wW3OlA41e?ZM`b>AUoRyrKHLv
z6jNYWhW`8)Ezxh@xK|(CEM<E_3;0=Z4Y+rTwe-8y);c(y>>Jgq4kwcFvazGOmKG?v
z1tSU?mfvD`JhUkk-FV~oRSzCLy4GtC8R?7WjVi>0VT@_afqnb(plKYwjt?p2hFN_r
zzm&PpwlrPP;?D&I1$x#~($ab$N7n*)084N-0$LCm$pK(}*dUCXf?XqzPKbR&oTGo?
zC~Yh94XpN>kbUOncAj3G=)9mu*ytAWRVcn{PBJCCz<Z10(?b$!3zaNfisM20<Ky9f
zpQlFqm&JHpRIytN#~=^!WC{OiYzCG!B`fXstIE#ReHjPnsquUSsSpmF{OfRzyRP!s
z$Jh6ENzoqE2o=x9T923?Da`%cO5W3ONXiO{=PeNr!yw{{uy4A5*9oqpazmElh0g{q
zYpAVF<Z`+bq6!@a=Q9P@05+HRs!N^K*Vm8eZFqTAZZ#nYPvNmNi@0O=ry!QdW;_^>
z7<Yr35%r@8$|WWs2?ElU#X>w50%Q;#+upryPS1!55CAHgy83zyyX|CT#3>j<v;*<R
z0w?0XOt?3_%PlQ^s=I$~LpA1!CgUN^YiHW~(1V`|g113P;?zh}_&<cb2{@K(+xCA~
ztCgmeRWxXjwIXRkniW|MNF^CclqRA<BV}GIDvCx$14%N4CLxrf!B9dfDl{i08JqC^
zPU>0D`~BbT|J~cOJ*%y_@9Vy<^E}S|*pL0#592mM>7lKt*>S)^6BCpBBOHn<%4anG
z)B^ZMT-uuRM;YuQtV7&{GRjn*(opqsZvKl*kY?%Wb@YV_O?+5v-OH-bQcur2I5;>p
zwUJFRojZ*K!=yu`_o{!6FYcsnKQ`L56mnf{g%_HH?yECsg}aquFlX`HaY3W}HA(hS
z&O!%4w2f9(z4vXg!TLQBGvcUda1%iqn0Jt@?6Z2Ykjevzn2s*&C3|7<hkrhfR*;rz
zqDDkP5}OwiwUAU}n4rsBYpmsN-MWPj)x*YnUA1@TDxdxwBz-a@<k}?J<W<Ya6vI+C
zYc4Jvae&iKe!Yof<;F-r9WmSYi_4XJN20zO-s*McV?od)=eKV<ldYh0d9p2V$8qWF
zDe6AgEo>~xw~xLRTW6E2)al#4xJ}2kv7lkgODV7*5y!0>zW?uEk!&?l9>h@9F4(ea
zqjce{V|igSdnuhRj5fJ(^X7zc<6!4)kw>YhAOIP1h`cC&NzTMYmx$Wrj@~!fvXBe&
z%*+zbo<%6Q;_B;8H`bnB_@U5|!_UCt!`Ig3ATjYG3-I#Fvm)UH3#}MwCz9oR0fpZS
z%>DM*ty#SqO^NNX;NYwDUO^PNy1F_$f1@QgE+xg{%n**ewA|_YQ|-YzN_M@Hy$?nV
zXaa5uEj7uXlmcfDA#lW=2KO5otjDg%&(54oFo*D4^4#ump9isNx)B^zqS|b}Hh$`)
z$#5$2T5f|pFH*U&8<~lWNa@h(@agBYZo@0kNlMK#A~SEi>CS+0B!}KTR;lYXcI?!t
zn4<@M37i;7<SNS<i&$2r5Z|_%4)5pt&E89akQ#DG-5HKCOBAB<b!X}ZYiMl35a49J
zAlb+#r=H1Gc3AZiO>KVkfK?P(Lh}zz2#R|Yh#^np>*0H$@vcM;Z@^e_<w)%ivW=%C
z3rBKIC-xiJ)tERNXcR?zR%NC4b0e_=?or4FIU7g;dv<Tz_E-FH&m#9(g+2Rhynp?H
z^f&tpN~7<*SMzU*?bdG`Hfji$aL4UgUuv0->-qgXSKfXnTMckH^_<jL12a)j{ZYuD
znKRMadONy(o^0~1Z46bH3<}cz^{-#Pd{kV_qPwJIV;QmxCidIQ%mcy_^ztU}MF*j$
zTv+?$&C)t3hHdT~iRbtM+!&`0|8~8bqj)vgZ9HN3xuj)CgT!MEHN#Egk8{6%*D0a0
z$k|waN(72QaVJmy(|COKonBfwSy>dGmmFE7H*;ob;`;Q=Oj}Y!GJs95S-R8?$$(%!
z7c5*ja^a=jsZ~S7@Bg*GFk$nsf1Z8XLZTcS8|%3j6EeaeZ5XP~BAJ9)gef6dKm02F
ze$j%$`hK!zv-XfMhlc(c(~b(;4dzQAWTbC8H@1;V_W0z+7{jKfCJkt`*vp5ntUonq
zVV4ZIz0r406?Yh~q+|{Ac`-T~@|m2OyG7-d$5j-+0>w#bbMXUs`BL0=QIqf^C{C$w
zDaHo2Yuh#;u~>F5cuGIozWi$$WsY8Ea&=P)2_a9b?f$WRdbeN1h&Myktg9QN>vNAa
zu8OJqvnFQH!uTN$5X^XLDR>4PIWl4V_`;VZble4bN3R*5Gr%x;e<LN9h{#CS#;^X;
z`>At6{aYTo(^Ty3nz3`IRB<<JPC2v`@wcb$hM<GH-jey+a0YFT(q?tkt!CZY-Deq_
zam5Og<nC)ehnP4QFKNzv^ZNC9$4_5e0IfiRJb54wM99hTaG`Jcv&Ox-7{!a~2YW9g
zYKc`<P`KmVn^F)xk>3VdQk8+`Mlwb4r0%&atfGg?t9ctg|0C#ST4<*rBIPzBA$6iO
z(ON~Du<F4uy}`nDVBl6TdHh-fR>|Gi2W#?Ad2id64!uYbfz8!VPA)6w7*+6O)tn=v
zE2x=1e|JdynpRg($b+YBV<L+EW!+DlF#&d$s;f6#zT|8vSGvFX!=s0)GZldU?;*T;
zZpUdfc%tL%mANrT%3`lHKA4tT(JfhTN&iv5ONpM_(69uK7`A=frHi%6vI7QOfw+ag
zA_eDM^gdU6Ncy_Q6_oiaSFY=3-R;DR#M1H5y^q|L=-)aYA0Lywdh__j=SCG>bqBMi
zSM1N+<JY)Kc3Huvo1(S&;=It1kdV;OWnDY(VkhNfTvR^P&ROzpd+8}!NOLqfpPvjK
zYJG}13Kx!ODhyIq-gzlilgchcWz?hy4my%F=gy`+y+#h$GZy;*MBorRm)1Tt&o57F
zh(3FEuQw>8D484}ApbF9>dNBy=n);>@&BRXwamie39R}gP0fJJT|Pei7&>|P=NTRA
zXFYNi&RNMk`OAaE14H53gL{E`m=_mT7~4<W@q4`yQD)!1P2o9D9&))N@nzik^VOU+
zFmFMm(H}mz@|dA+R97T|BDX-G!0Vg)h<EI3R`-ETK)bQ76xU6$W22l(m_6h{XAHgN
z<>hs5lQg3?N5`it^{Jr&!okeQNDl2~|2H<odyB&5w(sqprffYBXhXn_ACcOKj9F-T
zr-EPK{vq|=?k==MasROG0SPHO@i<U<N4xGV3hQk$$-PN)%$P$r3FKO9%Rg}FbF{#A
zojG}u8~i%};M3jQCSS9KDYu)N|9+~T^sG<s-uF*+naysk57v9?eCEL`7sV2TaWr%<
z#V7vx@dMww7@EY7E_gq9UCc<;#s_Dv%!yCzHDJJi7K#+~bvZHd?6;{K3LZS5z4NrZ
z+8`yR4XherGMb>IM=~{BL*roJ-q5d?s6uf6G(;K)0rkO8sxFGFBZvi!vY8!I`Zz7u
z^IP3vY3@vV22sYq!q8BAp<@pnnCSlf`epbVQCoumW9MBaXi}j2>NHDgJTafL1QMix
zeV`u$i;BrDwzv{We0tO2Uw9rT)ZiwJ=FZhaXrlEX_3NRKlP7hCF6Uz??Nq#eJ^ku_
zXC5ZYf~-7agABj&dHlM~DNqNH4la`ypHH2er1ta=Om{UWO|o@?%+k3HxgBNc7<82E
zjZPt7I`b1Bm-?*mYTz5GeL|IQH>q2}=LffM>#kh<SJ$pxPe-Xkx;R{2T0bEL)OT|G
zdb0+H@_a9E!q#oqsSZP?n{Wy)e|}lhX@4Dg3tOCAlVgJ&S-3XOVeNZ&&8Xq8mYY2>
zwVT}F3R;f>AsbMGd^165`nz>kx;rZ^y>_h4FKyd=cr^Te!h?p5!SG(A0td(N<qL~z
zowB0-_I~x=ypVT>f1V+Qo=XThua+ws5wu9bHT+;w+zPi)9PElJkH!6cmYzBh-*mH1
z2nk!@&^@H2kCLI2(xW%h^kw~>hCh`LF_zV7Zz*ZREiPTUlv3FRGRcD_ZK0d4P4alU
zHrQ36i02;Ys6-OJtR!Mr9=B(0=@sTG$ysNU-aKlDmNGE0I9kZrf4oiv-ERnwCw10D
z3`oX$AuRva4e@WI&F#NBKS;1&e0l^T#D&O7K|COOcCnxq`wzBfZ3&4t5;6|QTWX^6
zwOO;@mr`?WzaYPUiYx8|7*<-XUOjA+WY4X>s#cOw3rWXstp*Iz%g+l`ywo0}tYu66
zVk7w5eg_)f749mZ*Be;<G;80tDX(k3800LHN$h^P)0c*F%J0;ss9fzmeAp2X*=xT#
ztt>+RS68>nRmR~{0b3=p!-WnJ(a{gTp6EJ#cWwj-MBP6N6cAniaV@u{cH}hULi?Cp
zGd|wnI|aE)jbGaSO@R_BBP>j@;r4{6%svAtlz+SI6_w~d<bCqUi{~6Cttd>RP@E-G
z_TcM#^GwJAwz`x8XCkL@_shflNQx;(Ae-~LtLjv{Qtsg4!-9^RU`Wr>M#W4R(p9NV
zvnju##+&s5D7s;{OZCf+J+QHha@f)Clkfy5HKB;XV_jx%zqq33?Wzluh|1PR<W9~!
zYc}e3PR{bB4s)JF1)TgI1&>b64-N3Ro0!5JNSew(hrd%-v9@xOYuV-|-|Ewfi_K}&
z;5Dpy*w2T}e{VFI?tBqF^c~-!Hq@L%uU?F#nyII!RwrvBhE{MqXvEg87j$=8x5chA
zrItiJfVqGPTluFRc-zk;YSrEA*Z=Wu*RI|8>DxU$?>DY{e`Ky-tQAabzXL32V&gGs
zhO6Y}wRIq)GsvmUlJ!Y?L4IswZ(np?vB$1=x4zIzR%v>inw5d~x+zoI%m}@PUu9)f
zdj}g+hxOAH#S!s<d2pOC+*M8n6dDchi-fepX@c~(1)s=c*LOpVtk&aU*vo`#J3sZg
z@!}KYqxK8veWHQiHJ8a+1Vrh4q(OduH{vHQMr*ih$YWx}tIGM`Ys=?-{T}yGeQJH5
zGB%CQt#w)}b@F!1m8rja<$cXYR~wTVI?j7H?y;G@vS0W;?rGt=>m0J<#*Y{7ysIAG
zy>rL6QMvFK-B2}uY<_dM|J?NNjg5h$Uj@45#;3*VBV^f3={I7ZfjWuI2RMP4JyM&)
zPoKWTqyV}ip#J)4ZrS@Zt+&T4v?y2I7vC?T6sb0{l*)|N;(ziHJ}FuEl<DE~;?xxU
z<lvutibZOOqEgQ6vX8d8xf5$eWA@CMou#D8#!=?!IcbK_&LEV2($eXJi=3skwNgX)
z8u9!~WpTbg(v1x<rr_`nw~DN1!R}2VfBXBJ6sA6TngyXYyIsgEn=3<X_~Fl)-@6nh
zz_=Lr=ik`X3l>ZFsfybplCQv<0OCa_i#N6Z<rm}Ro367|V;stlo!tKA>(>ni-J!vw
zXL5(f_k7uZvdg%6xsWoW=SHWJ&la>7^0J|_HMVwk>NUH}dw!=%T3CPN`1p-V1+P9K
zy*jyl>y|C+<|rPTv1dJ}8AM)>9-;yH{&JW8hy#Vz55|-44YJrAxv{I1RDkAI66#OT
zI$jQLoVja+Ht{1x$+?ev_3nLpSR)OL!!HgTr=?YT_wHJ1rhrwBplLA$J^x%kiMl#C
z3n6a!x#Z-Dw**+o_en<xxV}qt-4|iera?mcJaJyzzsu0|c}jBw$$HEtuCY9Obb)&6
z?4e225)x*!iH1hy*`n@r&5%-nWBlEGk;R+^g}>LtC29|(UvkBzaD;?znXH58O$Rtt
z^U8QoI>8Z;S%nV{&830^T7(^^0f_n^zW(t^-8}hh_4YOtt?2uSn{b+<6h&B#2L%Po
z9M7D|c>2_pUVo0RepmefKWLZleMYOGa|`{7>YjAm$?Vo?X@4h|fsWb80nFm+KVj4D
zv^0<L9oy|Rs!O@GZvFZtcb(w_-dl=X+dTi*Uw%1j=4%CowP2Rq9b{v3@5cgH`OUmU
z>h1pZ9NmY?{p{`SbJt5@t@rg~I%WCjA4+}g_f4Q?$`WLxL|3=qNiF%+qeqRGR7MYa
zhcg5h6B|3?!Za*{;2Jf4>(T`(GbF-R%k?WYtLakZKp6^a(Z7{_P7IK~?lQ!*?!{6a
zT^<sl&hvE&Wz*tyX7|I3SfN#+-}*$^)1X6F_KX*#5-=WcvG~28GZ41WLhTWd`-ZAh
z{5!dLN^!+Ru!KuvWbCNa<%G=@dR)kpLNzq^FDtKS*KS`v!J`w>sQ8U<W}7e2?W`O<
z;>HMRDdaU%zRe(ONHH27w|jRE&ESFCOxKM1f<!=|zJ=w5sC7?Ydq!yTGVS?m`}QRE
z-ruGSz`Bj+ZTtOw(I^z?QOh{8r~0omk-NmbhEM}6BQaNN?_M_ur4+Y=M3AGEb<kIB
z>C_lulPm@UQg$WyA%_EGNBL2B`9cH!N-Wn>kV%EaKZKuvh0u8YX$w3-&##}wpfch)
zIWPYLXR*R*k^bJqpt+vX_ybd-$Q!4wzJdCxPQ^fOO&yh)?mEcS?5(YDsx9GI1kV~=
z6$-k}jUUm-QSqzbr10EJ{K8Quw%E4fBt*ACHy!bv!b(8te%{_ovJS7>i3S^%h4|xt
z>F~jWkBW*Q#|q?;>jyM1>pL)d0!Q4RJx0B<@Ra_VO&bH0e*UZgn`wMt;i_Lb2S|!c
z4opBQ=fP!m{G~0A0*cH*DP9!@31+do4p0^7bLi;Ng|=zpFM9OosKCXQo?WsnVk;dK
zq{{fWUZGeGIW%{3zHqbP7M7O^<iJ&1+G;amhr45oMalB|4kPYK@FHYz6lS*mJQCrW
z)_<bu+r^67Ca5|n<O(CW%h|VX?Qr{5UyAbVXEO65XCy$A>4=ph!^K+i)VssC&}!y<
z>$jGT)3I~s9(;U@H?-$oB)F#L+jmRnUvYJQedJhLS{kN?Qm)SH*pq17rF8&(V-SrW
zIVJEjdFyn(b*<JJx>6_ziu$%vu&=1&=t>s^Z9i+bsG|Z0V{KpMuhV3g!Ji<O4E@An
z_q=rWPEO7-4cqR)qM>=i=FPIjQDX)U)Ha?o0v7!B(IS2M1)~D&zp9Lm3z46KdI|bp
z=WSP-56WgVj503mu0y0OvV6eJ_~VfI{H%<O<)l*@ze!1b7V9k<Y`dS#KS;~H<mS!o
zxo@Do5-V@z-@Auhz+_*vLF8s{D=V@3G-MGYpuv=?Lx&FZ{rKHLPTdI=h>jHMSMQLJ
zCGk7Bt@5cJ?}?=dd#XNtg03M4$i92GzM%nmz~teY{Xy$EUPs-nLcW%_<1%1}Ey9_Z
zlbJbW`0z&Pbb=l(@k=Qw<M(R!F_B1r;mq0SXyF{hsH_Dv#mt}IyMO;i##Q1Ye+e3p
zTFdi*sc7>#1`Nt`IW|6g_yDJDf`Zn_NJy~JWC8TCH#0d(bdX67_{-R4@j2aDv+y8X
zZ*DH9a0-nrWizK^J%^iTs4WECCi{FPTh-aoh=pR#NR0^-oRBJzwt;7Pn4&hAmj^CI
zXtI{WSYfKZz8$`r24R~O4ZaLi7=%Oa_B-P$j?NF7d!P6nn6-?aQz-vQTdMFENIi3A
zckUbF<0h~xh5ELC3tItj$eH?=^D1fzsi9H&`Adqb7KGOeViJ+=2nr(9z(GN7=u_#n
zvPgFDm0pTyr&06wT~Iwt`#5^@+_`hq@mvV?$SUyRKshFqOWZ6DFz@o;=KsZHnN0j3
z)Rt}EvEvrFi-?50j-F;Qqpwe&%-z2i8pj8nj|xSct!g$B`Jt$9!|yXi#&iX`QL~sN
z(S05jrQ(aQh5!Zyo}HD2X#3-nB<g(yq?4E(Z;)?*+Q)q5R4-o|(5cR>4_=hmSF?u>
zSdxS5amZgCbZ)a|Sn$q#BRX*D1R(NI^?eOf;3<uE2gX*^)N0P=_Jy+O_vR5C2NeaM
zo7^;nX4IQT(uS+2mxPB9K`#jQM=I~(LvGrij@8|3g~$wHSojyWT_^_S<cQwXD~qzT
zE6|ZGd9b-{gaQW}N;nSh&E!2O<Jj|*;3xu$>Jw}A?E(Nx1(cM@;y>8AcP!S3=qiVl
z*V&o20c3futS(4UthKm^X|wFEp$j3=qsd6RXHOB<7A=}Ra?58dM*{sW5lbSS{{BT_
zIV~hY(o~MmU};)f8DAKBm_2YOE33M$F8<P`CU)pAZKsg4H#Iga9yUqTL-0k}bL+(i
zp~||~vsbSfTACujd|peU(^XDm=S_G{Is*|R6Jm~n2rU<FASAv2L>%VZoE)0SP=PM}
z#@)Mnx01+DYRpn*#gM8pe|C=05D7=!ey#^8B*EHV<R3Vq$$H+<GrD7k{iCzjND)kb
zLqogE{1^Z7@Ct|=NKV)kD%bW;62&$%*(fT`!QL{ru2(>0u^b0^4zozyyP!73f#4o!
zdeCH6@Z{qoZaRUbPd~Ia;i~(snvY@G!4ak-{`_+zDp2bfyATA=_BJ+y?cy$78WSVG
z6m^xbSPHzfYc)uU=MN1~`)uja37b{c9LFi7?pb<=xidC7I3T^!sCj{~jdF)+eCCKk
z$SYKUr{xDP<5CG0+}|)+T`G8d@JYYh2#L?~D4;|`oVRM0fLKwz4~x>S0tB&rdLH=z
zKttL3qO5EkcSk=N#Co5`)%rt}W~hXitXZR5{`M^?1WJkHP~-Wr`g<0wTX&Wk^gZiX
zPigQA(hSt~ChrbfuU&h0Z5oCBWB{p}dw;$Mw2#hUs!ZRZJH0BS1dj(}Y?AQp^XJvT
z9Hmibku7}njC;u;%+)XLw2n=3cW$sFG7qAkx6>JApgEPK)BEF9K;*AKPSevXhoj)2
z>@ned<(|T^zds!1gUcJwyxWX5pZEaIZ&3TH{g20@4hNo6a$8sZQm=S#oC>?HZ{MS2
z2WC;#=*JrB>wAtKzOj3gY1_ZkGBeAGMJA5ODT<4VU=GO`Pa6ICn5cPg=u|K3&4`u}
zNkc7}f49^F;9=o-O=I$zJ!jsPx356Ob@9Qa?gRFaFWO^Nv-u%ME^LVHW?M!2=DF8E
z$1_LLp>G0j*?_X30Hys;DRVbY##V-rt@1>t4lgaBe}EfG%CjM-3i-c-%@Z&ek6_*I
zhK2^m4I8>&R_?av7R90mB$-zuE25BJLqx}?ixqL8vu@OAum|&<=)nV*T+UUR0?U|r
z=MKA0=wm1KKgmu9l#yl6-&P*J57BshPj~VRDlv;tbKg^H^xR9`WpU!VDM)?ZmVi@P
zZ&$W_(s{dxMS!FntY9)>7Ib_QiaCw?y1LB{4yf%FZe7)ZWn*6*!;vhajVD6)V5CIQ
zFy3;ioTOKqn-*GH9$(h|^OR>Uf=ZQW?WIy~V<Y%;Etk)Goo{HeyFO+Sv{pvv@#c&I
z*3K{2Zbt*+07^jj{LFce<a?&-E|Z0@nF!z0WN98J3QD<7mZ8HYOep5l($oK1IYg?E
zt{E6c5T2!RuosLAj`n$#DgMxsh;Mg}nYt~w_gyo3;~(T+&^{X<KRU*ms*&-XnMHQ=
zi!DINCuIHW)>W}0ac-od5f&1nw&A5N(1GqSS|`@`UnQuITYe~~J9X>U{Q1)|8vThE
zD96F8WWC%AgSdU&vwlj`o;{;H!h>QCb>+v8@-1ylMA7IIC&1_(I6Kj)-5ayxq(P8o
z64?v!(P!t*6ES^I<FjN41UJr98}=aLv9&1ukO%DExs!U<i%(lXnm|UHqb_=T>vjFM
z?YF*TK*Fo|kuDuOdc)q;e4)mQXXX36&|5I`fG@fXjXn(Gx0->RLaAk8p}GF~)DW-r
zrGv>#S%+q3jJQ}$6}Yl<Ic*XvaiIP9v6%yb#X{2;krT+kbSW_ICCE*HF%QCetX+&9
zSQ$PVjz@U!3ACI4c>Ca38<`a=SB}G~4RrBqhYpZS6HpyM+BXH(Ry@ol{w6;-yWc!G
z4k^Lv)vNi)Eu5z4ZpjdHat!{~K7q<TCMG64ob8jieb^^TU~s-%Y$}3cVh9CBz7_rO
zeObEzw9{jsC1AUg2wX<MKs^d(7eqh~MtM&(oT5=PbM8<vBzl6FI7J9dO-Uj2t(+3$
z<D<{X%@SjJtbNE>0C@u67)lcT2&6Fxkz8zoW2GjH4zf?Zv%V)moah0`YFe!Tnn>vK
z^NlF+Q)%LRit?PV+cY|_Ytav~PB?#F=LY9mI?a?)8#9J9IoZAWN}OG}McPj-K%6}f
z8%~4Z4v{j7JID9*j>>I!F8b0_b?rM?qGRWzMbGkQI*GPz+eW>fE2CQs{fsqun5@As
zK^_Fqxm&lZB54?EMh{(i+qSG1gd*x{YJpnrZotE&Z{uko;dQU+4v!7A{P}C$Dli$>
zdHM1L*A)quF2&Z@7_$0V5A?B$J-fAf5cgh7Yq6eQBpeRM4y{y6Bg<Nwup>g300CKt
zWIQJ)Zx<bgpWTG5WNSW0$2^6(VZ(<r*Fa2d6r<+ReRfLqW-1`?3X$U;WNy@Fw78&2
zlPp<Yvu4GxFQ5<zWj*S)+M{=%&0sSuB4F&ElQ)2$GA=8CYDf|!08|Vm7He9}#%~Zf
z2#Gq$6p2+M{~`Y(;xno?JuAzOg2sFuhVhmSexRLdAF_lag!_SbpRNU>_k*)t2Xp=R
zgM&{utZAn`QV+L^veqERUmKR*o7r9BCNqwqe;Vec_rCsq#T}w#)1<E?eJ5*w7<co7
z|Gu=}8@hg*M};T+8fTW`kroT1fB(7VPieV&+m{7n{=4l}o25&@i$I2Q!HkwQv-Wf+
z5JRO$9eXS~;7_Pgl_DG^ow`5>z1jIyCrMTMHSf-N89jUFIusIW8x1l)Jx1nHJrO<t
zhd2G9B?0g2=(@R0&MKCaP2}%pNC`WUO@FjpLftFk1DJ$L3|aF&VLNqCS1mXiH^>&#
zptS%kjkLm5#L=#1b;D~+{%Evrq3W;5HoEtfH6NYFa8(^$`VJ@0Y>&Z;gTt6F?lvtm
zI6Q*)@7gt!86V&(Fv=v7O2CQkgg+54Zwkm=#L5@8HIlKfHN3j{wrTYQd3~hI<lxeQ
zKWuW4XqL;hO}rnkgyZv+ZB$!Yj9xHk+r20x>sWltS8$sQ2-xH+JTBdv8y)Fnsr^HP
zoAhhCOZ`6&2V$<G7CyvfWf#f4N9#;VVWos$!TpH2gtE0~J;htN$?54e%R4&`=w*`n
z+5P*dQSWb`Jn>Ikl_APXb}xFC{T4gwRAk+(S;HS@X^a{^I$>d??SdgkvI_OH&ubj+
zbGRbtpVJyAl~vY;C?C-|;W02L?c<(}BOl72>?J*}U5!)IX6w6ej%}UTt^ec!B{kz8
zvVA?JNyawVM7AZ4g!!@uvKT!WR0dGbw{d<JE|!yFBd}ATIC<CFx$FQ>X>60_Dz>zd
zs03m@dvQJONm~y{(hkVF8LZFiEg9xp*rOg50gV`u`6qb;<56DCMFi1vDSA<!_+8k(
z012`~4vg(0(VYEkxMOE6ar->%B9R}6IcG$DfFe*@KIw%-GR%*a0{&-dSXdl;vOrR%
zcWT#7m_TCQ;fX9eqe-?c^By#PuaCB{Ej^Tx{$ZiGpdKv~7d)l`zuXz`gSYA+M`?+N
zq7!DDUeX*V;Qb9YZ9JYorR^U5<+>YOe0T9y9zGl1KT=ch)CrN2lG;0QrYx>G8_C!e
zGN|Q*C0}mm(Wm%=%^qo;5W|Q<yCn93cp2Mp0{M>tl@7J<F4@wr+~?euw|{n)SdDLS
zaW~#cW_nD^eUVfi(n%y7NiU4sz%R1ud+9*CZF^<kCLkOvM<=6>RETLbwAQQEafA}X
z<8|c)Gm0PKjgq1#DO+FblzK6b>Jwj6q9WgN$(`1Ju3BQ-<{>aA>4I?|uZKqX$SZLn
z%7<o$ADH|&X|E8;^EmTp<cA{jlonO-?Cb**f0M}gA3d53Eu=6NuuGZcB_A8Hy2TY<
z#q;=aOTxFOw6JxUIMY9*(9T4~UwSD&sdPZEa-78QK2&v>FD|81N(S)(9z}@Zaf)?v
zaY=bHMItc?!m8rp^1m38M?NIpdYW*8fvVBjNz5`|uppC>=Y~Z;ZW3+3$k$hJejpNI
zWvah>7{?g$kqQ~;W5PamYUlA~9K}|mwwJUp*azD`SueiWsCe)Z8$1E>Cc2RH#h8op
zh+4z`%D)NY`;tNLdsM!!lmobM6D8+Q2unP}xd-*b%wrBsoF-dyv#-5wUlRL$V>?P@
zK4DO)*Vq2am(${hC6bNxq@JA>*fX_GuFxm2SY&Dnj>_~s2$`a-*Dgpaj)3WWY}H~2
zMp6CJ(ZEF%SiRv^8_8{t7Qg%)UFw1^uC89v1bbxgXSw{cQf%z5G&ec7JOQR`%8HdQ
zk-Qc&Rqz`QLr_y&1q?^}erRlW$%%JH$};)ALST<DuU2&IC;1!)<wIMF)B^%!=hi7N
z)>Ffbn4&YUI0%%SvP5#?9>Trd(?g|~A|OMyw3kQEq{=HaE}^U6@}>F}zM$|1*0fuY
z&+eNjBRSEjFKCzzD7_S5z~LsAi<CkJw}115<I*STEa2cf$X{v?=v3}3ObtB(RRax>
zIF4hrOD`q6BBkFu@ps8gN3<xYntI8|V2S{L4)rs)aw@-}UAQ+m*j_ylmhBaD0V0Y`
zV=cz7eKJmAs;=&B&g#>~=d*fC#=m;=hCPV*<fG0`j5I((nT)X<*v&eO_fQ?F;%^5=
z&WC8adi>BKCHn!Ao(P0#cvQ<DYlenuTAhey%HzX~^!QU%?IQQa&01Po3RCH(70bh~
zU0VLMsZ(_eACt`hpl-7&2lg#a5N|#aF439!L!Q#0To+6%#ZRAfWk4r--CjEQHVMBy
z9(>EI=dI#mCl+ugFC8g0@_&4Pl6tf`YXNSh@ngHRPNXs8g6T!o7hk{VV5+N_6680Y
zU-sDHib*Ibmy8a~r8SucE5|B?E>PxQw^i`;^}T~qCox8$<%2wiF@Z&$lBz-m{Jk*4
ze)7aZeAHCZC#*7=yeXrDM{{3L&4$5kCATAoT^*N`n~UvjAu%{?qP;*$ukIEUh<?-j
zdVIEJ<>g0;TlbdqvAMy$*+xCkQ<_E<TMqmu-r@@1;lwnj5)d&;*foQ?Iw`mz$|9fO
zjuBlMV2t|3OPab3C4j?XX;`nYEp=l)Cx#sp&{TtevnBz6Bm?`XEzJOkjqs#^D~1Ar
zDPPY1CG8)$E!6I1WZx|@f}QbATt8OxS2=kXx6F*jvc$3yh;o6R$Mg7Tkh&{mAkt<i
z(?oF(hOzU!ckYzdp^ciInwOcWCvJD3f0%3E0Ru)nU9%A&b`=fh)*0fRo7NC@?BdO(
zIM2KYLLlbb$E7@`0e1Roti0C}Z(xT$GyLOJb9+HMM;JoNP-*ze6Jg|BAP^KHv}H-x
zoHUIlrBYe5r{DPfm)m;ihZd9zz4#jH-WO32m5_aIG(5Ceo(i!rjF6gZXvhQpho^YR
zQHA%`mQtVw0(k^1RP@~G?cGP!N}E{?PeLTd8<h@-4oAYbjL!Wt3+9CvfQ&Nxi|~F{
zii#MnK{7g&jAEHqgjEuJ!G;}eB>{)oFtbR#q?V`$(w*Y;_MQT_DWVBq@dS9hqLmt*
z6tJYXEWhh3ksMtADX0}v8%XU74u)f`6^Gj@uFXS*Q6yBGFKh^pXp+-dc@~&FVe>mF
z1+?7-WF$njtp1&}<2h5rAR12T&I)u8z?>DMJxXdBlX7S&G%yW}U_Ii^Y3V<hKara|
zr_zweS;K57Vezc9Q%I(mLQY!EgNquKx~P;Ki7Zhe17Bpwl0lBR-X<B!V9oL2Hms+Z
zR7ifIBju&@i7+tJ)q-0xlX(rJIWVYSFp*bNRn@R^T%njbPOsH^oE8<P@+)*GE=X8w
z$;Cyig;YWfeU)G?r2wr$fAd3@!|m4lI~BJKWFAyMpsf5sA8Gw)>JyzA;RPKP2w?2-
zMy4T%J21NTsbeWE$@=DXV>C5g$RkLkTOP%(^9lA|(x73??!7K5?Ufc~BmSLyacKBz
zF53DXOeV($2XB-#S(KpMXkpl}BdQ4>uRLxsIZ<Z?jz*DCcWB?9$FE(t9wq<Z?K)uh
z)med<&OCwp+~C2x8D&5xI}}vx84uo^*XNO;dE;nb<anFzB>n(x7hBj)dF1raPZ<6}
zV}%%>k)t7yaXr~Px=6~FL_w7w{9?tOB@0}*U_m3(xOH{{7#XOU$h|;}_^Ky+IxPpy
z#m4HFndlvKcCynk*mwj@Qfb)pT0ub#BcAS+ZxRgf?c1M;<m}NR8Zx|e6dW}qCM5)&
zc=Hc1VxH2RbUb`Vdb@*MZX>ZF<1~vg-%Ot{<rFq2@#|Je$rYn&v3Vtu`4hs7A`9(M
zK%u!G;i=lY3&-y}tVpO4KFO09Z^gC4Jm%86@z<ez;J)?4j4~NeXtg%Tjvzx)&?p8D
zG&i{_0C=8KYk*M6nS;xz;T;$P5b!!u^!&fv-J4+`K_YWXj1P(4R-!C?;GWvEJS|9L
zsPF32Z4EaAZ&z{1va}8iU>2Mm50`k@T$2V1AQIkZHpVLcSFc_*k1>rdBs!xfGga}I
z?Jn2yWhBk#Fgp^XlE#iTlX~{<-B%_~`wf_M#H6p};4CEQ@K9oU#Qpom3Z5}BAH+;}
z=#(UkA9Ln@xyagLZ;25MERL`pWWQoI6^3g`#}J5WFPa{@9=*Bv-|gFbgF3<|VcHA{
z^0KRS;O^-!010Aq&02xn4RkSj$@O0j9s9*lg)>DAwq*}eJsB}cxZtpCDADZi*M!IR
zcNPW!0iJ)Tg9qsr`uyVN8Ju9*!*O91uK}Ryb8utO<$B#%!%YmMWF*!FamQZ4<T;@c
zr=xf80E{M9lP?f)_$Ns~%!XB^ofMGuz>i%aDt-U%BCt8l6o2WNcH#M}E~KO@3iC`%
ze6}JPR7gvh;;>-`C036JsXR?2k6}9qMZqj%4xF`X)(l@YLSmxr=GMds#<vus7Rm#;
zuM{m`GOtA?y$AwF=r~WF?DA{6m^*<^Y3UAT`RK2D4x_{fp3|QF7mM$u2wi;ZvZ}=D
z95w!rw69T7Gj)nER$&ckI#yc9b(ZKqhYx|t{mQoKJai6fA4=@Gs|uqOS@#}aRC4QM
zUQ)IbA49ziFB{{RBaZRbCc5V4M`njVCjVIS(KN(xrN$B7fBeLW*+;wXN6Uj;9nY%(
z1Eumn_6~w6JDQnAVl=j|q-GN&6Y$A_hE}iC$JMDmN06}f>NR-u`mVpGvubzsx5m%!
z%^Uur&~CG~wq)#Izwnts`RqNxZBc<@xpwP6!8p=5OF*q{?hK0t(G9hTzXp1VF7)d=
zb_6ma`L2=yCW)Q)EQ%W|=bL|kmCnhC!LvVCk@nr+{hO&cbT&<}M3F2`$_-jz9qnn!
zRC=&sW5WiK-+f-riV<V7rKJZhQ<WJ?{}5Fd=3NarRz#A(1DY0^R|~fWFI9cBoz-t}
zV3+JmV;@#P+<mJmzDSjXFd3cLcL$=?8V-ZKM-ri*iP$%O+qizcElqp(GpG|<j~0yZ
zi7p(-$##V*w%;&kKd!zai$jG?nG%U*@JN6oa2WhD2iDQ$Jc|y~Ksn#j>~c~zb@B0{
zUmC1gUiX!CN{SR;^@SuECaBSOY)RQROpm+E=3g0pbocJv5LW*0;Hc%PUK;i9PGNw#
zf7PFW;L2+<U-MfWjw*!;q%#P1hJ4vl61{)Vn^cwm<qx0rx5P1Bs3dN&mhHkwW4^x|
z+d%f=9i60cu!E3&+~sFx2NX%`>6eFutwo?s>4ew1b$f>n^2owM;Q$+$7Yz_B2Zm!M
z`Xo(_G^W#N*6|7Pu$=yfvX-kKr<`r2N<Y^O%$P`9FMAb*lD32?#hS+m-DG_H<}fd@
zUZO^%F4D5O+i%;ofs-z_wjz_Ri2Jx9iAWD5qkh3d!?7+QJ|1h5tyWeih<!(o9^I4|
zklejZ;le3X{@!$B90VVskdp+<`)4cUJf+c6@oPsZlXA@#<J(9~{QAV(&pAF}G_l91
ze>GT4n4%f)sAUBZj1}ceSx-dg!|xPv?h)9`sQ-EHKDYR=i{?j@%v&{!{Qs9fxV%a+
z!v_qe@|_^5n;PL}^*0Y&zKM?)Q_87Bq;7cS1Nji}Cxj$5-Q5Ewnb$9j=O8-9NO-&F
z!VY!4)`?a3BLoc<>HV16?XO+sj5o{{Yt62RaEB-zR;YpMTdxsboh1?7DdQ1h!5HWz
zvnq~F51kucfaIg{al*%EN1wLw$hdh^iMAIq7&+hVkCh}6{cQb8-cIs*CD0WN|NL8}
z$!t;+1bB2&zvqkUB?Rp8^&M_f-cP%39`S~Z+kq-3@PfsqejwL@iVylaUXZwprS=^=
zHcUi=ZP%>m^4YhYmb~da@EJ2^c7uH&DCp|$yf`kF65MKc@xf`s@Vw<k-Sd{fYr`ZS
z`F+S?5jCA!L%oW_fFmDE37Ve9O`Q0cKhQExt)!?ZDKSyEorR?(1U2>U<HwHiz3GkS
z&-@J?#MIJ2i7{u+Ah^LSrI~HRqY(Tl;Tr*k@`lc%B|UHOh-iPLU<V>C&kOCa>uFm_
zR?hC?1Zq)S$(G39hI~jpd&B*~xuIXSAj8SOG8G}MzVots`6W#O4N)(*#OeF}kN?DO
zC>c6-Y(oBkwioh6&UNRA=qHv!WETSkMK^<PgY0ES9X=_S7-M)cxcs!Rp@3+P>z;4~
zyjOybm?u5RlS~0W+M%nT^Dr*0d&E!FIi)U&>(!hz-QrOOf;`m&ONDTBU^2S#B)CWY
z;hLH$XI+nS8+b9(?BJVC>(`&7wE?IOaO930J1*LQTtGdb5W2i;o2?dDoN%J!e|_T~
z!FXeX`QU*mz}e%SHc7-lN2<oW3{%*~*hc8idP3{rt;XU^9L9-LMm;dM*%`O5<%c|?
zUXdI?v&eq!F6aB2AwBCI9pmnq!SZ@|wXh>1H@8v`WTM*QM;X2(pSigs9Zto?#of;^
zi7w=9=RzW1Mzp+}B&?7FgAO&HaTk7I5|Be>e?o*ub?a1matDmJYT);bdNfdn65c`Q
z(t)a?iD&eBw$LNA-1<MJ85(vc+FD{cofP~aH}@kTM`%Nmg8T4shjzDcDR{3>K}UK&
z!`H`0ARt^R&ZQ%d4^vu;^$VjnXysC5dYwd)a}NT3w45(o6r@zzNd%Z;B-|_KyJm}B
zHxuhcFfJ_+V6t@#uOwpa?&-^PbpE-YF}imbPST<ESDRJ*DX=ZJ6X*ZfRSygzjZNKz
zNxAkS0A$zBoohaQ+DiJ%02rH9tA>)DoHbNBkeQzTC$5ARcPSTKMBd6?Ig~9#dLDnY
zP+kIJK23EVtE4oYFhbQGE!v|c$THwiIKhx5Mu4wdzs2%A5*I`yw#l4Gf*@5}`b$Mw
zTaRJ%RbK&bg=_6Gk7)v9FhQ}pHe7rgpVl#|5=k~S8QDnhRjR!a+cDvFSO3@L<wIJI
zespyUBwhI7!a@qLV#v9e4RCdI^umNn$~gV{^?Ql!`XMoSmZk1=WR$Xu59rhxt6i!v
zulz;oxkaXhgoUp)Bh6X8`po@|Nq9W)S?AKpi_k;2o*ab#S2x8IQL$LkK@90eSb7MO
zV17hm;<$M8H5zi+4qI4RSD9Y~J$T5Tlv7eR_s2s?yQ(;N@XVG)&AMiTv>>vm=1{ml
zbO`<}!;vEf(hkn{vw5~q5@7%|gv^?7e0JQ!zFoGf2Zs~P(MP+ITV<&UJD{p@Ki*th
z?dKC0%L(9i?xA!mOb0h~>}U(sXcT$o`$c|7#B|sdT=Eh?XIv-SH0ZT4-yG3a!1#@)
z^}|%+a2JOb&$}YvhD6dVhFdc)`IJ(n(Adxq@m`f^3?bfnT98Axo)%DYcf|n<A)C7B
zDqjqox5IIWe->E~UTUAB<F2S|J#g*TEgM2VnW(I^Ahx!&j*{iV?gL!8*VnA5YH5K|
z4BxBL+Y{-HBi$3qmBi?uJ1l1k9POgGhvl1Q`1Ko-Z$x$fElO0==&s$m(RD`mp<SUc
zH&PtGhBJ}W){^kpsiUyb&>ZmNaaS4RG}ZF8_{4Fzkny<BoT1=#N&p2ka)!z>{tV|8
zFXJQhwy=DU&rU$ZMMV3<8SykS;jp}wq~l9gt@>6a_(xY}!_JwUL?Q;Dp)@=HZit9U
z`$JlXm`JkbvFVM|eKBbU2+&!<TE@4CFW2%dE#R42zoKR;5F8R=VQ5}ep}Iu*;E^Mj
z-J9L`eCqY=S=pk#($Xgi?MBPZqWu11vL-@QutJ09;guw&jP{Y~-FyDpmJc^N`QyV?
zd@`3$pc$_<=+M?o&UfxlwEzE&j1*^xhn{5xr-Zn`o;FBMe{vh$4!t}Sv8D8x9bQmT
z$Hi&L`F8tAYSX!6$GnvqVz3~#(ZS(R=vDRgSD>}dIg7zhvO`TdQ4h{p%e$U1_z^ce
z^!M-ExBlJzA(7tBWLAO@ns|nT1Jq~Sl2y{UQd?CO@ls?G+Iq-2H7LWJ?I)VsfhYCv
z3TKuWOAG@IlnMYPbxw^G*FjNc%j1%hok0!kMyP5Ynf~V2#2vEcsM`nNCOMk>QAM5S
zCC-|xc0U%vz&$TtE^mo1U4H!w+3k-&9NU5)TwCMU02|(xxV47@-+-vXcL4#tP1D*N
z3WrG)T#Mr#3fV1=Vk+k!K742vnzu5(7@5%g1q=K?C{pt<jduMUSXNd>ktl>icSRSm
z5)Te-;b{4WZe*zN?q0K=KzsC@NW-hZ3TM4}#@ZKHK$7#1fnm(#wo>g4axQ5tFlkTI
z!wsW#BSSbKJV;MARxyD-xM;ox-2jaX!A<czqNh)v3Z<N<p^880{875a0+Un3olR<;
zN6aB}mpq<`cS>n3V{vGJIhRhQh5G-{(d#LzFdIu{yr}ICq?rB)9|UU3FCn~NVe6$e
zW{hcg0m%e&!eoZ@hSwXVp<x`F$8?wE%a;#*oY_$E&>l#_x@`pZ;(NT{%3x9a4r-}b
z@dv91JV)vuosT9G?}&Og{Am60Kayw{f0+Y>K>cGIdc0GBE1fXGJiLHemuln3C*3ZY
z?mK#DIZ(BAMt~gJH(QM(;26^<%~#m>sT?;Xg-%<x7~h-8XGvDHRv6gQLYj@4#=#?r
z+%Yjoz^DJ~w{IWOpg~w;)vz8-T0k&~f*9WlJv1-wAsR>8!fKvb>W7`@E6Mpzk1k|A
z=t}|gm*F*MsI2m=r6`#HbK6CoZCPFj7+0wFreMp*v>ac5aYX;~4@Xq%t%W-yb0nr!
zY`RQ`RnMenyHitL$q?fO)q+&v;7|o|v)2CHLw46!YA6jFBr|5cFur-exf@yz9!G1q
z<SB$1E%;(97LR1_J~qBnZN#EDG4h6Sl0NTafDmABHVVp8aLfulQCtrg^<zbzZ~{24
zH89xCSxBJb)UkZ8iU<jM1z?8t3nm`P`!{k-r>Q@^;yMxCBJiSepk!D!KP!yMiBzCA
zR&CG!j#OuLLiQ?(uVJXzI#pgG>G=$T!KlYWD^*Y;<S)y=pkSWeb8afT8bof|@(||l
zg#Ma7b!r#bbxsEiT`A~z*j4h&Ehl6%yeYfrze3W;E1yr2&RKNi9(Y7~{eWF($Dz4l
znStX__`o*Z_zedyglDV+)*I2?zi$sNu<!xra4;#qplv;kB1PQb=E;p+JIrx}q)>!X
z#=y)D{{|H#d{vjn!32;EYsk%F>w$h-@2Iimk0aV648PSwM-r(W@iOZ0d@gzHyXLo#
z&V@!tuWAW0+VT4s+ub@G2!gCUPyjpt#T<9*(7Y`$1e`nEdS(Bta4iK7714c&;)!Ss
z3KHf#`%>XAS{5Xok>nfthdlWr+M~5wX1;?(uKwRBq1T-Mi4sQN5rOfbY3pD&F)xs#
zhEAT-P)3THjO7`N$1HG^84}E2cH8oTBZuTq>Kq7;i;e%|MLX4z)E5~`bQp9&Fhd|P
zpag;w6)vY0o;AY4!AyrwIWghqp;$GaRZaqO;7H<CDv7A>&ZQH(nePJ{2ESHtkY|!Z
zOJFC7a~$X#oFl7Un7hW-1~VWvf?9wTaN%wta-k;uf>_LHREG*(SNH6N3(*1hB{|dn
z8#Giuc4wpj%h)cym=bUZ(w7a20^UU_{@4T(MF!!vWSN3Ro4Z^sM2BZaA~J4VBFzjM
z!ot8%1xD;)MV(MhMEV&;8WR)5haySF*i3pUE%sn0w;RiU85sT(LNpL-r~#$kE+PBE
zNpK$Q5ETe!N3}k%_!&PQ*ok335eiYc7Ch_ofAL-(Iw27)Nlb(}6{lWua^~+x(CrN_
zVJq+|j9Xm#`0?ZH>}V$0U_%AB0?^ahiBydI`iOxN;x(A?%gM=RYh5I=(3>kDLY-3G
zc!uaer`6Lsghiunbm8QNCmX-t5*s68<&PCD$r2gNH7lS#APg;@8;6FaB^s<hIW)Fy
zgCjI)eQb)5Uyi)7&Q7MoiheCF#i;y2dV1)fu*;0mMZ4cgfhNByD%U1kEF`k!KX<jf
z=9YUaH72KI<DxZg-2BiyF$;n3()y%^N&h&(JvLak<a#4VuZQ&{>7xmL@q1nDScrz*
zyNjkfe|?k8xvU|pAb<j0WGgk~$lVbg6LL(W(n;6xBY1(S8269cgPz{laJED?W4U^N
z3i6!qbT}#~gxoF>C=2{Sj~n$C&WQ7a#G)D2@8_lX(6{@)LmMItDwHUqM9X&fSkMQR
zn^yCeISLufbQIO2gY{L=yg7t(DK*+3ME(4GO`8Y_k^?qkVfm&B$48)myj|kqA>mNS
zTgd@}3SgKBaT47h2ZO{o>i>ynJW?2aQiS@Gq9mjqUzmQY!|$pP5Nc^%Mat1h0firq
z?L(E6JT_D@un^*8MtA|zbC~^xXO=4dQBWDwC8(hRBU_(`;V(aKf~1J*A1YH>&L(2x
zd)1bs>FRZ*wc6VMu2~o2Llead1<x(zVTaMn8y2V2=!NaXpPnd?($V?{{MFW4@n4ML
zwC$SVa(f6N+8Sf?Rx)0;JuKjY?jl{>()Q=Jef^w#gG7p*irEcq<Byg=&2bt5Dd>uT
z1Mxprvz{oypiE1yENL6RZrsDG;-QL+58_E&LX7&aRS$%X-;9~0LWXEPp~&mw-SLDB
zaEfRZ{jdTR!Nm!6=@5$~=cdsg@a-f;Z+#R8|8pZYF8_a%5MC^{i`+*-*5!+-qP(nm
zmkmHNKG<^$Zmm%HGn3suu*3Nz>FfC4Q>aqEE8C{CBk>=E1o#3lQ+l41GBeBwdQD&D
zX%zCFmiwYC`}4k-XcO1r#lw^;N#&b>JWF>#aZ%-g1{8kNkT?E))RmRRxPwk!OHrbW
z0m|HNm6}3USd`*{%=^%kD5n)NI0eMu$l_7>`d~tCCUuV9FKW$)-KR?S^r99&e4{gO
z@W<67j{h?^+uH(TJkI}&{)Tl7EF&={yV`bbFFh_llRktcGBPjA$_&@<Bk6}}>~tV8
zIe8=nEh0#mWsrc-)81~njLC?CCq6vLNc5dYeI+XgI#6lBY6iay*gInb14;8CW*ExK
zh82`UJRL(WxI7NWaquDMHDDG>ul2kxEB~4GMijT4mO4v%h}(T*QPnvdEI=Jc63JXC
zF3nT%f7Sa1eT@+NBdeDq_@MGB=8XA`Bp_J*jRY36x51wCaqxnmT2P!WU?w$6DFxOO
zSCLYk+d+FL4QiZbU_JmiD%!aJ+S}W<eewH)FKO8ICsv9utt?6H+oJ~omil}(OlYr(
zIWUw|_KbQYupv1Q-Lf7ccq*rLWq@l*aq-vVjwON6dZD2&=3U{!JZ|{-`U-a!b}gr+
z2!QY3TSTQ(IIev2=J4_3Yiw)|@7-JW;>Elv<J)w`x=8l;?C^&b6od$w@+B*5Y;cP`
znYZ%SF1>L|S8O@UC9;42fLGd^9sd8wn(TGW1#r-3aB^PnTu~T3mbM2Fx_`Z(CiddC
z{rQ%>yNnLR@e4rSh!4+NiL`yvOOfD|x_w)dbgSJkfxTMMEC7*o(C7VTM@QO&6WE1?
z(HIXLXx)Xz8b4S5A#9I^lBYmZ(Y~yvcJ9#<iqe!BjCz>G2#I*gpuwVhg$h=%=Je3K
zVf6p88Nz1$#tj3O^1!gvOXCnyP`LK^akB9a{BFP*5dS8T#sjq6EMiQ}3}>H^qYtW>
zAuRxH_6ZAP*ZaD<y26zj1WMK-XK(9iVQBj^R?m-UO%7m_;g(UXwXFU+_f3pKMxdOh
zhSZOTIwI3c2}dkAuGvS&#B|B7AmYtWWP<HS3Z=btgzA8T^pIzwW+d<rBao2sqN4Yd
zMq>*Kk4-zFT}LZiBCsB4&S~;TLXWwT#*lRP?BbzgY8o02x9-fWpYTJ{nqUC<35rnk
zvd)FNVMbrRePg%6!xLmVRTVr*S?uB!-IIu7!xmn`>iNu*CZ49G=RiU))f1pmf_|7F
zIVt2mizSm{!w*(ev;-$}>Hw9v;=TF_;PO2|c0yi`b|B-uwtp?qI(AX&R|tq{L2<Av
zq~IV(Mn}DR{``-bW5kD4|ID&HPI4S`7*G-vwF-KY32x)ZxBvB5q5+stxNBXEQ^%zf
zc{-Qg5Lq)Bcy~--b~sFm28e@7R3$15J3Rmx#WQ@zjvdrZjN42PJ-05ZD$%*U@oCsa
z1W-m&&nhY&L-?X)p!J`oDwzd)YTWILFP2j?lIb+<M#e8u!eGVB%#2H-b|#AFtf_To
z(Bo)~2|ApM*q$x#(h;IlHDT*S51;y~l&1o;cln90ss<snz?}o+BnW1hj@)D8mq9aD
zyo50XC-l*BOA&P4#zPsb3@|teCWIEm1E-FN*#RACMWH>Fv<<<on0f&Tau7+|#`Wxd
z-nAcA=&fZdnvW1F4Qxk(ZEydP#Y%tM)z8m&5mX?|h4@3#d?Tg5hcvdqh;s(2s-C6e
znOX*xPLUT6i{a1W<zXaR%1PC_h|<hXKff!Gw*|p9NpFI_ao~^`G}MMWsc*Y>mN5va
zi-d4HFRuLwJAx|$MMOFGAPKV?L)+}yjIRR)F>u!_>dVMotsKY*ICI95kY;_~JXtWe
zH4c(FhJiH>KR3E^G7S#scgu--TeE6NmDtA6(YFbb7XM5d#`L2d@^165xNODnW}hWv
z^2qYsUkBR2cFeEuepZ?=#}=t%>oWF%+WW5en>TI3(V>cX8su8PV0?a?y|=D5)x|Mf
z59YMzg5OIaYf4K?8GZxJQdG1c)_K9?cZiJexq?gLCFC!++C<5c!+{)#_f#5Cg2*J*
z?a;?^G2tU;Nc#2bFZHDe&QTlqO0u{5z5ei@RbYGtLYW56REycK%FB}wTZxF7UF0bZ
zRl?T|Mj%As>KuGAA>kt)PSZon!KieK!3Awi?MI@>&Y(Ph3*cMl<cf&)S&e>JwZGY-
zK=$IOT+Kh1X-fRdsA>p)3wJJ;>3|3TG5;fY5G7j+#{=WoE{TbW6ztyCeT5uE-`=ZI
zSe%d-^RCNxcaV6zvMTwltmDfg2?amM<Ft8w*xtaI>`$IR6-#bChfi>|COL!nmvqMy
z^P&sw(fTzvmNo-NCcnyTV@y@{*n*@DuaGrx;tidI4_V`bh4zA8rQET1Y+nzbb*zts
z5~o!_Ag^2iEaDGq00$|K`mgP*g21;)<Uz<SVa;VH_u=n<{~h0{;mcG(GGkwVkm!f0
zzxl7bjD?FU>YwUK;jp(*ZB-~D7--}F3{adyPcz<fXR0Pvaz_Y-uE4VF(Mle6jMW-S
zs|K|Jlvw+MY#*H!bcS>7TLpVn$tz_oEq91i?kkg#4hD6^+Jb&z64(VY@@WSG4NkNA
z2n63)F8QNaDwOTrU-*s%(x*^oiLeexXs3K3EAT%zQ@aShG3oMUIp3Q;<F@jM$>M1A
zFpUajlmjH~7S7)CCC~ws9Ul?rKo}>!X6593f4*yE&tdaX0=bq40@ASZegmym{cF3b
zT7d)27HxgSl#u+t*!puOe_2k|?t9Y!?M$wa?6nEdLPh#=tpV#7h1ufp+5NX}Ya=mS
zqiWxws#e9RWcH7QRkA{~4hSap?aUNxzR4|PA>s6X6=s=a<wgtdmXx?5w?o!5px3K5
z2k&53GM?DRn$qo7XjjL1fd8EGDrLzWtU;{rotVO}%j!_IA^MGM*~beiEhJH=*rN!9
zNB!}K&gD1LIlja<!r@T}i40$<*>^DXQ(608mz99v6SQ=--<$|TWy)-P2<n4$@^2!J
zaC-;Pi5gh--|Q*wtNHom-nD0meIlHo!ya$l&gyRh6n2dWjsp%H_|r3jc{)IHk?ukW
ztq>Flu?9_DM+Mq}Xa?9p*NsrO`8#qu0X>|0ofQx(G0$KUu53b2Xy_#_^>>w}|8=Qj
zt<pReyEn#n=@4Zc#R?wH1@gvT!yj|CtaJPq57n<mNr_&j)TPF^b{%Mmc>U_vPm-)`
z4jQoz7=)+b3FITCC=Q*`jn7g(PQ)TE>sLJ4L_;_=$?B@Ay%S|T?8Mv+Xc_@NMPGpE
znMiFYIe>;*V$xkiqwpvH?h``?qz!D_E!QQid<3<Ti-*dt2|E-6(}u1hY5DCtclxVZ
zc~Cvpp-Y&#O25fZPO-S#MdF3`g2<xys7@{NM4lMXU0hn^kEFLaNOj3|(Q1vDWgp!a
z$h~OFMzxrqE`EYcvP73mZG6t-HpUmLkN>+Z`oLU#`TSY;F^jsSq{J)wkv<RB@T!|D
z^AUZr5ov2}sVbxB+#-x*2{*GLOrK=8IlG*I-y3p@h36&BZ#$(<Mtwz9x+#JEGdn<a
zO0m!g_Zl{TAmZY}N8Gos*E-1SJ`Q%RFQOd$>P|a}w(Rwk{@P(f;<irwng1Tl<LJWI
zV3_P0P;R)f%22Iz=mq5ALp)Krl2F)ist?s_C&@-%w8;5GJiJjy1!zNTI;);+%w^%E
z9dJS5$`f=#WTF!?A5f3XS&`ywp~aGox*>+*pHbN#;5?U@NO)5IXDt3bHw;a<LL0Pn
zzw11D^hg+gBevj(H*D<VdlRuGe3yyTv-0w-82feW*0MxO00EptEkb)D8gW{@_pYkU
z!ND%9XB{cH5f1%NvQuF1cW<32S)kdNa{LGKXHx>uF{``3QiEzUQZD?&viU%(A&}nC
z{#()QDojNd$*!?ku|kmsglW`7qYK{=9GE~(63h@wA%GqT8zQRPil1Wv;LV-+YU)l|
z|K45WNkYtCne^sVMYWJUFzf?`_xwXxO~sqLVojuw!K2ao_I?!a_PM#Yub894xWbMK
z?5B9wZw_HbL-_QbkUMouCn5st>}0cwLJs0ep_jdo4%A5r+E8-0gD6q*iVEVenHg1r
zD8-f5S0Qd+k28rogIE_XT&R%IYq5($<7sJ+FQ4CE$UWsA0L4Yo<AvF0nvL|sgbY%S
zz~(uQDM4tKhwv07IluG8s>K&uRSLY~b;9Qhm=`&`qJk%ll$<(D1`)b)9asK=xI|mV
zn&Mg^L+I1X<GoO*l4rnB`|Hd0?++30EN-76M{D{0$OD<nH{ibM`t>5R2cdvh{gaIo
z;H{qf_{+_fkK<eIr|Fl1_`>2vmp2V5TqsdL!WJZ_80m>^=XVZv`UT2LF{3ze{P=Ls
z0IW!^Uhgn4lu%o)H4?px{Mfa}L>G(d$e-`M;OALjk_puM%-WGs`1QAbpR-3^6*BuU
z2BV1?Oi04<W2ViV2s_g8kF@;qI;R-Zp`I(zA@RM*hF<Z#Pl_>>3;-py*4YVssDmvP
zTKItW9N;<nMXx`c`3XE##CQjKU|N<tK@7FDWFRFlV&p6Z^cD4Z{n3>)|1z8zxrE+h
zB+Tu_mzjutEMCyMk12p#twERn3y<Y>`09UAWrR8{sKNX8DR}l~QZNu+^a8bXNZ?#G
zSYayDl-Ta#%`cK5FuAdl0tgI~#}V|mNbBrm-~!!N3ZB=j9^vjMZr5IUKEpbq%YS`_
z90nRRkNqj)!!g=kTAFKEVWlYB6{b?$Yi;$IuVL%!qL4wFe8y1uW!H9+?kJnN$-0ld
z<mZtTs*4+A*yr_!PL*o}D+nZ4S;GCM8ZWCOFcR$@EMAXheLcNTOlYkt`<oGA>{i4~
z-0}G*A>|+^ETn#ymPYtDQgrAvV=MEVEKFx7P*Ydll#fvoAG09xzwUoj$l3KnH?M1x
z<^oG2G6$WVBw<u^dFp2k@nSnXri4eamHxI+Jh+Fif%O$Vdy=i3fmV0*N88){jGo4A
zsLLQD>aKHf&EtCDvAE!qw36Jz^i3fH*^(P0qiHni8O~hw?Cha<dR)8q3`z>|2@%Jm
znVGDY!^3S@WH=b`Y?89aP^l6h^!k5(5E<OzF{cU@+oU}qL&|*m)KcnGoO>g>DznOQ
z9yh#weP_*{-BZVN`}XRgE)wh83_AUKayDi-qN7hd$PVH`#v1?EgKP_)QCNepZy{Y}
zhQs{z`Fxtd&`?0BvU2A4JKaf=vzYGpFyHGRd$yHW*@E*_-4%oXJ<w#=F<nVvDw!}j
z&#Sv_B{znCe;QJ|ul)&ix^$-&?{%t@SZ(j5b)u8jd739Q#OAxYKlicik3f?41YPIo
z;lpQ%c0AcmUR>&lExD5#j$OR=;nd$*j+EXNJSkXle6+lK4F&}pH})_<?a)&M_8PP5
zf5UA+^7UO7!(2M29UE<%pK<Nl6vN0iDwcFLLjOyj#1CKeA`agAKbsRJC(a9OV{&la
zzu4w=C59{q#~`#5?R{I?`s)h~uV<pmm-8gr*+!rD_(isrjOvAsc8yGvJVoN{Yn-em
zbFcsR#Q;bb7BhbOFwJh7fwgM5=rL4uh-1&Re@=yk>GkDH1SDPG6M4Pc2zYt%d`zZw
z{1?GkRf>#a4T;Qc(J{&tKa*mb40t!IxdAGY2$fD+r}?jBnDqbmH#;5PduDFv_7puU
zQ;yHDEmI*75g6@4AT?+Wib~$`tg?Y@&Q$KJd}E%)@*HC8x3|b@Uf<rAa9_W=!!JSb
zbqk8EqIhcBg|;P&uG<dpp?iC%n%bwltADq2Dw@d}{*Ukb&p&N#w`CVda*i2&`50XZ
zK&@74Gfe;4)p24SSv<QXGq1hGqy5s7-%dm+Kl}GQ_E15<6<Vf+fwkDhl3|uhm!7QM
zxE1)lr|&2x9A1|%^$(1(IQX)gsQu0~Y`v6d(6E>LTvEefj>qhF{yg1VLW%f4L!+OW
z>3{ypWB*SU=0ATWIVkgUH~;7FPMrG5dj03GB#J*pUjP1;@{pg|yd=l6Rpu^~l_#da
zO(df=q76xSF$ra5dJ$>f7v`Dm*uH(t%6n-g&NAHte`*0rN(u|((VQdvGG`;fvSv@x
zq>pX}v=9vs2zJ3-@%RkZ*Sk@Fpq%rqDggP9&}hJv;H?cF<VP@hd_x`z_d8U%5Mn?J
z0X)5`VBduc9|I`(5z&FA7-&w>qkPk4qytdu%znK?@%ql47)r|Y9TyXwW+~0nYm4eu
z3`C$10k3xnIpl^7cKN3=hsLFxr*#5)pnDU>-cLkU#IGbLCF!~QkXt|*-?36XSS7@6
z%8O}b7%<xIAX?<q)KrFWlk#bOeH)5%#*SMU2-9kFj*=~+Lb7Ec2okM@xR@;JgQ-q4
z%{}z}oPe5ZWheLoh{OW9wNzY4a+==sLEx)J^%r@Vle04wL_`-(Tel*i<&16MY*XAl
z_ht17A}pLXgW={^msh4|HCC7L&oFefomnkgHV;)iwiGZ<0I(fms7q>f)==O%x0M<N
zL)D&wD-i<C-CqNp%2xUcC-I3%tqu;CkdlH5c?aQdfx(jcFK%)?H+Itp!vCqO-EsFI
zd6Vke6`%cQ9ADY%uH(p!bb1^eS(KhQg&#gdbaoCQ{i~pq@2xs66v%5J3G(C5aFX3V
z-d>$w*5OlpQd4Z97%0KflXVf77pK#p<vHX0Gnap*LiOzJ+s}y=VN`zwTG?<P(xfKw
zlW-~D@{-=xUHu)<^lorpXchE1rS0<H`}7&oSg>pN?t^q48&_(T<E&+wSkW<V;W%qH
z-!unbMz7?V(Z`U>(SW{i*B#ZR8B(En^9>Ex!EvHq={fN<OAtnMPP3ovmv*>V7qF5Z
znUS?V6CMzWHK)SE-C;vmr8fo)#Uh~@zC1|!HJShl(q_ssdnRs+kFNuCtyb+Fv~E9D
z5r?<;o^@0Miixqo>Q|R3XS|V>r0ow(&%MS9n6&o#i??s*FJE_VqZkk+)5kQiBF}bB
z$l#p4(Bog;M*q^G0}Ze)WNrE@)L@$<=e?m!l>dxkp~Jd$TQ=>6y`CNJoRxr6ixrTX
zJaLb6fu}U*IN5aOi_=A1_d;qdL8=QN%|&Ampyt3b&1cmo;9D2Pjok9Kx-6ZqI`5_N
zieyc0Mit*_@`Np*&!VE{J*nUPc0IT2JK60}iHx+f@1sBD=ISkNlRWpn<xa1R5?@P$
zrE3?~K3KWb+uP@6iSNx4hYzU(mCik!|IeeLZB<;Clxn@+`ueHO-?Fj+?cGYXs>kPy
zcYa-LdBOQZ&S;zG5Uc@}#-fXbJB19)&h8x+Y5DzYNcI@>n4Pn+8UBD9x60l=cy5}`
zPAKG=6V*e>%=62r0tapqeK?_kKyO?1Eo4qBvJPghOu?U?w>cGTeKY6##H%h}HlWun
zIR1f+{W{pVKJ(=p*`Lr~a@K;RMl=sy^xW3k$Q5Ui)LmY_8Qcof_<*Dp-N0`hJ7(q>
z!?_BjgO-~Ma#bYDj-{@SxXHi{z;_YoqCuM(h=_#s3K#O;706chA(eBMO;1#yAOJn-
z$JAw7UFIk-7;z~bOf<eBsirTOVGd%@UyttHMYk{A`nEYlg6V$!0^{cr11K$0Tf?<T
znAuTh#jSbJps7)X5DZlf4PzG^F&jg+&L`m*Y!PNeiY10bu)p_P&u3I2yq%XcIe0@|
z9m?ZuWe=iT44-4AY8+{_0;md;hOo_m37Gr~+7IgVaPs^{Df8oYTR%#$r@UVZ<LxO;
zG-3V0C@sJOQc$_1NjhGgIx2_;)QSpcstFA)NrcS3dV(*f-p*5GEbbkOI)n=`j*$DH
zvy*sw$+qA%TXMqjSW;X_PpSxx*c3xy!4(aZ%|>cPQRdU6ngnhQJyc?=QP6?T_^os2
zU4DKKD(dh+D@FNoa0!zvoZ**fRGaCzoz=mqkxTF%Nwezt6?B%&(%1L#_7>LbwC+F&
zfhQ5)(nh>EAZgCD={q_EPjWt8Xh%<K2_-Ir*aJuU@9037Vkp9r@(#L7mp&(Obm-E1
z;O66#T_-3j>q@EF-H!m=i<VrcvDCsE$l+$TkB2*<!lSxC@!@;|3xgUc0lj_xyjrwM
z0uV`3$Be0O?b!5>eFZyj#z~1CWKd>6sZf#Lr%(*l)=}g$BADWR!*ie)&6=-A9H%<L
zIWdpp2d;e7sAsG>(H94*w%J%#q_o55?;kmc;|=ruUrf318S<`!QoljG!=tJ8*?Z(j
zF=EDYzx;gFQL9Sp-{$=#hl-B%S#q(R$P(noJw3N<hhE&L=gN?yW97H<HN2$de3drN
zk=fcI*v#XPVN1HkXb$XrwY<dr!@?rS%~wm%oYvOV;P|gGfE1?r*$#RAc4*uX7R)=P
zyN`=Inu9~3jqPsw0{Zsya{BYd;Q3f&a+asMH5M;7pfQcE@-Q`mD;$o-s6Cl->HA^r
zg$0N<hL!Yf=ld0r%4rV7Hsyl{<t5!WFK|N4cO8K=YG1FJtB{8y@5}UH6(z8&^F6qk
z8XRCxx9-(*S=2^SJu3Ul00XRgj3f8U7(^O{<=Bi9L|5C3eV!T&9A&#kY1B)Y4ZUUh
zhev#P`SPH{r(!t%>>8nend;r0r0{rV0KIBZJG#qging<Mv>#OJxRi6K{5L5~<$fh!
z8~n75kv%MWe(V&)^AK_G%gP4&QVn*vJSyc=l@&@Wgg%tML_1&C>?`Tp)G^BYGDH8e
zmiEj3P%_wAEn9Y={;37io;8KRQlAeqFPC8-Nbj7+nvX;pemP7Jo#@fLLBC#DRjMy?
zAAd*2O^<on=4SKv{Kki|1?4Z@okbQtec$coyU2}MW`jN7-j6H*DdCIH3yEXOr4j!L
zg=rJNLW5Ao8WfLZ>c@(TRqEOpLeRK^#(+`pYFdRvQ10}Q_^aP4lQ$i9KZ^A$De<s)
zGFik2_D}lC$QYl}{XKG$eTn9%Z$5s0*f}1TUJ9Z7I<&1MZNvPgv6fr5e5Q+p_MP2h
z>G~0)p6wXP)LdII2d3pKouvi?zJZnWx*}#LCJfvC4q}38!Yt<(#Z<M1!!g*=V&+<N
zXKbH4Rie?gx7r^c9H`UssL;N4QlQ!#P`P0#+v9*7GP65(hJWzT_g8U+QS9@f*h-a@
za|r&GQqP#*#Ok{^_98k@oK~*fZz9&yM0g-iG*u`4AHv=|tjD!`<Gy1fGK9>Mj1`GO
zX31DGB~g)3k)cQ^qV`s1c4$zBvK5j<Buz4=0c|C75haxdB{aXEEBtoPd%VZ-_Q&(=
zV{hu)eP7pF=Q`K9&gHHjbY$Vc?bPa(HS3X-(G+HCC>TQI(3F90@}T2(*u8i!AMs37
znN#=c7Xdn1!Nr>1mzJ1dEM$@>@VfJrXJcitxN`jR&r?=@tchN6c8>p$r5)@NNHIY(
z?-(Gm{xPw>^6#goG_5!r`mcuBjT^Vh$|{0wIA{;)d-%5dP}{EES@1%rgNtj|l|Slh
zOI*e}eDe5~`I!d1!-Lj`_ikBDuO37;Cnk=QFI-7p0p&#UsdUl|Uw&Vp+5Y|dai0Qf
zr}uZG-FB%aB?Z~^jey0^=(JOR=oKO6I5m1>Le1=Y&^;sqfBGVBuV|-fee$(BV$7K!
zPj&eW;c_9q1|K#L^M?q03K)UVT@`(o84HF>>JnbUEcP40h!%>#LWc)vvXho@hz=L*
zvm^|qjd9W41AX32<NnI!WM^d9oz#q0(RJ+6w5fDUR~!^#B9wlbt=+!?f4;dM8966X
z^A;)qoj;oxiq?%u*9F+ByxLfF#MM=DT9O3^Bn-JSm!++qlW)IeiyhmTpJowoUdg~V
zdvqsdcAIs?cEO*P91Q!ZQ&HgN=(p{Na?`x$kbeE{J)9+?ru}|&Zh9%st*$;lCFYLZ
zT}Qj@jd0$gxPq*c(Ek_{MOsm#X7yQ_NQ`p+(7&+T;rX);Z@6xQ0an;~zrze5z~hWN
zV_rF+6P91I%`W;T-Q7vHvww1~TZxO~(9i=rT#draGk+A^aCkfGr)*HKNV{&vu=0@8
z)J<jUw0TojJ5D)Z*BM722A>kzB;Dc?A$IpWygVhpoX&`vms;jBAg9l>eIvWJrl|V(
zy+^lhFDaO=ZDUQzUgw={<)&At|9nZ(Ob5;e#&-He5bi0Rv}~}OKjvQmEfBjt`>&_A
ze8cGd>t;aP<$lAQ!eFaNa*7i=ck@3stZQp5+&r4Ebm+>gd5UHBTZdVG!}YdoBf#Z+
z6P3i~Zl=m^+>|wzSp0dq&$AicT`NwAJeXqYU*ucevg3fRt#?u5`1zg&BpCM1EdNs0
zt(G=8S8hUPw+qIhs{zYozw0SK%p*zK+8uW-{-bC6_RG#{GH=s664s#v!S2%uu(+J?
zbj9nS9IylOa$y28y6efyn3dj4czA5Xx8w76EvDHSRr~m5*oH5k(Aohjqwj*_?1pyT
z)w<ge+b|mBd-pOm_h^*{rG@?2bqU8S@9wmJfAa9fG2>SCIiuA3&Zm=_<+jNsp1zU!
zSfDlEc^aPD`p(e$klU?y-Y&%=_E68!X)p>Q8JmeEnaj{_a)=FST)up`=@{5An5Cmn
zvluw1_^*`GmMpl<Xd^~?pskCGhRvTdd9=|l&PcjEg+XNd*TlewiNrTOZL7!p%;`Cs
zUsb1f8)S5TuCJz5;5T|xLC*^hZkzbyUDK$qmSCLxON#cixX6M`dVDR&NO^cjup6E0
zW-a91I7IgF-<i7Vfc%~N_ouFo-CCh0cc$#yw~^^<oVUFPY~Q?FLoH|6S5s4S-Tj@5
zt9vLZmE`4VH&{FDF?f9Oc_Fro$`OQV#=AOd?L6pzcEb^5${yR=5V37nIuyMme7VaL
z`Mj@&pO}XO4-wcQM)PQGa&VaA-=8DV@!79qpUxU`52lQ^_7^|b5*$s<%w`r*<@tWK
zt}C?&()W58=Iys&cZ*raDrNe_&$rHcbg}AipZaQp>h6B0pBK{8{X$UYRU-%Z*I<?i
zQ8}^#{b=Prz4Iv&Ilu0!iUSAv&Nnv{S^m$Vr!<IC4}0rzxI=&aWBDV@D<<8vv!4c`
zJ75HQ4KyyR(+0g=IaF2E26SPgG~{GxB|DM<6c0<FX5=iB-a3Fq@@;)mpB+aW=~0q&
zoEdWWdA@UW4?JHTP1_`T1+B@vN5`K7)M-GoxP-1m$bkbrv}boe`@9f^v_Y@eu%}TL
zynL~~g9Aq^OUT5~qdc6L4vfCZ9+TBBxZMEktedB_JR<)d<%RV$dJ{RFfr@3#W`H=@
z7p&E7J@^QBPcQuubSrxvdSqaF-1qas+1u}Lvy3M^iJ+e{hE~!9xDxUaaYV>D^35;!
z9A->}QW7isP8#NKFjA^;NotRJMAOA_ZjhnZkR`7kx(+7m4Av?!vfdFGc=oJcJ7GG@
zU;Fy~J5Bhte>Q2xoYsM*cY)r?GROU=<AjW$_XdIz<$Jv4M`5AWwqd6n)9rSHY<tw3
zJvw;)ml#2^*vn(ey<Qo#?tcA}w7%*e7AR38UDQnZ5l{-OpLMnj8C1z0oVfZN?bwxQ
zjX3Jgd54yg>zn&W;`24HX1y32re}<1=zx9G@{N9TbX#>EtP;62)^S-H5R2?Zi!X{c
znvkvVsge3yKaM%Kr25&bS6itb`58WTTlkZ8s0--E5)I;K9PR^<N<CljeAJ}q4Ig$@
z{-GCYoU${00KHBr%JamtgnRcG?@b6?7+v~s)a1v*d=1vTRj<y(yu<gN9WbCQk)O+K
zbNA;~G`T{tr2(?{*Y`Y6`2fJ7jC=UGkOza}Pf#Xc_BL&hI_&lRVw0X3Nu-HYTW@OO
z==krV>vb~@i&<TK(SRu(2N=8niF2_~tDpQ9am4akCZ1Db2_gGG`qz%ON$Xd>;8j9c
z7O(hW{8suW9xaZ$R4^^1*)g>LnW|r{GuQq{x~%BvJ8H(d*w52VOPoutQ)3=qi{z)^
zZG8OGn*e~>=d_9;a!#9vegE>M5(M^k-QVzB`|YA5Q9Kkoi^XJbW*_$uLUM8h^BcN*
z_>dH?eOUg6D9^%@PVvX4c+{R`V<Yp|c@KTlp$tC+vTtKGXq-xsjJbdB-eFD_oqs-B
zBU-R>oz(h8@Nw+kRIno~xR<v7(&fOaB7}D2g^Morb+o8_BALJB-w4)>#F5r%s|_Fa
zHY3GMI>|0uu|k-RLUkdNV{YTaf#(mG#fj%yXWcexcs2IvRsc$@1eCops4}OWOCP_Z
z2D|8&KSr#jmH06ayLR7({d~uqTfXH~2;BWq`Q_IF5ldcQ^WIs2wO_-RccNoltMZUl
zv4_8eZ!`^k=3xUhFng?-fDm_U)B31%h%?v7JU!Om-%Ccy+3cKdbsDv9)VlD_&p9Kg
zMFvD*;Ojt@z`QQ?C{LwMaWkR)Gy(<0V4u+su#8ER@k5r2wFvy_eqNQy2RimsQu2Q|
zaE568@0JCg3>Fj0)bxShP+$^5axPJlqUfvI*>1ur=1p~<n0O#q7|fE~?7O>B&4@l0
z97XOW;cJWcwrNCijxs=&cjZ%DA7B`K&9n#;I-G$@K7KrF7_1q!bpQBq$8fytwh=ls
zcsygyCufUa0|@D>F=Av12LM!px{{JqWB%C#*BBpmVG-VpY3+vXsJMx9KZjC~ba|sT
zHoIW=vl5jS^%31}`itv!T-F=0cW<Am`x1+`m|wU(>M~u;;5c46a8<7e{t*x4#LUb%
z-h4?E@-_v}iSha5U#}-ESCpTtJXp9UUDJGnvAOZAGWgY`BD#ukW>40cA~k|&c)`5^
zLNExCd$kO*`k1EGzAuRvXL;}<?SpB+C*Kc9cz#N6X7;y|w{L6W+S>PZadFYgJwksm
z`O}{W>}fFwMb@4@G<o;a<hYh;F|>6z&3<ZX$&RHIx{#eJ5%~3rCa1EIcvxCw6LHQW
z_A96^-{JHsG7XLq^z5m&U^RqMn$<QQILG_Zs^C{|eiY;$i2auT>tyw|L(jPDO&$Em
zqjrZ592lN%7PEO>lw$k#Uv_M0x$N3Ue<nRjW~!V#osT!sm+@z@1w8oUY|6NDy*-O#
z2G`ly_H`Szslf9o7)fX~y;~SlQu7bkW|(A!V-x*B#!GF%5ueLw_suCTydUtBEh^QF
z&Wp`{!I%?I3$7}KQlzfCa`kFq`nkXVd19ghE`<US#sr+LG;dxwzetMXfiJpupv1RF
zD#m4GPqI0gdBCzV`*u(A($uKH7l`qwQD>fI6367GbCko$QxHa^y1*g<z<vH2dAP^Y
zxD%89gQajqgCd2x(mDsihu3Fm?fOM|NBR7g%4|2--)RsB5);VdPmTd>lUtlzcyUpC
zB_-jnjfvoSqYJ!FKYt})=>zR0AJMqIGzi=9UfE}WtTJyTr~jr|&+d&_c2ng#B|X}R
zhw96DZDN#6$n4g=v0Aq-lUNn39(Uh*b3Zq+n}fM5+#RDGf-4X6n4<PO7nuOyJPT%Y
zIfW>+n?|MYTO=K`kSiovno`DqLyp#*)4Oi7SZ>XL4_=+$JUXvkzPkm}Fw~%{taZGV
zdOei!b#8P2_>K|B*bp?VZX>dxvi;b*@tM57DU;tRs|>4=rf^0+ZfUQe(64s0<BCTP
zwvFKXQ$#Ef-ZP8%wPT$tHP0NTPc(dDhN!)L<e3f;on-6gN~6}lqgK}4L*n=CHsE=$
zI3Nn)H_gOX6z&&{lAKZD<+LI`r6Epy^p&acC9Ba3(U{cBDyEwjwwPAGme$HJ!DS_M
zg>_caid%5O=x}#hyaSdnS?u*D>&AvNm2srTX|fDpGb>w~&~UlhN0=@F1qR0<l_b~*
zp-a~VxgS^h8jP6gw>F&~udQ%pKGUt&I7f>C-5%FuPb#;GN<4LU=S%gYVW$({gzY*&
zl~_xPwm)471cuFCqnYsP6(={#uo{w32x+yJ;Q;(~vm+|s^K-LLHcjc&2xUOZ?rzg#
zKm@E9xG+u8n+2`-oM=D(_O`xm;p%($?^9EaKeG(V6>EZyLZJgFI_`U!8k_kPL;mbb
zf?MYkB8)4G$3!(0_`2gcp%W5xQ;`@_3DWQOeFwr$!w(P+-PFy2&h-f)2i)W-&$ZHp
zSKx@%&o0`eF{GZ;!HqaQVcWOCXY{U_hB}nI<FVxCb$Z8u;3+0Y`Y-iTXy5(`q$+xJ
z?D;=z>yl$8sFscAnvKp-unC_vI<wQX=Yc_1b=@x;^y)RdYwP?=FIM+SY1hs=^6v>%
ziCJ0Zt0}vN4;U~Ya~ZVjw$%RCGd)$V;8WzK-`{P9zCKFP6|V|%XkQqc58raft);a!
zw2eIs_E(SZd({>O{2yL$?~ccX^Sd3$F<}X3jHMPBh9L9`wbjH0Ob|KuqOegF?kHmi
zFtUcTHGUjE^6z6xZVqCjlW$8*TA0dLj$l|szGFu;P~8qrD?f{!hEDM<?Ii=K=Pv+}
zP@WHX%{*`4Fs0AM#S_>Ae^drR^WoQ6qYb+mauMHd;o2rv<F07UEBER=aJE=0%SfZ=
zD>R2%`Sda97)%F|y2%rbSK;}>TT7d5PZxvgy`?hX1oq);f-qFDKPj+z<bYAM8s6Q}
z>Pug8-+==LG2>Yr0sC&qaD6fowc*9gHeaD3_H@FInje%l>5maFHY?wBqR+<NE#fhh
zB&K&(GfJ#6GTGrcG=>2eQF|Izi(XQTwgxe?5s+N-42d5|I*D5JjSFW}U+Y5#00kLV
z^Adz=@V3Q_v8fawf%>Z$_@ZqW?_$yU(Es6#&dJZ7ZKjKnrn><t233DGmm!QbVXSOd
zR1`Uq{>Pl-Ba3J-4L6_Nw=ac%n#`Iw^LjXJNV;4s$LO(cjjKbq$!QEhEQzpBFt^ht
zI9Vi!9^MG$e!?K2$9`8*$y8Fw0YV1!ZZ%yW0B0?=Aw>?&`mtCvVL_Gu@iK*?Xuz4r
z-biXHt_V}k!RWmr0Jq5N#fB_?B7hANpT-QDlgKMqk_@_1C=?@8=07uDhEpfsU6}At
z+lr;QV<sypC_JSZd#&BY#ZhIb(}Fe~;-#B2_{5#birzGc-wvJ}Mpb|qP7g%{M@&qt
z(b@X$BpM8Z=ks`>mNn}0F?3*ydb1B#RA5)jzkQ=;6Gi@`KD4(l1L|w@_xSyw6k95z
zJEvl>DO+)y2abOyQtLE-P6h^md0a+hy@U|Kfzg$|{rtK1kRgw2vK}e*8n^zP4i|t5
z?i{p+(FLRYgQ@)+E+c;{`TM`ZK?A|r`Sg7JYN=kC|BvUrPzr-wm5;`Ee^?D+$%OCx
zV1AzhnmN9$1tqHyU$dNO;D%(unj_9f6)7152Cyxs3%^+ExIq}b0K&x4zxktf6~Dds
z8hku<=nDdo*P&*uZZM842&yr6L>NPBL325<2oa!fk`d{J7W!4Do~K;};NlJ_td@>m
zNt&v~Z%>0Tx!~NPH@i~@>9kKvnx}k^bK`ZWf0$E<T{JhuceH90-<$ygx@lS~VsZZt
zPFvC~#qxr~LL0AUEn3W+j}p{!c*5O~uctzPYXR<l2sJ<G;2&_?;@HS_ezAsrd-+x<
zY5JXM$)c$KVOCz=Xz}rD=6a-W#)WOZUp9w|M{~q(`tc#EaZd^>tWWW8guUEy>mx+G
zPt?YC752(Ye$x4J^}X0~aN|TxYlh=%-Wi;Y@J;e)(|j^(fU`z<#SXEFM*YK3gmK6S
zEwOaKuHr8m^>Excm0Ym?h#~6vd3O!|;f1y8GUUXQ6)B#o8)>*)8{vm2WSH-RhuM>W
zLeO$SXU`_@Zb2Pv^U*1;Jo`3;w6Bw*W_i<oM@v4USv~N58+&ySavx|ucJ$~+XtC?E
z2Mk(p!Sm~S22l?5GK2Q9c?kXX=w3N2d-n%d$vH#<zi#4~v7l>I(IC5zZ=>Y@;jma|
zMV#<SN(~u&ek+uV_;UR`AM%W12lN%XB!)|Pl{5iss>(q__7dZe|DHLr%3ve4j6Lo9
zZv9>y2M9ply%;Wt3r@y^%Ah$6d4~<wbT}o=iP?mUpqSCDq8n1=w;5z0DwhP|UxuSG
zXOjWL?-bPn@KUSLBIKe8Yi%3}4)mg*1-z`HQ#EAi%^Et5(BX3o3>-FYBpEpKkqGrm
z5FAk29DiAXCh-O~-2#{rt%>F^K*X~hcpb1MhF^`H$^eTGyqVZxah0Wa+hHR}<L?SE
zx+h!sC}vO;Ae?|Os>(S!2kr2`U_$3B_9zSzAD|!MNRoGYyLBD4J|Hby1tfY2+(0!z
z_WcZ&6@q(S8h&ZyO13|vk^9DNwS9i+Bzg|tDOY&1w1O8iH;8PN&!K>G1iNEztY1bH
zj4;LYJ@3Gf6<W*e9ZPwj%~~m_5c^j8Z+}K&peB-27B)J!VS264CYJ$fLOJV@l;XGI
zwF{p=pq26zepgs+KYkSd5uN}ClMxTz;}x`tnn}zjaxR3{h37`SjY9I`+|#<m1gr+E
z&(@79nb)m#^Pm+!Plfa_pFtLop}Ra*mzRt~{nD}}on5FQ6t1x1jn~ss8DG0M^pb<_
z%DA@v;?zt^O#RVo%JmD2uDmCy4RZUGelC^iDbKboqRa+N47+GQwBN7q{p<f+2Om9l
z%#oF>!As~OTkV`w_aA`&^+yuDn7YKf?5QoxbNKDv_5X({B-e|}hIS3yg?sAA4!xIV
z*N>8-+A1xUT%GrXO^iL>Zek7W6SeeX;eqsV#zC&SOIgyu(H**!H7i$I{F@`am4<`m
z%!4mpEVAk=BbAd#)JG7)JrDkoxbVb@6M@aqugNhUJ}7t+3a`Z7iLbv*5PfsT<!qk=
zt%b9_+vV_Zwho&<PH>M^J?b>}cMIdPgFt?LanpJ^L%J3F>C>uUWta6bi86t$Bzw8a
z75j{2B#(B7BR_2a%+4^xEu>|x!E9RPcrn!cxPtqUtSr5c^TVwvnrW9U9639ujqk(P
z>+Jgpe{;UxWimaY-zMr}8)@*-ufyP0?*Fw}XLg?jl80HM()_X(T_mZph11xqbWkod
zh@b637)f|V2)1K)m6gMiEwg6-E}I4~5ri;DN}JzbdWdsv+5;m>{LqUxDtdZsq+S{{
zVn!!v(WuH5`gQC()Tx`4b!bb+?%k`HCkN5{bMAJabA(dji#9koYF}sdD%7mk*1jy;
zuW=LOhWTR*a}@a<f`3tXu0bKxsZVdv#0ozwxpw1fd38>}a>#g0=iV-=#M9lor(0U~
z6E9*5xJelwn(6dcJr5z0J28z9@F6=}tV0683{sRWJ8bZ=Xt8s<pO0teLVQ?-r1u_n
zG~_W!v!9|*7hPwBHp$bP<V*%)vGE{gi-xAAVg4ei_jW3SZR|Q78Xe1ihMHZ7#&c7g
z8$F?u%tU}s+~wg-ZfwjuByL3&^}fakL1uG?%9JbXV@RwjJz7eZZoFZsY_sI8QU2et
zNNh$N?mvPc8nm__RxTXUR>GDVBaO2TgLQ89ed}gaHL*Q}4BHaAW7<A%WCuJvbhFyt
zDzlnkx3F95U7!CJemi_QYCuGs7rxbZ-oABVnn!<kQ|T-+@=pv#xzXjjPn_~<+ahrb
zAp{Nq8Q6RjQWQ~0+0+!<OEpS>W&qaT`}Wb;a;f?njJIA|dl@M}eD2Q0p=Fz&{d!S4
zL*~L{z`)8W^9#FhZ@Kx>d|GW@-D%2*=Q&599Zgdqo1lZtvvCb3$|4j)Z*a|Ka=yCM
z`)waIyV+T4cISRq2T`tMYRCckK0tqHXz?r5Pj_|}dxzcSiF$Y}7>?=L+n>?8u&0YI
zTl~p6(J?KXJ|D~_4yt5zII`(wOFOT~5IQm=9|%WuzAXQw*X+aIJ8Xr}!{C}qkk_C7
zhg81;WCv{PqAN7L=6`h2X{*(>HCYL<K(v04VBf(+UWa6*x(7TOF^9X|0F<~Oe?4l+
z4ybAOS6u&3<KKIW3Yk(&t;v%(#okv!o>Vs-0Smb+=o@obUTvBurjkEF$!_w^cP>N!
z*6>@3U66qbt_1$A$}!Or54><)`F{`m(gvb4Poc14EBYK}Yw&9c>f1#60!Tm5b(pSf
zdsy;yuSfD8$|7i}Lh&N6Un+}RMKJhGh4;IM9%%@bA&n+_x1<K#pp3>atDrEA^VB46
za@OPD;>^Sm7mR|5_+7*v0?*jAev-;3(ow^}3DvXc&E>Cmt$B<vySgOa=T+Zn2Uxhd
zU}P_e|HI7I+xs4~22Fx!;L3_KpO;y-`8P@DaXfMQO?Zh-RbOrRv>tEUC`}m0os)e6
z0t0)^;L+~ks6rK)$Znu`B0H%lwsozsrSM|Hq=T-blarVg5U=2}LQau1I5{S_NG*6V
z@lAXss-K0(6Z;3;5Qx*#Vyyj~!xX73nCpeUNqGub9Cp(b4FQj^x0}2Wb}>SH+d>6K
zQ%Es9RnIj11qcwjsI~AOG(M;jE6U5~izhZ%mNzf=<#D4o@59yrH#X16zbD-a2?s|$
z@f?y&fn|cnuX#3D-%cjw32(U}VY2SDl5(nF|Ng3q?OkhBIGEfXItHC}S>ouC1}SXd
z!BPIB<Y?s8-#T4;e{?d>`F_gElVk-U3U-;7zemc^;N}vl5i51n{o{{6*21{(uWOX(
zMhj;&v2TFAQ)>Zq9QxjGy8&!SSnl#Pir~jJ<_5Tmdv38I@wJRf@%Bddyja+^ilkY@
zr)K}5@k>W3N1Gb@u)ZDg5U8@#4x=Ok5|8bxYe~q*W!rb?5N@BV&x7@dXJp)9jC;wa
zPd9AR2k`4lGrI8Htm0Pw7e(!ZD4f5sMn?7vR?(2yb%>k9hm2<&<4r?ZNnyxmhk9Jd
zqt9pe?BTEs4r3~R*z;fuojP{E2z6)##DrOhvAWd<8I+HNfw{@mc}2gId+$gliEIIk
z?($-rCAMDNdhWGOmNv)@7$m1m;|YE>`@;wE?lqs1eo+F8<*!0WgX-n1I1)EeLG3_@
zwl&UN_6z>vB5d%erOOT+M0<1ZoJK#92_0HYoa)ZHsE&SARx%a8BtJmPv7-7G6VpN8
zgp(0KU9CquS8YGaGLEI2JPJU{(^pX&&+%3gQ}9kEp)s=TF1FnWMYM=Vu5bQCK0iD8
zLhQ-km3_`~uF4y9UU0E)@+j?W{tdXzlk#fYN~aelgWY@f90$>kBeEM4UrK@QPULSd
zeHLcu9-P+KZO{JwYhGV3BFKopkaZ1Y38GE7f4`-2lO|1gG|Q~+=R<aAy7Pk%CEbZV
z=>RJ#zM{;igwUgy&{$Ev2T~Oa7%Y=I1nq3%agI?C8Y3v|rpTT)3`UhQ0dEEIUrfjl
zlsbov)AVQ0h6)giV$lM69g@?@qN<&KusbPPBR?U6Ynye==BUU<8-Pj2xfhAHCZ{4p
z0#m;JB>r6&7jbRLJly2Nbv?23qMpaaSfNcT9rIFXZ<Y}Nt*48A&Q&S|qM)jxf@`Fp
z?pT5+4!Fz6)lWZR&#f}=AGh#%GKo#$Rw)=C(AAsig0m_F@_a_idQb^ODKOH%_K0Gm
z+pi%a2Y3PV+X1y=jGL#ZG{#}Z%kxssYMOGi+e+~l(YGV<hGWy9Z};b7X3N$3^|K@x
zq1x2l!@)v^%{=>_O{=9?Es9`@N37FloGWGJF{@&@$s&eGjw?B8;fufJ{x=^rP6#it
zY2+1l)P=I<ver`F;Kw|F%n&K+Av`R-3Shr#ZGK)}B>x#SuGXWI>-X=#H5Q=LsF_oB
zmBNYZegRd1cmkV5dD62d&u3YFDx+xJ@cg55Cd?bj07Y4A!n#Qxvql-}R2p3sl-ED1
zs#+;yPEX$u{(mT<G0<+%<fa~D8MG0jxxh2S{7}@hq(thkDf#Li+9*Nupu<GJsE&dB
zfXK)#^kLaC;nk+Kj&1v1y|P4kK4OjjxzYt{3qWSr;!OubNG5w?6>n`z{xkMu#IGih
zM+>TGY@%G4q2)RqxvroxH-OkGTr5G7BS%W!s>;d;k=h_Rk(HA>s?BtP1z-aPdfw2X
z(o0JUI`J&`?D43>IsB&q<|;<cy*d>>mxg*ZxOLWX)jm0lp(D4BDLZ^?meD!&I@m^X
z9e03FWR{fF=w6zLx(rH&F>Q}y$5iZu+6ikloVO-SfI+=oDlPg8<5<eb0*7c$JDuL7
z*J3RVB2unk*(8~qWgH@Y!f_no$pN_snPHy<TZ-xVi_52(6Zk7z=JFrVc_b;Uq-gdD
zL>e1M|5-HIMy>Cy#K^CuHgC-?aK?Y(x9kQf&H%2DJL2>Fw%3j5=p8@j@Xs&0^3QQr
zbB3%zljhZ`gU;iB3o9D@?VbQ_sP~h>LzI<XM~*BXcb0sPPDnTu;FDyyp-G}1OA%PS
zX~O;(7`g+I%o!}?Hxj;!7mU7uUp9)bGkug2UqhUDsu3jwFG#>A?+?4_Jx6vPLS@A2
z<gJT{vGnh^lyoLc$!e=(t=tGdcY%qG;D<A)gj&{b#d0YPUwQ1H))7nuH|a1~QV4i1
z_IL2DX%HRr^b90p4L*b&3(qsYs$fur>7)Mag0RGZ(2e-R!{nDXexwH|iaqgPaiUXK
z23yA4Ayf%v7>Z7Sn~ol+6w+c1nprqI0-ps&kz@)_D#Z{|8{Sc5wE9?@|K?#LgYARr
z=IatTlmQEDxM))c@)x9>0m$jcKp;Qe3^K#@cFPt9uUUDkw&-#Ic9B$2C$J{(*%KqS
zAQ|dOT0=BU;0P{9MzSe3fJH5QcwQQJou2x*(Ii`6hTND6<Wan)F2XA$=fy0w-^~o2
zx=tNCZbVZ=5x|+#+j2o46gNgidYQ<ZX2=EC3q}*blBjMii^fRS{rdG2+G14URW7*&
zxe;s~ds-jPKnEw9WYzfrAE?M>J3130dnFJh=n_qJB9}p^af{~7t+Si#;1^vcriUSr
z!Z**xMFlSvL>_!GtBJ79_=1rQsE-0BMT<DAt;tnb5MqrqzkJ!;Ujv~c>Ex(#++oa1
zD29n_PKD3Z^W*tjM<2K5TjVoY*bx2<Zlwt$0PgpIHTfu~7@AS(-CO6(6VE{lX9vF^
zb2|ex&eLzXUaT8x%&|qScIRbu7r@Hz>YbmaW9!8Pa<5*thO3~QG7lJkr7QiAMy+bM
zKQ!3@TL83gSet@V{qe5^as+C$svx5orJvg84<N~Qk}los)I+|+^K%eEYhMiY()Us<
zZ+ff8yvDy+6Sl&DK5h~y0d+a1uMukCLt|;bi<pX~|KON~y_=Q=GJ%O@JBB};GD_|T
zfsx#HME)#<pn$>oW#1HFLbIw=xHgX9%F1iF3?h|X0=Niwww4md{f6Y?ai;w9ys&Sd
zK7k!xix!mob>IWMXvw&9$B(~;7o+m=b>GmWa=xSE4VJ?+cry>Hj8Eg7;E5Y*EW9D8
zD)guFBi&j0An3xYn;(;Cc|CupERj_HYd~NuYUs=YBd(HI-#dHu<2yDCn9xxdB7?yv
zI^H70p+dpX3&dIu<8suT{RVXK4^Ct7Xr1l8Hd3NLy83-xG*~WFKG-*u2*GU@LKyFd
z&83pPzabI7*eyeHPBvxI!&jqu@I(UWH1CM?CLRb?Pq5W6B*PX#4-JF?aom(OFT>fq
z$G-{UBlT(DL<;bvWqi>zqM$YpU{(p6r?%k2*Sh&KI^O>=P@)o{uA-0!Pp4jJiTw}q
zpSN&)7yaa2orq~q@*PY=zmf6=ocq9c#tI#uEe1eE|Jlfm;~dC|p#2+{+8Qk;PZN4h
ztIHMXvdV7=E8bG)Dd*Dhz#YukxuH6(5)zAvW)Ig$d(I?0EY8Hh+JOTGbl<|R%jcnH
zxD`_m7=@ZH2u9eED8qtLOnt<Q{Z@)Ng56WG{8$rEP3*+~ISq!qiOZKSfA`O0q8*PK
zyDXPpQc2$-LyDnu$DFi9UPBvYWImc^T%9>`^kj%?;>hVdBZ`b?&tAhhp||Ih=LEA}
zCMw0jCYo|9nz~-p{mnD+J6V|Ef%FW8!uJzG=p$Uvz3(;cJ@c5xRBS9(QJCQ#&t4kR
z_4ye*so1}{MXZ{d6OutiSPq$0qUD9!U!XNS?pfflAX`S~*+0KY1%AZkQJg|y6ESw8
zGl3d}`uL8cWEn~x3U18;+%w#`ge6GhP+qre)r#>oL4SGfgZMGnN;e5)=P)Ldw@J_D
zU<`!<&`ebD{OpxC^+Q3FkiNKqJ=$d<(>tYclv;EG0yKttv}E&;Fz9F`mGgs*OnP;4
z9sHe)L~cYojv5JN*0KK!8%2eMDfLe!X+K$3IJ9M~Cgs{3iJ+G<V%;nJmwBfO8s>{-
z=K<Hm;wfuX`mcd&Pct*eoBh??_2T5l&v!5I9Rbek2^WxuP)fb)9H(;$)nJFtozJG{
z(<a;cA)(DtA@qWlHazo$u0=9>&cmD-_7xzxax)HrIW7dB7;NPiC@d)nGY-KHZyC+x
zHzS}YX<hjGzqx&T8EgX%dL})GOP1{#pC|lZ{l+k*!v@3Hj592&<z2NsYT81IIuz??
zv1rkv)vGUT@Hum41;0>WvkhnrgSiy0&iyqt%P=o84c$y8B{mPwfAmnl$OVnPSiE4}
zg+RB2h(_WJAG}IRwEmyFB6_?;1&Hw&5U<(z%lt3jh7rWaXKzV4vAhmc4Q36_mqOc+
zu!Jg~W`dzO(CjOlF7AxeqDB#qi<7W~dK9%Ce!|3EdNMmc7;*Crd^JHAGa@6=7jaP6
z+uJAm-H_=${eRBFAHl_&>5Zdv@zTCv<U8ifLVjIv6N8{uD_tdpj`RS!cZZ@Np`Ezy
z5X@c%tVn$SCmfaS`oFl(*uQ8HePu}V1`mSI{Pt};k<f0$M$k_ebyLgmCz+YsNquOQ
zT*3lmbXqokKFMRTA^oX<7-aXQqT(dWmB1`;{I+#hKxs^=E`lAqI(phqA7}Ey(|iXW
z+KAB~N<M#ngX$Tff~%{P{6$9c?b4&iHcUW%rX#GkIn6Ak3JE2-zDP*;n7R3MdOo)D
zUpliV5j;TlEmqvwT$<WA^Qq*MMa7sAz80}TK)Z=GrIUGs?xL85=her>d|JEjU%%3g
zbA-Fz*vDA%&Y{6gO3qjv!MmNQudi7g4!Sanyfp1h%hs)HD1*GX#}?UO7GX|O7m`CV
z3^NQ$t}elo`zFbr2A8fZW-@fF<{TTEeR7SHjLwGtc~abgdxRHAfB|;&U?20(vy7Yd
z(6khbK)s7w_n+x48idTuerw+9R(S5MzuYMV`i>Y;0nK6>Ix^FWo0$ntxnvx2bw#%d
z0HHIV7Jy<#yMrrrb+f&cxUBKd99?v8Z%2yHiR@yH%{}w?1SCa^0gQ-;lHP&x7hGI4
z&vf9!MU;=URSR-+y^6A%B=#pOBG@BX5mSj*)@f#NylgNAj<~qgH)+;NrGv7hqe>=2
z56-oMi4bE@`RcUS$ctyW*K{ATiJUcTFl+;)BdA>sQgdWc6Un}HV?^{=%(wxwIQJ@c
zY)O9QQeXYnq0rU}{g5!Z_~H$kLxv+JJs&45lF6}#cTJ1lMUDRdb&rhIbS0g(j%0kQ
z)lFkE`QN4SI}lJ=S#h}4ZMHk0QtT-^06}P0R+d4UoD?P7_~Xn*q4tylo-S*SIz31}
z#pkr3{nR6s57?Z}X@qh!tV)0KMEKSs#(0>pUM8m#N(P>4+Uf|}jy@BoS@Jj0F@zdd
zS5+CdZ6-M-0GhDorT-!)H*?mk5ykcn4k$Z)agtm$93k#pK6YZ!Z$wS5k;0!-8F2$*
zVLd9}ECyZ+DuaHA_Or}nF}}?LnudLTbSa1yCucork{I%JYb^(BB%K6MAIF(n4HdxA
zm^5h;{{X^Y*iTowRXsybuce$^dcFgH6ItCZy|AyN!=9|d;0zJ{Mbe{(Pvekd>4Q+B
zo;#4RDH3qgL(AHL>K1g8wfX{CRH&Qih5+vJInpElkn62<`1us(tpfF4x?<PL>0k+k
zj*bp7MBE||J=(ORsLx3VS5{1?ud1i9=0sDSk*BLhb{Pwi#;Nl>B>Zl4%!iV0ffy=^
z4U0x{REc`9_XQO3IcBwRci%8hWq;_cu^MWlsZlvAJ1R03nsgc9T2l;Z#Ww>oiSg}&
z2S*gMyBv{}H>y}1qbE!dFmuMjUxE2;{YM-Se(nfx;AUXzF|ru$4Z;QYIXX0h(2p9n
zZ=#bmtzzAf>pxqTstq5@HTE4%49d6pV_Jz<m)IAv+IY?paUH}x!;A^N@wh1f4#$of
z6`T67`OZH(rAU@XnZ~8DGehpZkdX#H$JAc!E<2qMhlYj<%*ZW-fe0gzBdJA!anzjl
zJnB~LDn%^_KO}%sWs8i+sIEWHaCobq|L@VCIEA<}eC<n3K`y8o1}5S&F_v0^1z1*K
zCxc(;>e{LIOeq*_rF?vfRwlw!v1`{)1qFWFm(kGvK!Hl$!~Op8%{WQtl6;pgTT0(e
zB07^a=!G2rn%rduBVmN*Y2^9dO8@WzkA~P$2xhS<3|^k6;ZgmNx5at+>nEIcw4)&>
zR%{+Dv;}pH<H69F2b8Gx=pn_5!BCVaOF?Cr=BlbD-AF-IM*#phq#)-SJuX{9QM`tz
zM_E&c0C}btKD*^jU2|hN@n9@K3QrnQ%)ywPcG<`Sc;{-Jl%<@NMsGhZx33U2JYh40
z0-i5>gwa)kV*YjDOS0h*(Wx&&YrePxv1S;`ZFY(7>QUDuQ456zCNucdvlamjm0lR4
z+XfDX#2*<RzO_CR+Q?gF-h0lT?jAUN&<4)0@%7gvk3r}grUJYpUZGp^Gulj_SlcFT
z3OKBJ^Ui~e4FpcmmF?W)S0|3omUSO>uUOIwLLAty-wZPv`9m>#BgL#N%zPo!J1;6G
z22zr*puj+EmhqM#NsGOyh9wQs=eRMn`?x<ps;k!w_alO%1&b{&21)k!%4(&|BvUVW
z`Jt3HctN~;{d(o?qcT#;Q4f#xSbl{X#}GLn#gBjWW~zgK2CeYF@QmWz4Q<?8FWt<y
zn!p95jg6e#hH?EAAU;7lzqt6)+O?8LD1ygYv=22k^i{g|>UD_?Y-2JJSh4#={yo1S
zDj-3_KsjJWWg1!xU?W*)ZPwtr{+P4#_E7FJ#}0b%5`fm^o28^<^J|>?=OO{Vfx%Xm
z+u`1Xdnz{;lQ?mWG#i%*9wvlpAfzvBEkP|v9jXDPSGTd7*Md?6^=5yJ1PpJ&*Q<gn
zKd)%dQR^)jODmZ>{yK2&S`V>K1JK1@Xf&BCzi7$0p78os(9GAlLYFx|Fog(nrPCT`
zV!LmkB4#ed_D&l3uioe6h~@yVl4@%4%NLT432Qe5flU#X9=EZI_lLAmU<QM%(Y0b{
z29~|iOUSuky@~v5jxpX};kikY&bR*y=x|oR)M!1s!+oZr`X=s@dC?yz?BxR)H%>4Q
zAwI-YKpmSCZ3b(?rD4hDzGyRP=*M^O{>9k~rjR5jriECb5t4CgoD(DXvdYv;SLp;}
zDgFOC!VfKvICQx=0;2vb2NyBmb>8U93InP4ep<GQqt@$SI}q^-CRdc=8V9GHF%A*-
ziB?uY<Q&&6jq44M2{v)B`9@P=l*|~^L>V@k8Ugqw;>4mG)J`OHVbwu65tA+?lXw>w
zB+&AGe(sxbh-MZvqjB}Rm5j6fLk^r9iCfGvfIEU0;@c=zQlaqS#6y^{()<HE64vCO
z3Hupw1g5yPt#Ktd)a!aNrmfdGkAjn@dW8^9T!NmVngs<&78imB5rKkq`6;-QToJwK
z{)|Mk^AH&q9W(9{^$zgK*Vj1gIRk9N_)q*!fPuu117##Tx(ZvFYQV%lJs&mLiZnB3
zFd!*|GYW3q(t+_3e2}Gbqx#6TUIP;rpbtm$h+UhtYt}H&6^T73kfkg+p}7?02Q%3K
zIe4{W$<GZ5_yMsiD615&$A+&+zjE+1;F@q16d&(0(yg^**BL4MyIV31RU{f-%d|mD
zOaq>*qOo8JQ7K;DXPrjHV(%#lg_$f+y~OJhKiFw6DhD)+P-sKBZ4}HlCli6_0|pL^
zzq=OtVO?f)1s9%;_LHo7xb`eZIVVhH9ipi<F>3iqM6eHBEgHf8Jc049H+~<Likl*(
z00nj;vO$S2uGD9G`=oJNns#IN-nI}kO>%NVI7&OgLvceB*Bp*@nr0*r3#D?x5?c9i
z7>tUrQW)g5Q2dO?jj5T+F8mA&<yOr80*1G!#Cg?{d}t_`U$&S;M>!nU|Npnp4HJ**
z#D8*mdLVrZY-Mhx!MS`tkxlzaw5f;z5K{0vSNo|+mByIIks(QIR37NnY|;vIa}jJm
zT^&KBgu(&Rx&GDYYU|V;nU`6_*=A1XyokO2aV{01mNa)n$x8{2{_Luyu2iZ2|5KET
zgYVk^e;$In(H1uNKIIDA$Td6<_yPyAY5jw&xE49i_4P_FOO~8GdT8)&g^vm=l+O8H
zUADq=^zc?wRr1z$J>D)nq3an>--jNLHq1^MdeP(VzaHs5z3qo|Qq|vGSXKL_ZpYjB
z!q?dy-YaI>xs2Zyx3uJWg=75dOZFA9<_m2?zX5xo6;=~~U?_tk2DoZ3!v2XEifR|y
z5t+)OcjtfZM8Xn8$k1$Tf@kn1O(uW;Jzz{)b^e;!M5kMq_U-3I%UQ2nNx7!X#Q{;k
zJq5*#a@D@e*%V|EUMYkCEGWB-G9``zE~2BO=|w&H*JHpS=~n&icE2=_B<t8D>`Tc#
zh}cfBL;7IXZr$2+)6BuF+J5t9<Kf+<cl8+lICo32r9DcgilSSb`jkaVw+dC1m9r^2
z1owo&3|nl^Y?~2k90`Mh!#mxw;DuqQ3|Zk}rId*n;@6j>7Fc7Kn;R+U>RWZz+H=+c
zWiERAq3*EqQSROQoe*CS9qOp}cawJ!^7s~^$wjl*sVl1I{H(Z`p9_g#q7;&vOOA2>
z{>LA?YU4nnziQPg7EKoKh!hXZH)3PnY*g}P&r(xTs#&JQvf2nnDm!*ODyZdi=b*-V
z4;oaMJ6^?A^A48CD1zutqV9lDjSh_@q<rR|$S4?5^<A-IMYG9GB=fNjzlV#_o;}(?
z`<+sPA<oaR;%N*&ClMC7T?IKgfon%fIvW7C`^H)#1!G{0r6<dm8zRV}2?XBj(WA%w
z`SaPm1zFCA5;yhy+}m(sd<s4e##wx#d-tYH_(C@cLaiEAM+U+Hcw(kKau%2?^11m_
zjGP7;;xmn)U?p}C^i1cEQIOtkn%ejb{lU{l1!)@VcqR7mX*|O4X`wAm!rNrULbk6k
zWH0zv`_}%$2taDwT1W>LKtQmGRZv@($;4h_PYC`!ecW!K{GL1aUm<uy*Csku^tbe<
zH<e;{eEL0=3ISbMgtS4>n($oMUk&FQzAq{o59T5jsvd8Hkcjb|pcv6WM&k(c?d9(u
zHr964szm@RZv88oXBQW7bT74h_XynTLlz>(Ajbm;<>lt;eIRM^1+Q8B<jeyOBX!e-
zwX^xr?r+gD{`xA7);BPqRhdmQHz!p-^77@b{Hh%25ToFKctx&#*jxOAG^jYic~LLg
zlfuUdav>U8`^E+#R&Vw}X09<P67L*B9XA&am|ZQ{r*Vh*;*e-V`0}jOPPUgyw+8(7
z3*{4piG9ULmPN<edy7WM+|z&k{dX$ta{jw_0S!MLMH)6PNS0?i1@a(SctsQ81CMiW
zaIg&|3CzT3KrwBDi!{%utEphS==S`%ij;mBDVb)R{=jCE=ceZR|ABGol-MZA5GEuh
zbIXCx%x2C^0Rf`Xrm>&Cw3(Fa0a?T@O)9uITMN+~17E<8{O^}DGCGG5LzTU)uhVAv
zHx)6Rl{5<k9eg<WY*>6$D3Z#D|9RutWC56j=<Sho&OEEcrYmqsh=Y#g+JwOeTAP|c
zA~x~}C+8K8j*b957<UpwT0Wm1hynM(8zpp!cDy`82`eb;7!+8BF(ZFQvg*<(pr{mb
zHpwj+aB^JMoV+|aAtU5fs8(dYdhtR<QC<o-z?gL`YbB64>&jx!h=mg2m<yG@Medz1
zCZ_1hxlp{)EMSW46_@%tO4eRjQs%FcTs8L<{~lCDfw%;K`w6bl_H7Zq#Urqj<>lh{
zz?jz{@w1KrO0a3-3Aa*4blr=&5=e5C=xQhBZWUf2m_ZX$poFo#QC_U{ff^7(7|+Me
zm<(?8D0NH}I(Ga}P*BA>jHy$mtcoyIo&u4<^JE}uqD@*Lv7+I(3q-a~uKoD&V=HCk
zO_V`<NxFluT0R~C*n@s4h7FSMGjQO8loZj^*5BPk@*LeLh6SvpmYG9F#KWcwHg6S~
z!p)nG=dfWL7)jzg>$mtrQW@O4w*_|RkVLY>c!%^`paxXL&p88T;^K8@wpgC75`q{f
zMt~cBj{2^~=h034XE-TdS~UuwBP{?70}YP7%gb8{4{kxQe2I*zPvmV%4lCYK@<*A{
zX_~`_(@+n_Nsk-rE)UotN*)`v;h!`{RIHjcIt_D=O*``vOA;NOTSOi8c5K$HMsSOA
zYS{3cIi`|p{S_v+m>?348m(Hk6y8#4dr5<V?aaHfc0ztR!&zvESWsq2_zW-@I+y<V
z@2})AX28LLG;GlzMpX!#3<|iLtV9b7(+DNYnXu4|?k=Nf^2@=r*Rq;8HbY7L9l4aO
zGGGW{KDv)Uhdz>yuTG=LtiXn#z7?6c5@J%O*L^M5l|?7i<CKQnjBt@glc|#NPT-@t
z$qSoq;zuywDEB^Fo&%Rel1?~PE(`?(b(E1jr#JfU=3+$#GbGP1EJ%6%x|*6U&4P|S
zQA?O76%<@B4ECHQE2*sEd*>WNeG;v{=(0}!6e-z90CCQ@?jAzV*OIsFtXj&ym)xH;
z%DM~t5e``%N35i<fW`A3E?oM7BaHYXt3cu<&9&xR_NIoErCWB8i`up8zeUnJFB%RM
zQ(HD~?yQUd#85oH8ovFPYL(v)T{4e`_J<Jxw;KR@R8{q4mswc+OT_0^3ws_)DsenL
zm(XjhL|f)AzdC}x&Ot;1`WS=vVj4#bCqRG5vX$)srGCQ`n$q|Q2_qm_NEjV5XCaY6
zR~83D^rj$>BD_(kD;s{sCPFj*g}QrEF$BX;e*T!Yu4N$*m;Ahrx`LdixYK_iBdP3d
z6f|NL;0aJrZnU=-g9&ik?($4Yh-p)%lsF(*O9l`jZ>{N#U&xp-rVZ^a`U~#qlFE1C
zvq<k(`JTYopI@GF=qb4_ZyYF8;U6zzheWXg1J2#+<3<CM^IStc?lWYG=~e4lK~2Fe
z?V!EU#2Ch51R*CUXH_n_MnzRZ)CURcQJVNKaS{z`jHnDred(g;ndL{#J%D90vdgTj
zs1=v;k<@wVe17p@VrOGv8Oca_OJ&pRYx5a(=TqVl4N@721VXlbj~-%|W6%d8=%hvu
zUVjoge|nAtp6_%?XKr(){bB>v!M{6>qZi{So^53%$J)WbWHnZX^k9H^ZCA+ysTVP8
zW<<?!!lqqoFC5i#jmSF?vvs3MB78hUMRvg9h^oZ?LThVluC-cri)%<?p{3r$yS&ZH
z5@Ot4yPEmeb9v|m49<Y6+sw?*P{F6s&h{w)f<Qn;^!r;*Qd!7M*Xp%v2gkj}H3tp!
zj#b0`sC=0EKSeLSmxH~16(;G^4s=~+YkP@Mc56)$WLlciQ!*St;sQ_PM?Di(T!8LE
zOhd&gEE-TT5rU+!?!>Wx17JRgu6+L$%a$F+{x^eu8)GW&dF)4sj)`&M$qN~W{bA7S
zY(gY8F)-!GG{}bL?RwQzJYQ;NYMPv$mY$wFj_Q!i-s~A%>1+_O5lgWgIGt5@n@Y*2
z3Eq^jnJkbY*|8BK6tpfr245Nr(ItS}@S50&#fuXgC3fK|?#|*Mc&NW#N|K!`>3EVF
zPIjSdJ4h;P*<40#qq|24h+Pa?NS;b07uP!gUeUVAQP$GBdS@r|Mjre4^_WCI8x$lU
z4N(rJf$`Gqe<q3E8#M+e+)e%`3s?o(6<d$#wDB?lW-k~yDxFMXMF?_{OJBB!V2`S}
zd`WL9AeM!g#~Rcy<y^61h9Tlz>IKLYzW2PWWPHd$l2;(0X+|aQtglRUVK?JY1`e@l
z6L0JIB;*j8Y!Be|u@=jMv#K+R6NU6U>G5N@;S|^-dQc57OF_J>%K$UTuNb$Z@PaU_
zHCD#P&wxLGk4hpvXNW1h40z@VehljK#zc4H*fGX2)9&7#EPL3;2kX({pm;QTthE%o
z_HIpn%2r3v7VW3#%t+{%*zMKV9X>^cDM)j(PSBq~M*$Tp$R8*_9vuefUUX~ta-7E$
z8c2|_PKt~&5#piK-xJ?0hDx`3d?a~7-gVYxU@{08LX>j-3xX5Jqn#v6v9t=<g}{B@
znD#_wO_BNDRkBU^5ni822Xyz~!^;~k>{Sa~q4A2A7CWDyXJ*Q7r%z{tzc67{aTE3$
z+@-}9kKm}OCxNYcXPzYPM2FQ;mlRTOW!{FODe%cEO!BZU0)fBBCypmilKS<wO2_e7
zDcOyfghQFB7aGYWgIgI#U)I2&HJR2mtwMy0sql_ov+xmT=5Du<Le}?IQfa~&ptt!p
zdL@RZW7IFnFNakX(R?SFr_(4ahOP~jBQgr8WD2PwNUCJyeg`o*#?s;Cy?cR#>Y$T~
z(%eIghXOqBrl(&8-B70RJd=}>=79_N3YhZ#!-v}1S{g{B@gvKh<prui(=dU4Ev+Ch
z+jtRjvvh<mcOSo<Dz@DF`c9mbG{;18E!#<Ua4Zs2SMFc4#~wLxqGxcoNT@#o(2(`|
zAbuoh?((q5s<H1}WtuYk{yfa*W(`yj#tob#TUvt!*)me@TpIUqEocG?;E-~2BS3s?
z2@IOtQ2XrL%z5D~WdzS(Nh1ppm@c|cITx3DUbyzSak2c!hVXp_wyv)mgGop0J2#iC
zW)brUDQ@zd2>q2ZQtWCj^sO~>wkDa$E@KR-9VO#}S932X`oweexySB8x?PqZK4(JZ
zy{Atd2up?<p4TRdr9ew(J4-s1oA@Wv{*9<8reZ6rs~_CE2crG;G3!J>4e24jH&^)L
zlT~i=6c0UrCNLIt_f%B$5?SCV<bi(mW4iTI@&`)+bBLsFVg^Y}V2qIyht`Ng>$!#F
zpEe-EJ;GL006&5U39XZw!_w`0{{Gu%9~5k7Cu6d~Z2t+NPgYTSiCre!&T}OY;l3r}
zLn_nJ!5ncjd4XNBwEsQd{lx{d1{+a4^Cb6!TY*~>8Ix=>@whk;QWy(H1opJB2&lPp
zM*bfNe?A|>Ab-(_6;U(y0TFFbr_Wd01{~P9VZ-S4?_A~IQ#YnfxFNaP|HX-z`vRLB
zI)z3#r^yf4j(wUqUQ25u??#j@BXCo8szH%v2#H{lvlkGoGIaiPj)%BC1Zi4W)|Qs+
zDKJ~KXk3w@hzP&5v)Xp2=x$)2g{l&O^DAKFPGxf@l?jZ1C*s_86eC-ZArbQcC#|fT
zN}k#bo%*ywrf79ka@|pu?pbq>bURRh5BHZZUWoPeiId&6Z^Dq5O^f1qk<jXClTo|_
zDuq`KRo9$TmGFA+J0Cvg=cj)kFwsg0^YNALtvd0!{n$n9_UUcBOH$bRH+Z`Hr?r=K
zmX&Q*&?qK(LJGHP-I}3}|AO7jH5<g!){)`rn}u8Ity*=y_*^a(*HdP{@Js;a-CoNL
zQyo8ki5e`CC*h$gY0i9l^>atIl-_j`;X&aU;ao_r*N0C#qk4JXCBoe9-4BpM(TfNX
z{DX?WVU8g|*^uLI^y7R~R8&YvA!mbfR9#&i*R*+e+;UAoDPFk3*-;X8#Cu0k5j&sr
z<ZnFOgg}j{d+}LayFhG2kjJnl)7vpIo=Gp%TRao^J}-7ttE7^gg5Ga(8oxf#Lz#+V
z$k48xI%Uviu1sN|>5kI3jMI}_IF%~~TpKlZY~c>SKc|FbsCD>wP|WoO!}tC7i<xVY
zX61E3CY<1ULL^|7)Cxy9Way(icXZVVd;1sXG4)|M@6DRdh>RBr2hlr^9?i;9VTx!f
z1vJJGu?*)S2U08DC3YiAx5`JupOXGKA?K>6)gn$t^%KOAOXig5WG!X2nuu>-kNTh8
z_qwZ`RC@Lw5rhZwGQK|wqhdzU`}e_vP>AWEY|7#xN*5MKg&Q$+7?v2sRG!?!!2$I3
zN%W7Bk_aWLUZr-i5EUwlGLph(Pzw;ntJsgNgm8`6NUQ|)IBLs^59hfL`(E%llgG(@
zxf2w7zQb*f(3AV?HdkOfp-l8$boZb$Z=z(SiU`VETM1DA0ec&BlX0=;40wD2(RS<6
z1H*k<UWKELA;mrRQFM@fysYWDmd11DU7s(4J-crARtUx@N=PVto5>Rxlo}tbQggV^
z5h8`GvKrqH+}dYg*B(8@We8HNoHcSw@#3JqlItC@^)9X8<_HK*cx|LH?6q3O7_{1&
z2JOITpX0}4pl?fVRu_}$%Pgq)(NN@;l-R9UaR!*eLS%AdA+zZI{u*K!+rre;4}_R@
z;zv4#*-tINY3@h+h7W9pMOVTh#TZ&&oD)*082U`R(IAulKrfoJ8kDhG&RJy+-px<F
zUgKHROt+~tcN{e?-7ZvaEn2h)x+<RYtsZ@dMG($3z{TFQaf_(<semi1s{BBz$J+2`
zqN#jir`zw?adUA~$u)deLzbgOu@1_LD+ZJjqvyHP%!sN$NM&{PB2X|Qz^CJ_00@R(
zoc)aqO@)Tw<k*23yg9X`yuE;^3c7l_vh(Ms1IEX1+VK<T8$p8kPa7hsTm@ji;YqS~
z9ENw$$p$o()e~i-P*L$Jc|_x0P`^OWvWRLf3watot^0ytL;70|lp7>(ey!odh6(T^
zsR%4y`U+Kf`S<VsJT)Nn4qDn|OT7<NdSF)*ID7yVrz|(?8T>1}k+K^a2q?<sQSNZS
z`BbJxOF7RkUseX6V*mugO-`9<Y8C*W8Z!|{OtoYfN0z{&Y@FR9>DEmA_;IGQqv~v+
z5r6&~Dpa*N+ldW>#>U>m|1k{4117tq<SjFbg0z)%{uU*5_YwN}0F!sBtvxA)RGLv6
zUkeZKplg63&%lAxyNlhl94L2r(V8bNh<<y?%d3<^f%HVlq4K(7yAWB_b>TzWgsfwR
zRHEGqTLq25yVX&}+<U{OO;ie5BtUTAiWMKIlzBdz(Zv4zL$nk|edDHR|A{OWRaIws
zc^Y(=9r6t!U2L4mWZe&b<i}5>qefkkQwg_(Xi$u&sAxz5Cs4Z-@ZcD37Noi(tAF@q
zmH-)`rcpO!Ly6?#7_o*O=ztg@l4y97{Nimyw?yUczyFH;cDj2&vp$wP$RF_O0q5rB
zUrn8WOJ35WM+f)rWkKT!CZ^<d8{C&uA3RtIp~=tNh7&Qv5!`XM0MC7wu^C=Nbq<eq
z-!@s0fX!^1I74oPhPsN|&=DillT?wwU3b`rW1QZ{l<!eF=Oju0B!n%oiDi5f>wbLb
zFd@5P4p+aJw2dC22GM>{YU~lhIGc{sF!aK(lXN8oIFKRM0L-Z!FhV%w<+XsD%XfhQ
zYTc&Zr5c3vkjW(obVyWwr&3P3kd!b)>+S6wbWA8d`4(JBF}Vv<svkszwdWTDEf(kJ
zS6+<&^QT6dJ_XBBi@8xmQ<MZ8@17VFLB{GCi_sa+JerK$9WVeOY3ujQEmZCwv$H9S
z>MnK>n~XWk2*ZbuAD{W`*|&*QQa})@&%w2d#(%?*kylxeS4S->G(gNy5i^+G_{j_K
zzR!OCsKECJIb$2oZ}eW!8lOK4pAza5n9K<kL%foMPSWRx;~LEr7O0qtc9wxb&z?O6
zfkF;}Sa`)6%N#XWrw9TjIe=f3GM|6D0QdoKLkY#tFxhMS2Q}^N{m-8vcnY$6&;NR{
zdPtI1!SHOV4`r2*STaIE8FcR4AjLNK%b2sgxs>xTpW8t8UP&W)qE)g29hyv+L&%UF
z=t=?z^v^Y=K#B{G-vtbaxnaAHCQ#vHm`YXqSKymX=a2y;?M8jGZ`)$0>SJvc$0&?q
z%S-f~zcnd}fF?XO1>e)8F4{7XFK3=OQ{GQ~ykYa^o3yBc-wZ!EO^b3uAha!o?D8gR
z%lR+L8Mu*&mGL|l?CuBKt76lS2=i0wQGfq>QU5Pmq~LRo!4+sbb?1NJ{<D*)J0GQ{
zDvh?cJUo*`u1fH^(GNf*+qyN|RW*j}mH!7oPgi+x+1K}FpW>Zs@p4hsATt157A)Qt
zLLd~$GA&52*Tfyr>!F6h`^;`9CZ2~pAo*<VJbHVT1C0IGd!Go(_yKKvdnHfjdt1rV
zY>v}(0usyLLm*oa{oq2g5$Kkcm9^E}ts%sX^T&9CDF@Ki<Kx;I;I`ic9|uE!w}bXA
z?vR};!IuXbim?XzNHK_owelO~tz|iSTefUbzDF=-o#9XjKJJ;QlZgOu`r5;WwbzBo
z{#y8)d{)wIh2_eX;9%N-6<kTmO7Q3emN+-)B&+CUVy=D3FqpO|N)+Ugrbl+CuNv;}
zT$aQiM*+N@JIZ0DHYBa-`S-2@Gr}se#WCha`ql7oB=cH)25Q-E-MY<U5*}p(7z}qH
zUIMW9oV-{}Nf(QqFY8){i6M2Wf@%zkj({k<yf#4_BNd+^&JDl8!Z&*fM}8BwZzVso
z-uBBE%vxqlo0b3vKq7&r&pbb`ukt<kRv5gE4E}Z4r8<>DpqL-U0F<NS59Abq7LYF9
zRU7b3<sk!LZuUu4_nL_rp>S3~7Dk3;;t;OSf1J~ilP866nkZyyVv_suqZqThVZ2uP
z9?0tniHQQUr7}|u;T&9kC-}6b%)}AX*_7Eyw}!YRN`3<a=i9HFNw?BfGwb%}J&0M!
z5tw_n1|Ak6Qxp~)X_HD@zi4QZImQ7xr%#yzk3H?X-FP;?Lb9TUFdCx>8~L$Q{Rn4j
zma=xw_$3Sc2ge0|EGRI|dD7)=wXu(BsQ1}8$_zp7)f9vj+lCYJ=@+~KJpVbGc5B%Q
z<{t{<qt6{#I*)M;P_f3iWfZJsAJ5XfbUM8MQ<j*+rcP9Np}Qy~gVwrm>pOLw>(j^Q
zNQvv=!%t{Vwwfcjj@+qm=KB`skQvJ`_527|6H@vyxU6Zg(S`S$+k0#KsbAg@?mSf(
zEDd1vqyoS(b%<f_IjY6m3t6^9^zV`tqm7Q2d2v6w$s6gp_-wF&k@6l0B^h7pMq6{{
zwnBnfCnt4^Df$dPodsqBi^v)LU{;ZdumQ7#k^7+P!Lrd?q<}ZeOB&i!K`<5N^v)gV
z+>dEM#<71=SJ3to@aWAOxc<RyZdN=qV^S5;6(b%KBBU3@|E<Cl{6HZ&3~LD~pL{D(
z!J)5_Q-<KHRXb7}MoGd=>Aa(26Xl`(c-|nKf?iBqfe4i&wL9r1Dte@@q<Uv^=c*As
z;XHbh?s=`d4!xC{I_CoJ95+xZ)vjT!l@qG%w2#5jd;*#?gSMDeRaSDyI#1X_P&FLS
zz3ubepq8l{;{1>d+!Yd&lhgcH(zSxtDsyQUPEjz!-8iHchl#Hj|0RKBmh3O?BsQ(E
zWn6Yc^|y7Evu|pO{PO%##O2E>L-Ae2cSSS!Cb5bJtofT(8um7nc}Ms0UQNx+x}2Iz
zufD$Sd;I<J*Nj6dN=qBGPj|33=Gdj3eH=~s5CMV-#<|WBG`S&!6}M`Q2zZqkax#-9
zfIFmuh)eplLC)+*cBA~JTV+2HZ0tCJgj(i(i5QZR>2%GNoW}PPO%o;dKZoeE@PI!6
zg|9X)iz}TuEn(T+U7b#$HiMko9?a2+U)paP<bn~TT2khDcjC{ith&u)xT@#OOqR0s
zu;4T_Q5Rc9?{d<iGn?zC4q0wt(OU^s#1X%96*%-%;h-k>w>ElAfTtmL$$H}lp<6n4
zV=^N^q987SnJ$=PSOA{h|9Zk*>cSm^ggY&-&Lrnrm#Ax0X?jzUlyBIt@N%O1%j@gR
z*coWluE$7&I&+10+)O6ngHg?2p|G}{BuVBy8};X`#1c#(4OQ|ma`Uxo!$l*mfU#1@
zQs&G*uoQznpu;o-FY>fUh7bMW-*(^o>#$4_;HfjiO^SzXAHfjKJjWEny$HjM&Sw<x
z2s@2FM|Lq3N{qb6>%l}w`DSk7a#h6EpQA;Aj@+XFT(~6Gab9XTHntum&dbCtEo8)N
z>i2&URcvCBPA~$_ok(#u>~|=9HtP~Qzbf3?>wd})@qRr9OktYiMo$KD+c^yr*?F{N
zf*o(q{*=creIf6>b4Yo4x!iY^_#Z(@>)s>RD|4CAj5W;22hme2Oi<|DdBAgom>C@>
z+cud!W5&PfdhMiJ`vn{E>nor&x_St4;ptAZovoStf_>eFjvU!*oa1`#FsMBX)E}hP
zgaR9s;C=iXV@u=>Bge;ZR>*eOu3jyiyA~dw{gkkOV=~atFdOSj6el?+=oinRNKV+e
z@(18Q*VOis`k`XC^XFB@Yl)e>yjA?rT#?VfB6Xq*b%`y|XI8eyavcG7!|69SKXobz
z6~KK(ROTN0$TI~dlO|SX&L_V``;@oxtT6^<<cxmy+{MPe#13wfi^imJ2sB2AOD7<_
zJ9g{~Bc4!IU!ETK5K*X4sWNw?ZKGziXG@R?1~-!cc4$RuN)Ozm{^Ip(_!Qz*A?juj
zx#5_;V1kRNsAf*3TfrI{Bgen44HSH1#oFqsBRG#LY(b7Ranm92i4lBA-s6Cn)4{QF
zYd1Iy{PZ?wLGgZdLyGI%Z||YCIn?8qHmt%`1K>DgurywaKx_Pl)`gZ+`|*PU&z`L#
z3iJMimKQ$;o>BfWMm>hB(-YfzG-J^GApK6`r;Dr}b!h+oLH3XLFMdTF&29c2EU=yC
z7%aqULISO6J~d~h!V+steQWEpMq|g0?a{q^f$v}!dY7QEr&=B1j2iVPUGE5ADgGMV
zG<P<sY@`J*K@=E-X?!%+WR3*TmTGcpL#dDr6<MAhpjZl9!*P-yGb=jmNNmU_xyPz$
zpri%&`IpCrtM~6eb;5mOX1!l@M~69s4YGV9M+wPBA-6K>=9ZFEi??mvS`hUI4Y$|s
zPV|+>w_CYv*}ON(PHVE?f4j(ygyp59*&X3IjgU*2OuoC_bi86}YUKBIV8MMc2DSBV
zKE-F;&s;gWK+fFHG?WEW)huhx8Oz@m>QO=fpHUd+rlyA7xU@90q=E)Rg-e(qzUMrv
zk83WyYu2dM9MHN!?K%M=X_qcOzyW3uW;B3B{u$Q-KtFpVlVUE)NUlD~w{A6LADm^t
zV!_)Sc=!-{#B?#}+9BW5hu+}xIkmM@w&=1~^^|Yb_hIUnJ#Cw3R{4G^Y3}{K!;ZEb
zQ2#NTE`05=gc6%4+lfJ(lP5znupIjFrZB#D)27?U>+<{Q1uymkC_ph>;-_`!kalUw
z*i5tSoJJb4^iJ8rbEDK{s7C&_HqtFQ!Hxa;dbc3u;ltK)a%&LSQbka31{K{NtgcRD
z1if}7p3?lTya5LTiEca@At`3JIEZDA=H^+P`hE(peq2BBZ)T4Xg9gp4x6EugCsQRd
zXQqj%X=mS+ROPQalz;u|e0bb_;m9P`%Zd<p7y2(QE{><KT5`-Rq0<)ssWwafSh$9K
zio1tVfN*c5QpvxbT?gzDox4}gR?%+@39?=_+pvDm&6^=B>9lP0Zb}R8J$L}D&LH)s
zrk04#rv(Jg$Hym+A3G+z2~pCj9A~W5K82zax8e&_0o#}m3C4=FkgP+u5MNo(ncu@7
zqEw$#znn7^Xalf2GRKL+yl%v%NR5cd$md$+!3SfbXVTSAj<7wIm(?ReLER*L$|d>)
z=H}@|K=^&t)}YeD(evs<hZIlP@3Ywk;T8plD2_p%*b&Ccl|kviPn%`>S{3n9T-~6m
zeto$vR30$kWBQzlg6Tj}PAw348-kfFc3&tSA+ZQ4^F|W4Jhnt~4d~u^t+r8m1CMhI
zBFx*shScm;NE!0U|6)wuDiG<{hb+a)*f^X9otD=83-s)OROXha5JJ{Eng0o-)^mq2
z!Ra?-?Xf=j@fr4EI8{QfMejEM7KE%1qY~OvCcR!>UbeH?jTS-T>$f-`_QmD)sTNni
zXCpY`xEBdP2aH2#$&njD<EjmP`{m0u8BD^p^w_bkluVha;B%=JZ`$k4vnc+Lij*>e
zDgF?n3s6d`$7h+~weja-f4V2)XdzTe(<-m2EZ=&F2%an&a7!2W%Cwo9wraRtTm@F6
z{Iy+mzNvY@-m;rln~glAu5<hG6K-Yx=nLE05oFb$2W_%}+q|S7#PX^kwtpe!<dg<g
zk@BK<KV7|vR}^SkwbU@RX-j2qBxbbk)iNl6zoz~ny_?!dnNVtoY++#U-T`EHUM+p9
zGz-oObt`rVOgEQq$#R<h(hX*1C|i=%)z^_b(h?$RfkPe~`X@@^8FgrshJd=fl>3ij
zdDvWwplCuoLG}67&s3QeJu`7|Tg;ufabp}G?MP&zdKxhd!rEOP2J4AdQIzlT<7hZ%
zR#2-l!LdQhj#Hx9#Pc4Mz}KGaE{_4Ctj3$)Db_)wh?3*U#%t8thLk4r-g%&fUTjCT
zRDVWPM!K@xe{Jo^bJLng@1h#rt+~leUjv%}nB2hr-_H(T^K316nOd6-S;9_GoJN&H
z*ela(GJ>+js~(XSPGD0fd$k1cd+x&&Q#|+^HlX(>t0N2%VYaSabBaZKYHAk}C&M#{
zCGCOHP>Jq6R_2aF4EOBlz=;!a!^_u|ojiFm1YWJvDKmn8(0gj(`$eUGUS7y+ANwf0
z3#NM9U+61tG66j373Bo1d-U{~U(zrG2+LcA3ehN*rDo0AVwjcu=oxKluKyt0!*IVn
z$8R-~9mdgwv=~1Em%r45jV@yv%HpfY5xIcF?XpBA2=$^XOYsCx3PhwQo|cl5!rGSn
zV~~_e5Or{L!NT{Ns183H5)u*~oZN&;%1JJbaTUx?6i!_wlrk2iSHY+$t+tCUkNDvX
zSbQcQHA|q_LTLpT8K{AE9zC_dfvJSgYW5*?GDidDLbOJ;+(p*_8iF@cRX#3K#O4YD
zXnI;&D}#Sm4Tl7XqCB42s?-Q30LB^;vsnTqc5dw{rV#158CmG6n!kcq349bNw}0Qh
zR}_Foe|H`B&#ie_Q`u&YnK^T&@)T23Q@Z?Gnwpd?kOk0V_#}S*jDLc^UkhMDBQ?#f
z{n$yJ(zX-31SYcQmZvjgCpYt%r|NvV)v$4*0v$vUmOS5p^O!ZN32GQzG9EhT<rVsx
z0!PUn{wY>~)wq|C0Hen5Pb>BftISX>y!!F%^=qM?oU;VAmWq~EIRxMw=8l}5orSZY
zelo-&{J0a77dEpkEG%f5e$7ile9ih3dL0ykb<pLUM)BAor4dn?vCKgJPDaKiYMG!-
zO0AeK-t%U)Gb99sM;(6;%I{%H3XcOZ`e*VN1Z5}ZzR%bXins11ejp+mgkh=!2j+ng
zDHJ&+%tLq3rQ-;FLA8DQ*506P{|{GZ9#?bvzVTxQlRcCrYuVC@WGO1gUY1G=sVpN)
zAtEhG%}m*&DA7=%qYYUiCCZW|YbjYOp-@ODlGN}0oXpJk^*eujUtcDtbDq!h+|PYq
z*L7d_GM<U(yQJ1Yb4?0HatDw!8ryY*?6VK&D5y5k2v)UM*~w@u9G-;NQS7rZ+O}&)
zz2LlV-4_5OP9tfW0CQs*<n#C6oOyJG3A%3Q$z=_+9p~oiZkDTInz)Eemz%WI*DVp4
zN~j!qOh3+~99KYWK0#4N#&9r2vJ-G3Ii`5Vs!M~4PD&4z?%joTSK}hDq(U_~bC)wu
z_`2mEp0S7*Z4#M2@M2at{kwcy&6P92i(^Iu`{$j`1AUD8aF?W)6Mr{5JK<ayI}X2{
znxl%!$^&NZ*t!+l{^dl(ZT8uhFRKk7ULEiC>RwdRpq(T!V6Mcpxg`Qqsz@~^YKI+Z
z2WxU~c+s=3$kSqMO4PtR0I6_KI#zX%dk!X_Q!%!~a4hY2`Ryc3wN9en5QEhv%a_}i
z*0C{gOUcr%{WF~TpQ4d=?HhBB!q@_J-&jP4)%H(lUqSE@vm}JL{TiZTK!&aEajh})
zp#Lr{>Cx<;yLrrM-W=_afS`p`o8F{%4`O%H@<Y^D#sEd)ScqIjc##V0-I>peOm68x
zoqK&+MCwN43ljq0lA92GI!mp{S-I#adugl>9igs$kl;t>4msQgA#v7mpl}94fiVP5
zdyTLYAwpEd5<n2kNd6U0TSlB}W8-Jshgn%N2pz7XnGP{lX!wZ-?F3Z>Hb%ps80cMk
zvol`Tq@RL8yna0vKoigUJDO80_v>D)g@V-{GscHb15S*onc3+xXI3EO=j?+*I*Y`6
zi|&SHTus8ynp}rB>8-3>10wV+-AfNF9)6GRF20WlsZ6Svl`%{FG^L)nzX*2lpTJ*G
z?avAe1;I;E3|jjPK>zlPd}yEX;JsmY{a<t7jDv)+=1E$xi1eDhgrGe0?Gi*l#sEBu
zFSvR+5>^HR*sbzr)M2G?Ptcm<hMR`heL5Ei5vY(+s+kYzL7mpJL8W0a!({iQ=mu@w
z%EW}jhgSP{z5H1jeE8jeN>Xz*b_oU;0#u;V98-JO@B^b?H^Ax>g@hnMyfQWar!U6e
z2wIUt;eZkV9AZqIO`_mCpvO>RkT=gq&?sK%3;(CWRC-SUq0eYGoSL8pYah;arR`-A
z=;^;7c}VeN+E1=@?urQFfBtEGANVUedfK*c&*;Ngo5Zl|f9t!902tzm=k}&e00ojB
zsNGh|J~=0T>&A`XtwO5}L0+|0-0DtQTtnQL_-O}IgItIfv&+w5KvHhs^l42-Q%e1X
z430iota@(z1yh5)IEP!z9(2p$uAhu@OQr@^{<yy+I;wv70AmaSvs<OPHVd7Cs)OtU
z0GSAOfTK+1Nq)taKTqZ{@$SwoTOOymyWlMgh%5yD41)&W9t7|j7%m{{%FU)Sw*Bdp
z6hGJ><8P(A*)2CW(bzeZbEG-}xQsk&j(r|`{0CVe*dVop@Im-I?{i{}nCHwqA979)
z^RHLl@nOGX|Aym6Gj43Mr!Ebta${mAds6<{vmbFHxN1u;al_&|%!ccbLPjGtPFYY`
zSeO+)3MP;Ht53vxa}J#<e_VpJo*KxJrvXK?LyL6vZ_7+Kyg<_4nFr;WM%nJm<Oq>o
z3~3;x+0k8ZAOo#DhHysMmw-ZPe~E3pd-nrYh46OFFfu&cgH5K^XDy+WI0~#e2L!A7
z<}l6(cR42z?z5b9i$mQeN=z#ulbfS}W9Da-GsUzK!R8Hv!k}iNJOG**F=U9M6nV^S
z8VDp~{^G*sc=94M{#yRv`jsm$87O6*m~Z-8Fi{d;k+FjrHF*wt-OtQqPODK>P0jlU
zu^k$ZH<Og)3x8-UMla6!`M}HGyop16nW;JHtG0hEP(<CxXFmM`;%F<_Is3}}ZU1Ni
zcFqLWfjXnl>>M8tV1xrwF#|UN64-A<2WAX<*L<q3PCjvB6x1@(1|(7ZjPS6g%D%i)
z3~3SLO%j@}%T)A(&>uhr{h2?B{=q;=MFsNV0oW(<B_W8+R3k@YAv#LwiV$^d@`tNt
z$@IL6wvVeEzBa?vf0a}jn9iIjxC8zI3x~Qd?+r-;$@Ai@G-PW;$j@wCO;{(RWDEws
zY+`RHZH6pH4p|`OL5Xm0GTN3cVQ6@soZ{TMQL@v~c^Fo47h9XgN=zS9<OL{F{3YeI
zTp;nc6uFWwkeS+<VtUOMfK9=4=L$-5486%bRUG+kJvPu`nCA^h@`$k@%T92P;S1iP
z7hz|j_-nIYO$>4(h}An0t<m>=BN2c|heKi>$CdniYXxC;OVrnyb7~PkA|lemV}Dnw
zk@dpnca+jRk5OBE^~x(|jP=!3{*eB8$Em3t6lDg$BC%Hp!LpR&2#kYtd*;lUcqpiO
zB#AKWZ#y+HA8%b_Ev@CO4S>ccF_)b#b?WQ>zTMF9nA-qW(DA>D>xaQ@pi4r^+L7b$
z0Xlx^x2M0Dq%MkHOY4L!qv}an0~G;($=O2Yx;ioCiwK<4YYwxK6)zVS3d%n1B?POx
zheuZ_4XPg?v<7&srT1FsuZ1w9>?7g_G-9e(DL7-!_MS@03QjGrU-={&<rDX`Bek(y
z0M^Bhm6&GX6$+68WlTeyYLGohDy$c%o-;QL_!xmt&=S;cK4LUDy<@x$m3tbtBJnj3
z*}{1HpbVxAhba=m1M^AAOLL?eV1=<lkh~-P``-FclxoJ5#pXx(^l}T-p~y$)&V8!(
z`pvp+xUx=(s{e!;ET6W^-p7pVj(@~_^H#s!IRD&{CXC(~V20SOr(0hPxcBlQH$@EB
zRZ8Z8mqjO|fIms73>%Wb@lF2%zNn0QiJ~iTCL_AVUZJj#=?aVs%M-*d-1TB+h4(y%
zX7uAk4*h)+Jx@kh^nlym`+MZf;uW?9>=`@|yLIWZjwr}KsCkp~JF8EI3ZT-Vb!+S$
z2?zJcaLqpS1|Xk3aNs~>sQ{uvmdG(+s|9V}9y4ByWz%=Dp<ahX=}k-lymLA%0*(40
zF><O&IRWv)(3Ej1M==D#GgjoV)WEP80;Q2CRiRum%Yv(v>ua}c-yXUZ(qDdwRdm<r
zMWYV1`-u2A>?+g`#}0`k)F&BE(2}FHrBh29zyGwNA!4?N@Ezj_i}rth58laKy`CI;
z^2^q$XoeqgS#>&|bd*GrO&gub)%Tlw#xyfCO`nC_5KL0y+}I@cqE~0_^HZRD*b$~`
z8qm&k?;du>)@f^CTSgJhsO*JGC+#H{lmYxW*Bf`1>U+(4E-5TCp0J&%nsfJq;ljN<
zx_<rjXr1m7^Y-jc4iYb!Oa__g%93)dsghs#`5l_Rf7D6t6e>8>a>5%l*Gt5v^ku|s
zRD^qkj)}&W-d6EeYy;LP8Q(yck2A1)%#MXGg+)bJfI+C{$dR@iHW^DoJCZaK6S|1`
zSO@~_%13dmgD$u>Q!;bjtv_s-_v-^5ro-kHAAET8W_*<e;JcVLRSS7#+N}gOC~Rv=
zvA3B=VP<AuE;gAZy}oAOOJ+n2A3SnoL2j-a&VU2#?N=kow`io{XReAEP!YNVkhWru
z>X0F;ps+zJ90`-e1Pa_QmFGXO9<!bIhhZ>|+L{9+MvK6Y?O}2$Ivwak)}3hD#qkRP
zgUjz5g|h6zrjeja6u@|mEQbEGoac^}M0`;TiAgH6%ig|y+k>7~;3lT7W!M5HG;+Pu
z(IC*GWQUc1coeaas0&lQJ})*gF(Cq=cqtQ2ie`9afmHD^zf>0e{ctX8IgIpb+4rYB
ze6Oc{CF+JEj{8bo5!<wF_gK<VlHDt^u9*_rc}E3=RI@M7>x|J`%pqvaz?~{8DlmPd
zzQ(wX2Q({na3J>2EivaaZ))2e*Y0f8nH(%wXa!Y~+o0d;q;p)%_W?1VoB)g<I|P3;
zApI#!2aJ3ja4Hv;W(QOqRvxxb5Yb>rGEO0f1X~CLitb4jXevYrF8BnZ8{3EK<Dmmz
z^_B2QS7dIm@cGIuCwh05VlD3u0z+aASO9AyFvW*{8bm9KozO)CB_%<x$=^SSmmklU
z-|+*)2oO<OilPC%4X+*aFUqY;FOb!|TP${I$s9Zr$#(R(F8H!(uCtQhFEDG5ii#4l
z<c}=BUUws(T5h-iMM1G4j>uh2-*>H0F5+|3F?%50OhTPJQDm}?f9rf(VzOlMV$(pB
zP9dFRR(nPC1}g$~C<Yu2ROHf{*pR^Z*+M>fOl&ObdMkw-90N&x!iQA!D1mOIP3-=P
z3(8WMOhMdcmiT?qZ^R`yKy+?V_Pf13rbsjPJC3a@xjj-lAi$U(e>qWggl;8Ie9Db;
zIA^$X-V~LPCxIASLh{o?RRu%Vn-J1}S(|r`Z6*GSheQ=d@vfk-IVh-IhYn)Y00Apd
zvAn#TlofSn5P~miEE+8ek4*1T)Mt^{k>)W%Jxd)#*vjzwd}Peh<;x3++g$174daAh
ztK=I~?rBN%rb^sOJ&oyO{bWsvx!~G~UxA9kHv-)<Ybj|>Gq6dHo10tAq0*?G!QtV9
zl-<5AX_hPW#dgQensm4WwL`w4p3g!W`8A|h$3GzB=X%$4oBWjQ=pHFD?s>W4KpSN%
z)~ADUcj=w?V*|ka6a`^wA~fxLnKIvl8POb&Wjl1hB;$t+8FC^ydD_gG<kPz+mD(&X
zf2l`>n@{W9t_k`hM(Es3E^uIdqn2$TE9Uz(Op7HoF>MUcOy%SmJ*cOlf#lxk!C*>h
zzlVM^-I7dqthaV6Ox(4;#n*~`z>s1MQBD$JgmNB1cU{%<@v0M?ot?S1c|iey>hmg1
z*({dUf7-w43rCPN@slT!2GI>v&Kpsdb)z;&7ixFFOCZN%HiiI|MlKyq9uGxhgmg2Y
z8zDA#4iQ1VtffX~@omobzkTP9Ov;|?YiKw(!p8G^8m!(g=i|8C5%ju{o>B|zR(7Pz
zS`Uo@@eFYddo(p*wAso`|7N)ZebSg@2KI13?e((@>pl3p7A^CgYq+1y#?IxIp~yV8
zM9L|%wA>{>yj7rd*4*My?c7{Sqhg*8*3AF3*&glD1UWnWqkHz>pvhw&_@w5fmWqzo
zqdPwxMJf<kqw3@98&zX*&UV1{3mT&<t#4lVbA3(EJm;FpLJTmu&ktyNRI{R=jD8Q<
zcofk*G~)3(ayp^0CvUm<r@Xe!zR2E%nix82R4u^9r|3Wa5cOQi+qX~2X+&=mKW47M
zFXZ3(f!=cY32h!7?xNw#1Zd9(2wu9Gq?w~Kjmt>l1kfJ6l<!KC&pk@xwOgy1CzF#y
zw{G9QU2V`9ST~Od#v$1WUQ@ItIPts@F~fAc_;Nq2yNZhG8pqt@DZH=Qv}syH_C`iJ
z7S;>Ya_m*<=J4uHeuVn!nZfJYDH#OiwIKLyIixc=Wu#r&1r`uBknx&@5=rF1kt3-Y
zE^rP+v?hD3JV-#E^7L7S*IWTT_<!n0;;N<f4#+B}$S@O}j{*;|I0RGnM9=~m{t49?
zjXyr%^%$r~VP`-UI;(M`f<!lL(&3OVrCr3#2tnE$P>@8orFd3K#NdW<&lE}C)Tt+_
zfGg^$C#DJ?$u@mR#ls!JVN*z|&lB4(niq!87sSGb3u#-Q*4ijMFDU_Gvz~vVYEp)b
zUQB6YbFV17qMc743|L`-ox-QW?%b%NS7X=h<TGcqJ47`P-LvP*w9oD--E|I%<{wNX
z=G^lhc%h-sdXL_U*54X@>wB+juC#i*g@ygESuM<_C%3i#-P~$O*Hz;(wTFi5S{<1^
zv&G_paox|gbZ*sPFA19MHa<^jXxGAyh2tk=1-ZZa_Okxs=c>5wH{8shC1u<#d~NjA
zXH-x3{i&}E#%~P$`rEgH#E*0KC!Ts~AJ*%2!n=g$_F=X>O@w2l_Ofg5Rp<y413qZa
z5nUZ`qO8O*P6`IWMKw`F?Nm>}Km4!OftQ=s9|K?OYHeTY&m_u0N}y6GBS=9I>CPj)
ze(Re=JtqbPC@fg9f{D?dsV{LL$3@BCj|rU_=!8@!SX$=t#2Vc%az!PtMxMRot8-<;
zk$pCw$%zl!e{R>dt@Dg_C%KAu?3l57^+(Qjl;JpyT`QUTU}l^}Vj20q=DR(c%)5Mv
zSD@9E1CL3J9S_|;ZjWVs!ok}+)>yA=`pype`xA#55LuYjgtGyAzI-*{u*{NqhXzaU
z_wCiI;hxBxO|V|lLMzT~EprWB;Ot!S>eUD$6LGdXDs2CRBZ-NS_;s8;Bq;(%kGB$?
zua)MKVsr9KQl?ZzDLL)%;h{5!N=l|*%V;KP2%+hO>r68ME&Yl)39j(o%N7Y7>aYkL
z=WX>Ku^`!Zw!F^G&ll{ho!t`%0OG`~AHP6!P+AWPKrZr@FAc^IG@3o^w2H<}@qA$O
zgsO$zN#M{PyK?^g5)ufxHJoCDye*|~0092x9XptvB2MYpm2}%-&OzNP;GQrvOIEQ0
zUc7ZnQ%g%rSNGnXJ1aPj>46H-b;`=hLEZHx)y*j3_aX=_o6%en+&Mo*(qO?=;$Ux2
z;)`syPxtQh0)NR1;4F|FGZt=22Oi$W_PrPhFEor)vKgFl*^=YPYZO>kaYCKHcPw57
z+B4P64C(Ph@>YD`%|0*`GHUBKrfo*dduFzjkPJbrv1<r(Mqz1l#Xu2fB+5yfuy*z#
z*O8*x{w%iWyw^C1n$J>u_u<36vfm`b_|=odXf7)&G?f^&ZAVXz19t(<7+G0ac&%K6
zHk3%5cOW0d4{RMJ12;uZ+lak;w^O5X?NeFp8VWuYoW<P>vjQ+enlqfAVs1)m=VqQS
zu@8JpXM-?T)r=4C&hwtc4(~dLh8-vpa`^YppRc9{5^6S&LY={bx9r?05)KkKhcurx
zWO#U01O^6z`jLt-&GodR8c%?V1?jz1fr~N0IpGd#&*H3O2o<>|*RO$rL2FfZ2RRRN
zv;alH{gAycnzk1X4K2YkL-=B?P4=ju46f$pp3?eESD5}xVdfA%wUs1pFG%i0%8iK=
zS%|66egrRFwv2g051?jXyhQRfRF#$Sk2rkd#43V2BqmW(mT?yAX$;2SmzOW2Kl*nr
zoW6&N)R6vJ#l=QY19Ta1e{y&2HdOK-c>~;yrX-z!AqX{3IkgGn%EuBceF{IogBUqK
z)1N+J$P%0+Gk5@~&5(m~!z)XLe!9Az%|*@l@XD2bc-N9DgW`yTTV75v&`Cb;hnxLV
zeSg;&R)QY2oUE)eNFUCEkbb15dV!FVF$O9UA-K{?kBpJ{YwRK=2Jq?Fk?d**`!)AG
z5Gx&8FoB$<(yao0i9W)}(>mUCkM6t;@1N-3i3WgxEo53jb(R}o_(uK!lCqCB5XH+6
z9z0+-6;INW6!&Bv5gn<yU&xV}C8_4xTVgUD_c4DzA*m(15(t-?+6zJ@#A5h0m;3~o
zl}7BeeV_8`A>z<uRDjACQO7}Q4u3?CFa;8<D4mYhE_EY|QQ)KR9K$pKswT2lj=&s+
z1t==GzLPH2C6J}Li8lSni-@t{2#}ATsGiTYN^=pIcN{u_o62qZh9=Wz+1ra5iI|G8
zO&w&G%dW8l@funL2*n=D771G3aB-Q^s0i^lb?Qwb)5{kxAd35Ws7sPW?zp4pXv?&W
zXJm)izN&lRcM&B2wziyEDj*jBgZLlUVp<WHYB-fAPppqJ%m8hpG``577{p`a#{EHt
zD3g_~S)$UT2eD_af(4gQ_$@+9l4ZPO&3Xg)0pX|FRa*aGu(mc#7Rk3$W8OiYAsIDF
z&W|ulvR{RgEiv)?yW14(SniS3zlsPU6QWvic8=jvh<RoUYLH#~PM3KL@(z!YBXw`7
z@?^NH;uJ4uW=3m$)-Twrc!<cXtK3;)zLFw1cJb58mlu+8Knk8E$sP*4#qpTryiSZg
zK6+H^PIP2sF_ucWmx-Y~tpm4HahU|wptGgpm=92i=m60tyAUv_Ls|P4C1;d-^e}WQ
zy#d3hpbBC68FJtz`HA@~bF#9YbkyU)@^aV=jGikqY&KWCc{9a2R`-2P?JyS#Q=yH#
zc2n0j%?jsW%EzwvyuMU+g9lt$zKLX5x!!lIj4fQ|AcoQK`*pt8Z=Lr$a;e`JFCIa;
z$KI$Zf3WG*SH6g3IQ-YT55>sI*rX%kJwmVYZRv?-RZuO&%fHK=SaWsh`0)tA=uHvb
z0eA>4zN3P`By~+Q&vrj>BxA4aYIyzP-8<UGyp2B5dBHc~?W1$Msi+u?8iff^+wQ|A
zfOA%od=hzsNi%5{KFT*_mqd)Cv62h9tW1A?ro;$qK8aIIVxsVqAnfrqxQx6!J^K$D
z#I~<bP4R2)A5I-64g;-C@r*sY%7qGepLBTq0cA?t=lCA+3KPCUDEqhIYEU>%{7qip
zh{eLjTzl}~ob5mxYiSmT)I)ibD!yx`rs?F#OSlf8`?z2_OK~sdR;wia9Q^&jm}VtW
z;>loGEtvf3`?OFomepKc>C=&4I59pud-5wx%4o%FA;!b8ykbNloqY=y<RDT*h#6mP
z!z0Vd84AtHoib#Id>UF+F0~BB39Br7x(bN8;K>sMEv;$JR;?tu<Br+j%kcEc6H{4A
zU0of)5Q)oR-rs*o&VMp9s|W%bydWPKOUJO|zRW|dfhPrSfxa3jB6d~8$1h(h^Wt~Y
z=L!JJfcn=jUv}=^UBLZ-95;Hk%hY@YF-ySXfbQwdC{=OGiWaE!c!@;63;31zQoKwC
z(5dw&1P%27l@@e@EO)M$nPyvn4wPH<x8}{wz1aa84zM)Tyx29Uj-AFVb$<Q%^Xn%~
z+L(SxlCHrj(7X5)CXa<VXwFeL($)@QKwM^<rVS+jZH|r@MRS=`igB;ts1SPKfOb#{
zSn-e{Rq&ELUA(ah6Bu7*)eBaOOl-7{&T+Pes9esFixd2~+q6KAWR^F3DVj`=v5eo)
z_`?JCL+Gap&so%+zs$%gY#Cqzpdv*m&0A{VCa#30S5nN+WC7^~rSQYH6>r}Hyn~8k
zkz~G_@0##{7!92JnI3-Ol>!FHB})VrwG9V%KON=!_Y*_0lGXK?CK;xwt`1e>3jWDV
z99sVti)MXc{KKtZyA8~{i`Bm_bpCGtrE;dGnCe7)<c*u0Shs*g1P=u;_T1gQTQ}ir
zOuPk15DF0z=RidmRQ|||{X;!PuP|Q%eOe^>b$tBbXI+1Bbag&c#|0`VM6L#IX7Sd1
zR;&Ya*D&=}jBCP6iBkARSZ7I9_QC%qP=wy($3>(8CdB68PTxB#n~7TnITb;;$q4|;
zMq}{c_!B406)eonS8*%}-{MIGMaRYp+>6`-FTG>Ov^{!q3OD{Y<D^Or!6$d?y%FbE
z6dW%KXw{i5jR;;>Y-#`33~50b#tQ`@PH6SO*&q!*q*pIqEKEJzEI5d7d-m))LgD1?
z-JYX9U%YrAw^e51*8lk(KHRcIBjGi|8Vvty<Hn8jH-P8~1-ZxrO}b<2(Uvy`xR-8*
z2jfB^gIV7=;7nGFsx*4n^nN4}n{hl5?C6Y{GaHdra!Xg@*-%<K9JgjJ(;EkrAc+5G
z>FWK^MhHY3IUAnap}lF``2oo=XnKTbIZi#rfwKzu<BxG*I4q}zhoa=uZ0v~H?s>l&
zB6!jeFGx0O{bEE6HX30-i*8HE15}br<y~3w-Rs=^jNJv&Lnv&D3bOX;<;M_$Kw+R9
z@I)6+24^Zi-RXxm)PKA#XEUb|;VG1sA#fdn6C}HOWzHc)j6s}xdHdn6ks6Zdjfej;
z`*BSpv=U3bh@jlH8uEgJ1h=wsC97^LdYdJ26Nu;T@)tpPG&U^DmkVok&=bw~f(e5Q
zV@e5i9@#ZcZs3aBgM!NLw3WpD5%;h0U`acfWjyNWoqRY7_pZvy%dSnIJ{>jrz?qSS
zNa(vm)AQK!b5Kl>yQQRbXxsMojT^M>ZV3u1!V7Kn>XV8upp)QadGWw`)Sw_L6vAZX
zh4IZK`Yot-e!kLIQ@+4X9if6>?Bukp<(cGUJZ;OVwtiMqB55K9?1s-qaFvwgifEmO
zhLDKFiAC-k;7KnAHz@6pkR&t`3vU2ZC!VZwYx(bU`_DVpf8<0$9#H{&4KzxWFqm>*
zrGB|}OQ_a|U6U&%yz-gDLk|OKG7pe=GjQNyHac&)`wNsc>H{V~1hOOGHJI9=GGx9#
zeQD|Ynn_OmXP@d{K*s3}8bI7&0fzsD9VHo1&6h72CFSHi?<fCNwex@p*>=1D0YDOW
zuo1Rwp*RS+czthJn6lt9yC5XPK6)NLm27x`$eRaLB<8-JnpB$dmw&-SY>7w;d-m=v
zL?5|=cRYZbG<*J=XE*UPj<>mcd7&@{EaYHw_Gz-AuTZ*~)DiIxFW8?m{J~U~OYilu
zl;T~6!z9t!7XJ!OGF{a5_4Pr-$vUYRa@(qO>!u!N+SKeGC{-1)gK$}f-msAAZCIv(
zT?;sfk$5>dkZql$^y&$X4Vw^_g-lgQ-(;USX4FbyhWe6d)BkR$%(pLze<ZsiUcgbA
z?tF^v5;*($^MCK#Coi=5VjX}%Eg6X?6MQ%UhcCwOBLL?XlMOZ59HVs=1IGAea1mng
zn0Q!W+x`nxj$RsJ6=>Nod3g$%X<-qvIC#kX`TuAE3Sr49;^`nDNeB^l0$A%FvI|Z$
zFKR}i?;2J}lrwGACDhN5m&u`^EQEe`<fe8#Kz#L5XZ<SCX!bw*|1uq3Cn(JXF$Az0
zF-}|iSO=rpOe!G8>7aAF<|%$x)ka#7J~1tbc|mj*QGRpacI==t>!RYJbLVPVP9%bR
zN3S_TF<=>wqn6MWNe>3Iq9p^G9$>T`;xmE-S631jh#T%StlomAYoMth#dSgt@pES)
z6q*cR%9~BcuXr|hH;gGSvLIknLI(ohr}XX0E>J!4;#`pmFh<kgGQQ{VrNKM`vBqVx
z0UiXW=DdIFKtTlYpssZTz9*E;Qdbh~3Lj3w-D_zbW#d8g*wov?1Snr^E-{$_qr>1F
zl3;{SzjI{EJINCzC+3n?ynOlK#Dei?ekl~o-Oq3r(TBZg(IU1KjayA=VqZh_;sE<F
za9qA%4;tY5Fh6#7jdPR2n2Xo3<MUUqDD=n6EW0BasM|A8;;+KcF{>~dbTk_L$ou(7
zy!V&tYPt*?Pj4buHq%4P5LL9EcHm_n;AHgwB2tF8q)__2y!@JI@V~%UIaV0eUOyYk
z#Q6I=J=F;&CjPG`Iu8&kdg(#BhwBUW@y_7VXB8Kc4zQ|a-g|@x5I_Y~pSV75Mw3@B
zXRsHnBN=Gu#Us1I!$~dmsPe(h$t!t&p890Y{rFnkW29JE6g^1axoE`-A#vn6Bd)+l
zu;R_C0z-aS61SS9h+7sJHe(oT(6F3OOLML(GV=P=f5eD~Nb4wf#oH(-;0zQtQd?3o
z&%$?G1-*2A=%fNq<U<RiTz)An#bIY^sSz<m`kHOmPMHy*-tpDnSODuE_T*)0w8YaI
z!M91QOKr%9KVVOK@MXD_PxT?5BitIM8bF6Mup{*nc8zw&Afe`m4QL^Wwu54SPFVO}
zx_c(YkygM`j8>%w6-7(({pMZ8S3gN=4n@j!jW??R4%Z~*lE@Mr_}cpo+?|`W5xYhX
z65l;q3tp+@`SXt5yYC}o3=XE_nf{SB%fd}%jK|>DEg(PvSfIz{GHKnWO<B9P5>K53
zSBo;b=VJ_{VWy%n?#7KN<$IPubR!NwdUcQ;z|?@_8*L|IU1yad)S>a4V_%@<L9_jV
zfl$UCA2@JA>q3X=7>^{*g?!>OPSHs8oqVpbMa*`K!AlrZDfjYWSnW2uV<3xoY?+Y`
zC`u2Sd*W`H?m3j)n{)f;z;k??Ok=Z|GrxZQ>dIJ|)2G)EZN$Y3Oe)$VVEw6e6*_eA
zSiAP<(UdIl^(FZ?0Vb%BU^`eO(g-_7p|cRLGCawr_=V&-Bj~Zv2;;jEw04giB8eW}
zI^En?sr5tvAc7cObyPTm0u+$+BJIes9WiWJCn+}1np6ib5})UH0>^!m1KoU>;=uZ0
zgn(1H^T^*Z_ghWN${kM&iyU?cz(^m)NP=hh8TgR3=Bn{Gx-a$U%ozU!>g}irgSwsf
z6Td|;<V?WxNjC%84ID5aaN|ZW4J0Lv6jjJZhhGv!X{4LHXJ`n81LlR0((m3aUslKt
z;lgWz(fQHb?}x-v_!s!o;oa0v#wYAa3mHjrZ0w--P-zzAP2{VXDsZj!QBqp_<=q^w
z2fs*~=cfb*V)`hwDvF%f40>R)x{{c>vsl&|`GSJGsN$$izS~g>mV}3m?ZXI;CCL|{
z(l_|9XWnm*;W(h63doa7aRwMk0D}Y+pl4KjzqiLyaQQuS)22(r_X#BLR-=rl5C6>j
z1WdOM66-~VwkygQsPcJt_VW-i-N}_71!3w)90X^gWvaHemK)YY1=+cWyL-@%9SE86
zf(otFrvB&HXw&0_Un)LgrLSJmw8Dywgb#jVZE5L-)X>kb5s`$*hA3FMWpY<ovUzq^
z%)N2t;X|7zaiPU2(#>RStyH<tuuhmaxQ$IL`*N_7kh#1AaHRwxsiD4~0XVLq5drxI
znG7(e&%Mt9Te9;4R;T<+HX()U?`YkZEgQY~cDM4gcW1(PSf~T{EF|jPtJFvNp{`_U
zoqUaFA2S}Fz5!s}56vZY(FiomXpG(53;=y*Z4*Y9ALqf42a8yISY5_lr|YpNQj?Kd
zoF%CORjH}Hjl#jiL_@?E6#RG4Wq^iDH}hs^0Sd|6d3q;Lobdc8#FSm7A{xJX)$m|H
z&9^QyZov}j-<w;vmhyA#dZEwfb0Tn1d_k6jG{J#82ECxD>iD8ddQ`r8{rb1xenYm1
zx~7g~5X6ueWX{Z3Q<=B(5jx4F2dln*6?r+JP)LXcTNv~L_+@mH%$s8c%9XLzFPlg3
zu7$R1)PZT8?RkhLgi>x?K6fSX434)rqsmqz9O0@1FQ!?QdzQ=3YmJ~_Bnd&(@|N*J
ziq9uuC!%^Q_I|5<=Vyk*U+Od1hkTc*q~L(Vj$lNiIK7K%2km2x$Le)xbO~)i5rCm8
z$606wc8YNi505V9iWc71t-ev6QHaA|AVci`UJOeBAZ5_6WnD0y?1Y1`4L{bBprOBD
z@t3i8EVY-*7M&-PrW7Fq8Zh?uy?a7@Oz_3W2((h8Y_Q{93TIgm_oPkEtWcv(PR3F6
zAS+6hx^^YTZ|^z!l<BTks~a19QPrW?D;JLqL<m`72LALWvz}rMA$DD^$AKGn@6uk%
zYc3TZ1<KpJ_|JK#s8I-&!DlgefLlqR4`}e&_U+o~>*;-`l|JDOhR^905Cd=~l;H#N
zi!_v4lNuqHXvlJ?kPSS?FZ}xHQ<_`Z*1YB(z&ga=Jx|co!X(MKX({X}rSQnjooAeg
zfCP+)s3kMhl4ml-izo_k+vSC=4r|$zyOI@!q!qs^ErnO()va4Mx_Avok8an;hyh_o
z++th$7xcN{s@h??_I#(J0n<UWnI@&cK=rMrb57J15p(fwJ_kL7JBFGlkZ#fsLOLhB
z1i^7zsbbo$UgH%uB|nW!BaU6fe&Qf;(L#l3<sXE6<erT=b!s{l0fZC46;#JZsx)A5
zO*jki3l7ho$Pr8K_N?(^AI?xo2f9iNr4i1?Mni778>oo1&4pB9fR1K>x`sv_!Wbmg
zHNdhYfUQ(v1J-?fF%jSn>evAkDr-~5=evfMTfXrH8kXG!@z;-a!oVQnwYF~>dbip?
zm*Ct==kH?BbN&~33lIqthU~nh3l=;FEvDK{G*`!A_%tX2pHVnA>>p*Ja1tsnHmw&I
zs@uBCLN8=}<zK%S%=6>cSEas#F6R=G(g?e`Yh$g%f22*SU9r(N`AzG&h8AW39=qAI
z@nB?{kEyOVRVob)+;e16%5e5#syK&oFv%xDld_7~05HAQ!$XY4N!Fx_#1NeHi3K^$
z^nkBlXU>@MYJ3+-oPpIdDRRy+T-IHsjN*dmvwC<6e(zy!t_W+?1#{-O*bKsjlME-B
z0u7x59rW)56gfuNwOIl=F&KDY{!w_=X?lJv7eI}YbotY>cQD|ja%!r<vGM1xaMuRH
zv3zcp1xwq&^I#)iJa}*ccq4f6AmtcBcr`bf?uB>QbSOFf4lh`!EDSILPMkU8Ti*7b
z`@2U&i8E|NCP+n%UbC2!EZqzh`<;tXbY<{9gx}MQOzV1d{=$W7)_Y=QGV7Hig4h{o
zM>z^$!&h>1E$7Y4ph^|p1dN_JGTD_V2I)8;fDZOcJem~@^N5WtU@HJ<PjOEsL157~
zI14_C1$#tAhDC-7zFO}=UAcxCC!-o5Y#~U;Cpy))Y$i!+$AmMgXBU_AOYZen4ItWn
z`64`P&@J6Mvm>whNFALS&R&}OmwFAEZ!*yl9*X<+I=fjYR8g?;|EM1e3+<PsbCF}W
zb&j-0D*cnrI8pGAmLFn$d#Y1-R^S3bH~KX;0O%p`nRa?4(5<?99On@8CiKCaZt86j
zTnl#XC~Q`>nC>p2+(w_cf#gVa0vf;pU(!;NlPTb6^K|4y8-7TiHRqPi-yGnIH}xO-
z++=;DxLO}{n|;t6KTn|%5D{!r>(;G>urGjCl@IGbT(I>%02%$`wQ-}^BtUK$tTQiH
zBl6Dm>(}%0lB;jfp5<3pK1fx#rI)4kSqmmGW5y1}Lx81W=iLZp=)z7AQn)VKr~<hR
z40_9+;SKqEw+8|LCl#&ZM+6i?o|b**NC<F6&z@S=cHtu+z3zOWo()ulUZnQ&b+#kj
z;=l($6Luur$vi~c#*-oFF7xxXH8gVVw?-JB;ETjnKWI>)_|X1w0!F3mhh`<RY1y_{
z$Ph5OoOfKAPx6HvAiOtPa?OI)EUs@w+6n|?+@Fta)wQ&c5iKeYVZBB`&)E;fQh(0u
z*>PUjH9A0gx*el)WHkZc&iJuoF94A3aS0@t&;5LTUM}FNn{WL$GT7-!9$Rn{V^`f$
z{_CyjWp|l{UQ!~EJbKMZ3Fo0xmp^vnFqa)WuRY!QPpFJS5+)dv_*TdBf*n5(5blp9
z%9gWdlLnsWc0*!cel2<zNgE9hZbFjw<EYqe5_MfT8d5OIR3J_Gq3hr<nCUV}(7_c>
zv}s5N5~CUf5@0P$mMp1T(#%8#&}0q!UH({Y3twUbeH#?#Vc+eMS<o*ey02Lz+Od9Q
zJESKpt8CFXAlRVD$WS;9ls`va!u*XuMNp@EI<oF?ovUP4&y2oT`cZ7h1m#YgQg(&{
zlHx9-`Z?b%#8C^U!VA@E_pFI*KsbI+Tox>#lKPgkZAyGhT}eW;xjG$y^M;I*S@vT3
zgThCupN9$7Z{shZV{=AnhX^Up_*`<VPC9pq^Q7Tl=@QFo-OzHLF^jDEV-;Zp*3>uE
zW-qW6DTsatZozMVnte>&zzp<Q6}|AUGt@{&!H;E=$q%w?I?ku3a8~RK?)q@=Dd9z^
zpUrI58QHU^?4H9iq2aZ#h}gt72)kHou?~aD{UoC0A>x8glzt@FlXH6^^p<>TczWG^
z!1J`+xP1iz=rxt?8es$q%ENy3*v~uLj3>+zaqm-iPno_d1%95E#?*`71csL$z*9s2
z3hAbUx~cjcMO8|Qm=LZ1p$X_T9|t?Y3jy!r$B#K@6oG{BT?Prryhq9Z(>kU_04=R{
za|6mMd!PENM18thrNpx{dl$!0C*-7I7u|TAOl_WPZhnGf#B`nyW!csxV^V6Z4@1h_
z>x~<7ec?@3VCD*A!$YYZ{f~IQNuB;3E&Fj`QE$5zW9Mccy=jxSWxhTSAu@RZ;n{X$
z*I*4BdOp!&CM^5`-j;Fh!E?|=Kza3s=W03Ijn{{ymssX4Up2EeL-;Jqk0~A^-3I|o
z^ejI%32qtt$QUoto=S|ge)xhVG0Dd-km09dxH_6JF5=-b!5FguNbG5riAzZt*@V&f
zC)@{rp>p9l5aQ8La1>ltRwY`-BjDqw9}$E}T`<cWIB=ki#R4Yf6u<G^rt!L@BpC1A
z08YFx7VcnNe*%;bl#tGBZ+sSHOPrU5#rL#N(Dc;_lny1Dldy=MSi;e<`EK2RJkSo)
zztB?utM`VL?%SjXkyOA!9JKP8v)ZXX-%3wF^!<3`rcrTRc4hBBsW<#>I(P2*wL@J7
z&~EX3+o1GXRwtuY?OTCaN1509_2C;H!DfFtJ_L|9*W+YkY<789cER;oL$hyXXII24
zBN(tcu1v6uw7Ud;o<0<kdRE$*FJ?Z1Z#lU(ux?voe$*|z0pt5z#UsvM6QS;#cxA^I
z9@$O%^N#{>PR1Ky|LV&2CI_PU1dgI%l+@L>*eME?<S_aL_>xn_3BoY!3CXVQDrBFM
z=n5qzC0dhd(=-B1ICpNg9)`VdUc6wij3*g%#5Wr_83NatMVJHQ*ltR~u1R0EK-Yi&
zU8uV*kfb(oUi@yrIf1BdY|E<8$S(tsGy=8nisk*EFZxJ4t<42=gyk%76qdMTjUW&R
zBir^Ib^qqgsd@*uPu!{-Nef^teSu@B<fxyNr`O-krkK$!P=#F!`+MB@S@FW~cga_J
zN94qQcJY|QM8{L7!iq>yvOS~T0*Dhs-o{@-hpwsA`iz}u-D^><Q2}Ws-As3nRZblR
zscvM|i)|D197Eb`D%ZEWxB*sJ^W2}5p)G7zxw~tBX!j;+;gTh`m-@sIua%9J$;g%M
z5B`~dNUAV-^7XDGM>X1#-|-*pZ95&;3{qL|0HWwjRt(e(7$yb*0*P{f3fQsXbIJLP
z8T&#M%{5aZeZvzM<Fl$sLM!5Y^k>N6F5~IQuG7Uu_(T{q_aAzSrzMkN#=)zrqT(tx
zGz>7+L~X5S`Ht&|J9zxOs2|AK%r(NO!pNqMRd*AtC~<-;Y2@-p^J#xAfBUP6`wO!#
z!Iuc=vW;KJP;)b0begXD;Pr^)g4;eH!<SQqbEkJxy^2~~LvvNT7_U~lLP9>iD;Dui
zrXiabzcgWwnMcw6?ZRu#^iP`s)RysQYvOkfcUBl|O|DSZ8ZWS3@sh8pUAHXWAAVZm
zZ<>SP4#2ksx@cev{7qno02c@bpLE>OI>NU%Z_#3E(h@+IkUe`SmM6>eXy<6|S&Aku
zdNJ3G$tItT!r+c*t|!}Plmra1SyRRx{R%%f8P?o*e6r|ROhe`9D;o-sx_wVdYuAF~
z2mXgyO9*|<d@e#Ss1@y+Y&aru*eNZ^jX>~?%twzrNuQ;gIiZL%E%a8>WL5Oai01gm
zhp~T_1(ADYc>a)sABflBfz0RZbBQ1+pL%R2UD;7ZiQTn)`z_=Da;d9c#U?m1!Vgj6
zYnw5)0jzuSN6=8eh|?I2x<9U;^)!#_wvDQov69_x-fD^>%M~u@5K6Oo_BFKAv{B`z
zi*dXm<7${%ai_kMM~{NIT33d98o;M~{QQ~e(qVSRUAlIq-xavyJ>ka5UX{LTUd6=?
zd`Y>1Kd1nWhawIvSSjK_J;@?Rnsr7S=Ii4lj9OM>>WR((*oo4Ke~|E|Q*#jvOq}B7
zb*l?v6S%h~@W9kheRpJJZzZKX0uj_F@jEUquB(-QXckX>c$Of|&=OOA`D~e?BQYNj
zspCZ@c2bB3HX}GR(AAx(!Yqo1<hT6-YH13I)XprzqeYHk;#j5YSP1G>T<mzvMl@LE
z?k-TI2m?pzEPcn`=Gu{YAcC#M`K7azb3tl!=Nxx;wc0Ymh~=QsLHsIf@5=;-sXYiB
zN2{~+W41jfL;#rRzEtI-SqYp;n)XZL4PXP=hYdA6jf%*!c|pC$+9`Y_3oPHIuHCn<
z$&+C3iMO1<J+?OPO8BGE+RN`RqV9t+St8yjc9ED5q@7?Cj4Qo+)z<q@jl49L*?8K5
z_ci}~fbOYh&oaQ(Sq~0u#D`=^ENzFhYW_8-3=<veROGaoB&qqobOoQzK5gwXFfdZI
zh{mV*KN+g2(dm8+B!yeQP5bsb>q909u1nU3$Vlo4MiOc4cd^rkmXf%2RF%ES1He~1
zOL_94$J^Au*rpqxh{6I{<Ohxx`q6nP2Ix3z)p_6)Su!`*O1u#>j_aPu@C606{vpxN
z1n>g38xXK+_3An3Y{|VSxuKf)=wyYX<+R4hldH?eL)io<B9kX+@C4`@H|`QgmHa<E
zIJmF2^%kP@Vw~Xv_8R+bkV-F;U1)mvPNfQy1<@#BlU1iXJ^S#nV`8LhcQM&)?Yl?R
z>{J#c8V*#4Cr(t+;6uq}Ir_Y1e0_o2I+_^B%5am<88+e)M?f???Gf2l+({e*y7%k}
zSsjl0h6n>3GFOGcb<FlQqyq>f8IPztw{Mr;X(iv^Ef5)t?1I@gWX;rK>)hS-hYk%{
zho_>L<3-s{5_#t2$yRb!#5ytG$=-`leXl*!Sm-?(%`l%_de-7}SoIO)MJ`2YXB1zc
zV7gxz)_`7(miLGG`C>#kf43BgI767?XAO$~U6AnHLbpzd=52VrM6LBf_gO1K83;Gc
z6buRfS;12>VbdYq3`JSXh)A!BV46th&Y9Cnl^b^fo-Vv6r81^`PB3c`;ih3SZhjnV
zI!YHUUW}{5GvG02BaI)qnoMADKuj2*h^XM$RVU3#zlPU-0g617@UNY_`uhHWY)W47
z)JA6Mi-Lk9#kr%T#*v%Mk8%roK=9=0#o3RVhc~VH&41$w4qO;9d)3#jUM3pf^7HkP
z)*|JFp<)p~y^@EN=-eiPy&t40S|3%_1tdcJ=lpj9D{mrVgy}Ids?MEf&7NKRXTA_;
z@gQDTVq1F?o*y;>p_T1T<6k9K0}@<Sd-UohMoG3&1;9vN^;~+V7QTtnPuT0CQU<D_
z7RT_H=)|-f6fX`=%X1Py<I2jct#e$q<0!n}&|@VsBhE6$fe#-%p!cO5F+GE$00$45
zt4Br%z?vo@bRO_V4h}_Z@bjoFV`2mlsqw-WA0XVe!KUIUyz-UrPsw=0!U04^Z;d>Z
z&NboApl#IvGPS}v6Sy=Ha9so^0izLviziQxrS#@-^IVDuMd&Wd#O#g(7tXcPX^JMh
z|9><g@5rUzaA0&N&Dz-QSjLyS{4Tb&e?cS(44fzim*6AZzskUfiMG1aElf#cX3ySB
zaY>2=D$Jx@(dOw;ni}M4_7r1Kt{~?p$96U=X`$rwp&=+@F<Z*A=s6fD^g@4+o+iE7
z2Ix_~0e-TQhIHztzEn^R;D$!l&6C5cw1tsBY9$2=E30Z@pvF$h4Ua^g!V=cu26VvK
z&oM%bBIDMAQ=IW|ud6x|m3Z9-a!E+a(jAmmeNV&vV?(omMS)_LU1xv<qGFbPP|;@j
z;q@O`2qyUgP13@J!X7^D^Fc&ONE1R$We|&VT`vr1$F=7HdD5766e@({O`n*LwzjwF
zFLC8@7kvXE$EO%I)_<nhJ3_iLXvTievoBrsaYk~<Ig|xEhn=L}f)BIG{?P(}A9-CN
zv>z5jqo5n6(3>!p2Oy?k-q}BTchXUjP4Ea*Cs6O8J_Oj}Gw82a8K_7ainxL%?5dJW
z>5Bw!MWZ3x0Q;Y<<S8)vtjDbN$BrHahow#O?W<Qdb$*4quim`r*1I?C*vstpZ6sk^
zTw9^Cpf4KEwT=~ia>{8NTZ%``=S2c@ofY!HD$jWjo30lz8H|RooI8beAe{%spWaK9
zuBE$R(&=|fUN(ys26U8ne*1%c1b;}KD!-g|g*U+zV{ED8LrtA17X$^2)|?9<*TWF)
z55txzX$P;TFjPZ&K~lvZt%JKtG}<9_aP*=f4|EXZkq;r*|Ni7T#`RTyDT;BNKK*}{
zWS(B@?k;+)kOSjP<Uz{Jgc#i)4MOT_zJjB#q^LOG$%#WE;5fjRDKBY}v<D|7$cu#V
z{reS^vaU14dP*FXNs19-IMUfpkYspQG9I)PmYmq|x!Pz8S$vYQGL5G#{3~Mcl5ks+
zX=aD~OK8s*LI?@jt)aY6%62C*I*QmpMOOI~eeL3}P4d$yc0pZe#i!gd%^2xON{NXb
zH`gfUIx4m9-dRq&R2c}{{GB`dFv|;k`qnYwJud`otYt#se2Mw$|4~9lw?>{pbnl0k
z4Pql9ui5U>)J1UR%I{#NAZfz}%Ht>X+2X}EB>CYw^n!vXi5>x=N)!O!&~6f|p8qOL
z{0klc?*Srhpnsjf64pC~1LE#}fayB)Y}+$khnHt(I2x-}fwU%ZJvQ<wN&HKno|ZVb
z|8L@WQW*K7a1h$GsSmB9)#vu@dyKOWbqgZHvTQlInAt=2B0pspI64+u!kLYj2X)je
z`hO-?r?=;}AbsXTVa4NUWfjvMs`5iYQWQNsfRY3Wr)hE<=FA>tkR_1F$B*WN>^~((
zp?wv$BipXC#8KtHFKIissqqTX4}||8nb6MedPg`PZcbvW(+8~FtCvG+8|n=Fa@TMY
z;QEH@=_M9sHH)_YPXd>|>!&0Q*cqYM!D`_WA-W%_s;Td?MSBk~%4nOcQv#GWGvoX`
zAP=3ZOr<sFKlzep7J48LDjjySEy~hyv~-hc3hImm7j4N;xtT;LC<M?yaoZ9nCo~W1
zu|8(v&0yDGB*FiP<x2Ezi#<F^TkOCwkB>(Hy_YKY_;}HH>2`+>BNQJCQ`;j?cK33<
zcr8`K@UHda)yK0%!xkvYIS48%??jo5;W*cU*E--Zjq{trYBH$UR~a{7Z+$CoVH1dU
z=HI`QLTiL2R6Nwx(P>~e5Hr|6OUMnx-GmT^3><fb__RSS%*P`|kBEqP7(eSeK>6g!
zkp{DW?wL%@=$M#Nig&~`y+<tHOZ!Ob4pB3wzB0s^v1Q9WZ-ZH6h^ElD!Amr+I12eH
zxLuh+DL2G>^7Pd9G}Vdbx>2@H*Hbmlb2oq@AvzPtJdc*#f(B1sjl&z;8QYdc+~bGB
zN7;%8RP~Aut%g_!;vOdl?1(gm&~@B8anHqzLXJ#36@(}>Ai7~87RD|iDTyn-7nXh0
zLZBTYPyB;apBak<Jh<=G<!hRxyA}22k~|U2DN#@d5p;z-hHN|WeSG{+F{QrHl}w%b
zn19Q9^WXah2%liDMCyX10d!b#jomsRj}wwHQG^*5Dr)Wo=qpF>$FSt^bfDTlH~?W?
zyJRM6-~k|4_x7T?zo2*-MF2aClsMmfqgjodf0D#)LH0^A*RX^X2P|EE>;_`)r!OY~
zKkZXrWn9&cc?LDWB_8@U&TSc}te0P~m|^vGPSXPa&z_;lFLCRdFtBn8AF`3~kpj4Y
z4CN9i)2St45IqB;1&_RR?D4~gAJAIE3;vpHG_`VEhiC)ku3brfO2og`amc=LLtRH_
z&ou-L!smh-u#Vh#KVY4gv4uw0K)Ykd)AB8381ug`D}x0>)rTvJJP*Lc=Vf_0P?nwQ
z)qm52`Xu2bM=&Mjx^e5)gSPCzSZF>Wwg!ZOlUcMKnYsBo4ii;Aa)ihcE9^vdEm8~U
z*%+v7MBz(73hr-T>f+*2o|}c=9Y>R=%C6yb_DyQy5OHtOMXJja;sQIJNcIEM6@=fl
z^%&i-2Jvo^=$7J1qcflymWhTDF&$*+!U^!$$OKCnRwXglL9{Y+$`nPZa0Nth%C8dB
z6sf_>m|@H-X*&-dc!7b2v-B1&SRh2OJB{k%DEfxA{MCHTo42CwqO`gTTmzvkT$+So
z`j0wy)vHwIe07kdblk_lhpj6=e~L%D&nvDYMbT(X{78|_WGUQ_fOe13Ig+bVNe{lj
zZ%^t;c*0%_63Np0oa-|qq$yysx!SYkZ*dP{FdB@9%+s1)E~NL^<HI74LPUkad5kTU
zImZQJ4jYz-Kv2tu7#KXk1(6XZVc#R$_OX|9Ws+|YsHk6t;YsBEM&9#Vlht(|Jl2Hb
z`TQQ;=}5Vdo^zCVY`MQ(AvY5DxRBW$Xpq0fy*l<D@CtMvXbK(k+}6-_R0<>&<Efxi
zA2f?Ar$?ASUg26JMPP|$D}00>;40)17=zNEifqc!Na|uqA5rDhe*ezcyx9sl^!@Qi
z3P*j{V*5&5s3c(~e5#u_2M-(OMluR!pzx7Ak_6xjEP@-u#zpJW8)^jt0aaUy&}?nz
zzf!Dq8@jN$dx|7mu-r5Q5==O<x!PTD*gy-IP~KwJxPO`vMu#Dd#nJN#+P_r@y6{~o
z4dT8xFGp>Oitsd7LOd0MbTiT>Jo$jfZXOUR5@{ZiI;sdKC#P1bv^k{{JEEievLvFD
z$Qp^g52XqD90HV1QhVYDdU%daTy6Hhzr6hITV1>48+b?1F870D1>sgoZ>q%H8i6Y-
zxRmj)g2hKRc8Pnov}tsveike}bEwU&tojGM!Rrrb0X$Dtw6pyMBtcbO&A2%Qi`lbj
zp%qS<t&dOr8Looo5Dy{Vhr+F-{>AsO8jauu<Shq@s{+O~7~`QR)8M^$1<!*)q-px7
zWqg1li`Y~e94tI2NjE~hAZ$cIG89A?Cntm}Z+1wFe`4_`J(`CNiM1yB2-h3#`8B+J
z|6Y5n{TXL#Sz#rnJ!Fjz6l4!VFHwfRN2!<h@Zp}3o%{=SQZqDuGj4p%7^L03TQ+a*
z!(FX=;lJDiVa^?T=P4X>*O7lyUzXmH#}~IbtTTdju^D_Qe<CiAlEk&<8-K4zOp1BW
zA>O!YQ$`^IfTlZu&v2uJ7N`i!aTFIKkmicoEzd$FH|CSAK;a^gRCxaS^+?hCO|R?^
z40dwhz{OJ0*^o?98a{hM?5SBzM~yd(o<^(}vo-`5c+mVt(}1sprvQ`SV%GNdS^-Qy
z5TgxfLoS(4zvOnZ>!V2W<KmW*je~OF$fsM-y87P^0ZH(5a2t8VkW{tQ(9vPodnvbZ
zfFj|Ps_tSTQ^DupiTR8MK-H^Ah0s3E0meLj<)5b^mRr265+N7|4I0!&l`d)Oq~zqd
zMZcOK<LKh`^_Z$l^(v4CZU1)1uY5C<@ARgB$p4!AlG9WX{#vW@^W4}1&=KEZk+X9e
zBt3CJ^(xdj_OIC+wEoQ$oBq9j1&^PbwX<pf!=Ib3gpxa=ynq;Ot%?c;4!QJHpD8~#
z>Oa3VI)bbZL(9nuIUq&U7Por+mihNxhEXABPzVVQt`c12NA>@5=B9s{Pp=tvSo5B=
zS5Sx}|48?ekbG4kzYRZY+*rTnjGe=t!~bNU)}sBHYo<~@Emge1w-t|14baw}u8_l~
zA<FYxB>{>Hsba`Iq?-{!5Rb#k6o39&6J-P6y5yv!4}ifmSN9i%p#0^3n?;Uk2QPtC
z-<46&R4V*o+1$?sdE5RG`6t{b$_FTlw&A;X_x!u+CNn6&(dJ1vlLMmwo=n4GRbx5>
zctAL?H!C{-l^ES<5cN}1Z*EN#Q^cYzAkN|Z2oFX1kswTtEF>tZuh`B2z2g3oD)}6O
z9-vWm1vh^l1pfqTDob<oz5(6Fc%A^mD8vY+>2=D2IW%Wibe58GqDiqApJ6yQ?_4~p
zSGn_X9oaT$*3WK*gsp3T8>)I0M~}X)qPbMO{L?|Y=>k;^z<nzPHktP>S;oCxiCSLq
z1z|*#{~s6qvyx%v@m8qam87uvbP8q*KhKh|YObBse&YR1${x{>ojfk1r9^)ZO2A}M
z{dT>V7hg9-{AZfih2*XA798o-y$y{oGmc!DGWp>CPHwZammRob+5h#TTMG^Zx@|vk
zs^i<_PA+q9RT`MR4c=cCY?(7~Pk*I}Yj+Jiu-G{ve(?ss!l-9IE<C$)yC`qk^p8IE
z?svu(*nf4YTzveTcTo}oqbS8;^D`yd+FIkpFSZ&_b1@eb<3w^eLmbU`!=B<lNF>Ue
zw{AV80_p7B4voEz_n(JiwY;igb({XHBu<%Su{unmTp=zWN%SR{hAmsSYS1UAsX5C-
ztLf(wKGuI*Bi#)6%LB>p#qhi32$A$gjJSL278<+XKg3&%Z1yt_Wfr_*lUN;wB>efF
zstEe~srJ{@+;;DEqT$c|=~Px)>Qi4EqPP&{PbFE$BXcJwo);C}>@?MXTQZ%Qp<<8^
zKV<IOUwoE!9e?bM+rGVR&7`I{8l6shW)TGUmpGE=zOH&WRy6DPti1702=lia*L4}K
zd|SNxi4VAR^Bcbj2fs9B&_2z`pyMVHrSp3LFd2GB92%svFS(+Bw>Sr(R01SOJ1k!T
z|BbORF%ybZGsBObI1#LP2+RakkoedViAryFWP+-qLY{aNUjCmbdE++nGvas7pFDFG
zT^CwK!M@)Is1F`|De899N=0An*g7ykk>sXbyLT7*&4q5^3~TmEK6}=PnYVT?zNxkN
z?YH$_Ue*Q(kv;*A$M@^Gv}yyFJD8odfhT!2_-EXJNP|^CX4L9d258E7CG7E3uhG+x
zgwa=WSS8OmQU0+cD#H^Te^qT>qY|2e!UQ3*l>uVIr7KoUH^xN{agVu7B*PrSGrjwm
z{2E)*E9b_=6`ABC^bjAZl;6ve60>Nwex+i`wyfu?@_PLem&v`)@=sQngJ(ROA??by
zVIRNMvj-UEy;E@*KsYGZ;D#rxHOvi+6P-&?x>etNLZ-wdCDHt@hf)Wgfkf3U)jsSx
zV3-eO2&!t}*FQ|mEi4Z5V|d8H)H2Qh%f=IXc6|s-wUL->YwUN-)1TE*N<QQc7>`pN
zIrXVi!^mzq5IYbrk;C!E`n_$`m1g`sLR(L7x3?#%IR0ybdTHbMMnhArE{W?FH9fhs
z$&Cdqw_TH%-y3{x;9u{aw!BRgguO1ZXj(#vkL>EglSEr?4-$DC;2v_|Dt6qbgP#J$
zT=Z%pmfv-u5pw~G=ZFIb#-iNg<}2v?N@d&T&C%j4x_dd6p{L{3Svo;2M|jxw+F=j7
zQ(RmOJ(2H=lh7xUbH4Ayg7yc?UW-=-=|0#LdLhu7{Qx>!UkreE1KMJvh3$A<CSJJU
z!X(|K{hY<1Cb7z&I#~arjmGn`vWeESFtm2_@US&&>%N@5gH3MC6E@B)*CEMu-SfLn
z3Vg6FZLx-Qvq|4tu3DNJZjHehoEILO;%mYbp!gf9-=m&8Yi&i-8IqVdpwuEs_^zOe
z6p^V~dmhJfL!lh7g8KSKCGFm|&v12WwVIC~$;XOM{=TVtgKy?9kDKH&EUbRVE?p+A
z$O#J$#*S${h3*q0(F#TbLMv6#Cv^5K5!-e}RLCcsDKyUC0GYac`OwN4bv4kCqtH#F
z$ab+Q5VZN2-aDP?X<iJ)0L6jrVc3x)19x6WBxQsR11bhb$71vcJ$v*xzu-#CvTfVI
z*3wc_eMKa?{CpKI3~bOx@HKR1QLqJW+9XE3-Fr>q0{H)}wwCr)`<r@}q3QqZzG3V>
z<W*>)QLwa9B`#7EzI~dKL^l`)J(Q{3jW9l&*c$J#*26I?zt@<716vxp|4ao<#$SK=
zk$zlF4GjfV_6;2)wu@t<liHp7r&T=KhQ6Lp-|BTe_ieNb+O@Kv_u^{{iuQ+eV%_wa
zc=+~R%)BiWPh58NjqFg&Wjk_;R5~~z!vOI;xBB<G&A|VF<f5B>%oxt>Bn2#GP3hbL
z5{Q|0yVI7dPoMs6dSO7o^5XP;bK-KFJWa_t=-B3^tEu_<%a`_T+YZ;)w|*5fK~~T@
zx|tX_vT4(A`IwR|rLuf$)KYnduKNg91aoUNUgKrO@KQCve8^JsW{F~*n-~BF7sEMo
z_5p(+cn5EZtt|nb<ZjtLrN3#*rYOo~w63}n9xE;O7$!^{U-a{Okz|J7ynDBj)GOAb
zW#gwuj~_GkgP13TzO23bDu9-eOr@iF*p)P0*j@gmXZhycT>3-|49g2jh*gx+o40Ly
z>6S_nz%QK}v<YhJ$;sb;(>oY+Bq=Gwr9cP9sX_?nLJJ4|;4=a#SUtUVZPKgWAKBY@
zyv9C3UJ8n5@oKwR3Q5Amzz1dycdY_~iK}D$8ulw5lF2YYwlS#La~7o%7<y-E^ItAe
zFeT{MQa5nbowGkqU(~ME|5OBVA@T9$#3f|Z4`Eig##g7>yHCyw?)&d`7>z~qaDf3J
z?S@X_OQ*KKE1ZhOM3M;;?t2Bf_k}hYJ$j#FE=en^UGUf|qa|?#Nd-g@cpHziATRIe
zM{{&H;WM-jGpIB4Ziw=h30$PdK5kJ^CCk$->WzzN`byXV6_v)6FO1oi-R{1{G)Y-v
zwXJn*c-sDWI;M8^GMsb<-M^C%PE4j~&dLgOrm7xgU|@IY5<N_-X{M3hK!*a`8MZ};
zB*n|*J=9)j1}As!{IaAZx^lKkw?+R}MgI1;FQ@cuKl#EXp9Ki0lDYVZQ#YoyN!+6`
z@-VP*pQ0n01rMj$*mNmcJk^jk(iIPncF%99F5f+DNq>zCKTl<a+mY6g=IZLvPv}nx
zE4V{}cRZ_yqGI%o8)_j-LEIOfd_=Or9?fq4&wi7%i`bL)Gj-(_uhSeeX20{JCr=Xe
zgLQ*x*9P_v?OBQ{Wb0bJp+gTo#n;~EQ_S!!6As-to&9=6VyRs-lQVIvyyL&`)9Bwn
zz!~zF$8PJG!j?oJ_>w3U5d7xN(u3x4iHWz2K4FtsoZ*+mKEZ?`?efT`<&j8y0)u~M
zwd6Z{XKP)g)s;<+Dge9pVvaVa*I@K${6{7i9sJSZ<m{f1VLf}+!_$Mw!hCZ10Yc)a
zkaz7!{x5%&fZswecoXa4T@a@Mg+kj=(cA+b#&>n_D1=>i*+L4!+d%8F8N|Lq`}T+t
zSl3xt%o7E`6WBswVfg?i0?UZ-unxmI9epK*Ey<BW^FOIR@g4G}lH~HC6tnc%FY>Fn
zIDjQ!{S6$&xVR}ZXNrE*yr;Nno=eC*Rx#{A=)Qr8&{((4A!DP3aj1aXZm&e7hd;bC
zmy6>*y<KS+Y?4vx@cY1b#an^1@jd{=JYd>jk6qH=zIAJBq$xo`Kgd>*UGkARP@)}e
zN6*Jx*mepT%_dl`r{MG91J>5of~;(r0GF7H65+Sse#1^xe^S=#&nWCrcau9I{KqFI
z2Lv2J2a`tZf-DBl<d#g>NF~f?7@RL`p)p;aZNT9<kbRL;ME=Y)#`)zu4HwESDS^fe
zHp#iCYSZI28Nd2N@mTz&`285)P|FImY4;$QahGL3GLo<0Ys8iFiOm8l2QbN^2q#A}
zE3W$1{Sc9#r{a~jwCD0TNB5ioe1=!jFkESPAI#NkT-cMHx_9>izD7odz=!f57vhI^
z@2=!tY<)bx$}^pNhWzXUmn7Txm0POlRlr{U%o+E!Yhy+}wJ3z_fG532LA1!p3A_ku
z;}Qa$OSh<wdMGJX1689nq3MO)&5H%_<>qE1CHxpC>HOc-b&*aJkn#AnRgg_=A(Zhj
zhSit&SiArr;P<Z=6&-lo$jPEzXxHcsJRK19%rV25;p%<e`3bxezKnBT<mBarj^4oF
zLj<>Mgg5=vLe!a7J9KCc0w`!!zTB{RQ(Coe|K-!CgthmxvYe3A<Q`xv3LlQoucn7g
zxjH8DZ}IBUr;i`O6B>`}E)@_~YmkiQ8}n3iTDy9!865^^E?R29(l=)<teekmWv<TW
ztp{5n%~`&3C6jY*b3u@?I>*6Czv_!U0P{K&KTlb>@KCk>W0V~bxTS$A%F3+$S@v3;
z!cH!FPwo=xPBzYD(BcH24Az9_XiP8Zh7CraM@8Lx{rMX?Cxi%kwjv@(5Bpter?)PG
zr3vfq41+^TB-`);0|9p4uE*Mhng**A%fCCiQf2@>&Aa`<f-}MdLx>+SBhAN0sgDNI
z7T&;0&G0=J0FQjf&YhT5aaQ|@U$lJrG~>j}-%M{#v3g5o4~3Pqwu)+m8+&nYHvjYq
z6PkY}gLn-8t~5Fj`L`TS9`boUt-Lt3320|#WIC9=vra-#97P;6Q5}}Wk(QG+YB9<6
z%9Xzw25y~j2t=0i)PT|y->G1Z(Lbe&a9J>&3^qi2ecTsNEcAW*?l~`AYVIYQM$*hO
z-R=kai?RJcec9#miPqyWbhfp!GGFnk-LJ!jx^|diYP#^|MFtIGvFd_W0z8YaI`3sw
zf{d1<JlFjK9=p^1XZ2-+F#s*Yr-wzUjCSkqes542VljBk(8{yE-`C|gq*MbC<eCj%
zb!7fOT7WxvaDZNXs;WBYU8CVkcp6FKFl?9@P|jpN!Vy^%c1G-x*zZl^ThjGNgrHzk
z8maM)Y9T$DJ4yEZ%OCz;V=!0X)xSUgL`-$1;Uup5GK~eaDILtcgr0_&P2M*w+#5ST
z#_({Xe&nqY$gO7UYJJ?C_2L<1BIN_E|3<Uz>@*Y=@K#Y&QYwA>_B>wE2w6>aLp|cT
z5`O*V7cy!jt&@7uc;_d+_>y}Z-n&u8&)A9kLV%!|njq$Ufe74w`O6<BeHCeiqO|~!
z;{eYJ>x*3*Qc<&T6UzSL??lV<>|&!K{}t;hG4cr9f!rBw1(nR|QTy3lID@H=7_mq3
z#p~AvTsTCwM8j!9i$FuFQ=qep3wY;xC~vZJdMzQE#!xeIXIY<fuK}JSKr5&sZ{xgm
zXEZk<;_AYWL`g!#Dk2<Tf<^G4q$A8G3=12irM2C8%94#8rObLLt*ngPzkixS4ofT-
z;xB8OZpfaUGUWzqFj36{k4nBEPeNwf!+HRGJUfz7Dj=A6M8iBYI%0?q$QTIi96gdh
zF)Svr=W7BNT<5@mRipM32w*4IF%fz0-0vJPYB|&(q{L=Zr_KRFr`1W=3EO!ao_WqT
zTRZpF%vq~RSB143>(NRT#{|m7T{Di~xp4!4);R7gsp0K2MRm(5t*X;b^CvD67OJMY
z8qcfoQYmt$Q~-8dLN$k3(e6XMi3_YnKB0xj1f>fr#uE?(2xj?F_d2v|hmnK<x<z)d
z^M~pAQB$0EPEZ53_FcO+nIRw0ZxnL6UA93aK$&;$-CHMQ3U7Dy<wv~DjxE~qu!7Zo
zfMyu(lrFp{q_SXltO!+&F=G|`cUpl^9yI=p#cvl@k_TDjo3jFkpCSo)cVJ(yy}F_6
z&`;C3+^$`a(0@Iie1qe0?b?x*O?((!bTS=CJlaOI1RO=CxZGrgNr~6hRWFm?U}0%X
zg$%C+vquPVm1`P{5Z;S`#w_>>KGFm=3*0|RpW(m;pFaB63uXk_9-ZA$Noj&Y&i(s)
zDT?9mu@UOuWgAPoo=ugo_c9cRBh$60Pc&u@>avYujxG7BynHlbCpgYOOn_;AKvPp+
zD+EgE6M!i+%^$lI=`mQ$g*C6+t4=U8LqaqW-6uCT+~)>_E!=oKDbF#*fEOhEKuQO1
ztZ&<@72^r7P|IU=N4rec%a1~XK!MDUaK*sd(dwOTzfHLE5hvr%o;g#qYk(Q6kM57A
zu_~eoJ%f}~t(*VCtQg8+)USg(wY6%qDK-4xG}{+Caj3y2H#j*0{<G6dI_SBR(FkE3
z`CZ=tVV1~;=-GbL=szc@(TjpF!hirOe#eXr4vv@Xq+&o0y8^(2Baiay@yn1o-_IUB
zx}4}i#g9-lwGcr2v}FsMEfY>ruCSY7>*+J^B*hc5L(frtbz_j)nb%Ax%fE=w1FIWB
z$WXh<9*p-IQ_NE$dMc=rUXqIJ@lcaaK{$h~h3fH~J<SSBWyenO{0KH?7xc+$N%f|>
z-e9_D2J#1ur>-OlVW(VKISd|57Uf^0h?Fr*exLKLMBl$7X$`5X-nFZfR9sw~GR?3W
zde0aSp{=f7TV3ASeGz~G$<yxM71ZZeU&Od0-piqUPRJBGM~p3$J2HNo;a8V0{_W*H
z*0&B*m>_4gb?%Tg8a;i`(OX5XCF-D7nOnZz!lBcaQgN;C?9CnYdetZ{E9Spjat)E6
z8vE8Mb?mqrsiaZVOoea6PE5ejhDJxEd~8h2cX8)SVyR-jf-%C-eWvr?$Hepp?Iw2D
zbw)`jpuQ;`!uIbULl17nmC=l*=5n@4NMoSt$)!1Jy?0JlIC<)n0p-_cdyV}`q1yu(
zDQKMVT#g88=<d}(rku$w>}+PcPxP;FNp7>U{=R2N0-J|alT0jBr|lYe1_~}Ykacrf
zq|FK|_P4C!F7DvW4m`nQr+IYYI$HJ)j98&!owJBNnj5w<QCYe30VAE$U$n7-Tb(!4
z{^pYupgAl3JWAa-!{!RAq<zSo7nSedwM+U;^*%f;f4uPyCGUCi3yX}0<;E@@uf6_5
z@v`MsxwuFoQ4rvd>{BD*=g!3*kGksi>v!eJlZYp&5chvvSY?7$FHcPPe-oEX%?tv9
z2^I#1h7ZP4O*pm3NU<L5Ub>l_mUT{F!??Ct7H23Y`YOWrl9cUv{KuT>02F6H8@b{3
z;t_KiaHxKKQUPsk0Z!xfCQ@y^BBTW<PM>}ULDG|_Pi-q!aaqH;T8s{+36DL$r+0u?
z*flOBQf?AXQ<tTbn4B{7-+5vj<i4*hAJ_^~nK>M2f5Qw&{qJkmlQ4y*xOel7hrRUV
z6OgUty4Z*M`%Ann1eyXY{kzvZay*08F9NFVvY|>L9A-#2Z`^ndbQRU$qLwtv{O;YW
z_Zip0=y1Q$;R|54qi0BQ@YW-zE^GW#P`VH9+c)#+)AN@3kEjHuM;RS(W-<W*Ga)x|
zRL}MY7F~JyQDa3v$D5>aSqo{GEOI(hta16-v#9Ku0|LZ-Vp*ZBEGDX;QjO31zpBnW
zuEx9#<Beg&OjJ{rY%R8uEg}@Dm{hc#Qb}1_D0_vn4kyGQ%PBEYIGj@wl8DOKq9R&k
zZKOh3Q=*dI?^Bj}{V|`hbe8A&J@<0m*LB^~oa*pZ_j2|Ta;D=kTsQ7*`HTsH!`zuz
zbjIxtu~w|Z5uhUF3^hna!8Ef?QfZ%PZPyiet;qg1GrLYDGC*3aYKHwAF>1V|m$R7s
z2BN4X&MqfzyLx&aP~I6Gee+R3!cH7cZUR~X;|g>+i8#)K<R(>ppr{27Dl+&GA>ekM
zxP-)8CT6@~6;X{;(F+n1k&`|Jv)rSH4h;hxgNE`F7K>wW<@^NI_Mw5!sTjBkW)r*Y
zIR6&_#72K`?nyKQ9IU)Ncg76tKb<QwwvjS?C<{al;E>dmzGLI#>a6N4H8#`2!8MFp
zVL+x7)?<qv=H_nyGO^%K5-(;F&H|tYbt~U+G7Jh?<zuC7?T>a=@8IO(Vwoacv&QM*
zp+n{=EVcBiRoQYCM_k<j1N<MJc@1Xb-@VJ%`zIyA(No4e5P<VH+a=H0wIL2?pUU`<
zNk?muvCSkNNgNio)5>Y;{Fb7IXR`UX$c{#i7;!}SIZ@xgIH?YDCbt9?;ig<Cw7&?A
zgw)Gcj8ogY($Z1ZSSQ9VKKDpCiUZmS+=XmI!9wkQ6;v0gBkurma;Qo99TiHRf6;rk
zAkbNz<aB6Vxp5<`_@uB`QeTI>Kw&!lnOhcg0rY|vihMbG3g7Lm{S>~#zPB}5ml*DG
zX?7)io5%Dck#B~;woUcYO>^kW>BecsUmT9}bAkRP<cd5OaW~7CRGfZd#SGZVqvB7G
zR0$z21M-XgYf8XK@9=l;7R70$Jr4rSpe~Z1;oK#!?zanGbi$zaK)Bp0$Jg{EH*!Yx
z6`v*&JhPJ7=ugePeR~mcPc*IAU_o$j9d$o7P^cLjmF|ISs~ImGxWlq{O==~!iDgb1
zvOh_<<bN_tT+d-3mU{a7j0s{ZM-JEIV$p<&9x^iEGW(1KRfwwY=m=HR!9lff|M0mx
z13iqqIm<}IMGXWN$)F=v&jv^=^6aQ4|9G~z!$x!8!Yy>1xg&zs<~}FcI6ZT$8LS^`
zXQ@7Ffs4o}O}6w1=);kRPG36AS{k!C*?J75_mwM+H(th=)OmhkK+CE5<Og9m(r<TU
zWcI_bQ04c0DcqBkl$4@AwDRj1ncYYlmTq76`a$9C+u^G}LC&)LNPm5}vk6ngSeq_2
zPvasY?ozju1<fwbBt3i74&~{u7=2dX*4xXA0D5D~#_V#3(7&Z~=ghfnd$RN57&a1Q
zKax#$bPRydAZnnH(bvJTR$ON;7Z395rlNAkbYau+-2b3kJ1_i|%ZNGe*ZB;b^LoJ0
zBjis`ZlXkB_7hbKd_g(Eg3lWdyT(~TLX3TxQ2VmT)<dJ0mKT@Na7^fFPB5M9VQM%1
zRg_P%YiNGTKd6LR6!e_NLYur2RQO>Q+HnJ;_hn=I^GDIXV@iNZM;^Y4wBNDiRb^#8
z+<=ghX-D)DJ!nCuOzF`0j??3`KgAi_O~<(}sOR3*)QE2EF^jzoPn=Ez#zINeauOI@
ztQhJrW5vlQk6HKi@+I`Q8L(5BJoWC|H?Hh((E8%>`%kR)0l39;Bx|f%bnFxt$JBOO
zfmR<Wb)nBi*~-1r9VYcwGDAK4VxjCbs05DU_5}HbMcyGNFSt95ejKH|Ga|xyYKiPG
z0!ZO4QO-dF##+?X_frhw?=VmMOvn{0_v?3*s;7U~W@RTQ0jIwsRA!=w|NiS)Joyzl
zr?(hL(<(AH!HN1IA|+<>;EW;p<^y6on*jg#bvMVEJnj5rv??wOHZVU?pT3}$GPY*x
z3xlob9`YhWY--%PYn2h9a*hgPgrbHMXU;?{+cJis{N0EJNssJpEAXeipq_vr$8IZ#
zB(3D*fAHcZeUnnWKa+9ow~{r$QBJh|xiIvVK%W<W%?YRd_v*=Rrh{**ecqVdyrSPx
zcVQKBl5k~%xp{{*A{TfUZy%JlUEPr;rsl&3|D_QcF)wTB)^5D4M#2@>`U%nfA(720
z7nd{ff~isNE8v;(wE?B?4smzRX+6Hyax|=$ox}2`CdR~=YVWXIhDpA9KuKX%mQ|nU
z2~m`QJ&c!!E3;JVGbO*%xu4H#(=Q4S{rdIzm~7a<8U66?9mZ7!`T0x{c$Uf4<d5!7
z8$Uq`qbk7E$NtNOAk*HecP15b2+_05tjPHi7AKR%jQd--alL+i7IrwmL-Kc`sLQ0r
z%rEA5nAJAf^igXMr)+A!@hTvL!E64C9kAnfGooK*-=0qPB{c`%M{Rc9PYwQ8+OVYc
zOqis;S7%j`z-W6I<-pFC{MO9e1i!xaNY;;Or`!B^3r%JBb4x;%wUb8pCG1T3JVh}!
z@{~ZK8MyytMTNbRx3lq{ecKVl?c-H{cA9F|6DTyo7roW^6nJS_?mzi-cnC%sF`jxh
z4{#-}N4IX-9*ZNqRq}x37G&q7JGBmo7Q2pUB{H-AKB-YCXdO@@R}C38$wy_3nI-)#
zXq3F6Kv4LB>sz%OiCHAA38gZyq2ac79QeR}((XD^kd*gJLj5)IasvNi5w7KwDV-Es
zgAN!}Ta-`lWoGH((xoum^+AMdt;F^G$v3*Ici_dO);$R#9F}JpO<z{9!w(V_){Z$E
zQ8-`2mdksY?dIktlmPVmz`JCm43x@ka^si4YJ~$q*^UNF_@<IxW^MR1&_Mt6BgJ?;
z^GjyR%3ux|jU5_veQ0&77-C7(`xg!}G?Wagoag74wLh30vjMfSF9yEC`9><2-^h!K
z+B?Z}+TNYjlJ+|Crh9Api^GX`I63b3>({4`Tu=8vw01^<;!Cl6M>&&&t=!&y8^1VY
zJA&p^hwcV@;Y+KSjhJ`uqQm88BT9jMdc^j?8)UJKxiypmG(`yoS|}I$tFdD_>Fqe@
zZUE(FCKD0|pR9?U+DdYN)e8!{z<tMC4d|Hkb9HFmiwiDMf=xhTqHRJUqvbWg>EKR=
zn*^6I#zNw7NRqT45m_p*3U+@~3+Q?R`MAf(9hQN@1P|kR@GsosG?lMsfAsF!+V7YD
zWc5j%WruVf5(JL}3K}i3TBlAdJogurT)y&FyI>eF5tlC(lPCkvXXTxV%c{`T*B9h9
z91N{tkI$$EuL9wr29ceqxpdq@TYh(1yoqX<IO<eR&oJ$)YJF70&>j(#B<`WFP~4;R
z-`#b5FcW81GV1p4e;fJTq9+O~CbYd;wcI$a_!q4!IXUy#%<w*hVKxN|Y?f+qI0FO<
zwoyh#vfdjsl*24|!-$W^s2HIlC~A>3YR31;NXogC$3%kK&vA$->O;TXQHi2%?Y1DE
ziO7lpLr+|<G0<ts;lTUqW{L-L6U!HU>6l%1`SX0~^~2L`g;|g^YI9v<f<Z#m{Xgs4
z#a<c%LaZe;P5J@Nq6fxdH+iP6(9yU(WP6~^lqttWi)(3U#DeC}e@?-NFSR)<Hb^RT
z^09X^o4;O1aHEEtZmx*jMB0&t`^5H13pY)z2+h-L{OG9>y~<jVMTkd}7Di>$rEml1
zb!{*j-gA5A&Q;l`4oa^-u(!0_1QQPXaP1w#W7^0z96X*8)e?d68vn=RpOaR!I!B61
zWs@Jy1xF=W_H8;}vO;OdFr#?)O`;q1b9t=T-p2=#PdH77hsty?j~%zfw#zTSb-6fp
z3Ry&QvMAYqYRLQ@&JGTjj=9*C8akK55g(>AGdI<_?B^svacoTO#+?P<`NE_Dgn>eM
zmPZ<V-2T0S=V#~SxZ{JkJ(D3Hy{o{AbTV8b5~)o$BAe{JTyi21;NZwZD($IGza?)x
zu41ib`P8@RmchojPCkBPCP&p-CGRK*;P&Ly#a)|vB(?HO?(AeM2DPtmigIjffaGg$
z<#dqfy+tILKnexsLnUJGH1F%hu&H^SC7Q1A%#o4kLJGLZY!rE^8rtz~iO4UON|M$0
z6pp^PF!gR;+(CEUfc`!o+WHt5UfQp8Ea$-;_#5ydZKcJCJB7XL<bR^f`VztCs%Nh_
z@q=&lhj)fgmz={~f!VA$oKpSD)vI@c$5Ba|#R|&@;BMPLQ_ER#H>%sTqWv7w^x*0Z
zek{XW2zp`It>4!nrPa82csX*ptG)er6XLA5+}u4Lb}&mJ$M<`(*+Sb}yB&sbOJ8dg
zzF|8i&19^lN_ohp%+i6le~~A$%LQe+U@uVeq#3p&tqHIlW5@VQL;Tt$y_q06UpQc_
zh&V1A-N*1q&PwS6OO4UbM91PbmwKu*`A;70h+))@;DdTPJL(|9exk54vt)TH101zc
zZ)u|TbcDKE_WE_g^<P_H_$Tp&LT#BAVj|4US;-iTE^zcsA+Cv)F{uEUiyLO~VdjDb
zj^#eyIXCC;30ma8c9hz%Uwj()Hw>t={+=K_`Us+aPc~kFFi=hHaE|k8yJ7#KfDJ_n
zOg)JtjCqc1OsD&p*RdbGSDekf88bAaZ%&j%2wUnU`Yv<4yev|pQm$u<$}49|Nc*^F
zOi4zp2k_`;tQNh>fA(yhM*WSK**$RZZP8%rm2}6#gW1Qju9Pfdt|~CUHiGVZPfyMo
z&|O*CG=*dR(9}_o%|meBxqtt0xtumtP}avUUHPovxva7YKE=LU2bjxRM`lY;y|_1Y
z+znnJZCJz7TENl3X?@<NU8|O4>Fn^ON7?LN<~Q@ePlr!7*<Ej1z1IJ;@1DwuP79qr
zZWV&f>nQfruS>Tsqb3&aolxjJu>5+O<A#GA`Q@vRJ+KCvBJCqsOKH`cN9W8HqsA;d
zzPB{K4GEK9PD^<Tx<2+9>^n{V^NRE(l3%apg#H7Vb^WiSS#6p|FXArMr|C~S^P4=y
zuWG{lkY+Ul@ABafdwUh4puzgdTdBnH;;={t|CG(YJA2kFTxfy8xc!KPa(eHtsR^vT
z71)06Rv^?n{`09tNesvD8!>%gm3eP5n&b%AHsNy8av<P*vQNLKi;P5vjvce{IH1>g
zsCveACyx?%t9DA}=9g){Pb@or02&T|0>T6$z}^MH=ty#al_YDa1G8?ty0~&?n)iYQ
zQ+%gmvyl{;A@%t!BKAdDDLs6uS-{r9<>?N=z4gYgX$)I3%(Rcw>YE6mUYrTs?>%sW
z)5jMhwL5KbUH!B$L<eB2a>fy1)f8c`kez@7SJc%p;C4_N6gg(m6Vqp!wrWGzp<Cal
z87c_9^z})P!CB;w`u&UIifNZ|2|#~G(*j0m?>Wcs+9SQ^3}atK!+NS1v8puHhKYlI
zu8*&8e*9hmM}*3hvwTmyP33!L@~I|RMjB3hZ)pCN$_Q&9?TAg3nIU{KFp73sfJ&NT
z*fB$Yop{%VLF0?1W@fFdZO0yHs;l<xW1D&5+<~+sI!+zz_G3&R#}?87i5-)sXf;gJ
z5hG?egQOXHxI7Sv*G9h+y%#&5+a&)qLHMrON!+o(IH|!@+pV8gegPPeJ3S+uEC%>9
zI8RETURuqJ({PM66)90NtcbX0;OVk(uD|~@H#dj*CtW^2yV)(`7Exw)u(P>&DOI-g
z0nn|}mtajz&9(J+?0(;2W4JHTPe--<j^~<7qkk5SJa?dRBL-WRwz`6}by?>E2T_pi
zj*&YhlB@eYZyml=Azc7>?K<;J`9wHF)eG$<*hc23c;G)1?t1cTKNPb7dY4V~Xo(*P
z@>3Eltpii;j&)|g{;Rj(dbk!9iPJi6TmEYp6iGGUzh1!+9{n}Nw?}@o%Dnul?=Ba8
zfs6*~C`y0cajR>OwXTO!c7~jfY4kSz&%L14v-<afFasdV=zZLMYl)+<%Gd_{tQJ_t
zb;&u#o04%olFrOouwamNE@v>pw?bekbqihvmS`KPC~e5zjQ}<}dU7*dtY<P|up<3w
z){0;oo8PjZh?RYw2|n<yA*VdOAd#lJE%NZ_X`O6Y8-H{VS)1bIXs2z^-K`Rf;=2c&
z6j(XhJ5B_`>WHYjRBuydTR@qdJ+^?6qHPL~>Af+`L-q;0CBu35h6JzjGxn4ltCkOK
z>S?O}FydNiRhda2Tj3B@?Zg$ie!CI}<j!r`g%KXs_PUcC9g|WA&rDYd{(YV#X~1NX
zZ1hc$SQ&e#dgsm5SvOun)tDH$b?S{o+!KUfYc=+aSvDw5aue19R(jPH`Tcm5`Az)D
zAt0>rom)Cj{Vl}=gu_V-0g{OL{UT=G?|fQ*b?9bF@e9kTMl;ig-4lw%&E4L=F>&rW
z-5^TYY~ZDAQKrAEXSeUnqKie==H}}?{-N|L#hES(8bx5mrF28d)Aitq(SBPj4ic4b
zyz1L&3x!7f=L$wd7QR<#rbWdOPwD3-vD9#+<;01<IO&`LvCi3gT5s-y)4FNz_k@RE
zv^jN5Ts&a%==iYW+Uc6gU~=Q@lUI(-$g=r|Zud@~wiMK564NJD%i$Dw_lgsc!b6Z@
zJYv}|<}krQ>X{Z|$n^v`2u6$MuUe!UYj>7m7zRLQ*BRC_k@7Pxpkv{G`1ogLU2PvV
z;0$eL>|hZL>1?N)w{E4cZX8_*l_Tfo{U`|Y#u(yZ=E=X2Uz-_!o5=)+)+(89s{cYI
z6K(Bv<tr?NIRtDTt7O`++@0zn(8}<xGrJCR;a>c`yYqyInC1U(x`~M=v{nb7155)>
z9$jV~FO!9j%(v>T3dJQZAvSg>CH?3vR+AVy2A)5BSX?KZs(*<D)aK41?M%+A)`hyL
zeZD62IN4E~m1oVEVS3;xH!tULzqvev03k;oP-M?e-13!xWw(M!xoPLYXCVksVJd0~
z3x;SM-AWxYc>Wx>zJI@@^3?SjkfQtnBbY9{nk_UX?D2T!Xx#HH@Pz0*xM^NkQlK#{
zlztTh?oajgs_0HmchYyc*wc3F(2t>b_iwwfKrkYdDy;oMvrAvXQxbT`F|N}L>6ix+
zK`BFuv76pGe=dCQ%1IXEMXzbQZsaHlg(()1f$G;PNeIbFNrxZ?E@GCG*T%g~tA8lJ
zU4Dsu+rYrhX!?TjN5GZx7tW_DH^?5q_Vh5T13gAA=>9lr1gR=@VDu1Xk8A46JNrC{
zG6sFEF{q*bIc%-D$wHeIPMnn5#oc@Ks5pbrDDdtv7yV)iZ1AcEBQ7C?7#x`KxS>(y
zoFu*<*#8jIJ_PQfYljaVDrHn6>H7NUfz^-+es3QN`10t?{CzoNxpXy|g_)WCw6w;j
zZa38g>f%KTE_253OqdoWw0jIKE?j_Fo5B;K_t8K8XV_>SDGPcOKC7<dOzkY*I}mIq
zGxKQHTPma2ahF$)T>~Ut(`IH!^)sap3BwHx+)jD5YuM8g)BCWt!FAd+$JfBM746En
zn{2{3lD%<&CAomk2O?|4>PnahHOJR6^v9uDmL%KlMdnU{%JX6=Vb1BCMe1H_NNq35
zDj-TgGqdUeZ-f;}@qf>7GD<6Gw3(n7#R`C+Zj(TCndG-=HD20*bSr(+C~TYp&+FSP
zC?F8^X+cUOA{?@>^M3aJ79ZB7r8P48k=4T6UB7<4w88!S(wl%+evp8bdW_z^DhJd#
zf!PqTT(T`PLfBTiJH0NLVh@Nxzl!ZIy{O>xO5vw`W|mmcaq*3veR7g}6z(<fZr`JX
zm#wJGup!Yz2H!Dt`hkdgCUeKPbs4&DwT%5niI%=fAc6SRILHa!b9fCPLY~qz%igMr
zt@-}&xyJ=n?oLZfBY(a>I_>1FHqo8fbQsN0kFyDc%qM{E#p!?z3vF?Scdvla4b)l@
zjqdJ)J_47$Y*uGrlmLAS(gNKsm{@-`YEOK_1^)tZIN$Cwtb{xrP|i?~c4(;q-zI~}
zgjqn#5mcL}ye5f61yI4_R|<w`ki6R_-y+mzf`h_H56diN!h_^P;0^IUgj_bKt2Y?o
zsL^G}428ngL>>_EM24-*qV)8rEQsm&tYWF_Tt4U><mH^-rU$DJcUqTKBV87r!Kfx9
z?!;exRl{UinQFo3PEbePXE}moMb`7`&iXFGsFL6rYu8^jjJZ081JGoO^uCH2YdEPA
z^#f!~mhQ|Cvv7znvRX_dQR69CJkYcCQc+>Ok|sZwpU(${F)(lJfx&Ml4`qOe4NVaR
zrSf}XGNTFB;vSYtVSp0f!Kz8e1kwy(MW{FYx^hLl>Y_&ORK4vM!Azu%j-62O2sM)%
zLwq(>p|%DTq1$C+S2`cJP$M5U1K1ZdBTg!SmcFho8WHl*G^Va(M)_E}!Nmaq@!7K7
z1=x7hcfLX|A<XOD-1hF=d5U?PUV?M|u$Y8|$xW*U>FVBi{J4=ShfebJ=^E5|8Azyk
zqVbB0NleUL;z85q7bREJ;v`_gix0Mr7=eDyzLB)^M$K;Q*REbo@JJg?S=P*GrW^;>
zJ@L0_E1nKa_;K6*DQ;ei{z+k_obh5ISWkTklyA9o>OHV7ga+-j0N|iEp*|$|Kyzne
zf~sUXoup7cUP^I1Vp9cWZ^=c_3N>|gv=O~bLWcM0Bc&{YWYxd_9EwXK*5P_=H>VW0
zAJxM)IQSe01kE&NKh^Kwlh5T7J|PJONEjy$$4nM_m$OsR_`RW_ZB}grw8Lcg0rq9I
z@yQl!BPd0mimPWu_gQvYQ+mAJ^{t2T41=-Xw_iVi(Fqn7{YNoC>73noAAXL=it|;v
z+<1S^SYqN)$Hc>c>*x~0{cQJ*nCuhRpUT}4XO|1UOjQh_E<W2qlfznp;I3x0_r!A?
zwesW}F;t|Uho$J_I{fsB6EW{M_UD<SZa!*l?94o{^vxS$vWI-cVc4tOGdf2MDReq*
zVI2%5vvuS>FZ8vaD4KE6o}PMZkT6dI4q!dQ&boOpgo*UtK5EHx?#u$L!?pmf$nly2
zdT`mQ^Luy$F1ud!&lk&=z>6s<E9;#Wzg!yMPpv&_mZezbM%`Ir)SXU+$wbJ}B@akh
zaOAC%;SD#}rB8wuExLDl?yj7lN=r-CkIg7yks*#N6{W^KZ9^J{O+eIqnj$AJQ=T}m
z5P(L|GF?#N`M~~TP{6Qddt+lu$j<ES)K1*C1fQ^^;xgg{?v=VpN8cC4rG9Q~q$IbE
z>a&Y^6XvT9&dxj$9u;zKOrA7gF1hqwRTbRDunPeY#pc4`AlW$fK2dpVYStf1P{&8?
zy-(Ex?e4FqLx)UHUwJ<>^N-ZjAzEHAHVA|Q8;2OBXA;z+1Iqd<3$Zq10(xHqYXe8m
z655#^+2wZ~S_;^T_K(!+-H5M~a_61qc{}cMa$PVRRF*RACsd|ZGh*h6(p=@P--*Y#
zk-24_E!2HzLW0{`Qy%%Ry^@mj0gYpU5#k7f8<^LNk4}@Ilyg~*KS|ks@JV0+X^_T!
zz}REPf+Q9bI4v(2E;$;no9kr-r8@v@><+O|yidD~M@d1CDQP%RuMW9iP2cmXX`cr+
z3gAv<CW6sE&l0hTt#+Hd!^Ps()Ybrb1}VC`MyY9e@oj4wYbB5d9sGrAw2?ZhTuEI+
zgAYG7VtE+@&oyvKK`Erm&ct@<+LdJIgI(hLiOWB|(@F~!!Kk3ggGgKb#bfXB<8LTR
z$+DR}bD8`iI3F8aMdAWl@`7F=G4NEsPyj<=rfW_0$B(`~zW}Jc1&EKYDgI+O451wS
z8X)FLwmJSg9{eYD-U)%*%_e8_;v`Sw`lE}=uB(KYIBPiU`>FzY;$H-8B-CVG<2TPM
z^_Wg$1kdJI5H6-&JWD(@Ks|!R8=Dv51e`Q*+~Sw>=+S5Dixx*yd_?H5#mcNNA)?VG
zE@I!G@L+cA7+Lp#(nK$8DGlM~!vay^!v``fgg*+PXgWwT9>y{O=iD6~^TDpR62D0l
z`h%Ia<B94*c(=5K2CRJ`cjS;ELxv6OX6Uz@G6E+O;`F+OD{se)M`cI;Ndx<`vTD!2
z8$KMH;c|)|<n=Sy^EPa8f+~2GuvY_(I(G%qG*4J>RhAP9+kJUIf(oNaBj|k%nv9gV
zAhlIhH?CjrB5c($T=o*4)Bzw0<_yAe;)f6SNf~VkOwj$t!Kx}MRrFYVk@l_E!P>;^
zg^C8aF#&Qe$q?^=SzW!L2P0>Jc6yLm@VYj?mPw1_u2L5X`(410;PnIZP?i!ZgbUtn
zAN>ZO&tk#^T_X{c7J<jtvJ-)$4U|z`w~|g3uNBBJs2}+FyW>*g6uqAfD4clk0tt?Q
z)c`opm%Evjr8ju+LKt;aIcS++_c<jEB@(S5XJUXzg2Y_HA?!rozI|yN_Ay$g!f-q2
z;6RK7+e4dE*ROBi4ehxgFZL}=k1|?(kb9UD39D@0gVQ(g%jEk*Hf3}VDNS%gWTOCY
z#JUQ{%!T8V)eevs8TRprhS0`S@?wfB&w9c838Djv7;5?zBSy45o2JoGbP1d_L^e##
zt%IA&n?^%_CA-@k7~4pmB7=Z!6+D|wNN-}>1lMpV-sOz>uC|5h@RB>lc?jWF3oW9r
z@5>i2z`z8~K2)L{?JMt}x`Kue+fRW(Nyp6KFo%(HK-iHWSufjs{(J*-Pa$|R2qssO
zM{)f}=5dOc#8JVrBVH8tv*_34AF49hiQ0h$O6>pAi@i;`a_iQV$0dB9m9Oo-Dvr{7
z%U1nb=^(F70J{q*{j=Wop9d*HQ*X3<Y5rR|5SW)oo+UW$Z#cb$Jp?DMZ@)|%e++jO
zG|^))g%gMKz@t-*`zBFt{>N+Ut^YGPTwC8FkBlGFp1%$M^KuCsvX&S1F3A|7aQn##
zTX#O$*Y`;_1Eo@Sz~EqqWdZ7BhANkJ)Y{7@5<Q!hz5L1A_b+;+yl8sGmMvS*5s^6@
zBWbrEG6iQlYt>mN(VV(GJ}JEHaAPW4(fY>0Cc^I!;+R3_lWj27Y!)KF`m}OvVGLs7
zAC-Hu05tl|7$|tK#QgGt#kNhyT9jRL&N7daO=L@Rh|ZshSD?0Y#+Vp)1BR@RNlF?P
zB$x^L{iRenDrEA8{b#-M;&#mt-jiQX;`8Z#h3&EQzZx268#?ocF%OU$$|urB{`hvN
zQRNfaAoWdh%yh-O;u>K*NVR#VV)Lu<pZ<O@t)a_OEs&F(zA3!*ZWAgw{ZO--Xx%Hf
zwNWrV4)}rg12x(!idX%|b}POT^O|2PX0<SX`f@R!B`!gkU)9(eR7U;8=(>mE_$pk;
z>k(8%63GO`iu+0ZR@i=rW13&0U@-CLhz6#UElP3jn^XPAx3-2TCS!`ht;^1>Y2rE~
zS^sgJg`c#`xV@&LD+{MvMBV&>gvevR6^|=H7_N!!j$&aKj2%|kZexDfxV-u8zW&El
zi&Myei{_Qbn}@9sv&>}{Eq|*=VeZ398aun&+#}*8y{deSw!+#bdme0xhjr^(5$%|!
zjh*~WM&9z1rY3Ag{};<e*v;HB?GG(N_w+7=W>MWk=mXF>;yLtdvjmEpot>#-SCmMS
zWr{K1aYNyiOw)EnMKQ&hiHH6h)0Wp3J%bJpA-cC1I!$jzy~1Pqxg#!qFdkLSXj@3X
z*NVG-pTf5MSo44FUiMa<M9Bw}|8mJ9JRt=2)|*WV3SR*8E<v`H&1GY6de#?>Amwk|
z;s5;j%5tObx2V$FX{m;Jkv=Lrv}HAP)rSw#xcd(IBFVQ%@t+?dDwr|ZCsi_JZ>L2X
z{)DSoVGk7r1=fZNUUU}P!uiK0ga<T!Wjnv`^1mOiVmh7mWkN$&$nZGcMc;WLwz-J*
zNMm~54HWqUc7|C0|Ec);!$Gtx&`Sr2!$FmxFSv2BE*8C^4}q00RwngOTj+k$>mWJ)
zEr9%ZTLrtemo8ss$*tB7OU60$N=5WDL4UMX@RUPWRMDA8T!rw2R_M1LqecI8KKT9S
z6&TLz^Wy<|C#-&PJv~Q73-$%8WJpfJIr^j_iDXoeenBSNq<qTjhU!&Vbw8reHVEdQ
zS#Xa2r?SJ>h$nowf@?)ZDO5IMOz`*cXv;ZApEQJ};Y53kR}g%2xeG%E{&=Z3f>ep7
zYdJZU@&WzG|HWq6MmA_r#BJNwK}%pQGcT~?A$S)w3ePFz42oK0JVEX|WQgo;_Kxqd
zHb`*YqU_KVqYg<ufBx4{GvVrd|5eGpvVVoS?rY)(^_OE>6<5EM3rPbcY7iW4ISlb*
zTK(sf;(I@bqlHdD91b@YhYmtQ+?f8~UsS<vJ7q0Q?48OE_V&W&BV?4#Hzl11071an
z3m5)Y7Pd67^-JTob>A69GDpl8>tQRxENiDF02M6on>jN!b-fU<WI|CzYg)OjC48AS
z3LB@Pt^IDs<d1rYdRTZ=o>+HMRW+bP5y<4%fhh<Y(~}neIDJ7kxd9*;z@Ne$>VmU2
zJDh{s3QeWmGI*yjv=5Tt(MWs`l|J1&JZB%zext?OT8Gb`y?6C$pCLo+9*_U&Vq^tQ
z%-lId1bxNy;eQ(kJD4BZF!%IcxXDR+=HDc$cBTwi7_zC+EwbNs*RJ0&LME^w=$4Hc
z#9Oa@;N;;UAPZb{bNx<~Lo^%df-y%2A+I)b4-5_I#28EV?AC2Sr!D;T&C)6q<^F%G
zw^gtMJ3F_1doCQDtFwk`c~SFF#8WLDuUh+kx~lMD$k3tGLd)@^HPys2DmA$JNP2oY
z>tQxtwqG_!c%NkLF=HNHzAT)Ag3C-EXHwF9%KVy_v@FccXG3tO8s`S}6*K>43XL>m
zBCWvV*q=<-N3zxn1fGe8V@EopU>L8ohThl8W?1V8FV8Q#Lj+hXvnnwCD!5GB!pI$o
zp-q~-&@sp&EVR#2LGtHqTKy!jjE}n}T@!pA7PmAM1!FizoQ+V+-r8ai8f<8P8ab$y
z>DEcTccP0G=m|ozAZ+6mYH@1ctnGh&KV^1F@Bx6U5FG4vJ3`!YMa;&EirX@KouG|E
zOo(a4m3@o?h+bT_k<RQ9PBMgqkV7pePnH6`f4Fzn?$f7-R|?<>eQzF}*oTR26qIh!
z&rrG^I(SgFk)b@D131&v8&AI9g0&$6pa=nt;fBr!-k)T+wNgpYHJeUiHZF8>G!j?1
zhvLg6HhYGk#=A_e<l^#Ah%WwY7yxqs{VOmheNl)fx+WdLa;%c2m>ObMzyN{?6f%!p
zjEdjj<|kCiPSHO+9PB(5LoabWtDC7cY(L=4#1rp0gnN~@T&0FjW#Gm&0{oG!XIcQ>
zqk*qz$n2KWJjawlG*0<Xsa)+kB2(c?8}h`lwPgw=astO-6^b1}JP6yLv6uk=$ApGn
zrS_cf>wEM;zz-Q(WhBB>8jdMZ1`{6t+582s!0Ca#hm@y62Vj$OX4%rEj7t2zvgKm5
zSgg((zS}Uv#;y5c(@WT%#WjzP7MPIlJO?U35aOeu-2u44Tj1#SeS7vS4-TfoJq*~S
zH%|9^JbPk|6Ot!Oh?cJz6#0;@%r9D-H%1iaHuxl*!J?w67cwk+;{cp+R~H@jTy~@<
zL_TrT?EnsW)_L>gWQXp@B~KS6s7-BK<cBVo9ZI5y_&(jgFDQD6F@+jm1MVJ>1YtQH
z*d3hQA=?Aa2`h_^(9a{88jffZdCl<QWs8g|H~+3sxz<9vq`D4b6GvG9k}NHkS3lco
z*?U$k#;DUSEI-LERkoxL4E^)_$^N7Y7WftjX!FN~bV#IxxS-8o-U7+hZSW}i7qW}`
z+a{hmpbpVXHIBH)xh3Ao9_#$2M(zWymi+f?x%Y67=OJ#WukWBS{Q8|cDl1~Y9)CMP
zdPc`=OTq%qO*g-T!dm4^<x8+P1Olcbj)B+`|2!|Q@J`E#6>h46Lb{&NhVkHRe*E=y
z{-#d_je+l}udK)oU%zf057zEIdt5v`j=#CBU^<`i4_sXX<TE@ZbQwh+Cm&`#PuQ2=
z@{&9Zas0&xbo*6b3|&?tso9HDc(Mm7M2Cbg%$^HPCQwww6&`rv=G3<3K7DLT4%le)
z+xi(@Hk@y#c<{zHyWGWR$E5zT=h&gRFNrfN-W%^X9ozWJw5#{^ZaFXh{fwUUkqIC8
z;=q@wXYRWBXP@exd1uAH9~)Ox4IK12Wq025Q}d@K7(O>{>Y6z8+UIFMzVef>;*77;
z)8>zByrKS^-50+<Sn!Qf#BY?P-yD$m&D#F|^)|DRf9nAGD^08Ksh!{1|JaeOps;E5
YPZf=B{%_`FG=G9g6Q)=kH=D8Uf82kiIRF3v

literal 120680
zcmcG$cU;cz-#&gJWYraKqM@=$WhB}I8KpscQly=xl!in|vXXWR?LA3L2+`2q64FxI
zyYF#cSKjyi{rv9x_xtO2eIB2OcXVCX>vf*baU93<IA1rF6ppM|%C?k3p{zJ|^w3EP
zg~^RVng4}xKK^EVda5@5SY#k~<Pc?+{4YE=>H&qqO*wW*TE#KAr`g0#^+)smuOT-#
zF)*HCT7BplH#f_QtIIbSbKVu{K3Nzue~ni}ra@e_T6g?`$fGd_pOwdQK0T+DyhHHx
zb_O1;C2A~HTRi43F`U1yg?aMQz?kV9%7^+TI<;Pj&V7TD&a<gGYHP%&e@IyS`T5Pm
zrOdsQ7W`3O{Pzb6#eLDi$u<A=qv`SgAAZ`gyNmV>)Mxka-!GGxjL*)_j*d32P1IE`
zp4X*Q`TRs>Wo6KQtCmFFoai*#udcX1!bkpNaqwzhwO0cld0)JEap}?}uFL(>_@nBk
zJLA)+sPpH}4foXB_J1wh8e(@+R#vv^CV7whb)Ll3)ID9x$q&?Jc&DP|^w6h(y^`bK
zAK>$c<qQnIxzAfrD%$tTTOjX%xVU)N0rI<2xzAme;m-nBOI#Z+%X#3#R{x!v1AhJ|
zPn~ie`ej{r#_L&BRO84>ChD_i&)&X$+g+P9JDNY6YxFrV=~dvPM?wZ~ZdkX!<FtOm
zqWp9L`A{}WF9`(7i1zB$t1F`v^LsNJC8qj|VjslB#2oZunw}ZWm$ds;-sd`+vt-E<
zmMshssyaHa>^i>)+y49%ENojHtE$@3-rg?os{eJPRsM8x5tH|>_2eU!Bu!dLtR=f?
zr5jh&r5Lte>IjM5TVG$Vu6OCjLROu-j~=Z#vn$-yX|(y`R>e>;`>v{Q-@f(BpFH`c
zT3z3znDe5b$(KzH=H$bqawF(BKV#Hgld!+_^57~(F=b_CmQdk8Z&u-ZM`orckFYO~
zp3Ssq6gv0uVNPG(<Y1X3bD3RNmC3;O4`dJ03&}^hPtaq^eflFV*yZ<&jzqm&5wV`i
zsIuwNR>`yP?;brkZ^fsY1Z^(Yu{P(v+>4VVy=?(zi7$Q@F6J_?idO#nIa0J}be}G+
ziaAw$hm$??2R6cOyhOj{LeUDWmU72@wx_-l6TiG9r`ld!8hl;U)6*k4^T#(t#Qv7x
zKjdPl;&bc280%lF?>24dE52s^dfQLCu^E!z?;eaeu~5(sIdbZ`{ELwWGr8l(J-Cf4
zpMQ?mOmiCj&1uh1K85>uLl*f{(DBEQABOL4UmB@DUsS}KnEmZfG1utAKT;N&d6&mu
zbc9Z}d2ub0#=?(uNY0KweV}klgnk+8=$FBk86tWy)V5T3@A=Z@9^Bivn|yq@-Cxhi
zr0R+L^ylX%f=VSOd$9U@89ly#|IVs^`Oi?LqVL>iteE?Z<Xg9Hv22t@KrEA{ZrZw4
zF-&5*C#~#`$Un($JNWo=e?@rDj1@~Rk}i){jttm)KGgBsO=T|<DwGZ3v|W~3Amq?f
z_u;|T#pGIr&X)#bS%kU{70krHdNs9Ja;y+5ewEv}Ccd8C>Xr3S#gQYNq|i}r?3=rW
z*d?pB+~$&$VDymnVVfRKauY{(MJh1#%zpg%u~dAtY298U2I;#20WZw!QyqF64$r-R
z``r7Vjt_RY^*Oil^74B7`i4okOpJGgaoKP9Dy4k#qzw{JKqHx((WCI{;@RmwH${2*
z+jEN`I#<8k#nm)4919n+KJ@cjD1D)XFDtrbe#*o9_XnaRr(+C@??_X3Y9xO>FFC0>
zR~H_qj?#+Cin99iVblKkQ=1t*Rw*24LoS>+dh~_}%Y}mR+WeV)j{RT1eEBjqHik=N
zW)s}jb%@-#)a^QYG%ou2%wKP5Tvk9p0CLi!i;sFU&t<X&aV$+$QBk?QZtwH-biu!G
zGNz?y`Q3k3ub%#OL~?1ZujGtl$s@kV&kH!-zw=?Q&3BvSW*itCL^}PBZYSSF*-cMH
zse^mYy!N#3uEFggiAdC-U@{s1`SS-=)cpAI<5UJ_vHk+L*~!-ERkRwPa`!@`Mb_aE
z+7G7Rk)K?`Hs4D_MA`S53L<Xt!f!5qsg|H+(U9JmkkzsS8^FgWK3sJQn@7I9O4ylx
z$)}ra%fz)a&6jwb?x{=h;;=bdWlizmX0&|S`5b||NO~8lK!#bZEGMm>MBC1#$a3v0
zOP8Mk=RLTO%E{%7{|t(}v!Gv6E5mfSoon_0qX!Z|0$+z)Az#-OOt17SiiSEXy}iA!
za<3J(Iop_NLEhztk`RbI;AV6k3~GJ&=+WQr(*FBh54I{Yu_F1IBTvllU!9<pAu`#M
zc9nbVo40_T>-dkk1+|x(+q%=A1NUL^mwALEXO3{W*x{D)Og}x|-S$n<ZQ@k=F>*=n
zFX??iYQZkEn)nMWzxkIawJu*TmaQ76CQW@c(G@3p@%L>JCi1&VUg=ikK8z_wWuct>
z*H^Hwu~_MDx_Q&4V4IKIrK#pEuY|X5-8$D`IKSjA#4m@>bL>vYLYZmJb5T=MtJ0*z
zst<R}YfIWmKJv8NGkT7?WFc=(1PLvaz8ez4$;!%V&*9$1=`vK&wn0EZpkWjFWvP(4
zkIakfN~s@P6J3@!+1w{&*>s?s_EqlFA@ubfZpQ8Y!~fF0n_OV?(W6IyeR(EFWk3l&
zgA2gRUF7NC??nr{P!X#dXZ(QDqc>(|igt)i^${W6k)otdzvbw@Ti)J9hn<|9uxt)V
zmj-{fMMOt$o4c;&3i_?)#Wl#J9(%B*V#^tQl+-Q1&8{zBx6(e5?L|*&N#6RI&-+`O
zyybj2MMt{*Cr~pr8}HqeMei+o`-o3F;smW|RdLdbMpq7M%LNv!1i1xo-`Oz5X5Jk;
z{^Pf}*NE76sf_2}5&fMV-F{j1@Zq<r>bicRp)ENV`=+L*l3q<9vafw;b!_)>c~x;r
zQGB(YX=$+Vq~msSdz1}NXv;vMPK}qjg`z|L{2XL!YwI=?$#s|>>h2Ttc%pD`6A(z!
z^7r#Q{Fs(I?oJA{K%;OU7;UmW;=8{2>9Gg#@$p!CL3#*Ks`PKp;jbHdGBU3pZb#n<
zSZPnCeRY>8J@;roP^3=K`}=?VRDnt}`p%cDHBLPVJv8d+Q*_`?+|u-5*sPAG<~sZI
z+$^WzuCUpujw77*D&A}O*!Ejq26hQ?XfPo#0`(yB&LZ-$1ud1dZK6b|Xlh<+bs0T(
z?%avTyUx75wHmGGu!%`$Lx$PxP?Tf{iVs06-ybOE4Lo`#=l{;-bI8S(ale!!>o0xp
zHVku}=v05lBstZe<cnt7+g@frJ3Tu3tD^mPPM;onBPs?uP71CI4N31p;litnR%oRe
zeU{MUA{XKwO)r!b<(DXgt|Mt-oNiNpk^ueC15;ckM_#>p#cr9+gBPO*smts3eD7Y^
z<n;SGyX9D?qMO#qlPejdkx%-_`r+={zPgl+l9IEC0Y|LX9m$z7AfISMS~w-|rw6e6
z`&Y9wlUXfJ-PzXdKTAUh+{-er-?MLD#`&^PQdwJPMzWIKb8yki__M<!A|kqUbDc*M
zv7_<vO{wQfEcsoV?Q5?YVh`&-Yq+|)9&iAts`|)0JlQ%s12D6^_I!wa&FgE+$_}*O
zp4+V6hT%urmYRTUSQE=vf8J@m;3P{x*-bAylta&xlatMA6Pd+_%4_x6gv{%3eXoZj
z4tqPah9^j7n%AFPopY|_QT}wV)v8si^7lOO^BXQ$z<hb?Pw{R=S}~U5qo+S5!ftxF
z*2}rcwR!AMd;7O<uZK7KimfbCa<=NKiXmH^y<XJ89QhW<Ia$c;T8{d#_9tzX!fXES
zh)8dGWnSmAPoF-a&t30E3X%QaQPmP8WT92<v|mySf!yC#WO$#E+=jc>zxSb=<A63(
z|GA*z2$yb#Ub?Yz^VWu~fX)ErZ6Xp9dFn}eIqOP4e!O*T8+j|mG=N^Mr~&x4W@fwJ
zO)pGC{QcF7tw*XS`||a*wAd1vMSg{&Cp0h5vTBvs@`U!j=yUXjAayoS&?I&83h=mU
z!hXvp4e~}5<=C3e&dwaJnVK-#QoBzaqvz=j`O8yTmk$L525M!rq@I)GEUs5arAyF4
zR`s|Z;Nf|4hu)Hvw$8=Ogc*RSYB#n{_VLp#dBMp~pKf|hE5($*Wr}-`K7XxR99WKN
zGd3+Zrv$`i<hPG=EH+KG8)4MUY}J^V@Sh+3-n=gP%;*9_a;immdAoU&-o1URnsD)V
z)A$M2ahq#d3ih2}Hshs3I7jpJNLK4a8jWQ9Wdf9Y<G&((9r72NTUuIHI~BOk)4#M2
z;T-FpgYs<k^1a*4V3^DM?8R*ROsh~0FX$>Or(7N%XkMN_`8#L#64IO~QhakYVZ$k9
z<=yypE2rUnfH1U+qG7;WJyr9Bm0Vn5_wKPI*2ZfNo~YGKK3$l%C?Un0|7Eo4G$54y
z{s(F2%MvGPw2D$CK`-Cj$4Nx*&$UBkP*+pC-rb#;lh_b|fZU_AQ}0!_=~#)L+w?HA
z#MtRD!<wqYth!ZL<_qGN2EJQ0+`IVh_Bzt6KAoiD1|{#mNxW&(CWJ$ibup*Do5@H|
zy`tEkL)q(hoi2F1+b}lwb!SxAdVYZFG@$HG-XzPq<hGBzNn*dkubK)BWC5ZC9k4dY
zZb6D|_SZS7rZ(aiP#vePZ(pqng0Wj}Zb|4}ma<{*g|7vBOAoZO=8wG%I3GGb(VfJ)
zdbQufhp(`J`<pHl;p_DD^wu*J@_2C!fR^w`<V`T|b?d*%m5y-LA?3+eY~cOYu*<1P
zaa1bBAfW_+k?q^JOHS688H{dRSO^+7S{XJYs8fbpz$WfB`h>_hh-&P`<$3^^uqD^o
z3h-^D(aQJS4q5`3de0@!GC-D_llp@lWz32QAHWBTH#b=D2?yFdSMAxehcMZZp7F0&
znXgwj0`!ld0r!+YDcY|qBrZNJ;5IG?`gfJP4lHlDR=+jHuo(D0!=iB{!kfRVE~OnT
z>;8iWaX&@veo>908=j2x7cn!JH92)Bs2UzScC76Kp<mKe9f$gJZEfXG4#pW>XX0cF
zef9fgci#OjpyZHUXJkxGO{olWk9G<Ve%h;@Vd{7P{+AcF9e>)3k+P0IKLvoost!(1
zjxr0_f8JNy^J9><3*2gRTfPky1UJ@;3*_2sB%fv3j2pvMi8}N+f|$*s9|TIexgt?7
zx?MxfO4NBVklAPnvaS!6;N;1ZUQC<{!ap9e>N&P$)asd`{F%GnO&a^4=sM5`H2pKk
zN@C#sMo1E&!NE;W4tli%w5JrWcLtBfe~lfbhhTEwH=yUpQrZUO>~$LY6&2<x!sv0a
z)g=qP9{_hu)>WTGYr&O*78-w~{VGN26unyg$4^S4__(6OIyyRkacJZmAoB;2=f{rF
zpj+chd$VlgFHevC=Wo?wZ!Re7=x`8p1YER~RW(1Ge24qA?;Hr!1zO9Fj?I`?rP!7f
zGdAW(#~TH%@^pYak%%VW_6;=MS7=Frr3$h%|2Y#1?wBK2J}ET?t|i4#xj+*xYHDi!
z1)@2BK!d%UTLA^`DW9k1XV=}oU)fO_!oJ^<gQ0NXM@eMq{C*#`cnubQr;(m@7Awgo
zg)7iuj#4X7GY8-;FgE%!vcpG&NopAAi<N(3sB_i-{oCb~<?KQ`bv}iPivn@Bo~?=3
zq;cV}3$K^_$0e*NKyxa3t3NwY3qY&FD<IGp=_|3+<7;;N9kYgX6L0{${)N8_?)v%J
zzvuB{kltn0@`_GyzQ%<D;9RhNx9<F*AR5$*Hk+d$6l-hiNLiny9^tQET?Uya+dd1V
zV~7STO?~?OIfCrkU$XOvz9=h-K+GYAd2o+?wsK7aya7>}3X3@vW!aFvozY{Nz^h#w
zH*TC`4b5{9{|qFvX5o(DRSbn_(}dKMclqLTpk(dU(ZBS=ui`pw@eSsLlSS<adpUXe
z<sM%{oquoNvEvq2l*&*DY3I*}tzit(7jQ#EznewpzA1!W`NIo;HDq+Zzqb)}Al>9t
zwZa1mi&nntG+6yA2I<R}r#LS*vDkBvRpVas-*RAI2Kw&r<{SdPczD_XK%*?STru`p
zyZaj&mJ5}^U&rQymD^<F94$*Z-AB{L*zPNYh)jQD&1a-7;?S=O8o^?@@HKFsnVLqf
zMRjbo=aN+scWBM-&5gN5{Ip_!6JbUSg|}Ao0uXcAb9|)?qX5r*T`b91i!yr@wG2d?
zT<9Bl9bnt4b>zQKm+jQgd*wDegI+34oq__F|J7qzgaQMHhQseBVF*+Jg}jU&m5P!s
z=sL<<X@JO}n4ZIeV!2MkPQY44!zj;SDQhg&f0eRDq4KP5Jct$ts_so^ht#=57d#q?
zg0Rn2g~|YQL6nlg!9nnCj%}8?!!@7)P)Z<NfV3K&J$opG2BU7wDJ3H(t*!r{?q}O}
zlt#~&4?bWG!Bd)g`OjO{qU$RrArD0!pU-h%Jrak60iy?mi;hrdeo;};ISnHIt*V-u
zEKL(|Uu5#*qhE8*MP?7~jT_s`1wMTGWDe8}f)^xca<X=vkX4Hq)JOmohz|XQi}S&D
zf#MRngXS-eM~mxw9%Q*xQr+$Qy(5XaBMo!10}CB(o)%D5QAvm16CEAhpboSN@^BHE
z#Bmv)#C7>XltM`C8pxg*YYm%U+5;&!fn$OOH@}3Ao8~<FTi3gGF=8Mh;v4#^TTe>y
z>mvQ>E_LjNS^7P)bAM?<@~DEu_;>V--<>%PnHG~j_E?UELG(K=C)b#>7Uf0^3InTv
z9tVT;@#7y+z9mqdb94SFsI@@<M=Nvs;ivAweZ$+E$e6U)p#f0tJ@l;Z$<?3w#(J^I
z`iO;Y0%*U!<&W!35@TNx-!9$Gkg6{uab7{&Xlp~J6B+a2!-owY7jYy%+No*Na;YOh
zH%Exk<IS5l=R+_3#J)nCBiB#eOou`vE#Sg=09Cb}d@t=f2f*Hj`&wtUx5~-MS%DJ7
z_Fa?gNiK4o?$+l553*-tuJZ-RXd=`PzY78faSqD{%_M&`x9@NWjhWwgOwSDGKIq!e
zFi&v0yn!HQQ+Z<lG&tM|1%<@%oae|jFtOgoti{q)R@VJSpB|Gnwg4dY_AGEU2NSN<
zbM7TbvHwDOxHJf(4D{K^6SN*&wRmoU9uUErK-C2O5s<=AfG8CD(Qmoq<KqZ+z3dBT
z93MY=<j|W@dxuLh5AZW1kflzNPba${Av94eIm5F4`O~LOHYI%fTO1A1l;=cWrwtPH
zae<)u^u%yn^D-kNBhavX7wp(bq7yqqAuwp(=|Yd2tF{VRGzc<!;L@92Mw>ZB9mu3W
zJzhgO?#z|xBgc+?fc_<Uy1-rf>LOKDD`1_vA0_@^#ggi|w3~^YQ}kR0#@c;-+4m=^
z@%ue~>{zX;-V8JesVL5GS)zXa48q>ED<%rT6{kS*EDA#KE)GeEx93zqT=5SMe2
zDo}NU_nFlIw#JrT?5^p>j6tkBK5Z(3Y(6DVhTdge_5gyl6?yed+NY+aZ9NfK6{Q&F
zl3%4B51s%S5DJcK7E(|kOi@v>uRiTOL?SFM!6TuedfEy4;WXK92YG1${Sb5xehlD@
z9yC?57xn2S@D~5eUlE?3p3ye6@-;k1t(=XJ>=>d53k!pV;f0WDk<d%V4rMhvH14a_
zITdv{i%&aK9taB%SM#M^OxYXvBsoPzN!*I-SP>Ud&;Rz=IXyT}S6aFdJh$jwFL(l8
zW<OHV7+H1gDp0x6WKZ$3#@~GX`n4uFKNNua)N=%=*1KGB+6IDx>UecA^LmNPV}Myf
z4<G(xzkw`R_&j=H31>q}>r8D1n2mKn<`|)4HiLhEd+R+qv_|)(-KB3gx8@-cdTr}+
z)pc~Huw!ff`Ntg1bZXB8)N;l_%D(-eqL>6BV1|Z<){8rFU`VrW-MZF^#Hy+)pp5fp
z&kCa919w27Osv$+BCXVYdTtUWO=Up;h*L}W`1$jS(d^G<Wl5P{fp_ng10Wy{@IsVv
z+E*z<oh2Fz#xF{P&d;7dZ-LCTzuE4Tjg3w3G(*9>v+eJEyf_^+Fk7h(066{qHjLJ@
zDLvQTMAKRoHNeBeqp7JW**eF#A_9r3E?NTy3DB>;&oVzR=PX*WscR)cszgjiRUHu#
zl7h^$blI|w&q4b!=JD5ey@YK>zdcs<gsi0df@`@np^}Lk+N$$pZ&uMe3k8KzC{rrE
z8pu91wVHw}3-Fh|>&5eiKSJCNa~Y}seLin6q^}9t#bzVbyJP3hU<mc+{B>)v_;aJW
z#SFBP=04rjRUKz*WApl5@BPhk=%bpw8b(Gx!=<mjerM6wl6&gp$&p|Dq#Qya&+Dv4
zZH!BN*_D{{+w{xR524TKL&@m#D<f&bsuUkDKfhk;*<*FtE)Yv0f++QBproaxrs5lR
z7jsks1G&5~!CK_SxHzL%pdmasf=$iSp(#p~@KAd2823Xpgy5ZVq3t!6)aJ)W)BL_|
zp!V2l5REhKndr&bwG6)}`uVQ<lJ)ptXbrPp<OF=Yz2g$t=T+STXCE4}%MYO~WiC~{
zcXk!oDk*VwC8fJTLF_`7{>T^%9ZZY&?A@D|mWDjQh!MJ*&XG$HZ0_H?rwmrO{#|jg
zFWWvsgDff{4s$lMoYoI^n;9n(9d!C1{`xJDR_4&rikq}*E>)C_5daF8mrvuuWozQK
zvl1Ipo<4mF3F^v%#n*iZ<PbDkf^|XL3E^hE19l0$741aQC~HyO#>0mXV>5wt+S+hM
zm^fUV8Sgj}M4RRqZ~MF2!yijZfJvZp;>rQk;~XAM-+~5%puXnQh)u_ssrZ0tG*$?*
zV_q9%x4iM6poWL<&kNsz-Pr}yfPQ>EU!9dtOYrP_D!tK#U+<xD7$si}K=^cD3PKFu
zzyBg`9vK}^%Vlxrk>%`JV0%^=b>6mBGyC)H?P5;5@{0()=&O{fqi4>vp`VRS4VDRD
z90B|SH01bq)+<dbsockN9D1FgE3oqGtQE3UPt?)uE#7zY=1tUw52d9{>{-A(z8EjK
zXt__Hbal<^qD_L7=4KWtYP4<CuFmG$zCFfa=ia@0MMZOBt%Cvs+1i82rc)@Fbq%U$
zi8|tjtI$j_I9!(<BI!0WG29);iGtS+)u1k$Q_PXT90T@Mv^Tk1MbU46^1rWdW1v=a
z(_b%uRX#)*<=*d4yw;0ATu8QVgsz2!eS2UB#hGX8)(#MCvNBcD<P+T)-~0>aPP-{-
zXk=qjoNOKR;K3=(o_aOF?=VY4h9H@>(~Vhh^*xcPsi{nyBA2o6V0XFSZt<3i4Sqrh
zMIWTyPzs%9Ci`RD;OFn}|KPzYA<I@k4b$S4t5)UMb?z}P565*u`b4{1dt_nwn$N+)
zgXxtDaU$l8nY~5Kl9$`AvC6JpLay+}v$--RxM|_Sh09p^vAJ^o{Cs?T3IC6UtqK8K
z@a2-6xtKqxd*;j;Dgyw!84A=~(W*<KP3#JOlQ9Zr9_CFzC9_k&Q?Z<8s2cZ<tY0T&
ziN+CsePMEITy(S})Xp#@6tW0?6twiuU+{j27AIe4PpPS8npVfs%4<+qn7*>|pWzgA
zNfcP4^XHLck#|In_bvTeprWT2diO5Xo|Y)w4s_`Oh53K2%zO9jF$kX9_V=4*X+k6S
z{QvK2`|q13WNFuUKq(&Ma^#756TfEaSv3CYJLimym@tVnZyEtvLoUA)o>$i=4jTa|
zfGGZmWTN%>9-nN~y6C-RAF6Ib@!l-=$kV5h;Ai||^__jdOPKeWH<1pWpq+KcT7kl}
zt?$*K0uTn30o9O9oZqtQH$k_Yiw<Wxm#lNcoE1gXwC(k^Gwlw@!fMx{d;j)7ga<wk
z)T1tH;nxB?pgxI_Izv@26B85I7=-cP8*kHia}NuxFod7s-L~yLS}A)L=5dWFhDS0C
zQKo41*a4E45Bq*{af}34VVH+8pB|Eq%5Wl3aQn7x#)P%MAb05=NGHc^kMZ^V`gvkl
zG>zobpcmD5uuf>%D>x49+Sxqvt70P-?ewUPtu1M6Pz=FHc6HGvZUyV<or29BIo$F6
zJC+Rf7B6+tM*#uC^ymjf!<*K2(C&hAI^Tb-J?#Qa=L#FX7&Z(vcPulY4JHWaEZ~?}
zvs<_m+KWk$hMuKzmFQ7;Z5b;HxF4^&+N6*8|5&Z&-lsu--`S;0m*NKE*s^eMw5UML
z0u-D&b;=N-*X4`3FgoG-9L&~0D^}XmtUU*$-m2z!6FZEQZXFso*fI*l)c7FuF#TQ)
zEiJ7iy<Ggw*TSo!_FexpKBg$SiT4*QAh?_s6zV$GZ?CcHK?|s)2Sve^!?aM1J_tJm
z06$RVnf8(1tky&@KZk+xgUp-<E}X8*26nN6He$fBn!@I(m+O?EkrL6B4EzRCV~tYf
zNh5V%r5@1N^0eEj|Gl80d1+;uuR}pAr{?~7$1adN^aZoKVThoMr7wKiU5xQRxy9S{
zv`ec~M@K->E&1?a340bWu3m;AeTCNv8Y|(_0H>g|-Hx1J;A;5c{${drkVFWtI}}1=
z2TVI@i(b&OZQC{t(3!eyG!w+L$=^s-^=Slh{2LMO4Sw{y2tQNz>XI!)V7%d#<DZT&
zH@#ks2U|{%#++;|>e&AkO5VEzTj^U{MW^}UPXC22*|V^u2z-4mIZSE6p&c9?>axYV
zq9ebxw;P7d*|iMlCYv!yR9V{kJD{mzy^|ckA{@w=%Cre;!W(>1^2HgVaX?htD0};;
zBK#yYx+thZykW}c$%Sl41B=RPbrm&l`uY9)Wf(sGd;XyA(DTP#%Nj$nvJlbzn>YVJ
z1IR%$frG-6IJ#)fL}~%OnJf<eH<eI>dYWFOHKhCtC$RLGuaGNK%0Wbn*!@yM3$!;H
z>u&>ry1k1g3kn{Z8<ckGKmY-xM1*Qv<z}2Ix^7w=C}a`n=eJtO(pUKBW6afx$!A41
zWLeDu`P0}U3<wglQ-i=mWDHEdwjx8C-c-ko+y0MIHvjJbSjs2{@lT(AhbmqIFT^Mi
zNEXabbg`_wfHog1aE%BL=ia}6Kk^^Ap!g0aJuhdIAg*VERP8RMwMCc&wderCJvaUT
z9ngWBkhP(`dK77mC!9w!*U4T%K>>3eOUvK+Gs8*PWYzz*Jh@N%(ZFMs8Q>qfFUl-1
zW<$2MVTK`iZ8tb2QlK^84TOgDp955Rc!+XZr!9dVBIwOT`Bq$f{B4n<EX+>IBxc6i
z#hv6ve>W4IXmA`93Dx$puVn=q=N(Sb-xb=#0fQo3a~ZRY&gjTH4UyW8YWq4gtAo$0
z+J>rrzC`;$XL;!A6;)8p$nHSIU(L#@uA*{?b8)mS$QY({z|o)HzrP_;(z1=07sG*S
zI;;HX#~U}z)%QOa$*%<|2;Y(3M)0>6(2<DF2yG7an8kh@1x_K1b>R8IcVSr53w5&V
zfK-Uwi4ztruP&hsp;D||)vLlN)qBHa(g7tL+!%d32mY$jUp^om&SPy}qrdpd#0KT@
zQJ*_dINcx!{I1}Wy~A+{n4_;kn?HYQ03<xHEX$<Q2xBN`yJcmuKgHq#2jfjk(_)3`
zKX@0WMLZ!lmVJR3)*yx7^Y_n+$}m5je-G^sQ!|uFGWtGvefcp3g*ze@`*+Y9WrAtb
zqlXVw$c_g<^91TyzP21gD^h-#&f>~GK~j!os{Hb0%ZWfc^zb8qW8v4yzTr~^^j;l+
z?2V!HMHDcae-gHVz7}y_-Z((|s8FY_P)i{OivAk!{0=g1hFwzMxi<r|Ua)7#EIlTq
zs+xiaee;965KvOzWw;tYf~-{V?j)~Zh_)CUgu(lk+vj5S{rx?VJtI)dstONmYP?3u
z2J@!UFiAJaI@NbD!Wr(W1{7g}vF22iLW<84O23=z?X?x?GDNCR${o?7GGH6JD<Y2&
zJm_$~w;_XAIZFicry#7LOyAIh$b*iCa2kOu2BQq5du09{wtdG}u)60eW%V{<Pl!K=
zsA>q+SOo|=dD+=;edhkG?QF@NgqiE*kt|C%{?>mc<0nO{l&IEg5S5e96pj4Sb^dd>
z?%&}3uSixuQf7+bH1G;;t*KJ%%@=4sSj8A}>1hAsALS6v7?FU<C?UiUM3F}qzkycS
z2-nQAWy>H_{ek06JtTNHd|B)Ef;JxUVY45uR?jl4<$o0OfANL?l_TugN-5Znv70b3
z9PzVWY`JtEGYIq#nz;$97CYJ%m!tsI7`h&swZ25y<HvQ-EckU_rUM6~7w27F&qTBh
z*jd?y%r%g4WYVstwkEU;?X#pL2V>gn%v`PzxPvissQAece&!}hL%er)qE<#1nx+nd
zdA4~we<CVP+kQjziXzD~^V}DqRIe!VVpcqUTm;E3@Z$S@=%<H6ZX}Uqzz9YJqfC?l
z)euO=Kek5&@3}nI4^BJbeC|NO>NRWfhHJE;76pPJo)2?TvzOrGvuHwW7W<aHe;-|$
zBLF%{Z&#I>O{g3$6GLeA3l=T!-%3*eoGl7H77{0`fA><%auIgy5SVUm4SkII9~{ha
zMvPkvI0{<WAmks|ZAn=bu)22v5UK@|2OKK5;Iv(Fv^UEN;?WRbO)dmRRdvgXh_~y`
z2V2)@p3ksq&2#8mNKvXK10wM5Ys4CWf;fT=fw9q7XtgR)TwSNeQ1q{PfssVP8HOAZ
z#<U;2!#Hi;@QHKhe!yn=r|Ohq?$khuYHRry)CTme_Sm?@*o4;J{}IZx=|=-Rf<P6&
zeOrB;bPM+dH9!kVc@tgOR@IPBjB8h`>+CkIieBrsWMw(`KWo-VOb=DUtuhY5GfshA
z@~W*082=vhETkAyO<%Z(LYeeh?-Xq+5QcV*&?HkfaN;$6^C{H5gd9LqorQX94PMd~
zfG9vu9=>~!>88+HqEtf-@Awq3YW<ciTQF{a1`ll6wEBX}aZvsiuXj9+sU=ptEdaZ$
z5U}SNgcs+Fh2T_lAPm;_=+Ps!xf-WioqgiOiRKczKWJ7TJ}%6ytOq~uw`zX5PplFU
zhxno6(@IlMEl74oa1&>+EB>!$@w^;W#2KbZjQZ0zGE;Jt&3YS&PV73_o0LD}<oGx=
zbf$=FrXTPAlCzL9vH-+0NbJ%8as2eRD)_MNo4_>Krc}7&P)K*dFwuhGnLwdwYr}ZQ
zxmNcg@nSTnNEHDOg*D-0Npl#>5f>I7C#)2vniZ{ikna#%e0qR^-`>&$kLN_ZoEQRX
zF@$h{K9Y~(TBYR#BYreY>sz;;hve=sy_jNJ3mJ+ZLLyN3Mlmv>*S*-h&)^MXu6FoO
z6bHA_oYrQD=P+KGIR5lprSMq7<z<=uys<4Am3h-dGeE&Zo?rKZG5ZT9W#yoBF8O;X
zQqw6&H`I!>uDJ6GFn$JE<q2a`8dMesLMYI-eDPyuvX6O|GYHhj`r8}ye$g%+se?p5
zLnZF$=<xE|c;rs7*d-e+t%j^TYs@-9&t^V;_%9ai+_WA_Xr?TM5<P%P4w=aUFaXyK
z5$zDkPv%CGSAh(JQL)bG^6>Lp!h{LSl@t;_qI99)QHb3n|F<dxLn&opC?skS$f-5B
zAza_#60sp8y~Jw3H9J;}bOxxId@JC(8?!r?{4EgXRJ622aP{bTqituPk(1Fh+JtOS
zS3wH)B&}2=u4{4)f8N+P%n>I3SzUJoYXF_L5_O4fhWR`Gz=*oOwP7LgdZXhEa5Eyg
zYT=rReP;n1!A_Y46hSFsAwU>;U1&!8#k_DD<t5qoA4;-7C}aq%S6@R0CW%*>L<nbv
z#*INx`PW=bj<AM1w{63;OF2@ObT!yr{sCC&3TZHDT_oL)nF{#iFKh)Wj7x$Jl@i|K
z1X}Gn9H(#5nkUZa0ZB&;*8G_z|13agaiFx3Y~yBx5uy)MEwiLtp)RF@8PZ*d!5nHl
zl>si^_f0Qs(WzerjU(^errNoRIcz^+JjW4t8yK|_%~j0g%TtVi_?iyI0%Q`ZMw<8w
z9IP<?_U0!3#bQj+yB)Zi*=_6~N>c>W!k(=J&Jj;KEcDXUH*eoIyUk9+4|5QmJ6hi~
z!9^Pg9~v`ON$Uk0_Gc89Fp&Jj<m6q99#CgN>^n&r5viJq4-fx}`lO#>s!C-5qMT`L
zovA^l0L4!Rfh?0Yix#`YBOGG@Vt!_Z?T|qH9xGDbOe&v~2`ko@cyeGPrU<H#$p+}@
z`ov-%_EFSvI1LW5FR3eorlAYV5sKh)W~-duO#PVw{|edp;d(I{z|RF&jL<Y{b!<OF
z+Qz^QS{JssH>s=pC@9HYo`a7B^w%>;V>(8_(8fClHjo96Nlxy6cuL_zNy##gucEEv
zr2w!N7Rx9~tk7mKc_RP^x+Z1C7c!T$Y|6ec4YSV>;Ioeqb21khND}|!wQe}<r@n8M
zyeY&?8TKNV(*j8x#XSx}?Nx5rcT30&4w_5!!CosQl>-@qAZMhh@Xd|G9MgxwPR<q7
zL-kb@>3j;&i<=Q;B@@##EIHkh?>_qn&`B4*B%~37gcw}li08E5a9UEmdJLi|siXX8
z-bh*{0b?%;r6(5?6r_y<EDo>=12CV;O|Zw?Nt|I^-<mg#AXBxv^0Ed+2aVOPw_zWn
z2iZE<NC7qIhY?`!{|fgJ2P{0<C3Pro&zzRMDe!e2ilh&+v0O-?S-8gG&8G}|kO9Vs
zDr7>05;8i1DU~a5*O}KaHeTg^|Ni}BSboYv#c5-8%u7Te+t9~7q(l%?8Ig>c?9eC3
z$&n}uJg-oFLqev(3^42likC!-hhE6Ujq=`1>Hvc@CK$k%NPJdIq&5&^qm+0CmJjC!
zp2WxRl#rOQf}bHKDwGXJ7YYWF+@{Sio(H(aN)m;F*fsD@_XQ1nSxo>BNsv-jBQ)jZ
z<cLRrYKGN-DEk>Ig~wM!O~5|0M}3hC3}Rp=f#(arWSPfld?K3G%Y0^r0|mq@qr^oj
z033o)USaLPNroR5S<P$6;R)E4pJJ@CgV6)UE^oBO8AGp|SiORIvGMUeaDDNUn!^pN
z7s%{vg|DmK8<r!7Fh0H!LT1Zky6+K=IR+F3B3zL(5%pk=4h|!*Vt8=F8vGh2sRsxJ
z`Y5|AlD4{%Qx~WVpe*C?y;?Fa;NAh%V+NxAT86?KEE|D{*1(%Fn{qL1p0ZBwY(KLc
zi?p(I^2Qqm(#rEv!nfUsK7H-<PK}6nddY`Y2uc0(#?nK!XY-+jRoe`TWPH9HKD>~D
zVcF3>mrHuV9g_Jk&RjHECO7V?$7xg=`ock@ls~OjXEBAM731m2fayzr{{<uOYu6S|
z2NRETg0#H+CnN$eHxTZE`SU^9ws+m2g!?UBzPzfo7P7Mcy?ba0CqR7<ak4<cUVeWq
zfm7ih5GcZz1~%~=l9l}lhr&^ejaep;wZ@xQtE<;ScfKJ)Trlox#}6Og3<|Vq(^)vD
z(M3J)!ZdJGgm?;!#dy`?x8dJBF^*gklSSc{K}pukcNOP(8XiuW^`lVIZK7#Y0?LWf
zH#b*>i95?Cn=(@bR}kBM_5~iEvm^lY^WX8&<oXD|fPl`nHgxelyLazaE+(p%Phn-H
zElg6LR8`e#*b~aN;b}VbEIeH5)Tu!nbn?9G#muD;DyCV*GLPbJ%uSQXD1mFNtondi
zS!94kz>GJ;U5%BY+z1WTJAIm)=R4wl*_xeHd%BMk-;)42;aX;<gQMdC9&)S%a?L;X
zhv2ShZf<`4+JhRAkif~oaa(l3Jc?En+v=X1zP>>JroWW%UJ8Yg2i^1e3OG}qw#=7W
zmEtz*+EABs(dyEr7sgj<_l93G7H?{9Ht9-8O#BU6bchqvKpxM>K|y9_W~*dm4jx21
z<m<Wsp-<5Cp$pKe=CWnp7#=~k6||Eg-%=h3MJ)I7_<d?bOpNgPQVwOW1(g2Tpj~G?
zQc`yFe8+NNj2^*+h@rj0GY(*nE$SK@BVTT!2(lO$7|4HEWE41`;$HK7qNfo!7)}y&
zid@G(GFn<MSq#XEyQ_7>e35<zys53~m)dTM`@0mA$}J5CY=7Q1-bil7U8FAG%?$^O
zq9e&q4L5Jy8W<hj>baavkhu5A1$>>A4;8zF-SwoxP<yej<tB+I>XoilY%`$J_wTQi
zd5>{7Mm1~_o5;l)KSOY#Wk@r2R>f2TiSHy!G2@kzVvXo!<iYUvmai`>eZ!QNv9Pe9
zKeO#N@Vs;9j<>hmnKMtKH{$Bu*@PkVTHvE)iLXXwxH~ET%RA@<huI-k-8eK{pM^@g
z(euX5o1a6)bK2Tz_fyl2(^y07<pAp+i9*9cai1-0yMQLBz}RN<0#0F;zhC_6V%w7^
zPk7Z6dzy1bOZ){6vlC5EB@XfdR2om}x^)5glw0H@KCa=@I;75$Z{Mwk*orPfe7;jV
zF#?G74l&EfgT2M{*g4XZCcGz9;b)VgPoLz;h4;T{^85HnovcjxP7c6JOfJDWBPG|Y
zUcG`%@Mt;@E?g?(bx~2i%cLyhZkkJU6}d=1do<$m^1IagFdM8}x1B6wc#7%+7j`PO
z;D^l;9&mP_mCX2HDY;Y7iM6zLbZrZ~GB7Xzs{)G*B+Fe!pVpGdDky?74IP+~CoeA#
z!qHq{nZ|<Il9@a+^XTYk7;+NVcCQdq<MJUe&Wd+9U`JbR$>-0Xr(e0h0?DPcuRiNj
z$U4|(EXPiho6`D6U%wTg6a0O*n3zsgir|8ZiV7$=o_EoHaR7|0Af@G(zc@M$k~iWG
zO}REbp{Q6^T|NA(A~J%BEL$w=+O<d7!TVS&5JpqGR{gX0+&qd@w=&k*&Q6fWv#4#T
zuQgx!8`)=LVZ<0zD0sR4VQ1&<(g?f)o>F-|Gc%I}HdP9(OX#sCO+qFY$u>WC3K}R}
zTN}DGC=|!;$|zqCkNIb+_cI`a4l0fC`IlgjzR`0CB@`UYXElihsbv*O`jQQZFkI8;
z*MR%RhQG?6MEEdJq$oyr42)<4TJrhSmp~iHdKR7Ci`=(Zk!-n(jKDmeR{MO8D~(uS
zx6Yj5;W?zLnvpVh6R3s<*`aN%#>dak?enJYx$spA*p9+Y*?R;O>=@lqCKb6|K!DYr
zSnd*-Y<m}~-<}tKlU>l5YVoGH*josfYJAos)e3`glSuSMpOv&ZiZ|pQ_LuHbQ0Sr!
zO%_4CF^Pmfk9PI$fMS3yD{JCuo59xtU-M!n4o6_;sj17fYcALNdTTdDkoA+`HSc%$
zVxRCH=u~12<V<uV1929Ve}P>*G}+R0{ygjkBM%4DVlD|>S>(m&FZ89?dUfm8QdU-f
zW-bX0O-=j078lIqfQ%xTFtH5(QBqp^+y@ll2Dyd8$0kczeNdCxm&}`l;%<CUR`$8F
zhsh%*jsq9Ke2=pefe=Icdv7W?1Ox@S%}fR49zK42$F5yUDu1MGYnSRP3keCKZ2Ad>
z3fszRYin=%qjX~L4$70rut+7gs4c$|^l_aWcfv*Ags(ex^r(`mYC^j8)Yu<<F!k^O
zip;^jcqv_5+?l)DhRvIwLGeoudGG)p!IkXnlS7@SDrB)*<=>uYti`&(E0cc3MvT5P
z+Wh`<>?q1udck<~>9=p*P-UPa;?%T~vRCCEbahQ_?c#UuR?0w2JOI)cC@F-lzH8Sm
zv}6&H2@FMsa;8vsP+)Zr9xN&-2)91DQqpxQ8~l7=z((dM{NQZAH`ut8uBKESx3NhL
z3u{F{;ydA%9~>A!v|+T61ho?l1&1C{j%pn~;nN@<%N{y}f5y>7c(Gz*Von6?Ijpa*
z55n|Ikq3$^_P(X11xoobSfW7W{P}fdeb-x<ngWjLgx#}h$~K#EPyFizu>Muf(;y@$
zXlG-yQufvC)h+kcR8$yUzCZE`-F$g~!TmY2ttggID((x4g1><N^=sEc0I$)e(ekj5
ztL#am<>UIYniBrv^z-dT-_XR=WRM_c{Ug2F@HC)M0hwKbpTK@?VFP&uQdh2Bn|-Ee
zQDMjnox}$ZDnU}w>_&SVqaq?sdTp%v3_pT#R{{WOT3ktYTbndHbe>`iNDs5$ru_c>
z8zT?!lEmsrtboVWtB~M3`}&|Cs+m|JEuEYuu#^y8TktWUlPlJXX*lwztLf=knwiO+
zvSL?hF7-<m^jCjKt*;|5DrxdCaG)g5xSiM=`v}YX9m|Nh2l_x<I#C`mal!lv6DCYq
zIkAz@+c1SS+k;~-zacH5r@n4^OnZ$@joadU2AalbU#q^c;#Dek2LNP5hR@FO_N`kl
zq0GQVM!t_n+22<XTV(6tutx7GMJWLJ^&k|-Ef~1CxGLU}ti<8R^B9-H<R=WPMyuPb
zxXXkcX##Vv4K)pER=qtvn7lLcKp<lmcd|RE?&&f!^&%%nl;=Ax12Y`>LrlwyR7C_W
z<R9;v7bm<-*TEq(Bt*A)<#8O8OEvn;_Olr7Ky3{TV^dQ|Jvd+JGCuIOv2hYG4I7=3
zk^-T%8M6W~Nl(_v*=)x@26lFK3sxvpcj(NMN^rb%slKtXG80NKy37fA`H9g!fvsEp
z!@{^YIbATr0dj>~1kCZ!p+j(VY3b_f_CJPLjgQ4|Z}NmC+!@sb(Sd`|0GSB2k-<Ss
zBQ;Xben983v$wxCuv14@7kJ}%*lW<NvzC@ExF9-K!XyCp<4LS5m&D}*$g}KhM~lT-
zSy=+xwo#7<&n;Ft8wRT?+SmVGJ*@@OnvZcbBt4lN$YbLRmwlHw(ZV<^QSW8!S(K8J
zX2m|3ogjVTLO<B0iAaoxhm6a0t-Q-G;OhYZLhXF^^y%5NXRE5KaW2Ug`kcrf|B{Tf
zv}Jg%g2Jy^MCor#y;tnsbMQvT((rY{xH8}(ypmU*G?P1dasX5kvsO&3L2Mu3s)K`r
z@vk8vA(4?Ab2o1k6?Mi4qGuvi)$h?G%lg!7&s&(*?)r-ReE04h$|@=#@neAF<GBsS
zm_1~nkiM9?H#sq}UeYx<6Dyws$pWT7SV>_ICF3VVNq1GuDxUB8vomnd#rA$ho-i$4
z8tZoVZ&Z;#mE2H#4Q74w^Yf#NV(y_?Y%zMilQ`wlSE4<^q+<Y|tdWrr;!<{5^gUc>
z910Y!2p9yLX!@%N^9ZP9a;W_1icnrHeiZ=_?b)z#;}RbH9!A5)>Ft@0Af!;PI#5&K
zDu7UQdFYq2t?i(Q@AJsWG}G!GyLYF==AgNzUF_3q_-XS3v2=Eg^_n&O{y^y3kOZR?
zxd3q5m=ru+5-H(okN9<CqoRs!Ye8*b0x}WZyLS-CdHy?VTU+PpiG4hWaC)$`6nT+&
z(hKfIxOk{CFgY-zP?RNm-@1h!CDr#JV9&YZ)v2wqv9U0LMp!U2``);5BanFp(*US9
zRGIXQjP7;kyZ`jm@BPmEZ%EB8A+@kRD}fAj#KgodU%t$CK4BY^R~m*OfLFNLC@hH2
zg+m`}YyFJ`Fi1Fd{J2nqwe~CQgx*WLn<YO2A3tt-b?KD8e!fH`E>W?d1<H7IOiYCX
zJ`I`Va!0iq6&Zb@xb1>NUke|wSX1H6<TCV=V8qe2YuDVFAZ@2l@$r0zrhzpU%YhKF
z`$x*0`#07F$Jnq`#~Y=kr3Li!;+>m3r$7OK_0n?<-YyMwk(ZapIn=|Ac#uc@_*Z~p
zOlRQv!a&5(#lu_`;;Nv{_oJwFP}Qz`d3h6LNM7zn8wCYbeht(7=j1P>(zTpNEO`H*
zGB%(`QY|*|`2v^Yq?cojdwc>a&$8bI{N+bW6qk}GrQnenhZzG92++Gc59|q|(rzj?
z))aMrq1|1WWK>n3^<v6~Lu`L~Mvy{1J?0IeBKAA-E0!-`j!}<XBhYWW+#64-3|a(X
zcg_HDfJjqLdkR6VUB~*LY`KbIv?MpTJ2e$33%$Bl_<c<$PO;&3tG;|;gSv@xSUBoJ
zW9YQoc<|`%-Cek4d;4LuETePhXyl3f6EGvw+1AX<sFj6<;8r+W=gRAQuo-jLRxB5m
zY<S&M96iM@;Z^<f>5lE&cUwGPe|8#}x30b(PJ5g|A%pVQY?&*c1oKj&{h-@l^Yqlo
zcg<}G-4~$uDmT~UppH(k%U-F?z_jP?kD<qFDk&*>-_S%xA$3f&)z#Id6h~Unqf|w0
zKxgi4Ji^F>N`a6~(sq<$ym{jWj@boaz?zpg(^(mHZR{P5;{XTUpTcYq0fJJGasqb*
z{L&>b${phTcN?qx`)mD^u0nJN&0<)%5DehM`}erT?(S|FG}IwcS3Q~bg>C>1Ie%tm
z=EH{%fJ)Hef8#+c=nE^BFW<Cz^EKCO)Cu%4LDT}2`mI}|KwLOQ?AGE0CA1s)6DQ1E
zZKkHD@n9529ux^`e>A)jV8ou+uEE|6x5#^JWl2d~T%4Jyslwx3#8><Jl3F!xuYYLh
z=@}fdz+p5%Ge=Ynbk7X74j?i-j%Ep%`^}plK7Ram;Q$aHVguDPXt&|@<j^~aC#82W
zJR=QfSFV(qY|piB2hj3FL&FUB>9c3o_L*<?xtzH6wbNl18So%P|M$MWS-=E5;Q}NL
z6SwWWys+AuVj9}>{q1!m-v~~D6%-V}cYOQya*VX_J27!_zIaXvo?f$JRL)!;699lU
z0BU(W9zjm-!J|jNF(5`S!Vt3hnH($2q8go+WK(bP-2Tf)F!Wx&V#PBHxYselVO(p0
zm`3h;;vmm`^h-82wi=#Il9H0o6P`Tb3GaX(6RVGL>Jq{et6L6#{q^fH&=%6J)pas~
z>5BAb9sb%f^0I=U3cpYw$r{Zx6ymL2+2NON(7_5uEqSiffk8oy8D{F7oFO<152~(>
z>d<cp4=@TGLi6CkgPmT3WD1E!j!-5dPH=`IqFc;q2(CN60|yQuDe&+Dv?H7rAjg3b
z5dbDT91|lEkicuMvoq8E{rx!C0*H*+o9pz%I(GK5Fv)xb^geM`TAr2L5JTRE4c`#H
zo_Aq_mz<qi#k!gNo9A!Lw=hue9~n`=4&fjJL^!}-kh$lIVV0(*TD|*-kwQPmfsdP;
z8v{eYQ-t2o{fsMDu0Vf8dv6ybEYnzzZTsX1_O_;`#!m=?Ydd5ndZ{P~or%fzW-Q|%
zDh8_c%bXm@ATJTnJzk$+bAj?8#+(9)8e+p9Np#!F4<BMovoJ0}@m_MntMybi?BJxr
zRcgc_Q*e*fSbvP*(DtX+AEi^F7hm3?SlsmXR&RL!!v>JXvGdC_SO`W&&^F<a05`>m
z`cr-VCAbxEA0EudAr*NDq53&GAo^|X?3OQEW@z;Z8TjD?$dMy>5z1^vdOEZZJjiP6
zmMso2L!ghTuzd%%K^hoZA>%PWW_Fgt_VzWsC=w`r{aR-6;>BP#BkzzNKyPrmV8JYi
z=SWOdhLH!-IQ-9!!(FRI18!4Ks;CU1)PR|TnexFD2}~d(f7*hhC)EREja45X)4}c*
zPaL9j#vx&ub!j)LHN3aT+zYh|9Hx%_0qu3w!((QmTR={(1hS^}fmwAW9gV@&&ddBu
zaxb*K1{Hv~8sLNULF0!T0i6H^WeBqG7R6AV!6-FtumMz{9zG5xujg8+c)|p@k#Fuf
z9QB1FnD~JQIg@GCx}KBsvpM1tt2B;eMMs6P{PdYK6&IA3bg%HH8W<Y3cXobgdHuu2
z-p+1^eGueFkZndD&|bit*z}87Ma*aot*q_sp#~X0v((em8$LGgyrKXCJ)r?}#yiim
zR?4WTsxI_>9ue_6-O#|G>yb-|>pVsY11u$mBeJtiu-U=Ty|8KJ;P(%!w75p$ivvbG
z#W_E20pwL=dpb(KHPhA|sJZw8ynwJ!Z`Z6@gF)UYTSa-V>o_~#_WgUhZHI!9C6DLj
z8350Yvi0lNV@L9xhE3tPbd(U{=PxZRY{PH~rJ<)6L<ZgS2=FZ)%mf_HulH)(X#>=v
z$EXAd<$8Ab((%H{P+c7zNKnZD1~BjdRSvShDJn9A$pow4;{%fvUf2bg-uqx}03(TY
z{Yuk2-PO*a+M$RbzyWn7+-6?k$!d|RIV5F`*C4rwy+)-$!(LT&#R?zfl$whpI2<NO
zAPM#B<^z!61tw-|ZCz1QBVqe<dHyp_VrWUyg95R7qzFrANP8in@+_N0pvYsnQkIEf
z=%z9~-wc_nn$L{Ues9x@y?y5ihW#9TBaL}_Y6^H;Em6nB+&n%ynoQ`&{ul;+pTLp<
zbRj!)c|LxusX-xt`AxPF6&8G@x~d9nb$VtxCo5|d1_E->17G@tgBMT_sgr)fR?lns
zx-aM(_;fs<239>cw^<|*a`x=GbDzT`_4|#nk@M!w^Q1C)MJ6TbXB<>gDo0=$i)i6S
zak2x@ccXxSzLFB6(hCh#%ysH9btSfY%^HWv5erun>M&4XI-1m$1&&x>RKdNUDWD|;
z?qd@$u)}mLj?)y=f%FO(7mzZ(9Kt81rJrPHk3o<|&l&3P$J1m;Y@9ra5$-Bc_0&%1
z*%@&QkUS&Q@L{gxhzJ9uEWjk{DRC3bx}Wf(>MMKRh08t|Pdv+9v0?=d07WGxmbP8M
z*7g9){`{$i=V`&TU00`Z<j4{9y+uwZ5pJlZf-$->G6slDD3E9Z=)V)VKU{lzM+b};
znJ615ZK~6YGhVzeEd{u}=;}(2I{-Mmbm$EPo5bzI1O=iEdj~Ms&!0but?1qYGkz-#
zdnFZ>hj;HvH3kL-it(ztO$^;MQ4jiA^1HzGbV4#0jKUhdEG8osC>ao1o~7H%!gBQ4
zuC}(;s(jP%ao~kI<6_gLXhvdqLZ7%eTFC*hZD0m8Dxn-vz3?YEY|%g3>K2Bf7p7fc
zz#xC95lK2PY+y=2+k&W$Au8M#9vxfD5FB4F7U7HoqOlhz^-rp*{;+ugLk^e~nU2WG
zLF!>c*}wr8N4-jUMMW-PFLbCSJjj>K)Knz-NhKwWaxNo;v4ds7!Vf}1T%cN_8C<-0
zF;uY)T^`}_)B;(G!~|l6*~<-C4eggS*Bv{^5fA7gn8cc%l%@AjEg>LSV#BFV^K#J_
zCy7{f3Wu!mXdq)%R&-tjYI(*5JR?#6mE##JD=t`r+1QA83M3BgH>Qgb#19b!-rm>h
z211F1f$e};Kk+f(mEB*zV$OLYt}C^qo_zdW*^<0{(DQ_Zo?9TRp|3G+-?<Z_lZ}Hz
zO;y#?9Bl7PXk$P~^$iUxWe`eJFoy#v?P@Ro7=wBz@7jeEQjlcyhHt>%j{|*7Ja0-%
zf1?ylOic6~zarM&)&Zg;-<5!7j_f&=f9rW%S9f=kM#?wTpZSaa^!JDRpd_MSYe^|y
z2LeXRdAyp6XE&iE;&l;C7P0t%YBM!v&B@7WZ*M>ED#PN%FrciG!80Ya_C49b!*d3z
z7ht~UU3d>*a`QOG@erV@n)a%wfJ#G|R7Q3@JtvCtg3A4-ul&dzjwe1yN=e6lss0Dp
z?`;pZnSha*n0)AALqy?D(V5N7%}w*ZUB;XlPmlP5^9d7?fZE6uKwdCe0$d;%fcj%M
zF$l}LzTlRQtn4D&t*uy%YpK!D&$6ywy}E=4>z@-JZ$7=)T*Pzi7O=_s2TnOC+*@*k
zsC#fYb>4zSx9Qd*;C(>D($dmTT-TC+@?O7sb-@ECXG9MiA{D)8$3scg_4VWUPEYFj
z^XKtkm(V4n!xynU&kH~KsP0zHLeoGGQ6Bt5ii?((6YBBvhw%>|R^f`_e8_?!4@X*L
z-Xnt+EnkZX#^dWZj%!$Hcv9JEF9#Jd-hn-fR<IokJ1s4J#a+J@ZL2eZ6{DS$tgMdO
zgrD>0&j;E!c80S~Y%+P7u(~r&nrlANUuaAS-Q$y$U=h`7KIgoKew47f)@Om%!>~%!
z2-Qxr=rm||$SyKmz;V&0rpu^H={NGC+vit!-?_uY$cT~m0%zfCJO{6Hh}gX^FTViF
zfMvlj9mQyPaIpPi5&&rxCM0!z3()}Z0<uTQ;WzNYq%|9Jr0Qa#TvchGI#mgXv|FGA
zN$<mf19tE40ax$YzdtGc?)*m7gU40mP}7(CP^30qdmwS+fdiVF_4wQPgoFTQi1T=r
ze?0Tq0Drp2;&e9@u$3}5qM|w=Vsy$%O6CK>FLlLo6{1iZcUj=>z?K5K<ZuQBu|Xg_
zfDj;68bljZFZ`9tjtQvle1T5n+rbs~ELrq@)`is^@(s2m_EHuK#Sohf@(k9J&Ufe`
zWC8Ec9;^|_qr7H@Ji7o-7JDqe<$6ra_6M@<y}i1_SAal1nN}bv=QG_43X+q{n!&>X
z?3bm&P6Ozj-u&d?Vr}ilSh?bn?pnez0JH2x859v%810DdRl&{4s0)6zd4a5C6)Qz@
zni#(JT;k^d-k_naU0J0~{H%)?hwc;o{OJ?hHZNbCpS^_s*RWpLW|OG${WGSfB9O-e
z!@ffr4VnJ%_(?(nkg!2Rp5vbg_cz_x3_NKG!>m6rnNaUKR~Qp9ARU<k@_cD}vHY=P
zPqqtyh9tZ+Ka#fPjk=1B&7M=~HmI=qGZSXj5|9SYeaS}23RwB}Ve-#7FcC=bUq;|E
zd0eHP2|*aoYrK)!+uO^VP~5Bo<#-CmL*%>o4q^xmK7&0TDqgUdY1fiSpYT#EjnA(k
zmKYyIoM04qo=a;(NURX+qw#$#GQT*vGv2zYWO&83vADRnbcVq*s+#e`SvvbmWhKxT
z@K982>`PD!xDAw#Fl-oswu>jE4!){B3-J&}+VEbGO-P~x>~HXVs}QFWOyi1iLedz!
z*(m1E6M6AHRc6gjje@~J5**N!KlGIYwt+oAvw%App`q4m2mx5^9&Y>E_3H!dm=XSc
zbs6Df0DIG+Esw`83j<mi0gg;hRRyZ6Ug#50@)l^YJ>YaXrfi$4$i!MQ;!_@cCMn6u
z(Jw=a+Lm)k1ZM{L9yiDS%exc;9?TQwKw|?}@2XGhz}0rIA%ZnXrEz0Z6N=mQ^I4<?
zEOC%|5*b<4#I0IQT2wm<93H9CQR`Fk<IC{?PxX;rZ&ra{Cr*1((FH@fHgDJROKZ!1
z`EpNZg1o7@>U;;)4d{(=aV1s)wj)?g-p$ANL_|iSVETgwprMWroC7muTmSM3nEvh`
zV#t_Jwz^{t4H&268Ea^ynU>93vlW5=@Z?1R*I`C-s1Z*SYEw_O#%iSRAy!e4&-xtC
zefqm^9>NW#|29zt_o(-~ckd5QvdmLV_|Wy`*|M^I`iwjfZc)_JLxO{+un)4{u?UP4
zVL&&0|1=|W34C+Dm*#)y`=z)=>^Tc^iz74Zd}BY@^!7-IrO^h1oTKPI;G1zwJXe$m
z)JKPd(1GHF7K^eJafk7c5w=6s$|Mp_(fvmJ2FHWcai;H`mH(A1(h#mqf;ytI0k$e+
z9UO%6r5}s@Qsor3@eFtlExFL@XL@R?fy8=7z0Lnk*fix877mE{8lI5wxsUxF8gE(9
ze&5VK%-cIFw~pw&RA7tg{z0mi@sCZ19L*sNS~kD@)AUwlvW%wJL}qPB0l(GHb@F>O
z-`>{N@P1ew>JG`s4iN!cH2ek6`NA1?dKJOU+Jk89a`;Ec!ouR^KsE)4<f#wrgLw8C
zz({B_nDv8u_oNw>)z$mZ^`GU+TPw-jK<9TaTEQiuBO?=W<)b{n@*cCol8+z1q~?hY
zBk55N<TDv0t3$;{VsP~5>h<fg)e?y5p44o>ZbO@yLk7rM!4E}%_?l*s62O5A7A#o8
zL(T-Cpv`sE9RSVFqx=>)nWHAP(hUj&W?Vp&j69H->R;Gy6`f3;8LWmp5TJ7j0`$BW
z13f$3F%3Gu(k<v75_rkulwx15J`A=RQE`1n@-1Cjk^@s=5C>jvXvuTQiH+TnA1co#
z!b3u-Ke?w?a`MW)V%LYBhlayc>v;Z%eZx)T<ORYN(u1y-qvr+@5fONERF1ITf?~4F
z3}|;7YA-4|AUP;U>+9F^d95;q=1Y{>b=RCwS06>~^1KTW2axgW*RN#JT~<T$iNd^e
zbZF7l;~;xdlAFTtkPSo^aGL5Q&WJ(|u2#*$bO^`H?qveOKr8(ua2@}EA=?3X9jG>N
zHDN>?*rY(O8%oDcpALr)46ApTlZ?EjDs7N$Mtn+`Z_g7)W*r~2Ljgciz0)hdJ^pPN
zaRn0z1c|r_V$B!2_SOa-f$$|O&y83Bx{dW3tQpwi`Msk<{e)2$#4?<^LHAq2gS#ds
zeXSLOkeYVyzNhP$nhDkd8CR;2gXsuLxKsyGTY9(I7buv2{PgL&zsn?1q@%UQGSMhE
zZ1Bhw=1{=?FXTvs$U!7=v*c=sU<LzDD1E#KN@9^O)kdvqaxyX=MQ!CO?_mlFbpd#J
zGxS8VW-xr%8WSK0a56Ul*#ObHB~Lp!iRgA;0-~C-oM)Z~IOYU`b*f$gdRe~`G?B>q
zEW4KSs;aXN)oytP0_uEYB4CX=h$(D5BM+jIR62Fd<PR&wDlz(TH#s6Ji}F)7{_~br
zOc}e{gSS6y5CSLk`H18;rT3w9EuOBsT5M0w)%0{bP6I=(#4V$)$&)JL-{6luV&$ue
zCnTcic2j+o$RJK?by*GO4HG!PF+L9KYiU8jX<(!tZT;|t-M|1SknT(<ErOGe$k<k6
z`();p$1&W{AiG*1!J&-?PzS(K0ieiZeSp&Tz2e#~C@8ppzkenW^upG=IH<1_=%NjC
z2OHbRyko>7hYh_BWQO7G@X!#R9cyf4RMW#hO3WaFREKAaz`o{**Xt)QVqi$V2%FqA
zPTYCk1?L0w!SnRU(?X|K?joPFgXP>v0*oN}x;^RauIC0ZfHxM>#)Io1J7c<`6>}92
zOW=7^SC?J-OdQXygs5z+4b7rotFeb6eu8)V_CIjT3=jL<xubxiJ!NGb{;r$C<GBZ|
z(@aM!3=B3rP$Q}IT1E%TxO`AdXNj+St^8($XiG~A94s)KL5enX_4Vr)b?)lwB3#|}
zr@XRq1yK26jj@`>#>V>k0BXc@Qdv_>SuZCoS-jW_$^e=&&PVnQb0x&EeB-@!EN`nP
zwDe``Z|P?2#&femT;#gM^{a(e1}bV|=~!87AManpc<t*8923_=YgEvO^#_kO@)*qW
zd=`oZQi)yY9KHsmt);2C<oC{v8;jD%KSwYBDbaqMIbIk@Dm3y>k;Gt6@k$wVppm{-
zMaGJil}E$>dI74c$PA#Hx?Io$f;RlEU%!4e)z>ZG(;v5`^jBk+K;`rLI8~S-&{}7}
zf>Ahuv=KI9X3V?79P2qaIB@Pjx<nZ2BJ%nFF!m;JHLmUZ_hK6|mLW4)h9pW-rb_K(
zN=Pb%WGEGpNQIOwGD}Lyl%X_8s8EUw+mIwp>`KOH4k=}*_j?uld49k5|9?O4`aI9x
zc2;ZM_kCU0IUMJ49_I$Aq&s%(fCDsg^k|!x#k1wF2d<7=a~U*sNiJ282TeM#p1Eyh
zWMn#a4BhAH>B)hwpe#dpa(cf2V)ee*Z;88-5n@qu0YFt4ebrsZPM)mf%8H7@&YS^E
zQ+NBkoWq^}T~sof?^ORzU~=WhhD&><eu{jpiwF}){pO$F{N<cT+~EH^j_qSpNnvBN
zyL%fc9>RIQnwHj4ySWR}F0O7fS)1D-$@jT%c!A264?{+et^o$~^1&$0jT(H!-~aE}
zNejYf7Y!LVVFK%4kI&Z}m*6Qsz=i@nX=zaV3`g);qJOj5vrk1tY$Tf)|KVVa4)9H=
zH42K;t_^+LK}Ai?5d-(5<^uUNoxlcR(MlWa-tiw#ulHLyfKV*s@W!;cWmAQwNmb_u
zSn#-%8$SgNR7LLuARWXRpP&QgW11KA3gf#*hMUqBw(pSpf+u6nD;7c0qnSrhx*X0Q
zad!4$IhzJev!lz0_wRmX$8(RPnh))4zJ`BsamOsZd$$~bhKM7kp`zExQ>T`!TfDyh
z?>*g(#+fWRc<9hk{4SqGi35T?G*QL;Pp9l6YC2dzL$X7@#x(cn@#7BG*3NaG3xiS<
zw7=t9%5f|L*j)RzRn#?zY{IW^+!_ZsNa92;Rsm3uegE>F;solH*RGlN{=@9flNuI}
z*D9K~&OIvL{G;}u+-HJYWX)%{7Nn;B8*%$(mCIM&s9gf~Fl}0!IbRI<Y{LGyt5<a?
z%5B*)q3<|M|Jbq5b8@Z_(zCWiwo#@VMK`Rca34B{tj6|%Xj}&z*+xn-LTm?ev7)9R
z!8sDP$*bh8L{QEXT3k0bkJFs8-9HoX*KWm%DOD1IeL~!z2n#T_?f7^3PMwf3b-MLd
z+oS%Nz}+J%LKON8eX97!rCCmK2TeEmo;h=7Zj^=pp+gg8(2oWKJgIKIn<6Ik$mj9a
z2?+@^JRC|f0Bi6qc+!Z72vt>81jQm61TO-9&;YN!<kTOPs~!gcxoJlhX1CC~etev<
z`}<+i$r)eFzOP8DkISh`%{puwGkSa4-+vdPgXAR#5V~p8_aN=-?0Yqb6OXRNT+%XK
z@K?|fj2<*71>G%j`iQ@SpSC<_9dmQTQiYKk8ecF*UOpg9kr5F&($3N#^jF9>C-t7F
z1Mz#&ynn6&K_Ahu^92e7y?tR4duo2<hTJ6$4?nzrf7zuFnSvfYyu7_L6+l@@x1+dw
zC^OPe9u2uYdiDgHH%*qJ5Add>#D3+<P1Pl4E-r!}GwM3T6^b~*91;qXb{KvgV!Hd>
z`;RThiTxnS+PZgdDw=J8v~^q%pcRG3`4$$t8=1~Dg2Lz^bkAExF!cPN1cB;bxdKuN
zUnI$`%Erp7|0pLL8^x&GR(5t6H;=X<7NVOyb`Ysa)J;&Ndb$?YA6&}%C?17z^aHnj
zcFXoP4;#$ORvruSp%?)YWVbYozoMJKH77r!4W<3KMOoKhU)<9*XH;j^03dJ6ppC;Q
zsbJvWUr$^!b?O8B6`ls{rJ}5CxL?)+{Rd>`w({9Lo8qD((>z^DPbOoa1>urTwaC;X
zGFaMhL?|Q7pP#)V_FF2apK2Pe@!B_ojQmR;QToHj7i?SzIl$aLD>D<ppU5RkF9ikl
z$_$-$srf~%iwg6G5$svtn>J$xdMy_ob^>xG-hI64E5d))BWAI+NE7X4zww+64_Ss3
zdIz5v+b4~zOJ(?QvcmMllIV#8sWC3kB~o5ddHKo}8<RCIWzS!~dS!g_4=mjifTFZC
zRcs;;>B5BzsjtBMKy``A#=BJX`7SL>NTeZs+~!(Gcai?_3Ts1wm+Ha5foF)3?dR?n
zKez1wY6|&)q@d^kWw+{upXXXyZUMc(LL>V1^~;w;A~hh;K#hEkFbk>JzrSSgB!1U(
z2GlaJa-NNhl&lYjvv%2b({_}P)zsB-TLZij0hY08JZUc<aD{VJsUJR^aY8%(#M@Ej
z_Ky~3FSjeRf048)pyvu~uk*|#p!`jOlWKte%7+0mWvkM_>J$2g><B!Ns10lPpxxX}
zzW;>xFq>pxKrJ`@%8eUas%9kZqnM7$*xI$1{`%`SUKg0ipzrKM0^<rgd#lYS`M>K&
zg?sGFW-V{;Gw|dAQl7B9wyf=mW)TsiR|M%;XV<mL%$=OAk^OqUaH;H1FFEoBgjhBl
zpL&Y}I8aq}=7^CzDw&GZ3i9fkxvi#AL2liumHHoTAKXw;Rjsf8spSBHWvZcJPWjIC
zV1iL(zE5MppVh^5h#mCTOOG~EoP*H<ZqBZI*RJUqFTCVfHwcwWwr5doA?71Z)5L7v
zySL-U;x3IuN0*9)tXU|0yaAaP*7aQ|){-d&OB$w&1xybDH9!;vv?E=i^rZVESO~#A
z)iE$2oohF22wnUzY0J-Cm=Fa8mP%8I>O2qsX`DM_{`{UQ1C?`g!~U8-Z(jPE`^5bu
ze>A!p$Uw~*=!O1URIc-fmMG>N_Vqm-rwplqQ^eQQI(JKHTM5x`NiKwdu&S{}uNMH4
zoN(?yl>_TZxucDgV2C~MJa%rGvnwT`I_ECOUXX+>4*dx-cx%e?b4yL-d-i-7Te_~s
zpp-ohWCFAfdJF&VLf+}}AA9KzQ*3jdf@-YKax8F*=-m7kETpDYvLy5;zp=5^<dTt#
zJHWuAB&5IBKq;`N=OZBfg<A%jt~~m3gsbY~2M?@1AHW_)ybm2?Y`V`#DQ2Y^02v(a
z!CvkAjQvQvYFto__44J=hbVH&NC_+ddZ|g$H@!C@KaD!)&3yI}=Bkg|AkvLz&pte>
z!Yig8zwe)bV=!9~H=Y?TSj$)kTic>{?@X_HZas%+)>Ff)&S`gcbQ`Lpv&hjKa3%Ed
zjf2C<$+m1B?6tSAmU;4!s`0%?F1-uFg66#b5F`BuU{TNixr)&-x}JNTK9t|D;H|cH
zb~>&fJ+E}>+?ivE+s9@*gZn~e#b{=zP#e)})O)y?ZJSgay6S<C)M!UOIXmSCMhB7J
z5GT^?dv0S#)uBTXwCOLHTR5Mt>2*|}s<r#ny<Di*OtUWx&{u0k*x0*Ot5(`tj$@Az
z#*RAUUi<OSWLvfwX)Q0J>g8*w5ZUA!DYkgx-LA)GD&|JVZ*!ZsLi)5kxjbn2%uC%{
zUhul0U!Xx;vzF8fkRE8540ZVsUv(Is6manhy>%09{@fWIMx?2Jbt>5PrQDm>S=!8-
zUAN4?>3kxZcLml!c53N;tI%oRzJ2@}jFgsN&z}oQl~5}F(rQOgmmkxY=(?ZSp43|@
zVlvu`y%n2XO^aDMm_#hZEd*B%U$ylU>$OBbd|b}?`FGZNL1N69OzFwiR_W#+^qQ-?
z_~PF$r<GQ=?>nBVZCdP%m@Rc~l+rWd<DSoZt#^%d8}X4=AijJsT-E;7-IVEX>8=*v
zN&oqw_M0@f!7B-Ud|}rD`9pq-vHFK8jFHZJPJsPwRWWksfdeZlGjeilCWLr<d(Zv;
zDVc&kybWGT4UIZPzZU%Odh@BtbLR?y_M(tnBJImpWqXh2ZF?U^huPE4*+tPPxZE&c
zk4Vsh+-p>%UJotMxpDha)JbI!7HOE3e@W1&kt3JnQcq~Uk+dzV!LjVv>}F=Ss4TW@
z?|bA(&rY5GlsSlmyK(cJ)YQFpqvD+0mY%4E>+(DgxaUD^UH01_pWb@EGC2-tYP8!?
zlmk-EW4r%~=>{44N$fuld-|hpY<_fzv@@rMhRlbLAEV?wo+f@uD3kimju~`!ZddO+
zM@BAd<*>rW2C{OSqGMDx=|vDoQFr4@*H%|$BM=xE`yx46FSK^pEC@7Ts$Ztt?JVml
zC~n%{WhU5ZKh1m~`+f1^njiV;v$MP0?3~#A+o&!<o<lX@y6pI4g6qfRf`S{6v+=KZ
z#IhLEb&#x5k9J)*WUU!E#EKlht6-jYwkmBf7hLc|zP`29%m3=BzWf2@y3)-CVY)<O
zcsrWR1b9cSgvdwU*&y9uZT!N}&`oBPo~;XRAh?lyqorW38y%f*ymv^mL#@ov^y|{)
z&YCqu*c5<muV*Z3K?p@zI;1=+%M{*lvneR-o?Vv(;zFgmg?AIdtN(h)n14lIY0R*P
z@*A3!iMCG%gsRH^%rWx>P(3<2_3`7#3i*Xm=RF$gV{gS28AUB6Rrl-`I(Yd@TIaVv
zG)dU<bNr&`NfUbNuHu@k+pctTb^SOjv+(WPIpw{+YTok84O#ZN^nH1`ij^Qe2MHSH
z5UW26fV@W5ZN}HUznZ&=K32?*j1*t(?_0+`1b#Z=d~aAhRg}0mo9@8Vrf!K&g>7%H
zCdBy5yK~Av%kr<gJRy8|@Sq4zgl6&LS#-&X)lW<7*1fxnqhr`Cy9E?pfwX(~=rMNu
z__h~*D0d~1BQ_ztKZ)_c_xAqgs3|=^x2yCnMOE_WD`4s^z7W1^KOP$!8{0KKDy=FT
zp(@)mc+=!VZ=B-M-%|8~O#{psox7xT+oDw8aA%8$I81x3RY+Xl)ISF?;mh7m`cyAd
zMkQU_dOBjr`^9Tj10bcQteQ1rMo6{qk?O}ifdyhe!G=FEB1@#y>mDi51&6J~abTn<
ztg#ysv|H<oT|Vd-(+38@Znr-P*M~x4`W5O_*OyukCOr_fq>&>#eJq7rvz3k)hm+&h
z?O34zLFc{pdAJX)p8Vl83&|dO{{i-XP&ucUdL(T_Hl16&I#-f--_glw>3jM(ht*sF
zuu&Uq=e~LK^T^2;w|jd(JDXlcj8a!l@KpD$dYA(i;Cw~_Vk2tVpBz@LYSHI*LBWao
z?-vn2v2Se85{)ucNr>3ikQBkopAn-day3cs>jmZ^e;IJwprUw})Nb4$Sz+dt=;%tU
ze_e;~)unT}Z~dtdpx|a%#%=R_^tYGX`{|b=0`|0#lEM4?_`K>_CD!BCqAhb{*tfy)
zE8F~Y725!=eWo19k|>She^F^^JL``m{i|v8xdNdX*Eq*{UoO!Sjw9zvtaKK?ux$0d
zZ;%qtoIV{<6OU5WE9FEZhpC~>m1c2?Sj*re+cmacE-@)vsOka)7`x>iZcn-Jv*FaK
zd;94GjkC>GKLi-ZU>5thBbH=|MqBTY;G8(Jog5NpD7V=+E-nt{+n;%_U%%#An0+^x
zGNo$z>xe88D0ln@z8k8PRp<I%Q<;WG<plLUqDdjIhZh<z>mL*(u5bu#2JhcPE4!YM
z(01g^6I8^j;phM=(5WC6LvzHWsq><h^mj7CfH>SvYxwXof_Uw!{sM_7_m|UW{0Q^%
zx;FbG$L&VOvu7(x%&6lZ{NQl_z8~x#vVAX~Nqf4{!IQ+kUM75Z2YnK<i0}d`AA9%j
zx5)@tx%1BJvb?L60M-6i0{r|a$Dw7EsSrhxvSC?oX~afup?juHM!bylOTZ+VV(eUq
zw_5aW*me<L+b>_SLTl{UtU(8I?%!VlL13ZkT(n;S!un3@D~k7gr<V^KoKpaY!@R_i
z9Yim!{#4Rqcv)#{j!|igzjkdoQp~lV?%cYyb@7Sy!0=$0F5g@PYXoCGw}d7}kFw_@
zbD@)s{{B}x4M7&71~g{ORibgxTW~`A$cM#)^~|t%(7{NxBNJdm?y>xXn5gHd_l)PW
zu5>`;UeM>YkO>t4_f2i)!+b*;)xPsRf)Q%!ZWT_Bjt?F^8t6sEH8ewgxtEW~uD`yk
z{q}8jLE@1Q_qXw7ePP_osgndkym~f>wm0#Ta-2>zETKCz<M!>-m{!gB(Sm@~U*E{B
z*X<Oy!Cttuj5WbU-Oct=CnOf|yFw1&cK9NpWFWO+kQPX&AQo<iBdR}rdOi10DW9J@
zCdOZN{;0q;-<0K}PXz=M1~VTcxoRsPot_`(RklEXCk@HhQ-Xl#jGdMYB?BWV$h>mk
zz!Rh;^rt&OIc5$^A*+ayfhag1@q?cSLe8I0q|G;1b@=dwmzHj)gA=|vfjx?-B(SR-
z9AI{}7;Z_x{}C-E{hh?-Cr((#d22yxNZL9ap+x){041?FVL5vqceof4y&2laffRV;
z5&J(v_e!4wzI~ba1{;f@AdwvjUp4pz_|Rxg&Fq|<3pKkI%%4B<QQMQqez1Xv9I%zZ
z52C>X<yYu8um;Di%o*Nn8{Ap+-VROsxpw{f*h@leV+O=Tt{R>{P60X<h`FhQ7%o}1
zyyF&s_w6)<S<{ikReJfr_W|W9l8JRHG;DT;u=Qe07|Bm>Rj1w46b5<0*vh`xW5vWS
zDZ_RLq1QrzuBbFWI~z5Y5b8a2Sz%6v=3m>kxm0eVqG&z@0((Y)8F74biS}X#5?hcs
zFCRP}is5C*a{yY9|5J2OQ7I>rAdjU(W3<!&r}?qeKnapGlC}nU<j&+MGP1ICu_%%2
zVF&nBTI>YLFLb<BhbUw_b#z2Q7GFusz{Yu;k|NlY)Tcqq11J309WmP2v|7VHOX+<D
zuI2-fHGS7S$EW9q(-Rvp?kkg8AWofi0F0o;oO8pm1n{HFV)(*q7pa6$=<KvPAJ#y{
z^Gn+bGzjQMkssd5-1DmW6G3$kCuyP6@=zmU2f_+hZ7kaj^Qf*)JqY!jf<a!aQ6Ftr
zn)Li%jxBS;4(liP(SlJ#ERb;}Dyp1DUtLfl2=2#@0oPVTk<}bE>X6*&$jIx<?svR(
zYfm~@-_QFB9<hOySAp@EuEwJyw1R+4qA|o~(GbsG6nBNJ66OE`wUGFy$UvM%=s}L_
zOdz{H2ND*^>Bj7<Qz^E+UmZy|#uS<|GBaU0o}p3&-V18LE~_PISn1pD#L1J<(b07C
z*5JEgQ9<(Bc;^mwHq|s%2dE>v_aGT5cd6y{PNoBMD3;M{AI}y9-69Fa7$qeofv})<
z(OoqFBPrTHT2DV90x^l++qaHm;YAv4zd|On@sk`s3w}r%NCR~X2X?;t@ZskX_aKUa
zZF>6Abd*LtUoeyE8{9bPZ;D=sB#S1P1q%r9f#MKs!>2$?T1rF=#_r|Aevt_~6AMZV
z6JP?N1?VyxkB|ZB0PG>juEsj@g1=r42s6@IL>sSQa26JFzk=pVox^OI2m=or7$x5>
zrNGLL?C*uN+F$d(B(Cn<xpSb2pBZGy1FH8nen{)PY15`HFKGK8YSp0>QPT9kQ{Z3%
z=|4Gd_BfN<z<tz}muH@neXOt)Q=dx->B!|hVzMN-9h}H7>n|bJ?tM5-bIh2AA9bT{
z4ur+;NF!_N0lX)z?nc=Iu4mC#L!BpZ<FUPz8K7oA%F8=y(|;cZojUlB{SUe+C{z{|
z^`P9eZiM$8L7)LbtQ{;vmYw(X>A@ATK=uD5y2Y^Xc#6v9VAVT-(l$+>J^SFcZ4<LI
zcKA`CXW_iPMcd)9@`&{{6d8$vI2*3}Ghya~u?iK{2*1&c{@c*(3Kaz+9d(bs+y}p_
z-5MCGgq+W{BH|rUD|oNj)lF`0<^RN-Qyh44?btrw{)&Ewb47h<X=lf0Q48ieZ0Q&N
zDdyEU`LW~1jr15n&6O?0)Gi12{ra^hBP}{Xl%`ZNc604T&-^#A3~|Z$vS)*?SUjFf
zwOyX7z82xE%7eN7US4<6fB}Ct8~TVo)q9zlhhAPx9kg%(5ddWi${A)Z*hjip83y(E
z?%lH{(md=+x|V_4WM|lQZ{95J-TNq3AmR>@)dtR^(d#=qc1CP1xJYGZ@;ZlMuN}ui
zHDLFcx!}Wbn7eHP%uk1e6cU(~mM+lTK@2zY!wO;_FzyjI``10q&MtIu837<3g9^iz
zM_+0A%PT0@0_fg+GL0HTud7#(d1`2Cw)`TR*piZTo=kG%p!1n1f!LclX9F0%e0ei>
zHO!UphaCoG2aQ@W6NAASNA%(6lrE=m!URti^X9FGzO=O?f&iV+m>4p|TQksNFNtwP
zd@XzMCSI7pvR1xWfyfQcH*{XN3JQQHV0Uxq-6|k$taWlqaR0s`#4ZBphAQVN2V!<M
z3tr4L`KCTj1EDBr(*16B^pXRC#*XovKbMLDo&?2_TuSp+TW#7_$%})oF_7p3iz;YT
z1i&q$1K~!epQUYa|KVPEpEBs0llpel=<MOqfIP;h^I<|D;q&mp;LkAx+<1u3(=Qd}
z$5)9hbzyeR>pQK13F-Ga5#HaAc2)3Z=q&f6)6k2^rHRJYxxkRDMgS}APXF0%M_pS<
zaJK!pb}i`fOkXt`7$@l5<?LgexKpQIQz~V5^H?kwF3b;~GX!xswij4}7$8PN_PqNR
zVD}s?9c^uWeSKO+eNUbofw>F|6D{0u<Y7`~Y&z?@vHr(6(PDaPhxZ&aGaXJVP&llv
zJGXDs*G$Eqn1GuNr*LOuGx<@U&!hOSC3kkbxVDy-F~7q$Wk?Ls^+hUr#H^paxEFG`
z{QMtmSQZm^O(oyb@&-?lN&x*s5lh_D!OA$--+2p!YH$I{qF7KoZ6ErHfESo{Ie_rH
zyg$GfdhIVotJ1=SqDXsU*V-945Z|PvpTt+tj`r@`*ZcM41Pm8(Cm;sZEC+1l50f>$
zPhPZ~?T61nPU^%2_YzuvD4B3TKvcf1P^ZETkbf(Fhkusa4J6DFQF%?6ix;6T(gQ-o
z!GoYl!ur#zNDmEBq^8YoS?@c9CkHNF`gD^+!snqdKn<D`R#IFHQ)X0Lo0Th514n`%
zVhX-~`b3)`XTX;(p`55Z(Ixcc#G>*ptAfKy9+K3~nDO||oq?2&6|+$AL`Dw{b2m~I
zZH3b;az(`!7<f(XNTiMgQ`GP=zrB0)+I?~FX~vG>f?p=OQSt(+!L=UXBcV01;f-j8
zq*iEjYVj7una8eC_mY*BZPR8K8?(*Kq`_X?BBvg=kD`edsSY~>yUhRk(&a<MTwC~I
zYkKy(4IMpu`NEth%ORMk$A#8@|IRK3l}1v2(v&GHU=P4wvw5~F+F;Qlok4@{J{B*P
zL4&+h`}ZF)LKhg3&*p2LDU3Sm3=xHefdegWj_cq56}c<z3<T-$f(XspxvvlyOwGnH
zKty&0mYnq$+#?p8-AmV5Xs94RVsqLK-u8Qd!#xTMMDXBkpRTtT$!z+1u+z~^Io5;;
z6R-qBRaDTd7XgCMXsddnTeW#7Pmh)KV8{jbgUcApTUAtMa9E~IvxBdIodn@4bV+i7
zek&XqDIaS-y=t&HOvjHi1c2Ts_`$C@cnpyarh3tQDNOfuV7zQ_JZJ-J)l^yre@=$U
zicy}YPs9-1awTE`>0{X$>_>u3syYD1E9dPH((t`z?g@9#lQEv&SrXK)Nw`E9qz)b8
z1~m(gPu|>8l5U@U`pZBK_gk@YN2-2v0dCz|uk#Iv0LW3i{eQjmihSJjPB)f56^#P>
zXXyQ}zi<3c3q_<Kh(>y;bd+mLkiu)Ws0BzGC@bh^NeL=^maG;%BAz)cu8<c#E$TxS
zBhC(!=*4W?)lL!|*U9v|xrIg0Xa<e+9xODHJP(Hk2YbrV@i?$VFQ^$AhQ28MX5>nO
zci|1m&}gB}5@`@t*AK5u{-t6Ot2BPRMb;%Eu3>*KoJ+@BcOgsi7tSK1RfXjr5?hBB
z)-Tl;56)QAO<ZB{m7<2c2k8;J*bSZa;diW6k(UHrLw@UXLz7I1XE%UJp}R)@#1X^B
zAu<~$q;5RTz2j@dlIBj8NLnll9lB7X)vwS0x*R=s4Z}v>ii#lvaTZOKTusO^pwwVH
zaMY+dLLWp1q4vp@#xSJB9e5s|0t|X#HWiT?&WnH|3cLu%(rp7*j&PN2?y0!{NT}n}
z9^y&)xkm;Erz38JamOByw$KxwpfVYN134?{St@C#_lNW>B5ikISsG<Jn(>!K`Dv*Z
z;;j;u0}OSb0T*jZ8XzNOd$%ibMYd%i-ygcKsK~Za&7{Yu8Lv-|l<2J-D789C0_g2M
z<;?cRy3lR4hE=$sxv>W|+R=m&`{`TtN=gAwTOnE_8}m+e)JpMmC9zZ4r6T&H#gyX*
z&fF-v6gwVIh(ems3*Wo9t1}4oU+H^9n>&<wIq{$AVJ)(ohD?96vcEO}D$?_Rt~Lp{
zEN>hkj!p&f3N9TCe)o6|hwZ*rvi*!?Fr4%Qb{C(KNDJwf?=|~`9*SNhi82@Dx#M$V
zHcO%nIBd{&`lw)9C<hLlDD$bNCNweuLBBuA^`t_c$ZqAzJ>$C}M06lY>%g7}%OAS+
zOLp}Ar-gi1xoLlnoZb7X<ZAOt$ED8_>_Q4Hj@ZBi+b~R1MP<^Q_``Pd4;QMRS)aY|
z&pAQHUFEMjHe0A>tS4vl>g)aZfM{L)5&a!oy|4aJntJTXxGI}|<2MJoJ^3IWnBJls
z`T^{g(OvXev6-j$!Ge+9WD}P+lccs5vkg4$*HSsfa<-K+E}^iZLe=G%Me@CS?}Y-j
zKKR1rA1abeyjMNxlZ@0<*`IEQ{I%kf8HawE<u>e%)$<wCMxwoU=D9<o0S<?(=`7KE
z+$gPXtU_owNaa<p&YcIi9JV;~E-8zG$s?u`rku^T4|%qsU}_`mCkb1PlLipi-`Uup
zqaXiPqGyMrVIS?0yPcg)k#SzdSSBbmj-3d$c%GX}fqR||Tt?aWn5<sC_Dv2qZ7aR;
z<MZ@0PnBHyNR%9i<1+4{gf1?JS&+*S)MiBKz@bB@RrF`>FT_$qi_5IkG9G}_{brsS
zTPUMK%aa;_EDl#uDMXAh%&t+<JYo{TsHk-kn0tCk#23=bLeH?A{z5vbzg<w11n$S}
z(Su_oBSgk=$d4MwZ>!A)LSA^$>Q6v-jb4vAT<^rkzF=m`V2AS-afSthBp+P{kC;K1
zz+oPuUbm(%+@pWWINa3fT$r_`$4_UwWi(id<ugIKa-AJBnhL}dXE<OAnxO5Z22_$~
zo@>{!V+F1Rxt9D>5=opHOCBPx%B8rJWDVtkCO1qoGNNZBSnf2e2$I@ES{)^Nts1}3
zN`JtB0r&_nISv<$6(834l`i@E&ARu!rCyPdr3mDS=gN~@522$NrPZpMn!~FtuQ{Hg
zg!mb)qAW{zGa21a(Mkpar^1_Sb;(hbRaLv4e<qRG>}{<28SOL)XYAPFSRM3w-R?;A
zc7f^jYTrtFmt2RrG(&!U34|Qx2Lea$A)j|f`ki2Gse^-xixNYB@xDFCL#21Ya`yMr
zQRa8#^mkGTv5T{i8h~{R-8_EisXhE`<q|GhqIla@<BDCTX#dgQNzw`Terkn*B$Y-3
zZ@3nOuQZ^!)&Fp7-MV!=g0DQliKKK-ZJ{&!YRO1~H!Og|O5o%r$4&+IHCCEu-QM#U
z(LAnN5T&IC>(_rF#(Oujg~X?Ij0qnR*e%3loJaj;yYEp~3*e3Vjggg%LfJ%@%P&3}
z$*~LFD7b2VC-qMS^C#EM2#E(Fn;|z~^ym$sOzcam3Q&l%B@R|ruL#b??(yl+IF%&u
z7%V4UChY0&1UO}m>s$^<YOa_!gwUMSfYwY1uHqNO%W4C;j(N1D1JYAo$nSmwR4<&_
zB6;&7x*2#X`ZC+~8F+3F@E~q~`JB2M2S6|R_u`lPePPTBJcGsq_K0wa&Fy)Fn!`&{
z#qDwg+N3V8FYgfVl}IjwDc|S++vSLb+&NV3+P3APB=@0o*%5{2Aw#Cfd_rm0d&iCx
z#z*!)m$KP$9vz9`E^r|X=N5>%Q^Ya4Rv4skwj5FHQ5@O=ZAq$_UxtjXM~{7zrFV&N
z;2)^C4B*|t6|hhIw3<tj4e;0xo;{l@^9j9WA#fxfiWoN8rF-`wULUKf7Eu2X224HD
zh<5U?1wyr(2Z^D1q%14Gc`CZ@pK@15w~>-Zx9Zp@@ZdoyUt%)|jF-|ekW^RwFEphf
zk?S->_^y&0bR0DG)>vNOFrxxbaR^-r$Zs~FE7H5TsvC5K@L1JGAo*-ftDzhsBCA1u
z0C2=-JUFjjp7-Fv)MERiZ1iuiIU>gkqxDgNCL!#A{!Y<RRGtUxXMxzX`e3T$I)oUC
zUP$#8gGH<Sly5H{gayFfH)wJ!h?p~H$(&Upj7L0YD+^QQY?8&0a;%WaT#50rSPRAr
zEDI@zr78^8(bf{Hw#rqXmJm3C7jBn>5&^)QAG2bX**S5eUUIi{a%$*C#0PiQM{<lq
zq@=66xWZUcGWN{Vu}kk_y?Y325osO?OaG9T5P-1iMhFV+vcDHlBmwP2b~1p{yN)d-
zYAVRr1dUyLT8`6s<4eYL@?1ZyPM!&s6gwGA_tz~eIej4(pW)xTnI!Dp8=Yt|H8DDI
zfR~c8auAd{t~*kLJXuc#T$u(eyZAX-?f{PzD%QZ0+%5+swSVVM=8^8lC}z#arJ!I+
z(s-tE34lm2W(S+DQ<ZYk3144zR2a#Q#R0m=Q53dRaRq4sQsohH1Bf=EBMO%%uG8pT
zrdXB{BWB5rL?RuSyzxmZ4~NSz%w;(ROEC<UF&t6^DE>x$d~o$zY)k5&Xg`q@!>o#<
zrysa8{%w{!Xn{a~x%BOFc*z3<3|V0Z#bs-9kQji`fV=gQ13S^h3*eCod4w1lphsGe
zh0q1yWeW3PtacOgw(igi7rR}KZg#>q_qxIW-X7fX8wU^V{=rcjd-v>Fhe9xnxRkza
zC05GHFK@`}Ll#D<-qfPYR2d}iZjw0U<>s2t9?kc3amE;PKrQijGE}NASwHFqejPtC
z+a1or6sTO(GlqI07x@s4W4S(khGVLo@8gkJ)nk5sgS;Fa9c!6*yYXwq&z+xO77>9L
z6clL66KsiB!+k3?QCW$MzTvxif6q~h<fC6pnwiRPyY&&a^9YOBsmkUZplji}5+7id
z1PHP^ME1(Xi>}Z`K(Il1U8HxZame-^k2e_tXsz6i)&VPG)upueALA%{IXXKpy1aZB
zsAvAE)W5JY#0clI?U5~@LG~vazZg35xTmD&6}A%lB;Xl)jUX!IQUgTx2|cqZ<4#ey
z3`)f#C*dz+WiUqE5XG}t*mVaJn{Md+%u~j;8bRnx;hEY<zij+To=oAN3Z#;Yh9u6C
z^knjxq4W0(l#&BGTiO3}Xmd$m(0z;VSMIWy^>t4?3a-1%l3B8HrN}MuRi77-_GFEu
zBoC~cd)*~^{iy!^tymc@^Y9q|c#7dUV4OnN=S3ON4rL8Cabh^$84}q^n0%D@&K@N=
z`p#0|@#{Zqg)YbN!iU?wD*2}n-uN4an1sW60dt5pR*D#`(R4TUD}hVV&o?Knkh=|M
z6jCvzERD#~lCWbG$+&rORB;O3^eH%QMt2RQ#ZRldB)O~EjPK?$2RU1G+_8D*B=qdj
zqn7D6ty;D;d-#wO@y=SU2aQq*OaI=DB2V!NDCFn?KgrFtD6o3}&`K?pDjPSMVVVQ(
zN09<niPght5_yw(^J;~TG59>YDMN>P0zzq*<Kk4FycRmw>_kx?WC_$;kJZv55(=;K
z&_r!H<#dx@eASF&*B5#P{xIaI7_7wj1~DWy<!D>IsCD$m1DjRkU7eLs{Pt}O;5<f`
zzmiy8jyUf=%nQ(9LA+BTl^p^BFF67r0zKs?yZ_{wDMGHZrC$P*uI!d~fie|@_BOJz
z0b_cwi!@nJ<UEUQh*m_!0guBSJPc}wDZ?28^Kfz&UvvC3;T$cs2t}|PJ`7uX1!xZH
zGnjvpWdm>sl=qvdOXv#E2)YJp&*@NFabNUm>(vcbRJ^R(UJ@7usK@}iY2XV1tChR%
zW*4P_y5DQ=`B@C)qttN|?Q!3fOwmw}COIMeqrM#^RtXW8-G?D5{7!@vJbaeNKcVdq
zVQeAgglF5s1vAOG9(VDgabz}kfxGk_(|ZuKOu$f9LA}?$3?1U+o<KQ-1I*$Xux7L*
zw3uB<$c^8fF|G27{mV&|ILPDtg05{$s)wj+-7zLM_RH6=0YTT4{SkHa*&`Ls=Rh%2
zb#U&sjNia?F5Xx?c)PxE%%1J*e^z>kiMY$NTM@qOn>-5YD^l%SG$pmyea&3gk3W9P
z%BSKBzMr{7^X3I6(pVlEU6OZIU*^oyux$IhSi7pbU1piqiJcgchy7sSi5L|?*O;#s
zW5zVVTp<1Q+;)nt&uIh<xe3lIAExGHWL#$V*vBPMKqICM7}HNO$B{ZPKv2>81X5D%
zYoi_J&3jH`a%AQ0C6Mt!ZmwtDg&Rh(O?h2lOw2keB_WEdr%siL94gM4zZ&}jqcSyb
z7BfQWS>(8enkpAE(KyTvVhZ|6BAuXp_Tg~|Q`9#3dg36wg8IEbtlEkmh*!zYj?cVG
z8HR#XK>kbeQd%Js5k*NfmPk_0FbKh4XaNxQwe5?1$lKSiXP=r#JqEAwNcRRUS@J6X
zAWKllMvxzW7I1|CuTbI1I<xvu+H?O;e^~s-6Co)kl=~cpb=?iO;3jT5``KfC|FPT-
zL1LVR!^63U2BRqgYYNL*O)adk3z}B#fMJ6?gAUTfNF|yVRDW{7z`%KzcgGu?GKLzC
zo2+KIZ}=tC$!E|^i`keo0Y(dCV*Z>lIJG|Q$&*?3Zz4=1_+l!*+4F!;B*8Tq#p?;1
zvP-KoW~^LUN+jdDY11Q)Zht|$7W1!~%DA!xYnCk&16mQE!TLexE}pUMf?<m+2jZU$
zt$P?W8pCI@MGXx%Iv!~y^$G}hMj`-wMJI{U+?f)+sAc-)c^Esv%G382R*)bgDqRW_
zUXYXO?$htbk&lz#xRWC1s{Cu0^u57RG_XTI-nv~#(LM1Y;{WuAmG9$wsV|=jh>Lfn
z3I0`Kq1mZrQbCCJVA?hZ`sVs#-~9QKKoOUKhVSdAV^K3b4hjYBcl!2ku+LwX+zckI
zdUnNOLHI7w!;P)VaTGmv!5gqJPiXljd$~#?9WZ=*J4u*42zXg}IR&d@$B##r9BZ}h
z&&ce_Q>HW!ILKO-b(9QZH&7#|RyjK|d*SG2664v2odg!AHVI1?f$ZE%muTl84LbrU
z(b>ZPCnwz9OqR6W@PnkJAC+Q&77T3+FeIVL@m+~mw8oF8--p-CqoZfY96WqjQFCqe
z#w5#V@V0;*aAN5p;Wcdx-CbtNX12Crv12bFb+}5G@0D2jQn2QQ(<`s69O2SUqW3o)
z!$Jlk1Fg#AR1OJAIdqiesEY6hdJN!Z@N>xU8p(Vz1sFKT=oRw^;5q)xANV=<3M!G2
z;nb*o&|XN3u+i}WWStuUSxo|r|FAL#E%^EKC%T3iY!=SXrROS=;0&WM_dHxNJdn9X
zKD#a3E%@Qm_xk4paMaHiO@xPV>U8&3QALFZ*Z>Duf7k!<FZ=iLVt8VaRBfo3{+1mf
z`j@@r@Zq|2EkQzCzvvXu!h_=-^{SoLulG~!RrLOS4!hW5ZMYbrAS)<?K2rUiJQuc_
zuVMwU-1HqG=gyU44`&Xk|K4xyv@T=R)Y1)h|IIV>EJJv@a6i2Ji}+sO8V8sdycj94
z>_jG^&Aoe}+!(ekCN9p|$w{<Nk~N_p5CkY*y?FSZc3BQQEY*g>($YMvWAEO*<0m$g
zlr-N%K`_2?$fv~f@*<SvCrq%kf5WrYDO)B2G@hm5jQm%xtZo1yh?ji;rxtpnY3anU
z>=L5xlov0OEEGhjYx7qlgg|b-?WwKyrkYjU0ke?_ep3%ZrZVX=H^hWig@?Jh2|La-
zeVVB$u9HQNe4C1i6jOf~@qKNB2stC#HjVw2*oPcDb`1Dt`iy+abOj^_sY^O`?8t#V
z6m$*q=Ku}2!>?JIN(Tsm>7%-qGOLtI4n-lB{6@+Xk$kOdnu!YAy*~&(H+k<~{ipjv
zVA8r{)t4`LIG_WzR!vQfX5;WxwLh^!oFZa$r`F9RF&o$vcv-XZapZ}G6p3>nwb;)R
z5JA(>Pf75Fkv-b8LAllFXHfV;Q*|5s4XyR`JhSe0Xw$|nJHlW8R9Iaszu}oE;-r54
zD&D@uAXUOpPrG+-GU=mL=-$a^Kwj}7{>L6aeYzI)RK`D;_#YEJ`%2q?J!9v5ihH<+
z5XA}-#?|!lyjP?2fiB6^8Tqj1g!S67PCVtyV(ue4NU`OmrCQhp8q6<tRFynfN~1J3
z%Hu~>m}vx)LN34@JK&+rZv-1PqE6V15%jD23fE8B;|3PEF_vjsNZKb_Ci7<FxyKPo
zX2eA<b@wmf^T`?c`sHiZjBrtvs7--f)Q`RX_Smi4x8H!XSR}e$Vvm}Ih)b*A|Lbnv
z55urarGH`*36UTbrY_;B<BS@=3l*jWn`Pn`vM-$7cAaR4s-8gbQcagGJ#84G-lM(0
zRw6hTF{K&sV8m!qoBinW>n@T#=%$`FBVRP7UAqRkP~97;hlu(}%p0DnX|cl;k?$dO
zuz9^e5;l!K3aF?SQRe3|i>tpGo;(L+#`Lcl6xt%ydW#QN`}N^^J=?dM=;U;{F>DZp
z(Ib`8ra(P>7Zo^|Lz}ki&#tl~b|Ew?2eXSoEHug-?#q4x1D&*R%#$$15S~Iz=9_)u
zZJtw_CSUS^uHp=-F>wZw_EVuombwH~qVd6qrgx(H^RJJIkCr6+y#Ui-TKm)D^_U(i
zt?rHi`loEkMBxt*)>nNV(-Y1Yz-*7solQC{;fg%HPd81AkSKE%oQaa^Z!byHupPh8
zL{rpyF)l9Z_xE&##Z<h0e3bbnHjs%*O9&H8=bL=yDf*imU0r3QY&REDrq9R3^j)4Y
z&B9TK)5Rs;dD_$(Dmf5B1V~qV<2O<_4;YsU|MTU`#f^ai!5r!)z4oI%&dc5i<H7zl
zk9+}ELn1J}9J(CvE^#e3?=rkF$7jSEy0x#iO*xsLle2*~XWaeyH{v_>>VBO~i5d01
z84<6sZG9>6!LzaMi11i(`l)S=hclcgvB`||dr3jjr93ypJhINdr^N3Xu^MlWvna<i
zBICHgeht0vlh0rpcsjD1KJ7hlppqF11N#Z&mgnaV+Tp*QYK}yC=dTSOrrH!7nRFS`
z6dAF@toIZ2V#AdEBe1FLcTI-dV&c8zhneqH(7gdrLNMD)+f|J|o%dAGr#Eg$poW)L
zYTDNx<>b&$U>ao(&O@S8>Tx21%!5KL<=@mKQNn~9L#z;~IEGI(9{PL3c7R?zVeK2Q
zth<CCMQr($J|K@t+#4}kdU`qlIm?*U6ohEgQOFUtH0g+JT_zh0Ao?BAuI58q4WwEO
z&Sk=a{RwOvQj>69=tWFn9~c<G)iy5@dG#Xlh;S|1c=73A9$)6265B4KX%MtT@?hYv
zZAUagh`IQ^+N@c#!gmc**}sx$#COIu?okm3fjkIfca)rC!h{p@j?J>%$YeMH*~NlA
zdL6yA@Fez$eVoOar=*m32>zX9Ph}PZ>u>uCLu4~i6c03Nxh)SP*zos8{0uTl>^R)+
z4aNV2)Fp(s5IP3W$Y&1*34`nNf=r)*N;*lFH@P1$o)ipE1l>z1JSZ?a{z)OLUw(+G
zG9kw4r?$k|3UYEEYY$LN{y=daNmQwq{waa#f<p{@Q7C+6M4w;Y&B_UWUq1zf5t?gJ
zut)v>QJ?o^W%*QvupfQ;l)<5Gd<>Flz*SHoXxAC+A}0x>^!Klc`iUD0Y1;~_Ad#Pa
z+<0~MjKBX5u~$g&XsGAmtjr2~3I+*sRT-fpx-UNlHqM*nPls$YdQpg2ka2g$)Tw}W
z%InUu3|V*0!cA!_q*L(1>oDF1rqKaENlIW5CAz;M<A&6X#$qu^BFda3`uex}Z=kE?
zB6^Kpi~z>$8M4CSnfCg1o5n|}koM8tvJeYTk%JJ3)92{Ol!D_~cX8z_+3EJbCe_BJ
zu_=Ls){kGr(!eg>cD-xcNzf>=?c+Fg;ij5$in_Wl@!t?{TlEwEH%uw_s<=!^a5r*H
z&J@G|oEEU}FOM|_;Q~70=<aB8iXa3;M#Ng?kvjAkhqp^ZtXGGqmr~W4r^pnh_=_M!
zP4oAu>AOU&2gZAP&^3(p&?<LXzQ@DEgGK7xIU~Ys*nf<?4`m5$r*}JNp3B2tfu$Oj
zI{>W0$=2*O18dAwo8{Ahy(EF^zb|@q0=&=7n-e*bw7gJJG5fzb^JHy|Jk&!_B|Yk7
zsgHQCAQaihiQdka@$1fI6|i%;2lL2@`ucF`n!YNl?XUare7)gg-fu3zd;kXDth?l3
z_&%`L-!>nE#8xLDYjTY?OR?ru8^G7TF%6Jdn&MmVes;UBc_inLa*I&1a}0=zqH`_G
zBC6k5$6zGd7q$_{H}`kMqNc@(#jBch`AQ25ya=F#%a=Jj1Q>iH$e3ntL2Pg~M<kN*
zj7+l~;$^JVm9Gub_1MC;D@<z{Jac5PeU$Q^*~jTJk5)v@<zU&HnADnO?+n2o?VVq@
zZ29|^<D0fbV?w*ur1hIh)L+aRNQvjd-{~c0DtnF}Nc^F!Y!8k?z<9XA4M3J)zM*!-
z=pO9>24HQJXM|ApbN$h!d6+XB{wq(tWPJip9lw#3Wr;dSoJG`ATTJQ_lw_yti_O?E
z_?LVA=<&a!gf%DrSCr6bZNkEcbus?}o&#0Zfr3bY{KySWFaav?V1)EwMn=DU)Mj@J
z{GINQdKm2&(rP6}kBCVH9hK+;%LtEN_uBMu(+yB?8lCeM`)tDtUR;;nBK@YRO_Eoq
z@MlK@1C=z_3XTgj6Ls%#<HrO15ifC<V}Q*Y4@__kTT}=)(z;|^Qcn;C)InIa2oKEZ
z#UOxu(4ou=f#rJ*+EFm~2#eSf)n{8-DgS%eAl8P@YTyh&W)6R9dxD8@R9hc5p0=<<
zzwMIWT)@}Hoe3nfDg19QLyjat5Rk55GrEeK*iI6;@LVRt))vc;Hw-r&ZJ+hv{(Y!J
zZ$UI5$+zoHx*D}ny}8ev-vPu=YB$hP%<b3EIl?1~GLPh+C=sbNtykLbxXZXFL~8g&
zxNDUD@x1>V_DaX}G$t{@8^m}#cyKBCaNx4h1gG*zx{v5GfCj`+&DHtO@87?F=MFB(
zMCKrpbL9GGo)*1%<3v4^=8T|yvcU;7PQ!Gc!|i;2G=hXKq=v4^jy=^4&OFtw&YJV%
zwWueXj`?LUBxWLoiGD^(1R>}pICJU}B3a-?pGKTfv?Mo%Yhm)BL{~8`(z^_}7c)O;
zBnw~9=#AMYOkPlcL@jH(9B^$dGu$F|R6R?`k_YoxGK-NBS)<mYU%vH<72P{`K5ZT;
zq))lM_|75_xA`5|=*f@jwU6l7ztQH3%JP4_2pXcaU>r9IKi}v@)Mj8hVbc??bFq-6
z97&<mUsJLZd^QGGpo<2)A>?<54)L^Ks?iJW!PA+=AkRTa=h&~o5)gi9^b+IMpyv!}
zT(soW-@ZJ|k_QKQlV<?#mjtwP<PLB9g{|OI*l5{}VNIYPfJ#H@;)c%pi9c)dpmatR
zy=H$OAG79!oM2dETb5;i_`|pZ4*6@@KWFef77j#c;YkpsaS>7G6rzW9Z9Bj5Vfg$G
zF~eqa5E_%e(&}%Z_l=2$;f#fLYZuZM&}eETZY23v>ChW9=2>no9lznA*7D=EhYY#@
z@}({<zA~Li&I!<UMm96uO4z;*_lnmghQ~t7R+uRJqqFkVRznOY28JCbWi>oaejl6%
zp^bs{rL(&>(PpmhP5tQG_wNB3YmvJG$+aIV@;mziP#;mfXe&JdX`Qgh?8`@pepKva
zgqVX<?Z+kWeLSZPRaT}=DxHYp_{`{M0l5pvt-#;Sqs&EN8|3BkAW@S2DD%tGN{ob7
z8jvNBDIK!Nc^tU|Ohs)3`vRi#0;$rmAMU_g5oeX-fD6Ok8$A3L2Q-h%Ci|8jpAQva
z<+BPZMEX0$NLqNr*<HHmwR~4t2+4ZNxlC9DcFrZOfm=bj_f2McuM3r~rlnAl{e472
zAJ}RTx?MTD>!^<pn7!%yso3c7U6Cf?lv$QLI4rs|d%6)o7>=1?#FHj%5>L`KkOTv?
zdZx@L6b~7PY_|SqE`TvOwA71PKCmH{9~;)(rUETw!G6KX$FEyKy>Q!gKSOIGptBiK
zh9SO9tJ3z=FY|BQ?*B*hqrMzY0J%I)8-7F`F`dvAP*muPBbf<W4=y{y(6F;UBX>gx
z?BsPOy1LeKhhB03$uwYZ&YsfZqaz4-hWb@RXjQA9BH#XV)D!J9Pi<k<LGgWOD8i0l
zr{9|;YeM68B_lD9eufw-Sy*P~9Q!vQeXUxzM&D@e;<GSHfq{Gn(fP)~q<z6)Qoss|
zGkQZUqDHH$o5;Mbtn{F6v)gj7Xk)>VhlM?O@!}^om<__hC3_(01y!98g)X;+NgLy`
zEa~aoxl<<2;zi`#5$yJ+rE}f<dmGu0*>=l^6Q6OnF`-^li+l#V7;A_9N0oVK*WJo{
zMFjvvIUr#aLyo{ms1%3aZjEhHn@AKanA&obtK^woJb99=M{!8Njh{7?`zc}21+uuh
zP9n3GkP^g|3**tE8*%l2#7?#Q2k@|rTmO5u=Kv^nX$;gw3nl@z|2Vp<!Z|%AU9Mt6
zm=fojdLP0@9T-;qmYe?m*^nG`s8=Hkb$_#X^f5F)68m_=89~p1S?9O-0DW(C>mPIY
zM~rwvN;huYKlksS3vz01!&uh;&x~(+qcfL8{P8Qs_Dm2tVx#%N;XuCi`?a3rb>MjB
zZ@!(Q=q~8RcWOWZTp{IBus594h+sYBx+pYhN$--(F$DL{?tT*h>!_KxlQOa$_3Z@Z
z1FZw)369@A=+soeppfL3TUt?30QY&{<Sv~$y#{e_G|H0feZLZ4&v=FekX&GtVM7{D
zn>KWv(7$9{YGamxRaSlSkPLGRq1TiHq}0Sa6kF#{I>aVpG*bwqU^voOV`8SyoC!2{
zA^kOlILbLR?p)D7MFAtwFeD=Mm|ow*M~{->SaNBEl6>Of+|myp&Y4FNbu(KCe8aji
z>JGm5dqvgeG;M#J5ifjpW3CX<P=Y$zo;{CV-p{A)3skAl?F=dNYBo7YMfBaz39O_|
z#S530RO4oCmlH$MfnDaOouP*WHawcqo#o}@gwr+Pgpwadj8rnd3ZIe=vFVZ7$RtH(
z6&heJ0M~G41g(q`{dG3q|8{1cYQK;~ffukO);Ct3HC5(~XBAi5+6v`Q`L^5T^s$B-
zL7#OOayHG+&+F8$pQW_`-939EVTV_(BR?Q9ZD0m6=$-E(SaQq@qS>_soLpQh2ysx5
zvj1u*{0&<osOvBar&nsnEJMny{}9+w+%YTJLQ#P16?})u8PsVXi4lV!n7{2vaP0pL
zr6OI|)U1Y+5>a%fJ(xFri3~sASeAGIIlTsA6XbxI+Mx_RXiR(0UQ}#~5DlVS{ra_(
zLP4D8Ei0uX%GzZX%{1*u0Ki+j>DSiPiLyQhm{2{9IVExZJ~U*JYOzz0A2FR}6x@x%
z0oV?TB{d&E2GZNd-x_Y<xBg97;Z0cF^T8N)opbc+A7QIy)AC>_SU>y?Oh^uxEL=z|
z&d4G{g#$nxqS>d_wo?%^D@fD1Y>4#3{8J*vuW+L)>y5zON~?(&32W4P?bEC)k{Ee$
z5g<WAGK(FFse`v7Xh!mc%BV>SQEPe&=u@C7ID%5CIw)IpP0bC**MA{E564DSQT+`E
zL)4Ib^a#BAhnzmdO5#Gob9nOcAltyQnl<Ua?WS=vVukM%{=WdHL?1vio@nmv$tq?F
ze|xiM1a9w3?YWH_AQ>CVEsoC=J+UQQhD+l1goIe*d*CctLV&uU&>=7imm+xERD#jj
z@Y8B1In<?V*DN|oa8Nn#?$=2quPV7BSFfOBS2KTsdU}QYhLA(wNGhRFrQLS>(yXxA
zbhvC_7?rP;EUPRubh-PU3JQzu1DI3B=bv<a(}s@m!$~btg@Or0k9Djxrv;|6$tDs7
z1iFPn`H+*FP4=&sy!%w?(V#_)si+v5wYwI)hUO3;8~hVxK&M5IK3C2>Iib8!M~>ZO
zYi&K)r4LzSkM^utJdHn2PM<|izUbS;a8sdPO#cIP8K=Q5B+09?6Wp{sOO~~*+VDGy
za2+mq3JgFuAAIifmoJ#?*ASdc2CwL%&zLv|=Kt`is1*&5&rD0ZK=@0&R|LTpvBt{&
zX4Q@odtmyC9}r~d`5b>-b=<i4cU!jWe_}bP@>eqA-DhM!&t8tioK%6Sqxt8bF;(VQ
z^6~x5Oo4oagY5aXna^C37%1E%WzOSY&^Z93!El3fd9E`}q7*JDFH4d)tF3AMQO4<U
zo*3;cUau}uSXj+Eo4MX5R6u{6lW_Qe+X>PJqMV9b!_vb|Bk*NE6&h-3h`zJzL?68u
z>o9eML2I60e2s_A&>`?$bEEEkYlY3m(Uv-HG0nm{(&w?I>hTy<q-HxEp!Jwkf}n+2
z!qR1Gl2D{-+yQkc*s<6{<7tRjS5{8R%Uf{I3Mk1THLscJ)ER02b(L`YMf6~{X(rO9
zP)h`TkA6G<vBbqIV2_Bo$94NRVNQV{PtX;rysu4g$CSs9MRS*~M?G%j>?VZ&$kRnk
z;kK<=m_7g*za}n>PV4ov;I;9)lxdSs*Gl?5w$)(jnl-pPjmn2B=r5*je~X;{g0a%O
z$E_rKeeWdp)eFf^O+5a~kx7(C5VBKrv{Ey@|8PO9?IpqsR;X=XoVuFp$5(^^)5Z|%
zicyf1A5GmSNSsA)JU$tt;7T@Md;+840U3%?+~-z*e5{2DA$CF&fu+3sCxh%^Q29Nn
zZ02|JsqK&VN7od9#si^G`>G8##Zr=wpGv$1;5AB|zRlS>YtH?OF+EeXTt8X~LQA#O
z()IOrO4%BGzV<e9cr^wdgsX7M#*l%*MGY8J*vvHTq(}WY>i^(^)5n-8XJb%NUb61c
z^3^3l9_*?94mzT~3`jhN3O%mp44kQ0NI4E;pBAKv#*<;f`^hj%w$#4%ra~CMj$(7^
z$Th8vw@0ignE4A~koc4AoQ5xB_PPxT2+#{(!V9a&8Z!s&B>`PsZLRjVWTGNk<OmXt
z68-_^fHDQdc)o2+Gqs64b~Y2BekvUv`WmaAJ3`D5>8@6H&y;zjB`|y8M{Jj)C`zHk
z0Y3+WF*qj=i$#$a#KfzS2Mg7XNKlX)^;GV$z|LX&-L!s%PZHAtxEO+FZrCTxRGEjJ
z56=hkkALhcuD0auTNL=_JdNqO?;a1tqdI$T#$z(3;frq^Yj^jLFlA6F1)xnLrtNan
zCq?Rpdli?llslupN-1g`xyo0j9TeQTGf~hocTxcolsO>S#s^IWE(x-alXr8b-7PKX
z82rt&?!Pu5W7>w{PCNZUFhj5J*)36~vHliU3JMB1p=Q3Pf`hG~z>=)VFiTp#Z(ji>
zDvui_@go>uI_oRSI@=owia$P1T)zA)+(o}<m|Nz23~`thsI~;vG{|KIQza!mw%t-=
z{5$%n#qY&CQjZK=Gl;~o@B4B|#DeVq9Nl2w3zkVdnt=|GX~8=J&MzHi$HKBLxX8#6
zu(Y2NSt12C$m`;zOALU2i(`wdd@Tu#!Pwt~RZ6JVO`n$6()9@lpi`EveaRf?2@K1$
z+r%fq41t*KIlc_Pwxu%Z>)CRsH_KsueSY5zxOWLp>7Hr!e?6sQwk@Hi@9rz?AakXz
znkScFrW->CG$g6EiyqSVqa<nylw`8!E`D)w$u_y$4<Fir&Cb%P_T#Z=r{J+IH<iax
z9cTa3DGbs6C|qFU`~Di<Bxn$%zQS~U0CCsT!V{;_%Y5*EoJLp_<e)=C=Y+~gk^U!2
zfhD*G&mZ=^eXBdr9^jiOdNI)K2e(9%yVxSDco_8Fjp@-|e<utlNUVzlmH74)1@|vF
zk9Ja6q+5Pg&%H4~Mv{DnL)L%K{geOkyix1PlF9tH-3m5VBDSx+-EIUINAUgRiBJ!L
z*|=Q}V&-?SD&ic$HHE3B;cw{t^P98uE&~8i>>nU_)bGl#zN`lfYWXs|ndFrRk5_N<
zfpPz_GPy%^bbb<0_!a~p8!9wJ1$jIX{E8|vn4pXlCg+cbLr(Jb$$~SAfWRmcOc@%^
z@md`PD@;jZbJtd*rZ{s2=1PAjsYN+5tl_4D=_)yd;q^@Hx2_<q-LDQc`;(B&=R_0;
zQVOM@!}LYOysfCH=jr7>e=Z|M4OrRTL?(It=Fbm@WOx{nT~ZhQ*lB`iFSuC(Ktz5)
zdRGV$d@mctIzYk2dip$DmX<gFx0#AdWsrbC!P-f&QS<~c?nY5OkP><+AjdHR9?!`c
z4@kKtS?+?<rC>%o{ZRiDipsc2sKuT~#shC+d#K<ywVpC5L^K?Dw&6J@8<=h^NE;){
zg1n56qCb&TowFdLhW#2|(A?)KX(O)9PI{Mu7dh$(IwTs<_z9$|zj29bWfVO3qO2UE
zYbl^vY&vZt5XZR}wNCyguEzZKRQ87u@ok_a-&wzXKkZt2gZy}A>jG$IBpYFJG+-38
z^D%ZA1{DUL@tMWzfwW|v!Zm_xI)3a}v2*5&TnatLMso(zF&&tMjs%J4G%If9tm*24
zwBIpOm?kS2hq#E;ivSjZ3enXtfX+=CVdV6IZI~FQS25Nzo~fw<k%>)OUu-hrcI*CH
zl#YRE4f9AOmpeerZ&9^D5_-<*zfO`S0+tM%QSs_AX7xg9MB=0MWkxc+2a$)yo(>Kt
z<%qyIQo<qVDN2cQyE28nspo|3E!<RD>SY=Ik{M{CvA{=x?@$cu{9oVE7iy$vO_F*M
z08wZZ-_bx@Z9Tk<MooV_6hUP2`DrWPwUbW3c%rdNZ;a<%C=EPi-z(ECL%|(Z5Z43-
z8>Z%|T)QG_e7x+plXM7;J{hr)#8iT{P(KTT5G*yK-4`!j5N6vfTQ<;TKyn|HR79qr
zzmsNO^za*-g2V_##MC?MGnL73<0X11v^o7&DasmaR{VBcSse%OTM)jjoh0<mix=)#
z0{xvJ`NTw&D%Iw2DE&qkxW4V+c1V)^QgG06ckbUW+L<Ju@iEDMX14#emMuYGgEUtv
zdKEpt^p*oF9!3aNj!Gzgo%G4!1mDz0tE1HhNc1=%Tq`wZCJIq_5nH|CB+ZnFO|Z-8
zt0#?E=kFl#bQ526_kVs7p@-CAYUK3hp5c&Ak6yoiUGB}xhI$tW%q&#QA+R2pW?lp!
zZwGFcC_ec6?@8ZIr|}F)nnd@Pr?%MmYvqIfV+K_&l6Bji!Fq~zEOpK%Fq8By5e}|f
z?2^8rZ6!t&Y<`~I=UdsWxx{L<_zd^L|1za2j^G<o1DGDDIKE43F0md~S7yBNVRPd{
z9Tg@FcbKZ<DpC7$@Cf6<Bj!`X>y1Y=T3q*`{C5&&Ria8naOB8PFIq!@HAVB<WgRg5
zj8*}MTG<ysSoV^GGYCD@X$5};j4A43T$p4OA&F=4u!jFQGowWhk1ia(xm~hfob6L&
zx-5;uo7v~H9H`=Y$pKsWlbUI#9GW#@sFzR`<ZlYOWW5>7aEn)zKK$1wy&&8h>JUo}
zNHn#{7={SCh0NMdZzjdZNZyCM)9pK_r9@E`Re)Tjy52Abt8Nh>Im}M`Pk<EIs0x<r
z=;9I}ItqinsGGspJ#=WGOSj~`G}asTHj<YFUh@qI_wBAqA4O}9THK^@|NU&pmIgWq
z2!STUevetwTt<HSj%j0M9;hq{Q!%s*<=>K2x&QZX8XopJKR5bB;xsE0D(0&{jlrQf
zefVoWBN6>ZUyg|>oY6c`KD4dk?Pt%3D}tu)n~x!Wc|R3Vfc=T`<|h>7Ts7!Px7!xZ
z8ET&$;<jnrxj3W#QZWVSW<$HOr)RwL<L$RP{U^3b&Y~%CdhbM?4#{_ic5QHbmV|&@
z!6481L+cdon>O>@HO%eE(g*=Ka`3ad75*m^mKYC1L9c7WTuKU!TQz?Av}p&ojCgWn
z)Q2U@=wO=tx%9eXjM=WwKRmG#YOM>8<*0A<N+g4sUVjRr<f4kP&T_wxw=g7)ui$?X
zm)}2;ND3$Y_F(`1Olib#%lz+;^xS^qO8@>ylCtNwzxelO#=mQ(Z0rPrR%{PF>A^(r
zBxCqg1_As8Kovp@yJDzgh+GD+mA5e(8^Fa5fm%?6oC}LK;VzVAWg$8kleeOk31$T|
zjBp5+Cp)oD(67gahJ_V@k<wQa!10F`##`t=NrEfOx7!;!g9I=UTm!)XTEHPWQd)eX
zU6qQ+N6M%;iq2W~aa5{Bk?H8sqp*{Y9u?$uk+PFU^w@Xra|^JUyKpmco4qw`t&q7Y
zDteBK>b`jMS{f#Z%~U_k>eQvnD6A1d-SznRX}XiJw=^4FcvkwzO?Ye5DBR-yUYg4N
z`zM2G1KIMO3Y$Ov3H@^0GVCR>{qxJ#(@9+gux6iK0?!SkGd!Zbz++(M!hFd}bX$kZ
zVq6VXC`RxI`8OE-BsL9IjF24)_i-(D3CJEHE(G_fu)+-`CvySYcDkojT@!rn+zJpw
z=6ssg7gubH_)&ffybd}jqzj7$3&x<KfSLgsTpB&v%kJN`Z=d_8zq|9a;n7kKd<ik~
zz=Ur?o=W=z-L)1#HSPZCy7e~~fCkc{%F0S)<DpxVO>uoQXz-*1&0prnSXe+P*^EIG
zr1+#)Qj$C6Q%as(iio8RkA0*tjF?oLjvW~p#8zR#JAKE@JzM2JBzoiDP5aB!uJ<^n
zvtKN8xDxDYPuhbn2(`%@NsLU31E~V`BaWIb^kcqvI!DE$;l~GE0HA&~Tf%7sf-^F`
zZ#A6&+N*xhcdF1Q9+@+B@8jBTms3u53skg>mdr<*Z+b&DMa{xAlVN6cYZ72M`;~3H
z`}Xi&DmOF37qN0bzn>|CA4}9lQQg|6$H=8#pp2@jH#U7;&8~gaCzD(OJ*fL0_Y8k}
z0^4A$ttXsD;Si0kej82@iOWu?O@{WGx@<7u69MM;fwz&eTmv5tgD<PK4d}n!h{WJ$
zr3!0(VXiWNuCUWc`qekHpAB`FDcvfSmn0uMa=Y>the~_Z?YAg#+dCdvCpe7$z05C{
zR%YgQJ`gCSo4euXY`EF@S}_iE`{})LnjAv`!54pIi$nKnaNo-cn@75*o{PM8&6OQT
z4lKI~_rU&!!1~Xf(0^cPpbqeCpkkz9$Y+3S6(uFt^?Roz>VUSM&n(`p;JWGKpO{N!
z=ZKUfoq5Rb3v}E4Be*kz3`I|;pIZbl9C_3kqFowiz+|lVf2yt)Lt6)KsR88UfTY~J
z_kPLN?Q-zt{QDJkqH$NX1N?$b;fts{Y<hl#SjOD`BYT=%sW7?#rXC-YaneS1<K3H8
zYz1Pa^Qke%!E>JKnpO|}P%6Lj7mg)STSP?6Kp^i}uWbaGTo|}1jgBBooZL=*`e>7`
z5}^BkFomduHr6qnO&eCPzQ9Uw`q8aA5)j}5Xig{)Nh!|&CIx9JqNK)2x{&U|t`Y9m
zKpUeZ3*C}(B76|EI^PX^M?gks`NUQO>>C2pW;Q%^IhgMZ2w~WspN0*kS<XXbt|^E!
z#UvEupw1&{L)l^$QcPD?9m&d`I&B(^MWr~6HM@W|1bi}ZASdWe+%ropat2P#`W?{}
ztw@}@>ZAST?dA1Dx28htLU^R?kJ>hyhW4+Rzt$}FbVg3I)sbOsvi>YB$WfW#UiLO(
zf`vohIJ2h-SF;mZ@7g4L_sV|zzGe$rT<zanS<C08!q=~lM$GcudA|3ns`@k0cXWn)
z*mCIkyQ7<Ke$9vLcfNTMf-{^f=kbdme1XYy?bPWYxVN9*dY%@U|9CB}bD^Q|i<4-Y
znE#k|t=Z&Ptan?HC&5wa%Qz_B&B;;NQhUlY+(dsTFtFREO;ZdEK#;&8^+v0p)J4WF
z$Vvbp(5Muk9*XoWFRz`H+9WtNC6kb+wnA4Q-nNj-95g5qJsMyhlS^W*7!b+2BR2t4
zFMzXA&$)c@Vh^2-!mTt?L)|GKk>G{2uL9&Cb^};h6grA%rv&_d{P7DIW*h^<;{QZ2
z0x=}g4))$MYik->u2|jri`KH#yY9-D$7}cCLd+wD#iT^C>cXKQ1@G28icNIs7q^}Y
zdQ4o62bVfih93$IOJ*cHuVuS#Mx^W;#|ZTpSm)DQ#sMmGlWG=&pQV%XKRZAF(6M7>
z@7{f(g)u+Dc^GzO!i0LBJhTJ<3xxu^BfYUi&hv5Ly0Yt)H%e*K2BmFG+qEFmbI~9r
z#FpA5ez*}3azWY#9E5QG&ykN%p-z$jlT=iV`?z_I-rvbhW>;_KrNhfF`7@I2R%?Z+
zl{b(^17O(KiqV*0d<F?;Vl`6l=3a$P;ByZYMuGWzZ$05xm&zWa2;956m+Jn@EJWr(
z*?!vdWKNlcU;b(^d;LeZmJe?C$w^mk{`uok)vqgGmasH4b<YErQIp_`cKm@_5?QFb
zohPX<XOQXX>l*6a&$!{>RrX!Fe0gK(Y2!84wJjn|!!t-dp@H<+NB<q;nG!YbWoK7&
z4T|qaS}dFA>*vQr_7NSz=3QEfExb39vzjA|V#mX=uSkS5>RgcpH9Gl-V_Ll@#JMP4
z%G_t$WB|B1;U<IalF5IMQROPuexNuZS|a)TNZn@H&~xXWMVL)*8)_0_7&_`0z>{6G
z-1DmyeU8VDKHAes6!J&HrrLly=rz}J3RTrrjMj|M-`<ws!vAR?OTj>gY0HomTDjC^
zO~}p4yR?yw>MPfyhf;@mmzPfq{o`x_eIeEhx4|LjXr-j3&FmEeb=_!%Yw7D-pf6BK
z6Ruw$W1ls(*I^Iu*45x;)w(9?KbxI?c~EXC?O%X;JzqYCQe1o=hou$iKCOEn01wEl
z%gfxq6dfdF(wK(vi3u`T;Z(k08XeK5f-;t6)VfD~)uS(quR~>Q$omeXC}y`oLuGzm
z-gVA}{!Us&j-#vE_=3z)`Ygx#-&pg(DUR`LBx(F|sdj#?sTti1NC_bab6U=@!ADQn
z<6;0u{c;7{KJ?Me$0u~Y-;vez%f-k~H!{*F>mVbeG$(X#mL-;Nmpjcn2>8yB8HrM5
z=4`N+38@W7Q6XJLT*DRY=uNyc`9MFFIMO=N={P^ehQ9wzlMnnXiHttG1J?IV508G6
z5%?F)vwO!}h%%4LrP(lKgOO1xWw#^Q?SJ)+sIR^n7e^0E64gIB(IRj}bqJEP6T(lK
zDx(Rl-Z9K9GKX5n@$3tjJFr=r>b&GA{j!*8t`ir)#R5#2UM>J+pwRi00VKxrl)AS4
zS#lP=q0z?`F3h_$Ku0GDlp1JJ)u+fyPK;|Kz|Al@zXRUy;w!7>hbMuA(9s5n(|aGI
zX{qAx$;w%L-v19GWjsefF7EO1`c$?{b->-D7dczSzG?%pD)mo1>IcSwwH~6XwKjEu
ztSo|esE{b591M>s^v;8yuW#)|?6%U#!?TA?Z3B&!2ooRt^a26Si|g;VKe*4uo^qCO
zSJ#r**tpY!xe(l7<n1VSyL_3j8l;BV>VoU}W6EGJsuo-80|MY`F8MRwlHd}1G$c+`
zD;VXLsr8e3i0D%3+BKF(Pqatk#*4D&`NJloCz}52oTorgq6gn3k1{#5j3XUmE?w%0
zTGoOUN6`|=qOSS#+0A<Y;vN7e?$3apLJ|h(02tdH*OlHS8?d|9_2faQLl}K3hGz)U
z)^wm{XVjAVm+OgQsy=>va4iXN{2PLz4x#?dXs8`*=;xD5b?M=qFb2u0pI8|{UHJdu
z>rKFV%-=Td+h8PHqwGS~l!&slNU|p+DMI!wOC(w-4P}W4CCQSKR1!i;i(QhaWQoes
zqDb0MRPX1TG1LD!-uLZzj(Pqw^84NQce$4HI<NC8e4dwu&!S*EM6qx9SFipQt_fr(
z6%!CF>H38k;316c@yY1zYu0We;sn7FXFCpAvMc`J?Oo)<gIdFxSn}?SFr038sRf)~
zs^|7#)nmNRX@eWv67E=RwNo5Jgtw#55j?y`%!nxgk3A9dEPFQjS!BSpq2r#tJVX1M
z^SF$2UQBmopJ!JVS(}Ka$h~)uzSPxSVQn2Ts9IC$+s<YhNkz>j@+qw%_C2h~!W^uA
zcFy;y^T+)P@(G=Ry#o`9@8Qs<JU$d6I_A+sIb{s<r%zaiDgnR@d?jxHd1=xq<0aaw
z+4D4uRH}>0%83=uFzu-y9$UYk0!wO+|Lx@I|5S)15GK$uE{4f<_OsgEcP|_@qiKRb
zETl24qO3Ah((exI4Kz{xm8@c~;{+U?qF(#iCy&roLN(3v&*d9Cb_N?*lAj}lW**pX
zCf}(j7MaESA(w?r$*G6~G*+(cHl8+hqY6RW@!;+DF8{nd`3QV`a-|iEb`UsC^e}pS
z|KsBi5b5gRI{Bs;<Fb!W{YGfNcixU~F~x{-?^drEcLPV-S0%EMB+0g5I{^?4i^<2b
z8ONBukQW8%vfZ!&X!x<Lx;E6?mG&OKO1D1^4{I5X)34sNFLM6vcd1yFLfaUlopdYA
z3r<H+v~N005rnUouUT_E!;)zwmBo8IS$}QQrbxczTyDnO(Y<EZNPqoV;<ejuM%`3j
zdq1km;pv6&#TNB!nV!(u=t-e%UG297_=c33&q5@vEb=Z?hkA<!Z3tQBig(({Dl<c$
zGTqq<_1IqUdTb@%^P$WuqWm3^UTDRJhX*Tl54Gmq#LtmHCMr9<BGbK-i0ha%d}&G&
zUY!T~7OY_!Y8t}FO%&E?N?1ncukjek>a;`T(Mw`BC5krq>^PbxL>eeBq*hw`Rt=v=
zu&R-@*1ok~*kA)0(2o#=yFTjfO#-hQ8}YVy_n^7gJhxY2flrSoN5ALZ%&FL#mMRLm
zcx+k@BefzS$ZxHUeR}oc#i|d1`;A%-+j4ZrB#wao+o6sXE1Yz~Rz0R%GtjjoHb_rZ
zwIgl2G$B5^tg7=eLa(x2bfPo;t-%qks6K>2Yal%H*yo*h0#S7|DxdD75xwY9?c1Al
zQTke{4UK5srt{#^#$&~j4=*p8;9i@v{ND2?O~TD|7;ufDPkr>Ln6V0dt*pcx$NgW3
zB8N?%s@Bq3hqk1pb05F(Bt4k(eCn_b4a^gGLvVcf`~)S{b}FXosjIFPZLf`gFuT9`
z`D0JfFJ{p5;pq{zdfUmvv6&CPuPa>rh?!EK^YfQEPGDn{Hq@TkuyNxf+v~Nf<94%@
zH6tBB;L6lh(kJbDYcWM61hz&93{hPdaz!*H!u5c5?)Ep>$)wwtE!G$sx~DEi9Y1)`
zk$wC3pVU~s@A~y0L?*g)<UM&}oc_3iM2R^#2QsN~odC+%eY3jBBpESyQodLH;fGaR
z({v)97wt{;&g-xp92YkO2EXk3W8b5(7JkP+nV+n7pSvUh6UA$!`fP;ACq}i97YPKH
z#7iU2bdV}uyiLoN6{V&93AISY-fb=HmHfT^lDaScbSFX)*xd;9>WT5D?2u1CCr+9+
zZMb3@VLOxX3K4+izPIgTIBV9dj`2G<{7;&#cI+01!u!^(bvT|DO0adU9M@zWi*tOp
zCP6XOJYwy4>nrL3)&CT8T(sQx?RyqAg;w-hyGi@^wlsJ8kaa!kR`1)}ZxQ2b98E$V
zXzPSn!k$jYZ`d=&#Ui}@pFxu)Nnv3A&nZ5~EAQFF_MJ__6`9n^=<!PJ=KW`1IvrnA
zmNz+&8%-1$%iRIxcI4BDRQ7my3|*f+@_l9$PL(1X)Zv)gO;Os%KT{*2MROS``9rV%
z8k9=Ug*vyAKTU9XbgHM9VUY8>driQ|{XNryuaMc1N)Imb9;mC4?AgL-SbFBMr3tVs
zhaLF-2sCVz&>Nu{Y{y1l0(*Y7kVbzu*>)i5SCNnb%$NTW17QtPJWMTw3y5RkEv#L%
z<(}=g<DB{Pvd5;=ey`~jG0LPj-v-q=bVhIr)rfsvwaNgBc(Em0!h6qNGn}|Oo!F6H
zSi`L(k`HaYuf7edH{B80+nTnh*ghq}k)Y<~?q|muSpLEei{)RAn7HQJrwQY=;_Y6M
z!R@`uE(#L8m6%^2nA-6x{1B6{3`YkCC;AVxUiG3v@Xqh^yxFskXy;hryR4TRO%!w-
zGM?|>?UlxI24NSVtARZAX$=%|2c$P5hj@HUs~q12A_O4lw$MaDUOp1nLRA2j4G^zR
zBh}l;Q%-g<2!$&XWaxb`lS0ApPuOd3)BSUj2VE4z2r5r(A=&X4pqh_Sl!pb%&~b18
z09sl*$4+FKkKp_F?mbqNyN6O=p<)0chSuusz0dC~jI-0$T~WQPwVUP-C+5;o!XLK!
zMGx<cU;PmDCl5f6{>#wSM9^Og5X2}eEp6VaRmS{VqPPcIbku&LUYsLT4K2TCTa5qn
zp`Ff~FLZ3@5jAA)rl|zam%>ScJ1y@*98tS2;j)bT*su&kyAK2NmoFuZP|UG)P^Qr_
zXPCtvQZ+$%I+RJvI4tWlmqv}n^;osaZ@Z$m%1kQ+VOb6#`i`muP;jd~9R(YK>eHm9
z@s2y1AN27t|5|@Q^LrTJFEkJm5avFF*UP|$I6dcvBlKEMyPD8ZJ@X-X;xArcDUuvy
z`$8j$(^!2TP8SNTkZc}&P@=nqoYCiV9bx`ct4c(@jt;km;}&47d?|W<<Vf9F3($76
zVFg1*u1xC<-x>gePw^c%bXYNvDX@`Ah$)1n5R)MH%R<+Sp@6n#Z3b_t6v`jV>oPDI
zGxxn8pm6pdo|v>?AMjd5F)AtP+dV=j?ZwxO&q*mYX|>~TI?E>(3y_W^+C+fJ)N<$_
z1tB&cXxB(`+3Q{~Jd2YNsl9M@wPwOXr#0husHPP8%sliHGG?_H-)>`O>&MXgS1d0_
z6(?OoM^w%1DwZDw^84$SWcQuO>bX5lJkYE1uK$kbCnimPOKInIMO<syUX+UE^A18^
zNGkeU)=dys2v@1h=b-0{DADDAqKCeH@2&ens7Wbe;1#O8Y}W?4(3jo14d_UV6A+ze
zCSp2+<8+I4I>EdkYQcFEMVl2~ibD^M`@8Il>6(RGDrLt{|6wb<KR?ErbZzVB)Z%)K
z+R)}ZEETfuVkaFq0(R@0FT9X{a%ymTj*qeS7>#vr^lxuAYAhLdES=)xbmowpQ}Lzm
zIj_gp7j#1278PYed(mxk&d^(hBajKX+4&&>Z>wfc$$Ar9Ge8!E1Jf1wcDXsQJ4-dO
zm>k|PV<#LTbnb~{AA#jB@klYEi2!|!N|G)tyw6oJ!w*Pf$KsY9+LGF>N!e5}b!W4n
zjhiA57VK=+;s$|yWuLpi0Hk*gL&B+a5_AN8tf2XrORBVHD@NV9|B7C2r5UOn8+d7W
zEY)Ahz^3dK^DD?cr?gbpy<_dDBH%hl(oeboMRd_Q9pX^U=mN0Q-hKNDiD+sPkPUMa
z51c7zCf)ccmW1*+j{b=KhspA;a%@R;pN$^R?hIWNqkNS#NY?Gv9koU5n*|zmR~VgO
z{bK3Ll?+#C5uz4%x9_Iju0je+L6&fK*7Z%{g$GzBw>`C)kz%ZB#({ylEo5ZW=axlY
zdl_YoI^dIjhdRB?%yj;iWmi4Q<I<Gd7PI6#MO=Qf)-3MjDBX_o^5wY?<mDTe{rs|^
zQDXio<?OFvH+La>@b)B{L#YWPI(sZj4H(y{`@6inJjP015wzSBC)PT40A5bB-Wm1G
zsKcfP3&o`qOunaZax1{9FLic6Qzm_e6FjWywgKRD3|72%=MBg+Dgv@f)RdPkIuif&
z18d869ZE@pZWoVPIkO!Gjqw}5fqv}%k^nIu$3!&F!lJ7#hQd_s9Yz_(=vbUH$o8DY
z-^mk<DuC}NSkd3xd84Q=REv?3Q%Z<1)C^=00;c0KY6ndr#=B^56G3b--E3q?OSsCn
z{8gexJX{vqf5;L)dR42xa<d|jzJ(Ll_u$)4-MeWXKfLFsmhO?9OI4lSKh;<zx}(Yl
z5^-*jCVDCFfMfRFqZ6PtIF!|dapR6_ZMb*G6?dEV>TO}6&>iU7%uKm~q2}1`qm#pm
zxVISzul4}AXTXHk$BPr{Y9d77cZ9w|Gr<lc+3D+gfo{Z>Ej0&=R!#7N(_cwNaJvIW
zs5X|A4Zfdw$Zrjs6xA<f1;2pN_s(Q{Fx*2v)zB6hbWd!BMeMM_gG<BBJ2h8=AF?c9
zIPJw&@YSB2og8FRI9U#^N@oDmjNUX9#n`Q*;^ST}yN)PhB7o+T`Q8fMx@Ge@=$X+7
zeS32Ug*nVw8NNQasZ;&3Roj|(oO|f-fx=ZcE;-m62d6KMSrm3acNB}J_x(*{QtA*P
z90W#hw3F7np+1w7&CVJxBwFGq3yH5Z(Mz52Kx8hJd-79`48DD5HUEi_)Ti4)zq7JU
z|I0=~*qD!PUgLwAre5CZK4Rf{cw)k+Gr`n@(oasnNv1$38M2RADb#jytrKecx_$??
z5pHdf0c{VB8vi-57{iOxpBZ8@F32RVn4WIq5nrbGOo8Ak<d8&Q{FO3&P4!I<1#B<P
z&g#^eoHpYQci4G*gHr<cRs*M4dkE?Ew0Czpi8PiZz+^Lhwd3Pt-30x*|MURh7>+m)
zKa$NG?@fZ4rj2`4a>W?{FlKkA9I1aw14;Lq@a8EeMyg)>l6(WWfpU??T84UYpw2wy
zeKv8JTW!X%6(hKNg<@wE_GquhT;dH|#o)y3w>Je+FCZvG?;#^+p6K2!*&6OKjCm4x
zLL&T%#(DX!UAm~|6-DQM{1`UqFvrF6-qtz}3we(BQ$5u2dE}7v!XYV<3<3;kn@P_H
zM=H8aa)Wf;h%pW&^bA-i3*ImfCIECIc}gFP7BAkfsPhaDMEjUf@!aun<&r+i$`iF0
zglAa6bBe?`Kuqtct!)vO!T%Or@~C~yrvFCHfTK9A+YxmTxs_979#9J{eb#dU3HD#{
zg_jl+e?XrToxW5@`ImAE<Y)u}Xi$Wm9HVva`0*@U2@#uh1zf&nG;2+@f;&eK{yowT
zMh70C8dX&mG(Hf)lMHNs__=eJ<nIB*^V$yJLnO>V0$eSo-mav#7`Jmc<w>(9O)5}p
zeBYS!61TO^dFAo<VB>;^479Wr?LcstEn9xF!wJ<zVF1kt%QK3K&kKZ!8|@H{jZU5c
zsh0@;d>yJd(Zmiz?kzT>cu|b@J!15f<AKf5XM)j>xMm=0$Ny?)z+euj+^HY#ZzFkR
zV=1TwjY5ZU=(;yI2s-Z(X7=k>2X_t)5Ra%RI|GAlg>im*x}+zih@EV~?lWvhz>9NE
zPOd)>;>mNyyl0bF(ylc=(1G<}Rp=(5siMnJD^WLHU2COY4ATFD?u?+X#BQ)8muL!w
zc=~U)(|{_s2qg>ta}GQl+#y3#8H>KJ`>1Yma_Y#t5J!+-)B^9`efKS}HLuT)x^=bN
zO~Pj-y8)gz!QZpsu%6qut~FYqXz_qtcDjyD-+KntZ0eRJ=r2VceUzE$NO^{m)yut8
z=4&oqvqn_;W1WkXw|tNNV~Nu7uI&uYS;kp>p5=bjuKEl*Qb%_mItZ{x^EZW(;e#1N
zGUKR9y7$GsXOe8a&Eg2SR;tiYbMD@?=;*lgumgqiPYZ3yw9+HImYwDbK)Oz`x<%Uj
z@%g1BkS#IO0MdD<>)`qQ9<8I^LM61&dV*j7{&A^RSNfh1?d=G`Enakx+UpxA)g=`+
zN;9@tHj>;mH0rwP0(j|Fb<){%uJGndqg9cIlt>o{QsXwN)Wn?jb>F=k{EFJ#og>hq
zW7At4Ja#OWkOt3q^vDdERR7V9<#z`l_DD^~Y=5{(P!i@w<Jk%*iuYG^li%44&g624
zz$Z?eAEir4e1iOA)%!b};YHWH+nAWr#&dPNpTHR2I@7+uoCV*E1sFf#<f5(D3TK9z
zPI9~kGr?@X8i0f5GEQONcU4dgTfNsJjsxJFvbT=t_2kIShfBSOmzK<xnGVlhzQp3@
z!~BAo-AqR|{<XLIwIPTNGI;|dMVjphf=({4qow5y7J>^V9H5c^L9Hpl&@I>ILM@3m
zMB$30xDzv>4j;~Ebl=;zsW>t$Gqt)tKje|hvWW59kUF;F_-`%%A^ni^E1OCB3-1q~
zw}~QrU1@natDjEuM>k+yya4F35ZdGnkg1|@m0a{UCJ;?ZM7BS1<pGwyaN!A;z*_;Y
z5hJvr#{t-p%EQ&&^F+~{TnHL{Du@tWMjLq<?jnu?qvu1gj3wm@KBosio|En;_>AN*
zq(@nJD^cpwbs!HGb#u}V(8sg<UChY9_NwM&35$|xfJ;v==dKy-;-Qli_x*&7Km{Ix
z_8SOsVgO!Lj`MZ;LBPG}Q%4`4&{Fihfsj{KS0A0IKvB{LN6#ZG^0$OYKl3J#uACQh
z*~iDnB;*s0#?0qpr@_<=J9U~JFm^Yz6lW-?fX!lNqg>CSLuYngZEbD6D74-~TM71g
zS`d#33#yzmjHZIYE>;q>g^0`<K`@St;0phJHyz7PP$q~9*jU`nM}j3fYsslaq=T{e
z#@z0)HS1FY0U~Yg|2iN@N}yau-BMNw6Ce&z^zBA214=2@E#jC_pph3B*%2Wto1KlN
z+3(6_CF5hIBX@0?N%4^rJV9nKx@6Sh6BS#_My+<XoUO1xBufo{9QrbdrDsnAUT5B%
z>;=aE<;K5%OEw5(D%?!<3TLL5wYsw2znP!Z!}^1*cE~B3EIgVhn|&YETL0ATW*sE|
zj_*FU(JIFvAy7#CbF^dRk_T-=QlX2B&DDQraB)HP_B};H)1RLsI#6js{-PNZR{DZW
z>Nlr%5KhM)knXzEXZ*CsOld*BC1cZuPNcYhSI$AlW-)$--dNvF?4K>(s-ABzTCZ2n
zRX%#jH)_W31b;)pyLUZ@!bRZ;B_rS?@6Oe221-p`OdIJhJXLq3=S-leF}cNw9;B(1
zxvf#W<Ooyp#C{Si%?Qh&AjF?}-xKpbC<2t-+Z~|f=Wu=I-%b9x$hpTTQ9XU)bET1s
z!$G|>5XxsgX{|i*v@95R&3&(0sGKhEw#O<)i^f)wD`w85+k_il_2Wl}brY3C|L1|t
zgACh+tpE0To&!LkJenpIgJ(wDEN#(Z?Z{>d$3ka@8MZQMDlMB@H#n%yqp_r4Iy!sb
zF;XHSTtGnaoPs(jyC%E`e$e?EySpu4RRh|qz3J0;Mh!5bI8m{``@Yrr#lN$V8?TXR
z)wi0P;5?6hfg7#_2oqZ@Mx-H0v4wH0DGhFnchS~93Qf+JV(L-3TaO-LR}F3M!%iIC
z%X&fzo<TIR;V5mIZClja&q1d{&adUU@jBz&?DU&AN6Szb*qW%=LRvCOd*C2f^qty>
zW3!{^dBh-Bdz#dd&wYJS($B}EozQjY*>d2ZCX)X(CHS$mmrgd=(&glKWYYCa&|U}_
zwQeR2p>=6+NGTmR54torZdq8DpyT}W8Yf8KOq`h>|K~GY4E!Oen7k+N6=M3cG2AXf
zZ~H1y8SkW^Q|;$zSl90lmriLbG))3oQt@jpa}%KiCwwX>mOVbzr%q^liJxd2ygwL^
ztP-#RV#vMiMo0^U)ugUvu#0Qo6=kK*>s%J~L&}M;8$1xh;9Qow8`S*uUyW|mK_>yc
z-NGE_u&`CMa)1}}-=!Xn%Qn%Pdc17Yv)?^=N_2#5#{jobq6N79Uw<iy?^@0Go7{%~
znLW|v9eR8g7UMqxs^E4H>2#IUuVQC~RQOmbg357CC51V;#ZvNXoxFdy-(L=4mN7e8
z{$+p$2%6>=pV!eWKsJuZ^lX`h*48<6VPSjRL+Exk^dJXJ?9yCXa=LCs=V7alu*y=8
zK|E^yCmz*pYVgAXq3FSni|!YSWgJ;1tsPc1r%as8IrzLwdQ(T#kO2<rCWl*lHfUQ5
ze-{cmxHk$x6HXa(5E=egZ8HG|@^b(P;t6FZBWezlc{0gU-a$u-tUT|a^P5oQzfPI;
z10QyiBf+X8*%ybRHiGaF*FRZ^uqSnCX?%=Ub6jq7C0p$*LZUqJI|%~P4_h>;`wR@h
za<MYcuICq@`^SE`7`!JV<_S=!`6b8%7Aqd>9c4RuY_`eW%E{S^0m1+)timGkT4=@`
zkb6hANq~Mpr>7*BK&v`A8&zsj3__yiLQQWha#?#J2zN>v{U2XjS(C7d*s#0OSPp}8
z&?L!o`jREN=sVQQ9b?rG>U8zLhPe?u#GtSA7%)mP&!d^d|3ecZsLw?(nbCy|rP;=3
zS3Q`WJ++d55kIo>H3uT7x?(UVv5E?I01Er}?Q3s9nEq{h8$D0XiV(}d-?TS4Mk-Ca
zJ#XcIZ4T%r$H`3&L>p)5#qUYUO~n=*jEtS9<o)qib0S4n?mt-Mfcj<_8c*=ix%*`F
z2X6$=2r}vKsyr{If*=6uNH1QW^o~6MXeaCxVH}!YBvkc(q1|79O(&Nor2x|A<%!rQ
zaB3v=USfa7?kjI_AvEYLqL!j`hv%ksTa{yKYy?$@h<dciW^fp<>_74Yar^b|QcU}!
z14Qt5*_pf3t*oplA)r^%%e5m^nIL4RItqi++UC%I4H&W~=_LuI=E(jU>_ROvh#SQr
z@VDnbtmIT8lO%WR@ndTc7yk2`tu%fPrA-exEt$c1ZWiyM;$JR{mXq9IO4=D*yMA31
zNk!3{r;w6cvzRaQ`u^7fpr8jDHW%Uar`<rgfl6{cn(416Dd`we@r<Sb-i58XfuwOc
z!6QA^u5z#+1&u?z)kE&l=^5W?ug6vgR4@d`=l~5e<^#(&{l)`~l|`dky=Ez^Z2Rd&
zDM|1_@t5xs7$P92=6WGA^3}z~I}vlm7A2y?>r-oSoKaKU=n2{Ol0tW@D~>`ka5F&=
zxz$1Rn5E=Syh(Jfo^|l=0+Cw=kr5S?{;rT^1QnN3PH%SKJ)Tv;zs`|?M{$v)nLUi|
z^@nE=7KWB+StVecYIs^q*Wf=JSCGx;GsBB(Xs`=0JQ010Yv>Z)iw?yvWxX4Gqc>TQ
zML6qzQLd-1?(6&aiO_Xynl<%TCbGy*sI43nQbV0lfbnJb8ovo|&zvs-ER02@j0bGp
zbwm&GfJ4B>@n?7Lj8z)T8HuOyh$oT!*WpZzJ<C)YeB&(mC4x^CJXKK%xxBGpwB(V!
z?TjUNk=D`wL8gYtqS75&pL(e!H@=aKC1P7c>1G*A@rc-qM;jpi!Wp<I<T68%&y;yv
zP!Pq^v}iH)K9fk)IQ+6k-SUf1|M+#Im0y$G+L2VEP9&p**F>=UA`*kq+y5{=4R;oz
zs=yFrh|lsdi)%79`4i81)IeC)17>N4Q>KVP2bf`U(Y$>v^ixk|SoOndu^NT<u23Y*
zzOu?kI3wmL7$5PBYMf~8a3V_e^uvl@HEtIJf#lP!ExK-NyHdMECxr6zl2)?%)4xFb
z0|a0>=$kutj_iO0aTHJRB?V(e>s10VVc}zdOCgd(CD(JfiZt#9WB|0J96rC+Dtyes
z!R%8}kaa*{*59+Ibu-UtWxX0)lcpFBT}ny>mZwLdBQC54ACT0gor?jp+Ezje1h_US
zT*G8M9P!vfHRFkh3N&fjG<<G!8Vap4>+_R4wP~}T`sBr_tz5d&JVj;6>WTl~wz4@e
zTCpE&X8j%N%1QGqC>zw^>-%${x}l*0fFQ>VA=2JYe%A4#4$X=wFX0;%I(DpY6`lsm
zlAKpOV)j`nH=Enm8CAhAZ^slqX18fDKa0OB8{gFbNfpN&Q%(}qr-otA8H6NG6{!>W
zGfDrz=<L=#rsb|`;4w@HH0<E_keDdBP7M~-8E)g5smD8mSlO+RWOs_r8?`x`C?ToD
zLG1T~V*qKSe_T`d9UL4=gWW~Ns8)CVJ6AaAtRPJF+*U317yi}0{WCx#LL0;2FYRRS
zlDYt88w&5@u#0Yzf$j7gJjgb7l|FK2*XFX(ljj(EDW`HS(5Dq~WS1_IK%OoWNfSP}
z?$}W@{OXF-MU=W=xE&a*E>(f|_v$r%FJqK_YMBE>6^egD?=;S>>Br}i`r#8NoUxz$
z<rSKp$wt=L+S$z~E+)#!^Jpcx^u(Fo(CMETd;E7=p)ec4_8g~gStN3hR4cn+AJ3VD
zPz%PE8JzMQtSjaBK#qg&?d*}y%K<)D7yrs>g+No4zvO;_2!iODN>c&$s@g+T^O00E
z2@$eA;7WVnHd1d!vOtjq5hnzXXk)1^rdGs(OX7q145>!~*4JKjcG-W{_s+PnW0MgK
zpfvO>V!JBJ7PUmfoi$e&Bd{rGENJxfnVi(Fx63xJB;8K@oWv!Axq#3JA!L{_I~Egt
zi3x?I6wI_uYS+(YTLrNp(jWq*XUyX|#$2yK(oK9Ywh0n6pUsa-+1~+Eg3~937(j9$
zffX~U8OD8kRh6q8R*55hha1HPDw(53E7BvWBDsNyy?cwN00X#0c8x<@Z`4wMJgpR*
zR7Jfl_Jlfl`<lA6ylfFJ2IM$a!e#;NBO-Hoi7FJ0xiw&vu=t|KHbV-V4Yz~qNV~|U
zO(|ho4+yc%JRNj0eknjo%9coZI?@G4A!J^(O&^>p(M#e3v>*9wNb^D^hdW9yO5Q#h
zm!IT`0+%CD`ALWb2#eSko<e^ZNH;$u!}JDCSg>FLNCUx!<Z|mYmmi1jor%Mw;ejxZ
zo(JkB*p|xx1OU-+umrO9k9;}yGd1-hX%)Z5?|?Y)Ya5vg#xF!gJ)bs}CR<uELb=ye
z7>Wss0AOW5^=<b%+w%WT1AxF+F;)1S(>gP0zImvq;Iajs<q~pLV4ZjGOz=ejf|oWa
zO7iIKvDEDdz<$&z6y;rkfs$MYu*Ynj#W<zpeel#C)`?0nnpy=EZM|bC6=pDK7;Lzt
z<mAp4-?8AXqOgHFT;eM&UI(2#n*8`7d@uxu00*Q30O9#UBKw`4q--5QgBAzq=FZW-
zV@Ujt@oD(%b=WAPZJ^m~pd7WDZ=h0XzJm25P7~t{Y<4z3a-C3{{m)#XHj*L5*m)uG
zWg1Eu=|MY0m-9>b051Q7=kq8o5n_{`XwU!lhvfS&yM(V(KF86)Anlc1Lp#1_hI=gl
zoR;0^u6?%a4`T?t5Fw>qBBO}%bD$-aT?VR{s$iGbGJ9*XE8s$;K%0mFss@WW($v#o
zMFtxymo0Xd>{WlqLwu8qK@Ym|$^8MRzwv67SFYmICr+OHFux@x0IRv$IYR$Wg-KjJ
z6gnvK5$=(2`%JgyvXlDFRGG<^v7k$KBQ~m0agv4?eBk5ql>!1M(1q!cSCuSzI{iKf
ze5;f{E-Yim&YhF{TxBu6W!I3<vb*~VY}c>XLNAg?uUvhqzddpYKoQs}V&?I6=1}cv
z&xg7xq$xlo&&xED)a40uR)Lsjr@W*Z!!xgsZXvz=mo>td9oZvB8PGq%rK3dh==MrQ
zMMdf{nJkO$F?oTGQ;$2Fx`G1wPX-2v72WS5rql>2#I^3NB;^wXW=TGS>d0?&eZ#p0
zlvh526rM=_Q;Htj;GirRNGnGv5{(7L$G9n0SE}i2eDG>zqYqG4=?bw7H!I<=av8_R
z0oHv4zz2onpPc0ZfBnJa2tdu%nV0*2E4O!W5HSMIFsa5=^6d8?07b}2!nq2531qSZ
z=JK$(;RMD}?Qs~YB&CzTqDl!5f-qw5)cZ_6U@RR}Mt~O|Rr9H0)s!a^Br~r&@li`~
zR=%IpGP1)(NnN$!E-gd3k&bv>U&B+z0&*jAb{Nvd#jXqlf#N&o568v?>n@upQ_^=~
z%6C*%fvM6$&v!_8#BXI~X;xRXHrsPrP}R)=1BmsIm2CF^_E+rBjaW_VY+b}{zm<bs
zwjtG6`njNyXBXfdLC&i8Fa*sSMH}tx%vHRRXTx@3k1mask@T}E0wg$AhFXL_TcL?3
zPAS!e(^<t12;r2S7aQqYp86e@^IhtLFnViP`GNg>v5JC8-LF(ils_~10DO+jt82nc
zRm6lE;fUHQ0dtfBQ^Lg!%_zdSjvY5HZ<z{>3$%YB%=suSZAiqe#xAkr8lC`jcdWO9
z)O8)Tg<c~LSITXBDK{KtgOHZrDE<Ml?U)BIo{+P-j10Xib3_K{E+@IHcHg^~!0y8M
zKrLD+(9&J#<K{LFs8ocwWD=juLuQ6s;H$%-8C1y)ka9aUxXMywITw$H_}<G4%9tv5
zZEcpeo56vC>5URMfUS#2$08gHzi-bTjiSmgUuf-xFwAiJx{yZFvOM0iUKEmnKsS|F
zZA91j)m3BwsgkNfv6Bl}czXxo!NZixI6VH3c^9kVo3xS~b~fC}uEN@76xlhMg1>VU
zZmK!{ZP1U(10vsnsi4imevXghmWtAqVGxNwnCBsJ@;zz5K}__Dg(yqIO6y#S@yvio
zhx+S>CpX#e3#*WW1PvH6GMe%o9)^Iie8dVVvHSlVTErckNDnai_Q4ZGCk2|xXP-6F
zKNUECiaMuk<jAZG4{@ZtMB27%1PxxQ29o~8wu*{QWx131{;hSj)UP^KE?XY-m3tx5
zrePQNkX}L*38$vx&|Xu@)o8f#8V66Dp!M!EsEXijAMf@8)559I*4ECSu|SfwG&Oxn
ziieIj|0M5T{9@_Cg{fz!_kv$+5<;7#*nVRMxVhD<L2iJ19B#Ji1+t|D@86@Pgv+sn
zI}$ZDD7_F4Z5c8{Mw=mGMlHH4OOYmacNa;v$?w>KQ|>a`vuG_`<@Fz*snv{k>p5q6
z1yPed?LSm9ezufzSxw;qZDni(`=N1o;LHfi8VnWV!O)4keDUIeJ}gNpz3c5ecMeTm
zLFcKc6Fn862wZgJ2++KNK^dE#j2)OyIXHDZyk^oO_HLy4=*BKx8(OPeJ8F!?L%hSd
zgu57VwDE9O1TAre_u*m`kX?&-v!G+6BX0Zwkm`)UR2=Hv4|@|B$4+trKOUa9^8IGg
zlKB)+3FU`&7DE+@57$0LzHeaoRq8~mxSGd`4TRNFxvj<}AqNlP7`5L1r!>2vOGqqa
z2?<2v(SLTH%$Y(O%8!CDom@S8ibIJ*%Rq=AOSB0CTW{Od&P9vnw-IP!TZHQYv{3S2
z=!51Mao<c8?}P-=?={FA*Q?Q?TQ_Gq%+lxg5z3!bg=`WcP;4P!gXbrs1W=B;h@i}N
zeO~s5%cuWYsP)vUu`N)o%o2h~pG8BVMZ49|2t@1T84c5Ovr0Mm2!&O3QI^Whq!tJO
zxbG$1rr>~$GV+;jw{fFz1|}iN`<FfyrcC5Hs^)8HC}VGvUp;8#@6vE76fRShp~_r?
zHe9tDEx|XzLO}D#pZESb%Bflm%}mo?xWmwAAhZmTHg0LtL0^dpI{*J?BN6kdKM*xJ
zD5ZcV*bd%$a1pUlH8N-c2!w6=v|{n%L(>MI<0g{Ou*)jonR>;4NU|*(9A^ES(KKih
z0ZcnK;#7_a$(Ue%_&&=jqPbTr*p4|wat>HrMzN`PU)<FA2p4J6$IgV%@CG_>LQxlS
zCc-VwI^7ntg>!1!Lq(;C?nz<`{z+|d@F&PCE0~6OSuX~TVxuO9yu6k`2I^VZ)WyKH
zfsOO;F*nv;Py{npXjZEcoTBLTDLr^UOz^_{OfjOP34df*ot~Xt3&=pMo_v2@BZYQo
zKLHb(hGjtDeZF<?2MT7KQX<vj;wf4Rl0ql2kf$p&5vu)P8>J$K<;^^6JetS$zYy5K
zmnF`}!BTMj3K~{XkPl%+4^k^&RqU0|X4X(>fX<NHd+`Fhi+*xSm4cc}fMHk$4SMSd
zny^<+-@lxiPVr|cd(lx&j+JNz{bqL0CQ|Nrk}D9t@qsTfJ_LpyjzNzdh=@>%rEbNq
zxCAs@l^zNBy7%A!gU?+T%}vlDsZ_3By0miY447PJhysQD79Hkz@^YnF(%oIoQ|`c&
z>FC`GMWf4WUYXSg4^)9I#s0jkpg_yYGM@(-yldA+1X?~D(adFwLFF2yO%#-bR#zaF
zPBK<t?syCZ2Alfv?b5g;z}Ebf<JXxTSrhI|d|!>UIF#F-_xBhMq?onj!9gLFo9))z
z|Jt7a4}VLxjOQyWJ19KE83J*7^l{2eMq%{vLPY<LqZdcq_Mh)|9~Nre;vx|RaEQ@o
z#16?Io5J5aOE&R(y7*W9zt$5v;~m(oVJKf`nqbkJ%lC!6{5mCN;BXD5CYcRr>^Tk7
zOsCdBwOvpGX9QZ>+1Z7(jQTI)AvPECh?s7|d+V&2rB6RHmI*y>){hbZIgQC-PRe)x
z>Z@|UPRqX$P?^y31X<>>8AlnUM#f(CEun5C&6vd14vQPRto|pOx_m;gkUShGH^`?-
zK7Bg2bzzfc%>)2JcMo}GRa6H_S%DU`sa(x^H^FgS_B1R(KY%EO7)OL?cjYpo+>XRo
zZ^8*+f$EWTn23)7nc#)@{AK@K=F-=ClXCW|S$4w9urNr@Jfm=u{X*(-Uy!V*bzQL#
zSuQgTZx19xfdPOjEX#>jgU(~Sk$~R-$d}h<RSWWI<8P-xA*4xTN1L99C2-<#8<H;=
z-GmloPW0rW#X9U$+E$q#|AwsoBLZ2pbn_foSHJ7a(AvI;L07o{e>|*b3$$~E(jGWu
zWuL$3tjCsD5vfPN9puupSKq$*_!g*f;btfXcdld(N&P*4iFg7!T(3(8(tSq{CNPb`
zE}Q~Mi)DyuzOw}@`9G1n%Jr^_id3IT5PsIwpo`y6xEG}+d#Hc@{?Yo25v!aA#zl=_
zf^nt^6?_uVDJOKb=9k=SEj4}2VDldJKmP_{fS&^PcI51cP?GwwcmEmp2(*4pwtDcO
z|NZOCCkiliR2A^G8;a3fZNkIlu)Ld1`%_AuW@3^?Lsy1XC60<*Y{}C((7~zAsdy*x
zPx?EB@xLL{z=+?t?f`8OYCnAg9Pl7Dm=**`Cz#9&)*efk9)F3Mj8H#HOMRKSiY7~a
zL=TqsOrYNk;DSVioqmZ|M}!gGOQ;zXV@qN>AZz|T7!VM%Ox+7%GBc7J-OWR!9#N=T
z(pP94nA(*TpKN=490nW4BRK>}1bjlSiZr`nf{=I~W)}d*0LUN2GimK7Ot_CpHDZn~
z&`;UDKc%M0Sy?01>wgwk&O*)-jv*IT4@|17>3*=~QSSwfk`l%`q#4m#clc=}`7c-+
z>o|Ja)=C3?eSK<7c?5i4%o@h6*5AN1MHJ+#(Qn|ushRKIyitb;L8L=gW63Shw<LKI
z7XdS(5w}4wOK4}oC?S%oRYM1&PzF6S50A_9pg-^vR16AeS>6LlzZR>}g2sRqnmF3)
zj4J+rP2ayvZ5WIg?cTFz4qBny(~6BzU_^v^CpA~L-54b;U`pM2SOI{$^I3IvW@u**
zi*TX(IyG3{0Q8%dPauz(5WvaC7<U3(j@8yU+B@CNx)qh%kDPq+RWbL>d89lubbujQ
zMRSA=u4oS%_U!C)<OM08c_(r3=FFNU4pfij4Ighvzi>Mp4g^Ksl`tG00cCPnEa3xT
z$RrISctAK2B9#80OW$71m0qPuvZG=3^lZHmQGxQyWiV`md$v9fRXvuCAofDcO1sjE
zso=y=P!-RZg#jBdj&6})TK9LVK)Un_fS1iU87Z+(!-QaQr;lp^N~t(#F@qixE{yA~
zAeIE*!=&>q2RuC)$=e*o>8@RWqAsU27Jmzy7h)7bcCWLt7`aA3M3v-{21pNupk@3K
z536E&*7NbSKcsBTNDVuTp&?X`-}3To6jqMsnW5s%Vhdq=Y;WR!4X&7sy7{YDe*(hj
zpk{G8VW<Ef!MzzA{*ljl2v)6NMS55tZwQ2uss?*8V#Ig+jEOZhNpye_Q`33mfFTDS
zr`DAE{Q2<i27kIl(K8M7daZt*6tUz`nvB%QFR=>D-#ILj31|NXk&9f<kCkhMl17-B
znpl~DJ219I&B5Zbpfhv%FHg+{mqXoogZdnF`3P6A*w+`_{6poHq#y)iIE<?_k5Wgc
zO!^CdSpC9SC5EY=^-ep!A)Izsku%$)1HIAIR`}sUVYO_T>_xL&iT3WP!OV}BZPluV
zNP#19p!@niTyi;gh|tqV3^!@VJQfBli;+U`V(^SUA~3kw@Rja%5ci@l0OU;ES68p>
zq8gY$l(j4`E*i&KEK^sPCK?)Q(}!pg4nL}d7w~W-JSl=)OE7HvVZo|Zs$h36+a@$X
z6Wn_ht!;GUHDS=)lrL-(4R+nNZCB7+z}0eS+s<W?s<w7Dv@$|$>;hjjq+xD9=ag}M
z96r8*rSZ3a5c+u&sWj1w*YIJIa*EA-Cso{2IjWxVOcJNZN!M47jJSP!PCR)QTs7QT
zgSdyM;5G{zwxD%`JE^~3DI<&1BE<MJ4YJgvBfCd2vyC*(VdyJpIvHdZ1VB_e^D~Z7
zW`ICT%TN6s*z)7+n!s#~0`rq65y@0nA6A}TZ=LgZGzh*GoStU=;o{q(b?cN@&7lzA
z+uwaFZ$cIPu*yso>we9QHM!gn>r6l!UPTRJiqzTXSy}TyU`;~_d*;lZzND%2z5ABI
zzdfkrue_Pn#K_^9K%q~ofiwX19HW%6xg@UNsuhw;-L$~e-20b>>BOY)F?gaA-OC#*
z@1?yIixB!hcHt$R9o~kO#A2e&Km@b-4bd)zDP#hI0vBsP_@j84&7?4}&JRyJgxbhu
zs|+jZcci9QFMJ>MDQmNS%D1|@(&rf&T7|iuV`MkDU)-O*I_35~<qazo+>KLSst@bF
z#AEPyui3t*hTYd%-q9>^;fh|tT0zGqk8@9Z8{@n+HX-L*N%f{{t`++}M<twy%Z~W=
z(J?k>O@|_fxa>b8KFpM2+yBwHF^Li7$LKBZX?TH1zzB2Eyi6Ii=SxY7=n(U}!510t
zGn1xH<vz4-+45;t$>I1pl5!+Q5akogtZHQ7Xznd$+exZBqYO@#L1u)CtGb3pc}ASF
z%aB`)%FfKpOiD^3L&E39gh#P|pIKH;uU_?sUX*>Bj`>5f)Uo~DoR0|fBgkP{NR*%)
zK`X}C&iIQ?xL8gUQIa<@2g)M!aMxY}|AOK=aP^`^CR{y4;Sps(f0}A9GpA6+;h|(H
zyq-0_NmkBN@Hnukc_ND5dZl3c3Gh0_X$7kxH5MtbW<+cKP7AH9$VL23LQuA%NRQgd
z8w{2*dY@ln0vZUIS#RTWF|uOHeRkrL7ccCgDhg`#?8q~hSj_5H2(0j*+=iucC_7jV
zBSBVH25nmdG^rMSL9#SwIsp6emjO9dFLian+x*GAa7GwdVlaaO8%dU<8m>*{CX#zD
zuO6ABs_JC1Hl<}{NAVdHMZLt@v<CM%IBy+PP^xtppOl9W(-oN~wi><&Y=2eC3#`?c
zF)@8zhR-LW#ThXij(9`p0Q&i<dJxL;lj5r(rbzN_1de`}XoHC8P}@z6^{M}Hc|Oy?
z;1*X2x0Snm7jB#6W(%nTk-&^$T}XihDWBd75%=%MrXk}T#pe--u43{9k;}GHNtrED
z9X4ze^dicNzW`w5kjPL4X_-5SFL)(tJQ^I4Hvh8>8+aAM*&1lcWuKR_$6vmF71Z+L
z;$m?^j44^);zJmV*k?aIWDoD(Uk;b!XR4&X$jV9(sX2oJ2>~a7Upp7v2m9?RN5&wu
zg8)3K*g?%qo76~Jdi?LSUvvQR<}L+t9Xb@ySd2f#qJ>m4x7!972?U#)ekws$N>aki
zp+0|ll6-XKvzIR&z>T29!Fnp#|EJ^@O3J*o?ne$yFI3O8baW<f7w`xOKi$}bDwm+$
zE$y21Pj!%Qv>ypsDI3aqRLNC32TXEAjc4_mHQuddBx8N*Yv3*YjE;C7IH2UZZrwVe
zfbHQyY??q?qOIt1iLOtiokp?F6r*tj3I?J_1vPb4P?$n(qOB<Te`<KDmu3-LGaDH(
zjP~8Soe*=)&i)d;IUPTT>lM`a56Npi41D%<xR|Me$_~wP!W+;DQ@ys4E^&HsUY?M8
zC%Nm`v7?L<q?0GVfKnBv!5fcH{moxxMK68CsX@kgR(zc(qKM3adM&z2)@#;;+v-D)
zCMyT7XD&_;S8moahT{-C5m|euG<~yCP)!Nq5sdc7VjJwDR0CnTidKf{+Awto{Lh<B
zr<TdA47wN?Xxf@8yX#rl^E?>t0H|*6DTAi<Z>NAl7uw~=j&)TUOEdzU^%B4&XiOt}
zdE26=g&<S_S?vtyXx;4SIB@PY<3eM}WysFY{}6uJH7_;HVKFcZ$C#4W>G)UFI+=vf
zr+04>jEvW>=N7t<8dIntp|A{0MTpqw2>lz4NYBOhY=D&NfF0xl${Vb>l8HQXGHfF8
zJ(unp7xE4N{J6-8KV}XF>A_DZvSt2<4yDs=glIX_&Dv45Qr5xW<qo?B+L+=ueA-K0
zDSINV_7JK#4abJ9f$f@;lR%zI8>xv{vvd9pY@BTR3Qdx%vTxr6?wNO!yW>n;OK!Gf
z$4|o+(w9-Nsfr5<7=9OG%4bq1nyLMl%W&U{H*V~{j1uj*;2%qA5aYe1q$Z7n{!428
ze<nS6(7Z*94dfgfH+s*pCJ>GRg~S?x<2`X~A$g*U@6lDuBrHQ#37l)pM>Q7{b@DG1
z{>RI}9YFG9J=EGDdGXN=T$jJgr%$UxN}e%klu#q>4bLtHVsZ=FvCs^wrSgABNnUW<
z;i?tn=gTSyxn_u0CWT{>nj{RGe0^;}Zf?tt>Td{v4Ey~dDerH%y`iKqgJ|UkBe%4)
zBn9#Q6SFSH<o24dPl(Q$s?>kQQFc1|eK>~!1k99$Da+$gO0cPNVmJaiRt!U(q5T)#
z3k?jMzZZ8@d^}Zgps`qb@ikxII{A3oh^}9|rrf2CWV}pm?lpBfrevlQT%rlpxN(f4
z<fTGg15poJfRygw*KqjW2;CZY+*&{Ny8hJMP(@t%Q%T8u{vKdGJZf2`mMvRye>QTh
z$@Z>LMdW;PH9<abkThY1n_0s+BMoOQjJwf3N-_~aN+L6uv=r1%?10zUZ~u@n`5Mbp
zI7iAP4CteK?FZi0K!!37;#UBaum(gOz_3{p$!jANCSPA)gI%baeL~4^rgm$WvX5{;
zm=YCRuZ%=p%tX7jq(7;_620+8K{hlZA|f#GJzZY}f<0ZC(c5XL)l-sr@VFPE=z^)T
zY>acM?_Hq3;>V94s>lA+j~))8g_A6+BobRnE<x`F52V4<8@~8u1ZjR!=-ipWbA}Q{
zo4XKFL5yPPu;as270K)!88}8`p;r-c0B%s(k2%ke9tn~93=SK7z9fX-mE9Viog?55
zz$w2blIjj0ZY~r75a^$e8k7@MJFcavb`R;z#xk(y8mI^cyKq<6V`5a0V|JAbfXzbs
zBxk_-uFi^?SvUfZ@uY!4Z7Zj!m<49QyNRZ$v~CL^y`11vfkn`3n!#<XUzkx`GjDfs
zlSse2{3-QT@wNhHFi}gG!fom@hKs7Ng-B@^MaA%~`=A`+8cpxtxx?9fxYJa{+t+tC
zxxt<)m#gsKzJLD?t6u275Fzf^QI%7-!Nx{-{|q7y2tX;r-;y2B0OV6dBq(zB5fLpU
zWphHgWvf>YaLR--0mkdRLh~rLmB#vGg!bJapZr8ChhZHnkw;uGOuDhEm~1s|(9>hb
zk0T3o#<r{Uy^c^a5ULjvou8>!^Bv--rtOxbAP?5vm_b0}2_-5YU%VjZ(R*4^(n5J*
z+XlQSL*8K3hJj(Ui%G-@K`e_Qu;6x2?uAi;G+xCy2T{u-&Rl8J4UC94-SQEkUgq5!
zhYCg*jfpjH8%cRjXfK4G{5CgN6ZIFWsG{ird%};4xvGxNW`Y*ZK6>H@bzcCq4T}GM
zi^5Z4;>4S)C70nhC~EX*2f{dgSaV51lR2+UfK$2yyDNA8nZ{C58_b*jLV|YU2DJ)L
zR{!QrR?l$U`0@8Rd_=v}`8X)zenHL4^%H&RYzB&C^JS(Jq~n3a)LXUzsEW`~j}jMC
zZEpJDPT^VEV|;V}@)#cpUe@8dzNGKK{4jwo0RTdVN`se69?ktS)>aVj<nOw4$&z!_
z?kK@h13uWSuKZ-35rrBeO$<Z*J8ef04J949Td!Ylfm2|Jy7W(k7zOpm+xrR@fCnch
z7RJM{9YK%(1zrH!MDUSA8CDxjO}&0DMYfiZfTynn2BbA~Zk%HV%tpPVbm{{GQDb2u
zC?Hf4$)5~L3SByO90A<T*=B4y)2mc-CR6VMXj{wj$7Dqjm@*u6pX~>?2nESF8=-Q-
zw;6P{i`m*tvL~>skFM%9(d}nLej|{^u~Ez~TY!z{*<mjQEKrwjbjd#n7RQIl1wetJ
zzHEw>%0;882Ju2MMF$vjuZIWFmv8-POwz}3yL4E-Y}qi3CKj=U61WGX$y1vv2v{h7
zZIgS4B(9f*wVNC+n%uCP<_b@_cTjvraUSA_5>3!RK`PYOV|=eR=jTLCl^M)gGj|xu
z0Xj53aCf~h2!+t2VPPLJaP+^Ov#qaD+}LxCiY<SWdgn5-k1N@oJ9dOl_Ynx2H1%@!
zACloSGK+!j$O(<b2^1`Flj-YnRC!V1`|OJyHgBHn_W9~HgI)NddY6F|-tiJI8a@r(
zo|=U{1S@1Ah`+SpHfSF7^Ska)zKkpk7wTiX32Soj`0+SI&nYe9Sny+l|DvNK!WwZ&
z7J);SmzRglyZ)6!7u05E=T4nkq2W#)l&dZJRz=Wj-&he+kP6C0=U2Ctl-+;+*(YHs
z220$JH&<}lz1yYTw(CtT&_rV`t^<>Fu*8dVh3Ik%rLUi}=B&HPO_f!Gr83B=il!Y%
zkQ5tk!)d#7n~QdeJduD3Dd(qzIqB)#r{m-$hCAyU0Te!STtEq7j|mimp}_UM3!p^=
z;wZ*3zxqI0qehbTIoyJb66~|w9JfaLvjG_uk)u-@ivnoc?0;;NeetAGW$g{<$a}C|
z1QEj&22|Y7VJZ`BS%Y1;)hgSU)KE!Uuu989Iv8elx8o8<^wpF6e>$QMYHxoHR2>2z
z<H!ka&BA8>x}0yeLXc*GsgXFssuU9wrV}X>k#T>9s;fWYObZV`d^Y9n%Oysb2QQ@9
zt2LRjAhVvoLFpwZQj!e4Pm%rj$4;Iy#d}zY+6UY+n2&S5EEP^K*{qX#^a4y8M`qDt
zq%fia#9yIFGQ@bnCnL!;?*hN!q$<H|A>_ZH?;6~I5F8+R&-&4lq#H%RPX3I*Ob~?v
z;-QYiR?mtb<tGk=L@RPCW9U>7F0H*8C>H?c_D?B+)}n1>*m?IkiKn+YJ!|B(9v~DC
zq+lSryfW$1GoC7(qO1;b4s2kHk+$@l5na~=FJH1m=&Xyp1;^5V|0u_bi7Mz>witPl
zD7b1_QD-zzI4_6=iLOu-dSI54RxO{0>ir;9Jw4}ooA}rc2eDxTlEa}ixTaBq!Y0Pz
zU}jP71ACQk+cx(mzD{HhD42mc2$NWr4@hk?9q@YTA<4zL?3LHgdrc+fejjLoa-(%k
z6BPZ)n5M(yfyc|nM}rUG&qOx`9y8P=gt3sX$h*u>RFO0Vv_Ej<=uyMFQ~_Fa6I69H
zoW%H9FR$LN9n}};mqwg@otdyTAx(srWt$WRmEb$+NNo)nsiCo(Y_(oIyuKcZ;(SCQ
zNq#@4+X#9_L4lC$0TRUZ>Q{L&;h-J0zNEg5q?+8Q5YlB8l<|#|>L30JM~#y2-DBrc
zSCp;sT7}{M{8<l&hz}~<*QImkq+o>@Q{1>I$Gx4d6=O)>y%Q8$<P@m!5fQc5Sm+?u
zJ*by-!;h_pgeAg%s=i!7Tyf#6sEAl69r3Jh@(7lw&3s{i+rd$fBTPa#LPO}4f&RNR
z5^E5-cW=uO`+3gYMo?NI_Q~yn^xh}<9zU0otlr$|w2@(8*;|?^_vhHfOw;gOam8ZX
zt=Li(W_PtiWk|fE*AQV+hNgo?D7lUg#L}m5+!(S8$qFBF-1;c=1Jfl;FN#Sa*b53c
zdvbP5GErQffeeyr4uNwCE13*#2W0^fLE(pTnoSkYFAWmD17xriD{VXK>?m?S5;TV4
z%zC++)~O#4MF#QfgqTk6vbd3yZA$ce<KtLFoSeT`vipEHz&{XDg#r)qeEqwJqG@FM
znhk#v1f#a>QF1VO2M>c?hWk74z!&RSzC%T^k)*Im7`&Zrd_EnecMWdgMLZvySEVT<
z9?okQAu4Vkm@=`~FLZ^D#Y-R}+irqLIMvghi!$nqbzAmd@}kA|f#3d3q{hTwLG9Z_
z_z-bA6Viet;XR3~od0h3j!C<sn+%Q4KAq_Q|2e3Bb)UiUBM29gU|L$pF{EPZz1oP-
zNkvxAWULLuZKbhf`(YHuKQvjq_`PUWI^8Sb0kD0rEvN5=n73n+6$RKV=<CR5&_hT|
zwrS5*!eHxb`5ZbF38as7fiT@=3jpr%TjZ?E7cUOvU`x_OQZYasKY?|0giKEDA11fB
z()voAZI|bBu#fO+qo|VN8N~b0vXFKyE-sECEZDNTs)Fv}W_~57bcq*C%-51wDaf>f
zSVfo$loA&k%h(Zb3@ks^V%!PqGtlDl2R^fG0XsyzS;EAwWy{XgKhFo4lx5u>;B;(S
zNm5ehde1hThIwKPY9t^Cl|sX|%NnYFVxAeOCiM~4f6_NE0zkvNdq#$!;?}R<No0;g
zsVvVpR<L_MRWfdufy|5<=}<UzH#l>G@ENAqInVI}!FG9A;$hevKcCI9?ti>K0?O`6
z6BwQ5W2gwREV^PG0bZmf5})8FM|eD`DLbP!VuU>vJ|b;uJ428VBc+v;1&;M46W%yp
z-4Az2p@*?h&xP9BdyH0_=FJ~Gd`Q@7L8SNk73H?Ja&kRfDOXiiRG1Ekk|QwTr4JNA
z$456{WVsg%5x^c9C6Hj+%TH>J>eVZdTWJzUy^Uly{;qMf+ixzwidoVP)wgfnJfYu^
ztP?Br`<0Y|{80ZF^%_=OGr%N-mYl+Zg6CIOnG53~>F<ZO3*2u}NTmCwQ%f(7t8ydo
zkxQ2@wKagF)r+8|GYHXJ*e|YfqAi&U!Z%Vi2sFc$mC@EPBlc4;7+`UEqBiZ(Cd<&+
zegA#~ASAFhuOP4ue)=eDYiHiQ8wA%-Bx4rVkb{|AZo?hnVyFH3CFx7q3lN#?CdB?i
zwk089E5tZhGbloxF2yQYX&xnVs|A)4SGs^W2SI};$e)~wm0WB9zC*z}VUpoy-<F;c
z-)nq{86@oc1*Y9$xgKt(6hazK5Q7&nSFg{-2>W)3^l8VbQwssX+~h>wk@6EH97KKe
zw7|6GC!N|WDjq*{NS@(s<PT)`O0I@MM@MaqM>><bA&}rVT7Veh05h*u*AePD(_VS(
z-FsS>im^&jAM)fNtv;29s&VU+TF5FHO_{Q1L(&}UxIV`hSzFIPR#oOSu(rSC(sntR
zZRGN4M2$?nx^~3+yLbhccc=-cVmw6WTA{Cb+kX9mAw*D5vY0cc{$P5YgUy7g{s}*d
z*!Rk%OG3nS=gyrBDmeAF&bp4lLa08^CdmXw#dl^qehep6Ww_i;s+3I*5f=)^8a5Pm
zfxt>bOff4f!Rk31)Q(Slv+iLL{*~AUU>}1alqiM{-DqP&`R@6yzj{$VaF4vjLj>t^
z;wBjyaxp^YMwjW7#ELQC{184A#NEK6^`iO;U`>t*m%NT)=g@jbhyfPgE;urc8`@;Q
zo;}~e<`CH_XA?JtJZ}zgI(~+qrNe`%Im)8^2Js5;n*fzYHK?F3V4aYPjw~POofss#
z3`sN)KT5;^!E`q=GQu#yoqWkLBIYD$ZdahfNEgB9#|Pj)Nb+91d`XXcBqx-QwWeq6
z;@T#7uxWdqKO;LmZT*gais(_2Rxt9{wl4gXS=cCYa?Vn4P*8uxR^!UPemxvNpD=6&
zw}HJYXy2j3aOnRO0J6638)}`sh3phBVi??5dUMx1)B3hR=uL+U9*OO8aMO0$#jHV0
zI`aE@V<6Owi#s3dWW=#7S40$T-c55~x@d?v*ozjAo&cp2Zc$B7T_Li2g90RT5SY3$
zcJ0yefxhrj@h8xHS!zK0{`QMbP0Pn7i|M(vJ<s}Jf+Q)l|MZjn1`R4fM(pZ^3(6|f
zIJD4@=6o3oe6a1%x8hf{S)qr1*1)HT1O>}CeNs2QEs*Pk$Vb3I87111){$EpOdF)K
zzxLsCYwTm03EI<~r*T)Jw6(N^Qb)UaNAczT01?G7@^(B1A+VgheBkl}T+AqdxM_RI
z*!%VA6Zb`Nb0galNk6)B@3dTT1#XmEu^9^%yus#UG2Z9p1r_YPApXRq1EnyeU1pQb
z;>X#A=KmmkSCAMl^!)rME$nYvi9w(Qtegc=rv~+;2=1vfmfpNP=E=Dp!A%e`f|WS{
z^bp%aXx_jaZU94rUBDm$(8<q_U$U1WT3A@XK61yz8#fkUA;}Mnz<ei9)&Z^ME|?-2
zX%z~?2&F&wavRu~u#m+;gx5kdsTcJ}+UH1Y3!4W3iFczY!k@TnkJQkJgprK%*n$w>
zfdi>nT<}Cc5W|B9FYzakKbk9{Cj9a3+ftgc+n0BSZtxY5wT^lag(iNHL{^buF1E@;
zhS<Pp7<c>{ew+ceI7q+;dXl(MNbFPp)5HdH5+UsWWq{mM2)BSUrn>A%TU+|~_$nfF
zaKNm1r#Z4$nF|-veK-;n+!A1jK^3ptMhl(%^Rpwzhh+>SaE1Y_r1X|`C5*>}9HW@b
zG;yY^VjSJA?zT4&-H9+cSfgul0n|2#x#JO&GBbO|o(RJRNmJ<#C?K@IS9lJe*m>kk
zerd%C_UpGe3OU53Nf-rfQf_>ts$!GJf5(aXt;_StmX_I|L!!^&$MtUHrN8E2s2p#N
zL7kD5(28CnpSlGMfRC<ykhcHn+_`gQM^=|@&M5+GPrDqI?HGn4QPZu}q1XLBarIiY
zYQ>lMT2F;4s=J&7u{z?jZ|+HDsK`Wb9gba~2f<-OIt9$wC*y2OOazRwdUe?vrE?ip
z<j6eXfN8HVdZ#8ou)C3%C`9R+_S;gG=Tp{`tyZ=@fa`j=0XpX#0G4fj!AXNon}oP$
zj+>ReVpz_-2W9Qxug^JZObo-xQiz!tuiNL^w{W5_9IrX$P842A?pD$%hQh6#<=vn)
zXgi#MX}EoxJf+P6#o@?Jn}4_>ifLf-7P$ma$+*VhZ$WYi%{}{)D#tuM(RB2;){@tp
zPxW}J{}Ow9d-0Iu2!_pAR}y9cC$a_vH9#x~FPy%K4-z9%@BzJhpT^cE^=%@(spJMR
zgkWh%?c1H*E0SsAeM>IrCI`OP-(yLgAmYGIV|}&BPoqI+&FX4vg0d_(3XsLmPgW_n
zbz%pBk&84Tl(O&!X!qMT;1)i7{HU5il%<WRN9|C-lv|P7b7i^dJgz0^i}!UkYCnLl
zvL~)nm=8HIWU1k)&1b~?W4JzEMLhDdWy^{lM?$q`UUOAKvzJ80K?Y$NwT!!VG+V)R
z#LwTxeRIcWFI~E{kLxu6t}Xp0Pk{=^QZW^`%!5Xw9j>kuD+xOFpnU|G+51ig8uK#+
zP<oh|8S}=KT0#wkQ?;TXl1H?ofwJmn+9Hphb|xhTvlz)Jfe^j*@5T~XP7kAfucyc&
z|M^kA4t21mriS({UIu)icPnfWleK#5>1Cq?@;R8z7<3OKpPg1I9D~mOd_;RgIU7$I
zb{e=}PbJ*eKxW~hMME%g+un1bQ`ank8fbr0i%u;@HXJGv#s8&?njqoohC_MnVey0j
zDzDfYYZ1P63Wo`H%<^tA=r-JZwoq$713U<L%s%ua&nTm|F*d}(q77XLA|!cZ{|jg8
znZe;ri!`93y+>P&rV5<UCM26C^V;5hQjnB6TdXm6-n_j1HYE8>5uD>Tb+hkeWSy>>
zB23cm%EVJO=?5`6452U-<F@ij#_6HQ0lIRihzdPnUO;<}R$hbZsd0OlYnkckk?a<k
z{ZvYR1~hVkx(LxI0w1C}GCafO{JmCUs72%Lb%p-QRzK#1n+bBU;i0_GX=x&i+BWB~
zAz^h8l^&X+<DY1e>K=B-EyS<eK@I8{6#G!POa2Arqe!P$XM}p2it#Z39gc_T$_(C8
z(4q+T`CMUkV|I$_5H@?_Mqxe)nx6I~4D$I%Yt+bvu5ymmp?OzRpiZ{ezR7OVURF4{
zy#YICu3~vfzPc#|v=3S;IYso#Y#W(0XzNNFzwa2c+&a&)mB4FeVN<3~9cZsitI>HO
zQr>UJ>n2@MsSiHXO>*&>@Lw56zf(Z!3Od7I;vh*E3H_KV-9iaWmLR)rmo7hW6L17(
z7Ved#*p(ooxo6_IBq+nQKemCMTvP-7jvj5@W!O2}^xa(F4jU8G(o9rXrYS~7vd3po
zFAkYFZQ9niEw`elHuvG9E8|j+%XR7$vV0i{V?|eNQ1o0h#*D%;lID*eH}1hkZb{{U
zMI-}n-t@>|RTCdQ%FrO{iatAr6y2osLu#*)svr7ob!3djxNkOwqf4zT$wlTbaH{d?
z`>mFni-6(hu!wl~{rd;yCjq9BBblrLQ>+^`D(j&xDDmL=NcnWoZ?Fo!G~(Z;MUWE*
zy=Wtb#^kvHS}kBRVErB!E?l5`qI~=>tlKjtke}|Uqw@n?MP<b3OnCt}I$m{h8izG^
z*FJ3)c2es;y{Ia5IJH>*B<qQ3cGIiMG4d7GWh&q9whtwgx7oZN{)`}u4wwcVBuLCQ
z5#&0JNLmBNDFUAy>W~^~0PBQ;#}mR+7WUPP7iTl9y!YXhC#KtM*bvlaw)au)bD>r>
zspx}^eEF#jmicKrT6XF={2HQe-zklS1E~@wVkTg09`^AG?)M6>$&9VjnPlOxGafIg
z+N|a}Vq=ll312q2H)-^51EcVj0D-SNLtz2z|3FkDYS6WKV@gM*l+iz4C4Y4>KZR=-
z4g5vuQEw@B;bI`*6Z~Xln%b1I^8tgjf{kH!%xG5(h@N&C`M4?tBHEf&MN^-Qyx7BG
zes%zDJk!q$`H5<RC7a^6Z%-AprF6EoLp~rvMeH%U{-*ED4R_m<$>@TNl#`=!Qd8H%
ze<36XMNGmeR@&+&yvUBiV)QQ>Qdu|Lzs{_~#*=wx2RW>S2}nVJYvxsQfx!nT6JQEO
z9~<EMkLv378I@r_;^MbdU8*hF2z;3PpgQ6C|5*nwYUrSTqAUB;Cq`J6fkd<rp<>LY
z;uy-!B-dnAN!QPzQ)iw8qZ0ObC~HJb_0(ozkBR%Bb8^4TdLAzmVm;NqTSuiHr=jf3
z@-wwgM&)WjexswD2UcJIJ1@?4{tZGwxUGF_JkHbfgax2S@nKR@T9J&5jQ!in`3L|0
zJHFegfX|Vq#}0f%m_S%dEmuZX7R}DM&*9EM-VD*=a&Zz&zKl9zUJ>`F^rlZki<rp?
zFc>q2DadI&7U1H_&FTy{ApYTHIF^r@<4M6&Q64aMDQ>y!^C_WVsS9%SBYoPa=5E8{
z)q2@}8~+Hl*r?fdw={+)snwd$1L2lWmK1#T1(}~^-)Yk!zeUwMXW|#paEF2<{_&ws
z{^9lGvX)Oz^C9QgfjUcLf1kd6McJ6c6tm`<7*C8<3>r4y_w%<H7VmDICEZX}P22t<
z85=byaeJM>4*sg3S65eCURyW1^Eo&i&{gQefOrL>czU$~_>dZP1t98>Y|bY+SCAvO
zLL|HwFRrJLc3@W65V~$h*6iU79XK<Sz9_vsici(gpJv5hrlRk-OfT|)xm|x^&FE*3
z%5QBBJnT>4@n9pFMcAqsk=jqsp~O32WWS<>4Bo9YY2YK!_J<Ewk;;hH-}3T9cBA#E
zY0=gZrW1M2DWZ|&*`OqC+!@tc(V_NdtIo+MM~$kN8hmxN82C%{tC9%9D-wJO$-xfC
zbX|l7hriyWVsMu5ebEE2XCxlc@iuwxwGU!8??YL`;Bhh)ijfmYb2P+-N85~>?3TZK
z|NiGEgB3*Eyb4Am+o3>l>1_qWy70rBAJrom86zt~2R*uZQ%PNY9Z_sqBB8i#zo%j5
z)3R%YswtRTpA#JRh6eP8Y6YPIW|FTUe{$x|V|Wc@sBF<NaEEFnwU+4ULOtsa;6!J^
zNo?j65a7W=q!mhxXrt1wzgzg~VN0F9+-znex=(8kZR}@@X367Zn1>&=AW-&t4uoVm
z-N81vonc@qjOv*|CfLu(b;%usAh$!#%Pn2*=Laq*_&}~+(KRD(CnhX@uFun;xbhSl
zGE`JlLeDlw-hoEMg90-9*o{!01Mg#1xOLLVLA_mPG2)6Avk+4_Z%;>Y{(VOO=Ou2a
z3Q@kTTk9wjGgCptAlvzRSYXfi45t5OGiXZek;}H+fv-RuVG~U5k^`)Eg}lf;-((gk
zb6$L|IPU%Wbr{Ox`VkEsETR^Tq_pwlOK{{<Hwa~4n~}&i29zNeIVZbklrgyz(+S%O
zp)T{smpd#2mV^<IfmwRKLUY_B&U=2CjB!^&k!KskoIexb1?uK`r3d3KW9-Zyr*f<&
z0>zJuA49lf6Gs+V6H!LuE~`X7O~iGwQ*(B7{C_X2-+a&R-KA7^Y;766c=fek8n7mB
z3bcdJTn^LEUebZ%uS^dK$e2kStz-~vl<wdi6<W>gn|yTWWEI?$m;e@VMvT;8ib5sP
zR%L_(ToF=ggEm<hc(9fOMS@$f`j~gQAhS+8K}ds>lTm633H|5KiUNm)A}V(WZESbt
zwy2rV<zzYCWjTTfs-erpO@?A{*a|btb^p*!?dD{thjAwYp%j{wGV(iDC->dEp2O!f
zYu1d0k%Y732zO8|9;|c+IeZoK^FNa(V)E4+xIV-2n>LAgNu-9a07|}m`6763uHaWd
z=foN!`!6h9NseP{#2W19sDpHvGJT}4ni@CfCie5C>C(SNH&4?-)(yVq^mQVo#U`D0
zOglXZoG~?F8IS=5B4;*i%X{))@JH@)nh$9b8I)t$7R;wmj=Nb&1&!O`M3aP)7=DXV
zXZWbcExPD!xi%M`;=rLphvqb)g@dobfW`$#kG)Qu_>62V&3V?k=tyOkyu5dB8BIr3
zeZAfU0jd~h8pZgt36Q%d3VrKxMd<vjWaQ<`upiHy`TFtsAVB#yJ;_}jgGac^QOP44
zdz{=@y7909`|ZtAv>YCt9F;(7NQ-YFs}m&BJy>5uAruHME)|DM%^M+8$&@B|G!N!i
zfB#M>)3n@6QQ&0=<+{mXQ-HBMF=H0IO}xBgHMA?rP;`F;d00~&;I4d2ZVG^kF{_0}
zfqZpuB7f{UH4$zSj!e(~i@#>S9zFb7gzEC#{CqJh2RU2PKz*h}QcWYm#u(RqzFxxQ
zHv^fs@7@jJ${mbp(-bi@)3rn6?MoN&Sz-(_4LRheBnFHLMICKD7hTp_?jyuVk)v~w
zMNI&X%<<z+yd;V{puR-K^%yOGw7}Z>WXT<_AC-S_%5~&B^jGkjojP^m&L4$SL0O$T
zVEycHvc!S*i(p^io(2|ArWN%qhMxmVMPjI`>PNb&C}a_ZIk1|@p@0kH^JkIj`$X5n
z9ql933J2{n*hTe2xxOlKW7PvX!>X6x#S;Dk9%Ikf*8Z^W-n~0EH!CMW$V?ENXlTqR
zWL!n;;iOyExAQiQp;~|yDLOfz#Cwi1?3!>hI5`_@YPz6=0*?!bW=lQ@-Bq0OxJN4i
zi#3;XoE;BqvyOYRI(dvQho8n-Zg=GpI0MQN73YZd`%l|PcPaWQh?%sQmvrk^PrzJX
zhxP+z`S;roVucm(Mf#xR4(%i#qerp!-e;(fPkgMIl~95-&gAeLZbA-f!akBL$D3oo
zicyhfteK<b3PQoVb=~05wVylsSA6*5#kD7u<i&vj0qz!G`V3;cmT2=uTb}&i@%;4a
zsqAb~^kr!2LKEw8Ptc>Ul>OYdMp#<Twoib`xNUite*<CNC>RQuAi6ynra877#Bwsn
z2!J|rqX<!r`clT&$jwkwmBzBqEk6Hgae^ib2&n)r5&yvBaA3FA#n%_;Nwv8rq*^;K
zk6t-=C?XYo`z~Yi(YU+@V#d5K%m4z$1f*2o3*Wr?lB^3laJY=vwE)@&<t7dir4Awt
zkesh&Wsdnh`vg##=My>-`g8wKffkk#L=vnY+QoI84pa>|@YVT#)`m)xrpJGOC+4r=
zvoXUA-Oyor4lx1+f?tn9<M_Dg{o;QHA!PW4`sx3})tSKMn6~}@o|(tU-cYh9#z;x_
zHEM2K%94~wi=DEhNc-|om<(b{WXYB`$x_<Oo=PGml(Mv^MM@&||DI)@nfHHv-p~6C
z>b|e*yw3Aje#h_l9ke*)C%HHwMoIka!e>WDjvqR7C_}PIjo|!RKx)ctUMPMVh)aW-
zGMZyZ($Prq@%62r!0|E9v~+~JwYE@B9W%}FCyCBpTCi14{h(e(GSv?NQWpNUJgQ%M
z(1Zj=mq}Vi;<!QSF8jD2>RqtefMpv5dmm>slGZE?L){s$QOHhoi}Cq^;*}J1ZJyYi
z(OX`An3XvknHSWRXTOuEdp4>{l%qwh==*hM8MnxdV(D)HdO6erke(jB>NW*ZI4*LK
zgT>{p|1ajF`wY%7Fp?>S5wc1RF)OaV45hx@KwSkI)K_Y>e|B4Ky!}7X-V|fM$-TtH
zNn*P}(6L0zeafGGmrxq)KuN9k=XZap(ddz2{ezanzrOBfE8WB`m|<#SFg<ihl;4To
zFr-K0<Kw|)=o66GzdL^7gsz}D_%48>B96>#$~8XxL3tekv(|EJIB2|UIJS@zbu}Lg
zBS>8!e8;HvTRbzs0jon~109yaVe#*zWVlpP5Y~Bq>_$r7LxrP9>);}!qQ{F|PaG+X
zfnV|;Dwtlwh7Mgrq|4m^fs$H=5b#j66@y$@Nogr<^0e6E5vqZDF{NJ-JDbr|)C<nY
zuJlh8Il6YU0`=MT;2`Cv><XIb@BjcCstEK~)K)-bp9=(V@nYdH5l8&#r`@<^c2vUW
z34WI$;395v7C#)fJFds|pWy3@ZcVDFRBK6|jcPMp#A7PIql`u7bLY+-tYGmiFx*Xd
z$+zbGiPq&3QPe9wz*aIqct-EVugbp*#WD2Ql5TO%bZP!I7ph@<e>6MVJaJeul89-Y
zh#EBV2xOB#zuixiR@z^HJLE3?2MoA0?HB^>#l=yyqQ1IC9`u65l~_>3q}BF#BW|yY
z%M%`h^dB%y^vF0~n@?dJ<bdo0$`YR_`i*yO*aAU_GuT^-MM<6$9!(VtJS`2t%sjaT
za1zleGExswfHa)SFuzPCvTWo#h71wH@$i+A3u<M}>D|wY6)T|?fN7|vo(7wC?!f_v
zJ9g{ZRZJWq2Lzw5tKl<r%xN~b@Rlm-cQ(ri91?^JiB4Z$`RP@(W{L3$vgbfDF)h^i
zCyf~sOWgpz2Fr}I4Vt$6{1YKAi$Rc+)>psEW8oQ+&DUak7iw$69ZJDLQdRGgq(hY(
z?#_ykM-LtVNM!T9G_@_gY;yeAF#y(u<$CmP;GBttFgTH5kk0$5`%&pPlv%Z9%XCoQ
zBT2m?9&`Jow;r;rV_NQ+u9BOT%4%vt<%qwaq)XIaNZcn-f0O_pwc)9)Da7xP46oAF
z3`F7Z7}T584N3|K-_o{iVM5J=av{E#NgckAcJ;i@Q<F)mp88RF73H5_q?7;?=k)i0
zrYTNDJwg)uvmMb-O~JAtfv@`xqxS&|1;m7xpYf`R&Mf`PD)D-E?YeLaa*rq~0@zSF
zMQAA9&g(8@LH=Clho5JsXM^J_;J<(Q<toboi$`e|X%<s0L^C!vyc&p6<j?!tWeH}>
z{6e7(h~!9ow+Lz%Ck+x{Mu}H>W)|&62?-iXSE|Rj{mliKMT7)yz{M7&bW7mX<y9hz
zuDtKRfKG^^Hf|IGO*D}e3n3`r6EV5Ru@4!Y-cl<6{K=m8L()l523=fBNi=AeJ{ovy
z_m&^dn2gn%3SC}x`0x#+5K<Wg;jp?7!lTF1ib^hBesH8&!ZMjvTer@zt2TM{fvkz+
z+)3$EO&cHPZ9*Jlr>S>c5M;eNdpgH~=R9PEUwrBKE7Vh>Q|Uf}c06BPjKcDXYuB&W
z@x-KDo5#8T1<%N?OX1B^ak_ArU64ut7S@ffrcaHHLN!YSsaUy1tUvv)TL^2YR)eYk
z3K6t_f3jCLi8^z_Qd0IlTLGr94?ua|JwPjAa%Ug5Q~ay&8V01Ju!m@P+#rtXtV9@x
zRKSX|0k5_`p#W2!sxGFgqm`3%oKxxR#b+vvb5H1B4SHSlJ2`$xR3k24jAl(?i+{s&
zD$RmzW*k1ML|1tur}b0|gRa9a+@d77Bg>jSx@$Pt2h0}qPUdC#f$u{wJ_lwbh~ALw
zT`rFbpiasRzw5&DLWW_G8fviWH8;XGQR^cY=5eP}XXF=%;*i$M$2MTNI{f@|Tucn-
z*N%u_m>tu0tVV(+&_0JFfs`0Q6CadJ!u71P_!YWu;xYTYRdkC}*^oYnn~@%!{0upl
zOb$(!>dH!|H@7=jTp{BFp%RsP76`_5s6c7FGYN@D%JWBk!LA*~Oac{XCn2~St@3dO
zV*6|&H`W)TqHiDit(eWUiN&=WiNyooQX#(ARZpPJ_Q<MN<I3)EphXWBHACcOgjf)m
zA8@sT6lP8^i+|6=Tyz!+d9kEhSo(6;<Np4}wRZ{X>7$=Hb0#xNcfMa%etR8T3!i3V
zv}5Pa8xavToO|2S&Fo?<ASX}=aoeWAZweqj)gX=GUb2#ICsRDZ*=1y8Fe`p&#tW<>
zo0a*T=C6-Hh4;qKz_LJZ6)2bhl!7{pv&ArmS{fHcvN7o}VGN7F*xP8+>MW)EqzqB<
z-u$AD(j4s7^xag%$)Tv2S=-vWsLe?20SA$hN7Jaf&`?ae1KIaMKy63&u^`q?(AU}y
z9`D1Po(T7>`vvUPU!ziqkP<Nt_l~RA=v9`LEvpTN$fgt6Q`$_3d#~#@9BxRkaa3q^
z%zyv;JG&7{7#*D>pKhJfaIjgp@L*tIF)ReH*qFEIQVnS(7xo)ZwA-RR5L@@`x>QT+
zCf1x_Kp0IldMMK-0LVc5Jlt=?Fhuh8E4T30X_FFqXXF4RH<M}489aC;jDQY);A@}p
zeo2hmv#5E4kMrES*Nti&5b)tIq2z?R?}=j4x&hDOzaVAs1&pj|x;~XS8SnO?p#fJG
z8fm&UY0)dzQF3!Xv&WCZ65_AHDvO@2Xoo-12V!G1ls|1h;bVz!ExzUnmykD@E-^?T
zL#Ce<U7CCLY<8EC6nD4!Ch?L}P#7-y3YAODIUT(M&xxw=p?>}P5qUF+bMS}}A;*3w
zGBwSk%Ej_N3m5!);#8nw5CMGfOqnsvS>kWxw_D%Cr?3o;`U44F<&lUPS@LS(ym^8K
zDQev4Cp&B-k%^1X63Hy-lyo1Y6kyAF6|O`F4i0$Ea+=#f8Ub%EF<7oTjT6~SwC5p9
zzCc#x&E#X3IN95fp4dAuPIMP7ijIs#Hz78%WgLA=TT!;1JnjdHl?D!<91uYW5ICkw
zmLm~}FA9|%^6%&ZJPkaGyV)?Qjj@%fd;Uo?rvZsfUeJ?o#~d*q@Bk@OA_F1+XGe+T
zbUHy7zGS$^X9^0$Xg&vjlC-8!C{&i`5E*d%wSFONRW@;SjH|z1{#Ns+sY8d(RDu80
z<<#H<=}+r9<*C?7&bX2X)=0TNA{4&>TBB=hEJh`I$dc;#k6tAmb3W+@9(X!s)K|||
zD0z@=Vm`ZeZP{S{5x`=e3{V-mqbkt_ot23AVH5zz<dqf|qYthBQghieWG_SPE5oCS
zug3RVfS<eYONi;Ru$%(AHb|Dp1L%HUX`NM)m)HkMnpvO$$PCjvrpRXK-TMahBfN4a
zA!km9JQraEAt{}p-Xt9rEx)&=7@mT_3!grc1c>xEbvL|Fw&K7EmIg$VqDfI=HlKIZ
zAI1zsaG)E0J~cV=NA%k7-ybw}hqeqFdgnnBm1%)GBOxx80~}eQ;??TxL1Gi)9k2QE
z@KGX0Skq088>to2kv}|yArz_5UjmVE^!KM*;_~Bx$UcS$SOfq@#~fmjZ*<iMp2=vN
zUgK9=Iti6#5lLapPg@ydjVWFFoIE))<H@=;Ylg~G`K1g%bP8OQwJ+aGZTgHgaE914
zDhmx@roNr;^orKvs@M{{vd1EV%(T_f(sHj~6!R8`Qn)=slWA_4i|wbzV$@2%HU8Qd
z`Z>nvUP_`$l75U)W?;K8#<KP?L%En2J`H5BlM;~`fjw7ccE~%BG-UAHX2HRdNY=I!
z(AbXLZhC6!;S?GW#FXVRYwjZxGW(Vw`mCcQ%%7P#ZxQtp5@y|{*^+f+XXDT?mR${7
zM`r^~YP(_kdH(fvWZ<ahZ%0p><kvZN`=kJ1e+%PVRh2ZVe5^WW$!HQhKbBvR2ZN0U
z;6un@Y;0`&i6!vzt4l^E(OjW(qP85N4M#A(E~ngx{P??){%EeC&8qxivoHg^jnkbV
zT0_y1${>HZYp$V+AxECXAi^Z}NR9W_pi2hnLv22Y-n&_(TMZkOt%#ReO+FUSDSbPQ
zcla?W?W4~8`OXD?wI4n>6d1iRlUHnCQKQa{6&;8J8OOt5m>FL<hm0$$XF5#ag$vqy
zsdfp`G$LC<Dx|_*<8elMwq>?yNumiH_eU@y*iipBb)a*!!#k=2J>R^0cYWopT|(G~
z<OK?jqv%ed(UOp*7Yt@OX?F19H8^Top1!Xv&|c`Wt8d{NLC*Ga@IoxXfNWJ^s+cJm
z_jCs?v4pCosNbtV(WR1#z;S%=^d0MH1<E>U6j@ot57Jdo*X<%~feD(JDf1pzW#7tw
z+m}qV_GP$s{Lh_F&8cvvRx@jr-}$`$YOl;3W{pDL?DVuTq)n)VU#GOsrXqk-!{jsy
zKFx(Hs|M$h*e$&4FPv)H9qB<Ts~!l-S5sU}Xs(R6Dn2J3d%dOQm%`Q-J04EDkHk(9
z2HWxEng4M&qGX}%WYa|n0V@h;KBDFHXAvuALmZ@v$tQ3bkpLh6$Q~XlPaHPFemv@E
zUl!Y+jSqbJ;)Ss7fp3$3BzpDxRGDL#eLq?%<K*-eYv8=Q!=x{2=(YF$GW@~U?1~v%
z7x_ibz6vFy%Z6o?&IFxm+*9x!4UJC9s2s<ZRBjz-B9hI{ojN%bTtBVL77S>Vo^CQ<
z^Lu{S+js37Mdyv#^a#QsOe}I@+Wn)`Irs(1Zf-yWSg)jWn))JWPM8DS6p14e;U(Lq
z?hJCKS%LeRJ5O&;o!5*&f=8d?s;WfTw8UV*0j&(l(<q|*9z9LiY@<B3?c9kO3(m5Z
zNW9K|?X7i~QlXtNH+MN1F#c*EHsQbYt%Y>f+~T0*)Te1loG6W4XSTw%r!#3c*s^is
zu@fhpFyPYR+6%IPTU_7x#q6vyzLn_O#SnI)f~#+?_6UvRuSh~WynKIpKlQ&6kuR(x
zybd`TI`i17o=%4IX(uU!5Du}4tf@MNMw<Qm_cQN}#Gq@prgkUyff#D9hX>@>rH#M$
z1sD<FH@&X{qiTZ$Ljj3AJv@+*?1=qgyCCOmy=@zvf$lacN=mCJf{1S4-AvYU-A_E&
z*X`%mtyk@8ewb3&+L~f+RBB+baPh3-D?|2fKK6Wm_v>DIC3@XMPX4z2bN0lcd6`Ss
zUmUHPB0sUXQt#@sRSQ%99KHAC5u2kPC#Ra_)*NbVME+sbQk9x*$=@21%xZGK+D><D
zyk8u5I`?C@=AqPK2_}}xFe<{|%b<|F^VQ9puYnwJR4$GYj#ucP%{kF4^FnwyJif1-
zM<!(isQ6a=;rd@hZHa&6rBvpcJOfsfbMRK=k2m#HNktpQ8-|DgV=zXTjuD!dgMx@a
zi#Q{2{aUJoIUekxtfJxti+kTbZ8$2L)iBm8E2p8d2`2u)7rK1Hd;yU#S{?1I-+%w_
z-n}U#$M#)*xtVUHuRoT<RzB^&_+h5h`Anm4XQ4sikDupqUTwE;&x7s@_5f#}-|E#1
zm378Ky@9DYJ^Sg?{v1Wl0s4GbIpcih(STTJ)}pZUft<+f<)PX=_}9nOFhqMS?PR2;
zb@8H#0H;OC<4bPikBH23g&i3Ui<wT~tWOv=%k}F&MeGHO+)M}}m4S}Q5;T~XiYe@-
zLk9He^PrgdRL}*CDQ<8X8~amZJhaKul2*Gs8lT7!XmPzyJxwC9JcMHpCusq(z#}g0
zL2Q1Y&zRNtX^OqxW5B4q??E}m3_-9H<r&(r_wLz~c1q@E{|$IlFe3%&vgOO?B|ao!
z8;cT`MkdiW)1gt+D@SyK@PYJVo?ZSZ^ik%|7v00ufz$k~gg(V@zg>)pc~0JeuO#}E
zlgi1-;S}jH?W_bc7!vAWA<!3^(eT$m0RG30!5r?SWS}AjgYMq7%R|;GvEdnc_S*T!
z{QQWO2U)~pJ%;QR`S@PO{VrYWYGD!bWdxA<*C8W*kQi<UI3)1K%6NGEr#xP<XSZ$#
z2yVF!F&v%{Yb<O*Fa{?AZQk2-K&@fJ0-JL`apH+7i7a7Wt`lM9S_497a45)k7{WcC
zo(v>&z<1m1{jv6EmNbK6o`)>iG9=QAb(EwU)Z9x+n^U2*vupu$qTn+@nuSLA+_}TS
z2sJg$Wmc_Ov&7Yvz@0=62C*;l5rj@88ysJ%r+CB8N{}sxnKnDP9+{*MG6&l5x}-$#
zm^nYB4OtH#j)XGA5=r+FOJV=EFBv4!>NbLL!n7B9dA$T$$3Qfh!nh`Of$U5dnaw>R
z1fiElL!vD)G>L9J1%5|8AupUG<e<N-o&xrJXUgQsBTeJ7nUN&(rmAYo+O@x0o$o8L
zLS<nx!MlYMSd^%EPwF8#GZCGxo5>sT$P_$!qX;N3FQ&G^W1063_rfh4hZWN6Be2ps
zx^xK#s_56i5%!C`aRZ<vVC*`tJ$vr!E@-`9iFhIqCjIh%A>f8t2GgVEwOcnKYy&}P
z61Z`-J0Sj3(uV28Tl60KD2i6cHpI0LQ!D$&?h@`Jc#Dp%E(i6OL4#-sPFD5RX|QMi
zLH;T$E?&2K^^i3L9(sB6kBxpqZcQKu>k^|R0K}Xyzx=b3gc4XV<D5TlD{pZXGm?-+
z$fvnI>PJ);TTFTO@39Py6VsMRY7A*aFdnnBolBZ2U4nU4vi;%L&z?=k%X)&?%###&
zV>acEQkuoun~z*UT?QGKoSO2{)LBIeE%RYfP-Fu5EqlkPdC6Y#2KMJS%!erB{+HY`
z>)A6`#}ayAX?n?ppwaMvQUgXQXM#R**jY7Uzz*`xpGvo5%6iL5j{$%edGlffuqJah
zD9Gq=Q^ltFGEZ=|3SONg!I2D()J@z1Mh06JnktHP5BhXs1+}&eoe*zIw+`93qu$)P
z8z{z59s`V6tSmS7KHDhj8C)`mq*nmeU@*DS69q3$(WU;dSic*zp0STxK7U}S9(e?f
zVAEoI{UEXIg8eX%Vr~7$Tj<|PrGVCItP~m;ILz==(v{qI>6a));L~S!7@oYWT%VPu
zSt3BQv^;)I0+s(_MazvF4L&qBc)&j}*eUQWa6hlih%Xa<me`M>x=J|PpZPhQ+l{Wo
z2of!33vVW;f;}awfR1zLQR@_qMlfKYX!jMN<;z89^*r|OB}cn=@1Ee(XJl*vj0H!q
zDgCjw-xqupazBH=W!{6zhbM9_f;;<N{xu4jz8VyYsTNU~fZR|-<_SpEJ2frMm{5<P
zgDrA-P&T4P*47AcmZM>*h=`(lXI^Fjpe_IqKcuUp15bgF-%oADr-yl(Ki=#D%zTP~
z8QY8qwyc<5kI8tNb?y<OSgo}YqWQzUVhnyxv`qs~R1fBFB$mI}Ue6;#hu$BO0(BS$
z-~@^u0IcbKSdfHsY*xWDW-n436vL(NV({HyTzeI!_L8)u0#VOs`TUM#abAya-@fr;
zJ9<i$tW?+&cN!mv<7IG&+O%F<r<9f&HjUoq{QLyADm7*O@^Ib)#YUEboNe2-(P9GH
zYftvRkYHylMf4jwiw-dbWY#Q??BJdfGk2XpwD}{Wqy2QOY;A4*sKhhJNeAZOqVxao
zM}jBva_|v{aPwlg;a6~TG$xgan29=4+n#MbGczE}zOJrzMTmi{=}S`+>McUng{rB|
z+@ET_rl8c1pg3Xvg}qqzLZ~ie0BYj#!e`e2!?s^~-5>@k_UZHd((-XML4nwW)GtMe
z0(H_6Bg$z$L7spya1wV*I@p9r48YL59!vD~r}Fg>C47B{S&f!Nc##)yd@)6fRT2%A
z<@iDNmoiJ@UivSA!-N=$hWIOC+hNkQar}(>S>ds_ZL0;o64PQ%o{TY6#k5Ufc?CBe
z<_C;)4_Tc+8_WrS4MMuwZ6?KM+F<vW+CmoeYYjjO|McR@s@?T=o-{(BsLEzTrl^><
z{@|R*B2gA?zs%+V2Z*jqYIaz#z(LvUc3azqhK8!AK|SQfTU=Lxi6#@J@Q^~lH<7q6
zGI9sIQY2+h&UwO5xqf{+XK#nCZSlcQTI(@>BJoGinc{tF>f%G>u(kB;38_=J#S)3i
zu7C6g^*Zs>P+~Z#FdI<HoDL!)m<mMmNpSqztd7;#>C+Qo^I*CWdw)-rH?9poqCx-;
zkMqNo5kE4408|gU6rJ;2C10gCD;EUn3xW`lfGC%6TYNOc8$-mcTn{2NLl#LJ%X*xh
z(L&l7|229+Pl*VX4O9hCOSLF__xO0qJW&fU1vsl-$ZaVoL<7<>jq2^&)k?D#FMfh8
z6-q32T9T+;h)KdlKsSf@ikFv9LK4yEA3@WbALV-YzK`K~_5KDo4cznb)2FS>3;Xi}
zFXr?-8nub%GBSjU2$?(S|6~aE1QqzW;)6eHP4sWOcuZ{H$HvA<6DIf)#=bWE*We8M
z8@M+iyv&b)h#K}l7}E*8>d&76Q)b?${aGSUm+N?n?DTYYR)Pve?o4&7ro}J2x5CXz
z9ihUKEJkHeT0tq0A9kkMm<Xa0<43nC#*ft*Zl}-E{YzA`wsnNE@@Jek$S1W&bJqmo
zYEHo^kTkY!aT++3p1h-@BlTFqhU@viOCGFY-=mSI-{U>#FQ)?VoSw(V0w?sAb1(wL
z&eeayjorN`Us$8IODi1h!1jhLAzxBj8Z;^q%>_YTAln148z?KQCB}^Ld)dH(q;+WQ
zF!kL6-di_X<LLHsVKg(|hstf2u3bR}vASYJTDDF7|GFezFR<hN@Rsn!6@(7ODFe|h
zquqG=baAG{(?}#a50D9hE%)kG;-yRPX^+F|W4JW8m;4z?<Rh;3t`(#gwh^K+mW6<`
zIHRj1*faQ_uj<CsA(7P5{mh!tsui3<l0zl!w}mI46E6zag@4N+=D^l+bw#){Esbb^
zG`SE?5mB-1Th1m*Ok6~%m>!W7GhmfUSboS4lBf>EGvBWSYkGDP02iqakYNRPoG^Yo
zf*;kSTHjMCVPZiIe**+@6IUw^i`Pc|irEYFz!Sef%I0^uFcNumr4Vz+#0btMQmLo<
zNd^!9XWQE^k&~APYJ?6&(<cB-gBbJ0Lb^CRlN7bZ-x5ik7@Q~Ye?KG2o6OcUG07+7
zVIb6yDsr4-nr=cE0<j=MCN$K!3pa>54&#23to_%Bsfc94YCsJ@Fr0iyNBC_Rf~v|&
z)ZH%z-kaO@+G>-T^gz1F1@MPukf%0EZ3+bjmqTNKQrgPjw{PA&!wG^Z1`*7XtWK<>
zdJn6>zqexTOIED_kc+;__8kxSBa9f(yJ8O!8{GUz_W>7*OEkQVfSt#u0qO?_Ys-9~
z&cvzY0_w4=e3rp}&&g>Bk1jYeZLH+X{eOl_+}xzhVo{IhNTZo<(4(TfJT@lg^Or9S
zrDx#ngYU0v3SO=eBi_(}y!&FxERf((Dh5;bkR|M8-6*QMtz0Q6FBmB5e3XTQ!o$_<
zEG1e8{&7<7xheb(0EwX7h$^WfGuCQZvikb*SR7UINTQ2Duq@tz^&v9>@Ql&Hu-!{Z
zp)95AL{A#Jf?SMeZbhzV^0aA?z?h^HSGWFWiGljR_C_(<)S^X~$0Kfs5m;f3a4C)$
z3|aKt-v?raCS{!U_%VeNF6ipi*pH-bYkdD==(ptegw6ybTo@88H*5t(+#}AdXkj-=
z@XuuU;sdy9J5OT^;S*s6l|sT{bBrG^hzm?Vgy3yzYTACzZuY0Xkp@w<uuv2*xFud1
zqyEVBP@2!mqD@yUBq$6C7ypD4;<)K4%h?3|EJ+yL{%i>h1+pPEAhr^HD*4N~0e7Qi
z>}=}kL}FxaB9R9-1zmWWl9IyY<?oMrU$i-k{$)FLRn=(}&*?|!Y%@Y-xHt%0GMzfn
zsk4|?6C?^|ARoXb4uXpA%xa8mH@2@_=h=8M1~B|N2B?_V5TU0GSY!HP4L~s8PkkB%
z-muRR)VuoagTQ-|?t31IiMSrDDB2W0>c5Cp)B7D5nbvh;%evZHV3(t2M!*j=*b;65
z(7+gYwRZw+p7t35OWM2YuRU!uRoE%ve%as@1z|d!J^LZK!5EW-m4f}tXA&th4@TKd
zx0ggq4aH{5Gzg7yt(qkAgaoL`IyyPk&}>yclYlw!INDl^YUstd5Q)HXNX0F(8=c))
zXver6Ye*%s3P3}RY8LG^E+!>|Hxny6gdwKihD7ya{NL=edfaVm<wHIh0A`8I7}8cA
zTW5MY(M3gRsU01SyxioKC?;7>3e=B<napD7nlHh%)qeaa(pFJyKPaq7LO&wQ-U9~Y
z3zXY5jx`M~oO>-Q%9NxA>jMD=9z;}ROyxkajM-D$S+KATs8D_;&%kNqeA|i)AI()Y
zFu;Iv`52~)!oW&D(OXg*5u9`{ov8(a3c;I!OGN|VCNK$hWKNVlz7MR+%rxw*kWwD*
zI|JpbXZ72WEv)69>31SQ3@<PJVuY;?gX%+Wh@Db(HK0S5w9-?S;u{z|I<ZR_MC5BJ
z<j0Q6L0hlD%)%8dU`@WzG1XR<lJD#(J7mO&KYrsyW7Xsp6jJWpqc#pG<NE2vh6*QN
z?jiT-({Y5%I7@OFiriNdP`2fge{yBjOae%%s|*Lj1&~1t&RM*V&N|q-d|mvG^406s
z6_=JmO))Yt8ELgra&z2bm;L>6k(UTLi1;M|A`0EcamCAF5kd_M`|!t6^!yKmy)ir-
z5TKqDE?%h0+mJYd3z0q&K4s=Rk=g-G3SL!a{w6pmLP_&8HFs3uI|NvhD`pkZxn;b3
zdCshk<`PK}SvqG2Fww`~U&VtXO(IM}j^q-iRbl)sLHTJBIvkL>urQF{*Q{PmaONpX
z%@!lTWV~dsI;OCb7TG4MwRs!+<Mj;<1ogNYYA-gRac~#FU4mQp+W~#hLxaQslsOy_
zXPZ<et$!bh-k=U<_70q4d=LAGe+Gb1_YhwI(KyFw;^@(`()anX<IsPo2z!&$6Z``;
z2w)|eCJb`@VcRB9^TtH%?bd%MBVHSrH=PQf9QIOw1qDINaGNT6^0S6ucEeteL%eRm
zOQggvNw=~2Pm#^^nDO~$W@ZfwDBXu6zIfpRnKMd55WH)Mpjn#s1vxDkl{^K=6gR`b
zSZanAyl9QVgI|+AvE%vCtgq+9R&dXCM-&hFdp=ckZwwk#{r>%>^XG?FF%EhahK?Qp
zI{ROjmG$Y_(}p=o4o`oSFfha$I?fANIG)0h31WMW0^_yHUq->iLST4yj?ta4b-Zn<
z43->{UWM^>uuyPx!d3#ZLUb>pShqIO&Z!LP>C>m|%^NZFhy<hg=^JpzrBJK0U#Li3
z0%X+G!c|hJgf8_qE?`z7Pq(5ux>(eQ2qnT#FTr-wui*b$IF_Dp50U#UE=H7n3Ds_#
zgYLVyxHy0~5*$DwDE(Q9_r$YHB8EW~K;MAIBf?$!{P=GWJ>7WR4YfCN(9iVaLHI&Q
zlORMldfpF`1ZRUn=^##X)|{yNBzY+ldS=U9g$sdmwOn4i&VSs7gVM8*tMWuYI>efw
zpj^mG#AVdMD8fxdLjgiP@#lloREICmsV~!%D}sMg1TN4jFvlZXE1Nx_b$K#~SQ$<A
zx_UE`eXsz-*<rY^<x`7Tdzzt}VcgRW$$lmVrbD2|z^V0jhmf4=H|N4eyKoD*VMH1a
z?r`;b{d^n;21ZsI6B}#z?wV9)%a$sL%_cG1Rzb~x&nhQ{eRl8V%P+)|)GQ}Xn&j5<
zM!;H9Sj`0Xtxr#4v_co9V<B=fSG4Rv-&ezBB_(&c&Yt91vTsSa3tbvbDRZNILQW`Z
zJv;7DqPa~=ArB~oj^@q{BGje2v<e*@P`K3>$+4wpWhlyb>V#+|6G+Oy_GsH6i3Dfd
zOu~bIgC1q{VNqY&-<%ev=LHRa`X9(@k{Ft&w6*sgIIsY=HY9OsSHB)0{QbFYoX@Z}
zy_wk@)`FAbg}eLRhpBPz9&=~K6cLI`U1-FE5Rm;nLPGyM4=HPGBdHIbC;b>oG+N`A
zdoaeaCAuyiTWQ?8zP9!l(jsKugk<AsE45tyaTslVw8;Fm@BxhKDn`DRl)x64V^M=k
zm;qi2@>91L1%@7d$6jcz41%n&g{mtF4G^cd<*Kk@c~tIc%)7&W(Cz^`25xbfaQMiP
zEFw8e2QP)|z?T;1+3*wU<%%;`-OJp-w)c>wt_p`7FB@@qtu#O0E&}lz-gDL+Rt~JW
z0dO-JvU=Q&5wP`eDaAEYk&Q%NnoD$ek>B7PYyMcr;^9Ak+d?+h4agGXVY+$Xpg~)y
zfo4o9%zoUXgTy`uDm<0AN5{s@42=g<q5p`-{q`|FTX(@WpyCQde;899(y1EE%P8D<
zSkygXq0MxGpMay=;f3O4*Y#i_sHMT<DDSS@_F^U-Cp~8$FcpuG61<$K4C@185O_Hn
zfTt~wTFm(%qbI&&Q$}66;yrDGB%!6urHe!GrXRv8M_F*r3knLP`@n6C(s!vB@`{q0
z>(VjdLM~mpk5qtakTvveun5L6k))9$>IWG8VG!=r+Tucs8`RR`;$ndmLG2EmX-cyJ
zBSLJ~oq!$%bPD1slsS2SF32E}{R5o9<5JfY6JJ7GjTs<0-oB;T!Eg$0D#uqx<|<Va
zrC9>n0dzf(-dTw>z_t0qT$-Yh=z1h@{xQ%;9zL8;@wZ*Du%T&hGL$O)KbnYeTP+?@
z>BtURhZ;#mshV4yI8rA!fb8oNz--*Ok^jGH)f;d`*n%dmQh-kI0G#i6J!PR*K)(Y3
z7q<wMV<vNz{WCmnpe{vnfN!Ry4J>c`$`%RGbelnDrm5+M2Wk^KD{cJ@M{Q}KalwoO
zZ9#_pcFOk{LN*WZ1zTBH-H~{mJxaHu=#d>XXklBHFL~XG_s6Uj_9dYevO}NR*-MdO
z9Bw*%h@AksNO;<F{o<Luf!469KNH3u`twgY>Bdc)plBNAUZWE~`|)F;X-5^#&~#JM
ze0Bh$P|Mla0x0GD$tb};oIsFF47m_n9J(Btm3@vafQy4P><4>1huRYzE!-;?5if@-
zpTeTjT|8mnZNE_J=q)G%6wn9Z;_{8x#GInJD%uQos3o#AvwuOYX@tuChY#N$R}~|d
zWL8;OwchS~x|~ic(hd4}tat1XOhNc1)XQ*%SbH&b5u}1DwIu;X=JH#V1VcxnytuJp
z{gQOvHJd<J7m~C;#}~>KFdltxNld-8JygI*sN~j`6*6OBK?C;?(N&a{K|&RZ_WA>>
zh_H#g1D3@CjM4Hne&R#~4!!3Plkjvx0s@<)beB^~ayKmW-6SMLw?K#?9$<sP?CPR~
zu?F~V_nxL9wikYjA)eAtUlG!2E8$64-4T%~2Qxh_=9hl`UII!H1_K}y4eGul2Srh+
zfcj8-JZ%f=o*}9hlHg*JnwskBL4Er=U|7ks1Xjc9RV3o}$+W4*jb~OyT^%rqs*1{y
zF>16bfr7eE(*6B+p;1Z~%YFz2U6jCAL$Bs0vNk}PB+QgN3mr;NRTzH?#6LXF`ckNQ
zg!oU>>C>gSF;}E#H$rCvloRIb0LX@LkTOp=^x#$z%|h`Og{c;iNWspgI!TX!!SoXh
zeupv8beOVND_&H(4|;a0t!5bsrQlP~BDW8-D<;mO{<jTCn;q0kO1L<?UoKlld?212
z_`lvfzKS2I#V67$m2+Z&8leJO4WW^vtf0qKR6(|&0kUgXbZEcbjikE_x7J08Ly53L
zdW|Iny~tGvvxSG7>g%6NlFM;hNuSZus-SNZyicDtYgvVpQ2lC@PwbGUkb&N>;3Mm+
zawlT6ZSh=Ww^X8Ti=K)Y=D2Rzv~s212YHs5sgjFb@7}(B4lm>DCCJ49qzyBvHA5)X
z35T<4%kgiR3BHHZGqMx|N<&*e>k_k=haA#G?IO6kVbs-Y*My9hLD$QwopODRs}e55
zXHRY_=^s+PROShm3Fl#SqxyyhHlLOzIJgXcWk>1Hq@Rt3N^)#%EI+24JRdgCh5oyB
zNROs*ytuD<jn~`2fHT+dk1Pilne+d_e{2)MUk^}K_3{d(9lWEW^J@@}iVB_9k&@uv
z28HMD!*S9u{q+d|K8p6}HYYj;Y)bPPAv!!KZutTb4-Y^uaewakhD7wl^@H+)=90mw
zPiL@`{i;=GWpAgZmX`+#Nx?yvj#lIa6@G&r84|fTNhahP#THQ#Q<%}r8fEP#l6b0M
zR&<=gKij0mA|f`{VaJa8<WWNck5ug5v`cyxRL1$ye**O#n9r+pmkvWA@H6}q^wDT^
zYasDeD4G=XQYhekWe=_Rx(5!KyxZ=G0FIcC+hllhf-a%2`lq613!bTBF9+7`QQ+tK
zA~fiA;JB*O@WT{DKx68L!p!siA_H};@sA}RP^#6PenE9B6ysu5IZ|2Gy3)%D1Un$O
z4Ks-+%J(bEM+4=vjgBhD5;X;?$l(%NAd?<d{Nv!k%kPt2OpJP7R*ib;U`oYE*;mKn
z9imlOGON=qK|$Aesd(Ln4<BMt^v?c|9sCFwM@K48X!4eCcA?D!G(VfSOjAMnp=mS)
ze)$3pum8=pjY%poWPSvff~>4}Tl^ubsF+OeL&*6w0vt+~T*DXm)BiGD{FH)U+9x1p
zpCBbWNx~o04f!|vs;^j@$5QOVua8nup~hz$rJjTo)4e69mp6w#Bby59F>k>Fmy)%F
zw!?1(3|d?$qh+d5|L~#<_98bsd!%N#*XdE~mTpijoK-t4-l_3&<SJ2h*i-7QvXl@G
zyKK4Ig}P>`-P8oIL^j1;O_N_MJ_M;BDK+t`=vGY%pu9*WQC>>Zr8Bv|p?acWCB1w|
zsRg^naBsZXrMYie6RnKY%uFEUGCU2?4@NCJFuJ6q1O_^+BuzA<BO=sAg^okw{}}!L
z_Kci*4$v%+ai~=-dR>4~g2O~R+NMpL0Deg%`l+C-o7+FpYVkW<DI<MHdMJZ>J$%@V
z_!0rXs5xTHC`4Xrp5N_2XW!krwt<-!^pwSXUOW{rf(3ZJ;rvnO-QohT#pRy)VwRbC
zX)EPrz7|~2+e<y{@~&imzlY>RFO^Yvd@`IVvca4E=6)zNAm}OHzg+NT51iI~)1>f+
zV{?;2YO<M^a%OIBbn_kjj^R#EG#-7E_kYtgT&OvhK=t&##mk8b7F~Kw)T<Ltx?X#?
zGg*}HfialTy6`CT*VBaVRIzGyfO&Y!eEw-s^I#~bzQ$)U6pJp^{+PU^-3F;8Tn48g
zJ%IJY`=V09>LTwwdBY=2$f>kZUp=rUxVHeN4Ld%k?gUaJjHXw*Fg6o{f`gS2KBIz!
z+r!6HSmXKOz~Q%nZ-aIw<+P&&YUP!cK<Hd_6TKzq!;Xm}GQo8L**HWP!Wj$#D(wPJ
zr4d0SIDW%HCW#H0_FlZ*%Z*wPV7S>JEF0aGcx7<(J$v`!?41e5iDWA}$&b``ZV|o3
zV$ulMG*zZx%eO&G5rx|v*gciTp@OcK6*{Lx<vfvLmN4j-$t?a*(wEFT$2a^fF^l1?
zuO<S;B6(fZ6)85YvwFCEa@u~{MuK_NTPn`Zo@W3;PAwj#=4|ND9m_)ATGcl68Z^l4
zo;+iyLu2ScbXsSn)e0uJSEXez`~X8udD3M=le1nq=cF=7PL@uZ+-k&o<R99Ng|U;V
zXdIw%mvsRL6KpAgJY6=;BYaX=k<1z~1WG`Gx^mPHaessaALexBO<0DrONpNe5=!`;
zzY97%rx*<pd#w$tI&=0cs-|4Ba&kKerpUl}BM4HJA54M2){Zo@C3&6Oc|qH^Z{okA
zQV9EmB0Ssty6ZPb8dfdM6{(*jt?kiQsFYf6tf{F{|E4->ar9W1^)sCs9+tYLUgZ6;
zse4LCQjLlGF;`mQHyD?`s7A~%FbLIe@%4(cjCIcK)*xmlSpK?kK~{FQkL8Mh&)VmY
zdh64=rGHsMkoH&SZ2=C4gHs%)biqY|Ie(?>3f>xcG@2M49SA43KMBn`zc2j5G}{U$
z%??RCjYO6ZBtTPAIgzYMOU)-BfCjNAL^fm{@DGCvgT_vp)I&yQG7v6!4Ge)1;wJ$!
z2XWW|0S@fnA5Yc^We(IoZgmj+3nDr&TEe!gf5+R@)^h3+K*OmyOZVYmNHxcx>t}ql
zgCthZrAyyF{rWv(bdJnnU*85o<Iog5aA00O<(ug)LeV<%3Bh$~gyy<5Ii*=-a%8Sy
zs@u0bJv*~wNP~rqP2E$coZZD%zd~L@=nF|TZok(@3MI`Cy-GtL=j8ZKBs8yGv>oqy
zA@rD=<q5ook<wjKNz=qPVVBRG(F)yCg?P0|U;49!5Qmr|>7U&tHi6b8?Zo5eueZLl
zG;Hn0xRc=&88E19KK=AOd@@-ru5<uu3cFOP?P5S6=bWCho$)!4j|U7m>F+O;Ao@KN
zQoaUeyajlnbZ?Wb(FD%&2U=6wfh$OyNb1DC^Dpb!Mm^WEWv`(yLx%D&Jsk|ooW8ZD
z9_xhuj#Nr-lLY{9aj|@_ULQ|(_V)VBtIfHmN$Lu$OZw&Z--V+jdb+Hy1I|4O?z?m!
z(LIzr?cGGEgtvAcvSbf=PdmhbEGkGz?Zm)>ru}(&d63{3sYW1a;8bTUH8Qeex`cF}
zD2vl4*nF82;{qXDDnoe_z_uX<3U&Pu3s4yS;ZvdjRF^v47PwY_SXjZI?&VzA{|5Af
z-jwjyO5B=}G8ut1?#E3Jh=l`dT!qA3$?0NqF^Nc2#b%ZtQC0`Ff9dTwJAEB7rdR8c
z(Eqj?u5;Th3fh|YIB21=y(M}|>~&Eep{uCg@TAwITXY&q)PxL`-dE^EDx*hV;qbE_
ztYk$^BryVflOk>f_7ZiQtlZaaN8WzeM)01gQ^9cPZutTU2i;O@8yo%B!cW)<-dTI8
zqJo#eD&5;ZK8?bwYO7wLzUQ7j6ji?AadT?NNp9*=z$iK!9zGq{pfn32UQ^snG4@Et
znv9EcSVKQM|AP$z8Bm<G^`wE$G@9oK`dcc$=zq<FM)fSahh7&{e3Aj}1eh6(GbsWW
z@7<dqG8up0#-OE2(6?W|qndX!G8V{KQ%xspg3drP0u6B|VFI~umVQn!xB)I!x{ovc
z+puAry$Hu#KbmP*yhMawYr&<~+ZQx2X5<=wjoCxtl|;%@mWG`G0DSBzVLg3cl~q-0
zzSnV0&6}o7lSq7rO}It6x~;>B*E(uen1*@jf=iQa42VW`n}f8ZJ^T;};Q?Z=j*OcD
zm8aZEk`C-rSJJk@&j`j0gmw};Mv}F#e<>mN@7s4?JaaWj^9dbx5J&<kW5f}Y@zpWB
z<%@G^sejG6!E0eRjJFUCCX6JRpGYh#7$s5y*B%w|S#C&(!}g<qgbi$_O#xXtbg$v;
z47R-_eui!u)oY*OKtQOs9O)Fka?Kh9A$x-zbFZ{Y^E6xthK+$nFY_T4GCE}5MFYk%
zy_~YR(p@5S+Ht6fa=^br(xxq6=Nn4-2<_Pc&Pexho}sn(?cZNFV{V|iqb(HfD>rWR
z7NBQfKfmy})~0~gU!?Vwxr+)GnLwlA*{E`CqU^+cR*+&-(^r@dp?50t1oc63dQqP=
zvy$JuOSgT=1?dJS#P$Tn<z#8@e1B}b;7yYj6I7xdO?fKRP}O03TiT;nC7^X|24M^D
z#m9$n2;*7eh5~BlSXDddy>LD#_VJ+<b2FEVaX@rTx|UpK!-Dh?=!>a-InCoFS_>Er
zd+kY9mj5)n%d&6r59}MGLyJyKtfDx8r-l12Mq#jklO~By296TEkL9;|hx1ZE@+Qb9
zJ}aZ329&fR!=G-9Y2;$WE%f#CVSw(?eCD6k(-@PCpCtL<wuol=T_W=jR3deC5wWpf
zaQ7>N5NU2J<UU~vW}EzQpniV=3kMRvsceLbn19F3D~R^@^i#7V>40qSA+JV9gDTO{
zqf1G>+4yYQmzX%-SGpKIHPy+rmx(dFFNm-BOoRVZ@zK$_U`^Blf0H^#S=mOcVA90)
zFb<+gIj}#L!HnJszMP0gl!p}p38g6##>B;O;%JWLzw>cy<+D$}_<SRQd_hz+Z@l`_
zM{;`R;t$n@!CQ!}hvf`}0AWKTzD>#xMF420NWvk9uLRK|QU7b&L0KtyK2x@@@a8zU
zr9btNkaiLpiTR<lR$fq_P9#qx-h_M@Tl?gAA-hNUd&|>{2QG~%)C0lPH*coQPnSq4
z4PX+j^<wWMF^iqW+oT;@VQh?Mm5|_x`=yug{}QVhEDLBn^GW!o>DHw)7c9u&yu(W1
z`H~u*t;kx*8^m0Hi%6%f$%RmpdQ8saGeN()zdTrxXVfPr+P!E$Lz>9<aL0CZ69-Le
zNm|>XLkDtTn)V-Ir+IJcRy>cTF9?+rNGhI3O*1$mq7|AE+woMyr3apEv@)exq9tBm
zpOlbSpS@+Pr!3GNMjmD-s8!K0_;g&0z^wicG2-;|P1GG>lf>Iui7dDEo$CzZPU>*b
zRt@ZyNrD$T>%w!gBC@0ZadJDoviQ*uig{S`HHgr`8IEO^i(Wji;T!s(IR?2;o*bS7
zH^dcmlLS~lMSOQ`JD$lHGnNQ()nHAT9k3aC^vDEoICyZUwe_3tcbRFxG#gS<wii{B
z_n2+Iy|`xQF<)Q#-n}^lOFv|-P?|+w7%mr(!*Z~?#GpUCgM>P)oT!c|-31;(Pvp;e
z6#wa~>8NxU?Buid&l2|_i%pxL5;S7@#LNbASOLehd=u4;*MUq)lIrOJ))-P{p^U;*
zGPMJA4ch<*Q_Gp$mPJOO)$zTwYj23}<nFd35kl8S>^8Z~@pJ#?0=&76h!2)LGAhb^
za}*~9(Cy3DuSTJp6^M;Jbpnq}`^oGvEtT+8JY;#)lL(Ut&Kx$~k#1+v{OrM!U!c;|
z_Scrr2!wA~6%LY@_dRk%za>%3_vqelJX8L{*bYP$?TrwUgoVIHKu<y=#l)m}wW`oB
zKpJpAv$`98{>eS`=@C5H_iKV6P}0N3Q_+Wkl*w5~lbJI`=>rc=fIfEgXzwvfZ9g0_
zj06lTld!EkT=p$XNcP>rgyK1W_E~)3mgG#uKcudN(|B-sdHDt$8$ulCn`3DHK&zL0
zlxaBM`C~Uv3?4P=vX?4h*`EWZ)Nw*rTwUFv@N@?~CnC4+_h%nY001~U1%YkC>*5q@
zZxnS)Ff?Ul%0^<u2BI~}h7n1=%ygmCqYTo#n2s4WQbuAp>wi<QU)$<Y0Ry0smyaSn
zWgbLB3}7&YEHtv1O92&2ZH@H%rxCivP%yO(-wFSnlii_XN5FWaTz^UJ?SDPwOGGJ&
z0!aqx*f4U<$Jo&T0yjl83%3)6nAJpZTVYE2x()mQoD_Q=6%u06Fsi%6SNhNG`R)Mr
zgm?sbQE&o^|E4t4!Hw@o7wtV<%%#q~dyS}2wEYleQvZA9zfAGp{L-7MC|yqjOF^<R
z0G5sDgF&Qg2XPTVK13q#F>T@$k{Al{0_mT*A0kTv@GVqd;Qqc=KT5p+=F7dFVD!Sy
zo+YR5sbZ@Q!5>Ey*j)tBDikm@HR;*W-^&vkd@9*=GR*6piQ$0K(6^I~<n1UgV<zVX
zMneujtU+<|ww1g;>H?l(7Ov~+mJ`mGV=k*y4?Edro$R-h*3Jwuc$WVKm_V3s;vAu1
zL?A$!4ii;_?*&A=96P*&o-Rt&FyeE=j4}cEb#+fqUG|+-byM{WWJH`C2;+dUYxf;L
zzC7@t$eII7=u+TC8dZ1`j#GFutndy}y>q$-{D7p*cWM#*Xl~Rhu=|_;Jw-}vXbk)v
zJX|GY=VQlca?;Y(Rc%XzKLnH{zbOsX|2V}+zVXLWA=w})7(f`-8mSA56gZHe#mERe
zCXSrrNlwm$F=L*9Fy-b(&;v|hPK3tACgi=4PZFSEz+fWhbR<l+!`tx)?-}<%85ls;
ztYlHgGe;kz$4qPy9SxVh63`MHxh3ng|95t=o)dgB@E8u}AYxpIv{E6qVR+*Uj2dI)
zaW`dM_#=OWxKqi^>&StlZu{x@?8wfZZ$16sEiY%%5gvp_uf;B_en<#~9(!njP|`mP
zx37~DEehh6s;a*AOxqUnoxvHkn1VuUb7re(P{ElMr+~MaznHO;m^382Ss})=9->_?
zjU#D;3`gMJg5UQLl89+Dy0q^U)_C$G!+X}3RSs@9w4Pvn8B!8!mIL2BZI8%N+>K7{
z->=&+>N71a>Ihe1D2PE-H7}zELhmBT3^)%UYVP#19}?!XdjvxbA4)DJ_)WUHf#6f@
z99L%s4A8jogdkn@>mT}o%1jQ(2tU|Q%nX48sdN{i3(){!H$W^<#2_g5Bp@<M3r}lU
zY}hc|Zoq3dp{Ri98p97<=&*CV!fD1s)ey$vGN{R@i;f$2uP&WCqoQ2%{OUVem??_<
z+WwLD!)OW;vs@rGB|FYqvgA6UA|PQo-8dLX%B^srAA|)5mqGHu1TWChfv<541-F_C
zU{9tIy+dT8SEg>Dz=0_P2}wr5(`s&ZE<d|x&m1bP7{_O5gTu6S5c6gX((oFvAv|Pp
zmmfjY*iddQABC7*>~^ubH&usHtOmm;sn9zFUl`=;3rNIP)Uf}&1=>NKmxeZu)H~iG
zWp~j+L3T{N+fe3vKOjFc3ILRRGv{l9vt=7hBC+%&wI(9o!Y#ISOO#M6Wq0+a&c(<T
z9a7bsswoKZVktx)#~{vk?wvbBr%sJ??$V|+c5@utnM@2_>V>9`v?x}>5hkFSe`4Z+
ztQC?>EbUNGTK<M`5{-T1ejK2v>(^H#IXg5Y4ZqXTsBM+BToECmXwSrmzXpLiGL^Q3
zl!XC-Aqltm3A1BjAmU#z#ZCxCp&ok_>B&XHUeGV5eG~OL$?2WUiXt?EyEUEWM42Zn
z1tbfCS~|eBp*&RYkXTM54CIf>R9)%tCQxVgI+RlaTT)E8?ctX<oaG>j>p=+p1ORLp
z9+tbObi8HuM*c|Qj!@Wd8X{6!6Zm{s%<PFlm@(;DS*e)8417O>i4OTs#HXB@h`ZAR
z{u9H<1!0SS74=nGgXX+abJr1!X*;_@<TIk9qj&7T2X7zO5ax8t;Fs@wXsv~u9?bF4
z8+6b2>DB9Ln31}}P_b>uNA93L)eH~L^7)msvO^|K%FWEQ!Ya`##CN;D90qZokd$y=
zx{r8qGd`M_7@JpZA~7?BCT8x^U<h5CNZnHw{6lPg`uM_<#{Tci**Abp&}zTYOUXDD
z)t`R)Npw$1vgJrH*kqF@PnHoyeB%CSu(sHlV#jK25qeXi(&pnMqeP^c#9_x`qz>$S
zvr=eSlK)fxqy<w!!O6ivm>jQ7`rjjpwd+@{x=Oti%ph$bsrZ@uh}TfvK13cVmGRYq
zDD@V8Q~Ni$H?tvx+!~_J9?XF+faXL@RMfr0>xRYT2ox8Q5nU+8{ZVk74#75br1p28
z?i~Q}D_^ik&3dviTANEX1rzKJu=LXOs_x=JUgt#7nq=EIA0r{29zV<C+ke|=Veu`X
z^`je<g6-w2;EO>TXuTcw4<}kudkyJqCPV1H?2gzg2BkQoZJ*jKkKTGJIXPJtD$~ei
zSF}v~bd*e3#o@-$M@5PzO@e!c760n_ko0w?$%Wd#oRo>wXK>l%THKqYFW6}wjEO+~
zPD&uwbe*c&4Ut47V@ts_WJKdCZQF#;jX&<+XlSP*ey8m+c);HiPI1pJkf`k1cD(%y
z3dR%R=Cm~gx3{+s;q$D#I8yX_I?)S3GQ}xn8flx;UV7%Ao+$Utju^xCwuVW178d2e
zDX<`vJj&Qp;7`R1|MNOyED1K|xRVlqifHo_wtwKl|3z5sH}^V_8slQd#fZ7F8sykB
zck4`)sQX^LSi+<sI)Z-lc#b_MbXT#R?1ps3zb~`Xq&IG~gGgm~qwEq6KHJs47ilw&
zX+D3H8N*!w?RY8b{{P=xjGB%MgJxuJ!xP8uv(B|8H2bGR0P~c^4ERsBUVX2}h3_Wf
z?=P-BLeM8zcrpSB7KQ179dDi(HF)q%mQv=hk54^r(WqAWd;IhFuSwL=Ark0B<Ulz&
zky1H)l(;7)wJ4Z7D{XNjBSise$lSlTl;tyG1yZK(u>l`am&dmef_cgc<DVN5Kn|iM
zqr{L9hC``)Fq%M2h??E~Z;O_FhDT~*<~)%+cEe}d-vPW92X0l?9K=ebXT2wNm1slj
z<PVYIEt@Ku{tl)mY!n^f`_PerJ}DB)_N&N;v_z0m>AP){nHOp|nLKadjV+{k)TBr=
z8X`Xa9g9pT<}rlo$3A?8O~*0cKgRyfHx78#edv`%NRBP)k6>oxRT`PxPR;-RmV!qB
zvH&Pa_mQU2VbF#JwEg<v{ul+wq)HyF9(hGE_pr#u&W=uEd4Xmj_&(k3Z<BWBqPCrE
zFR2hOs6#NW{d!PIJqs({OIrW_#ZzG*CrfHCaEG7hNs_T9?k7Ca{O2>~DEp@2)7pfb
ztE#HR7fNb%7|HtIHgh65;|TS2$;&h5Ke-zt%QEjJ(QeAe4VF31paopDzY)e|5tew$
z)+Bs9c(k|G@BFQS6y_3;2*Di%qWy?sJ`i|^L=yTtcz@&vYWL~={v&BQ{6$^4!F+kE
z$Dt(guk=Pt1~-YMm3D;#8itYt8&E&Mf4nuS0z=x5ckm#XY0<K`ncz(jV6))|_YEi_
zk4M%J(=4iknoHgl|ECRylUVr^vRmAtBc|Y2J}+Vj2#wNR{2oD5QQN35iJ>i!6evw6
zC0f;s`Mb=aQNGmC>xj<-#vS-O+8rv|W46$;pUS9Eihmbef3a<-Fl@U`iB^s&vi2`G
zGEF35p5%2?w%Y>uWgn(I{okH@+j_$;;D^Nnx134Ydt=Bz`S;y)4c;f-3s%1Bw{qV2
zPX$-z9GGw;c-grz{&zQSzPt7PoL@#Be!g01qMUq(*>b*S3d^eZZm)^`dhN={D_736
z76!f8zP?n$$^G}er5ZyOETCMC+bkZ?^KkPaWy`ikjL#AR73~9bjP#v|6zIa!7mNN-
zoq4gTXV<!CC>#=itS@UDsVp~xUA(9J4~o|)3bzSpL+U%bh8?9WBv>xYnLq!}Rl-k8
z-1GN)c^&CTSKOWh|B*!g6%@h-Q+xFw>6<J((z@Z>`5B4U@66j)_kg}IY2x~tQ-3D9
zwF=02k=+$aBPjfh*49w`m5Mk-%L~&cLtnu=_8T%l&Ji2_jYfjw)vpQM2xQiH+t=OV
zeJZFK`&7SXTN40m@wWf9!#EYK8Z!I9J@uJwo<KSKf@3$SOvQwv0-PH{&fa2vdPjuk
zl#-o4yq(Q)f7)R2<lH^}@}tI#Gu}@>{IT(xRhKdFrm({OrnaS1ia)|{n7P-z$5HIS
z*_rNxE@9xYh0=Z812wMv$8VgE!H6UFc4RWN(ky)P`bQ^2zB<vND)KH0gxn#p8toc%
z$3w=U+nyduTI^9E+1c51NapI+WC#(^PZj(1Q%TIH)a0vTSoc;M8*3!FHv7=i{Xc97
z<zE9PTi=Ec&Nd~O?B2b*5L_jXAiTwB*=TH@G2gK+`8=%zu5Ddb?#;tnbN9?%Bk6GR
z;HI%_3wy7oLzQdK!L~!-eu(B2I!ZpHB(Gu+e1#AmQJ!^n9^4*y$xKVZEhY<m`Lz&i
zj>wSOM-^}}Cw;r@_JeHX#g<grCu&BVa3YiBlF9_?BUhk1bMIdvuo_SnZ{=QJxU6B)
z0w#^2IqI=H_l*S796Pp-$~)P>_2}pT5@Qn7dO556(5eP+I9q&bK%r{lF?iJm3ouOS
zFu8yJLn*+PMJKS*r{H;iPq#TsN1y+4v&`CY%<K801P32Rl>fi2Y->@f1x!cW3at4W
zjFw+F>@Ll`&}L}dFOo&VCRr#WNTC#));<s7OcV6##{*zNXG%@}tQSl{Yy)D(U=7gM
zpXNvOF!uf)yLtBl<Mq2yR@d0rSX=v?V9d;1$l4G^OZSmN2=)*g#KC2@2=@cupX)5I
zg2+a3=4{PD5b;I955~{w>v3Z0P}eS9{(1>)JaF_%Ex4vSkc3yS?unQndj^;1K{hpO
zmKY2U;(-y%IRADCE0tEcpwh-6Lb7)Mpdf{r83yc2zN$y}?!BcbC0YZr(AGoY*bPV*
zPCDh$de9t>6G2H5q0Wne8j8P77iUu9o`BZIL^fh}wt>=J$_CU4yic6kHDlu1_O2~=
z4bk+@)x-Yy9ODC7n@a~a{CTH2_FNGksehjR+qCn^p}W);36H@G1}e>BF-R=~-kl}N
zVIJ0EVx1;!$ZMpSNN)u3e+X8ukg+DCC&W3}Z-PqW;h?{mj>iVXUMC(J`Se}lkDU(_
z1}>mw*wTt>4P~4r#odE~{F+aOAoE0}VN_tjGbE@;m@qq8Aq4ec=7o3etO4NRbiltA
zsvNvSTg88#wpmHt8iD+4`G?i+@A=-1?R<;`ruLqK`GaY@-R$}A$K)TBK<K>7U=ph0
z<;fs_#AVc-QFe%dQPs3<_8%u*0KoE`<I7TBBbfxbUyKoxo;`;8G!JE?;S(NSC1||8
zUao~b0kRqid)W-Wo|^inc?c9eMQ?*5EC#xuqk>~%`!Uy@k!e5<^qCFfAxoW(pE<h3
zYMp2wV#vGf5R}H*v@iN;L=6A_`kLRAmBp~hIkL3!+hA=vd)|Khi~MijU!SB%=;IJY
ziT-p#Zv*tI6)!KtL_zK11V5q2UUAfL2dp7oiL&Qr{m~Q1<56^_Ygbf875n$Eq=rU0
zW%KjVP^Aa-01z?CxI1<^lh27Aev9(eDdwbXcRt&dc5gc&QMr#eU?~GslXvUZ+qdsg
z@zM|wVCSkt5yzDk6<v6dLRyG?n7&X|Aur3Zu5~_E-?k+sbs1P`p#AL}RM`D}rXH2<
zc`pi_Tx)d_Ys1;^t9CctlpCSH7Lp_HA$_#k$Q9S}|4hO%*yLqqs{8pZ2{KTj1Lu-{
z2=B3hq_xs|t*v9i_jPuCWB{^EU0FY#V|CmXH-E}xza3jA?$48&jM-|tI?q@#v(0F5
zPIgsNh-=&LKX)tosff{&EP+XP8wTT;#?eajpo&sUaoxEJF*b(^F$o>QYd4=yju_OC
zo1XZix0>TgvpTnnbxaEF2hoNTns#XgK@e(T$UWIA-31VY5r>FG<e`7x!ZlG%$9pPW
z)DMAOXTuXyPlXgCNB0iy1$$18I)2B-)|rqHQKEKmpf)@j4PfG<Ter?)T_}D%*uNl*
zMkz9H()1{jZH79Inlc5w$T(E=Fo{+4gL55xmw;O)tdh!rZmGS{1xIVFtE2B<OkANw
z6h}iiL@(9JQ>Vn><@0m8eRB@IL>X!zU&9&!;DSuTQD2wlLlKjL=6+D6>UZ2RB9$+4
za~rYZsB|zGiRf(P;&UGL)-%4oALkOdqIknp3&OzsiQ~pS&AlRAEAxnCSF=sv=;!2K
z@$Y)Xu|G{oRFJ3(bKC(?eU%qO=M3R3@?7b+ri&R*U~Vv>_!>WN@0HN*%gThArksOQ
zFZunm=inm=EO`U=m!jxv!a2fjyeVLbn1DeqW7j@l1~6($`6OzH7M7OAsAPaIIMV{a
zbB$SP5F3<IKHGdI6*x+WODv6;iK=~gi1AcH>=kKAFmBk?TMCmBk3MReSl;#q^|YwL
zZw0%6Z->+}?d1zZ+azci9d=8ewg&99=cc$DQTXG3C@7Pr3+;Gb*Vc9G0#mf<jOz|f
z7pw{>G1;jRvF%_^EIS9+?1Fm)A-^^OL*)<Mn_QRLJ{8^l925$ns7sPuYo$c_QwP9b
z1W=0P?DAVnl;xmz+wI)BmAgk!q9|kMjz;RH1YJ$^DPsO01&5l%UPE%?VDu9r5dIN3
zoCY4s*08IB(FbMuarssBco(YwC;RYsZ`pY&1Pa&#J32yf?%lsXb=+*e_d!SQiwj-j
zag<VNv~6gCHfwxk<?nmm5!co8wH0&e2q_vEwvM&H(?0IWh{Ab$-gWHQkv+*t{aW`+
zpnhLEOk`yd0V$`uWaUlwu7%1U>gs68S{S#RX9RCeSYHZ7h-wRb6dk%*6d4T4<wm0^
zJ7h(aWfUkI!LUVaa1mBie^fSTQ)tpjmHh_}2)+$X&;(S@v@uMfWIld;J*)BpH6R4~
z$wMI<+JP^0^Y!*VGea9gO*`=g*Ix$@*7|rFNo-N1J?`m95JRey;PQ3p44gX`tyR(7
z5@(Zlr=Ffk86lomh=HCpXHKZ%App072btL*7|XaYLQCVaBXT)m+DpThE>K@XBOo6>
zdBTJ!0yb*rPt%WeNa1XQiYhb&oacGD_-gQsP5gRX4|!SHD=>gZ95zL?3}~SM0C6Sh
z4dq#Q4L4AO$*izWN?Z5q7p(tfTxrm>7;a7=Ws1iMlGq+OhkR6xs;N`NnGAtU$+^aY
zR&+!(jElXM&BxNpr@ei#*{lZMju<2HN{=`O$TTcDxs^DzIDk0;O(L{v8(6!RP|^S1
zJwWj!Vx}D(5%D-)y$=kO-wyml#E!sBPA2Nzx(<OAqG_^!|1j4J{4M~9!j!<a^M}ec
zep06j(0o%3O!Q%~-%vqPdlCKf@p?Shg~G{LqNeS$+f3+be?&sb*T-rUGgD~##}T5^
z2$5)gH27{sV{#y2dX9<ZPCGk<veLL=@DLTnu049RxAeafc_gC*e3TiZP{KG~P|h?L
zX#E%)E@()JXq_Z#7z7+Win7c_%re>(!HNWCT<}{z(MCoC3j$hMiPqp@xO#2T@GR(H
zeSv$w=r4j;Mt3c*NX%TPHrB20*jc(7i1#6`P4#_^vvY#;XcSvOkBM+`1hl3tqn(da
zo0T}``ikj<a?mcsxtcO%`P4q`tr--Qgg?bbkTIl=KEiY>4hP`X7&huRd&uov2n-OK
z(bAi=`31q_q>SiH{|V_d6u-Jf*e!JQjAzXF=U@l&A^bc{imfjrQ(>__cu)pwgj_@v
zenn&Kbv7p_Xu^(T42-cSD%D>aOb;mlJjDnD(q<apiRY`xComq4`Eic8LxO~!Qu?pD
z4$^qe;CMnC9-c$O5fGd~76&|d9NbpI<F&`rw$phPa`t%N-#jp$QP5dM6oYtxB~F6_
zrpEJv+)__xVmogh8ZnPaO2K@~@kad{ig8%%Ml_m#k@_evUJY9So6PX>WhgcAt<>FV
zTN7#OhAEFYIW)qI^cX#MY=!V)W{IIo!-aex{~$~s)G~4!{2vo3J{S9$)Aev-uHtZY
zF^^*FhR-<<|4Sx29n9?cb9;(Fj+cT~$fEJQ&<xAFlhNAtL~n>|U=|Y-6QLr_px%M?
zsTiBhod`ijwYxYK7s6(C7U87O>*o^_@!k+%(9Xsw@J_FSyErtS?Y!_;hvAn32eI|r
zbpe>808M~TKxq;F`UVvEDLo<A%k8V1#4yqD6EfZC?uiu$NM3^*nvT34Q7-Mq5m-pj
z0O8&6P89rnbc)$gIIj~5wvRvVB@uDy)_|04Y*krVaN>2xjt!G6$3D1_%dhi)C7Dre
z5tZH~K9NsDd|qf(JbF~kE@tgsQ67+eo7~#cpYBK!6(QtI`E?7~K9#8v)Z4HwVm5$H
zG1cTI>@;L_K`^{?t$Q45UbNa}Q6lw}MR=KZZIqMTuziLqIgn~Nmum7$mR(sXwlRfB
z-{N9mV*%b`a5*l-Q25zVoGA7gT^GBPlilcEVOjx4JIk=qo9TuJ>6;+Tm&!ms;G5AH
z4+6P^O^zvjg{&C;X3Lg62Xbaq(HKSona()RhGT&?JUk}w3EbIUPfsGG9T-F^1C(4b
z+f>3*x2e6w$_j~(m(&RQOxkL~KM*j{oJqtkYQbMWf5wc&#K%KgJ=AZ4j^9dewZD_I
zUDber`fCW3ZMqk;zcG2}u&V`K7A;KFJV5Y>7Gh=JQZ5vc7?Jai8#o504<K~}uF*v#
zjgzNNh480wXIB&+PP&hp4<8k3pu&J)CRc1cG<+rr6?{Y=eJlCS_b}`ujaJeN%08i&
zshDRY6tf~Id@;Bk2GEbk`c)XNAGe0X!N|#wpuLDya0x|6>Sg+!GI1{ax=#9FO4URX
z-cl5;X2)G;X~eWreJhlHZjdfmJqXlOwuH;a92ep@Qj1UpiLCU&x@jG|^((5W33wAo
z<~hn#I4IukvzArR?58jsYed5hNLy^Ec#~&vfv#fN@pZh3)66LUWSt!w9}j<D+f@{s
z36wZ#AE>-1+J8WQ;3V}{B&8y2)|;K7Rr+^J18$WkidC%Ty|bNrNxKf1{P@L-DUCn%
z9>Bpoyu=E5_-LB>9F7LlIe>wG8EG+2H2)nLbi7m7t|!N=nS)xG>^Uqt{?#|^GG^A5
z&K(Yi5DCZLVU}==AYFFl#*QZ=Z2JD;3V}oWOR9iTF|^|<835TYWDMmUAtTuMK~&8t
ze9-tBrm)9?>R5f=?_Um5!N+l!=lm7a(8rKOJTO*QW(+|@Z1sCw<acdHU3Ef2I;xB*
zBjIc5UQ_i=0~5Izwj+;K#2y6g*SS6<f(-9jYPXDQ!^S#HEaNqEo9kcgXb*f7otyNx
z`YA7#I&Gjz*0u21qmCNwac<pHVXq_12KMYpiM@+O=~0rnwJ{G&_%`%%mF|MJ;kZob
zvA~X8%*&dq4wo8(v?#=s5fCFnQLMUm_wGpzhik<0St5T6XYSINF^fZgQw<D52i1Z7
z4w=OJiw}?+HDLsN*`0Et&{>$CuA9DReVhP~d>m1eB?s^A5Mm<p1h)fihytx6R6YWJ
z;IwF}v@zSx=C8u=X6;JF3II_I9hlEHV;MN}qax1AtDBh^w+w{Hz)E`xiWD<S7w*aY
znOt|p!bA}hFgE+Qf$I7f9uPR<B?FieC3J$?=DD%k&+|Mlt!yzV!e9cv<HpMkh<z~E
z=I3U0vRGWkwh}B8g4(G3KoA>Xf(0#`w0VDcZoKwa(ZE9xDc#3D$0v<_<$s^o30O74
zBZh8=qm{J}ybC&qwb@unQILoL0yH&EbDj^G?Iq^B>rW$a<yDs#tP}d8S0TzD-P-@d
z4&pY((2I$L$I~tj<-GG^w5!<sX(7=SAD9V}2YFOOLt}&AgU3eZF21YQq02Yd!RZ4b
z*e3P5Qbx6J*^vXh0GNMqni#m9rnm(nnoUJ`9M%EC;%^;4Y}g-JqAG^ZjSMPC1D{27
z@wZ~F%G)nqET7)6^rD_}?@=Zj*D;CR{_CgkFQ+$^i-I-1GPE#=UNoRp+k~wJu?`<E
z`V3d|IL5w6kU6miy%bCahKcur+|%aEKaJD^LoL3vgSHzGWsBdK4X|_zS|22v&t@1f
zS%CEqv|30)$SQ7XvAsZWf%8B55~@ZaJf$zoT{4Vf4_y$BbphUeZ2n)?AZS<vpO@q;
zK5j$mZt?TX0VvL1v7Gq7$p50i0tYE6@2H=gSY{mzP97WH^i_2rmNi!J2Ui93u+M5M
ziuRes8|Q7RN73vU_^s(V@r#TS1=p|y?ZgZ*Bvp8L7AU*bJb`Q*qr^M7CK?<I3d}46
z@O6_`ot$cGNtCG%hw@1U|B9JT>!Qvn`qa>nGou6#$i&WR8572PO0QC>b{HmP9{kfM
z@K$|}9P*T<#N)TbDklS>mX?_}VR8(OFx^l>07}5gKdb{ws5>~FeVIF!&PFlaVVsHX
zaVmmD8lJMOI0@>@p}%+k8w>3mNGnpRu6+e=;@4=P!!s`gwbdq7-yv{5s`+)CBoA2%
z-5JY0z&<&0elMX2F6^=}1sH)>JSBeC`l7%U3*elMB3sICAp(i)IwW^+cK*jN>|!#w
zqc35`9C=nVHXEa&VJb&f#QKD0U&h4jnUW&iCot=np8iT|cA59@U&OKKPrJS@ADRIs
z8`Uogm-M=uU7lm1%&D)7vn1LWpWdhRCM!%Lz7iomY^u~ivP^+xBA@kn$uf|m_1#&C
z>)!M6ke~;Uh%K|^@GcprZjwcb1W;GI3L|k*b!)g^laBgfx!$nd9@WO+VNV)H=!X<(
z<`wM*HU+p`XRp)ZiN2Y-{FG59Vx!ny)X~=V&RgEnUBAZr^0N5%Kb>xezV?h=`#?72
z@R1|eSjC5Nuaezb!K#UA`abLOU>XD|=(>+JU_^E!7iuczL<YV{p)<;?KE|nW>(<-e
z3PzOgVGnsPpVUxlPqY^1GM@t*+x_y<B?98kc-8eCO@CP8v~9A8d^P!e8q)m;<#=K)
z%Rx*46GI`hTfiS9|AZE*+Mup8)n;)XIArgvl;kdB{|2MZ`YgY{0fSWRd82Ez_l>Jp
zn}8_-KZyWNPR{4e<br|%kYBpxE2hm{m(JTQat!1DKN@*pkqpYgCr+A5pMn<?tuBt=
zxkb%IaGoX*0v}th2+N`B>N-aA^(|mOQx494_AtY6gN4P2+!GH475-@6ORMvvCOL2h
zMC725G|s2^RhMqvTv}Tao9hV7mzzym<lyM2V^M~QJk8v>>W*DIcNU_?p0e#|*~4${
z9nxSU42zC(&g|2_KU>21tDeoCxX1okY98K8;+Wh?^Lvo1j`~Mmvmqno7&JSw)x#23
z<jX$JCL`YAdQoA+QC*dwX<d{E`VO1FDLX(A{OyrJ#q4!}WRZ4DGm|o|^vl>gz1=N#
z4aC_~)j9GKLNp)JcV}LbOT6qkf)D?78$TLww8pJ?eALf8`{~T5hZUyd=KgxuhrF`r
zRh9pw|JT)-$JLy^|NqQJri>8EG8H0~q(&4KSt~@cBx(#TDq9jo%ZwsxLZy&3NwTyc
zgpr}N%E=O03xy&T?Z4;U;`@30&L1<6Inz1k{eIu~eJ!u+b-k_?XG#`*!v$xSI0B>$
zG6{-O#k_dfmc{OQ_$oji$8Kdpy>eN~v&m?|=&rxDQ05+d{*?HVE#78?!g{v%1b`!j
z><o-@??WC28)s~3X*u*YV_0UoFy-0UuW7-0opkN*iwv`9@5@yX3Th2jRHw!i#D;Iq
za{K%qdtn-c>3MU>Bd+etyU6-^v6>4nC&5_GIkWpG_o8bMq_XN3pk}1;!=uCFexiTG
z!$~kDE+$SrgR6bdPQb#2rmal2vXqzpZpHzxa-UdRPU#!s+)__<zOC*i>ZXZyXZGuf
zrVQA-@;9G7Yog~i-MwRtmf4fDge(B<m#<uTKj8L{6Jo9JniX(Rh&&$V+tjbMhF#H+
zO@r2n#wTMNO(PA?rW`n1rD*nVOyjn{*h|e38pg&=_}$uWd(WLepYb7hxVxIW>I5LC
zrd!8`fz?(S&x#F?nKpg;gJ(9W8)^H#oTyyWT0_!NsovoY{T$NnAN9oMpt2KWLKZEP
zjtPBSc}3pT?yfej*>T%jAUvx9BQ<|7+aFv2p?|$o^>0=Sw`56~dY$>0Bsl#ew)@ms
zNn979K{IqCQ|Lm6%$np<&mfbtqv9O8=HI(FbGg$#pE%j-HQlNcy5`A#N2GUkFO#(_
zP0ut_>UqAqsTe~+Zj-;d4BGHMEcWGq{n+tlNIQ_A*!2cG#h^lWTML6pW?Q<c>1OuG
z`I}xhT2`K?t{;g4512F-B5lmQtny&_SE9HxAT9qwnS*_S>&Q1IMJp2MXWY4X(!_~0
zxHXcQ(9eKuTo4k5=O!^W!^Pb_;Z0paY-}kYE75HeNj89~5KFrAzD(#%A(ugW0REqB
z;ZVuQBiiK6>qWsx2y-OwU9EkbVG<=rb3ncd^(sJFj`*m1$=0*!_wU>1TzWbxvXp?o
z+)ewfrqLv;PfMGR%BbEAAJ&X^c&q?@eAG%@V=`B09$90m?T?u){%>lu@#qW_X@r@%
z`Q1-Dc6V9d=87MPZ0O}n)y7;8Dv&_p(;qG(_M+9dhlX|DwdQ$t=aQ4NKkU7F?Ra$X
z)n3z<dnz;A{>;;`xEqd>Qa9H18Ij?2UP%M!8X3o=Im${(wd8PI=v$TF35Ib@om3fN
zPfm3@+I<4Zu<q#SYjXR*<ZO_%^J)opbD6_oLbD@}J#mBm(2Xii>1|xrz}=328%Ags
zxQLDzBm`6^Ac%pnDxe5kooMxU22GTE5vjP-m6g5wQOn{<nPv<<$euK$u=wdZMfwM`
z>gWb0&of(=9asbx*UcyC>K<l)MkSm!>b7v}5C*IOSFEPCnX({|fL34|tMyFF={enw
zE7s6p%CCrF3pEYj8Nb0`2gqZmmJz~~cgz||3T|<OY?V<~8|C|JXqX%C%RFRLeUoy-
zzntv{!=-ZXEsGtm<*yhxAI#sz!XXbF<IVUTVOoQ&Qa)^z?@zB^a9Zv4q^ZVb*W*1R
zl4NC!rVsNPK5I*JV{Nu>JO{3BZIF6aYa!<F3{+zA#ha5ZyoPbDsJQRUs}FeZ0C^&M
zUHzPj#*YPulyasWlJjY9{F<*nO39FnhpP{i#|c%AgWB<N@!dYJqSqfg;nCdqaG=xk
zUsVy}EBRnsU6OzT5BkRA>POM<t^;s5e@>Ez&1lLrQGmz@O=*WH9R20w&HmT@bX#D2
zNtNmPU+!r6pkP_)eIRM+6)onXQrUdvH*!Pn57lxxTD|&LC;0a6)oUa|QAAu8+nmX*
z?BK*9TMoRs{Nz$dpEav6?Z>yL5;>*2ZcD(4S8x5rz;1DNDsvR7rzANod|%l)k%}l-
z&lLMh8naJ{GBDfq%7)s6I>AO?P(C2n6(E81qO+`Q;<<B=NGvd~)w&-rjNQ6--_}D@
zA4iocH!m-J#9x8GnKcypITmcb+p}8gX|w!|X5%EQ8x95`r*h{ST+@3T+U)mx<}6X9
zaz4?`^rX|#>%i5*VwGxC_<m|#i5oA9?}SEQmXyVaks{a^O@*x@LY0K{kWlM!ADvnF
zYgvI|l8MJMm&l1JR@FzOaV974>={~^`1k5WPY*KQMQNMNVlRS)f~6uY;nnbMRZt{g
z<lA){mTW0((MFKGSd4T5Rp*zbr9%SN;paJ`#a9mjk|2K@j({2Epp=w=I=%O0eQe(z
zWXl<QS4|Og1rMrY27TVPm+B&&Xk-TJ6T+3@U<>oh<ln~P`M{JjJ6$r5)*Tu0?b|no
zJWX{GTG`}p`O!h{Kad^iqlJ@~H-k8u2p3EJ&fyV%$y1k6CH^OlKbvV=_qF0|Q$i~q
z{m??kYeH)I#IP#`?~ScFiP45?24VYa&98?jc$UpNe@$bjpS3Vb_ok|05VqC@CTt&=
zHquwF{lP-pwkPKR_p+1`gk}(rjHM^2mdcy*0FIGTZj!sVQabWthI^uJb@npp`xkHg
z>t>V<KY5XE?t8><PZy|t1wIy2SeJUy1|p^{q&&Xc#bA7mkYa}K+nqB3zln_wy(Zwu
z;*5E8+d@0-5<B$+NqLEzer!@P+`N#?e*%f!+-)1X*2+1gc<+nG$%&o33}Orrdht4S
zgL(n%MLHq+CfHGLs|h9xOk#bJW^p!fMZay?GBE=$bvwaE!kNgDewe%KPouy=RHvnO
z?$Sk>&<*7u)&^hk4Cgm~vb73b$wRhHA6;EhOpDCNgUKtL(1jg#arJ^8;}`CHtC>1^
zcLa^PW$t?tC)UdyHmmP7v7y5Hz-yDVB_mJ$sCh+sLhyYHyIj;Yr&rGEPXhc9&ploQ
z7kygviX=9@$E-V-RBDcZ3n{K3yQ)qAwu8<XAU}SS-0+nfy#7Q-i|KnA3AQBPB^PSk
zFO(WO=g!S>KQhl}QC?1tcG|jx1)p*|Vw?AvWCHk2NgW~69xz4W4Y%#w8K!x>=UD3W
zuFtO45`hND6Ae=tBAmGbg%5z5b`a2m)ds#?8wG{I$$(a|sfh<nBNtN)342(`W>~=(
zi^NrMUg46c1*oG>;N4^F8irL};`~dgC*(Z797VDrMGrRTv}M?~eMEVCx;Ig-j8)sM
zRq=_GE_xF+MgYg;wc7izcNh<%bJj-i%5#nDrv`7N74F?`TZ1-G$px9$VTmh_{1eMG
za`LoO-rS~bv{kHHr_s8)R`oMPJageaF$=)4c4F=7G4`cK-BNe?HB2mb^!G?;81DD^
zRp8SHS&3Q4PF5aj7)RkO?CiP=#z7D_#vF_tNLEGN`!aov@~?<SIFS>#DrB7gLLzm1
z6RJ)mA9X6q4Xsg@x(q?0kc?bvgNf^BRTIy+O~8C=1+c}O-$^>3fOuKy=)kkQ|I9!~
zXU6i(E@zz789bW#n4s~l<+&%sQ`!p+)7DAnM#u^ABzIQeL5J<diygm(&S^zU#+Nb<
zUOGb~6o{~gY2Q&RA=aa7Q2kGc!K|}(MkyaFD$Yhbv1LG@-MtK|H`gaW^pHk%^AVK?
zV(csU+J{4=P4@!iF;il)8imaKeiTr`d(SUh<(Lu_TR)9KeOtm30nn{-qSK3t^bV65
z!XC4T%VG%gH1Js64~!}Vu<b+WSF*w*a3gyJ)baQQ^JolVNLUWsqyqN`j~-nD#<Chs
z1t`;`%ZKOJ?d$TVbf3A&UEjWB;=q)_&EI6>_2|Z5d0|sQ)5I-1c7(<#(8rvul`&?k
zMssQ9II@ZXmfkk`ud8;i&<ka|N~fT`-fU}a2$)@Yte22!OG?W6+@r<Ur7NMMK?ZB~
zk(-CKGg?ip1U+|oW#^Z+MQmR4<xVN)pQu4(eB@xdlq$)~A1*n4b%siSGr*VQ=aXwQ
zcbP{sbj*&(;mh*1y47WpvJu|*hn$lwRPNArY;N3%V^J#8-jl?z;o|qM*KkTHnZ(1O
z6*;;F0$FmgJ52L8P3{1F?xV+ySzwV%A;#H2(+LXh6a7SEVv|tUf9^Kw0SPy=WmRus
z$|KA7UR9w(J@WArrk6)MtW*u~e)E8fjgOA0+3&V|x%OPyok2k;+eTDNeZR_~F})o3
zk$+PNtCv)JF9|PyJ`+8?;F=@ol*y*Rf{jlV6`nvr%>kUsIBnT#mDZQ}b=kFbnJb-2
znIEhjsk$dC41;JL+WaUFb))R9=e!hVYty;4<m=Ef<$;Nv^fMpNK5?g1&BRFq;n~`m
zzozKNp8x{Nba-7|8K*2Zrhi{WIxen;W`prk&HGYU?Mgp6*=-+voiy=8seT-<A)H9k
z^1kj}ZJu)t5i~DsK(bt%&p6xpefJQP3{G5!eTi}S*Iou9hFa{aNshU{zm1~2@HDLF
zOTE3ht~SbjzAr;2@Ri-a8!#AzhHw}8l`}rB8buw2dT;avt60&ZyQzrc3CW+kUkYub
zca_ew5?O8*pE*51!n%p$a6!j=p9f(JpWAH&^7d2hysBD8G`lz&;i*(d{E--0yzDt-
zlqeIwGquk+30iu;Ffv&^ye}N8>5gjhbiL+88O8aWB$Y7VK|^!auWE=Vl<w9b$8Y@M
zrw-7k96`3qMr`>q1zZ)@DoBn>fFhl7)OA*mkpk0g>Y^-!;Te{-)aHD_F}4xEex8_E
zAg#s=v@JNT+H+3tlN!^$;^_Jgd{SDudSETea7>s~P5%1vNsO9i6;KGB9XsWZ^2x%u
zM{nG&<*y%@0^LK+>l$4jcAKyRUvfo=-FZK?(8p8vQ~VVwS5Ps)F`GAR(+Ecvwb&E<
zzb=+;YoX32+K0aO^z!Tx(d(~!p9fFJZ^8UxcUP*38^2b6T#J)N?iOAs;%U2Ht<=S<
zvr^n0Qq~FXD>Q?F0YWqt4779aa4}YQnhO-0DHqkon>2kpcJ(hkYOEg@<93_L#FV1g
zn+$8&B^51Fj;~JlrPBOQ*g66uW*oF|%_v&t{cgE4wnBC-{ia!$4~|;ZKln#~mHO6Z
zp$)}YW3^sJp)Nn1Sbx-LB%+ivP~(af)knG2<8kNjFqAfd!>@3+kmyvBAu}Oyc*f?&
z2xx0u=KKyJhw7W@u_<<!Rie${Xu~~`$t?2vkBaUr^Ftr0Pd&9k%KA{ovg`l@#z;Zw
zjEgzwAeOpPw+h<$9~LUm(naB0O>L=i45z@Iq4eYRT<1hvG4Zt$#IW!VUL`_**?hEG
zD3;UYL28!RAd^Cq!XN0@3|XAO#|R~JvYkbPC%XXD7*%L72FK{XeS%5ENiu+Hqow5r
z#AQ?dFs#ego<j{$oruLEr6LWH9sihZPL(*MB=<B<xWNb=DkI_shJ<G?hc&R<SA(WN
zH2h<HvJPa=_3CP-4I%7;^F31+dn!t+e@yXfZo+pISH3jV)z^Q<IfisG!V-ztna^gg
zgcCpzQ`>X4_H3AR%NbRe{t-FHSobZCBf<r4ka3?L$f?|EOX7+gj?MIQgzj>>v-lcI
z@9hKC)Et1}A!3yp!ZDuXU6V#loadO*sU;NhU(g%tBAvn<=&%sJ$}KPG*Pof@!aThB
zF7SOGQ$|V51-%_(WE5RP%fkGN%j12rsJr5aM8{F-PL^N?0;9g)ya;tLi1T07Qv0Aw
zG1kDBq1d87(x<C<0@p4avj+kW9RN`(aY5r;8g1%zuP)8&)oyquQ{MTDLT9)=GT@X5
zZR|I4l)Trin-V)8(IPx5qykDr5mvE;lPR7bBWdEMN`m&cD}Y>mCd4hX>9V7F{#0A2
zZ7QIy5gFOLWhVDMc*h-n{@MBQoduXkXnr-WLlm~6MSKL@*ffYZ;WtH{KjC$dyOIzX
z8$YAL41yJYB31q<dmab9<BbfsQutg`m|KWecU4qmf(8LEg#}|AK5=aB{*l8nEf=1c
z8Ug-n_I^8&d~cmUZ$K4NqSA8UKm)ZGpq4I*IxmPqC~@91o(|~9P+5&+Sj+k=U)*4Z
z4U(JDCr&WC&i=B;QlfsMo=o>%-^fF%<%+U2oXZ0DmTFe0_`v|UZF5gI(kgbZhO$Ma
zYOfl;-hDLO0n3Wea&h>YlV7t|g!@;BpISwiYp+kOr4g*>8nX%GtSd{{e3Zj@QbyE1
zwKkucapWfa3OqxgJkO*Yy??&b{_46T)*9#=;L@-)CeSXBQX?k7uG1CgtgLhAOX#x!
z8L1+xQ_9MJ`tJ4X?kEEsIMBCSw*(d)TepUIjgtA}-id4-HS@hI*RHh(O5k`h>Jj73
z!UO8ECp=><kr!kJ;+{h@ORQj57Te1MgZrRL4sHa1L{=A_G(WrI2iit!D^?RK!_*;5
z^+deD%1Wpv3)%p=VfMk%4^j5ZTvI(NRng^ymAV3D{vn7P$lrYa+)oH^+u4B(fcMZR
zg{>&$R$H99sP172!nXC!1I?#~&MfK<v2HrTA-@=3z<Gcdls*i?!qB0qf6-q_klo7^
zLh(*!Jd!!^bz6w3(7E~YWj}cYfkgDpi#&&eU<qMAY0pm*vVBZ?0(gNZLh*{rpz82}
z1}rj#<HnRRv)lp~h{NRoVFrex(D-T@!WGi<CBbVAJRliW`f*W?l=CU-2tGNzvU?7<
z0>(#aS@d=#P4J^Y3O8puPC;+8qW6-$x%Eq00y_U-(Vf63NcIZ!(S4amu=U4EYCjNs
zSPXH17SM?p=A0#KRwC7$2J4({xwlZ%6Ln@=BUxk15IRRE(9P0Uua5c_Q+wl+xmx2-
z;{Tys_ttaV?pSt&PEQ0Qm?IN5aXi)KA%0W3F}a5ciz&Aj8={^8p&u!WDRcXPZ+@n@
z%~K$pp~D!eH2HL>g_}#)K7Hz$THM#fcR^y#ndA63sxZh{WPfslnnP-<m!+<OmJ~q<
zZGP;NgXPv_E73kzqzmy&WN%8oKdCEh#s4$xVrjWXRCzhGQJ79vOs!dI5;-abrD1|E
z8{_^M;u5ELSTd64Q2sQ+U(on}2Zy8E_Y;Y+;hb}dH1n~VBZ8rEEM4w*VjE0<DUj}$
zOI3?Clj$fq&k@ktod0<ix_c`rmzDlj_wC!shx;3FVywpg{c%BA6|+65ONe+uDQv2z
zhsOe#@xZ3AmM+f%{@-Kq_AW6IqQF}L8kTs*b8p(n%78#z{yD6u7Mi?x92VIhD6mro
zwEe0m?FVfLhF@esV4yr-fuSq}-=NXrtVaxy<6KBSa>shZJHf&+KI=6;+TcXhfCdD<
zc{pRXn#;T_D?4TLw{8FDaYR7QIc^C|FPMr!Z45#lja#My<M@`i6UCCbU%*V}LrCBt
z{9%b1Ws5VAY}%J_v~1&<J0^Yby6Ue-5gLYu-UR%WZ_Q)47Xqh(&oP#}_nQst2!T04
z48prb$yn-|Br2n07bRgcu@Ie90kB8>c|$UO^Q;%A?XTO})iiv(_&lk3g?B4gF8#v?
z=!b$GifzM;x+>jbK+NsiqV8GtWUs@hz4Ax#-uV~wBPrCV#m7=o{Du%mwwpTSD8Xde
zGFXoqASxu81O+43UI=+qSjf04pIbp)BX+DTx!c1_HkO0W#DQR>b{cE#A{bRhFid80
z$|wp9RtzMJ_-`>{W!Qb#j>j`M6nvf|)*|!hAr$z$9Y2vDUE&~Qrv?vX)ApmH2TG9N
zFWk2S8cS;7ogav~U)-^SXU)dJemw|5MtT{|=^mRcj117%Tn;GfYoQc(+3j`ILY%80
zP!h+GdBFW;UV|MiCf(G`33d;2yGkc|mdv9Vjdl_vnt3%+pCMRK4PfdYpWaXX8g2ze
z7!J^qZ_oJW6tg69%Y3!!IWmhJ97d4+v&j#!nEWoDi}`@o>I%T{WCHJT3b>Kvt3}VA
zi6N>OtE!qB^rsQ|1|kx54!o4mp>}Yne)XShKNG=96AWkk7gyKX_4MS?qrD)Q+%?Zn
z&=xjraV>>SB4if{g!l$%_|xajLu7zKrP}yMep3hq(KP~g>Y{v$axu9LS%Mh6LmU$}
zVy*06ybzO9s|be)LJykw`P$j%{P&*&?vVv!gik+aQ#!_8?C_b=A5N`_-9z^?kST!^
z2qa*?Gi)BRZ!8G3$J4K8P@k)Vxd$a|4KV;f2YyMPkpd{^Kq6v)LL%aV!ph>y`j7k)
z>Wk~+Xy6+CU}=yEZGbrdM1f}zgY1zB;&C3>VFUXbHwQCc<Qz~g%>&k~T<J_;19X9*
z?A&d(Hua%qwhk?#Cj7cu;1XBYdKAw*;FlrVk#><P<uLjQ3JQc6JrtewR6D^4z!KqE
zl<-T;sol^dQx^)8<MwUQCL&nAz<j7)TPqb2-N2H^B_OU6QR60N(9vF-?f=71XcKLw
z&}S8G?oeaj6uc)S<Q_<b5YZPLaa7{D-og#1p_wxa+zb<otzEWw@v(Y;z^GBM^8~*Q
zE)wY`&p2}bexYkla|t<)^)S-|He&#9W(U8;Q&RMV=*Th>waw;vCH9?QFGS31XfP?Q
z6?|d8rZM<O6s+k<04OTstFdVLvtRl9&TPv=iaQxSxHhqgC?dSuuT(AtRx^I{Pm&vu
zY+BG`<AKs^fk%$V`8<Jqly-aLKbCh2FV@b@Xt`sF<d-?b9M_whG=)?FM*I(tQEmT+
z|JUnrD*!E#XP@AmO@qiF=g*s`XxJjgA^y<+pG;|9Yau{#;}an$ug?7tn@IO35jZlw
z<!_$8x~?zzwcp3?y^`CyH=<~J>}ATVN%S$53`wc{Zw@v#wsTP!I$wG&M0{v$dB*7F
z8O@J>@c(Csw)S)vI!c$8PWler=I;(LkA^m&<DtbL2U=1fm*zEvw{)tgD+sD{dpqVw
z2s6=}#;kG(YHOO=HJJS!-N7}M4;rX6M^A2Y>LGqn!HyGbHGpEzxsVqFhSS#oSqdEI
z0)blPztp&=bi_+L-*`0RMuw|y<*iWF`x`p7NUTXVcu*043Z)7c)w|D^s$pFJ1$1pJ
zcCe2`TPd&fR6&y1!K~D@Nk2*oGwxfHO(lEip@otezE1o_%j<9)C>{V{4(TsLxbn`6
zcm02djr)qQgNv#q5ANJgR<h(2E|%P62v!|9D#_zmjnI^Bd5!&-={wquf5&hbHtlSY
z{-`>JMKlc}*_$|Ff+CMR{So{VMvx8&IB9$FOifgKhZJ9+pv4gm?+v1*+tMv7IXsM<
zBBZwf=6GXQ1RKWIC4JT$$Mzx}A5x!Je7y=jSz+t?`Co&mH_?SEfg<;xzMU9I`i|*1
zHBpoBIbO;w^ZZ&a)?+sb0reAz85qU`M(ZB{ujh3Yo67%p#w?(ciHa1)O$=5ev)Z&%
zM$$AHtuZ8eprj&wlXmlFlI1Mv_wj`i^|9c)?+fCb03GOvw`$pS8+70y9Iw1cbVY=%
z&qm+%3=_atv{du5D?9zr+7aAxRSKgpj2uxchn|Ouc<b;;f(9gZyP7hE&IROU({CNQ
z5d5WRc@7ZbRGiMFwS(G@X3N*`k6mx+JR;ewWpouU1Z?oViiZ6q->#EKP|{GJHVY4t
zo^XAY@hy6$|L65Boyh?rt(1Xcf5E%jMI7zsLoi>hv*$#fNSN@ktq-j2Gh=<HOr3gq
zPJAKJTcAAEPkiFvM+W>TdC5303^lk6ds>K<&|zS6EwHV?)c%Y94SzC?8M<gJ%+J3V
zN%d%*WNfq*eXI5w4)sNApO^0T*8HC(Z~0vDexgOT)k2w7L|j0RN>~TwE0ja<8Wu7$
zNn)tRlzr14Fl1q`_FroGxBmu!_dpgkCOVoKLp0!=p+3&?-k4lQB#ny*-nLCoU;i2x
zgRfn)VL-e2@LjCgt|RbmAJSo-z^kS~Ost_A!;b00!&N>8<%u#Yyy{M>0Ld}y%i`O?
zn_@jbzvi>o>d<4&%lo_in&fV$r5)qEng)r4#wOub-b=|hMWHK88g*8v<O|N>WA9;Y
zR#Bz7fx169(K=|7RP)(#o%^+qw7sE29f(zR23Hj$INp<Y%k}H(ADoGUq}OFofcpHT
zcf=V)iiy>pZMpy0rdWQPEf*+{haxQ?krCUy_4TJBPN0w?vos28#MYJT)5Smd4pdPQ
zN+tV2wj_sLvi9fi-!=pmCP54^O`tp%!{eD`Wwrar#@42PiA3=>F#s`)RsgW~K}h4|
z^_{uOF3(B7P#4+1dw2f;(W4<?L>-y-8@H#5PzR)(AmmLKAiI=*+zjIKrr&4~SGf)c
zbnu7~1$i^YRr|ke6w;=fI(HW%lu&1R2&Y;s@#d^2Pu4ToyG0p-hjRv&z0>P<CS4^`
zq4x<&Y5xn52N@t_ufkk)?x%odZDNkHnCl&;y)ZH?%<<hk@k2Lmz*Q69Pw8G(&<y}Q
zeLuYzH@@R9FVaM%m7y2-8yQvV2WZWBE`Htj#JxySM6Q!-)o~l!k)|XRb86{wqg)JU
zzM`aLHq{Ht$Gr`;xtFVG{3Q^MKtDB$wt`G&eac$!aa(R&B9Y5NYJplM4!`Ql7iQRD
zW`2{EB@JD;Gx3!~<sdt<HAb@*0xm#?=b)*f*4DSnls3nvBL`uET2$7<ha(3K8bm3b
zbdW3%opjg@n||X;RV-<oVh&}j$PDd#Q9dEGC{}I}pHd0X(bq3$hmjM4N(IW3fddfD
zC#)mG?cA@ozp3b!Cmf+C@?4de{6<ixKYVyb_P$AOOIwYPoI1my1p6C?X;lIVBXR3c
z(1JzB*fx0#T}~px5qd6z1|cdvL;Zy1q4GCx9N%3M%W(Jx&0t?Zpy{QTze(i91&p~Q
zqjCou2)nilBZB{tQQfLAB!QLzQkA#9OWO9U|KGqpqGH4Y%hwG|NvUObUWXD2Ygf_m
z55C=K9aqeT7VN21t=Xrf5amR`*r(Nj&*OvdfokCA9S_Ickr~Y7$jJ5S;cxmDD@AU8
zopNDS0`)wB@*%ut*I{s*xmJ)N5Er2-yvpO@_!d}ZQH#cN&*{-nRfL>9Ef0)_mSJE5
zlDZc;fQ649wO*J+J&!s#d*w2LducRtRY-zZemf??rFH0Vcm^{<=kuM^S&K(RkW#`=
zIswdAclqbGLv{FYP;hWFZV;e-aKIxdzam%d*OmP~9r6mBh;qJQo#T`8|HX>uMCip(
z72mX@W%vFX0#>q}xDzxu--5Ob06}yp-_dR`f`)KsXUVVqfslzE5UI<2@`TdWL_<1{
zs}MWze3v)w`osS1&q0gUePZ_y)B%tDgcnZV0_S3#mlp!EcPHa*g_s#Fnt`T^Zro^D
zavk%jQ=d|U09c1SHCS1sF>!IOBpp1$9KU1<AT?PIa<_#1f+%lX{^ErW{9fR&9z(1q
zRP<77`|S-fWJ>b%wXOFHG!<e_ZVUUv)TVm!*xP~}4Vev(inG=ljSUS6Yqnsk!Gl$8
zSG=?<-MKz`ba`m`rMZ`1xBSPI4VUJEFfy9(s1#`7!~K|CSWZh9EeeSrCoWo2Mp!6D
ziL<UWtxjmX1i`m>kEH;Gqs@D8skXMZuu5^*<NxcVqD-8MT*YK4c@rj#@u`zOf8I<q
z4)Z6~lB5h%`M$h-IXxef7qy!(<DWTZ2+l^8H(G>htf7?Vw(u{pK_8yYePD}bDDw@M
z71eW-m$CVeFW(}3WIn}#_=_vgdfZ9P@AuVw?NiO7RW1Lq(D-Q_`3G~Sn7VNlZ~Gyz
zMU2CH@9y31kg|d9vl)fF@I*g}4C9R^^6V!C|6UYtJCZi_F{xooqjt7?CdsFnh-BP{
zSv>uGOZ1R8n(czkAd4D3XwdD<Od(Lrg)$kAVfVv5oF#I%rP3s@Ura{@RSDMiS&u8z
z{E8Y<S|iS}QAj3Pz@qi2IJEJ<UQSML+2Kpx52Y;sxNODJr4dCIz(6{-jlX==82x>T
z+SV&`^ZMCj@E=;Ew_QVtd%^B_nFbLDa!f@URM~t)OZ(FzI&(dnEjbtm4j!auV|Vi+
zMHrGL&9g<Y_&+cIo9U0*vy%UNJFr80KJ)!O|1<x8I3tmGOl&j8-~UQ-ShLMU{oh-X
yh3!4P|M%Xzt?hmJ-`^WM_kZH*ws$Yrne>}vlv`wWUroGYHgWodGp2w3^Zx*GW^%*;

diff --git a/tools/update-dockerfile-graph.sh b/tools/update-dockerfile-graph.sh
index 98cff47d1..a1e22a69c 100755
--- a/tools/update-dockerfile-graph.sh
+++ b/tools/update-dockerfile-graph.sh
@@ -4,8 +4,11 @@
 
 set -euo pipefail
 
-# Check if docker/Dockerfile is staged for commit
-if git diff --cached --name-only | grep -q "^docker/Dockerfile$"; then
+# Accept file paths as arguments
+FILES=("$@")
+
+# Check if docker/Dockerfile is among the provided files
+if printf '%s\n' "${FILES[@]}" | grep -q "^docker/Dockerfile$"; then
   echo "docker/Dockerfile has changed, attempting to update dependency graph..."
 
   # Check if Docker is installed and running
@@ -75,4 +78,4 @@ if git diff --cached --name-only | grep -q "^docker/Dockerfile$"; then
   fi
 fi
 
-exit 0 
+exit 0
-- 
GitLab


From f9bc5a0693d831467df738fce36c701f6a88a18d Mon Sep 17 00:00:00 2001
From: Mengqing Cao <cmq0113@163.com>
Date: Tue, 6 May 2025 17:53:09 +0800
Subject: [PATCH 166/461] [Bugfix] Fix triton import with local
 TritonPlaceholder (#17446)

Signed-off-by: Mengqing Cao <cmq0113@163.com>
---
 benchmarks/kernels/benchmark_moe.py           |  2 +-
 benchmarks/kernels/benchmark_rmsnorm.py       |  2 +-
 .../benchmark_fp8_block_dense_gemm.py         |  2 +-
 tests/kernels/attention/test_flashmla.py      |  2 +-
 tests/test_triton_utils.py                    | 92 +++++++++++++++++++
 .../blocksparse_attention_kernel.py           |  4 +-
 .../ops/blocksparse_attention/utils.py        |  3 +-
 .../ops/chunked_prefill_paged_decode.py       |  3 +-
 vllm/attention/ops/prefix_prefill.py          |  3 +-
 vllm/attention/ops/triton_decode_attention.py |  4 +-
 vllm/attention/ops/triton_flash_attention.py  |  3 +-
 .../attention/ops/triton_merge_attn_states.py |  4 +-
 vllm/lora/ops/triton_ops/kernel_utils.py      |  3 +-
 .../layers/fused_moe/fused_moe.py             |  3 +-
 .../layers/fused_moe/moe_align_block_size.py  |  3 +-
 vllm/model_executor/layers/lightning_attn.py  |  4 +-
 .../layers/mamba/ops/mamba_ssm.py             |  4 +-
 .../layers/mamba/ops/ssd_bmm.py               |  4 +-
 .../layers/mamba/ops/ssd_chunk_scan.py        |  4 +-
 .../layers/mamba/ops/ssd_chunk_state.py       |  4 +-
 .../layers/mamba/ops/ssd_combined.py          |  3 +-
 .../layers/mamba/ops/ssd_state_passing.py     |  4 +-
 .../layers/quantization/awq_triton.py         |  4 +-
 .../compressed_tensors/triton_scaled_mm.py    |  4 +-
 .../layers/quantization/utils/fp8_utils.py    |  3 +-
 .../layers/quantization/utils/int8_utils.py   |  3 +-
 vllm/triton_utils/__init__.py                 | 12 ++-
 vllm/triton_utils/importing.py                | 60 ++++++------
 vllm/v1/sample/rejection_sampler.py           |  3 +-
 vllm/v1/spec_decode/eagle.py                  |  3 +-
 30 files changed, 171 insertions(+), 81 deletions(-)
 create mode 100644 tests/test_triton_utils.py

diff --git a/benchmarks/kernels/benchmark_moe.py b/benchmarks/kernels/benchmark_moe.py
index 9407747f7..1884a80a4 100644
--- a/benchmarks/kernels/benchmark_moe.py
+++ b/benchmarks/kernels/benchmark_moe.py
@@ -10,12 +10,12 @@ from typing import Any, TypedDict
 
 import ray
 import torch
-import triton
 from ray.experimental.tqdm_ray import tqdm
 from transformers import AutoConfig
 
 from vllm.model_executor.layers.fused_moe.fused_moe import *
 from vllm.platforms import current_platform
+from vllm.triton_utils import triton
 from vllm.utils import FlexibleArgumentParser
 
 FP8_DTYPE = current_platform.fp8_dtype()
diff --git a/benchmarks/kernels/benchmark_rmsnorm.py b/benchmarks/kernels/benchmark_rmsnorm.py
index eaf6b25e8..09a319ccf 100644
--- a/benchmarks/kernels/benchmark_rmsnorm.py
+++ b/benchmarks/kernels/benchmark_rmsnorm.py
@@ -4,11 +4,11 @@ import itertools
 from typing import Optional, Union
 
 import torch
-import triton
 from flashinfer.norm import fused_add_rmsnorm, rmsnorm
 from torch import nn
 
 from vllm import _custom_ops as vllm_ops
+from vllm.triton_utils import triton
 
 
 class HuggingFaceRMSNorm(nn.Module):
diff --git a/benchmarks/kernels/deepgemm/benchmark_fp8_block_dense_gemm.py b/benchmarks/kernels/deepgemm/benchmark_fp8_block_dense_gemm.py
index 7892f126e..5fa55bb97 100644
--- a/benchmarks/kernels/deepgemm/benchmark_fp8_block_dense_gemm.py
+++ b/benchmarks/kernels/deepgemm/benchmark_fp8_block_dense_gemm.py
@@ -6,13 +6,13 @@ import time
 # Import DeepGEMM functions
 import deep_gemm
 import torch
-import triton
 from deep_gemm import calc_diff, ceil_div, get_col_major_tma_aligned_tensor
 
 # Import vLLM functions
 from vllm import _custom_ops as ops
 from vllm.model_executor.layers.quantization.utils.fp8_utils import (
     per_token_group_quant_fp8, w8a8_block_fp8_matmul)
+from vllm.triton_utils import triton
 
 
 # Copied from
diff --git a/tests/kernels/attention/test_flashmla.py b/tests/kernels/attention/test_flashmla.py
index 3985c6834..0d51a8e7f 100644
--- a/tests/kernels/attention/test_flashmla.py
+++ b/tests/kernels/attention/test_flashmla.py
@@ -5,11 +5,11 @@ import random
 
 import pytest
 import torch
-import triton
 
 from vllm.attention.ops.flashmla import (flash_mla_with_kvcache,
                                          get_mla_metadata,
                                          is_flashmla_supported)
+from vllm.triton_utils import triton
 
 
 def cal_diff(x: torch.Tensor, y: torch.Tensor, name: str) -> None:
diff --git a/tests/test_triton_utils.py b/tests/test_triton_utils.py
new file mode 100644
index 000000000..eb8ad48fd
--- /dev/null
+++ b/tests/test_triton_utils.py
@@ -0,0 +1,92 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import sys
+import types
+from unittest import mock
+
+from vllm.triton_utils.importing import (TritonLanguagePlaceholder,
+                                         TritonPlaceholder)
+
+
+def test_triton_placeholder_is_module():
+    triton = TritonPlaceholder()
+    assert isinstance(triton, types.ModuleType)
+    assert triton.__name__ == "triton"
+
+
+def test_triton_language_placeholder_is_module():
+    triton_language = TritonLanguagePlaceholder()
+    assert isinstance(triton_language, types.ModuleType)
+    assert triton_language.__name__ == "triton.language"
+
+
+def test_triton_placeholder_decorators():
+    triton = TritonPlaceholder()
+
+    @triton.jit
+    def foo(x):
+        return x
+
+    @triton.autotune
+    def bar(x):
+        return x
+
+    @triton.heuristics
+    def baz(x):
+        return x
+
+    assert foo(1) == 1
+    assert bar(2) == 2
+    assert baz(3) == 3
+
+
+def test_triton_placeholder_decorators_with_args():
+    triton = TritonPlaceholder()
+
+    @triton.jit(debug=True)
+    def foo(x):
+        return x
+
+    @triton.autotune(configs=[], key="x")
+    def bar(x):
+        return x
+
+    @triton.heuristics(
+        {"BLOCK_SIZE": lambda args: 128 if args["x"] > 1024 else 64})
+    def baz(x):
+        return x
+
+    assert foo(1) == 1
+    assert bar(2) == 2
+    assert baz(3) == 3
+
+
+def test_triton_placeholder_language():
+    lang = TritonLanguagePlaceholder()
+    assert isinstance(lang, types.ModuleType)
+    assert lang.__name__ == "triton.language"
+    assert lang.constexpr is None
+    assert lang.dtype is None
+    assert lang.int64 is None
+
+
+def test_triton_placeholder_language_from_parent():
+    triton = TritonPlaceholder()
+    lang = triton.language
+    assert isinstance(lang, TritonLanguagePlaceholder)
+
+
+def test_no_triton_fallback():
+    # clear existing triton modules
+    sys.modules.pop("triton", None)
+    sys.modules.pop("triton.language", None)
+    sys.modules.pop("vllm.triton_utils", None)
+    sys.modules.pop("vllm.triton_utils.importing", None)
+
+    # mock triton not being installed
+    with mock.patch.dict(sys.modules, {"triton": None}):
+        from vllm.triton_utils import HAS_TRITON, tl, triton
+        assert HAS_TRITON is False
+        assert triton.__class__.__name__ == "TritonPlaceholder"
+        assert triton.language.__class__.__name__ == "TritonLanguagePlaceholder"
+        assert tl.__class__.__name__ == "TritonLanguagePlaceholder"
diff --git a/vllm/attention/ops/blocksparse_attention/blocksparse_attention_kernel.py b/vllm/attention/ops/blocksparse_attention/blocksparse_attention_kernel.py
index 71caf3cba..bc87ce33a 100644
--- a/vllm/attention/ops/blocksparse_attention/blocksparse_attention_kernel.py
+++ b/vllm/attention/ops/blocksparse_attention/blocksparse_attention_kernel.py
@@ -1,8 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import torch
-import triton
-import triton.language as tl
+
+from vllm.triton_utils import tl, triton
 
 
 def blocksparse_flash_attn_varlen_fwd(
diff --git a/vllm/attention/ops/blocksparse_attention/utils.py b/vllm/attention/ops/blocksparse_attention/utils.py
index 4de9bd530..e64fc1139 100644
--- a/vllm/attention/ops/blocksparse_attention/utils.py
+++ b/vllm/attention/ops/blocksparse_attention/utils.py
@@ -8,7 +8,8 @@ from functools import lru_cache
 
 import numpy as np
 import torch
-import triton
+
+from vllm.triton_utils import triton
 
 
 class csr_matrix:
diff --git a/vllm/attention/ops/chunked_prefill_paged_decode.py b/vllm/attention/ops/chunked_prefill_paged_decode.py
index 759b3d853..dc039a025 100644
--- a/vllm/attention/ops/chunked_prefill_paged_decode.py
+++ b/vllm/attention/ops/chunked_prefill_paged_decode.py
@@ -7,11 +7,10 @@
 #  - Thomas Parnell <tpa@zurich.ibm.com>
 
 import torch
-import triton
-import triton.language as tl
 
 from vllm import _custom_ops as ops
 from vllm.platforms.rocm import use_rocm_custom_paged_attention
+from vllm.triton_utils import tl, triton
 
 from .prefix_prefill import context_attention_fwd
 
diff --git a/vllm/attention/ops/prefix_prefill.py b/vllm/attention/ops/prefix_prefill.py
index a8c8d8409..86d256b63 100644
--- a/vllm/attention/ops/prefix_prefill.py
+++ b/vllm/attention/ops/prefix_prefill.py
@@ -4,10 +4,9 @@
 # https://github.com/ModelTC/lightllm/blob/main/lightllm/models/llama/triton_kernel/context_flashattention_nopad.py
 
 import torch
-import triton
-import triton.language as tl
 
 from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
 
 # Static kernels parameters
 BASE_BLOCK = 128 if current_platform.has_device_capability(80) else 64
diff --git a/vllm/attention/ops/triton_decode_attention.py b/vllm/attention/ops/triton_decode_attention.py
index 35ee0835f..fb983907e 100644
--- a/vllm/attention/ops/triton_decode_attention.py
+++ b/vllm/attention/ops/triton_decode_attention.py
@@ -30,10 +30,8 @@ It supports page size >= 1.
 
 import logging
 
-import triton
-import triton.language as tl
-
 from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
 
 is_hip_ = current_platform.is_rocm()
 
diff --git a/vllm/attention/ops/triton_flash_attention.py b/vllm/attention/ops/triton_flash_attention.py
index 23ac7d7dc..8940d0b66 100644
--- a/vllm/attention/ops/triton_flash_attention.py
+++ b/vllm/attention/ops/triton_flash_attention.py
@@ -25,11 +25,10 @@ Currently only the forward kernel is supported, and contains these features:
 from typing import Optional
 
 import torch
-import triton
-import triton.language as tl
 
 from vllm import _custom_ops as ops
 from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
 
 SUPPORTED_LAYOUTS = ['thd', 'bhsd', 'bshd']
 
diff --git a/vllm/attention/ops/triton_merge_attn_states.py b/vllm/attention/ops/triton_merge_attn_states.py
index 250426d9f..30e61b6d8 100644
--- a/vllm/attention/ops/triton_merge_attn_states.py
+++ b/vllm/attention/ops/triton_merge_attn_states.py
@@ -2,8 +2,8 @@
 from typing import Optional
 
 import torch
-import triton
-import triton.language as tl
+
+from vllm.triton_utils import tl, triton
 
 
 # Implements section 2.2 of https://www.arxiv.org/pdf/2501.01005
diff --git a/vllm/lora/ops/triton_ops/kernel_utils.py b/vllm/lora/ops/triton_ops/kernel_utils.py
index 5b8c19376..0f971c035 100644
--- a/vllm/lora/ops/triton_ops/kernel_utils.py
+++ b/vllm/lora/ops/triton_ops/kernel_utils.py
@@ -2,8 +2,7 @@
 """
 Utilities for Punica kernel construction.
 """
-import triton
-import triton.language as tl
+from vllm.triton_utils import tl, triton
 
 
 @triton.jit
diff --git a/vllm/model_executor/layers/fused_moe/fused_moe.py b/vllm/model_executor/layers/fused_moe/fused_moe.py
index c1edbda0d..075b98d14 100644
--- a/vllm/model_executor/layers/fused_moe/fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/fused_moe.py
@@ -6,8 +6,6 @@ import os
 from typing import Any, Callable, Dict, List, Optional, Tuple
 
 import torch
-import triton
-import triton.language as tl
 
 import vllm.envs as envs
 from vllm import _custom_ops as ops
@@ -21,6 +19,7 @@ from vllm.model_executor.layers.quantization.utils.fp8_utils import (
 from vllm.model_executor.layers.quantization.utils.int8_utils import (
     per_token_group_quant_int8, per_token_quant_int8)
 from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
 from vllm.utils import direct_register_custom_op
 
 from .rocm_aiter_fused_moe import is_rocm_aiter_moe_enabled
diff --git a/vllm/model_executor/layers/fused_moe/moe_align_block_size.py b/vllm/model_executor/layers/fused_moe/moe_align_block_size.py
index 07d51acf9..b68e58efa 100644
--- a/vllm/model_executor/layers/fused_moe/moe_align_block_size.py
+++ b/vllm/model_executor/layers/fused_moe/moe_align_block_size.py
@@ -2,11 +2,10 @@
 from typing import Optional, Tuple
 
 import torch
-import triton
-import triton.language as tl
 
 import vllm.envs as envs
 from vllm import _custom_ops as ops
+from vllm.triton_utils import tl, triton
 from vllm.utils import round_up
 
 
diff --git a/vllm/model_executor/layers/lightning_attn.py b/vllm/model_executor/layers/lightning_attn.py
index de360778f..96659af40 100644
--- a/vllm/model_executor/layers/lightning_attn.py
+++ b/vllm/model_executor/layers/lightning_attn.py
@@ -1,9 +1,9 @@
 # SPDX-License-Identifier: Apache-2.0
 import torch
-import triton
-import triton.language as tl
 from einops import rearrange
 
+from vllm.triton_utils import tl, triton
+
 
 @triton.jit
 def _fwd_diag_kernel(Q, K, V, Out, S, b: tl.constexpr, h: tl.constexpr, n,
diff --git a/vllm/model_executor/layers/mamba/ops/mamba_ssm.py b/vllm/model_executor/layers/mamba/ops/mamba_ssm.py
index 9fbad9d2f..689c940d1 100644
--- a/vllm/model_executor/layers/mamba/ops/mamba_ssm.py
+++ b/vllm/model_executor/layers/mamba/ops/mamba_ssm.py
@@ -4,13 +4,11 @@
 # Adapted from https://github.com/state-spaces/mamba/blob/v2.2.4/mamba_ssm/ops/triton/selective_state_update.py
 
 import torch
-import triton
-import triton.language as tl
 from packaging import version
 
 from vllm import _custom_ops as ops
 from vllm.attention.backends.utils import PAD_SLOT_ID
-from vllm.triton_utils import HAS_TRITON
+from vllm.triton_utils import HAS_TRITON, tl, triton
 
 TRITON3 = HAS_TRITON and (version.parse(triton.__version__)
                           >= version.parse("3.0.0"))
diff --git a/vllm/model_executor/layers/mamba/ops/ssd_bmm.py b/vllm/model_executor/layers/mamba/ops/ssd_bmm.py
index 388a63327..0fdb055aa 100644
--- a/vllm/model_executor/layers/mamba/ops/ssd_bmm.py
+++ b/vllm/model_executor/layers/mamba/ops/ssd_bmm.py
@@ -8,8 +8,8 @@
 import math
 
 import torch
-import triton
-import triton.language as tl
+
+from vllm.triton_utils import tl, triton
 
 
 @triton.autotune(
diff --git a/vllm/model_executor/layers/mamba/ops/ssd_chunk_scan.py b/vllm/model_executor/layers/mamba/ops/ssd_chunk_scan.py
index 005917f23..1652c5181 100644
--- a/vllm/model_executor/layers/mamba/ops/ssd_chunk_scan.py
+++ b/vllm/model_executor/layers/mamba/ops/ssd_chunk_scan.py
@@ -6,10 +6,10 @@
 # ruff: noqa: E501,SIM102
 
 import torch
-import triton
-import triton.language as tl
 from packaging import version
 
+from vllm.triton_utils import tl, triton
+
 TRITON_22 = version.parse(triton.__version__) >= version.parse('2.2.0')
 
 
diff --git a/vllm/model_executor/layers/mamba/ops/ssd_chunk_state.py b/vllm/model_executor/layers/mamba/ops/ssd_chunk_state.py
index a970ac945..ee6335690 100644
--- a/vllm/model_executor/layers/mamba/ops/ssd_chunk_state.py
+++ b/vllm/model_executor/layers/mamba/ops/ssd_chunk_state.py
@@ -8,8 +8,8 @@
 import math
 
 import torch
-import triton
-import triton.language as tl
+
+from vllm.triton_utils import tl, triton
 
 from .mamba_ssm import softplus
 
diff --git a/vllm/model_executor/layers/mamba/ops/ssd_combined.py b/vllm/model_executor/layers/mamba/ops/ssd_combined.py
index 3febd4ccb..e9efe6428 100644
--- a/vllm/model_executor/layers/mamba/ops/ssd_combined.py
+++ b/vllm/model_executor/layers/mamba/ops/ssd_combined.py
@@ -6,10 +6,11 @@
 # ruff: noqa: E501
 
 import torch
-import triton
 from einops import rearrange
 from packaging import version
 
+from vllm.triton_utils import triton
+
 from .ssd_bmm import _bmm_chunk_fwd
 from .ssd_chunk_scan import _chunk_scan_fwd
 from .ssd_chunk_state import (_chunk_cumsum_fwd, _chunk_state_fwd,
diff --git a/vllm/model_executor/layers/mamba/ops/ssd_state_passing.py b/vllm/model_executor/layers/mamba/ops/ssd_state_passing.py
index 219c5306f..6f69ca743 100644
--- a/vllm/model_executor/layers/mamba/ops/ssd_state_passing.py
+++ b/vllm/model_executor/layers/mamba/ops/ssd_state_passing.py
@@ -6,8 +6,8 @@
 # ruff: noqa: E501
 
 import torch
-import triton
-import triton.language as tl
+
+from vllm.triton_utils import tl, triton
 
 
 @triton.autotune(
diff --git a/vllm/model_executor/layers/quantization/awq_triton.py b/vllm/model_executor/layers/quantization/awq_triton.py
index 09efd4dbd..5e5491578 100644
--- a/vllm/model_executor/layers/quantization/awq_triton.py
+++ b/vllm/model_executor/layers/quantization/awq_triton.py
@@ -1,8 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import torch
-import triton
-import triton.language as tl
+
+from vllm.triton_utils import tl, triton
 
 AWQ_TRITON_SUPPORTED_GROUP_SIZES = [-1, 32, 64, 128]
 
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/triton_scaled_mm.py b/vllm/model_executor/layers/quantization/compressed_tensors/triton_scaled_mm.py
index b69c5e7a0..d5d98ee8b 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/triton_scaled_mm.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/triton_scaled_mm.py
@@ -3,8 +3,8 @@
 from typing import Optional, Type
 
 import torch
-import triton
-import triton.language as tl
+
+from vllm.triton_utils import tl, triton
 
 
 def is_weak_contiguous(x: torch.Tensor):
diff --git a/vllm/model_executor/layers/quantization/utils/fp8_utils.py b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
index ecb7996e1..064cbb8cf 100644
--- a/vllm/model_executor/layers/quantization/utils/fp8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
@@ -7,8 +7,6 @@ import os
 from typing import Any, Dict, List, Optional, Tuple, Union
 
 import torch
-import triton
-import triton.language as tl
 
 from vllm import _custom_ops as ops
 from vllm.logger import init_logger
@@ -17,6 +15,7 @@ from vllm.model_executor.layers.quantization.utils.quant_utils import (
 from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
     CUTLASS_BLOCK_FP8_SUPPORTED)
 from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
 from vllm.utils import direct_register_custom_op
 
 logger = init_logger(__name__)
diff --git a/vllm/model_executor/layers/quantization/utils/int8_utils.py b/vllm/model_executor/layers/quantization/utils/int8_utils.py
index aaaf7a9e0..431f0cf73 100644
--- a/vllm/model_executor/layers/quantization/utils/int8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/int8_utils.py
@@ -8,10 +8,9 @@ import os
 from typing import Any, Dict, List, Optional, Tuple
 
 import torch
-import triton
-import triton.language as tl
 
 from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
 
 logger = logging.getLogger(__name__)
 
diff --git a/vllm/triton_utils/__init__.py b/vllm/triton_utils/__init__.py
index bffc56a2e..9f14a907a 100644
--- a/vllm/triton_utils/__init__.py
+++ b/vllm/triton_utils/__init__.py
@@ -1,5 +1,13 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from vllm.triton_utils.importing import HAS_TRITON
+from vllm.triton_utils.importing import (HAS_TRITON, TritonLanguagePlaceholder,
+                                         TritonPlaceholder)
 
-__all__ = ["HAS_TRITON"]
+if HAS_TRITON:
+    import triton
+    import triton.language as tl
+else:
+    triton = TritonPlaceholder()
+    tl = TritonLanguagePlaceholder()
+
+__all__ = ["HAS_TRITON", "triton", "tl"]
diff --git a/vllm/triton_utils/importing.py b/vllm/triton_utils/importing.py
index 0a0c0a4bd..8cf2e01a3 100644
--- a/vllm/triton_utils/importing.py
+++ b/vllm/triton_utils/importing.py
@@ -16,32 +16,34 @@ if not HAS_TRITON:
     logger.info("Triton not installed or not compatible; certain GPU-related"
                 " functions will not be available.")
 
-    class TritonPlaceholder(types.ModuleType):
-
-        def __init__(self):
-            super().__init__("triton")
-            self.jit = self._dummy_decorator("jit")
-            self.autotune = self._dummy_decorator("autotune")
-            self.heuristics = self._dummy_decorator("heuristics")
-            self.language = TritonLanguagePlaceholder()
-            logger.warning_once(
-                "Triton is not installed. Using dummy decorators. "
-                "Install it via `pip install triton` to enable kernel"
-                "compilation.")
-
-        def _dummy_decorator(self, name):
-
-            def decorator(func=None, **kwargs):
-                if func is None:
-                    return lambda f: f
-                return func
-
-            return decorator
-
-    class TritonLanguagePlaceholder(types.ModuleType):
-
-        def __init__(self):
-            super().__init__("triton.language")
-            self.constexpr = None
-            self.dtype = None
-            self.int64 = None
+
+class TritonPlaceholder(types.ModuleType):
+
+    def __init__(self):
+        super().__init__("triton")
+        self.jit = self._dummy_decorator("jit")
+        self.autotune = self._dummy_decorator("autotune")
+        self.heuristics = self._dummy_decorator("heuristics")
+        self.language = TritonLanguagePlaceholder()
+        logger.warning_once(
+            "Triton is not installed. Using dummy decorators. "
+            "Install it via `pip install triton` to enable kernel"
+            " compilation.")
+
+    def _dummy_decorator(self, name):
+
+        def decorator(*args, **kwargs):
+            if args and callable(args[0]):
+                return args[0]
+            return lambda f: f
+
+        return decorator
+
+
+class TritonLanguagePlaceholder(types.ModuleType):
+
+    def __init__(self):
+        super().__init__("triton.language")
+        self.constexpr = None
+        self.dtype = None
+        self.int64 = None
diff --git a/vllm/v1/sample/rejection_sampler.py b/vllm/v1/sample/rejection_sampler.py
index b25443dd4..17b870fed 100644
--- a/vllm/v1/sample/rejection_sampler.py
+++ b/vllm/v1/sample/rejection_sampler.py
@@ -3,10 +3,9 @@ from typing import Optional
 
 import torch
 import torch.nn as nn
-import triton
-import triton.language as tl
 
 from vllm.logger import init_logger
+from vllm.triton_utils import tl, triton
 from vllm.v1.sample.metadata import SamplingMetadata
 from vllm.v1.sample.ops.topk_topp_sampler import apply_top_k_top_p
 from vllm.v1.spec_decode.metadata import SpecDecodeMetadata
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index 07097d7da..6d71743c5 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -1,8 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 import torch
 import torch.nn as nn
-import triton
-import triton.language as tl
 
 from vllm.config import CompilationLevel, VllmConfig, set_current_vllm_config
 from vllm.forward_context import set_forward_context
@@ -11,6 +9,7 @@ from vllm.model_executor.model_loader.loader import get_model_loader
 from vllm.model_executor.model_loader.utils import set_default_torch_dtype
 from vllm.model_executor.models import ModelRegistry
 from vllm.model_executor.models.llama_eagle3 import Eagle3LlamaForCausalLM
+from vllm.triton_utils import tl, triton
 from vllm.v1.attention.backends.flash_attn import FlashAttentionMetadata
 from vllm.v1.sample.metadata import SamplingMetadata
 
-- 
GitLab


From d419aa5dc4a519e4c8bdefbf767457dd687d9556 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Tue, 6 May 2025 09:49:49 -0400
Subject: [PATCH 167/461] [V1] Enable TPU V1 backend by default (#17673)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 vllm/engine/arg_utils.py | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 08dbb4c45..d20ef6843 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1354,9 +1354,10 @@ class EngineArgs:
         if is_eagle_enabled and _warn_or_fallback("Eagle"):
             return False
 
-        # Non-CUDA is supported on V1, but off by default for now.
-        not_cuda = not current_platform.is_cuda()
-        if not_cuda and _warn_or_fallback(  # noqa: SIM103
+        # Non-[CUDA, TPU] may be supported on V1, but off by default for now.
+        v0_hardware = not any(
+            (current_platform.is_cuda(), current_platform.is_tpu()))
+        if v0_hardware and _warn_or_fallback(  # noqa: SIM103
                 current_platform.device_name):
             return False
         #############################################################
-- 
GitLab


From a6fed02068e7f2898715f80fbac93de4bea076be Mon Sep 17 00:00:00 2001
From: "Li, Jiang" <jiang1.li@intel.com>
Date: Tue, 6 May 2025 22:58:05 +0800
Subject: [PATCH 168/461] [V1][PP] Support PP for MultiprocExecutor (#14219)

Signed-off-by: jiang1.li <jiang1.li@intel.com>
Signed-off-by: jiang.li <jiang1.li@intel.com>
---
 tests/distributed/test_pipeline_parallel.py | 10 ++-
 vllm/engine/arg_utils.py                    |  7 +-
 vllm/v1/executor/multiproc_executor.py      | 87 ++++++++++++++++-----
 vllm/v1/worker/gpu_model_runner.py          |  2 +-
 vllm/v1/worker/gpu_worker.py                | 20 ++++-
 5 files changed, 98 insertions(+), 28 deletions(-)

diff --git a/tests/distributed/test_pipeline_parallel.py b/tests/distributed/test_pipeline_parallel.py
index 03de8d9b9..9c90fe381 100644
--- a/tests/distributed/test_pipeline_parallel.py
+++ b/tests/distributed/test_pipeline_parallel.py
@@ -100,9 +100,8 @@ class PPTestSettings:
                               eager_mode=True,
                               chunked_prefill=False),
             ],
-            # only ray is supported for V1
-            distributed_backends=["mp", "ray", "ray"],
-            vllm_major_versions=["0", "0", "1"],
+            distributed_backends=["mp", "mp", "ray", "ray"],
+            vllm_major_versions=["0", "1", "0", "1"],
             task=task,
             test_options=PPTestOptions(multi_node_only=multi_node_only,
                                        load_format=load_format),
@@ -350,6 +349,11 @@ def _compare_tp(
         # Temporary. Currently when zeromq + SPMD is used, it does not properly
         # terminate because of a Ray Compiled Graph issue.
         common_args.append("--disable-frontend-multiprocessing")
+    elif distributed_backend == "mp":
+        # Both V0/V1 of multiprocessing executor support PP
+        pp_env = {
+            "VLLM_USE_V1": vllm_major_version,
+        }
     else:
         pp_env = None
 
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index d20ef6843..3a10ed9d7 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1338,11 +1338,10 @@ class EngineArgs:
                 and _warn_or_fallback("Engine in background thread")):
             return False
 
-        # PP is supported on V1 with Ray distributed executor,
-        # but off for MP distributed executor for now.
         if (self.pipeline_parallel_size > 1
-                and self.distributed_executor_backend != "ray"):
-            name = "Pipeline Parallelism without Ray distributed executor"
+                and self.distributed_executor_backend not in ["ray", "mp"]):
+            name = "Pipeline Parallelism without Ray distributed executor " \
+                    "or multiprocessing executor"
             _raise_or_fallback(feature_name=name, recommend_to_remove=False)
             return False
 
diff --git a/vllm/v1/executor/multiproc_executor.py b/vllm/v1/executor/multiproc_executor.py
index cb125bf4b..ff4499010 100644
--- a/vllm/v1/executor/multiproc_executor.py
+++ b/vllm/v1/executor/multiproc_executor.py
@@ -8,7 +8,7 @@ import threading
 import time
 import traceback
 import weakref
-from concurrent.futures import Future
+from concurrent.futures import Future, ThreadPoolExecutor
 from dataclasses import dataclass
 from enum import Enum, auto
 from functools import partial
@@ -53,10 +53,11 @@ class MultiprocExecutor(Executor):
 
         self.world_size = self.parallel_config.world_size
         tensor_parallel_size = self.parallel_config.tensor_parallel_size
-        assert self.world_size == tensor_parallel_size, (
+        pp_parallel_size = self.parallel_config.pipeline_parallel_size
+        assert self.world_size == tensor_parallel_size * pp_parallel_size, (
             f"world_size ({self.world_size}) must be equal to the "
-            f"tensor_parallel_size ({tensor_parallel_size}). "
-            f"Pipeline parallelism is not yet implemented in v1")
+            f"tensor_parallel_size ({tensor_parallel_size}) x pipeline"
+            f"_parallel_size ({pp_parallel_size}). ")
 
         # Set multiprocessing envs that are common to V0 and V1
         set_multiprocessing_worker_envs(self.parallel_config)
@@ -104,6 +105,17 @@ class MultiprocExecutor(Executor):
                 self._ensure_worker_termination(
                     [w.proc for w in unready_workers])
 
+        # For pipeline parallel, we use a thread pool for asynchronous
+        # execute_model.
+        self.io_thread_pool: Optional[ThreadPoolExecutor] = None
+        if self.max_concurrent_batches > 1:
+            # Note: must use only 1 IO thread to keep dequeue sequence
+            # from the response queue
+            self.io_thread_pool = ThreadPoolExecutor(
+                max_workers=1, thread_name_prefix="mp_exec_io")
+
+        self.output_rank = self._get_output_rank()
+
     def start_worker_monitor(self):
         workers = self.workers
         self_ref = weakref.ref(self)
@@ -145,7 +157,9 @@ class MultiprocExecutor(Executor):
     ) -> Union[ModelRunnerOutput, Future[ModelRunnerOutput]]:
         (output, ) = self.collective_rpc("execute_model",
                                          args=(scheduler_output, ),
-                                         rank0_reply_only=True,
+                                         unique_reply_rank=self.output_rank,
+                                         non_block=self.max_concurrent_batches
+                                         > 1,
                                          timeout=EXECUTE_MODEL_TIMEOUT_S)
         return output
 
@@ -154,7 +168,8 @@ class MultiprocExecutor(Executor):
                        timeout: Optional[float] = None,
                        args: tuple = (),
                        kwargs: Optional[dict] = None,
-                       rank0_reply_only: bool = False) -> list[Any]:
+                       non_block: bool = False,
+                       unique_reply_rank: Optional[int] = None) -> list[Any]:
         if self.is_failed:
             raise RuntimeError("Executor failed.")
 
@@ -171,22 +186,35 @@ class MultiprocExecutor(Executor):
                 send_method = cloudpickle.dumps(
                     method, protocol=pickle.HIGHEST_PROTOCOL)
             self.rpc_broadcast_mq.enqueue(
-                (send_method, args, kwargs, rank0_reply_only))
+                (send_method, args, kwargs, unique_reply_rank))
 
-            workers = (self.workers[0], ) if rank0_reply_only else self.workers
-            responses = [None] * len(workers)
-            for w in workers:
-                dequeue_timeout = None if deadline is None else (
-                    deadline - time.monotonic())
+            workers = (self.workers[unique_reply_rank],
+                       ) if unique_reply_rank is not None else self.workers
+            responses = []
+
+            def get_response(w: WorkerProcHandle,
+                             dequeue_timeout: Optional[float] = None,
+                             cancel_event: Optional[threading.Event] = None):
                 status, result = w.worker_response_mq.dequeue(
-                    timeout=dequeue_timeout, cancel=self.shutdown_event)
+                    timeout=dequeue_timeout, cancel=cancel_event)
 
                 if status != WorkerProc.ResponseStatus.SUCCESS:
                     raise RuntimeError(
                         f"Worker failed with error '{result}', please check the"
                         " stack trace above for the root cause")
+                return result
 
-                responses[w.rank] = result
+            for w in workers:
+                dequeue_timeout = None if deadline is None else (
+                    deadline - time.monotonic())
+
+                if non_block:
+                    result = self.io_thread_pool.submit(  # type: ignore
+                        get_response, w, dequeue_timeout, self.shutdown_event)
+                else:
+                    result = get_response(w, dequeue_timeout)
+
+                responses.append(result)
 
             return responses
         except TimeoutError as e:
@@ -225,6 +253,11 @@ class MultiprocExecutor(Executor):
         if not getattr(self, 'shutting_down', False):
             self.shutting_down = True
             self.shutdown_event.set()
+
+            if self.io_thread_pool is not None:
+                self.io_thread_pool.shutdown(wait=False, cancel_futures=True)
+                self.io_thread_pool = None
+
             for w in self.workers:
                 w.worker_response_mq = None
             self._ensure_worker_termination([w.proc for w in self.workers])
@@ -235,6 +268,22 @@ class MultiprocExecutor(Executor):
         self.collective_rpc("check_health", timeout=10)
         return
 
+    @property
+    def max_concurrent_batches(self) -> int:
+        return self.parallel_config.pipeline_parallel_size
+
+    def _get_output_rank(self) -> int:
+        # Only returns ModelRunnerOutput from TP rank=0 and PP rank=-1
+        # (the first TP worker of the last PP stage).
+        # Example:
+        # Assuming TP=8, PP=4, then the world_size=32
+        # 0-7, PP rank 0
+        # 8-15, PP rank 1
+        # 16-23, PP rank 2
+        # 24-31, PP rank 3
+        # so world_size - tp_size = 32 - 8 = 24 should be PP rank = -1 (i.e. 3)
+        return self.world_size - self.parallel_config.tensor_parallel_size
+
 
 @dataclass
 class UnreadyWorkerProcHandle:
@@ -280,12 +329,14 @@ class WorkerProc:
         all_kwargs: list[dict] = [
             {} for _ in range(vllm_config.parallel_config.world_size)
         ]
+        is_driver_worker = (
+            rank % vllm_config.parallel_config.tensor_parallel_size == 0)
         all_kwargs[rank] = {
             "vllm_config": vllm_config,
             "local_rank": local_rank,
             "rank": rank,
             "distributed_init_method": distributed_init_method,
-            "is_driver_worker": rank == 0,
+            "is_driver_worker": is_driver_worker,
         }
         wrapper.init_worker(all_kwargs)
         self.worker = wrapper
@@ -455,7 +506,7 @@ class WorkerProc:
     def worker_busy_loop(self):
         """Main busy loop for Multiprocessing Workers"""
         while True:
-            method, args, kwargs, rank0_only = self.rpc_broadcast_mq.dequeue()
+            method, args, kwargs, output_rank = self.rpc_broadcast_mq.dequeue()
 
             try:
                 if isinstance(method, str):
@@ -470,11 +521,11 @@ class WorkerProc:
                 logger.exception("WorkerProc hit an exception.")
                 # exception might not be serializable, so we convert it to
                 # string, only for logging purpose.
-                if not rank0_only or self.rank == 0:
+                if output_rank is None or self.rank == output_rank:
                     self.worker_response_mq.enqueue(
                         (WorkerProc.ResponseStatus.FAILURE, str(e)))
                 continue
 
-            if not rank0_only or self.rank == 0:
+            if output_rank is None or self.rank == output_rank:
                 self.worker_response_mq.enqueue(
                     (WorkerProc.ResponseStatus.SUCCESS, output))
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 97d8c91b4..8137cb6b9 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -1016,7 +1016,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         self,
         scheduler_output: "SchedulerOutput",
         intermediate_tensors: Optional[IntermediateTensors] = None,
-    ) -> Union[ModelRunnerOutput, torch.Tensor]:
+    ) -> Union[ModelRunnerOutput, IntermediateTensors]:
         # Update KVConnector with the KVConnector metadata forward().
         if has_kv_transfer_group():
             get_kv_transfer_group().bind_connector_metadata(
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index ac6861f93..da2ecfc4b 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -15,11 +15,12 @@ from vllm.distributed import (ensure_model_parallel_initialized,
                               init_distributed_environment,
                               set_custom_all_reduce)
 from vllm.distributed.kv_transfer import ensure_kv_transfer_initialized
-from vllm.distributed.parallel_state import get_pp_group
+from vllm.distributed.parallel_state import get_pp_group, get_tp_group
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
 from vllm.model_executor import set_random_seed
 from vllm.platforms import current_platform
+from vllm.sequence import IntermediateTensors
 from vllm.utils import GiB_bytes
 from vllm.v1.kv_cache_interface import KVCacheConfig, KVCacheSpec
 from vllm.v1.outputs import ModelRunnerOutput
@@ -266,7 +267,22 @@ class Worker(WorkerBase):
         self,
         scheduler_output: "SchedulerOutput",
     ) -> Optional[ModelRunnerOutput]:
-        output = self.model_runner.execute_model(scheduler_output)
+        intermediate_tensors = None
+        if not get_pp_group().is_first_rank:
+            intermediate_tensors = IntermediateTensors(
+                get_pp_group().recv_tensor_dict(
+                    all_gather_group=get_tp_group()))
+
+        output = self.model_runner.execute_model(scheduler_output,
+                                                 intermediate_tensors)
+
+        if not get_pp_group().is_last_rank:
+            assert isinstance(output, IntermediateTensors)
+            get_pp_group().send_tensor_dict(output.tensors,
+                                            all_gather_group=get_tp_group())
+            return None
+
+        assert isinstance(output, ModelRunnerOutput)
         return output if self.is_driver_worker else None
 
     def profile(self, is_start: bool = True):
-- 
GitLab


From cba31c47c4810e91cdf262520f02ccb9eeca3429 Mon Sep 17 00:00:00 2001
From: Chen Zhang <zhangch99@outlook.com>
Date: Tue, 6 May 2025 22:58:37 +0800
Subject: [PATCH 169/461] [v1] AttentionMetadata for each layer (#17394)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>
---
 vllm/attention/layer.py                  | 15 ++++--
 vllm/forward_context.py                  | 11 ++--
 vllm/v1/attention/backends/flash_attn.py | 11 ++--
 vllm/v1/attention/backends/flashinfer.py | 10 ++--
 vllm/v1/attention/backends/mla/common.py | 10 ++--
 vllm/v1/attention/backends/utils.py      | 18 +++++++
 vllm/v1/spec_decode/eagle.py             | 11 +++-
 vllm/v1/worker/gpu_model_runner.py       | 68 ++++++++++++++++--------
 vllm/v1/worker/tpu_model_runner.py       | 18 ++++++-
 9 files changed, 126 insertions(+), 46 deletions(-)
 create mode 100644 vllm/v1/attention/backends/utils.py

diff --git a/vllm/attention/layer.py b/vllm/attention/layer.py
index aa218cc37..9e4fbe0b4 100644
--- a/vllm/attention/layer.py
+++ b/vllm/attention/layer.py
@@ -210,6 +210,8 @@ class Attention(nn.Module):
             if self.use_direct_call:
                 forward_context: ForwardContext = get_forward_context()
                 attn_metadata = forward_context.attn_metadata
+                if isinstance(attn_metadata, dict):
+                    attn_metadata = attn_metadata[self.layer_name]
                 self_kv_cache = self.kv_cache[forward_context.virtual_engine]
                 self.impl.forward(self,
                                   query,
@@ -226,6 +228,8 @@ class Attention(nn.Module):
             if self.use_direct_call:
                 forward_context = get_forward_context()
                 attn_metadata = forward_context.attn_metadata
+                if isinstance(attn_metadata, dict):
+                    attn_metadata = attn_metadata[self.layer_name]
                 self_kv_cache = self.kv_cache[forward_context.virtual_engine]
                 return self.impl.forward(self, query, key, value,
                                          self_kv_cache, attn_metadata)
@@ -343,7 +347,7 @@ def wait_for_kv_layer_from_connector(layer_name: str):
     attn_metadata = forward_context.attn_metadata
     if attn_metadata is None:
         return
-
+    assert isinstance(attn_metadata, dict)
     connector.wait_for_layer_load(layer_name)
 
 
@@ -360,8 +364,9 @@ def maybe_save_kv_layer_to_connector(
     attn_metadata = forward_context.attn_metadata
     if attn_metadata is None:
         return
-
-    connector.save_kv_layer(layer_name, kv_cache_layer, attn_metadata)
+    assert isinstance(attn_metadata, dict)
+    connector.save_kv_layer(layer_name, kv_cache_layer,
+                            attn_metadata[layer_name])
 
 
 def unified_attention(
@@ -374,6 +379,8 @@ def unified_attention(
 
     forward_context: ForwardContext = get_forward_context()
     attn_metadata = forward_context.attn_metadata
+    if isinstance(attn_metadata, dict):
+        attn_metadata = attn_metadata[layer_name]
     self = forward_context.no_compile_layers[layer_name]
     kv_cache = self.kv_cache[forward_context.virtual_engine]
     output = self.impl.forward(self, query, key, value, kv_cache,
@@ -411,6 +418,8 @@ def unified_attention_with_output(
     wait_for_kv_layer_from_connector(layer_name)
     forward_context: ForwardContext = get_forward_context()
     attn_metadata = forward_context.attn_metadata
+    if isinstance(attn_metadata, dict):
+        attn_metadata = attn_metadata[layer_name]
     self = forward_context.no_compile_layers[layer_name]
     kv_cache = self.kv_cache[forward_context.virtual_engine]
     self.impl.forward(self,
diff --git a/vllm/forward_context.py b/vllm/forward_context.py
index c75d8f088..9ddc3d1f2 100644
--- a/vllm/forward_context.py
+++ b/vllm/forward_context.py
@@ -4,7 +4,7 @@ import time
 from collections import defaultdict
 from contextlib import contextmanager
 from dataclasses import dataclass
-from typing import TYPE_CHECKING, Any, Optional
+from typing import TYPE_CHECKING, Any, Optional, Union
 
 import torch
 import torch.distributed as dist
@@ -38,8 +38,13 @@ class DPMetadata:
 class ForwardContext:
     # copy from vllm_config.compilation_config.static_forward_context
     no_compile_layers: dict[str, Any]
-    # TODO: extend to support per-layer dynamic forward context
-    attn_metadata: "AttentionMetadata"  # set dynamically for each forward pass
+    """
+    Type AttentionMetadata for v0, 
+    Type Dict[str, AttentionMetadata] for v1, map from layer_name of each 
+    attention layer to its attention metadata
+    set dynamically for each forward pass
+    """
+    attn_metadata: Union["AttentionMetadata", dict[str, "AttentionMetadata"]]
     # TODO: remove after making all virtual_engines share the same kv cache
     virtual_engine: int  # set dynamically for each forward pass
     # set dynamically for each forward pass
diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index f986d797f..db7926902 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -18,6 +18,7 @@ from vllm.config import VllmConfig, get_layers_from_vllm_config
 from vllm.logger import init_logger
 from vllm.platforms import current_platform
 from vllm.utils import cdiv
+from vllm.v1.attention.backends.utils import CommonAttentionMetadata
 
 if TYPE_CHECKING:
     from vllm.v1.core.sched.output import SchedulerOutput
@@ -309,13 +310,11 @@ class FlashAttentionMetadataBuilder:
         return False
 
     def build(self, num_reqs: int, num_actual_tokens: int, max_query_len: int,
-              common_prefix_len: int):
+              common_prefix_len: int,
+              common_attn_metadata: CommonAttentionMetadata):
         max_seq_len = self.runner.seq_lens_np[:num_reqs].max()
-        query_start_loc_cpu = self.runner.query_start_loc_cpu[:num_reqs + 1]
-        query_start_loc = query_start_loc_cpu.to(self.runner.device,
-                                                 non_blocking=True)
-        seq_lens_cpu = self.runner.seq_lens_cpu[:num_reqs]
-        seq_lens = seq_lens_cpu.to(self.runner.device, non_blocking=True)
+        query_start_loc = common_attn_metadata.query_start_loc
+        seq_lens = common_attn_metadata.seq_lens
         block_table = (
             self.runner.input_batch.block_table.get_device_tensor()[:num_reqs])
         slot_mapping = self.runner.slot_mapping_cpu[:num_actual_tokens].to(
diff --git a/vllm/v1/attention/backends/flashinfer.py b/vllm/v1/attention/backends/flashinfer.py
index 6e964b471..0852e15f9 100755
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -18,6 +18,7 @@ from vllm.config import (VllmConfig, get_current_vllm_config,
                          get_layers_from_vllm_config)
 from vllm.logger import init_logger
 from vllm.v1.attention.backends.flash_attn import use_cascade_attention
+from vllm.v1.attention.backends.utils import CommonAttentionMetadata
 
 if TYPE_CHECKING:
     from vllm.v1.core.sched.output import SchedulerOutput
@@ -394,16 +395,15 @@ class FlashInferMetadataBuilder:
                 )
 
     def build(self, num_reqs: int, num_actual_tokens: int, max_query_len: int,
-              common_prefix_len: int):
+              common_prefix_len: int,
+              common_attn_metadata: CommonAttentionMetadata):
         assert self._num_decodes + self._num_prefills == num_reqs
         assert (self._num_decode_tokens +
                 self._num_prefill_tokens == num_actual_tokens)
         page_size = self.runner.block_size
         device = self.runner.device
-        qo_indptr = self.runner.query_start_loc_cpu[:num_reqs + 1].to(
-            self.runner.device, non_blocking=True)
-        seq_lens = self.runner.seq_lens_cpu[:num_reqs].to(self.runner.device,
-                                                          non_blocking=True)
+        qo_indptr = common_attn_metadata.query_start_loc
+        seq_lens = common_attn_metadata.seq_lens
         block_table = (
             self.runner.input_batch.block_table.get_device_tensor()[:num_reqs])
         slot_mapping = self.runner.slot_mapping_cpu[:num_actual_tokens].to(
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index 8b1875e73..0d18a5639 100644
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -207,6 +207,7 @@ from vllm.model_executor.layers.linear import (ColumnParallelLinear,
 from vllm.model_executor.layers.rotary_embedding import RotaryEmbedding
 from vllm.platforms import current_platform
 from vllm.utils import cdiv, round_down
+from vllm.v1.attention.backends.utils import CommonAttentionMetadata
 
 try:
     from vllm.vllm_flash_attn import flash_attn_varlen_func
@@ -451,7 +452,8 @@ class MLACommonMetadataBuilder(Generic[M]):
         )
 
     def build(self, num_reqs: int, num_actual_tokens: int, max_query_len: int,
-              common_prefix_len: int) -> M:
+              common_prefix_len: int,
+              common_attn_metadata: CommonAttentionMetadata) -> M:
         assert self._num_decodes + self._num_prefills == num_reqs
 
         # Note(simon): be careful about the CPU <> GPU memory movement in this
@@ -460,15 +462,13 @@ class MLACommonMetadataBuilder(Generic[M]):
         device = self.runner.device
         block_table = (
             self.runner.input_batch.block_table.get_device_tensor()[:num_reqs])
-        query_start_loc = self.runner.query_start_loc_cpu[:num_reqs + 1].to(
-            device, non_blocking=True)
         slot_mapping = self.runner.slot_mapping_cpu[:num_actual_tokens].to(
             device, non_blocking=True).long()
         input_positions = self.runner.positions_cpu[:num_actual_tokens].to(
             device, non_blocking=True).long()
 
-        seq_lens_cpu = self.runner.seq_lens_cpu[:num_reqs]
-        seq_lens = seq_lens_cpu.to(device, non_blocking=True)
+        query_start_loc = common_attn_metadata.query_start_loc
+        seq_lens = common_attn_metadata.seq_lens
 
         prefill_metadata = None
         if self._num_prefills > 0:
diff --git a/vllm/v1/attention/backends/utils.py b/vllm/v1/attention/backends/utils.py
new file mode 100644
index 000000000..10a771e83
--- /dev/null
+++ b/vllm/v1/attention/backends/utils.py
@@ -0,0 +1,18 @@
+# SPDX-License-Identifier: Apache-2.0
+from dataclasses import dataclass
+
+import torch
+
+
+@dataclass
+class CommonAttentionMetadata:
+    """
+    Attention metadata attributes that can be shared by layers in different KV
+    cache groups and thus having different block table.
+    """
+
+    query_start_loc: torch.Tensor
+    """(batch_size + 1,), the start location of each request in query Tensor"""
+    seq_lens: torch.Tensor
+    """(batch_size,), the length of each request including both computed tokens
+    and newly scheduled tokens"""
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index 6d71743c5..2293410e7 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -2,7 +2,9 @@
 import torch
 import torch.nn as nn
 
-from vllm.config import CompilationLevel, VllmConfig, set_current_vllm_config
+from vllm.attention.layer import Attention
+from vllm.config import (CompilationLevel, VllmConfig,
+                         get_layers_from_vllm_config, set_current_vllm_config)
 from vllm.forward_context import set_forward_context
 from vllm.logger import init_logger
 from vllm.model_executor.model_loader.loader import get_model_loader
@@ -276,6 +278,8 @@ class EagleProposer:
         loader = get_model_loader(self.vllm_config.load_config)
         target_layer_num = self.vllm_config.model_config.get_num_layers(
             self.vllm_config.parallel_config)
+        target_attn_layer_names = set(
+            get_layers_from_vllm_config(self.vllm_config, Attention).keys())
 
         draft_model_config = \
             self.vllm_config.speculative_config.draft_model_config
@@ -292,6 +296,11 @@ class EagleProposer:
                 vllm_config=self.vllm_config,
                 start_layer_id=target_layer_num).to(target_device)
 
+        draft_attn_layer_names = (
+            get_layers_from_vllm_config(self.vllm_config, Attention).keys() -
+            target_attn_layer_names)
+        assert len(draft_attn_layer_names) == 1
+        self.attn_layer_name = next(iter(draft_attn_layer_names))
         loaded_weights = self.model.load_weights(
             loader.get_all_weights(draft_model_config, self.model))
         if self.vllm_config.speculative_config.method == "eagle3":
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 8137cb6b9..e0c3d05c7 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -30,6 +30,7 @@ from vllm.utils import (STR_DTYPE_TO_TORCH_DTYPE, DeviceMemoryProfiler,
                         GiB_bytes, LayerBlockType, LazyLoader, cdiv,
                         check_use_alibi, is_pin_memory_available)
 from vllm.v1.attention.backends.flash_attn import FlashAttentionMetadata
+from vllm.v1.attention.backends.utils import CommonAttentionMetadata
 from vllm.v1.core.encoder_cache_manager import compute_encoder_budget
 from vllm.v1.kv_cache_interface import (AttentionSpec, FullAttentionSpec,
                                         KVCacheConfig, KVCacheSpec,
@@ -157,9 +158,12 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         # Sampler
         self.sampler = Sampler()
 
-        # Lazy initialization
+        # Lazy initializations
         # self.model: nn.Module  # Set after load_model
+        # Initialize in initialize_kv_cache
         self.kv_caches: list[torch.Tensor] = []
+        # self.kv_cache_config: KVCacheConfig
+
         # req_id -> (input_id -> encoder_output)
         self.encoder_cache: dict[str, dict[int, torch.Tensor]] = {}
 
@@ -488,7 +492,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
     def _prepare_inputs(
         self,
         scheduler_output: "SchedulerOutput",
-    ) -> tuple[FlashAttentionMetadata, torch.Tensor,
+    ) -> tuple[dict[str, FlashAttentionMetadata], torch.Tensor,
                Optional[SpecDecodeMetadata]]:
         total_num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
         assert total_num_scheduled_tokens > 0
@@ -585,20 +589,39 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                 self.positions_cpu[:total_num_scheduled_tokens],
                 non_blocking=True)
 
-        # Prepare for cascade attention if enabled & beneficial.
-        common_prefix_len = 0
-        if self.cascade_attn_enabled:
-            common_prefix_len = self._compute_cascade_attn_prefix_len(
-                num_scheduled_tokens,
-                scheduler_output.num_common_prefix_blocks,
-            )
+        query_start_loc = self.query_start_loc_cpu[:num_reqs + 1].to(
+            self.device, non_blocking=True)
+        seq_lens = self.seq_lens_cpu[:num_reqs].to(self.device,
+                                                   non_blocking=True)
+        common_attn_metadata = CommonAttentionMetadata(
+            query_start_loc=query_start_loc, seq_lens=seq_lens)
+
+        attn_metadata: dict[str, FlashAttentionMetadata] = {}
+        # Prepare the attention metadata for each KV cache group and make layers
+        # in the same group share the same metadata.
+        # NOTE(Chen): there is exactly one KV cache group that contains all
+        # attetnion layers in the model for now, so the current logic for
+        # getting attn_metadata is not related to kv_cache_group information.
+        # Will extend this part to support multiple KV cache groups later.
+        for kv_cache_group_id, kv_cache_group_spec in enumerate(
+                self.kv_cache_config.kv_cache_groups):
+
+            # Prepare for cascade attention if enabled & beneficial.
+            common_prefix_len = 0
+            if self.cascade_attn_enabled:
+                common_prefix_len = self._compute_cascade_attn_prefix_len(
+                    num_scheduled_tokens,
+                    scheduler_output.num_common_prefix_blocks,
+                )
 
-        attn_metadata = self.attn_metadata_builder.build(
-            num_reqs=num_reqs,
-            num_actual_tokens=total_num_scheduled_tokens,
-            max_query_len=max_num_scheduled_tokens,
-            common_prefix_len=common_prefix_len,
-        )
+            attn_metadata_i = self.attn_metadata_builder.build(
+                num_reqs=num_reqs,
+                num_actual_tokens=total_num_scheduled_tokens,
+                max_query_len=max_num_scheduled_tokens,
+                common_prefix_len=common_prefix_len,
+                common_attn_metadata=common_attn_metadata)
+            for layer_name in kv_cache_group_spec.layer_names:
+                attn_metadata[layer_name] = attn_metadata_i
 
         use_spec_decode = len(
             scheduler_output.scheduled_spec_decode_tokens) > 0
@@ -608,7 +631,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             # from these partial requests, we do so for simplicity.
             # We will ignore the sampled tokens from the partial requests.
             # TODO: Support prompt logprobs.
-            logits_indices = attn_metadata.query_start_loc[1:] - 1
+            logits_indices = query_start_loc[1:] - 1
             spec_decode_metadata = None
         else:
             # Get the number of draft tokens for each request.
@@ -1230,6 +1253,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             next_token_ids = torch.tensor(next_token_ids,
                                           dtype=torch.int32,
                                           device=self.device)
+            eagle_attn_metadata = attn_metadata[self.drafter.attn_layer_name]
 
             if spec_decode_metadata is None:
                 # input_ids can be None for multimodal models.
@@ -1241,8 +1265,8 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                         dim=-1)
                 else:
                     target_hidden_states = hidden_states[:num_scheduled_tokens]
-                target_slot_mapping = attn_metadata.slot_mapping
-                cu_num_tokens = attn_metadata.query_start_loc
+                target_slot_mapping = eagle_attn_metadata.slot_mapping
+                cu_num_tokens = eagle_attn_metadata.query_start_loc
             else:
                 # TODO(woosuk): Refactor this.
                 num_draft_tokens = spec_decode_metadata.num_draft_tokens
@@ -1256,7 +1280,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                     device=self.device,
                 )
                 cu_num_tokens, token_indices = self.drafter.prepare_inputs(
-                    attn_metadata.query_start_loc,
+                    eagle_attn_metadata.query_start_loc,
                     num_rejected_tokens,
                 )
                 target_token_ids = self.input_ids[token_indices]
@@ -1266,7 +1290,8 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                         [h[token_indices] for h in aux_hidden_states], dim=-1)
                 else:
                     target_hidden_states = hidden_states[token_indices]
-                target_slot_mapping = attn_metadata.slot_mapping[token_indices]
+                target_slot_mapping = eagle_attn_metadata.slot_mapping[
+                    token_indices]
 
             draft_token_ids = self.drafter.propose(
                 target_token_ids=target_token_ids,
@@ -1275,7 +1300,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                 target_slot_mapping=target_slot_mapping,
                 next_token_ids=next_token_ids,
                 cu_num_tokens=cu_num_tokens,
-                block_table=attn_metadata.block_table,
+                block_table=eagle_attn_metadata.block_table,
                 sampling_metadata=sampling_metadata,
             )
             spec_token_ids = draft_token_ids.tolist()
@@ -1708,6 +1733,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             raise NotImplementedError(
                 "Hybrid models with more than one KV cache type are not "
                 "supported yet.")
+        self.kv_cache_config = kv_cache_config
 
         kv_caches: dict[str, torch.Tensor] = {}
 
diff --git a/vllm/v1/worker/tpu_model_runner.py b/vllm/v1/worker/tpu_model_runner.py
index 8e162d517..f5626abb2 100644
--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@@ -588,7 +588,14 @@ class TPUModelRunner:
         # Padded to avoid recompiling when `num_reqs` varies.
         logits_indices = self.query_start_loc_cpu[1:padded_num_reqs + 1] - 1
         logits_indices = logits_indices.to(self.device)
-        return attn_metadata, logits_indices, padded_num_reqs
+
+        layer_names = get_layers_from_vllm_config(self.vllm_config,
+                                                  Attention).keys()
+        per_layer_attn_metadata = {
+            layer_name: attn_metadata
+            for layer_name in layer_names
+        }
+        return per_layer_attn_metadata, logits_indices, padded_num_reqs
 
     def _scatter_placeholders(
         self,
@@ -956,7 +963,14 @@ class TPUModelRunner:
         torch._dynamo.mark_dynamic(position_ids, 0)
         torch._dynamo.mark_dynamic(attn_metadata.slot_mapping, 0)
 
-        with set_forward_context(attn_metadata, self.vllm_config, 0):
+        layer_names = get_layers_from_vllm_config(self.vllm_config,
+                                                  Attention).keys()
+        per_layer_attn_metadata = {
+            layer_name: attn_metadata
+            for layer_name in layer_names
+        }
+
+        with set_forward_context(per_layer_attn_metadata, self.vllm_config, 0):
             out = self.model(input_ids=input_ids,
                              positions=position_ids,
                              inputs_embeds=inputs_embeds)
-- 
GitLab


From 175bda67a1d930c46076562e6e7dd71fab249478 Mon Sep 17 00:00:00 2001
From: Aaron Pham <contact@aarnphm.xyz>
Date: Tue, 6 May 2025 11:11:27 -0400
Subject: [PATCH 170/461] [Feat] Add deprecated=True to CLI args (#17426)

Signed-off-by: Aaron Pham <contact@aarnphm.xyz>
---
 vllm/engine/arg_utils.py |  1 +
 vllm/utils.py            | 78 ++++++++++++++++++++++++++++++++++++++--
 2 files changed, 77 insertions(+), 2 deletions(-)

diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 3a10ed9d7..876a70dfe 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -531,6 +531,7 @@ class EngineArgs:
         guided_decoding_group.add_argument(
             "--enable-reasoning",
             action=argparse.BooleanOptionalAction,
+            deprecated=True,
             help="[DEPRECATED] The `--enable-reasoning` flag is deprecated as "
             "of v0.8.6. Use `--reasoning-parser` to specify the reasoning "
             "parser backend insteadThis flag (`--enable-reasoning`) will be "
diff --git a/vllm/utils.py b/vllm/utils.py
index 3f334f94b..a061b9b81 100644
--- a/vllm/utils.py
+++ b/vllm/utils.py
@@ -33,7 +33,7 @@ import uuid
 import warnings
 import weakref
 from argparse import (Action, ArgumentDefaultsHelpFormatter, ArgumentParser,
-                      ArgumentTypeError)
+                      ArgumentTypeError, _ArgumentGroup)
 from asyncio import FIRST_COMPLETED, AbstractEventLoop, Task
 from collections import UserDict, defaultdict
 from collections.abc import (AsyncGenerator, Awaitable, Generator, Hashable,
@@ -41,6 +41,7 @@ from collections.abc import (AsyncGenerator, Awaitable, Generator, Hashable,
 from concurrent.futures.process import ProcessPoolExecutor
 from dataclasses import dataclass, field
 from functools import cache, lru_cache, partial, wraps
+from gettext import gettext as _gettext
 from types import MappingProxyType
 from typing import (TYPE_CHECKING, Any, Callable, Generic, Literal, NamedTuple,
                     Optional, Sequence, Tuple, Type, TypeVar, Union, cast,
@@ -70,6 +71,8 @@ import vllm.triton_utils  # noqa: F401
 from vllm.logger import enable_trace_function_call, init_logger
 
 if TYPE_CHECKING:
+    from argparse import Namespace
+
     from vllm.config import ModelConfig, VllmConfig
 
 logger = init_logger(__name__)
@@ -1323,16 +1326,78 @@ class SortedHelpFormatter(ArgumentDefaultsHelpFormatter):
         super().add_arguments(actions)
 
 
+class _FlexibleArgumentGroup(_ArgumentGroup):
+
+    def __init__(self, parser: FlexibleArgumentParser, *args, **kwargs):
+        self._parser = parser
+        super().__init__(*args, **kwargs)
+
+    def add_argument(self, *args: Any, **kwargs: Any):
+        if sys.version_info < (3, 13):
+            deprecated = kwargs.pop('deprecated', False)
+            action = super().add_argument(*args, **kwargs)
+            object.__setattr__(action, 'deprecated', deprecated)
+            if deprecated and action.dest not in \
+                    self._parser.__class__._deprecated:
+                self._parser._deprecated.add(action)
+            return action
+
+        # python>3.13
+        return super().add_argument(*args, **kwargs)
+
+
 class FlexibleArgumentParser(ArgumentParser):
     """ArgumentParser that allows both underscore and dash in names."""
 
+    _deprecated: set[Action] = set()
+    _seen: set[str] = set()
+
     def __init__(self, *args, **kwargs):
         # Set the default 'formatter_class' to SortedHelpFormatter
         if 'formatter_class' not in kwargs:
             kwargs['formatter_class'] = SortedHelpFormatter
         super().__init__(*args, **kwargs)
 
-    def parse_args(self, args=None, namespace=None):
+    if sys.version_info < (3, 13):
+
+        def parse_known_args(  # type: ignore[override]
+            self,
+            args: Sequence[str] | None = None,
+            namespace: Namespace | None = None,
+        ) -> tuple[Namespace | None, list[str]]:
+            namespace, args = super().parse_known_args(args, namespace)
+            for action in FlexibleArgumentParser._deprecated:
+                if action.dest not in FlexibleArgumentParser._seen and getattr(
+                        namespace, action.dest,
+                        None) != action.default:  # noqa: E501
+                    self._warning(
+                        _gettext("argument '%(argument_name)s' is deprecated")
+                        % {'argument_name': action.dest})
+                    FlexibleArgumentParser._seen.add(action.dest)
+            return namespace, args
+
+        def add_argument(self, *args: Any, **kwargs: Any):
+            # add a deprecated=True compatibility
+            # for python < 3.13
+            deprecated = kwargs.pop('deprecated', False)
+            action = super().add_argument(*args, **kwargs)
+            object.__setattr__(action, 'deprecated', deprecated)
+            if deprecated and \
+                action not in FlexibleArgumentParser._deprecated:
+                self._deprecated.add(action)
+
+            return action
+
+        def _warning(self, message: str):
+            self._print_message(
+                _gettext('warning: %(message)s\n') % {'message': message},
+                sys.stderr)
+
+    def parse_args(  # type: ignore[override]
+        self,
+        args: list[str] | None = None,
+        namespace: Namespace | None = None,
+    ):
         if args is None:
             args = sys.argv[1:]
 
@@ -1503,6 +1568,15 @@ class FlexibleArgumentParser(ArgumentParser):
 
         return processed_args
 
+    def add_argument_group(
+        self,
+        *args: Any,
+        **kwargs: Any,
+    ) -> _FlexibleArgumentGroup:
+        group = _FlexibleArgumentGroup(self, self, *args, **kwargs)
+        self._action_groups.append(group)
+        return group
+
 
 async def _run_task_with_lock(task: Callable, lock: asyncio.Lock, *args,
                               **kwargs):
-- 
GitLab


From 0d115460a718cd35992415829884de0852c14fa3 Mon Sep 17 00:00:00 2001
From: Michael Yao <haifeng.yao@daocloud.io>
Date: Tue, 6 May 2025 23:27:19 +0800
Subject: [PATCH 171/461] [Docs] Use gh-file to add links to tool_calling.md
 (#17709)

Signed-off-by: windsonsea <haifeng.yao@daocloud.io>
---
 docs/source/features/tool_calling.md | 28 ++++++++++++++--------------
 1 file changed, 14 insertions(+), 14 deletions(-)

diff --git a/docs/source/features/tool_calling.md b/docs/source/features/tool_calling.md
index f98ec6108..f3b808b3d 100644
--- a/docs/source/features/tool_calling.md
+++ b/docs/source/features/tool_calling.md
@@ -141,9 +141,9 @@ Known issues:
 much shorter than what vLLM generates. Since an exception is thrown when this condition
 is not met, the following additional chat templates are provided:
 
-* `examples/tool_chat_template_mistral.jinja` - this is the "official" Mistral chat template, but tweaked so that
+* <gh-file:examples/tool_chat_template_mistral.jinja> - this is the "official" Mistral chat template, but tweaked so that
 it works with vLLM's tool call IDs (provided `tool_call_id` fields are truncated to the last 9 digits)
-* `examples/tool_chat_template_mistral_parallel.jinja` - this is a "better" version that adds a tool-use system prompt
+* <gh-file:examples/tool_chat_template_mistral_parallel.jinja> - this is a "better" version that adds a tool-use system prompt
 when tools are provided, that results in much better reliability when working with parallel tool calling.
 
 Recommended flags: `--tool-call-parser mistral --chat-template examples/tool_chat_template_mistral_parallel.jinja`
@@ -170,15 +170,15 @@ Known issues:
 
 VLLM provides two JSON based chat templates for Llama 3.1 and 3.2:
 
-* `examples/tool_chat_template_llama3.1_json.jinja` - this is the "official" chat template for the Llama 3.1
+* <gh-file:examples/tool_chat_template_llama3.1_json.jinja> - this is the "official" chat template for the Llama 3.1
 models, but tweaked so that it works better with vLLM.
-* `examples/tool_chat_template_llama3.2_json.jinja` - this extends upon the Llama 3.1 chat template by adding support for
+* <gh-file:examples/tool_chat_template_llama3.2_json.jinja> - this extends upon the Llama 3.1 chat template by adding support for
 images.
 
 Recommended flags: `--tool-call-parser llama3_json --chat-template {see_above}`
 
 VLLM also provides a JSON based chat template for Llama 4:
-* `examples/tool_chat_template_llama4_json.jinja` - this is based on the "official" chat template for the Llama 4
+* <gh-file:examples/tool_chat_template_llama4_json.jinja> - this is based on the "official" chat template for the Llama 4
 models, but tweaked so that it works better with vLLM.
 
 For Llama 4 use `--tool-call-parser llama4_json examples/tool_chat_template_llama4_json.jinja`.
@@ -191,7 +191,7 @@ Supported models:
 
 Recommended flags: `--tool-call-parser granite --chat-template examples/tool_chat_template_granite.jinja`
 
-`examples/tool_chat_template_granite.jinja`: this is a modified chat template from the original on Huggingface. Parallel function calls are supported.
+<gh-file:examples/tool_chat_template_granite.jinja>: this is a modified chat template from the original on Huggingface. Parallel function calls are supported.
 
 * `ibm-granite/granite-3.1-8b-instruct`
 
@@ -203,7 +203,7 @@ The chat template from Huggingface can be used directly. Parallel function calls
 
 Recommended flags: `--tool-call-parser granite-20b-fc --chat-template examples/tool_chat_template_granite_20b_fc.jinja`
 
-`examples/tool_chat_template_granite_20b_fc.jinja`: this is a modified chat template from the original on Huggingface, which is not vLLM compatible. It blends function description elements from the Hermes template and follows the same system prompt as "Response Generation" mode from [the paper](https://arxiv.org/abs/2407.00121). Parallel function calls are supported.
+<gh-file:examples/tool_chat_template_granite_20b_fc.jinja>: this is a modified chat template from the original on Huggingface, which is not vLLM compatible. It blends function description elements from the Hermes template and follows the same system prompt as "Response Generation" mode from [the paper](https://arxiv.org/abs/2407.00121). Parallel function calls are supported.
 
 ### InternLM Models (`internlm`)
 
@@ -253,12 +253,12 @@ Limitations:
 
 Example supported models:
 
-* `meta-llama/Llama-3.2-1B-Instruct`\* (use with `examples/tool_chat_template_llama3.2_pythonic.jinja`)
-* `meta-llama/Llama-3.2-3B-Instruct`\* (use with `examples/tool_chat_template_llama3.2_pythonic.jinja`)
-* `Team-ACE/ToolACE-8B` (use with `examples/tool_chat_template_toolace.jinja`)
-* `fixie-ai/ultravox-v0_4-ToolACE-8B` (use with `examples/tool_chat_template_toolace.jinja`)
-* `meta-llama/Llama-4-Scout-17B-16E-Instruct`\* (use with `examples/tool_chat_template_llama4_pythonic.jinja`)
-* `meta-llama/Llama-4-Maverick-17B-128E-Instruct`\* (use with `examples/tool_chat_template_llama4_pythonic.jinja`)
+* `meta-llama/Llama-3.2-1B-Instruct`\* (use with <gh-file:examples/tool_chat_template_llama3.2_pythonic.jinja>)
+* `meta-llama/Llama-3.2-3B-Instruct`\* (use with <gh-file:examples/tool_chat_template_llama3.2_pythonic.jinja>)
+* `Team-ACE/ToolACE-8B` (use with <gh-file:examples/tool_chat_template_toolace.jinja>)
+* `fixie-ai/ultravox-v0_4-ToolACE-8B` (use with <gh-file:examples/tool_chat_template_toolace.jinja>)
+* `meta-llama/Llama-4-Scout-17B-16E-Instruct`\* (use with <gh-file:examples/tool_chat_template_llama4_pythonic.jinja>)
+* `meta-llama/Llama-4-Maverick-17B-128E-Instruct`\* (use with <gh-file:examples/tool_chat_template_llama4_pythonic.jinja>)
 
 Flags: `--tool-call-parser pythonic --chat-template {see_above}`
 
@@ -270,7 +270,7 @@ Llama's smaller models frequently fail to emit tool calls in the correct format.
 
 ## How to write a tool parser plugin
 
-A tool parser plugin is a Python file containing one or more ToolParser implementations. You can write a ToolParser similar to the `Hermes2ProToolParser` in vllm/entrypoints/openai/tool_parsers/hermes_tool_parser.py.
+A tool parser plugin is a Python file containing one or more ToolParser implementations. You can write a ToolParser similar to the `Hermes2ProToolParser` in <gh-file:vllm/entrypoints/openai/tool_parsers/hermes_tool_parser.py>.
 
 Here is a summary of a plugin file:
 
-- 
GitLab


From aabcd2cae305c08c396889be9c6930840b1adead Mon Sep 17 00:00:00 2001
From: Chen Zhang <zhangch99@outlook.com>
Date: Tue, 6 May 2025 23:50:34 +0800
Subject: [PATCH 172/461] [v1] Introduce KVCacheBlocks as interface between
 Scheduler and KVCacheManager (#17479)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>
---
 tests/v1/core/test_kv_cache_utils.py |   6 +-
 tests/v1/core/test_prefix_caching.py | 139 ++++++++++++++-------------
 vllm/v1/core/kv_cache_manager.py     |  65 +++++++++----
 vllm/v1/core/sched/scheduler.py      |  10 +-
 4 files changed, 121 insertions(+), 99 deletions(-)

diff --git a/tests/v1/core/test_kv_cache_utils.py b/tests/v1/core/test_kv_cache_utils.py
index e8069b8c6..df487ec2c 100644
--- a/tests/v1/core/test_kv_cache_utils.py
+++ b/tests/v1/core/test_kv_cache_utils.py
@@ -542,7 +542,7 @@ def test_allocate_with_lookahead():
         num_tokens=3,
         num_lookahead_tokens=2,  # Total required: 3+2=5 tokens
     )
-    assert len(blocks) == 2  # ceil(5/4)=2 blocks
+    assert len(blocks.blocks) == 2  # ceil(5/4)=2 blocks
 
     # Test case 2: With precomputed blocks
     kv_cache_manager = KVCacheManager(kv_cache_config=config,
@@ -553,7 +553,7 @@ def test_allocate_with_lookahead():
         num_tokens=3,
         num_lookahead_tokens=2,
     )
-    assert len(blocks) == 2
+    assert len(blocks.blocks) == 2
 
     # Test case 3: With precomputed blocks
     # required_blocks = ceil((3 + 4) / 4) = 2
@@ -564,4 +564,4 @@ def test_allocate_with_lookahead():
         num_tokens=3,
         num_lookahead_tokens=4,
     )
-    assert len(blocks) == 2
+    assert len(blocks.blocks) == 2
diff --git a/tests/v1/core/test_prefix_caching.py b/tests/v1/core/test_prefix_caching.py
index 4c05e0b87..01295e848 100644
--- a/tests/v1/core/test_prefix_caching.py
+++ b/tests/v1/core/test_prefix_caching.py
@@ -79,10 +79,10 @@ def test_prefill(hash_algo):
     req0 = make_request("0", all_token_ids)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req0)
     assert len(manager.req_to_block_hashes[req0.request_id]) == 3
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     blocks = manager.allocate_slots(req0, 55, computed_blocks)
-    assert [b.block_id for b in blocks] == [1, 2, 3, 4]
+    assert blocks.get_block_ids() == [1, 2, 3, 4]
 
     # Check full block metadata
     parent_block_hash = None
@@ -105,12 +105,12 @@ def test_prefill(hash_algo):
     req1 = make_request("1", common_token_ids + unique_token_ids)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
     assert len(manager.req_to_block_hashes[req1.request_id]) == 3
-    assert [b.block_id for b in computed_blocks] == [1, 2, 3]
+    assert computed_blocks.get_block_ids() == [1, 2, 3]
     assert num_computed_tokens == 3 * 16
     num_new_tokens = 53 - 3 * 16
     blocks = manager.allocate_slots(req1, num_new_tokens, computed_blocks)
-    assert [b.block_id for b in blocks] == [5]
-    for block in computed_blocks:
+    assert blocks.get_block_ids() == [5]
+    for block in computed_blocks.blocks:
         assert block.ref_cnt == 2
 
     # At this point, we should have 5 free blocks left.
@@ -137,11 +137,11 @@ def test_prefill(hash_algo):
     req2 = make_request("2", common_token_ids + unique_token_ids)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req2)
     assert len(manager.req_to_block_hashes[req2.request_id]) == 3
-    assert [b.block_id for b in computed_blocks] == [1, 2, 3]
+    assert computed_blocks.get_block_ids() == [1, 2, 3]
     assert num_computed_tokens == 3 * 16
     num_new_tokens = 53 - 3 * 16
     blocks = manager.allocate_slots(req2, num_new_tokens, computed_blocks)
-    assert [b.block_id for b in blocks] == [6]
+    assert blocks.get_block_ids() == [6]
 
     # Although we only have 6 free blocks, we have 8 blocks in
     # the free block queue due to lazy removal.
@@ -159,11 +159,11 @@ def test_prefill(hash_algo):
     # Cache miss and eviction.
     req3 = make_request("3", [99] * (16 * 10))
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req3)
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     blocks = manager.allocate_slots(req3, 16 * 10, computed_blocks)
     # This block ID order also checks the eviction order.
-    assert [b.block_id for b in blocks] == [7, 8, 9, 10, 4, 5, 6, 3, 2, 1]
+    assert blocks.get_block_ids() == [7, 8, 9, 10, 4, 5, 6, 3, 2, 1]
     assert manager.block_pool.free_block_queue.num_free_blocks == 0
     assert manager.block_pool.free_block_queue.free_list_head is None
     assert manager.block_pool.free_block_queue.free_list_tail is None
@@ -195,11 +195,11 @@ def test_prefill_plp():
     req0 = make_request("0", all_token_ids, prompt_logprobs=5)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req0)
     assert len(manager.req_to_block_hashes[req0.request_id]) == 3
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     blocks = manager.allocate_slots(req0, 55, computed_blocks)
-    assert [b.block_id for b in blocks] == [1, 2, 3, 4]
-    req0_block_hashes = [b.block_hash for b in blocks]
+    assert blocks.get_block_ids() == [1, 2, 3, 4]
+    req0_block_hashes = [b.block_hash for b in blocks.blocks]
 
     # Check full block metadata
     parent_block_hash = None
@@ -223,12 +223,12 @@ def test_prefill_plp():
     req1 = make_request("1", common_token_ids + unique_token_ids)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
     assert len(manager.req_to_block_hashes[req1.request_id]) == 3
-    assert [b.block_id for b in computed_blocks] == [1, 2, 3]
+    assert computed_blocks.get_block_ids() == [1, 2, 3]
     assert num_computed_tokens == 3 * 16
     num_new_tokens = 53 - 3 * 16
     blocks = manager.allocate_slots(req1, num_new_tokens, computed_blocks)
-    assert [b.block_id for b in blocks] == [5]
-    for block in computed_blocks:
+    assert blocks.get_block_ids() == [5]
+    for block in computed_blocks.blocks:
         assert block.ref_cnt == 2
 
     # At this point, we should have 5 free blocks left.
@@ -257,12 +257,12 @@ def test_prefill_plp():
                         prompt_logprobs=5)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req2)
     assert len(manager.req_to_block_hashes[req2.request_id]) == 3
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     blocks = manager.allocate_slots(req2, 55, computed_blocks)
-    block_ids = [b.block_id for b in blocks]
+    block_ids = blocks.get_block_ids()
     # Duplicate cached blocks have different ids but same hashes vs request #0
-    assert [b.block_hash for b in blocks] == req0_block_hashes
+    assert [b.block_hash for b in blocks.blocks] == req0_block_hashes
     assert block_ids != [1, 2, 3, 4]
 
     # Request #2 block hashes are valid since request #0 hashes are.
@@ -288,17 +288,17 @@ def test_decode():
     unique_token_ids = [3] * 7
     req0 = make_request("0", common_token_ids + unique_token_ids)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req0)
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     blocks = manager.allocate_slots(req0, 55, computed_blocks)
-    assert [b.block_id for b in blocks] == [1, 2, 3, 4]
+    assert blocks.get_block_ids() == [1, 2, 3, 4]
 
     # Append slots without allocating a new block.
     req0.num_computed_tokens = 55
     for _ in range(4):
         req0.append_output_token_ids(8)
     new_blocks = manager.allocate_slots(req0, 4)
-    assert new_blocks is not None and len(new_blocks) == 0
+    assert new_blocks is not None and len(new_blocks.blocks) == 0
     assert manager.req_to_blocks[req0.request_id][-1].block_hash is None
 
     # Append slots with allocating a new block.
@@ -308,7 +308,7 @@ def test_decode():
     for _ in range(9 + 10):
         req0.append_output_token_ids(7)
     new_blocks = manager.allocate_slots(req0, 19)
-    assert new_blocks is not None and len(new_blocks) == 1
+    assert new_blocks is not None and len(new_blocks.blocks) == 1
     assert manager.req_to_blocks[req0.request_id][-2].block_hash is not None
     assert manager.req_to_blocks[req0.request_id][-1].block_hash is None
 
@@ -323,19 +323,19 @@ def test_evict():
     last_token_id = 5 * 16 + 7
     req0 = make_request("0", list(range(last_token_id)))
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req0)
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     blocks = manager.allocate_slots(req0, 5 * 16 + 7, computed_blocks)
-    assert len(blocks) == 6  # 5 full + 1 partial
+    assert len(blocks.blocks) == 6  # 5 full + 1 partial
 
     # 3 blocks.
     req1 = make_request("1", list(range(last_token_id,
                                         last_token_id + 3 * 16)))
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     blocks = manager.allocate_slots(req1, 3 * 16, computed_blocks)
-    assert len(blocks) == 3  # 3 full blocks
+    assert len(blocks.blocks) == 3  # 3 full blocks
     last_token_id += 3 * 16
 
     # 10 - (6 + 3) == 1
@@ -352,10 +352,10 @@ def test_evict():
     # Touch the first 2 blocks.
     req2 = make_request("2", list(range(2 * 16 + 3)))
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req2)
-    assert [b.block_id for b in computed_blocks] == [1, 2]
+    assert computed_blocks.get_block_ids() == [1, 2]
     assert num_computed_tokens == 2 * 16
     blocks = manager.allocate_slots(req2, 3, computed_blocks)
-    assert [b.block_id for b in blocks] == [10]
+    assert blocks.get_block_ids() == [10]
     assert manager.block_pool.free_block_queue.num_free_blocks == 7
 
 
@@ -375,10 +375,10 @@ def test_hash_block_correct_reuse():
     num_tokens = block_size * 1
     req = make_request("0", list(range(num_tokens)))
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req)
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     blocks = manager.allocate_slots(req, num_tokens, computed_blocks)
-    assert len(blocks) == 1
+    assert len(blocks.blocks) == 1
 
     # Deallocate the block.
     manager.free(req)
@@ -387,12 +387,13 @@ def test_hash_block_correct_reuse():
     # block is cleared.
     req = make_request("1", list(range(num_tokens - 1)))
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req)
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     blocks = manager.allocate_slots(req, num_tokens - 1, computed_blocks)
-    assert len(blocks) == 1
+    assert len(blocks.blocks) == 1
 
-    assert manager.block_pool.blocks[blocks[0].block_id].block_hash is None
+    assert manager.block_pool.blocks[
+        blocks.blocks[0].block_id].block_hash is None
 
 
 def test_computed_blocks_not_evicted():
@@ -411,20 +412,20 @@ def test_computed_blocks_not_evicted():
     num_tokens = block_size * 1
     req0 = make_request("0", list(range(num_tokens)))
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req0)
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     blocks = manager.allocate_slots(req0, num_tokens, computed_blocks)
-    assert len(blocks) == 1
-    assert blocks[0].block_id == 1
+    assert len(blocks.blocks) == 1
+    assert blocks.blocks[0].block_id == 1
 
     # Allocate another block.
     req1 = make_request("1", list(range(num_tokens, num_tokens * 2)))
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     blocks = manager.allocate_slots(req1, num_tokens, computed_blocks)
-    assert len(blocks) == 1
-    assert blocks[0].block_id == 2
+    assert len(blocks.blocks) == 1
+    assert blocks.blocks[0].block_id == 2
 
     # Free the blocks.
     manager.free(req0)
@@ -434,14 +435,14 @@ def test_computed_blocks_not_evicted():
     # cached block rather than the first one.
     req2 = make_request("2", list(range(num_tokens * 2)))
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req2)
-    assert len(computed_blocks) == 1
-    assert computed_blocks[0].block_id == 1
+    assert len(computed_blocks.blocks) == 1
+    assert computed_blocks.blocks[0].block_id == 1
     assert num_computed_tokens == block_size
 
     blocks = manager.allocate_slots(req2, num_tokens * 2 - num_tokens,
                                     computed_blocks)
-    assert len(blocks) == 1
-    assert blocks[0].block_id == 2
+    assert len(blocks.blocks) == 1
+    assert blocks.blocks[0].block_id == 2
 
 
 def test_basic_prefix_caching_disabled():
@@ -458,10 +459,10 @@ def test_basic_prefix_caching_disabled():
     req1 = make_request("1", list(range(10)))  # 2 blocks and some more
 
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     blocks = manager.allocate_slots(req1, 10, computed_blocks)
-    assert len(blocks) == 3
+    assert len(blocks.blocks) == 3
 
     # Free the blocks.
     manager.free(req1)
@@ -469,15 +470,15 @@ def test_basic_prefix_caching_disabled():
     # No caching.
     req2 = make_request("2", list(range(16)))  # shared prefix
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req2)
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     blocks = manager.allocate_slots(req2, 16, computed_blocks)
-    assert len(blocks) == 4
+    assert len(blocks.blocks) == 4
 
     # New requests should not have any blocks.
     req3 = make_request("3", list(range(4)))
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req3)
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     blocks = manager.allocate_slots(req3, 4, computed_blocks)
     assert not blocks
@@ -569,7 +570,7 @@ def test_mm_prefix_caching():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req0)
 
     # Completed block should have hashes with extra keys.
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     block_hashes = manager.req_to_block_hashes[req0.request_id]
     assert len(block_hashes) == 3
@@ -578,14 +579,14 @@ def test_mm_prefix_caching():
     assert block_hashes[2].extra_keys == ("bbb", )
 
     blocks = manager.allocate_slots(req0, 59, computed_blocks)
-    assert [b.block_id for b in blocks] == [1, 2, 3, 4]
+    assert blocks.get_block_ids() == [1, 2, 3, 4]
     req0.num_computed_tokens = 59
 
     # Append slots without allocating a new block.
     for _ in range(5):
         req0.append_output_token_ids(8)
     new_blocks = manager.allocate_slots(req0, 5)
-    assert new_blocks is not None and len(new_blocks) == 0
+    assert new_blocks is not None and len(new_blocks.blocks) == 0
 
     # The just completed block should have hashes with extra keys.
     assert len(block_hashes) == 4
@@ -603,7 +604,7 @@ def test_mm_prefix_caching():
                         mm_positions=mm_positions,
                         mm_hashes=mm_hashes)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
-    assert len(computed_blocks) == 3
+    assert len(computed_blocks.blocks) == 3
     assert num_computed_tokens == 3 * 16
 
 
@@ -626,7 +627,7 @@ def test_cache_key_salting():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req0)
 
     # Completed block should have hashes with extra keys.
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     block_hashes = manager.req_to_block_hashes[req0.request_id]
     assert len(block_hashes) == 3
@@ -635,14 +636,14 @@ def test_cache_key_salting():
     assert block_hashes[2].extra_keys is None
 
     blocks = manager.allocate_slots(req0, 59, computed_blocks)
-    assert [b.block_id for b in blocks] == [1, 2, 3, 4]
+    assert blocks.get_block_ids() == [1, 2, 3, 4]
     req0.num_computed_tokens = 59
 
     # Append slots without allocating a new block.
     for _ in range(5):
         req0.append_output_token_ids(8)
     new_blocks = manager.allocate_slots(req0, 5)
-    assert new_blocks is not None and len(new_blocks) == 0
+    assert new_blocks is not None and len(new_blocks.blocks) == 0
 
     # Now one more block that should not have extra keys.
     assert len(block_hashes) == 4
@@ -653,14 +654,14 @@ def test_cache_key_salting():
     req1 = make_request("1", token_ids, cache_salt="salt1")
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
     # Should match only a prefix of 3 blocks.
-    assert len(computed_blocks) == 3
+    assert len(computed_blocks.blocks) == 3
     assert num_computed_tokens == 3 * block_size
 
     # Test cache miss with same content but different salt.
     token_ids = common_token_ids + [4] * 11
     req2 = make_request("2", token_ids, cache_salt="salt2")
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req2)
-    assert len(computed_blocks) == 0
+    assert len(computed_blocks.blocks) == 0
     assert num_computed_tokens == 0
     block_hashes = manager.req_to_block_hashes[req2.request_id]
     assert len(block_hashes) == 3
@@ -685,7 +686,7 @@ def test_prefill_not_enough_free_blocks_with_computed_blocks():
     common_token_ids = [i for i in range(3) for _ in range(16)]
     req0 = make_request("0", common_token_ids)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req0)
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     manager.allocate_slots(req0, 48, computed_blocks)
     block_part0 = manager.req_to_blocks[req0.request_id]
@@ -693,7 +694,7 @@ def test_prefill_not_enough_free_blocks_with_computed_blocks():
     # | Common-0 | Common-1 | Common-2 | Req1-3 | Req1-4 | Req1-5 | ... |
     req1 = make_request("1", common_token_ids * 2)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
-    assert computed_blocks == block_part0
+    assert computed_blocks.blocks == block_part0
     assert num_computed_tokens == 3 * 16
     manager.allocate_slots(req1, 48, computed_blocks)
     block_part1 = manager.req_to_blocks[req1.request_id]
@@ -707,7 +708,7 @@ def test_prefill_not_enough_free_blocks_with_computed_blocks():
     # | Req1-5(F)| Req2-0   | Req2-1   | ... |
     req2 = make_request("2", [7] * block_size * 2)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req2)
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     manager.allocate_slots(req2, block_size * 2, computed_blocks)
 
@@ -717,7 +718,7 @@ def test_prefill_not_enough_free_blocks_with_computed_blocks():
     assert manager.block_pool.free_block_queue.num_free_blocks == 5
     req3 = make_request("3", common_token_ids * 3)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req3)
-    assert computed_blocks == block_part1
+    assert computed_blocks.blocks == block_part1
     assert num_computed_tokens == 6 * 16
     # Req3 cannot be allocated.
     assert manager.allocate_slots(req3, 48, computed_blocks) is None
@@ -739,16 +740,16 @@ def test_reset_prefix_cache():
     all_token_ids = full_block_token_ids + unique_token_ids
     req0 = make_request("0", all_token_ids)
     blocks = manager.allocate_slots(req0, 55)
-    assert [b.block_id for b in blocks] == [1, 2, 3, 4]
+    assert blocks.get_block_ids() == [1, 2, 3, 4]
 
     unique_token_ids = [4] * 7
     all_token_ids = full_block_token_ids + unique_token_ids
     req1 = make_request("1", all_token_ids)
     computed_blocks, _ = manager.get_computed_blocks(req1)
     assert len(manager.req_to_block_hashes[req1.request_id]) == 3
-    assert len(computed_blocks) == 3
+    assert len(computed_blocks.blocks) == 3
     blocks = manager.allocate_slots(req1, 7, computed_blocks)
-    assert [b.block_id for b in blocks] == [5]
+    assert blocks.get_block_ids() == [5]
 
     # Failed to reset prefix cache because some blocks are not freed yet.
     assert not manager.reset_prefix_cache()
@@ -776,7 +777,7 @@ def test_prefix_cache_stats_disabled():
     # Call all functions that check whether log_stats is disabled.
     req = make_request("0", list(range(16)))
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req)
-    assert not computed_blocks
+    assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     manager.allocate_slots(req, 16, computed_blocks)
     manager.reset_prefix_cache()
@@ -866,7 +867,7 @@ def test_eagle_enabled_removes_last_block():
     # Should retain 1 block:
     # 1. Original 3 blocks → pop last hash → 2 matched blocks
     # 2. drop last matched block → 1 remaining block
-    assert len(computed_blocks) == 1
+    assert len(computed_blocks.blocks) == 1
     assert num_tokens == 1 * block_size  # 16 tokens
 
 
@@ -892,7 +893,7 @@ def test_eagle_with_partial_blocks():
     req_eagle = make_request("partial_eagle", token_ids)
     computed_blocks, num_tokens = manager.get_computed_blocks(req_eagle)
     # Original match: 2 full blocks → Eagle removes 1 → 1 remaining
-    assert len(computed_blocks) == 1
+    assert len(computed_blocks.blocks) == 1
     assert num_tokens == 1 * block_size
 
 
@@ -934,7 +935,7 @@ def test_eagle_with_sliding_window():
     req_eagle = make_request("partial_eagle", token_ids)
     computed_blocks, num_tokens = manager.get_computed_blocks(req_eagle)
     # Original match: 2 full blocks → Eagle removes 1 → 1 remaining
-    assert len(computed_blocks) == 1
+    assert len(computed_blocks.blocks) == 1
     assert num_tokens == 1 * block_size
 
     # Evict the first block in the request
@@ -948,5 +949,5 @@ def test_eagle_with_sliding_window():
     # Cache miss. The only hit prefix is [NULL_BLOCK, BLOCK_2] if eagle is
     # not considered. But after dropping the last matched block due to eagle,
     # there will be no matched prefix.
-    assert len(computed_blocks) == 0
+    assert len(computed_blocks.blocks) == 0
     assert num_tokens == 0
diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
index a2fa5825b..9e172b6bd 100644
--- a/vllm/v1/core/kv_cache_manager.py
+++ b/vllm/v1/core/kv_cache_manager.py
@@ -2,6 +2,7 @@
 
 from collections import defaultdict
 from collections.abc import Iterable
+from dataclasses import dataclass
 from typing import Optional
 
 from vllm.distributed.kv_events import KVCacheEvent
@@ -18,6 +19,24 @@ from vllm.v1.request import Request, RequestStatus
 logger = init_logger(__name__)
 
 
+@dataclass
+class KVCacheBlocks:
+    blocks: list[KVCacheBlock]
+
+    def __add__(self, other: "KVCacheBlocks") -> "KVCacheBlocks":
+        """Adds two KVCacheBlocks instances."""
+        return KVCacheBlocks(self.blocks + other.blocks)
+
+    @classmethod
+    def create_empty(cls) -> "KVCacheBlocks":
+        """Creates a new KVCacheBlocks instance with no blocks."""
+        return cls([])
+
+    def get_block_ids(self) -> list[int]:
+        """Converts the KVCacheBlocks instance to a list of block IDs."""
+        return [block.block_id for block in self.blocks]
+
+
 class KVCacheManager:
 
     def __init__(
@@ -94,8 +113,8 @@ class KVCacheManager:
         self.prefix_cache_stats = PrefixCacheStats()
         return stats
 
-    def get_computed_blocks(
-            self, request: Request) -> tuple[list[KVCacheBlock], int]:
+    def get_computed_blocks(self,
+                            request: Request) -> tuple[KVCacheBlocks, int]:
         """Get the computed (cached) blocks for the request.
         Note that the computed blocks must be full.
 
@@ -109,7 +128,7 @@ class KVCacheManager:
         """
         if not self.enable_caching:
             # Prefix caching is disabled.
-            return [], 0
+            return KVCacheBlocks.create_empty(), 0
 
         # The block hashes for the request may already be computed
         # if the scheduler has tried to schedule the request before.
@@ -124,7 +143,7 @@ class KVCacheManager:
             self.prefix_cache_stats.requests += 1
         # When the request requires prompt logprobs, we skip prefix caching.
         if request.sampling_params.prompt_logprobs is not None:
-            return [], 0
+            return KVCacheBlocks.create_empty(), 0
 
         if len(block_hashes) * self.block_size == request.num_tokens:
             # When prompt length is divisible by the block size and all
@@ -157,15 +176,15 @@ class KVCacheManager:
         # sharing, `num_computed_tokens` is always a multiple of
         # `block_size`.
         num_computed_tokens = len(computed_blocks) * self.block_size
-        return computed_blocks, num_computed_tokens
+        return KVCacheBlocks(computed_blocks), num_computed_tokens
 
     def allocate_slots(
         self,
         request: Request,
         num_tokens: int,
-        new_computed_blocks: Optional[list[KVCacheBlock]] = None,
+        new_computed_blocks: Optional[KVCacheBlocks] = None,
         num_lookahead_tokens: int = 0,
-    ) -> Optional[list[KVCacheBlock]]:
+    ) -> Optional[KVCacheBlocks]:
         """Add slots for a request with new tokens to append.
 
         Args:
@@ -173,7 +192,7 @@ class KVCacheManager:
             num_tokens: The number of tokens to allocate, including external
                 tokens. Note that this does not include tokens that have
                 already been computed locally (i.e. new_computed_blocks).
-            new_computed_blocks: A list of new computed blocks just hitting the
+            new_computed_blocks: The new computed blocks just hitting the
                 prefix caching.
             num_lookahead_tokens: The number of speculative tokens to allocate.
                 This is used by spec decode proposers with kv-cache such 
@@ -199,7 +218,10 @@ class KVCacheManager:
         if num_tokens == 0:
             raise ValueError("num_tokens must be greater than 0")
 
-        new_computed_blocks = new_computed_blocks or []
+        if new_computed_blocks is not None:
+            new_computed_block_list = new_computed_blocks.blocks
+        else:
+            new_computed_block_list = []
 
         req_blocks = self.req_to_blocks[request.request_id]
 
@@ -216,17 +238,18 @@ class KVCacheManager:
         # The number of computed tokens is the number of computed tokens plus
         # the new prefix caching hits
         num_computed_tokens = (request.num_computed_tokens +
-                               len(new_computed_blocks) * self.block_size)
+                               len(new_computed_block_list) * self.block_size)
         num_required_blocks = cdiv(
             num_computed_tokens + num_tokens + num_lookahead_tokens,
             self.block_size)
         num_new_blocks = (num_required_blocks - len(req_blocks) -
-                          len(new_computed_blocks))
+                          len(new_computed_block_list))
 
         # If a computed block of a request is an eviction candidate (in the
         # free queue and ref_cnt == 0), it cannot be counted as a free block
         # when allocating this request.
-        num_evictable_computed_blocks = sum(1 for blk in new_computed_blocks
+        num_evictable_computed_blocks = sum(1
+                                            for blk in new_computed_block_list
                                             if blk.ref_cnt == 0)
         if (num_new_blocks > self.block_pool.get_num_free_blocks() -
                 num_evictable_computed_blocks):
@@ -235,15 +258,15 @@ class KVCacheManager:
 
         # Touch the computed blocks to make sure they won't be evicted.
         if self.enable_caching:
-            self.block_pool.touch(new_computed_blocks)
+            self.block_pool.touch(new_computed_block_list)
         else:
-            assert not new_computed_blocks, (
+            assert not new_computed_block_list, (
                 "Computed blocks should be empty when "
                 "prefix caching is disabled")
 
         # Append the new computed blocks to the request blocks until now to
         # avoid the case where the new blocks cannot be allocated.
-        req_blocks.extend(new_computed_blocks)
+        req_blocks.extend(new_computed_block_list)
 
         # Start to handle new blocks
 
@@ -267,12 +290,12 @@ class KVCacheManager:
             req_blocks.extend(new_blocks)
 
         if not self.enable_caching:
-            return new_blocks
+            return KVCacheBlocks(new_blocks)
 
-        # Use `new_computed_blocks` for a new request, and `num_cached_block`
-        # for a running request.
-        num_cached_blocks = self.num_cached_block.get(request.request_id,
-                                                      len(new_computed_blocks))
+        # Use `new_computed_block_list` for a new request, and
+        # `num_cached_block` for a running request.
+        num_cached_blocks = self.num_cached_block.get(
+            request.request_id, len(new_computed_block_list))
         # Speculated tokens might be rejected in the future, so we does
         # not cache any speculated tokens. We only cache blocks with
         # generated (accepted) tokens.
@@ -291,7 +314,7 @@ class KVCacheManager:
 
         self.num_cached_block[
             request.request_id] = num_full_blocks_after_append
-        return new_blocks
+        return KVCacheBlocks(new_blocks)
 
     def free(self, request: Request) -> None:
         """Free the blocks allocated for the request.
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 05472ea57..258e0d570 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -261,9 +261,8 @@ class Scheduler(SchedulerInterface):
                 # Therefore, we might introduce some additional
                 # cycle to fill in the bitmask, which could be a big no-op.
                 structured_output_request_ids[request.request_id] = req_index
-            req_to_new_block_ids[request.request_id] = [
-                b.block_id for b in new_blocks
-            ]
+            req_to_new_block_ids[request.request_id] = (
+                new_blocks.get_block_ids())
             num_scheduled_tokens[request.request_id] = num_new_tokens
             token_budget -= num_new_tokens
             req_index += 1
@@ -407,9 +406,8 @@ class Scheduler(SchedulerInterface):
 
                 if self.lora_config and request.lora_request:
                     scheduled_loras.add(request.lora_request.lora_int_id)
-                req_to_new_block_ids[request.request_id] = [
-                    b.block_id for b in computed_blocks + new_blocks
-                ]
+                req_to_new_block_ids[request.request_id] = (
+                    computed_blocks + new_blocks).get_block_ids()
                 num_scheduled_tokens[request.request_id] = num_new_tokens
                 token_budget -= num_new_tokens
                 request.status = RequestStatus.RUNNING
-- 
GitLab


From 7525d5f3d52bcea2ada5af3205a6824ae62a737c Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Wed, 7 May 2025 00:10:23 +0800
Subject: [PATCH 173/461] [doc] Add RAG Integration example (#17692)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 docs/source/deployment/frameworks/index.md    |   1 +
 .../retrieval_augmented_generation.md         |  84 ++++++
 ...val_augmented_generation_with_langchain.py | 249 ++++++++++++++++++
 ...al_augmented_generation_with_llamaindex.py | 217 +++++++++++++++
 4 files changed, 551 insertions(+)
 create mode 100644 docs/source/deployment/frameworks/retrieval_augmented_generation.md
 create mode 100644 examples/online_serving/retrieval_augmented_generation_with_langchain.py
 create mode 100644 examples/online_serving/retrieval_augmented_generation_with_llamaindex.py

diff --git a/docs/source/deployment/frameworks/index.md b/docs/source/deployment/frameworks/index.md
index 683fa8217..d1c058eaf 100644
--- a/docs/source/deployment/frameworks/index.md
+++ b/docs/source/deployment/frameworks/index.md
@@ -11,6 +11,7 @@ helm
 lws
 modal
 open-webui
+retrieval_augmented_generation
 skypilot
 streamlit
 triton
diff --git a/docs/source/deployment/frameworks/retrieval_augmented_generation.md b/docs/source/deployment/frameworks/retrieval_augmented_generation.md
new file mode 100644
index 000000000..f84451faf
--- /dev/null
+++ b/docs/source/deployment/frameworks/retrieval_augmented_generation.md
@@ -0,0 +1,84 @@
+(deployment-retrieval-augmented-generation)=
+
+# Retrieval-Augmented Generation
+
+[Retrieval-augmented generation (RAG)](https://en.wikipedia.org/wiki/Retrieval-augmented_generation) is a technique that enables generative artificial intelligence (Gen AI) models to retrieve and incorporate new information. It modifies interactions with a large language model (LLM) so that the model responds to user queries with reference to a specified set of documents, using this information to supplement information from its pre-existing training data. This allows LLMs to use domain-specific and/or updated information. Use cases include providing chatbot access to internal company data or generating responses based on authoritative sources.
+
+Here are the integrations:
+- vLLM + [langchain](https://github.com/langchain-ai/langchain) + [milvus](https://github.com/milvus-io/milvus)
+- vLLM + [llamaindex](https://github.com/run-llama/llama_index) + [milvus](https://github.com/milvus-io/milvus)
+
+## vLLM + langchain
+
+### Prerequisites
+
+- Setup vLLM and langchain environment
+
+```console
+pip install -U vllm \
+            langchain_milvus langchain_openai \
+            langchain_community beautifulsoup4 \
+            langchain-text-splitters
+```
+
+### Deploy
+
+- Start the vLLM server with the supported embedding model, e.g.
+
+```console
+# Start embedding service (port 8000)
+vllm serve ssmits/Qwen2-7B-Instruct-embed-base
+```
+
+- Start the vLLM server with the supported chat completion model, e.g.
+
+```console
+# Start chat service (port 8001)
+vllm serve qwen/Qwen1.5-0.5B-Chat --port 8001
+```
+
+- Use the script: <gh-file:examples/online_serving/retrieval_augmented_generation_with_langchain.py>
+
+- Run the script
+
+```python
+python retrieval_augmented_generation_with_langchain.py
+```
+
+## vLLM + llamaindex
+
+### Prerequisites
+
+- Setup vLLM and llamaindex environment
+
+```console
+pip install vllm \
+            llama-index llama-index-readers-web \
+            llama-index-llms-openai-like    \
+            llama-index-embeddings-openai-like \
+            llama-index-vector-stores-milvus \
+```
+
+### Deploy
+
+- Start the vLLM server with the supported embedding model, e.g.
+
+```console
+# Start embedding service (port 8000)
+vllm serve ssmits/Qwen2-7B-Instruct-embed-base
+```
+
+- Start the vLLM server with the supported chat completion model, e.g.
+
+```console
+# Start chat service (port 8001)
+vllm serve qwen/Qwen1.5-0.5B-Chat --port 8001
+```
+
+- Use the script: <gh-file:examples/online_serving/retrieval_augmented_generation_with_llamaindex.py>
+
+- Run the script
+
+```python
+python retrieval_augmented_generation_with_llamaindex.py
+```
diff --git a/examples/online_serving/retrieval_augmented_generation_with_langchain.py b/examples/online_serving/retrieval_augmented_generation_with_langchain.py
new file mode 100644
index 000000000..73063065c
--- /dev/null
+++ b/examples/online_serving/retrieval_augmented_generation_with_langchain.py
@@ -0,0 +1,249 @@
+# SPDX-License-Identifier: Apache-2.0
+"""
+Retrieval Augmented Generation (RAG) Implementation with Langchain
+==================================================================
+
+This script demonstrates a RAG implementation using LangChain, Milvus
+and vLLM. RAG enhances LLM responses by retrieving relevant context
+from a document collection.
+
+Features:
+- Web content loading and chunking
+- Vector storage with Milvus
+- Embedding generation with vLLM
+- Question answering with context
+
+Prerequisites:
+1. Install dependencies:
+    pip install -U vllm \
+                 langchain_milvus langchain_openai \
+                 langchain_community beautifulsoup4 \
+                 langchain-text-splitters
+
+2. Start services:
+    # Start embedding service (port 8000)
+    vllm serve ssmits/Qwen2-7B-Instruct-embed-base
+
+    # Start chat service (port 8001)
+    vllm serve qwen/Qwen1.5-0.5B-Chat --port 8001
+
+Usage:
+    python retrieval_augmented_generation_with_langchain.py
+
+Notes:
+    - Ensure both vLLM services are running before executing
+    - Default ports: 8000 (embedding), 8001 (chat)
+    - First run may take time to download models
+"""
+
+import argparse
+from argparse import Namespace
+from typing import Any
+
+from langchain_community.document_loaders import WebBaseLoader
+from langchain_core.documents import Document
+from langchain_core.output_parsers import StrOutputParser
+from langchain_core.prompts import PromptTemplate
+from langchain_core.runnables import RunnablePassthrough
+from langchain_milvus import Milvus
+from langchain_openai import ChatOpenAI, OpenAIEmbeddings
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+
+
+def load_and_split_documents(config: dict[str, Any]):
+    """
+    Load and split documents from web URL
+    """
+    try:
+        loader = WebBaseLoader(web_paths=(config["url"], ))
+        docs = loader.load()
+
+        text_splitter = RecursiveCharacterTextSplitter(
+            chunk_size=config["chunk_size"],
+            chunk_overlap=config["chunk_overlap"],
+        )
+        return text_splitter.split_documents(docs)
+    except Exception as e:
+        print(f"Error loading document from {config['url']}: {str(e)}")
+        raise
+
+
+def init_vectorstore(config: dict[str, Any], documents: list[Document]):
+    """
+    Initialize vector store with documents
+    """
+    return Milvus.from_documents(
+        documents=documents,
+        embedding=OpenAIEmbeddings(
+            model=config["embedding_model"],
+            openai_api_key=config["vllm_api_key"],
+            openai_api_base=config["vllm_embedding_endpoint"],
+        ),
+        connection_args={"uri": config["uri"]},
+        drop_old=True,
+    )
+
+
+def init_llm(config: dict[str, Any]):
+    """
+    Initialize llm
+    """
+    return ChatOpenAI(
+        model=config["chat_model"],
+        openai_api_key=config["vllm_api_key"],
+        openai_api_base=config["vllm_chat_endpoint"],
+    )
+
+
+def get_qa_prompt():
+    """
+    Get question answering prompt template
+    """
+    template = """You are an assistant for question-answering tasks.
+Use the following pieces of retrieved context to answer the question.
+If you don't know the answer, just say that you don't know.
+Use three sentences maximum and keep the answer concise.
+Question: {question}
+Context: {context}
+Answer:
+"""
+    return PromptTemplate.from_template(template)
+
+
+def format_docs(docs: list[Document]):
+    """
+    Format documents for prompt
+    """
+    return "\n\n".join(doc.page_content for doc in docs)
+
+
+def create_qa_chain(retriever: Any, llm: ChatOpenAI, prompt: PromptTemplate):
+    """
+    Set up question answering chain
+    """
+    return ({
+        "context": retriever | format_docs,
+        "question": RunnablePassthrough(),
+    }
+            | prompt
+            | llm
+            | StrOutputParser())
+
+
+def get_parser() -> argparse.ArgumentParser:
+    """
+    Parse command line arguments
+    """
+    parser = argparse.ArgumentParser(description='RAG with vLLM and langchain')
+
+    # Add command line arguments
+    parser.add_argument('--vllm-api-key',
+                        default="EMPTY",
+                        help='API key for vLLM compatible services')
+    parser.add_argument('--vllm-embedding-endpoint',
+                        default="http://localhost:8000/v1",
+                        help='Base URL for embedding service')
+    parser.add_argument('--vllm-chat-endpoint',
+                        default="http://localhost:8001/v1",
+                        help='Base URL for chat service')
+    parser.add_argument('--uri',
+                        default="./milvus.db",
+                        help='URI for Milvus database')
+    parser.add_argument(
+        '--url',
+        default=("https://docs.vllm.ai/en/latest/getting_started/"
+                 "quickstart.html"),
+        help='URL of the document to process')
+    parser.add_argument('--embedding-model',
+                        default="ssmits/Qwen2-7B-Instruct-embed-base",
+                        help='Model name for embeddings')
+    parser.add_argument('--chat-model',
+                        default="qwen/Qwen1.5-0.5B-Chat",
+                        help='Model name for chat')
+    parser.add_argument('-i',
+                        '--interactive',
+                        action='store_true',
+                        help='Enable interactive Q&A mode')
+    parser.add_argument('-k',
+                        '--top-k',
+                        type=int,
+                        default=3,
+                        help='Number of top results to retrieve')
+    parser.add_argument('-c',
+                        '--chunk-size',
+                        type=int,
+                        default=1000,
+                        help='Chunk size for document splitting')
+    parser.add_argument('-o',
+                        '--chunk-overlap',
+                        type=int,
+                        default=200,
+                        help='Chunk overlap for document splitting')
+
+    return parser
+
+
+def init_config(args: Namespace):
+    """
+    Initialize configuration settings from command line arguments
+    """
+
+    return {
+        "vllm_api_key": args.vllm_api_key,
+        "vllm_embedding_endpoint": args.vllm_embedding_endpoint,
+        "vllm_chat_endpoint": args.vllm_chat_endpoint,
+        "uri": args.uri,
+        "embedding_model": args.embedding_model,
+        "chat_model": args.chat_model,
+        "url": args.url,
+        "chunk_size": args.chunk_size,
+        "chunk_overlap": args.chunk_overlap,
+        "top_k": args.top_k
+    }
+
+
+def main():
+    # Parse command line arguments
+    args = get_parser().parse_args()
+
+    # Initialize configuration
+    config = init_config(args)
+
+    # Load and split documents
+    documents = load_and_split_documents(config)
+
+    # Initialize vector store and retriever
+    vectorstore = init_vectorstore(config, documents)
+    retriever = vectorstore.as_retriever(search_kwargs={"k": config["top_k"]})
+
+    # Initialize llm and prompt
+    llm = init_llm(config)
+    prompt = get_qa_prompt()
+
+    # Set up QA chain
+    qa_chain = create_qa_chain(retriever, llm, prompt)
+
+    # Interactive mode
+    if args.interactive:
+        print("\nWelcome to Interactive Q&A System!")
+        print("Enter 'q' or 'quit' to exit.")
+
+        while True:
+            question = input("\nPlease enter your question: ")
+            if question.lower() in ['q', 'quit']:
+                print("\nThank you for using! Goodbye!")
+                break
+
+            output = qa_chain.invoke(question)
+            print(output)
+    else:
+        # Default single question mode
+        question = ("How to install vLLM?")
+        output = qa_chain.invoke(question)
+        print("-" * 50)
+        print(output)
+        print("-" * 50)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/examples/online_serving/retrieval_augmented_generation_with_llamaindex.py b/examples/online_serving/retrieval_augmented_generation_with_llamaindex.py
new file mode 100644
index 000000000..a8f76dfe4
--- /dev/null
+++ b/examples/online_serving/retrieval_augmented_generation_with_llamaindex.py
@@ -0,0 +1,217 @@
+# SPDX-License-Identifier: Apache-2.0
+"""
+RAG (Retrieval Augmented Generation) Implementation with LlamaIndex
+================================================================
+
+This script demonstrates a RAG system using:
+- LlamaIndex: For document indexing and retrieval
+- Milvus: As vector store backend
+- vLLM: For embedding and text generation
+
+Features:
+1. Document Loading & Processing
+2. Embedding & Storage
+3. Query Processing
+
+Requirements:
+1. Install dependencies:
+pip install llama-index llama-index-readers-web \
+            llama-index-llms-openai-like    \
+            llama-index-embeddings-openai-like \
+            llama-index-vector-stores-milvus \
+
+2. Start services:
+    # Start embedding service (port 8000)
+    vllm serve ssmits/Qwen2-7B-Instruct-embed-base
+
+    # Start chat service (port 8001)
+    vllm serve qwen/Qwen1.5-0.5B-Chat --port 8001
+
+Usage:
+    python retrieval_augmented_generation_with_llamaindex.py
+
+Notes:
+    - Ensure both vLLM services are running before executing
+    - Default ports: 8000 (embedding), 8001 (chat)
+    - First run may take time to download models
+"""
+import argparse
+from argparse import Namespace
+from typing import Any
+
+from llama_index.core import Settings, StorageContext, VectorStoreIndex
+from llama_index.core.node_parser import SentenceSplitter
+from llama_index.embeddings.openai_like import OpenAILikeEmbedding
+from llama_index.llms.openai_like import OpenAILike
+from llama_index.readers.web import SimpleWebPageReader
+from llama_index.vector_stores.milvus import MilvusVectorStore
+
+
+def init_config(args: Namespace):
+    """Initialize configuration with command line arguments"""
+    return {
+        "url": args.url,
+        "embedding_model": args.embedding_model,
+        "chat_model": args.chat_model,
+        "vllm_api_key": args.vllm_api_key,
+        "embedding_endpoint": args.embedding_endpoint,
+        "chat_endpoint": args.chat_endpoint,
+        "db_path": args.db_path,
+        "chunk_size": args.chunk_size,
+        "chunk_overlap": args.chunk_overlap,
+        "top_k": args.top_k
+    }
+
+
+def load_documents(url: str) -> list:
+    """Load and process web documents"""
+    return SimpleWebPageReader(html_to_text=True).load_data([url])
+
+
+def setup_models(config: dict[str, Any]):
+    """Configure embedding and chat models"""
+    Settings.embed_model = OpenAILikeEmbedding(
+        api_base=config["embedding_endpoint"],
+        api_key=config["vllm_api_key"],
+        model_name=config["embedding_model"],
+    )
+
+    Settings.llm = OpenAILike(
+        model=config["chat_model"],
+        api_key=config["vllm_api_key"],
+        api_base=config["chat_endpoint"],
+        context_window=128000,
+        is_chat_model=True,
+        is_function_calling_model=False,
+    )
+
+    Settings.transformations = [
+        SentenceSplitter(
+            chunk_size=config["chunk_size"],
+            chunk_overlap=config["chunk_overlap"],
+        )
+    ]
+
+
+def setup_vector_store(db_path: str) -> MilvusVectorStore:
+    """Initialize vector store"""
+    sample_emb = Settings.embed_model.get_text_embedding("test")
+    print(f"Embedding dimension: {len(sample_emb)}")
+    return MilvusVectorStore(uri=db_path, dim=len(sample_emb), overwrite=True)
+
+
+def create_index(documents: list, vector_store: MilvusVectorStore):
+    """Create document index"""
+    storage_context = StorageContext.from_defaults(vector_store=vector_store)
+    return VectorStoreIndex.from_documents(
+        documents,
+        storage_context=storage_context,
+    )
+
+
+def query_document(index: VectorStoreIndex, question: str, top_k: int):
+    """Query document with given question"""
+    query_engine = index.as_query_engine(similarity_top_k=top_k)
+    return query_engine.query(question)
+
+
+def get_parser() -> argparse.ArgumentParser:
+    """Parse command line arguments"""
+    parser = argparse.ArgumentParser(
+        description='RAG with vLLM and LlamaIndex')
+
+    # Add command line arguments
+    parser.add_argument(
+        '--url',
+        default=("https://docs.vllm.ai/en/latest/getting_started/"
+                 "quickstart.html"),
+        help='URL of the document to process')
+    parser.add_argument('--embedding-model',
+                        default="ssmits/Qwen2-7B-Instruct-embed-base",
+                        help='Model name for embeddings')
+    parser.add_argument('--chat-model',
+                        default="qwen/Qwen1.5-0.5B-Chat",
+                        help='Model name for chat')
+    parser.add_argument('--vllm-api-key',
+                        default="EMPTY",
+                        help='API key for vLLM compatible services')
+    parser.add_argument('--embedding-endpoint',
+                        default="http://localhost:8000/v1",
+                        help='Base URL for embedding service')
+    parser.add_argument('--chat-endpoint',
+                        default="http://localhost:8001/v1",
+                        help='Base URL for chat service')
+    parser.add_argument('--db-path',
+                        default="./milvus_demo.db",
+                        help='Path to Milvus database')
+    parser.add_argument('-i',
+                        '--interactive',
+                        action='store_true',
+                        help='Enable interactive Q&A mode')
+    parser.add_argument('-c',
+                        '--chunk-size',
+                        type=int,
+                        default=1000,
+                        help='Chunk size for document splitting')
+    parser.add_argument('-o',
+                        '--chunk-overlap',
+                        type=int,
+                        default=200,
+                        help='Chunk overlap for document splitting')
+    parser.add_argument('-k',
+                        '--top-k',
+                        type=int,
+                        default=3,
+                        help='Number of top results to retrieve')
+
+    return parser
+
+
+def main():
+    # Parse command line arguments
+    args = get_parser().parse_args()
+
+    # Initialize configuration
+    config = init_config(args)
+
+    # Load documents
+    documents = load_documents(config["url"])
+
+    # Setup models
+    setup_models(config)
+
+    # Setup vector store
+    vector_store = setup_vector_store(config["db_path"])
+
+    # Create index
+    index = create_index(documents, vector_store)
+
+    if args.interactive:
+        print("\nEntering interactive mode. Type 'quit' to exit.")
+        while True:
+            # Get user question
+            question = input("\nEnter your question: ")
+
+            # Check for exit command
+            if question.lower() in ['quit', 'exit', 'q']:
+                print("Exiting interactive mode...")
+                break
+
+            # Get and print response
+            print("\n" + "-" * 50)
+            print("Response:\n")
+            response = query_document(index, question, config["top_k"])
+            print(response)
+            print("-" * 50)
+    else:
+        # Single query mode
+        question = "How to install vLLM?"
+        response = query_document(index, question, config["top_k"])
+        print("-" * 50)
+        print("Response:\n")
+        print(response)
+        print("-" * 50)
+
+
+if __name__ == "__main__":
+    main()
-- 
GitLab


From 5b8c390747a13dde7665e404ee0c4f67270be2f0 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Wed, 7 May 2025 00:12:28 +0800
Subject: [PATCH 174/461] [Bugfix] Fix modality limits in vision language
 example (#17721)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 examples/offline_inference/vision_language.py | 72 +++++++++----------
 1 file changed, 36 insertions(+), 36 deletions(-)

diff --git a/examples/offline_inference/vision_language.py b/examples/offline_inference/vision_language.py
index aca11f5c5..5c173ab1a 100644
--- a/examples/offline_inference/vision_language.py
+++ b/examples/offline_inference/vision_language.py
@@ -45,7 +45,7 @@ def run_aria(questions: list[str], modality: str) -> ModelRequestData:
         max_model_len=4096,
         max_num_seqs=2,
         dtype="bfloat16",
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     prompts = [(f"<|im_start|>user\n<fim_prefix><|img|><fim_suffix>{question}"
@@ -71,7 +71,7 @@ def run_aya_vision(questions: list[str], modality: str) -> ModelRequestData:
         max_model_len=2048,
         max_num_seqs=2,
         mm_processor_kwargs={"crop_to_patches": True},
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
     prompts = [
         f"<|START_OF_TURN_TOKEN|><|USER_TOKEN|><image>{question}<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>"
@@ -92,7 +92,7 @@ def run_blip2(questions: list[str], modality: str) -> ModelRequestData:
     prompts = [f"Question: {question} Answer:" for question in questions]
     engine_args = EngineArgs(
         model="Salesforce/blip2-opt-6.7b",
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     return ModelRequestData(
@@ -110,7 +110,7 @@ def run_chameleon(questions: list[str], modality: str) -> ModelRequestData:
         model="facebook/chameleon-7b",
         max_model_len=4096,
         max_num_seqs=2,
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     return ModelRequestData(
@@ -130,7 +130,7 @@ def run_deepseek_vl2(questions: list[str], modality: str) -> ModelRequestData:
         max_model_len=4096,
         max_num_seqs=2,
         hf_overrides={"architectures": ["DeepseekVLV2ForCausalLM"]},
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     prompts = [
@@ -155,7 +155,7 @@ def run_florence2(questions: list[str], modality: str) -> ModelRequestData:
         max_num_seqs=2,
         trust_remote_code=True,
         dtype="bfloat16",
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     prompts = ["<MORE_DETAILED_CAPTION>" for _ in questions]
@@ -175,7 +175,7 @@ def run_fuyu(questions: list[str], modality: str) -> ModelRequestData:
         model="adept/fuyu-8b",
         max_model_len=2048,
         max_num_seqs=2,
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     return ModelRequestData(
@@ -194,7 +194,7 @@ def run_gemma3(questions: list[str], modality: str) -> ModelRequestData:
         max_model_len=2048,
         max_num_seqs=2,
         mm_processor_kwargs={"do_pan_and_scan": True},
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     prompts = [("<bos><start_of_turn>user\n"
@@ -219,7 +219,7 @@ def run_glm4v(questions: list[str], modality: str) -> ModelRequestData:
         trust_remote_code=True,
         enforce_eager=True,
         hf_overrides={"architectures": ["GLM4VForCausalLM"]},
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     prompts = [
@@ -246,7 +246,7 @@ def run_h2ovl(questions: list[str], modality: str) -> ModelRequestData:
         model=model_name,
         trust_remote_code=True,
         max_model_len=8192,
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     tokenizer = AutoTokenizer.from_pretrained(model_name,
@@ -287,7 +287,7 @@ def run_idefics3(questions: list[str], modality: str) -> ModelRequestData:
                 "longest_edge": 3 * 364
             },
         },
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
     prompts = [(
         f"<|begin_of_text|>User:<image>{question}<end_of_utterance>\nAssistant:"
@@ -314,7 +314,7 @@ def run_smolvlm(questions: list[str], modality: str) -> ModelRequestData:
                 "longest_edge": 384
             },
         },
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
     prompts = [
         (f"<|im_start|>User:<image>{question}<end_of_utterance>\nAssistant:")
@@ -337,7 +337,7 @@ def run_internvl(questions: list[str], modality: str) -> ModelRequestData:
         model=model_name,
         trust_remote_code=True,
         max_model_len=4096,
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     tokenizer = AutoTokenizer.from_pretrained(model_name,
@@ -378,7 +378,7 @@ def run_kimi_vl(questions: list[str], modality: str) -> ModelRequestData:
         model="moonshotai/Kimi-VL-A3B-Instruct",
         trust_remote_code=True,
         max_model_len=4096,
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     return ModelRequestData(
@@ -398,7 +398,7 @@ def run_llava(questions: list[str], modality: str) -> ModelRequestData:
     engine_args = EngineArgs(
         model="llava-hf/llava-1.5-7b-hf",
         max_model_len=4096,
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     return ModelRequestData(
@@ -415,7 +415,7 @@ def run_llava_next(questions: list[str], modality: str) -> ModelRequestData:
     engine_args = EngineArgs(
         model="llava-hf/llava-v1.6-mistral-7b-hf",
         max_model_len=8192,
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     return ModelRequestData(
@@ -437,7 +437,7 @@ def run_llava_next_video(questions: list[str],
         model="llava-hf/LLaVA-NeXT-Video-7B-hf",
         max_model_len=8192,
         max_num_seqs=2,
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     return ModelRequestData(
@@ -465,7 +465,7 @@ def run_llava_onevision(questions: list[str],
     engine_args = EngineArgs(
         model="llava-hf/llava-onevision-qwen2-7b-ov-hf",
         max_model_len=16384,
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     return ModelRequestData(
@@ -488,7 +488,7 @@ def run_mantis(questions: list[str], modality: str) -> ModelRequestData:
         model="TIGER-Lab/Mantis-8B-siglip-llama3",
         max_model_len=4096,
         hf_overrides={"architectures": ["MantisForConditionalGeneration"]},
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
     stop_token_ids = [128009]
 
@@ -529,7 +529,7 @@ def run_minicpmv_base(questions: list[str], modality: str, model_name):
         max_model_len=4096,
         max_num_seqs=2,
         trust_remote_code=True,
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
     # NOTE The stop_token_ids are different for various versions of MiniCPM-V
     # 2.0
@@ -584,7 +584,7 @@ def run_mistral3(questions: list[str], modality: str) -> ModelRequestData:
         max_model_len=8192,
         max_num_seqs=2,
         tensor_parallel_size=2,
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     prompts = [f"<s>[INST]{question}\n[IMG][/INST]" for question in questions]
@@ -610,7 +610,7 @@ def run_mllama(questions: list[str], modality: str) -> ModelRequestData:
         model=model_name,
         max_model_len=8192,
         max_num_seqs=2,
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     tokenizer = AutoTokenizer.from_pretrained(model_name)
@@ -645,7 +645,7 @@ def run_llama4(questions: list[str], modality: str) -> ModelRequestData:
         max_num_seqs=4,
         tensor_parallel_size=8,
         gpu_memory_utilization=0.4,
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     tokenizer = AutoTokenizer.from_pretrained(model_name)
@@ -680,7 +680,7 @@ def run_molmo(questions: list[str], modality: str) -> ModelRequestData:
         model=model_name,
         trust_remote_code=True,
         dtype="bfloat16",
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     prompts = [
@@ -706,7 +706,7 @@ def run_nvlm_d(questions: list[str], modality: str) -> ModelRequestData:
         trust_remote_code=True,
         max_model_len=4096,
         tensor_parallel_size=4,
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     tokenizer = AutoTokenizer.from_pretrained(model_name,
@@ -738,7 +738,7 @@ def run_ovis2(questions: list[str], modality: str) -> ModelRequestData:
         trust_remote_code=True,
         dtype="half",
         hf_overrides={"architectures": ["Ovis2ForConditionalGeneration"]},
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     placeholder = "<image>\n"
@@ -761,7 +761,7 @@ def run_paligemma(questions: list[str], modality: str) -> ModelRequestData:
     prompts = ["caption en" for _ in questions]
     engine_args = EngineArgs(
         model="google/paligemma-3b-mix-224",
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     return ModelRequestData(
@@ -778,7 +778,7 @@ def run_paligemma2(questions: list[str], modality: str) -> ModelRequestData:
     prompts = ["caption en" for _ in questions]
     engine_args = EngineArgs(
         model="google/paligemma2-3b-ft-docci-448",
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     return ModelRequestData(
@@ -815,7 +815,7 @@ def run_phi3v(questions: list[str], modality: str) -> ModelRequestData:
         max_num_seqs=2,
         # Note - mm_processor_kwargs can also be passed to generate/chat calls
         mm_processor_kwargs={"num_crops": 16},
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     return ModelRequestData(
@@ -849,7 +849,7 @@ def run_phi4mm(questions: list[str], modality: str) -> ModelRequestData:
         max_lora_rank=320,
         # Note - mm_processor_kwargs can also be passed to generate/chat calls
         mm_processor_kwargs={"dynamic_hd": 16},
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     return ModelRequestData(
@@ -870,7 +870,7 @@ def run_pixtral_hf(questions: list[str], modality: str) -> ModelRequestData:
         model=model_name,
         max_model_len=6144,
         max_num_seqs=2,
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     prompts = [f"<s>[INST]{question}\n[IMG][/INST]" for question in questions]
@@ -891,7 +891,7 @@ def run_qwen_vl(questions: list[str], modality: str) -> ModelRequestData:
         max_model_len=1024,
         max_num_seqs=2,
         hf_overrides={"architectures": ["QwenVLForConditionalGeneration"]},
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     prompts = [f"{question}Picture 1: <img></img>\n" for question in questions]
@@ -916,7 +916,7 @@ def run_qwen2_vl(questions: list[str], modality: str) -> ModelRequestData:
             "min_pixels": 28 * 28,
             "max_pixels": 1280 * 28 * 28,
         },
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     if modality == "image":
@@ -951,7 +951,7 @@ def run_qwen2_5_vl(questions: list[str], modality: str) -> ModelRequestData:
             "max_pixels": 1280 * 28 * 28,
             "fps": 1,
         },
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     if modality == "image":
@@ -985,7 +985,7 @@ def run_qwen2_5_omni(questions: list[str], modality: str):
             "max_pixels": 1280 * 28 * 28,
             "fps": [1],
         },
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     if modality == "image":
@@ -1018,7 +1018,7 @@ def run_skyworkr1v(questions: list[str], modality: str) -> ModelRequestData:
         model=model_name,
         trust_remote_code=True,
         max_model_len=4096,
-        limit_mm_per_prompt={"image": 1},
+        limit_mm_per_prompt={modality: 1},
     )
 
     tokenizer = AutoTokenizer.from_pretrained(model_name,
-- 
GitLab


From 6115b115826040ad1f49b69a8b4fdd59f0df5113 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 6 May 2025 17:48:26 +0100
Subject: [PATCH 175/461] Make right sidebar more readable in "Supported
 Models" (#17723)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 docs/source/models/supported_models.md | 32 +++++++++++++++++++-------
 1 file changed, 24 insertions(+), 8 deletions(-)

diff --git a/docs/source/models/supported_models.md b/docs/source/models/supported_models.md
index a5b63cf7b..287947feb 100644
--- a/docs/source/models/supported_models.md
+++ b/docs/source/models/supported_models.md
@@ -239,7 +239,9 @@ print(output)
 
 See [this page](#generative-models) for more information on how to use generative models.
 
-#### Text Generation (`--task generate`)
+#### Text Generation
+
+Specified using `--task generate`.
 
 :::{list-table}
 :widths: 25 25 50 5 5
@@ -605,7 +607,9 @@ Since some model architectures support both generative and pooling tasks,
 you should explicitly specify the task type to ensure that the model is used in pooling mode instead of generative mode.
 :::
 
-#### Text Embedding (`--task embed`)
+#### Text Embedding
+
+Specified using `--task embed`.
 
 :::{list-table}
 :widths: 25 25 50 5 5
@@ -670,7 +674,9 @@ If your model is not in the above list, we will try to automatically convert the
 {func}`~vllm.model_executor.models.adapters.as_embedding_model`. By default, the embeddings
 of the whole prompt are extracted from the normalized hidden state corresponding to the last token.
 
-#### Reward Modeling (`--task reward`)
+#### Reward Modeling
+
+Specified using `--task reward`.
 
 :::{list-table}
 :widths: 25 25 50 5 5
@@ -711,7 +717,9 @@ For process-supervised reward models such as `peiyi9979/math-shepherd-mistral-7b
 e.g.: `--override-pooler-config '{"pooling_type": "STEP", "step_tag_id": 123, "returned_token_ids": [456, 789]}'`.
 :::
 
-#### Classification (`--task classify`)
+#### Classification
+
+Specified using `--task classify`.
 
 :::{list-table}
 :widths: 25 25 50 5 5
@@ -737,7 +745,9 @@ e.g.: `--override-pooler-config '{"pooling_type": "STEP", "step_tag_id": 123, "r
 If your model is not in the above list, we will try to automatically convert the model using
 {func}`~vllm.model_executor.models.adapters.as_classification_model`. By default, the class probabilities are extracted from the softmaxed hidden state corresponding to the last token.
 
-#### Sentence Pair Scoring (`--task score`)
+#### Sentence Pair Scoring
+
+Specified using `--task score`.
 
 :::{list-table}
 :widths: 25 25 50 5 5
@@ -824,7 +834,9 @@ vLLM currently only supports adding LoRA to the language backbone of multimodal
 
 See [this page](#generative-models) for more information on how to use generative models.
 
-#### Text Generation (`--task generate`)
+#### Text Generation
+
+Specified using `--task generate`.
 
 :::{list-table}
 :widths: 25 25 15 20 5 5 5
@@ -1200,7 +1212,9 @@ Since some model architectures support both generative and pooling tasks,
 you should explicitly specify the task type to ensure that the model is used in pooling mode instead of generative mode.
 :::
 
-#### Text Embedding (`--task embed`)
+#### Text Embedding
+
+Specified using `--task embed`.
 
 Any text generation model can be converted into an embedding model by passing `--task embed`.
 
@@ -1240,7 +1254,9 @@ The following table lists those that are tested in vLLM.
   * ✅︎
 :::
 
-#### Transcription (`--task transcription`)
+#### Transcription
+
+Specified using `--task transcription`.
 
 Speech2Text models trained specifically for Automatic Speech Recognition.
 
-- 
GitLab


From 621ca2c0aba8268d72d380fa3e479ddafa529479 Mon Sep 17 00:00:00 2001
From: Jevin Jiang <jevin0change@gmail.com>
Date: Tue, 6 May 2025 10:55:04 -0700
Subject: [PATCH 176/461] [TPU] Increase block size and reset block shapes
 (#16458)

---
 examples/offline_inference/tpu.py    |  3 ++-
 requirements/tpu.txt                 | 10 +++++-----
 vllm/platforms/tpu.py                | 10 ++++++----
 vllm/utils.py                        |  7 +++++++
 vllm/v1/attention/backends/pallas.py | 16 +++++++++++++++-
 5 files changed, 35 insertions(+), 11 deletions(-)

diff --git a/examples/offline_inference/tpu.py b/examples/offline_inference/tpu.py
index dea717c36..71cd88f27 100644
--- a/examples/offline_inference/tpu.py
+++ b/examples/offline_inference/tpu.py
@@ -22,7 +22,8 @@ def main():
     # In real workloads, `enforace_eager` should be `False`.
     llm = LLM(model="Qwen/Qwen2-1.5B-Instruct",
               max_num_batched_tokens=64,
-              max_num_seqs=4)
+              max_num_seqs=4,
+              max_model_len=128)
     outputs = llm.generate(prompts, sampling_params)
     print("-" * 50)
     for output, answer in zip(outputs, answers):
diff --git a/requirements/tpu.txt b/requirements/tpu.txt
index 17d57058b..11501bc5d 100644
--- a/requirements/tpu.txt
+++ b/requirements/tpu.txt
@@ -18,9 +18,9 @@ setuptools==78.1.0
 --find-links https://storage.googleapis.com/libtpu-releases/index.html
 --find-links https://storage.googleapis.com/jax-releases/jax_nightly_releases.html
 --find-links https://storage.googleapis.com/jax-releases/jaxlib_nightly_releases.html
-torch==2.8.0.dev20250408
-torchvision==0.22.0.dev20250408
-torch_xla[tpu, pallas] @ https://storage.googleapis.com/pytorch-xla-releases/wheels/tpuvm/torch_xla-2.8.0.dev20250408-cp39-cp39-linux_x86_64.whl ; python_version == "3.9"
-torch_xla[tpu, pallas] @ https://storage.googleapis.com/pytorch-xla-releases/wheels/tpuvm/torch_xla-2.8.0.dev20250408-cp310-cp310-linux_x86_64.whl ; python_version == "3.10"
-torch_xla[tpu, pallas] @ https://storage.googleapis.com/pytorch-xla-releases/wheels/tpuvm/torch_xla-2.8.0.dev20250408-cp311-cp311-linux_x86_64.whl ; python_version == "3.11"
+torch==2.8.0.dev20250430
+torchvision==0.22.0.dev20250430
+torch_xla[tpu, pallas] @ https://storage.googleapis.com/pytorch-xla-releases/wheels/tpuvm/torch_xla-2.8.0.dev20250430-cp39-cp39-linux_x86_64.whl ; python_version == "3.9"
+torch_xla[tpu, pallas] @ https://storage.googleapis.com/pytorch-xla-releases/wheels/tpuvm/torch_xla-2.8.0.dev20250430-cp310-cp310-linux_x86_64.whl ; python_version == "3.10"
+torch_xla[tpu, pallas] @ https://storage.googleapis.com/pytorch-xla-releases/wheels/tpuvm/torch_xla-2.8.0.dev20250430-cp311-cp311-linux_x86_64.whl ; python_version == "3.11"
 
diff --git a/vllm/platforms/tpu.py b/vllm/platforms/tpu.py
index 52deaf122..8c968e7df 100644
--- a/vllm/platforms/tpu.py
+++ b/vllm/platforms/tpu.py
@@ -76,9 +76,9 @@ class TpuPlatform(Platform):
         from vllm.config import CompilationLevel
 
         cache_config = vllm_config.cache_config
+        # For v0, the default block size is 16.
         if cache_config and cache_config.block_size is None:
             cache_config.block_size = 16
-
         compilation_config = vllm_config.compilation_config
 
         # TPU only supports DYNAMO_ONCE compilation level
@@ -101,16 +101,18 @@ class TpuPlatform(Platform):
         if envs.VLLM_USE_V1:
             from vllm.v1.attention.backends.pallas import (
                 PallasAttentionBackend)
+            cache_config.block_size = PallasAttentionBackend.get_page_size(
+                vllm_config)
             min_page_size = PallasAttentionBackend.get_min_page_size(
                 vllm_config)
-            if min_page_size > vllm_config.cache_config.block_size:
+            if min_page_size > cache_config.block_size:
                 logger.warning(
                     "Increase the page size from %s to %s to make sure there's"
                     "no SMEM OOM",
-                    vllm_config.cache_config.block_size,
+                    cache_config.block_size,
                     min_page_size,
                 )
-                vllm_config.cache_config.block_size = min_page_size
+                cache_config.block_size = min_page_size
 
         parallel_config = vllm_config.parallel_config
         scheduler_config = vllm_config.scheduler_config
diff --git a/vllm/utils.py b/vllm/utils.py
index a061b9b81..212138e4b 100644
--- a/vllm/utils.py
+++ b/vllm/utils.py
@@ -707,6 +707,13 @@ def cdiv(a: int, b: int) -> int:
     return -(a // -b)
 
 
+def next_power_of_2(n) -> int:
+    """The next power of 2 (inclusive)"""
+    if n < 1:
+        return 1
+    return 1 << (n - 1).bit_length()
+
+
 def round_up(x: int, y: int) -> int:
     return ((x + y - 1) // y) * y
 
diff --git a/vllm/v1/attention/backends/pallas.py b/vllm/v1/attention/backends/pallas.py
index 05b97172b..79ec67b89 100644
--- a/vllm/v1/attention/backends/pallas.py
+++ b/vllm/v1/attention/backends/pallas.py
@@ -12,7 +12,7 @@ from vllm.attention.backends.abstract import (AttentionBackend, AttentionImpl,
 from vllm.attention.backends.utils import CommonAttentionState
 from vllm.config import VllmConfig
 from vllm.logger import init_logger
-from vllm.utils import cdiv
+from vllm.utils import cdiv, next_power_of_2
 
 logger = init_logger(__name__)
 
@@ -65,6 +65,20 @@ class PallasAttentionBackend(AttentionBackend):
         min_page_size = 1 << (min_page_size - 1).bit_length()
         return min_page_size
 
+    # TPU has limited SREGs (scalar registers), if page_size is too small, we
+    # can spill SREGs easily which leads to bad performance. The strategy we
+    # apply here is trying to split max-model-len to 16 pages which make the
+    # spill less likely. Meanwhile we make sure the page size is in [16, 256].
+    @staticmethod
+    def get_page_size(vllm_config: VllmConfig) -> int:
+        page_size = next_power_of_2(
+            vllm_config.model_config.max_model_len) // 16
+        if page_size <= 16:
+            return 16
+        if page_size >= 256:
+            return 256
+        return page_size
+
 
 @dataclass
 class PallasMetadata:
-- 
GitLab


From d456aea71f10d080176aa99259af1e08552f1b04 Mon Sep 17 00:00:00 2001
From: "d.transposed" <damian.bogunowicz@gmail.com>
Date: Tue, 6 May 2025 21:38:45 +0200
Subject: [PATCH 177/461] [Misc] Add Next Edit Prediction (NEP) datasets
 support in `benchmark_serving.py` (#16839)

Signed-off-by: dtransposed <damian@damian-ml-machine.europe-west3-b.c.jetbrains-grazie.internal>
Signed-off-by: dtransposed <>
Co-authored-by: dtransposed <damian@damian-ml-machine.europe-west3-b.c.jetbrains-grazie.internal>
---
 benchmarks/benchmark_dataset.py | 88 +++++++++++++++++++++++++++++++++
 benchmarks/benchmark_serving.py |  8 ++-
 vllm/benchmarks/datasets.py     | 88 +++++++++++++++++++++++++++++++++
 3 files changed, 182 insertions(+), 2 deletions(-)

diff --git a/benchmarks/benchmark_dataset.py b/benchmarks/benchmark_dataset.py
index b81c2f819..98d3360cd 100644
--- a/benchmarks/benchmark_dataset.py
+++ b/benchmarks/benchmark_dataset.py
@@ -887,6 +887,94 @@ class AIMODataset(HuggingFaceDataset):
         return sampled_requests
 
 
+# -----------------------------------------------------------------------------
+# Next Edit Prediction Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+zeta_prompt = """### Instruction:
+You are a code completion assistant and your task is to analyze user edits and then rewrite an excerpt that the user provides, suggesting the appropriate edits within the excerpt, taking into account the cursor location.
+
+### User Edits:
+
+{}
+
+### User Excerpt:
+
+{}
+
+### Response:
+
+""" # noqa: E501
+
+
+def _format_zeta_prompt(
+        sample: dict,
+        original_start_marker: str = "<|editable_region_start|>") -> dict:
+    """Format the zeta prompt for the Next Edit Prediction (NEP) dataset.
+    
+    This function formats examples from the NEP dataset 
+    into prompts and expected outputs. It could be 
+    further extended to support more NEP datasets.
+    
+    Args:
+        sample: The dataset sample containing events, 
+            inputs, and outputs.
+        original_start_marker: The marker indicating the 
+            start of the editable region. Defaults to 
+            "<|editable_region_start|>".
+            
+    Returns:
+        A dictionary with the formatted prompts and expected outputs.
+    """
+    events = sample["events"]
+    input = sample["input"]
+    output = sample["output"]
+    prompt = zeta_prompt.format(events, input)
+
+    # following the original implementation, extract the focused region
+    # from the raw output
+    output_start_index = output.find(original_start_marker)
+    output_focused_region = output[output_start_index:]
+    expected_output = output_focused_region
+
+    return {"prompt": prompt, "expected_output": expected_output}
+
+
+class NextEditPredictionDataset(HuggingFaceDataset):
+    """
+    Dataset class for processing a Next Edit Prediction dataset.
+    """
+
+    SUPPORTED_DATASET_PATHS = {
+        "zed-industries/zeta",
+    }
+    MAPPING_PROMPT_FUNCS = {
+        "zed-industries/zeta": _format_zeta_prompt,
+    }
+
+    def sample(self, tokenizer: PreTrainedTokenizerBase, num_requests: int,
+               **kwargs):
+        formatting_prompt_func = self.MAPPING_PROMPT_FUNCS.get(
+            self.dataset_path)
+        if formatting_prompt_func is None:
+            raise ValueError(f"Unsupported dataset path: {self.dataset_path}")
+        samples = []
+        for sample in self.data:
+            sample = formatting_prompt_func(sample)
+            samples.append(
+                SampleRequest(
+                    prompt=sample["prompt"],
+                    prompt_len=len(tokenizer(sample["prompt"]).input_ids),
+                    expected_output_len=len(
+                        tokenizer(sample["expected_output"]).input_ids),
+                ))
+            if len(samples) >= num_requests:
+                break
+        self.maybe_oversample_requests(samples, num_requests)
+        return samples
+
+
 # -----------------------------------------------------------------------------
 # ASR Dataset Implementation
 # -----------------------------------------------------------------------------
diff --git a/benchmarks/benchmark_serving.py b/benchmarks/benchmark_serving.py
index c236d6426..89fb0e1df 100644
--- a/benchmarks/benchmark_serving.py
+++ b/benchmarks/benchmark_serving.py
@@ -53,8 +53,9 @@ except ImportError:
 from benchmark_dataset import (AIMODataset, ASRDataset, BurstGPTDataset,
                                ConversationDataset, HuggingFaceDataset,
                                InstructCoderDataset, MTBenchDataset,
-                               RandomDataset, SampleRequest, ShareGPTDataset,
-                               SonnetDataset, VisionArenaDataset)
+                               NextEditPredictionDataset, RandomDataset,
+                               SampleRequest, ShareGPTDataset, SonnetDataset,
+                               VisionArenaDataset)
 from benchmark_utils import convert_to_pytorch_benchmark_format, write_to_json
 
 MILLISECONDS_TO_SECONDS_CONVERSION = 1000
@@ -603,6 +604,9 @@ def main(args: argparse.Namespace):
         elif args.dataset_path in AIMODataset.SUPPORTED_DATASET_PATHS:
             dataset_class = AIMODataset
             args.hf_split = "train"
+        elif args.dataset_path in NextEditPredictionDataset.SUPPORTED_DATASET_PATHS:  # noqa: E501
+            dataset_class = NextEditPredictionDataset
+            args.hf_split = "train"
         elif args.dataset_path in ASRDataset.SUPPORTED_DATASET_PATHS:
             dataset_class = ASRDataset
             args.hf_split = "train"
diff --git a/vllm/benchmarks/datasets.py b/vllm/benchmarks/datasets.py
index 299c888c2..fab44fb60 100644
--- a/vllm/benchmarks/datasets.py
+++ b/vllm/benchmarks/datasets.py
@@ -829,3 +829,91 @@ class AIMODataset(HuggingFaceDataset):
                 ))
         self.maybe_oversample_requests(sampled_requests, num_requests)
         return sampled_requests
+
+
+# -----------------------------------------------------------------------------
+# Next Edit Prediction Dataset Implementation
+# -----------------------------------------------------------------------------
+
+
+zeta_prompt = """### Instruction:
+You are a code completion assistant and your task is to analyze user edits and then rewrite an excerpt that the user provides, suggesting the appropriate edits within the excerpt, taking into account the cursor location.
+
+### User Edits:
+
+{}
+
+### User Excerpt:
+
+{}
+
+### Response:
+
+""" # noqa: E501
+
+
+def _format_zeta_prompt(
+        sample: dict,
+        original_start_marker: str = "<|editable_region_start|>") -> dict:
+    """Format the zeta prompt for the Next Edit Prediction (NEP) dataset.
+    
+    This function formats examples from the NEP dataset 
+    into prompts and expected outputs. It could be 
+    further extended to support more NEP datasets.
+    
+    Args:
+        sample: The dataset sample containing events, 
+            inputs, and outputs.
+        original_start_marker: The marker indicating the 
+            start of the editable region. Defaults to 
+            "<|editable_region_start|>".
+            
+    Returns:
+        A dictionary with the formatted prompts and expected outputs.
+    """
+    events = sample["events"]
+    input = sample["input"]
+    output = sample["output"]
+    prompt = zeta_prompt.format(events, input)
+
+    # following the original implementation, extract the focused region
+    # from the raw output
+    output_start_index = output.find(original_start_marker)
+    output_focused_region = output[output_start_index:]
+    expected_output = output_focused_region
+
+    return {"prompt": prompt, "expected_output": expected_output}
+
+
+class NextEditPredictionDataset(HuggingFaceDataset):
+    """
+    Dataset class for processing a Next Edit Prediction dataset.
+    """
+
+    SUPPORTED_DATASET_PATHS = {
+        "zed-industries/zeta",
+    }
+    MAPPING_PROMPT_FUNCS = {
+        "zed-industries/zeta": _format_zeta_prompt,
+    }
+
+    def sample(self, tokenizer: PreTrainedTokenizerBase, num_requests: int,
+               **kwargs):
+        formatting_prompt_func = self.MAPPING_PROMPT_FUNCS.get(
+            self.dataset_path)
+        if formatting_prompt_func is None:
+            raise ValueError(f"Unsupported dataset path: {self.dataset_path}")
+        samples = []
+        for sample in self.data:
+            sample = formatting_prompt_func(sample)
+            samples.append(
+                SampleRequest(
+                    prompt=sample["prompt"],
+                    prompt_len=len(tokenizer(sample["prompt"]).input_ids),
+                    expected_output_len=len(
+                        tokenizer(sample["expected_output"]).input_ids),
+                ))
+            if len(samples) >= num_requests:
+                break
+        self.maybe_oversample_requests(samples, num_requests)
+        return samples
-- 
GitLab


From de906b95f9d0b9669da902785a9012ac96edd578 Mon Sep 17 00:00:00 2001
From: Gregory Shtrasberg <156009573+gshtras@users.noreply.github.com>
Date: Tue, 6 May 2025 15:59:06 -0400
Subject: [PATCH 178/461] [Bugfix] Fix for the condition to accept empty
 encoder inputs for mllama (#17732)

Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>
---
 vllm/engine/llm_engine.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/engine/llm_engine.py b/vllm/engine/llm_engine.py
index 38a20a418..e0f57e0b4 100644
--- a/vllm/engine/llm_engine.py
+++ b/vllm/engine/llm_engine.py
@@ -2021,7 +2021,7 @@ class LLMEngine:
         if not prompt_ids:
             if prompt_type == "encoder" and model_config.is_multimodal_model:
                 pass  # Mllama may have empty encoder inputs for text-only data
-            if prompt_inputs["type"] == "embeds":
+            elif prompt_inputs["type"] == "embeds":
                 pass
             else:
                 raise ValueError(f"The {prompt_type} prompt cannot be empty")
-- 
GitLab


From 2f925e5777cce9d574292bb6c91ff9f92de3fe62 Mon Sep 17 00:00:00 2001
From: Thomas Parnell <tpa@zurich.ibm.com>
Date: Tue, 6 May 2025 18:21:48 -0400
Subject: [PATCH 179/461] [Kernel] Unified Triton kernel that doesn't
 distinguish between prefill + decode (#16828)

Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>
Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>
Co-authored-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>
---
 .../kernels/test_triton_unified_attention.py  | 189 ++++++++++
 .../attention/ops/triton_unified_attention.py | 333 ++++++++++++++++++
 vllm/v1/attention/backends/triton_attn.py     |  71 ++--
 3 files changed, 566 insertions(+), 27 deletions(-)
 create mode 100644 tests/kernels/test_triton_unified_attention.py
 create mode 100644 vllm/attention/ops/triton_unified_attention.py

diff --git a/tests/kernels/test_triton_unified_attention.py b/tests/kernels/test_triton_unified_attention.py
new file mode 100644
index 000000000..50da8e5fd
--- /dev/null
+++ b/tests/kernels/test_triton_unified_attention.py
@@ -0,0 +1,189 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from typing import Optional
+
+import pytest
+import torch
+
+from vllm.attention.ops.triton_unified_attention import unified_attention
+from vllm.platforms import current_platform
+
+NUM_HEADS = [(4, 4), (8, 2), (16, 2)]
+HEAD_SIZES = [128, 256]
+BLOCK_SIZES = [16, 32]
+
+DTYPES = [torch.float16, torch.bfloat16]
+QDTYPES = [None, torch.float8_e4m3fn]
+# one value large enough to test overflow in index calculation.
+# one value small enough to test the schema op check
+NUM_BLOCKS = [32768, 2048]
+
+
+def ref_paged_attn(
+    query: torch.Tensor,
+    key_cache: torch.Tensor,
+    value_cache: torch.Tensor,
+    query_lens: list[int],
+    kv_lens: list[int],
+    block_tables: torch.Tensor,
+    scale: float,
+    sliding_window: Optional[int] = None,
+    soft_cap: Optional[float] = None,
+) -> torch.Tensor:
+    num_seqs = len(query_lens)
+    block_tables = block_tables.cpu().numpy()
+    _, block_size, num_kv_heads, head_size = key_cache.shape
+
+    outputs: list[torch.Tensor] = []
+    start_idx = 0
+    for i in range(num_seqs):
+        query_len = query_lens[i]
+        kv_len = kv_lens[i]
+        q = query[start_idx:start_idx + query_len]
+        q *= scale
+
+        num_kv_blocks = (kv_len + block_size - 1) // block_size
+        block_indices = block_tables[i, :num_kv_blocks]
+
+        k = key_cache[block_indices].view(-1, num_kv_heads, head_size)
+        k = k[:kv_len]
+        v = value_cache[block_indices].view(-1, num_kv_heads, head_size)
+        v = v[:kv_len]
+
+        if q.shape[1] != k.shape[1]:
+            k = torch.repeat_interleave(k, q.shape[1] // k.shape[1], dim=1)
+            v = torch.repeat_interleave(v, q.shape[1] // v.shape[1], dim=1)
+        attn = torch.einsum("qhd,khd->hqk", q, k).float()
+        empty_mask = torch.ones(query_len, kv_len)
+        mask = torch.triu(empty_mask, diagonal=kv_len - query_len + 1).bool()
+        if sliding_window is not None:
+            sliding_window_mask = torch.triu(empty_mask,
+                                             diagonal=kv_len -
+                                             (query_len + sliding_window) +
+                                             1).bool().logical_not()
+            mask |= sliding_window_mask
+        if soft_cap is not None and soft_cap > 0:
+            attn = soft_cap * torch.tanh(attn / soft_cap)
+        attn.masked_fill_(mask, float("-inf"))
+        attn = torch.softmax(attn, dim=-1).to(v.dtype)
+        out = torch.einsum("hqk,khd->qhd", attn, v)
+
+        outputs.append(out)
+        start_idx += query_len
+
+    return torch.cat(outputs, dim=0)
+
+
+@pytest.mark.parametrize("seq_lens",
+                         [[(1, 1328), (5, 18),
+                           (129, 463)], [(1, 523), (1, 37), (1, 2011)]])
+@pytest.mark.parametrize("num_heads", NUM_HEADS)
+@pytest.mark.parametrize("head_size", HEAD_SIZES)
+@pytest.mark.parametrize("block_size", BLOCK_SIZES)
+@pytest.mark.parametrize("sliding_window", [None, 256])
+@pytest.mark.parametrize("dtype", DTYPES)
+@pytest.mark.parametrize("soft_cap", [None, 10.0, 50.0])
+@pytest.mark.parametrize("num_blocks", NUM_BLOCKS)
+@pytest.mark.parametrize("q_dtype", QDTYPES)
+@torch.inference_mode()
+def test_triton_unified_attn(
+    seq_lens: list[tuple[int, int]],
+    num_heads: tuple[int, int],
+    head_size: int,
+    sliding_window: Optional[int],
+    dtype: torch.dtype,
+    block_size: int,
+    soft_cap: Optional[float],
+    num_blocks: int,
+    q_dtype: Optional[torch.dtype],
+) -> None:
+    torch.set_default_device("cuda")
+
+    current_platform.seed_everything(0)
+    num_seqs = len(seq_lens)
+    query_lens = [x[0] for x in seq_lens]
+    kv_lens = [x[1] for x in seq_lens]
+    num_query_heads = num_heads[0]
+    num_kv_heads = num_heads[1]
+    assert num_query_heads % num_kv_heads == 0
+    max_query_len = max(query_lens)
+    max_kv_len = max(kv_lens)
+    window_size = ((sliding_window - 1, 0) if sliding_window is not None else
+                   (-1, -1))
+    scale = head_size**-0.5
+
+    query = torch.randn(sum(query_lens),
+                        num_query_heads,
+                        head_size,
+                        dtype=dtype)
+    key_cache = torch.randn(num_blocks,
+                            block_size,
+                            num_kv_heads,
+                            head_size,
+                            dtype=dtype)
+    value_cache = torch.randn_like(key_cache)
+    cu_query_lens = torch.tensor([0] + query_lens,
+                                 dtype=torch.int32).cumsum(dim=0,
+                                                           dtype=torch.int32)
+    kv_lens = torch.tensor(kv_lens, dtype=torch.int32)
+
+    max_num_blocks_per_seq = (max_kv_len + block_size - 1) // block_size
+    block_tables = torch.randint(0,
+                                 num_blocks,
+                                 (num_seqs, max_num_blocks_per_seq),
+                                 dtype=torch.int32)
+
+    output = torch.empty_like(query)
+
+    maybe_quantized_query = query
+    maybe_quantized_key_cache = key_cache
+    maybe_quantized_value_cache = value_cache
+    q_descale = None
+    k_descale = None
+    v_descale = None
+    if q_dtype is not None:
+        # QKV are drawn from N(0, 1): no need for a fp8 scaling factor
+        maybe_quantized_query = query.to(q_dtype)
+        maybe_quantized_key_cache = key_cache.to(q_dtype)
+        maybe_quantized_value_cache = value_cache.to(q_dtype)
+
+        scale_shape = (num_seqs, num_kv_heads)
+        q_descale = None  # Not yet supported
+        k_descale = torch.rand(scale_shape, dtype=torch.float32)
+        v_descale = torch.rand(scale_shape, dtype=torch.float32)
+
+    unified_attention(
+        q=maybe_quantized_query,
+        k=maybe_quantized_key_cache,
+        v=maybe_quantized_value_cache,
+        out=output,
+        cu_seqlens_q=cu_query_lens,
+        seqused_k=kv_lens,
+        max_seqlen_q=max_query_len,
+        max_seqlen_k=max_kv_len,
+        softmax_scale=scale,
+        causal=True,
+        window_size=window_size,
+        block_table=block_tables,
+        softcap=soft_cap if soft_cap is not None else 0,
+        q_descale=q_descale,
+        k_descale=k_descale,
+        v_descale=v_descale,
+    )
+
+    ref_output = ref_paged_attn(
+        query=query,
+        key_cache=key_cache,
+        value_cache=value_cache,
+        query_lens=query_lens,
+        kv_lens=kv_lens,
+        block_tables=block_tables,
+        scale=scale,
+        sliding_window=sliding_window,
+        soft_cap=soft_cap,
+    )
+    atol, rtol = 1.5e-2, 1e-2
+    if q_dtype is not None:
+        atol, rtol = 1.5e-1, 1.5e-1
+    torch.testing.assert_close(output, ref_output, atol=atol, rtol=rtol), \
+        f"{torch.max(torch.abs(output - ref_output))}"
diff --git a/vllm/attention/ops/triton_unified_attention.py b/vllm/attention/ops/triton_unified_attention.py
new file mode 100644
index 000000000..8c0cf9267
--- /dev/null
+++ b/vllm/attention/ops/triton_unified_attention.py
@@ -0,0 +1,333 @@
+# SPDX-License-Identifier: Apache-2.0
+
+# Authors:
+#  - Burkhard Ringlein <ngl@zurich.ibm.com>
+#  - Jan van Lunteren <jvl@zurich.ibm.com>
+#  - Chih-Chieh Yang <chih.chieh.yang@ibm.com>
+#  - Thomas Parnell <tpa@zurich.ibm.com>
+
+import triton
+import triton.language as tl
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+@triton.jit
+def cdiv_fn(x, y):
+    return (x + y - 1) // y
+
+
+@triton.jit
+def apply_softcap(S, x):
+    Sdiv = S / x
+    p1 = tl.exp(Sdiv)
+    p2 = tl.exp(-Sdiv)
+    return x * (p1 - p2) / (p1 + p2)
+
+
+@triton.jit
+def kernel_unified_attention_2d(
+    output_ptr,  # [num_tokens, num_query_heads, head_size]
+    query_ptr,  # [num_tokens, num_query_heads, head_size]
+    key_cache_ptr,  # [num_blks, num_kv_heads, head_size // x, blk_size, x]
+    value_cache_ptr,  # [num_blks, num_kv_heads, head_size, blk_size]
+    block_tables_ptr,  # [num_seqs, max_num_blocks_per_seq]
+    seq_lens_ptr,  # [num_seqs]
+    alibi_slopes_ptr,  # [num_query_heads]
+    scale,  # float32
+    k_scale,  # float32
+    v_scale,  # float32
+    softcap,  # float32
+    num_query_heads: tl.constexpr,  # int
+    num_queries_per_kv: tl.constexpr,  # int
+    block_table_stride: tl.int64,  # int
+    query_stride_0: tl.int64,  # int
+    query_stride_1: tl.int64,  # int, should be equal to head_size
+    output_stride_0: tl.int64,  # int
+    output_stride_1: tl.int64,  # int, should be equal to head_size
+    BLOCK_SIZE: tl.constexpr,  # int
+    HEAD_SIZE: tl.constexpr,  # int
+    HEAD_SIZE_PADDED: tl.constexpr,  # int, must be power of 2
+    USE_ALIBI_SLOPES: tl.constexpr,  # bool
+    USE_SOFTCAP: tl.constexpr,  # bool
+    SLIDING_WINDOW: tl.constexpr,  # int
+    stride_k_cache_0: tl.int64,  # int
+    stride_k_cache_1: tl.int64,  # int
+    stride_k_cache_2: tl.int64,  # int
+    stride_k_cache_3: tl.int64,  # int
+    stride_v_cache_0: tl.int64,  # int
+    stride_v_cache_1: tl.int64,  # int
+    stride_v_cache_2: tl.int64,  # int
+    stride_v_cache_3: tl.int64,  # int
+    query_start_len_ptr,  # [num_seqs+1]
+    BLOCK_Q: tl.constexpr,  # int
+    num_seqs: tl.int32,
+):
+
+    q_block_global_idx = tl.program_id(0)
+    kv_head_idx = tl.program_id(1)
+
+    left: tl.int32 = 0
+    right = num_seqs
+    while left < right:
+        mid = (left + right) // 2
+        mid_val = tl.load(query_start_len_ptr + mid) // BLOCK_Q + mid
+        if mid_val <= q_block_global_idx:
+            left = mid + 1
+        else:
+            right = mid
+
+    seq_idx = left - 1
+    q_block_start_idx = tl.load(query_start_len_ptr +
+                                seq_idx) // BLOCK_Q + seq_idx
+
+    q_block_local_idx = q_block_global_idx - q_block_start_idx
+
+    cur_batch_in_all_start_index = tl.load(query_start_len_ptr + seq_idx)
+    cur_batch_in_all_stop_index = tl.load(query_start_len_ptr + seq_idx + 1)
+
+    cur_batch_query_len = cur_batch_in_all_stop_index \
+        - cur_batch_in_all_start_index
+
+    if q_block_local_idx * BLOCK_Q >= cur_batch_query_len:
+        return
+
+    offs_m = tl.arange(0, BLOCK_Q * num_queries_per_kv)
+    offs_d = tl.arange(0, HEAD_SIZE_PADDED)
+
+    query_pos = q_block_local_idx * BLOCK_Q + offs_m // num_queries_per_kv
+
+    query_offset_0 = cur_batch_in_all_start_index + query_pos
+    query_offset_1 = kv_head_idx * num_queries_per_kv + \
+        offs_m % num_queries_per_kv
+
+    query_offset = (query_offset_0[:, None] * query_stride_0 +
+                    query_offset_1[:, None] * query_stride_1 + offs_d[None, :])
+
+    dim_mask = tl.where(offs_d < HEAD_SIZE, 1, 0).to(tl.int1)
+    query_mask_0 = tl.where(query_pos < cur_batch_query_len, 1, 0).to(tl.int1)
+    query_mask_1 = tl.where(query_offset_1 < num_query_heads, 1, 0).to(tl.int1)
+
+    # Q : (BLOCK_Q * num_queries_per_kv, HEAD_SIZE,)
+    Q = tl.load(
+        query_ptr + query_offset,
+        mask=dim_mask[None, :] & query_mask_0[:, None] & query_mask_1[:, None],
+        other=0.0,
+    )
+
+    block_table_offset = seq_idx * block_table_stride
+
+    M = tl.full([BLOCK_Q * num_queries_per_kv],
+                float("-inf"),
+                dtype=tl.float32)
+    L = tl.full([BLOCK_Q * num_queries_per_kv], 1.0, dtype=tl.float32)
+    acc = tl.zeros([BLOCK_Q * num_queries_per_kv, HEAD_SIZE_PADDED],
+                   dtype=tl.float32)
+
+    # sequence len for this particular sequence
+    seq_len = tl.load(seq_lens_ptr + seq_idx)
+
+    # context length for this particular sequences
+    context_len = seq_len - cur_batch_query_len
+
+    # alibi slope for this head
+    if USE_ALIBI_SLOPES:
+        alibi_slope = tl.load(alibi_slopes_ptr + query_offset_1,
+                              mask=query_mask_1,
+                              other=0.0)
+
+    num_blocks = cdiv_fn(seq_len, BLOCK_SIZE)
+
+    # iterate through tiles
+    for j in range(0, num_blocks):
+
+        physical_block_idx = tl.load(block_tables_ptr + block_table_offset + j)
+
+        offs_n = tl.arange(0, BLOCK_SIZE)
+
+        v_offset = (physical_block_idx * stride_v_cache_0 +
+                    kv_head_idx * stride_v_cache_2 +
+                    offs_d[None, :] * stride_v_cache_3 +
+                    offs_n[:, None] * stride_v_cache_1)
+
+        k_offset = (physical_block_idx * stride_k_cache_0 +
+                    kv_head_idx * stride_k_cache_2 +
+                    offs_d[:, None] * stride_k_cache_3 +
+                    offs_n[None, :] * stride_k_cache_1)
+
+        # K : (HEAD_SIZE, BLOCK_SIZE)
+        K_load = tl.load(key_cache_ptr + k_offset,
+                         mask=dim_mask[:, None],
+                         other=0.0)
+
+        if K_load.dtype.is_fp8():
+            if Q.dtype.is_fp8():
+                K = K_load
+            else:
+                K = (K_load.to(tl.float32) * tl.load(k_scale)).to(Q.dtype)
+        else:
+            K = K_load
+
+        # V : (BLOCK_SIZE, HEAD_SIZE)
+        V_load = tl.load(value_cache_ptr + v_offset,
+                         mask=dim_mask[None, :],
+                         other=0.0)
+
+        if V_load.dtype.is_fp8():
+            if Q.dtype.is_fp8():
+                V = V_load
+            else:
+                V = (V_load.to(tl.float32) * tl.load(v_scale)).to(Q.dtype)
+        else:
+            V = V_load
+
+        seq_offset = j * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)
+
+        seq_mask = seq_offset[None, :] < context_len + query_pos[:, None] + 1
+
+        # S : (BLOCK_Q * num_queries_per_kv, BLOCK_SIZE,)
+        S = tl.zeros(shape=(BLOCK_Q * num_queries_per_kv, BLOCK_SIZE),
+                     dtype=tl.float32)
+
+        S += scale * tl.dot(Q, K)
+
+        if USE_SOFTCAP:
+            S = apply_softcap(S, softcap)
+
+        S = tl.where(query_mask_1[:, None] & query_mask_0[:, None] & seq_mask,
+                     S, float("-inf"))
+
+        if SLIDING_WINDOW > 0:
+            S = tl.where((context_len + query_pos[:, None] - seq_offset)
+                         < SLIDING_WINDOW, S, float("-inf"))
+
+        if USE_ALIBI_SLOPES:
+            S += alibi_slope[:, None] * (seq_offset - context_len)
+
+        # compute running maximum
+        # m_j : (BLOCK_Q * num_queries_per_kv,)
+        m_j = tl.maximum(M, tl.max(S, axis=1))
+        # For sliding window there's a chance the max is -inf due to masking of
+        # the entire row. In this case we need to set m_j 0 to avoid NaN
+        m_j = tl.where(m_j > float("-inf"), m_j, 0.0)
+
+        # P : (BLOCK_Q * num_queries_per_kv, BLOCK_SIZE,)
+        P = tl.exp(S - m_j[:, None])
+
+        # l_j : (BLOCK_Q * num_queries_per_kv,)
+        l_j = tl.sum(P, axis=1)
+
+        # alpha : (BLOCK_Q * num_queries_per_kv, )
+        alpha = tl.exp(M - m_j)
+
+        # acc : (BLOCK_Q * num_queries_per_kv, BLOCK_SIZE,)
+        acc = acc * alpha[:, None]
+
+        # update constants
+        L = L * alpha + l_j
+        M = m_j
+
+        # acc : (BLOCK_Q * num_queries_per_kv, BLOCK_SIZE,)
+        acc += tl.dot(P.to(V.dtype), V)
+
+    # epilogue
+    acc = acc / L[:, None]
+
+    output_offset = (query_offset_0[:, None] * output_stride_0 +
+                     query_offset_1[:, None] * output_stride_1 +
+                     offs_d[None, :])
+
+    tl.store(
+        output_ptr + output_offset,
+        acc,
+        mask=dim_mask[None, :] & query_mask_0[:, None] & query_mask_1[:, None],
+    )
+
+
+def unified_attention(
+    q,
+    k,
+    v,
+    out,
+    cu_seqlens_q,
+    max_seqlen_q,
+    seqused_k,
+    max_seqlen_k,
+    softmax_scale,
+    causal,
+    window_size,
+    block_table,
+    softcap,
+    q_descale,
+    k_descale,
+    v_descale,
+    alibi_slopes=None,
+):
+    assert causal, "Only causal attention is supported"
+    assert q_descale is None, "Q scales not supported"
+
+    use_alibi_slopes = alibi_slopes is not None
+
+    block_size = v.shape[1]
+    num_seqs = len(seqused_k)
+    num_query_heads = q.shape[1]
+    num_kv_heads = k.shape[2]
+    num_queries_per_kv = num_query_heads // num_kv_heads
+    head_size = q.shape[2]
+
+    BLOCK_M = 16
+    BLOCK_Q = BLOCK_M // num_queries_per_kv
+
+    # Ideally we would launch with kernel with:
+    # \sum_i[ceil(query_len[i] / BLOCK_Q)] blocks.
+    # However, it is slow to realize the query_lens on cpu.
+    # Instead we use upper-bound:
+    # \sum_i[ceil(query_len[i] / BLOCK_Q)]
+    #   <= \sum_i[floor(query_len[i] / BLOCK_Q) + 1]
+    #    = \sum_i[floor(query_len[i] / BLOCK_Q)] + num_seqs
+    #   <= floor(\sum_i(query_len[i]) / BLOCK_Q) + num_seqs
+    #    = floor(q.shape[0] / BLOCK_Q) + num_seqs
+    total_num_q_blocks = q.shape[0] // BLOCK_Q + num_seqs
+
+    kernel_unified_attention_2d[(
+        total_num_q_blocks,
+        num_kv_heads,
+    )](
+        output_ptr=out,
+        query_ptr=q,
+        key_cache_ptr=k,
+        value_cache_ptr=v,
+        block_tables_ptr=block_table,
+        seq_lens_ptr=seqused_k,
+        alibi_slopes_ptr=alibi_slopes,
+        scale=softmax_scale,
+        k_scale=k_descale,
+        v_scale=v_descale,
+        softcap=softcap,
+        num_query_heads=num_query_heads,
+        num_queries_per_kv=num_queries_per_kv,
+        block_table_stride=block_table.stride(0),
+        query_stride_0=q.stride(0),
+        query_stride_1=q.stride(1),
+        output_stride_0=out.stride(0),
+        output_stride_1=out.stride(1),
+        BLOCK_SIZE=block_size,
+        HEAD_SIZE=head_size,
+        HEAD_SIZE_PADDED=triton.next_power_of_2(head_size),
+        USE_ALIBI_SLOPES=use_alibi_slopes,
+        USE_SOFTCAP=(softcap > 0),
+        SLIDING_WINDOW=(1 + window_size[0]),
+        stride_k_cache_0=k.stride(0),
+        stride_k_cache_1=k.stride(1),
+        stride_k_cache_2=k.stride(2),
+        stride_k_cache_3=k.stride(3),
+        stride_v_cache_0=v.stride(0),
+        stride_v_cache_1=v.stride(1),
+        stride_v_cache_2=v.stride(2),
+        stride_v_cache_3=v.stride(3),
+        query_start_len_ptr=cu_seqlens_q,
+        BLOCK_Q=BLOCK_Q,
+        num_seqs=num_seqs,
+    )
diff --git a/vllm/v1/attention/backends/triton_attn.py b/vllm/v1/attention/backends/triton_attn.py
index 5f9610470..bb700c8e2 100644
--- a/vllm/v1/attention/backends/triton_attn.py
+++ b/vllm/v1/attention/backends/triton_attn.py
@@ -4,11 +4,10 @@ from typing import Any, Optional
 
 import torch
 
+from vllm import _custom_ops as ops
 from vllm.attention.backends.abstract import (AttentionBackend, AttentionImpl,
                                               AttentionMetadata, AttentionType)
-from vllm.attention.ops.chunked_prefill_paged_decode import (
-    chunked_prefill_paged_decode)
-from vllm.attention.ops.paged_attn import PagedAttention
+from vllm.attention.ops.triton_unified_attention import unified_attention
 from vllm.logger import init_logger
 from vllm.v1.attention.backends.flash_attn import (
     FlashAttentionMetadata, FlashAttentionMetadataBuilder)
@@ -87,6 +86,11 @@ class TritonAttentionImpl(AttentionImpl):
         else:
             self.sliding_window = (sliding_window - 1, 0)
         self.kv_cache_dtype = kv_cache_dtype
+        if logits_soft_cap is None:
+            # In flash-attn, setting logits_soft_cap as 0 means no soft cap.
+            logits_soft_cap = 0
+        self.logits_soft_cap = logits_soft_cap
+
         self.use_irope = use_irope
 
         assert self.num_heads % self.num_kv_heads == 0
@@ -143,11 +147,9 @@ class TritonAttentionImpl(AttentionImpl):
         # performance to make sure it does not introduce any overhead.
 
         num_actual_tokens = attn_metadata.num_actual_tokens
-        key_cache, value_cache = PagedAttention.split_kv_cache(
-            kv_cache, self.num_kv_heads, self.head_size)
 
-        # Reshape the input keys and values and store them in the cache.
-        PagedAttention.write_to_paged_cache(
+        key_cache, value_cache = kv_cache.unbind(0)
+        torch.ops._C_cache_ops.reshape_and_cache_flash(
             key,
             value,
             key_cache,
@@ -158,6 +160,18 @@ class TritonAttentionImpl(AttentionImpl):
             layer._v_scale,
         )
 
+        if self.kv_cache_dtype.startswith("fp8"):
+            key_cache = key_cache.view(torch.float8_e4m3fn)
+            value_cache = value_cache.view(torch.float8_e4m3fn)
+            num_tokens, num_heads, head_size = query.shape
+            assert layer._q_scale == 1.0, \
+                "A non 1.0 q_scale is not currently supported."
+            query, _ = ops.scaled_fp8_quant(
+                query.reshape(
+                    (num_tokens, num_heads * head_size)).contiguous(),
+                layer._q_scale)
+            query = query.reshape((num_tokens, num_heads, head_size))
+
         use_local_attn = \
             (self.use_irope and attn_metadata.local_attn_metadata is not None)
 
@@ -165,34 +179,37 @@ class TritonAttentionImpl(AttentionImpl):
             assert attn_metadata.local_attn_metadata is not None
             local_metadata = attn_metadata.local_attn_metadata
             cu_seqlens_q = local_metadata.local_query_start_loc
-            sequesd_k = local_metadata.local_seqused_k
+            seqused_k = local_metadata.local_seqused_k
             max_seqlen_q = local_metadata.local_max_query_len
             max_seqlen_k = local_metadata.local_max_seq_len
             block_table = local_metadata.local_block_table
         else:
             cu_seqlens_q = attn_metadata.query_start_loc
-            sequesd_k = attn_metadata.seq_lens
+            seqused_k = attn_metadata.seq_lens
             max_seqlen_q = attn_metadata.max_query_len
             max_seqlen_k = attn_metadata.max_seq_len
             block_table = attn_metadata.block_table
 
-        # Compute attention and update output up to `num_actual_tokens`.
-        chunked_prefill_paged_decode(query=query[:num_actual_tokens],
-                                     key=key[:num_actual_tokens],
-                                     value=value[:num_actual_tokens],
-                                     output=output[:num_actual_tokens],
-                                     kv_cache_dtype=self.kv_cache_dtype,
-                                     key_cache=key_cache,
-                                     value_cache=value_cache,
-                                     block_table=block_table,
-                                     query_start_loc=cu_seqlens_q,
-                                     seq_lens=sequesd_k,
-                                     max_seq_len=max_seqlen_k,
-                                     max_query_len=max_seqlen_q,
-                                     k_scale=layer._k_scale,
-                                     v_scale=layer._v_scale,
-                                     alibi_slopes=self.alibi_slopes,
-                                     sliding_window=self.sliding_window[0],
-                                     sm_scale=self.scale)
+        descale_shape = (cu_seqlens_q.shape[0] - 1, key.shape[1])
+
+        unified_attention(
+            q=query[:num_actual_tokens],
+            k=key_cache,
+            v=value_cache,
+            out=output[:num_actual_tokens],
+            cu_seqlens_q=cu_seqlens_q,
+            max_seqlen_q=max_seqlen_q,
+            seqused_k=seqused_k,
+            max_seqlen_k=max_seqlen_k,
+            softmax_scale=self.scale,
+            causal=True,
+            alibi_slopes=self.alibi_slopes,
+            window_size=self.sliding_window,
+            block_table=block_table,
+            softcap=self.logits_soft_cap,
+            q_descale=None,  # Not supported
+            k_descale=layer._k_scale.expand(descale_shape),
+            v_descale=layer._v_scale.expand(descale_shape),
+        )
 
         return output
-- 
GitLab


From 022afbeb4efa22bb8a4656a2712cd66c6a811c23 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Wed, 7 May 2025 01:36:41 +0100
Subject: [PATCH 180/461] Fix doc build performance (#17748)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 docs/source/conf.py   | 3 ---
 requirements/docs.txt | 5 ++++-
 2 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/docs/source/conf.py b/docs/source/conf.py
index 060649e43..5620d6de2 100644
--- a/docs/source/conf.py
+++ b/docs/source/conf.py
@@ -60,9 +60,6 @@ autodoc2_packages = [
 autodoc2_output_dir = "api"
 autodoc2_render_plugin = "myst"
 autodoc2_hidden_objects = ["dunder", "private", "inherited"]
-autodoc2_docstring_parser_regexes = [
-    (".*", "docs.source.autodoc2_docstring_parser"),
-]
 autodoc2_sort_names = True
 autodoc2_index_template = None
 
diff --git a/requirements/docs.txt b/requirements/docs.txt
index 385de8416..ccc5ef0aa 100644
--- a/requirements/docs.txt
+++ b/requirements/docs.txt
@@ -1,6 +1,5 @@
 sphinx==7.4.7
 sphinx-argparse==0.5.2
-sphinx-autodoc2==0.5.0
 sphinx-book-theme==1.1.4
 sphinx-copybutton==0.5.2
 sphinx-design==0.6.1
@@ -9,6 +8,10 @@ myst-parser==3.0.1  # `myst-parser==4.0.1` breaks inline code in titles
 msgspec
 commonmark # Required by sphinx-argparse when using :markdownhelp:
 
+# Custom autodoc2 is necessary for faster docstring processing
+# see: https://github.com/sphinx-extensions2/sphinx-autodoc2/issues/33#issuecomment-2856386035
+git+https://github.com/hmellor/sphinx-autodoc2.git # sphinx-autodoc2==0.5.0
+
 # packages to install to build the documentation
 cachetools
 -f https://download.pytorch.org/whl/cpu
-- 
GitLab


From ed3a1d2106a42b1522013b304e5dc9ca172385ec Mon Sep 17 00:00:00 2001
From: Hongxia Yang <62075498+hongxiayang@users.noreply.github.com>
Date: Tue, 6 May 2025 20:39:48 -0400
Subject: [PATCH 181/461] [ROCm] fix num_stages for default moe config to avoid
 triton OutOfResource error (#17744)

Signed-off-by: Hongxia Yang <hongxia.yang@amd.com>
---
 vllm/model_executor/layers/fused_moe/fused_moe.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/vllm/model_executor/layers/fused_moe/fused_moe.py b/vllm/model_executor/layers/fused_moe/fused_moe.py
index 075b98d14..f6305822c 100644
--- a/vllm/model_executor/layers/fused_moe/fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/fused_moe.py
@@ -747,13 +747,15 @@ def get_default_config(
     if dtype == "fp8_w8a8" and block_shape is not None:
         # Block-wise quant: BLOCK_SIZE_N must be divisible by block_shape[0]
         # BLOCK_SIZE_K must be divisible by block_shape[1]
+        # num_stages=3 can cause triton.runtime.errors.OutOfResources
+        # on ROCm, set it to 2 instead.
         config = {
             "BLOCK_SIZE_M": 64,
             "BLOCK_SIZE_N": block_shape[0],
             "BLOCK_SIZE_K": block_shape[1],
             "GROUP_SIZE_M": 32,
             "num_warps": 4,
-            "num_stages": 3,
+            "num_stages": 3 if not current_platform.is_rocm() else 2,
         }
     elif dtype in ["int4_w4a16", "int8_w8a16"] and block_shape is not None:
         # moe wna16 kernels
-- 
GitLab


From 6de3e13413a526cf7b908455e8cc35665cb19ef0 Mon Sep 17 00:00:00 2001
From: Yang Wang <elainewy@meta.com>
Date: Tue, 6 May 2025 17:45:51 -0700
Subject: [PATCH 182/461] Add logging for torch nightly version (#17669)

Signed-off-by: Yang Wang <elainewy@meta.com>
---
 docker/Dockerfile.nightly_torch     |  4 +++-
 requirements/nightly_torch_test.txt | 10 +++++++++-
 2 files changed, 12 insertions(+), 2 deletions(-)

diff --git a/docker/Dockerfile.nightly_torch b/docker/Dockerfile.nightly_torch
index 6989106c4..53b8ccd80 100644
--- a/docker/Dockerfile.nightly_torch
+++ b/docker/Dockerfile.nightly_torch
@@ -309,5 +309,7 @@ ENV HF_HUB_ENABLE_HF_TRANSFER 1
 RUN --mount=type=cache,target=/root/.cache/uv \
     uv pip install --system -r requirements/nightly_torch_test.txt
 
-#################### UNITTEST IMAGE #############################
+# Logging to confirm the torch versions
+RUN pip freeze | grep -E 'torch|xformers|vllm|flashinfer'
 
+#################### UNITTEST IMAGE #############################
diff --git a/requirements/nightly_torch_test.txt b/requirements/nightly_torch_test.txt
index e2711354a..3aebcaa62 100644
--- a/requirements/nightly_torch_test.txt
+++ b/requirements/nightly_torch_test.txt
@@ -8,7 +8,6 @@ pytest-rerunfailures
 pytest-shard
 pytest-timeout
 
-
 librosa # required by audio tests in entrypoints/openai
 sentence-transformers
 numba == 0.61.2; python_version > '3.9'
@@ -31,3 +30,12 @@ bitsandbytes>=0.45.3
 # required for minicpmo_26 test
 vector_quantize_pytorch
 vocos
+
+# required for Basic Models Test
+blobfile # required for kimi-vl test
+matplotlib # required for qwen-vl test
+
+# required for  Multi-Modal Models Test (Standard)
+num2words # required for smolvlm test
+pqdm
+timm # required for internvl test
-- 
GitLab


From 18dd5e01f207e67c5c9999709327accf45b44da6 Mon Sep 17 00:00:00 2001
From: Chih-Chieh Yang <7364402+cyang49@users.noreply.github.com>
Date: Tue, 6 May 2025 20:59:30 -0400
Subject: [PATCH 183/461] [Model] Mamba2 causal conv1d Refactor to Split
 Prefill and Decode Requests for Corresponding Kernels (#17146)

Signed-off-by: Chih-Chieh-Yang <7364402+cyang49@users.noreply.github.com>
---
 tests/kernels/mamba/test_mamba_ssm_ssd.py     |   7 +-
 .../layers/mamba/mamba2_metadata.py           |  88 ++++-----
 .../layers/mamba/mamba_mixer2.py              | 178 ++++++++++--------
 .../layers/mamba/ops/ssd_combined.py          |   1 -
 vllm/model_executor/models/bamba.py           |   1 -
 .../model_executor/models/granitemoehybrid.py |   1 -
 vllm/model_executor/models/mamba2.py          |   1 -
 vllm/model_executor/models/zamba2.py          |   1 -
 8 files changed, 153 insertions(+), 125 deletions(-)

diff --git a/tests/kernels/mamba/test_mamba_ssm_ssd.py b/tests/kernels/mamba/test_mamba_ssm_ssd.py
index ee908105f..f5e751bea 100644
--- a/tests/kernels/mamba/test_mamba_ssm_ssd.py
+++ b/tests/kernels/mamba/test_mamba_ssm_ssd.py
@@ -6,7 +6,7 @@ import torch.nn.functional as F
 from einops import rearrange, repeat
 
 from vllm.model_executor.layers.mamba.mamba2_metadata import (
-    _seq_idx_to_chunk_indices_offsets)
+    _query_start_loc_to_chunk_indices_offsets)
 from vllm.model_executor.layers.mamba.ops.ssd_combined import (
     mamba_chunk_scan_combined)
 from vllm.platforms import current_platform
@@ -274,8 +274,9 @@ def test_mamba_chunk_scan_cont_batch(d_head, n_heads, seq_len_chunk_size_cases,
                                          last_taken, exhausted, n_heads,
                                          d_head, itype):
 
-        chunk_indices, chunk_offsets = _seq_idx_to_chunk_indices_offsets(
-            seq_idx, chunk_size)
+        chunk_indices, chunk_offsets = \
+            _query_start_loc_to_chunk_indices_offsets(
+                cu_seqlens, chunk_size, cu_seqlens[-1])
 
         Y, new_states = mamba_chunk_scan_combined(
             X,
diff --git a/vllm/model_executor/layers/mamba/mamba2_metadata.py b/vllm/model_executor/layers/mamba/mamba2_metadata.py
index b1c461904..e5b88de2f 100644
--- a/vllm/model_executor/layers/mamba/mamba2_metadata.py
+++ b/vllm/model_executor/layers/mamba/mamba2_metadata.py
@@ -13,7 +13,6 @@ from vllm.attention.backends.xformers import XFormersMetadata
 
 @dataclass
 class Mamba2Metadata:
-    has_prefill: bool
 
     has_initial_states: torch.Tensor
     prep_initial_states: bool
@@ -24,21 +23,23 @@ class Mamba2Metadata:
     chunk_offsets: torch.Tensor
 
 
-def _seq_idx_to_chunk_indices_offsets(seq_idx, chunk_size: int):
+def _query_start_loc_to_chunk_indices_offsets(query_start_loc: torch.Tensor,
+                                              chunk_size: int,
+                                              total_seqlens: int):
 
-    # convert seq_idx to chunk indices and offsets
-    # - derive the cu_seqlens
-    _, cu_seqlens = torch.where(seq_idx.diff())
-    cu_seqlens += 1
+    cu_seqlens = query_start_loc[1:]  # remove prepended 0
 
     # outputs will have length expansion of chunks that do not divide
     # chunk_size
-    N = math.ceil(seq_idx.shape[-1] / chunk_size) + (cu_seqlens % chunk_size
-                                                     > 0).sum()
-    chunk_indices = torch.arange(N, dtype=torch.int, device=seq_idx.device)
-    chunk_offsets = torch.zeros((N, ), dtype=torch.int, device=seq_idx.device)
+    N = math.ceil(total_seqlens / chunk_size) + (cu_seqlens[:-1] % chunk_size
+                                                 > 0).sum()
+    chunk_indices = torch.arange(N,
+                                 dtype=torch.int,
+                                 device=query_start_loc.device)
+    chunk_offsets = torch.zeros((N, ),
+                                dtype=torch.int,
+                                device=query_start_loc.device)
 
-    cu_seqlens = cu_seqlens.tolist() + [seq_idx.shape[-1]]
     p = 0  # num of insertions
     for s, e in zip(cu_seqlens[:-1], cu_seqlens[1:]):
 
@@ -60,48 +61,49 @@ def _seq_idx_to_chunk_indices_offsets(seq_idx, chunk_size: int):
 
 def prepare_mamba2_metadata(
     chunk_size: int,
-    input_ids: torch.Tensor,
     attn_metadata: AttentionMetadata,
 ) -> Mamba2Metadata:
 
+    # compute number of prefill and decode requests
+    # NOTE: in V0 we assume prefills are before decodes
+    num_prefills = attn_metadata.num_prefills
+    num_prefill_tokens = attn_metadata.num_prefill_tokens
+
+    seq_idx = None
+    chunk_indices, chunk_offsets = None, None
     # Need flags to indicate if there are initial states
     # currently we really only support the FlashAttention backend
     has_initial_states = None
     prep_initial_states = False
-    if (isinstance(attn_metadata, (FlashAttentionMetadata, XFormersMetadata,
-                                   PlaceholderAttentionMetadata))
-            and attn_metadata.context_lens_tensor is not None):
-        has_initial_states = attn_metadata.context_lens_tensor > 0
-        # precompute flag to avoid device syncs later in mamba2 forwards
-        prep_initial_states = torch.any(has_initial_states).item()
-
-    has_prefill = attn_metadata.num_prefills > 0
 
-    seq_idx = None
-    chunk_indices, chunk_offsets = None, None
-    if has_prefill:
-        seq_idx = torch.zeros_like(input_ids, dtype=torch.int32)
-        for i, (srt, end) in enumerate(
-                zip(
-                    attn_metadata.query_start_loc,
-                    attn_metadata.query_start_loc[1:],
-                )):
-            seq_idx[srt:end] = i
+    # Compute seq_idx, chunk_indices and chunk_offsets for prefill only
+    if num_prefills > 0:
+        if (isinstance(attn_metadata,
+                       (FlashAttentionMetadata, XFormersMetadata,
+                        PlaceholderAttentionMetadata))
+                and attn_metadata.context_lens_tensor is not None):
+            has_initial_states = \
+                attn_metadata.context_lens_tensor[:num_prefills] > 0  #[batch,]
+            # precompute flag to avoid device syncs in mamba2 layer forwards
+            # prep is only needed for mamba2 ssd prefill processing
+            prep_initial_states = torch.any(has_initial_states).item()
+
+        query_start_loc = attn_metadata.query_start_loc[:num_prefills + 1]
+        seq_idx = torch.repeat_interleave(torch.arange(
+            num_prefills, dtype=torch.int32, device=query_start_loc.device),
+                                          query_start_loc.diff(),
+                                          output_size=num_prefill_tokens)
         seq_idx.unsqueeze_(0)
 
-        # compute metadata for chunked prefill.
-        # actually this is only needed if there are initial states,
-        # but this is determinable only from attention metadata yet
-        # unavailable from the top-level model forward. Rather than
-        # complicating things to extract said metadata, we simply just
-        # compute them once at the top level model forward and reuse
-        # them in mamba layers. If not needed, they will be ignored
-        # inside mamba kernels.
-        chunk_indices, chunk_offsets = _seq_idx_to_chunk_indices_offsets(
-            seq_idx, chunk_size)
-
-    return Mamba2Metadata(has_prefill=has_prefill,
-                          has_initial_states=has_initial_states,
+        # We compute metadata for chunked prefill once at the top level model
+        # forward and reuse them in mamba layers. If not needed, they will be
+        # ignored inside mamba kernels.
+        if prep_initial_states:
+            chunk_indices, chunk_offsets = \
+                _query_start_loc_to_chunk_indices_offsets(
+                query_start_loc, chunk_size, num_prefill_tokens)
+
+    return Mamba2Metadata(has_initial_states=has_initial_states,
                           prep_initial_states=prep_initial_states,
                           chunk_size=chunk_size,
                           seq_idx=seq_idx,
diff --git a/vllm/model_executor/layers/mamba/mamba_mixer2.py b/vllm/model_executor/layers/mamba/mamba_mixer2.py
index d459c93a2..05b9d87ac 100644
--- a/vllm/model_executor/layers/mamba/mamba_mixer2.py
+++ b/vllm/model_executor/layers/mamba/mamba_mixer2.py
@@ -388,10 +388,15 @@ class MambaMixer2(CustomOp):
         # mamba2_metadata contains metadata necessary for the mamba2 triton
         # kernels to operate in continuous batching and in chunked prefill
         # modes; they are computed at top-level model forward since they
-        # are the same and reused for all mamba layers in the same iteration
+        # stay the same and reused for all mamba layers in the same iteration
         attn_metadata: AttentionMetadata = get_forward_context().attn_metadata
 
-        seq_len, _ = hidden_states.shape
+        num_prefills = attn_metadata.num_prefills  # request count
+        num_decodes = attn_metadata.num_decode_tokens  # token count (=request)
+        num_prefill_tokens = attn_metadata.num_prefill_tokens  # token count
+        has_prefill = num_prefills > 0
+        has_decode = num_decodes > 0
+
         groups_time_state_size = self.n_groups * self.ssm_state_size
 
         # 1. Gated MLP's linear projection
@@ -406,44 +411,32 @@ class MambaMixer2(CustomOp):
             dim=-1,
         )
 
-        # 2. Convolution sequence transformation
         conv_weights = self.conv1d.weight.view(self.conv1d.weight.size(0),
                                                self.conv1d.weight.size(2))
 
-        if mamba2_metadata.has_prefill:
-            # |---------- N-1 iteration --------|
-            # |---------------- N iteration ---------------------|
-            # |- tokenA -|......................|-- newTokens ---|
-            # |---------- context_len ----------|
-            # |-------------------- seq_len ---------------------|
-            #                                   |-- query_len ---|
-
-            # - "cache_indices" updates the conv_state cache in positions
-            #   pointed to by "mamba_cache_params.state_indices_tensor"
-            hidden_states_B_C = causal_conv1d_fn(
-                hidden_states_B_C.transpose(0, 1),
-                conv_weights,
-                self.conv1d.bias,
-                activation=self.activation,
-                conv_states=mamba_cache_params.conv_state,
-                has_initial_state=mamba2_metadata.has_initial_states,
-                cache_indices=mamba_cache_params.state_indices_tensor,
-                query_start_loc=attn_metadata.query_start_loc).transpose(
-                    0, 1)[:seq_len]
-
-            # TODO: Why is this needed?
-            hidden_states_B_C = hidden_states_B_C.contiguous()
-        else:
-            hidden_states_B_C = causal_conv1d_update(
-                hidden_states_B_C,
-                mamba_cache_params.conv_state,
-                conv_weights,
-                self.conv1d.bias,
-                self.activation,
-                conv_state_indices=mamba_cache_params.state_indices_tensor)
+        # Separate prefill and decode by splitting varlen input
+        # Split along token dimension
+        hidden_states_B_C_p, hidden_states_B_C_d = torch.split(
+            hidden_states_B_C,
+            [num_prefill_tokens, num_decodes],
+            dim=0,
+        )
+        dt_p, dt_d = torch.split(
+            dt,
+            [num_prefill_tokens, num_decodes],
+            dim=0,
+        )
+        # Split along batch dimension
+        state_indices_tensor_p, state_indices_tensor_d = torch.split(
+            mamba_cache_params.state_indices_tensor,
+            [num_prefills, num_decodes],
+            dim=0,
+        )
+        query_start_loc_p = (attn_metadata.query_start_loc[:num_prefills + 1]
+                             if has_prefill else None)
 
         # - get hidden_states, B and C after depthwise convolution.
-        hidden_states, B, C = torch.split(
+        split_hidden_states_B_C_fn = lambda hidden_states_B_C: torch.split(
             hidden_states_B_C,
             [
                 self.intermediate_size // self.tp_size,
@@ -453,24 +446,48 @@ class MambaMixer2(CustomOp):
             dim=-1,
         )
 
-        # 3. State Space Model sequence transformation
-        if mamba2_metadata.has_prefill:
+        ssd_output_list = []
+
+        # Process prefill requests
+        if has_prefill:
+            # 2. Convolution sequence transformation
+            # - "cache_indices" updates the conv_state cache in positions
+            #   pointed to by "mamba_cache_params.state_indices_tensor"
+            hidden_states_B_C_p = causal_conv1d_fn(
+                hidden_states_B_C_p.transpose(0, 1),
+                conv_weights,
+                self.conv1d.bias,
+                activation=self.activation,
+                conv_states=mamba_cache_params.conv_state,
+                has_initial_state=mamba2_metadata.has_initial_states,
+                cache_indices=state_indices_tensor_p,
+                query_start_loc=query_start_loc_p).transpose(
+                    0, 1)[:num_prefill_tokens]
+
+            # TODO: Why is this needed?
+            hidden_states_B_C_p = hidden_states_B_C_p.contiguous()
+            hidden_states_p, B_p, C_p = split_hidden_states_B_C_fn(
+                hidden_states_B_C_p)
+
+            # 3. State Space Model sequence transformation
             initial_states = None
             if (mamba2_metadata.has_initial_states is not None
                     and mamba2_metadata.prep_initial_states):
                 # making a copy of the states
                 initial_states = torch.where(
                     mamba2_metadata.has_initial_states[:, None, None, None],
-                    mamba_cache_params.ssm_state[
-                        mamba_cache_params.state_indices_tensor], 0)
+                    mamba_cache_params.ssm_state[state_indices_tensor_p], 0)
 
             scan_output, varlen_state = mamba_chunk_scan_combined(
-                hidden_states.view(1, seq_len, self.num_heads // self.tp_size,
-                                   self.head_dim),
-                dt.unsqueeze(0),
+                hidden_states_p.view(1, num_prefill_tokens,
+                                     self.num_heads // self.tp_size,
+                                     self.head_dim),
+                dt_p.unsqueeze(0),
                 self.A,
-                B.view(1, seq_len, self.n_groups // self.tp_size, -1),
-                C.view(1, seq_len, self.n_groups // self.tp_size, -1),
+                B_p.view(1, num_prefill_tokens, self.n_groups // self.tp_size,
+                         -1),
+                C_p.view(1, num_prefill_tokens, self.n_groups // self.tp_size,
+                         -1),
                 chunk_size=mamba2_metadata.chunk_size,
                 D=self.D,
                 z=None,
@@ -478,7 +495,7 @@ class MambaMixer2(CustomOp):
                 seq_idx=mamba2_metadata.seq_idx,
                 chunk_indices=mamba2_metadata.chunk_indices,
                 chunk_offsets=mamba2_metadata.chunk_offsets,
-                cu_seqlens=attn_metadata.query_start_loc,
+                cu_seqlens=attn_metadata.query_start_loc[:num_prefills + 1],
                 initial_states=initial_states,
                 return_varlen_states=True,
                 return_final_states=False,
@@ -487,52 +504,65 @@ class MambaMixer2(CustomOp):
             )
 
             # update ssm states
-            # - varlen state is a (batch, nheads, headdim, dstate) tensor
-            mamba_cache_params.ssm_state[
-                mamba_cache_params.state_indices_tensor] = varlen_state
+            # - varlen state is a (num_prefills, nheads, headdim, dstate) tensor
+            mamba_cache_params.ssm_state[state_indices_tensor_p] = varlen_state
 
             # - reshape
-            hidden_states = scan_output.view(seq_len, -1)
-        else:
+            ssd_output_list.append(scan_output.view(num_prefill_tokens, -1))
 
+        # Process decode requests
+        if has_decode:
+            # 2. Convolution sequence transformation
+            hidden_states_B_C_d = causal_conv1d_update(
+                hidden_states_B_C_d,
+                mamba_cache_params.conv_state,
+                conv_weights,
+                self.conv1d.bias,
+                self.activation,
+                conv_state_indices=state_indices_tensor_d)
+
+            hidden_states_d, B_d, C_d = split_hidden_states_B_C_fn(
+                hidden_states_B_C_d)
+
+            # 3. State Space Model sequence transformation
             n_groups = self.n_groups // self.tp_size
-            A = self.A[:, None, ...][:, :, None].expand(
+            A_d = self.A[:, None, ...][:, :, None].expand(
                 -1, self.head_dim, self.ssm_state_size).to(dtype=torch.float32)
-            dt = dt[:, :, None].expand(-1, -1, self.head_dim)
+            dt_d = dt_d[:, :, None].expand(-1, -1, self.head_dim)
             dt_bias = self.dt_bias[:, None, ...].expand(-1, self.head_dim)
-            D = self.D[:, None, ...].expand(-1, self.head_dim)
-            B = B.view(-1, n_groups, B.shape[1] // n_groups)
-            C = C.view(-1, n_groups, C.shape[1] // n_groups)
-            hidden_states_reshaped = hidden_states.view(
+            D_d = self.D[:, None, ...].expand(-1, self.head_dim)
+            B_d = B_d.view(-1, n_groups, B_d.shape[1] // n_groups)
+            C_d = C_d.view(-1, n_groups, C_d.shape[1] // n_groups)
+            hidden_states_d = hidden_states_d.view(
                 -1, self.num_heads // self.tp_size, self.head_dim)
 
-            # - the hidden is reshaped into number of current batches
-            # - in this case there is no more prefill, so the batches gen
-            #   1 token at a time
-            # - thus hidden will be (bs, num_heads, head_dim)
+            # - the hidden is reshaped into (bs, num_heads, head_dim)
             # - mamba_cache_params.ssm_state's slots will be selected
-            #   using "mamba_cache_params.state_indices_tensor", just as
-            #   above in the prefill case
+            #   using state_indices_tensor_d
 
-            hidden_states = selective_state_update(
+            hidden_states_d = selective_state_update(
                 mamba_cache_params.ssm_state,
-                hidden_states_reshaped,
-                dt,
-                A,
-                B,
-                C,
-                D,
+                hidden_states_d,
+                dt_d,
+                A_d,
+                B_d,
+                C_d,
+                D_d,
                 z=None,
                 dt_bias=dt_bias,
                 dt_softplus=True,
-                state_batch_indices=mamba_cache_params.state_indices_tensor,
+                state_batch_indices=state_indices_tensor_d,
             )
-            hidden_states = hidden_states.view(
-                -1, (self.num_heads // self.tp_size) * self.head_dim)
+            ssd_output_list.append(
+                hidden_states_d.view(-1, (self.num_heads // self.tp_size) *
+                                     self.head_dim))
+
+        # Merge prefill and decode outputs before passing to gated MLP
+        hidden_states = torch.vstack(ssd_output_list)
 
-        # # 4. gated MLP
+        # 4. gated MLP
         hidden_states = self.norm(hidden_states, gate)
 
-        # # 5. Final linear projection
+        # 5. Final linear projection
         out, _ = self.out_proj(hidden_states)
         return out
diff --git a/vllm/model_executor/layers/mamba/ops/ssd_combined.py b/vllm/model_executor/layers/mamba/ops/ssd_combined.py
index e9efe6428..79a1663b8 100644
--- a/vllm/model_executor/layers/mamba/ops/ssd_combined.py
+++ b/vllm/model_executor/layers/mamba/ops/ssd_combined.py
@@ -40,7 +40,6 @@ def _mamba_chunk_scan_combined_fwd(x,
     _, _, ngroups, dstate = B.shape
     assert nheads % ngroups == 0
     assert B.shape == (batch, seqlen, ngroups, dstate)
-    assert x.shape == (batch, seqlen, nheads, headdim)
     assert dt.shape == (batch, seqlen, nheads)
     assert A.shape == (nheads, )
     assert C.shape == B.shape
diff --git a/vllm/model_executor/models/bamba.py b/vllm/model_executor/models/bamba.py
index 16dac6123..87e1e102e 100644
--- a/vllm/model_executor/models/bamba.py
+++ b/vllm/model_executor/models/bamba.py
@@ -313,7 +313,6 @@ class BambaModel(nn.Module):
 
         mamba2_metadata = prepare_mamba2_metadata(
             chunk_size=self.config.mamba_chunk_size,
-            input_ids=input_ids,
             attn_metadata=attn_metadata,
         )
 
diff --git a/vllm/model_executor/models/granitemoehybrid.py b/vllm/model_executor/models/granitemoehybrid.py
index dea9a0da3..706e648f1 100644
--- a/vllm/model_executor/models/granitemoehybrid.py
+++ b/vllm/model_executor/models/granitemoehybrid.py
@@ -338,7 +338,6 @@ class GraniteMoeHybridModel(nn.Module):
         attn_metadata = get_forward_context().attn_metadata
         mamba2_metadata = prepare_mamba2_metadata(
             chunk_size=self.config.mamba_chunk_size,
-            input_ids=input_ids,
             attn_metadata=attn_metadata,
         )
 
diff --git a/vllm/model_executor/models/mamba2.py b/vllm/model_executor/models/mamba2.py
index 78303733f..72daf34c4 100644
--- a/vllm/model_executor/models/mamba2.py
+++ b/vllm/model_executor/models/mamba2.py
@@ -142,7 +142,6 @@ class Mamba2Model(nn.Module):
 
         mamba2_metadata = prepare_mamba2_metadata(
             chunk_size=self.config.chunk_size,
-            input_ids=input_ids,
             attn_metadata=attn_metadata,
         )
 
diff --git a/vllm/model_executor/models/zamba2.py b/vllm/model_executor/models/zamba2.py
index d34033e3a..eddccbba5 100644
--- a/vllm/model_executor/models/zamba2.py
+++ b/vllm/model_executor/models/zamba2.py
@@ -751,7 +751,6 @@ class Zamba2Model(nn.Module):
 
         mamba2_metadata = prepare_mamba2_metadata(
             chunk_size=self.config.chunk_size,
-            input_ids=input_ids,
             attn_metadata=attn_metadata,
         )
 
-- 
GitLab


From a17cef70eacba81577e1eaa91f2b5dd18624e5d5 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Tue, 6 May 2025 20:59:47 -0400
Subject: [PATCH 184/461] Removed unused marlin cuda code (#17684)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 csrc/moe/marlin_kernels/marlin_moe_kernel.h   | 1616 -----------------
 .../marlin_kernels/marlin_moe_kernel_ku4.cu   |   31 -
 .../marlin_kernels/marlin_moe_kernel_ku4.h    |   20 -
 .../marlin_kernels/marlin_moe_kernel_ku4b8.cu |   31 -
 .../marlin_kernels/marlin_moe_kernel_ku4b8.h  |   20 -
 .../marlin_moe_kernel_ku8b128.cu              |   31 -
 .../marlin_moe_kernel_ku8b128.h               |   18 -
 csrc/moe/marlin_moe_ops.cu                    |  588 ------
 csrc/quantization/fp8/fp8_marlin.cu           | 1311 -------------
 9 files changed, 3666 deletions(-)
 delete mode 100644 csrc/moe/marlin_kernels/marlin_moe_kernel.h
 delete mode 100644 csrc/moe/marlin_kernels/marlin_moe_kernel_ku4.cu
 delete mode 100644 csrc/moe/marlin_kernels/marlin_moe_kernel_ku4.h
 delete mode 100644 csrc/moe/marlin_kernels/marlin_moe_kernel_ku4b8.cu
 delete mode 100644 csrc/moe/marlin_kernels/marlin_moe_kernel_ku4b8.h
 delete mode 100644 csrc/moe/marlin_kernels/marlin_moe_kernel_ku8b128.cu
 delete mode 100644 csrc/moe/marlin_kernels/marlin_moe_kernel_ku8b128.h
 delete mode 100644 csrc/moe/marlin_moe_ops.cu
 delete mode 100644 csrc/quantization/fp8/fp8_marlin.cu

diff --git a/csrc/moe/marlin_kernels/marlin_moe_kernel.h b/csrc/moe/marlin_kernels/marlin_moe_kernel.h
deleted file mode 100644
index a217401b3..000000000
--- a/csrc/moe/marlin_kernels/marlin_moe_kernel.h
+++ /dev/null
@@ -1,1616 +0,0 @@
-#pragma once
-
-#include <torch/all.h>
-
-#include <ATen/cuda/CUDAContext.h>
-#include <c10/cuda/CUDAGuard.h>
-#include <cuda.h>
-#include <cuda_fp16.h>
-#include <cuda_runtime.h>
-
-#include <iostream>
-
-#include "core/scalar_type.hpp"
-
-namespace marlin_moe {
-
-constexpr int ceildiv(int a, int b) { return (a + b - 1) / b; }
-
-#if defined(__CUDA_ARCH__) && __CUDA_ARCH__ >= 800
-
-// Instances of `Vec` are used to organize groups of >>registers<<, as needed
-// for instance as inputs to tensor core operations. Consequently, all
-// corresponding index accesses must be compile-time constants, which is why we
-// extensively use `#pragma unroll` throughout the kernel code to guarantee
-// this.
-template <typename T, int n>
-struct Vec {
-  T elems[n];
-  __device__ T& operator[](int i) { return elems[i]; }
-};
-
-using I4 = Vec<int, 4>;
-
-// Matrix fragments for tensor core instructions; their precise layout is
-// documented here:
-// https://docs.nvidia.com/cuda/parallel-thread-execution/index.html#matrix-fragments-for-mma-m16n8k16-with-floating-point-type
-using FragA = Vec<half2, 4>;
-using FragB = Vec<half2, 2>;
-using FragC = Vec<float, 4>;
-using FragS = Vec<half2, 1>;  // quantization scales
-using FragZP = Vec<half2, 4>;
-
-// Predicated asynchronous global->shared copy; used for inputs A where we apply
-// predication to handle batchsizes that are not multiples of 16.
-__device__ inline void cp_async4_pred(void* smem_ptr, const void* glob_ptr,
-                                      bool pred = true) {
-  const int BYTES = 16;
-  uint32_t smem = static_cast<uint32_t>(__cvta_generic_to_shared(smem_ptr));
-  asm volatile(
-      "{\n"
-      "   .reg .pred p;\n"
-      "   setp.ne.b32 p, %0, 0;\n"
-      "   @p cp.async.cg.shared.global [%1], [%2], %3;\n"
-      "}\n" ::"r"((int)pred),
-      "r"(smem), "l"(glob_ptr), "n"(BYTES));
-}
-
-// Asynchronous global->shared copy
-__device__ inline void cp_async4(void* smem_ptr, const void* glob_ptr) {
-  const int BYTES = 16;
-  uint32_t smem = static_cast<uint32_t>(__cvta_generic_to_shared(smem_ptr));
-  asm volatile(
-      "{\n"
-      "   cp.async.cg.shared.global [%0], [%1], %2;\n"
-      "}\n" ::"r"(smem),
-      "l"(glob_ptr), "n"(BYTES));
-}
-
-// Async copy fence.
-__device__ inline void cp_async_fence() {
-  asm volatile("cp.async.commit_group;\n" ::);
-}
-
-// Wait until at most `n` async copy stages are still pending.
-template <int n>
-__device__ inline void cp_async_wait() {
-  asm volatile("cp.async.wait_group %0;\n" ::"n"(n));
-}
-
-// m16n8k16 tensor core mma instruction with fp16 inputs and fp32
-// output/accumulation.
-__device__ inline void mma(const FragA& a_frag, const FragB& frag_b,
-                           FragC& frag_c) {
-  const uint32_t* a = reinterpret_cast<const uint32_t*>(&a_frag);
-  const uint32_t* b = reinterpret_cast<const uint32_t*>(&frag_b);
-  float* c = reinterpret_cast<float*>(&frag_c);
-  asm volatile(
-      "mma.sync.aligned.m16n8k16.row.col.f32.f16.f16.f32 "
-      "{%0,%1,%2,%3}, {%4,%5,%6,%7}, {%8,%9}, {%10,%11,%12,%13};\n"
-      : "=f"(c[0]), "=f"(c[1]), "=f"(c[2]), "=f"(c[3])
-      : "r"(a[0]), "r"(a[1]), "r"(a[2]), "r"(a[3]), "r"(b[0]), "r"(b[1]),
-        "f"(c[0]), "f"(c[1]), "f"(c[2]), "f"(c[3]));
-}
-
-// Instruction for loading a full 16x16 matrix fragment of operand A from shared
-// memory, directly in tensor core layout.
-__device__ inline void ldsm4(FragA& frag_a, const void* smem_ptr) {
-  uint32_t* a = reinterpret_cast<uint32_t*>(&frag_a);
-  uint32_t smem = static_cast<uint32_t>(__cvta_generic_to_shared(smem_ptr));
-  asm volatile("ldmatrix.sync.aligned.m8n8.x4.shared.b16 {%0,%1,%2,%3}, [%4];\n"
-               : "=r"(a[0]), "=r"(a[1]), "=r"(a[2]), "=r"(a[3])
-               : "r"(smem));
-}
-
-// Lookup-table based 3-input logical operation; explicitly used for
-// dequantization as the compiler does not seem to automatically recognize it in
-// all cases.
-template <int lut>
-__device__ inline int lop3(int a, int b, int c) {
-  int res;
-  asm volatile("lop3.b32 %0, %1, %2, %3, %4;\n"
-               : "=r"(res)
-               : "r"(a), "r"(b), "r"(c), "n"(lut));
-  return res;
-}
-
-// Constructs destination register by taking bytes from 2 sources (based on
-// mask)
-template <int start_byte, int mask>
-__device__ inline uint32_t prmt(uint32_t a) {
-  uint32_t res;
-  asm volatile("prmt.b32 %0, %1, %2, %3;\n"
-               : "=r"(res)
-               : "r"(a), "n"(start_byte), "n"(mask));
-  return res;
-}
-
-template <vllm::ScalarTypeId w_type_id>
-__device__ inline FragB dequant(int q);
-
-// Efficiently dequantize 4bit values packed in an int32 value into a full
-// B-fragment of 4 fp16 values. We mostly follow the strategy in the link below,
-// with some small changes:
-// https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L215-L287
-template <>
-__device__ inline FragB dequant<vllm::kU4B8.id()>(int q) {
-  const int LO = 0x000f000f;
-  const int HI = 0x00f000f0;
-  const int EX = 0x64006400;
-  // Guarantee that the `(a & b) | c` operations are LOP3s.
-  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
-  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
-  // We want signed int4 outputs, hence we fuse the `-8` symmetric zero point
-  // directly into `SUB` and `ADD`.
-  const int SUB = 0x64086408;
-  const int MUL = 0x2c002c00;
-  const int ADD = 0xd480d480;
-  FragB frag_b;
-  frag_b[0] = __hsub2(*reinterpret_cast<half2*>(&lo),
-                      *reinterpret_cast<const half2*>(&SUB));
-  frag_b[1] = __hfma2(*reinterpret_cast<half2*>(&hi),
-                      *reinterpret_cast<const half2*>(&MUL),
-                      *reinterpret_cast<const half2*>(&ADD));
-  return frag_b;
-}
-
-// Fast Int8ToFp16: Efficiently dequantize 8bit int values to fp16
-// Reference:
-// https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L53-L85
-template <>
-__device__ inline FragB dequant<vllm::kU8B128.id()>(int q) {
-  static constexpr uint32_t mask_for_elt_01 = 0x5250;
-  static constexpr uint32_t mask_for_elt_23 = 0x5351;
-  static constexpr uint32_t start_byte_for_fp16 = 0x64646464;
-
-  uint32_t lo = prmt<start_byte_for_fp16, mask_for_elt_01>(q);
-  uint32_t hi = prmt<start_byte_for_fp16, mask_for_elt_23>(q);
-
-  static constexpr uint32_t I8s_TO_F16s_MAGIC_NUM = 0x64806480;
-
-  FragB frag_b;
-  frag_b[0] = __hsub2(*reinterpret_cast<half2*>(&lo),
-                      *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
-  frag_b[1] = __hsub2(*reinterpret_cast<half2*>(&hi),
-                      *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
-  return frag_b;
-}
-
-template <>
-__device__ inline FragB dequant<vllm::kU4.id()>(int q) {
-  const int LO = 0x000f000f;
-  const int HI = 0x00f000f0;
-  const int EX = 0x64006400;
-  // Guarantee that the `(a & b) | c` operations are LOP3s.
-  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, LO, EX);
-  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, HI, EX);
-
-  const int SUB = 0x64006400;
-  const int MUL = 0x2c002c00;
-  const int ADD = 0xd400d400;
-  FragB frag_b;
-  frag_b[0] = __hsub2(*reinterpret_cast<half2*>(&lo),
-                      *reinterpret_cast<const half2*>(&SUB));
-  frag_b[1] = __hfma2(*reinterpret_cast<half2*>(&hi),
-                      *reinterpret_cast<const half2*>(&MUL),
-                      *reinterpret_cast<const half2*>(&ADD));
-  return frag_b;
-}
-
-template <>
-__device__ inline FragB dequant<vllm::kU8.id()>(int q) {
-  static constexpr uint32_t mask_for_elt_01 = 0x5250;
-  static constexpr uint32_t mask_for_elt_23 = 0x5351;
-  static constexpr uint32_t start_byte_for_fp16 = 0x64646464;
-
-  uint32_t lo = prmt<start_byte_for_fp16, mask_for_elt_01>(q);
-  uint32_t hi = prmt<start_byte_for_fp16, mask_for_elt_23>(q);
-
-  static constexpr uint32_t I8s_TO_F16s_MAGIC_NUM = 0x64006400;
-
-  FragB frag_b;
-  frag_b[0] = __hsub2(*reinterpret_cast<half2*>(&lo),
-                      *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
-  frag_b[1] = __hsub2(*reinterpret_cast<half2*>(&hi),
-                      *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
-  return frag_b;
-}
-
-// Multiply dequantized values by the corresponding quantization scale; used
-// only for grouped quantization.
-__device__ inline void scale(FragB& frag_b, FragS& frag_s, int i) {
-  half2 s = __half2half2(reinterpret_cast<__half*>(&frag_s)[i]);
-  frag_b[0] = __hmul2(frag_b[0], s);
-  frag_b[1] = __hmul2(frag_b[1], s);
-}
-
-__device__ inline void sub_zp(FragB& frag_b, half2& frag_zp, int i) {
-  half2 zp = __half2half2(reinterpret_cast<__half*>(&frag_zp)[i]);
-  frag_b[0] = __hsub2(frag_b[0], zp);
-  frag_b[1] = __hsub2(frag_b[1], zp);
-}
-
-// Same as above, but for act_order (each K is multiplied individually)
-__device__ inline void scale4(FragB& frag_b, FragS& frag_s_1, FragS& frag_s_2,
-                              FragS& frag_s_3, FragS& frag_s_4, int i) {
-  __half2 s_val_1_2;
-  s_val_1_2.x = reinterpret_cast<__half*>(&frag_s_1)[i];
-  s_val_1_2.y = reinterpret_cast<__half*>(&frag_s_2)[i];
-
-  __half2 s_val_3_4;
-  s_val_3_4.x = reinterpret_cast<__half*>(&frag_s_3)[i];
-  s_val_3_4.y = reinterpret_cast<__half*>(&frag_s_4)[i];
-
-  frag_b[0] = __hmul2(frag_b[0], s_val_1_2);
-  frag_b[1] = __hmul2(frag_b[1], s_val_3_4);
-}
-
-// Given 2 floats multiply by 2 scales (halves)
-__device__ inline void scale_float(float* c, FragS& s) {
-  __half* s_ptr = reinterpret_cast<__half*>(&s);
-  c[0] = __fmul_rn(c[0], __half2float(s_ptr[0]));
-  c[1] = __fmul_rn(c[1], __half2float(s_ptr[1]));
-}
-
-// Wait until barrier reaches `count`, then lock for current threadblock.
-__device__ inline void barrier_acquire(int* lock, int count) {
-  if (threadIdx.x == 0) {
-    int state = -1;
-    do
-      // Guarantee that subsequent writes by this threadblock will be visible
-      // globally.
-      asm volatile("ld.global.acquire.gpu.b32 %0, [%1];\n"
-                   : "=r"(state)
-                   : "l"(lock));
-    while (state != count);
-  }
-  __syncthreads();
-}
-
-// Release barrier and increment visitation count.
-__device__ inline void barrier_release(int* lock, bool reset = false) {
-  __syncthreads();
-  if (threadIdx.x == 0) {
-    if (reset) {
-      lock[0] = 0;
-      return;
-    }
-    int val = 1;
-    // Make sure that all writes since acquiring this barrier are visible
-    // globally, while releasing the barrier.
-    asm volatile("fence.acq_rel.gpu;\n");
-    asm volatile("red.relaxed.gpu.global.add.s32 [%0], %1;\n"
-                 :
-                 : "l"(lock), "r"(val));
-  }
-}
-
-template <const vllm::ScalarTypeId w_type_id,  // weight ScalarType id
-          const int threads,          // number of threads in a threadblock
-          const int thread_m_blocks,  // number of 16x16 blocks in the m
-                                      // dimension (batchsize) of the
-                                      // threadblock
-          const int thread_n_blocks,  // same for n dimension (output)
-          const int thread_k_blocks,  // same for k dimension (reduction)
-          const int stages,  // number of stages for the async global->shared
-                             // fetch pipeline
-          const bool has_act_order,    // whether act_order is enabled
-          const bool has_zp,           // whether zero-points are enabled
-          const int group_blocks = -1  // number of consecutive 16x16 blocks
-                                       // with a separate quantization scale
-          >
-__device__ void MarlinMoESingle(
-    const int4* __restrict__ A,  // fp16 input matrix of shape mxk
-    const int4* __restrict__ B,  // 4bit quantized weight matrix of shape kxn
-    int4* __restrict__ C,        // fp16 output buffer of shape mxn
-    const int* __restrict__ sorted_ids,      // int32 sorted ids of experts
-    const float* __restrict__ topk_weights,  // float topk weights
-    const int4* __restrict__ scales_ptr,  // fp16 quantization scales of shape
-                                          // (k/groupsize)xn
-    const int4* __restrict__ zp_ptr,      // 4bit packed zero-points of shape
-                                          // (k/groupsize)x(n/pack_factor)
-    const int* __restrict__ g_idx,        // int32 group indices of shape k
-    const int* __restrict__ expert_offsets,
-    int num_groups,        // number of scale groups per output channel
-    int expert_idx,        // idx of current expert
-    int num_experts,       // number of experts
-    int topk,              // topk parameter of moe
-    int prob_m,            // batch dimension m
-    int prob_n,            // output dimension n
-    int prob_k,            // reduction dimension k
-    int tot_m,             // total number of rows in A and C
-    int* locks,            // extra global storage for barrier synchronization
-    bool replicate_input,  // do we use the same input for each expert?
-    bool apply_weights,    // apply weights to output
-    int current_m_block    // current m block to start kernel computation from
-) {
-  static constexpr auto w_type = vllm::ScalarType::from_id(w_type_id);
-  constexpr int pack_factor = 32 / w_type.size_bits();
-
-  // For larger GEMMs we run multiple batchsize 64 versions in parallel for a
-  // better partitioning with less reductions
-  int parallel = 1;
-  if (prob_m > 16 * thread_m_blocks) {
-    parallel = prob_m / (16 * thread_m_blocks);
-    prob_m = 16 * thread_m_blocks;
-  }
-
-  int k_tiles = prob_k / 16 / thread_k_blocks;
-  int n_tiles = prob_n / 16 / thread_n_blocks;
-  int iters = ceildiv(k_tiles * n_tiles * parallel, gridDim.x);
-
-  if constexpr (!has_act_order && group_blocks != -1) {
-    if (group_blocks >= thread_k_blocks) {
-      // Ensure that the number of tiles in each stripe is a multiple of the
-      // groupsize; this avoids an annoying special case where a stripe starts
-      // in the middle of group.
-      iters = (group_blocks / thread_k_blocks) *
-              ceildiv(iters, (group_blocks / thread_k_blocks));
-    }
-  }
-
-  int slice_row = (iters * blockIdx.x) % k_tiles;
-  int slice_col_par = (iters * blockIdx.x) / k_tiles;
-  int slice_col = slice_col_par;
-  int slice_iters;  // number of threadblock tiles in the current slice
-  int slice_count =
-      0;          // total number of active threadblocks in the current slice
-  int slice_idx;  // index of threadblock in current slice; numbered bottom to
-                  // top
-
-  // We can easily implement parallel problem execution by just remapping
-  // indices and advancing global pointers
-  if (slice_col_par >= n_tiles) {
-    locks += (slice_col_par / n_tiles) * n_tiles;
-    slice_col = slice_col_par % n_tiles;
-    sorted_ids += (slice_col_par / n_tiles) * 16 * thread_m_blocks;
-  }
-
-  // Compute all information about the current slice which is required for
-  // synchronization.
-  auto init_slice = [&]() {
-    slice_iters =
-        iters * (blockIdx.x + 1) - (k_tiles * slice_col_par + slice_row);
-    if (slice_iters < 0 || slice_col_par >= n_tiles * parallel) slice_iters = 0;
-    if (slice_iters == 0) return;
-    if (slice_row + slice_iters > k_tiles) slice_iters = k_tiles - slice_row;
-    slice_count = 1;
-    slice_idx = 0;
-    int col_first = iters * ceildiv(k_tiles * slice_col_par, iters);
-    if (col_first <= k_tiles * (slice_col_par + 1)) {
-      int col_off = col_first - k_tiles * slice_col_par;
-      slice_count = ceildiv(k_tiles - col_off, iters);
-      if (col_off > 0) slice_count++;
-      int delta_first = iters * blockIdx.x - col_first;
-      if (delta_first < 0 || (col_off == 0 && delta_first == 0))
-        slice_idx = slice_count - 1;
-      else {
-        slice_idx = slice_count - 1 - delta_first / iters;
-        if (col_off > 0) slice_idx--;
-      }
-    }
-    if (slice_col == n_tiles) {
-      sorted_ids += 16 * thread_m_blocks;
-      locks += n_tiles;
-      slice_col = 0;
-    }
-  };
-  init_slice();
-
-  // A sizes/strides
-
-  // stride of the A matrix in global memory
-  int a_gl_stride = prob_k / 8;
-  // stride of an A matrix tile in shared memory
-  constexpr int a_sh_stride = 16 * thread_k_blocks / 8;
-  // delta between subsequent A tiles in global memory
-  constexpr int a_gl_rd_delta_o = 16 * thread_k_blocks / 8;
-  // between subsequent accesses within a tile
-  int a_gl_rd_delta_i = a_gl_stride * (threads / a_gl_rd_delta_o);
-  // between shared memory writes
-  constexpr int a_sh_wr_delta = a_sh_stride * (threads / a_gl_rd_delta_o);
-  // between shared memory tile reads
-  constexpr int a_sh_rd_delta_o = 2 * ((threads / 32) / (thread_n_blocks / 4));
-  // within a shared memory tile
-  constexpr int a_sh_rd_delta_i = a_sh_stride * 16;
-  // overall size of a tile
-  constexpr int a_sh_stage = a_sh_stride * (16 * thread_m_blocks);
-  // number of shared write iterations for a tile
-  constexpr int a_sh_wr_iters = ceildiv(a_sh_stage, a_sh_wr_delta);
-
-  // B sizes/strides
-  int b_gl_stride = 16 * prob_n / (pack_factor * 4);
-  constexpr int b_sh_stride = ((thread_n_blocks * 16) * 16 / pack_factor) / 4;
-  constexpr int b_thread_vecs = w_type.size_bits() == 4 ? 1 : 2;
-  constexpr int b_sh_stride_threads = b_sh_stride / b_thread_vecs;
-
-  int b_gl_rd_delta_o = b_gl_stride * thread_k_blocks;
-  int b_gl_rd_delta_i = b_gl_stride * (threads / b_sh_stride_threads);
-  constexpr int b_sh_wr_delta = threads * b_thread_vecs;
-  constexpr int b_sh_rd_delta = threads * b_thread_vecs;
-  constexpr int b_sh_stage = b_sh_stride * thread_k_blocks;
-  constexpr int b_sh_wr_iters = b_sh_stage / b_sh_wr_delta;
-
-  // Scale sizes/strides without act_order
-  int s_gl_stride = prob_n / 8;
-  constexpr int s_sh_stride = 16 * thread_n_blocks / 8;
-  constexpr int s_tb_groups =
-      !has_act_order && group_blocks != -1 && group_blocks < thread_k_blocks
-          ? thread_k_blocks / group_blocks
-          : 1;
-  constexpr int s_sh_stage = s_tb_groups * s_sh_stride;
-  int s_gl_rd_delta = s_gl_stride;
-  // Scale size/strides with act_order
-  constexpr int tb_k = 16 * thread_k_blocks;
-  constexpr int g_idx_stage = has_act_order ? (tb_k * sizeof(int)) / 16 : 0;
-  // constexpr int act_s_row_stride      = 1;
-  // int           act_s_col_stride      = act_s_row_stride * num_groups;
-  int act_s_col_stride = 1;
-  int act_s_col_warp_stride = act_s_col_stride * 8;
-  int tb_n_warps = thread_n_blocks / 4;
-  int act_s_col_tb_stride = act_s_col_warp_stride * tb_n_warps;
-
-  // Zero-points sizes/strides
-  int zp_gl_stride = (prob_n / pack_factor) / 4;
-  constexpr int zp_sh_stride = ((16 * thread_n_blocks) / pack_factor) / 4;
-  constexpr int zp_tb_groups = s_tb_groups;
-  constexpr int zp_sh_stage = has_zp ? zp_tb_groups * zp_sh_stride : 0;
-  int zp_gl_rd_delta = zp_gl_stride;
-
-  // Global A read index of current thread.
-  int a_gl_rd = a_gl_stride * (threadIdx.x / a_gl_rd_delta_o) +
-                (threadIdx.x % a_gl_rd_delta_o);
-  a_gl_rd += a_gl_rd_delta_o * slice_row;
-  // Shared write index of current thread.
-  int a_sh_wr = a_sh_stride * (threadIdx.x / a_gl_rd_delta_o) +
-                (threadIdx.x % a_gl_rd_delta_o);
-  // Shared read index.
-  int a_sh_rd =
-      a_sh_stride * ((threadIdx.x % 32) % 16) + (threadIdx.x % 32) / 16;
-  a_sh_rd += 2 * ((threadIdx.x / 32) / (thread_n_blocks / 4));
-
-  int b_gl_rd = b_gl_stride * (threadIdx.x / b_sh_stride_threads) +
-                (threadIdx.x % b_sh_stride_threads) * b_thread_vecs;
-  b_gl_rd += b_sh_stride * slice_col;
-  b_gl_rd += b_gl_rd_delta_o * slice_row;
-  int b_sh_wr = threadIdx.x * b_thread_vecs;
-  int b_sh_rd = threadIdx.x * b_thread_vecs;
-
-  // For act_order
-  constexpr int k_iter_size = tb_k / b_sh_wr_iters;
-  int slice_k_start = tb_k * slice_row;
-  int slice_k_finish = slice_k_start + tb_k * slice_iters;
-  int slice_k_start_shared_fetch = slice_k_start;
-  int slice_n_offset = act_s_col_tb_stride * slice_col;
-
-  // No act_order
-  int s_gl_rd;
-  if constexpr (!has_act_order) {
-    if constexpr (group_blocks == -1) {
-      s_gl_rd = s_sh_stride * slice_col + threadIdx.x;
-    } else {
-      s_gl_rd = s_gl_stride * ((thread_k_blocks * slice_row) / group_blocks) +
-                s_sh_stride * slice_col + threadIdx.x;
-    }
-  }
-  int s_sh_wr = threadIdx.x;
-  bool s_sh_wr_pred = threadIdx.x < s_sh_stride;
-
-  // Zero-points
-  int zp_gl_rd;
-  if constexpr (has_zp) {
-    if constexpr (group_blocks == -1) {
-      zp_gl_rd = zp_sh_stride * slice_col + threadIdx.x;
-    } else {
-      zp_gl_rd = zp_gl_stride * ((thread_k_blocks * slice_row) / group_blocks) +
-                 zp_sh_stride * slice_col + threadIdx.x;
-    }
-  }
-  int zp_sh_wr = threadIdx.x;
-  bool zp_sh_wr_pred = threadIdx.x < zp_sh_stride;
-
-  // We use a different scale layout for grouped and column-wise quantization as
-  // we scale a `half2` tile in column-major layout in the former and in
-  // row-major in the latter case.
-  int s_sh_rd;
-  if constexpr (group_blocks != -1)
-    s_sh_rd = 8 * ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
-              (threadIdx.x % 32) / 4;
-  else
-    s_sh_rd = 8 * ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
-              (threadIdx.x % 32) % 4;
-
-  // Zero-points have the same read layout as the scales
-  // (without column-wise case)
-  constexpr int num_col_threads = 8;
-  constexpr int num_row_threads = 4;
-  constexpr int num_ints_per_thread = 8 / pack_factor;
-  int zp_sh_rd;
-  if constexpr (has_zp) {
-    zp_sh_rd = num_ints_per_thread * num_col_threads *
-                   ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
-               num_ints_per_thread * ((threadIdx.x % 32) / num_row_threads);
-  }
-
-  int sh_first_group_id = -1;
-  int sh_num_groups = -1;
-  constexpr int sh_max_num_groups = 32;
-
-  extern __shared__ int4 sh[];
-  // Shared memory storage for global fetch pipelines.
-  int4* sh_a = sh;
-  int4* sh_b = sh_a + (stages * a_sh_stage);
-  int4* sh_g_idx = sh_b + (stages * b_sh_stage);
-  int4* sh_zp = sh_g_idx + (stages * g_idx_stage);
-  int4* sh_s = sh_zp + (stages * zp_sh_stage);
-
-  // Precompute which thread should not read memory in which iterations; this is
-  // needed if there are more threads than required for a certain tilesize or
-  // when the batchsize is not a multiple of 16.
-  bool a_sh_wr_pred[a_sh_wr_iters];
-  #pragma unroll
-  for (int i = 0; i < a_sh_wr_iters; i++) {
-    int a_idx = a_sh_wr_delta * i + a_sh_wr;
-    int row = a_idx / a_gl_rd_delta_o;
-    if (row >= prob_m) {
-      a_sh_wr_pred[i] = false;
-    } else {
-      a_sh_wr_pred[i] = a_sh_wr_delta * i + a_sh_wr < a_sh_stride * prob_m;
-    }
-  }
-
-  // To ensure that writing and reading A tiles to/from shared memory, the
-  // latter in fragment format, is fully bank conflict free, we need to use a
-  // rather fancy XOR-based layout. The key here is that neither reads nor
-  // writes of the 16-byte `int4` blocks of 8 consecutive threads involve the
-  // same shared memory banks. Further, it seems (based on NSight-Compute) that
-  // each warp must also write a consecutive memory segment?
-  auto transform_a = [&](int i) {
-    int row = i / a_gl_rd_delta_o;
-    return a_gl_rd_delta_o * row + (i % a_gl_rd_delta_o) ^ row;
-  };
-  // Since the computation of this remapping is non-trivial and, due to our main
-  // loop unrolls, all shared memory accesses are static, we simply precompute
-  // both transformed reads and writes.
-  int a_sh_wr_trans[a_sh_wr_iters];
-  #pragma unroll
-  for (int i = 0; i < a_sh_wr_iters; i++)
-    a_sh_wr_trans[i] = transform_a(a_sh_wr_delta * i + a_sh_wr);
-  int a_sh_rd_trans[b_sh_wr_iters][thread_m_blocks];
-  #pragma unroll
-  for (int i = 0; i < b_sh_wr_iters; i++) {
-  #pragma unroll
-    for (int j = 0; j < thread_m_blocks; j++)
-      a_sh_rd_trans[i][j] =
-          transform_a(a_sh_rd_delta_o * i + a_sh_rd_delta_i * j + a_sh_rd);
-  }
-
-  // Since B-accesses have non-constant stride they have to be computed at
-  // runtime; we break dependencies between subsequent accesses with a tile by
-  // maintining multiple pointers (we have enough registers), a tiny
-  // optimization.
-  const int4* B_ptr[b_sh_wr_iters];
-  #pragma unroll
-  for (int i = 0; i < b_sh_wr_iters; i++)
-    B_ptr[i] = B + b_gl_rd_delta_i * i + b_gl_rd;
-
-  // Register storage for double buffer of shared memory reads.
-  FragA frag_a[2][thread_m_blocks];
-  I4 frag_b_quant[2][b_thread_vecs];
-  FragC frag_c[thread_m_blocks][4][2];
-  FragS frag_s[2][4];                    // No act-order
-  FragS act_frag_s[2][4][4];             // For act-order
-  int frag_qzp[2][num_ints_per_thread];  // Zero-points
-  FragZP frag_zp;                        // Zero-points in fp16
-
-  // Zero accumulators.
-  auto zero_accums = [&]() {
-  #pragma unroll
-    for (int i = 0; i < thread_m_blocks * 4 * 2 * 4; i++)
-      reinterpret_cast<float*>(frag_c)[i] = 0;
-  };
-
-  auto fetch_scales_to_shared = [&](bool is_async, int first_group_id,
-                                    int last_group_id) {
-    sh_first_group_id = first_group_id;
-    sh_num_groups = last_group_id - first_group_id + 1;
-
-    if (sh_num_groups < sh_max_num_groups) {
-      sh_num_groups = sh_max_num_groups;
-    }
-
-    if (sh_first_group_id + sh_num_groups > num_groups) {
-      sh_num_groups = num_groups - sh_first_group_id;
-    }
-
-    int row_offset = first_group_id * s_gl_stride;
-
-    if (is_async) {
-      for (int i = 0; i < sh_num_groups; i++) {
-        if (threadIdx.x < s_sh_stride) {
-          cp_async4_pred(&sh_s[(i * s_sh_stride) + threadIdx.x],
-                         &scales_ptr[row_offset + (i * s_gl_stride) +
-                                     slice_n_offset + threadIdx.x]);
-        }
-      }
-    } else {
-      for (int i = 0; i < sh_num_groups; i++) {
-        if (threadIdx.x < s_sh_stride) {
-          sh_s[(i * s_sh_stride) + threadIdx.x] =
-              scales_ptr[row_offset + (i * s_gl_stride) + slice_n_offset +
-                         threadIdx.x];
-        }
-      }
-    }
-  };
-  // Asynchronously fetch the next A, B and s tile from global to the next
-  // shared memory pipeline location.
-  auto fetch_to_shared = [&](int pipe, int a_off, bool pred = true) {
-    if (pred) {
-      int4* sh_a_stage = sh_a + a_sh_stage * pipe;
-  #pragma unroll
-      for (int i = 0; i < a_sh_wr_iters; i++) {
-        int a_idx = a_gl_rd_delta_i * i + a_gl_rd + a_gl_rd_delta_o * a_off;
-        int row = a_idx / a_gl_stride;
-        int sorted_row =
-            replicate_input ? sorted_ids[row] / topk : sorted_ids[row];
-        int new_idx = sorted_row * a_gl_stride + a_idx % a_gl_stride;
-        if (sorted_row < tot_m * (replicate_input ? 1 : topk) &&
-            new_idx < a_gl_stride * tot_m * (replicate_input ? 1 : topk)) {
-          cp_async4_pred(&sh_a_stage[a_sh_wr_trans[i]], &A[new_idx],
-                         a_sh_wr_pred[i]);
-        }
-      }
-      int4* sh_b_stage = sh_b + b_sh_stage * pipe;
-  #pragma unroll
-      for (int i = 0; i < b_sh_wr_iters; i++) {
-  #pragma unroll
-        for (int j = 0; j < b_thread_vecs; j++) {
-          cp_async4(&sh_b_stage[b_sh_wr_delta * i + b_sh_wr + j], B_ptr[i] + j);
-        }
-        B_ptr[i] += b_gl_rd_delta_o;
-      }
-
-      if constexpr (has_act_order) {
-        // Fetch g_idx thread-block portion
-        int full_pipe = a_off;
-        int cur_k = slice_k_start_shared_fetch + tb_k * full_pipe;
-        if (cur_k < prob_k && cur_k < slice_k_finish) {
-          int4* sh_g_idx_stage = sh_g_idx + g_idx_stage * pipe;
-
-          int4 const* cur_g_idx_stage_ptr =
-              reinterpret_cast<int4 const*>(&g_idx[cur_k]);
-
-          if (threadIdx.x < g_idx_stage) {
-            cp_async4_pred(&sh_g_idx_stage[threadIdx.x],
-                           &cur_g_idx_stage_ptr[threadIdx.x]);
-          }
-        }
-      } else {
-        if constexpr (group_blocks != -1) {
-          int4* sh_s_stage = sh_s + s_sh_stage * pipe;
-
-          if constexpr (group_blocks >= thread_k_blocks) {
-            // Only fetch scales if this tile starts a new group
-            if (pipe % (group_blocks / thread_k_blocks) == 0) {
-              if (s_sh_wr_pred) {
-                cp_async4(&sh_s_stage[s_sh_wr], &scales_ptr[s_gl_rd]);
-              }
-              s_gl_rd += s_gl_rd_delta;
-            }
-          } else {
-            for (int i = 0; i < s_tb_groups; i++) {
-              if (s_sh_wr_pred) {
-                cp_async4(&sh_s_stage[i * s_sh_stride + s_sh_wr],
-                          &scales_ptr[s_gl_rd]);
-              }
-              s_gl_rd += s_gl_rd_delta;
-            }
-          }
-        }
-
-        if constexpr (has_zp && group_blocks != -1) {
-          int4* sh_zp_stage = sh_zp + zp_sh_stage * pipe;
-
-          if constexpr (group_blocks >= thread_k_blocks) {
-            // Only fetch zero-points if this tile starts a new group
-            if (pipe % (group_blocks / thread_k_blocks) == 0) {
-              if (zp_sh_wr_pred) {
-                cp_async4(&sh_zp_stage[zp_sh_wr], &zp_ptr[zp_gl_rd]);
-              }
-              zp_gl_rd += zp_gl_rd_delta;
-            }
-          } else {
-            for (int i = 0; i < zp_tb_groups; i++) {
-              if (zp_sh_wr_pred) {
-                cp_async4(&sh_zp_stage[i * zp_sh_stride + zp_sh_wr],
-                          &zp_ptr[zp_gl_rd]);
-              }
-              zp_gl_rd += zp_gl_rd_delta;
-            }
-          }
-        }
-      }
-    }
-    // Insert a fence even when we are winding down the pipeline to ensure that
-    // waiting is also correct at this point.
-    cp_async_fence();
-  };
-
-  auto fetch_zp_to_shared = [&]() {
-    if (zp_sh_wr_pred) {
-      cp_async4(&sh_zp[zp_sh_wr], &zp_ptr[zp_gl_rd]);
-    }
-  };
-
-  // Wait until the next thread tile has been loaded to shared memory.
-  auto wait_for_stage = [&]() {
-    // We only have `stages - 2` active fetches since we are double buffering
-    // and can only issue the next fetch when it is guaranteed that the previous
-    // shared memory load is fully complete (as it may otherwise be
-    // overwritten).
-    cp_async_wait<stages - 2>();
-    __syncthreads();
-  };
-
-  // Load the next sub-tile from the current location in the shared memory pipe
-  // into the current register buffer.
-  auto fetch_to_registers = [&](int k, int pipe) {
-    int4* sh_a_stage = sh_a + a_sh_stage * pipe;
-  #pragma unroll
-    for (int i = 0; i < thread_m_blocks; i++)
-      ldsm4(frag_a[k % 2][i], &sh_a_stage[a_sh_rd_trans[k % b_sh_wr_iters][i]]);
-    int4* sh_b_stage = sh_b + b_sh_stage * pipe;
-
-  #pragma unroll
-    for (int i = 0; i < b_thread_vecs; i++) {
-      frag_b_quant[k % 2][i] = *reinterpret_cast<I4*>(
-          &sh_b_stage[b_sh_rd_delta * (k % b_sh_wr_iters) + b_sh_rd + i]);
-    }
-  };
-
-  bool is_same_group[stages];
-  int same_group_id[stages];
-
-  auto init_same_group = [&](int pipe) {
-    if constexpr (!has_act_order) {
-      is_same_group[pipe] = false;
-      same_group_id[pipe] = 0;
-      return;
-    }
-
-    int4* sh_g_idx_stage = sh_g_idx + g_idx_stage * pipe;
-    int* sh_g_idx_int_ptr = reinterpret_cast<int*>(sh_g_idx_stage);
-
-    int group_id_1 = sh_g_idx_int_ptr[0];
-    int group_id_2 = sh_g_idx_int_ptr[tb_k - 1];
-
-    is_same_group[pipe] = group_id_1 == group_id_2;
-    same_group_id[pipe] = group_id_1;
-  };
-
-  auto fetch_scales_to_registers = [&](int k, int full_pipe) {
-    int pipe = full_pipe % stages;
-
-    if constexpr (!has_act_order) {
-      // No act-order case
-      if constexpr (group_blocks != -1) {
-        if constexpr (group_blocks >= thread_k_blocks) {
-          int4* sh_s_stage =
-              sh_s + s_sh_stage * ((group_blocks / thread_k_blocks) *
-                                   (pipe / (group_blocks / thread_k_blocks)));
-          reinterpret_cast<int4*>(&frag_s[k % 2])[0] = sh_s_stage[s_sh_rd];
-        } else {
-          int warp_id = threadIdx.x / 32;
-          int n_warps = thread_n_blocks / 4;
-
-          int warp_row = warp_id / n_warps;
-
-          int cur_k = warp_row * 16;
-          cur_k += k_iter_size * (k % b_sh_wr_iters);
-
-          int k_blocks = cur_k / 16;
-          int cur_group_id = k_blocks / group_blocks;
-
-          int4* sh_s_stage = sh_s + s_sh_stage * pipe;
-
-          reinterpret_cast<int4*>(&frag_s[k % 2])[0] =
-              sh_s_stage[s_sh_rd + cur_group_id * s_sh_stride];
-        }
-      }
-
-      return;
-    }
-
-    // Act-order case
-
-    // Determine K of the "current" thread-block
-    int cur_k = slice_k_start + tb_k * full_pipe;
-    if (cur_k >= prob_k || cur_k >= slice_k_finish) {
-      return;
-    }
-
-    // Reset (to current thread-block) since we read g_idx portion from the
-    // shared memory
-    cur_k = 0;
-
-    // Progress to current iteration
-    cur_k += k_iter_size * (k % b_sh_wr_iters);
-
-    // Determine "position" inside the thread-block (based on warp and
-    // thread-id)
-    int warp_id = threadIdx.x / 32;
-    int n_warps =
-        thread_n_blocks / 4;  // Each warp processes 4 16-size tiles over N
-
-    int warp_row = warp_id / n_warps;
-    int warp_col = warp_id % n_warps;
-
-    cur_k += warp_row * 16;
-
-    int th_id = threadIdx.x % 32;
-    cur_k += (th_id % 4) * 2;  // Due to tensor-core layout for fp16 B matrix
-
-    int s_col_shift =
-        /*slice_n_offset +*/ (act_s_col_warp_stride * warp_col) +
-        (th_id / 4) * act_s_col_stride;
-
-    if (is_same_group[pipe]) {
-      if (k % 2 == 0) {
-        *(reinterpret_cast<int4*>(&(act_frag_s[k % 2][0][0]))) =
-            sh_s[(same_group_id[pipe] - sh_first_group_id) * s_sh_stride +
-                 s_col_shift];
-      } else {
-        *(reinterpret_cast<int4*>(&(act_frag_s[k % 2][0][0]))) =
-            *(reinterpret_cast<int4*>(&(act_frag_s[(k - 1) % 2][0][0])));
-      }
-
-      for (int i = 1; i < 4; i++) {
-        *(reinterpret_cast<int4*>(&(act_frag_s[k % 2][i][0]))) =
-            *(reinterpret_cast<int4*>(&(act_frag_s[k % 2][0][0])));
-      }
-      return;
-    }
-
-    int4* sh_g_idx_stage = sh_g_idx + g_idx_stage * pipe;
-    int* sh_g_idx_int_ptr = reinterpret_cast<int*>(sh_g_idx_stage);
-
-    constexpr int k_frag_offsets[4] = {0, 1, 8,
-                                       9};  // Tensor core offsets per thread
-
-  #pragma unroll
-    for (int i = 0; i < 4; i++) {
-      int actual_k = cur_k + k_frag_offsets[i];
-
-      int group_id = sh_g_idx_int_ptr[actual_k];
-      int rel_group_id = group_id - sh_first_group_id;
-
-      *(reinterpret_cast<int4*>(&(act_frag_s[k % 2][i][0]))) =
-          sh_s[rel_group_id * s_sh_stride + s_col_shift];
-    }
-  };
-
-  auto fetch_zp_to_registers = [&](int k, int full_pipe) {
-    // This code does not handle group_blocks == 0,
-    // which signifies act_order.
-    // has_zp implies AWQ, which doesn't have act_order,
-    static_assert(!has_zp || group_blocks != 0);
-
-    if constexpr (has_zp) {
-      int pipe = full_pipe % stages;
-
-      if constexpr (group_blocks == -1) {
-        for (int i = 0; i < num_ints_per_thread; i++) {
-          frag_qzp[k % 2][i] = (reinterpret_cast<int*>(sh_zp))[zp_sh_rd + i];
-        }
-
-      } else if constexpr (group_blocks >= thread_k_blocks) {
-        int4* sh_zp_stage =
-            sh_zp + zp_sh_stage * ((group_blocks / thread_k_blocks) *
-                                   (pipe / (group_blocks / thread_k_blocks)));
-        for (int i = 0; i < num_ints_per_thread; i++) {
-          frag_qzp[k % 2][i] =
-              (reinterpret_cast<int*>(sh_zp_stage))[zp_sh_rd + i];
-        }
-      } else {
-        int warp_id = threadIdx.x / 32;
-        int n_warps = thread_n_blocks / 4;
-
-        int warp_row = warp_id / n_warps;
-
-        int cur_k = warp_row * 16;
-        cur_k += k_iter_size * (k % b_sh_wr_iters);
-
-        int k_blocks = cur_k / 16;
-        int cur_group_id = 0;
-
-        // Suppress bogus and persistent divide-by-zero warning
-  #pragma nv_diagnostic push
-  #pragma nv_diag_suppress divide_by_zero
-        cur_group_id = k_blocks / group_blocks;
-  #pragma nv_diagnostic pop
-
-        int4* sh_zp_stage = sh_zp + zp_sh_stage * pipe;
-
-        sh_zp_stage += cur_group_id * zp_sh_stride;
-
-        for (int i = 0; i < num_ints_per_thread; i++) {
-          frag_qzp[k % 2][i] =
-              (reinterpret_cast<int*>(sh_zp_stage))[zp_sh_rd + i];
-        }
-      }
-    }
-  };
-
-  // Execute the actual tensor core matmul of a sub-tile.
-  auto matmul = [&](int k) {
-    if constexpr (has_zp) {
-      FragB frag_zp_0;
-      FragB frag_zp_1;
-      int zp_quant_0, zp_quant_1;
-
-      if constexpr (w_type.size_bits() == 4) {
-        zp_quant_0 = frag_qzp[k % 2][0];
-        zp_quant_1 = zp_quant_0 >> 8;
-      } else {
-        static_assert(w_type.size_bits() == 8);
-        zp_quant_0 = frag_qzp[k % 2][0];
-        zp_quant_1 = frag_qzp[k % 2][1];
-      }
-
-      frag_zp_0 = dequant<w_type_id>(zp_quant_0);
-      frag_zp_1 = dequant<w_type_id>(zp_quant_1);
-
-      frag_zp[0] = frag_zp_0[0];
-      frag_zp[1] = frag_zp_0[1];
-      frag_zp[2] = frag_zp_1[0];
-      frag_zp[3] = frag_zp_1[1];
-    }
-
-  // We have the m dimension as the inner loop in order to encourage overlapping
-  // dequantization and matmul operations.
-  #pragma unroll
-    for (int j = 0; j < 4; j++) {
-      int b_quant_0, b_quant_1;
-      if constexpr (w_type.size_bits() == 4) {
-        b_quant_0 = frag_b_quant[k % 2][0][j];
-        b_quant_1 = b_quant_0 >> 8;
-      } else {
-        static_assert(w_type.size_bits() == 8);
-        int* frag_b_quant_ptr = reinterpret_cast<int*>(frag_b_quant[k % 2]);
-        b_quant_0 = frag_b_quant_ptr[j * 2 + 0];
-        b_quant_1 = frag_b_quant_ptr[j * 2 + 1];
-      }
-
-      FragB frag_b0 = dequant<w_type_id>(b_quant_0);
-      FragB frag_b1 = dequant<w_type_id>(b_quant_1);
-      // Apply zero-point to frag_b0
-      if constexpr (has_zp) {
-        sub_zp(frag_b0, frag_zp[j], 0);
-      }
-
-      // Apply scale to frag_b0
-      if constexpr (has_act_order) {
-        scale4(frag_b0, act_frag_s[k % 2][0][j], act_frag_s[k % 2][1][j],
-               act_frag_s[k % 2][2][j], act_frag_s[k % 2][3][j], 0);
-      } else {
-        if constexpr (group_blocks != -1) {
-          scale(frag_b0, frag_s[k % 2][j], 0);
-        }
-      }
-
-      // Apply zero-point to frag_b1
-      if constexpr (has_zp) {
-        sub_zp(frag_b1, frag_zp[j], 1);
-      }
-
-      // Apply scale to frag_b1
-      if constexpr (has_act_order) {
-        scale4(frag_b1, act_frag_s[k % 2][0][j], act_frag_s[k % 2][1][j],
-               act_frag_s[k % 2][2][j], act_frag_s[k % 2][3][j], 1);
-
-      } else {
-        if constexpr (group_blocks != -1) {
-          scale(frag_b1, frag_s[k % 2][j], 1);
-        }
-      }
-
-  #pragma unroll
-      for (int i = 0; i < thread_m_blocks; i++) {
-        mma(frag_a[k % 2][i], frag_b0, frag_c[i][j][0]);
-        mma(frag_a[k % 2][i], frag_b1, frag_c[i][j][1]);
-      }
-    }
-  };
-
-  // Since we slice across the k dimension of a tile in order to increase the
-  // number of warps while keeping the n dimension of a tile reasonable, we have
-  // multiple warps that accumulate their partial sums of the same output
-  // location; which we have to reduce over in the end. We do in shared memory.
-  auto thread_block_reduce = [&]() {
-    constexpr int red_off = threads / b_sh_stride_threads / 2;
-    if (red_off >= 1) {
-      int red_idx = threadIdx.x / b_sh_stride_threads;
-      constexpr int red_sh_stride = b_sh_stride_threads * 4 * 2;
-      constexpr int red_sh_delta = b_sh_stride_threads;
-      int red_sh_rd = red_sh_stride * (threadIdx.x / b_sh_stride_threads) +
-                      (threadIdx.x % b_sh_stride_threads);
-
-      // Parallel logarithmic shared memory reduction. We make sure to avoid any
-      // unnecessary read or write iterations, e.g., for two warps we write only
-      // once by warp 1 and read only once by warp 0.
-
-  #pragma unroll
-      for (int m_block = 0; m_block < thread_m_blocks; m_block++) {
-  #pragma unroll
-        for (int i = red_off; i > 0; i /= 2) {
-          if (i <= red_idx && red_idx < 2 * i) {
-  #pragma unroll
-            for (int j = 0; j < 4 * 2; j++) {
-              int red_sh_wr =
-                  red_sh_delta * j + (red_sh_rd - red_sh_stride * i);
-              if (i < red_off) {
-                float* c_rd =
-                    reinterpret_cast<float*>(&sh[red_sh_delta * j + red_sh_rd]);
-                float* c_wr = reinterpret_cast<float*>(&sh[red_sh_wr]);
-  #pragma unroll
-                for (int k = 0; k < 4; k++)
-                  reinterpret_cast<FragC*>(frag_c)[4 * 2 * m_block + j][k] +=
-                      c_rd[k] + c_wr[k];
-              }
-              sh[red_sh_wr] =
-                  reinterpret_cast<int4*>(&frag_c)[4 * 2 * m_block + j];
-            }
-          }
-          __syncthreads();
-        }
-        if (red_idx == 0) {
-  #pragma unroll
-          for (int i = 0; i < 4 * 2; i++) {
-            float* c_rd =
-                reinterpret_cast<float*>(&sh[red_sh_delta * i + red_sh_rd]);
-  #pragma unroll
-            for (int j = 0; j < 4; j++)
-              reinterpret_cast<FragC*>(frag_c)[4 * 2 * m_block + i][j] +=
-                  c_rd[j];
-          }
-        }
-        __syncthreads();
-      }
-    }
-  };
-
-  // Since multiple threadblocks may process parts of the same column slice, we
-  // finally have to globally reduce over the results. As the striped
-  // partitioning minimizes the number of such reductions and our outputs are
-  // usually rather small, we perform this reduction serially in L2 cache.
-  auto global_reduce = [&](bool first = false, bool last = false) {
-    // We are very careful here to reduce directly in the output buffer to
-    // maximize L2 cache utilization in this step. To do this, we write out
-    // results in FP16 (but still reduce with FP32 compute).
-    constexpr int active_threads = 32 * thread_n_blocks / 4;
-    if (threadIdx.x < active_threads) {
-      int c_gl_stride = prob_n / 8;
-      int c_gl_wr_delta_o = 8 * c_gl_stride;
-      int c_gl_wr_delta_i = 4 * (active_threads / 32);
-      int c_gl_wr = c_gl_stride * ((threadIdx.x % 32) / 4) +
-                    4 * (threadIdx.x / 32) + threadIdx.x % 4;
-      c_gl_wr += (2 * thread_n_blocks) * slice_col;
-      constexpr int c_sh_wr_delta = active_threads;
-      int c_sh_wr = threadIdx.x;
-
-      int row = (threadIdx.x % 32) / 4;
-
-      if (!first) {
-  // Interestingly, doing direct global accesses here really seems to mess up
-  // the compiler and lead to slowdowns, hence we also use async-copies even
-  // though these fetches are not actually asynchronous.
-  #pragma unroll
-        for (int i = 0; i < thread_m_blocks * 4; i++) {
-          int c_idx =
-              c_gl_wr + c_gl_wr_delta_o * (i / 2) + c_gl_wr_delta_i * (i % 2);
-          int sorted_row = sorted_ids[c_idx / c_gl_stride];
-          int new_idx = sorted_row * c_gl_stride + c_idx % c_gl_stride;
-          cp_async4_pred(&sh[c_sh_wr + c_sh_wr_delta * i], &C[new_idx],
-                         sorted_row < tot_m * topk &&
-                             (8 * (i / 2) + row < prob_m &&
-                              (i < (thread_m_blocks - 1) * 4 ||
-                               sorted_ids[8 * (i / 2) + row] < tot_m * topk)));
-        }
-        cp_async_fence();
-        cp_async_wait<0>();
-      }
-
-  #pragma unroll
-      for (int i = 0; i < thread_m_blocks * 4; i++) {
-        if (8 * (i / 2) + row < prob_m &&
-            (i < (thread_m_blocks - 1) * 4 ||
-             sorted_ids[8 * (i / 2) + row] < tot_m * topk)) {
-          if (!first) {
-            int4 c_red = sh[c_sh_wr + i * c_sh_wr_delta];
-  #pragma unroll
-            for (int j = 0; j < 2 * 4; j++) {
-              reinterpret_cast<float*>(
-                  &frag_c)[4 * 2 * 4 * (i / 4) + 4 * j + (i % 4)] +=
-                  __half2float(reinterpret_cast<__half*>(&c_red)[j]);
-            }
-          }
-          if (!last) {
-            int4 c;
-  #pragma unroll
-            for (int j = 0; j < 2 * 4; j++) {
-              reinterpret_cast<__half*>(&c)[j] =
-                  __float2half(reinterpret_cast<float*>(
-                      &frag_c)[4 * 2 * 4 * (i / 4) + 4 * j + (i % 4)]);
-            }
-            int c_idx =
-                c_gl_wr + c_gl_wr_delta_o * (i / 2) + c_gl_wr_delta_i * (i % 2);
-            int row = sorted_ids[c_idx / c_gl_stride];
-            if (row < tot_m * topk) {
-              int new_idx = row * c_gl_stride + c_idx % c_gl_stride;
-              C[new_idx] = c;
-            }
-          }
-        }
-      }
-    }
-  };
-
-  // Write out the reduce final result in the correct layout. We only actually
-  // reshuffle matrix fragments in this step, the reduction above is performed
-  // in fragment layout.
-  auto write_result = [&]() {
-    int c_gl_stride = prob_n / 8;
-    constexpr int c_sh_stride = 2 * thread_n_blocks + 1;
-    int c_gl_wr_delta = c_gl_stride * (threads / (2 * thread_n_blocks));
-    constexpr int c_sh_rd_delta =
-        c_sh_stride * (threads / (2 * thread_n_blocks));
-
-    int c_gl_wr = c_gl_stride * (threadIdx.x / (2 * thread_n_blocks)) +
-                  (threadIdx.x % (2 * thread_n_blocks));
-    c_gl_wr += (2 * thread_n_blocks) * slice_col;
-    int c_sh_wr =
-        (4 * c_sh_stride) * ((threadIdx.x % 32) / 4) + (threadIdx.x % 32) % 4;
-    c_sh_wr += 32 * (threadIdx.x / 32);
-    int c_sh_rd = c_sh_stride * (threadIdx.x / (2 * thread_n_blocks)) +
-                  (threadIdx.x % (2 * thread_n_blocks));
-
-    int c_gl_wr_end = c_gl_stride * prob_m;
-
-    // We first reorder in shared memory to guarantee the most efficient final
-    // global write patterns
-    auto write = [&](int idx, float c0, float c1, FragS& s) {
-      half2 res = __halves2half2(__float2half(c0), __float2half(c1));
-
-      // For per-column quantization we finally apply the scale here (only for
-      // 4-bit)
-      if constexpr (!has_act_order && group_blocks == -1 &&
-                    w_type.size_bits() == 4) {
-        res = __hmul2(res, s[0]);
-      }
-
-      ((half2*)sh)[idx] = res;
-    };
-    if (threadIdx.x / 32 < thread_n_blocks / 4) {
-  #pragma unroll
-      for (int i = 0; i < thread_m_blocks; i++) {
-  #pragma unroll
-        for (int j = 0; j < 4; j++) {
-          int wr = c_sh_wr + 8 * j;
-          write(wr + (4 * c_sh_stride) * 0 + 0, frag_c[i][j][0][0],
-                frag_c[i][j][0][1], frag_s[j / 2][2 * (j % 2) + 0]);
-          write(wr + (4 * c_sh_stride) * 8 + 0, frag_c[i][j][0][2],
-                frag_c[i][j][0][3], frag_s[j / 2][2 * (j % 2) + 0]);
-          write(wr + (4 * c_sh_stride) * 0 + 4, frag_c[i][j][1][0],
-                frag_c[i][j][1][1], frag_s[j / 2][2 * (j % 2) + 1]);
-          write(wr + (4 * c_sh_stride) * 8 + 4, frag_c[i][j][1][2],
-                frag_c[i][j][1][3], frag_s[j / 2][2 * (j % 2) + 1]);
-        }
-        c_sh_wr += 16 * (4 * c_sh_stride);
-      }
-    }
-    __syncthreads();
-
-  #pragma unroll
-    for (int i = 0;
-         i < ceildiv(16 * thread_m_blocks, threads / (2 * thread_n_blocks));
-         i++) {
-      if (c_gl_wr < c_gl_wr_end) {
-        int row = sorted_ids[c_gl_wr / c_gl_stride];
-        if (row < tot_m * topk) {
-          int off = row * c_gl_stride + c_gl_wr % c_gl_stride;
-          if (!apply_weights) {
-            C[off] = sh[c_sh_rd];
-          } else {
-            __half* ctrg = reinterpret_cast<__half*>(&C[off]);
-            __half* csrc = reinterpret_cast<__half*>(&sh[c_sh_rd]);
-            for (int j = 0; j < 8; ++j) {
-              ctrg[j] = __float2half(topk_weights[row] * __half2float(csrc[j]));
-            }
-          }
-          c_gl_wr += c_gl_wr_delta;
-          c_sh_rd += c_sh_rd_delta;
-        }
-      }
-    }
-  };
-
-  // Start global fetch and register load pipelines.
-  auto start_pipes = [&]() {
-
-  #pragma unroll
-    for (int i = 0; i < stages - 1; i++) {
-      if (has_act_order && i == 0) {
-        int last_g_idx = slice_k_start + stages * tb_k * 2;
-        if (last_g_idx >= prob_k) {
-          last_g_idx = prob_k - 1;
-        }
-        fetch_scales_to_shared(true, g_idx[slice_k_start], g_idx[last_g_idx]);
-      }
-
-      if constexpr (has_zp && group_blocks == -1) {
-        if (i == 0) {
-          fetch_zp_to_shared();
-        }
-      }
-      fetch_to_shared(i, i, i < slice_iters);
-    }
-
-    zero_accums();
-    wait_for_stage();
-    init_same_group(0);
-    fetch_to_registers(0, 0);
-    fetch_scales_to_registers(0, 0);
-    fetch_zp_to_registers(0, 0);
-    a_gl_rd += a_gl_rd_delta_o * (stages - 1);
-    slice_k_start_shared_fetch += tb_k * (stages - 1);
-  };
-  if (slice_iters) {
-    start_pipes();
-  }
-
-  // Main loop.
-  while (slice_iters) {
-    // We unroll over both the global fetch and the register load pipeline to
-    // ensure all shared memory accesses are static. Note that both pipelines
-    // have even length meaning that the next iteration will always start at
-    // index 0.
-  #pragma unroll
-    for (int pipe = 0; pipe < stages;) {
-  #pragma unroll
-      for (int k = 0; k < b_sh_wr_iters; k++) {
-        fetch_to_registers(k + 1, pipe % stages);
-        fetch_scales_to_registers(k + 1, pipe);
-        fetch_zp_to_registers(k + 1, pipe);
-        if (k == b_sh_wr_iters - 2) {
-          fetch_to_shared((pipe + stages - 1) % stages, pipe,
-                          slice_iters >= stages);
-          pipe++;
-          wait_for_stage();
-          init_same_group(pipe % stages);
-        }
-        matmul(k);
-      }
-      slice_iters--;
-      if (slice_iters == 0) {
-        break;
-      }
-    }
-
-    a_gl_rd += a_gl_rd_delta_o * stages;
-    slice_k_start += tb_k * stages;
-    slice_k_start_shared_fetch += tb_k * stages;
-
-    if constexpr (has_act_order) {
-      int first_group_id = g_idx[slice_k_start];
-      int last_g_idx = slice_k_start + stages * tb_k * 2;
-      if (last_g_idx >= prob_k) {
-        last_g_idx = prob_k - 1;
-      }
-      int last_group_id = g_idx[last_g_idx];
-      if (last_group_id >= sh_first_group_id + sh_num_groups) {
-        fetch_scales_to_shared(false, first_group_id, last_group_id);
-        __syncthreads();
-      }
-    }
-
-    // Process results and, if necessary, proceed to the next column slice.
-    // While this pattern may not be the most readable, other ways of writing
-    // the loop seemed to noticeably worse performance after compilation.
-    if (slice_iters == 0) {
-      cp_async_wait<0>();
-      bool last = slice_idx == slice_count - 1;
-      if constexpr (!has_act_order && group_blocks == -1) {
-        if constexpr (w_type.size_bits() == 8) {
-          if (s_sh_wr_pred) {
-            cp_async4(&sh_s[s_sh_wr], &scales_ptr[s_gl_rd]);
-          }
-          cp_async_fence();
-        } else {
-          // For 4-bit per-column scales, we only fetch them here in the
-          // final step before write-out
-          if (last) {
-            if (s_sh_wr_pred) {
-              cp_async4(&sh_s[s_sh_wr], &scales_ptr[s_gl_rd]);
-            }
-            cp_async_fence();
-          }
-        }
-      }
-
-      thread_block_reduce();
-      if constexpr (!has_act_order && group_blocks == -1) {
-        if constexpr (w_type.size_bits() == 8) {
-          cp_async_wait<0>();
-          __syncthreads();
-          if (threadIdx.x / 32 < thread_n_blocks / 4) {
-            reinterpret_cast<int4*>(&frag_s)[0] = sh_s[s_sh_rd + 0];
-            reinterpret_cast<int4*>(&frag_s)[1] = sh_s[s_sh_rd + 4];
-          }
-
-        } else {
-          if (last) {
-            cp_async_wait<0>();
-            __syncthreads();
-            if (threadIdx.x / 32 < thread_n_blocks / 4) {
-              reinterpret_cast<int4*>(&frag_s)[0] = sh_s[s_sh_rd + 0];
-              reinterpret_cast<int4*>(&frag_s)[1] = sh_s[s_sh_rd + 4];
-            }
-          }
-        }
-      }
-
-      // For 8-bit channelwise, we apply the scale before the global reduction
-      // that converts the fp32 results to fp16 (so that we avoid possible
-      // overflow in fp16)
-      if constexpr (!has_act_order && group_blocks == -1 &&
-                    w_type.size_bits() == 8) {
-        if (threadIdx.x / 32 < thread_n_blocks / 4) {
-  #pragma unroll
-          for (int i = 0; i < thread_m_blocks; i++) {
-  #pragma unroll
-            for (int j = 0; j < 4; j++) {
-              scale_float(reinterpret_cast<float*>(&frag_c[i][j][0][0]),
-                          frag_s[j / 2][2 * (j % 2) + 0]);
-              scale_float(reinterpret_cast<float*>(&frag_c[i][j][0][2]),
-                          frag_s[j / 2][2 * (j % 2) + 0]);
-
-              scale_float(reinterpret_cast<float*>(&frag_c[i][j][1][0]),
-                          frag_s[j / 2][2 * (j % 2) + 1]);
-              scale_float(reinterpret_cast<float*>(&frag_c[i][j][1][2]),
-                          frag_s[j / 2][2 * (j % 2) + 1]);
-            }
-          }
-        }
-      }
-
-      if (slice_count > 1) {  // only globally reduce if there is more than one
-                              // block in a slice
-        barrier_acquire(&locks[slice_col], slice_idx);
-        global_reduce(slice_idx == 0, last);
-        barrier_release(&locks[slice_col], last);
-      }
-      if (last)  // only the last block in a slice actually writes the result
-        write_result();
-      slice_row = 0;
-      slice_col_par++;
-      slice_col++;
-      init_slice();
-      if (slice_iters) {
-        a_gl_rd = a_gl_stride * (threadIdx.x / a_gl_rd_delta_o) +
-                  (threadIdx.x % a_gl_rd_delta_o);
-  #pragma unroll
-        for (int i = 0; i < b_sh_wr_iters; i++)
-          B_ptr[i] += b_sh_stride - b_gl_rd_delta_o * k_tiles;
-        if (slice_col == 0) {
-  #pragma unroll
-          for (int i = 0; i < b_sh_wr_iters; i++) B_ptr[i] -= b_gl_stride;
-        }
-
-        // Update slice k/n for scales loading
-        if constexpr (has_act_order) {
-          slice_k_start = tb_k * slice_row;
-          slice_k_finish = slice_k_start + tb_k * slice_iters;
-          slice_k_start_shared_fetch = slice_k_start;
-          slice_n_offset = act_s_col_tb_stride * slice_col;
-
-        } else {
-          s_gl_rd = s_sh_stride * slice_col + threadIdx.x;
-          zp_gl_rd = zp_sh_stride * slice_col + threadIdx.x;
-        }
-
-        start_pipes();
-      }
-    }
-  }
-}
-
-template <const vllm::ScalarTypeId w_type_id,  // weight ScalarType id
-          const int threads,          // number of threads in a threadblock
-          const int thread_n_blocks,  // same for n dimension (output)
-          const int thread_k_blocks,  // same for k dimension (reduction)
-          const int stages,  // number of stages for the async global->shared
-                             // fetch pipeline
-          const bool has_act_order,    // whether act_order is enabled
-          const bool has_zp,           // whether zero-points are enabled
-          const int group_blocks = -1  // number of consecutive 16x16 blocks
-                                       // with a separate quantization scale
-          >
-__global__ void MarlinMoE(
-    const int4* __restrict__ A,  // fp16 input matrix of shape mxk
-    const int4* __restrict__ B,  // 4bit quantized weight matrix of shape kxn
-    int4* __restrict__ C,        // fp16 output buffer of shape mxn
-    const int* __restrict__ sorted_ids_base,  // int32 sorted ids of experts
-    const float* __restrict__ topk_weights,   // float topk weights
-    const int4* __restrict__ scales_ptr,  // fp16 quantization scales of shape
-                                          // (k/groupsize)xn
-    const int4* __restrict__ zp_ptr,      // 4bit packed zero-points of shape
-                                          // (k/groupsize)x(n/pack_factor)
-    const int* __restrict__ g_idx,        // int32 group indices of shape k
-    const int* __restrict__ expert_offsets,
-    int num_groups,        // number of scale groups per output channel
-    int expert_idx,        // idx of current expert
-    int num_experts,       // number of experts
-    int topk,              // topk parameter of moe
-    int prob_m,            // batch dimension m
-    int prob_n,            // output dimension n
-    int prob_k,            // reduction dimension k
-    int tot_m,             // total number of rows in A and C
-    int* locks,            // extra global storage for barrier synchronization
-    bool replicate_input,  // do we use the same input for each expert?
-    bool apply_weights,    // apply weights to output
-    int current_m_block,   // current m block to start kernel computation from
-    int max_par,           // maximum parallelism
-    int cfg_max_m_blocks   // upper bound on m blocks
-) {
-  int m_block_ctr = current_m_block;
-
-  const int* sorted_ids_expert =
-      sorted_ids_base + expert_offsets[expert_idx] + m_block_ctr * 4 * max_par;
-  int tot_its = expert_offsets[expert_idx + 1] - expert_offsets[expert_idx];
-  if (tot_its == 0) {
-    return;
-  }
-  int tot_m_blocks = ceildiv(tot_its, 16);
-  int pad = 16 * tot_m_blocks - tot_its;
-
-  if (m_block_ctr >= tot_m_blocks) {
-    return;
-  }
-
-  int max_block = tot_m_blocks - m_block_ctr;
-  prob_m = tot_its - 16 * m_block_ctr;
-
-  int par = 1;
-  if (max_block > cfg_max_m_blocks) {
-    // Note that parallel > 1 currently only works for inputs without any
-    // padding
-    par = (16 * max_block - pad) / (16 * cfg_max_m_blocks);
-    if (par > max_par) par = max_par;
-    prob_m = (16 * cfg_max_m_blocks) * par;
-    m_block_ctr += cfg_max_m_blocks * (par - 1);
-    max_block = cfg_max_m_blocks;
-  }
-
-  if (max_block == 1) {
-    MarlinMoESingle<w_type_id, threads, 1, thread_n_blocks, thread_k_blocks,
-                    stages, has_act_order, has_zp, group_blocks>(
-        A, B, C, sorted_ids_expert, topk_weights, scales_ptr, zp_ptr, g_idx,
-        expert_offsets, num_groups, expert_idx, num_experts, topk, prob_m,
-        prob_n, prob_k, tot_m, locks, replicate_input, apply_weights,
-        current_m_block);
-  } else if (max_block == 2) {
-    MarlinMoESingle<w_type_id, threads, 2, thread_n_blocks, thread_k_blocks,
-                    stages, has_act_order, has_zp, group_blocks>(
-        A, B, C, sorted_ids_expert, topk_weights, scales_ptr, zp_ptr, g_idx,
-        expert_offsets, num_groups, expert_idx, num_experts, topk, prob_m,
-        prob_n, prob_k, tot_m, locks, replicate_input, apply_weights,
-        current_m_block);
-  } else if (max_block == 3) {
-    MarlinMoESingle<w_type_id, threads, 3, thread_n_blocks, thread_k_blocks,
-                    stages, has_act_order, has_zp, group_blocks>(
-        A, B, C, sorted_ids_expert, topk_weights, scales_ptr, zp_ptr, g_idx,
-        expert_offsets, num_groups, expert_idx, num_experts, topk, prob_m,
-        prob_n, prob_k, tot_m, locks, replicate_input, apply_weights,
-        current_m_block);
-  } else {
-    MarlinMoESingle<w_type_id, threads, 4, thread_n_blocks, thread_k_blocks,
-                    stages, has_act_order, has_zp, group_blocks>(
-        A, B, C, sorted_ids_expert, topk_weights, scales_ptr, zp_ptr, g_idx,
-        expert_offsets, num_groups, expert_idx, num_experts, topk, prob_m,
-        prob_n, prob_k, tot_m, locks, replicate_input, apply_weights,
-        current_m_block);
-  }
-}
-
-#else
-
-template <const vllm::ScalarTypeId w_type_id,  // weight ScalarType id
-          const int threads,          // number of threads in a threadblock
-          const int thread_n_blocks,  // same for n dimension (output)
-          const int thread_k_blocks,  // same for k dimension (reduction)
-          const int stages,  // number of stages for the async global->shared
-                             // fetch pipeline
-          const bool has_act_order,    // whether act_order is enabled
-          const bool has_zp,           // whether zero-points are enabled
-          const int group_blocks = -1  // number of consecutive 16x16 blocks
-                                       // with a separate quantization scale
-          >
-__global__ void MarlinMoE(
-    const int4* __restrict__ A,  // fp16 input matrix of shape mxk
-    const int4* __restrict__ B,  // 4bit quantized weight matrix of shape kxn
-    int4* __restrict__ C,        // fp16 output buffer of shape mxn
-    const int* __restrict__ sorted_ids,      // int32 sorted ids of experts
-    const float* __restrict__ topk_weights,  // float topk weights
-    const int4* __restrict__ scales_ptr,  // fp16 quantization scales of shape
-                                          // (k/groupsize)xn
-    const int4* __restrict__ zp_ptr,      // 4bit packed zero-points of shape
-                                          // (k/groupsize)x(n/pack_factor)
-    const int* __restrict__ g_idx,        // int32 group indices of shape k
-    const int* __restrict__ expert_offsets,
-    int num_groups,        // number of scale groups per output channel
-    int expert_idx,        // idx of current expert
-    int num_experts,       // number of experts
-    int topk,              // topk parameter of moe
-    int prob_m,            // batch dimension m
-    int prob_n,            // output dimension n
-    int prob_k,            // reduction dimension k
-    int tot_m,             // total number of rows in A and C
-    int* locks,            // extra global storage for barrier synchronization
-    bool replicate_input,  // do we use the same input for each expert?
-    bool apply_weights,    // apply weights to output
-    int current_m_block,   // current m block to start kernel computation from
-    int max_par,           // maximum parallelism
-    int cfg_max_m_blocks   // upper bound on m blocks
-) {
-  // Marlin is not implemented yet for SM < 8.0
-  assert(false);
-  return;
-}
-
-#endif
-
-// 8 warps are a good choice since every SM has 4 schedulers and having more
-// than 1 warp per schedule allows some more latency hiding. At the same time,
-// we want relatively few warps to have many registers per warp and small tiles.
-const int USER_THREADS =
-    256;               // Note: This is only used with user-provided thread_k/n
-const int STAGES = 4;  // 4 pipeline stages fit into shared memory
-
-static constexpr int min_thread_n = 64;
-static constexpr int min_thread_k = 64;
-
-#define __CALL_IF_MOE(W_TYPE, THREAD_N_BLOCKS, THREAD_K_BLOCKS, HAS_ACT_ORDER, \
-                      HAS_ZP, GROUP_BLOCKS, NUM_THREADS)                       \
-  else if (q_type == W_TYPE && thread_n_blocks == THREAD_N_BLOCKS &&           \
-           thread_k_blocks == THREAD_K_BLOCKS &&                               \
-           has_act_order == HAS_ACT_ORDER && has_zp == HAS_ZP &&               \
-           group_blocks == GROUP_BLOCKS && num_threads == NUM_THREADS) {       \
-    cudaFuncSetAttribute(                                                      \
-        MarlinMoE<W_TYPE.id(), NUM_THREADS, THREAD_N_BLOCKS, THREAD_K_BLOCKS,  \
-                  STAGES, HAS_ACT_ORDER, HAS_ZP, GROUP_BLOCKS>,                \
-        cudaFuncAttributeMaxDynamicSharedMemorySize, max_shared_mem);          \
-    MarlinMoE<W_TYPE.id(), NUM_THREADS, THREAD_N_BLOCKS, THREAD_K_BLOCKS,      \
-              STAGES, HAS_ACT_ORDER, HAS_ZP, GROUP_BLOCKS>                     \
-        <<<blocks, NUM_THREADS, max_shared_mem, stream>>>(                     \
-            A_ptr, B_ptr, C_ptr, sorted_ids_ptr, topk_weights_ptr, s_ptr,      \
-            zp_ptr, g_idx_ptr, expert_offsets_ptr, num_groups, expert_idx,     \
-            num_experts, topk, prob_m, prob_n, prob_k, tot_m, locks,           \
-            replicate_input, apply_weights, m_block, max_par,                  \
-            cfg_max_m_blocks);                                                 \
-  }
-
-#define GPTQ_CALL_IF_MOE(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)          \
-  __CALL_IF_MOE(W_TYPE, N_BLOCKS, K_BLOCKS, true, false, 0, NUM_THREADS)   \
-  __CALL_IF_MOE(W_TYPE, N_BLOCKS, K_BLOCKS, false, false, -1, NUM_THREADS) \
-  __CALL_IF_MOE(W_TYPE, N_BLOCKS, K_BLOCKS, false, false, 2, NUM_THREADS)  \
-  __CALL_IF_MOE(W_TYPE, N_BLOCKS, K_BLOCKS, false, false, 4, NUM_THREADS)  \
-  __CALL_IF_MOE(W_TYPE, N_BLOCKS, K_BLOCKS, false, false, 8, NUM_THREADS)
-
-#define AWQ_CALL_IF_MOE(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)          \
-  __CALL_IF_MOE(W_TYPE, N_BLOCKS, K_BLOCKS, false, true, -1, NUM_THREADS) \
-  __CALL_IF_MOE(W_TYPE, N_BLOCKS, K_BLOCKS, false, true, 2, NUM_THREADS)  \
-  __CALL_IF_MOE(W_TYPE, N_BLOCKS, K_BLOCKS, false, true, 4, NUM_THREADS)  \
-  __CALL_IF_MOE(W_TYPE, N_BLOCKS, K_BLOCKS, false, true, 8, NUM_THREADS)
-
-}  // namespace marlin_moe
diff --git a/csrc/moe/marlin_kernels/marlin_moe_kernel_ku4.cu b/csrc/moe/marlin_kernels/marlin_moe_kernel_ku4.cu
deleted file mode 100644
index 77bc0dd90..000000000
--- a/csrc/moe/marlin_kernels/marlin_moe_kernel_ku4.cu
+++ /dev/null
@@ -1,31 +0,0 @@
-#include "marlin_moe_kernel_ku4.h"
-
-namespace marlin_moe {
-
-// We return bool so we can create these different kernel calls as a sequence
-// of if-elseif's.
-bool call_marlin_moe_kernel_ku4(
-    vllm::ScalarType const& q_type, int thread_n_blocks, int thread_k_blocks,
-    bool has_act_order, int group_blocks, int num_threads, int blocks,
-    int max_shared_mem, cudaStream_t stream, const int4* A_ptr,
-    const int4* B_ptr, int4* C_ptr, const int* sorted_ids_ptr,
-    const float* topk_weights_ptr, const int4* s_ptr, const int4* zp_ptr,
-    const int* g_idx_ptr, int* expert_offsets_ptr, int num_groups,
-    int expert_idx, int num_experts, int topk, int prob_m, int prob_n,
-    int prob_k, int tot_m, int* locks, bool replicate_input, bool apply_weights,
-    int m_block, int max_par, int cfg_max_m_blocks) {
-  bool has_zp = true;
-
-  if (false) {
-  }
-  AWQ_CALL_IF_MOE(vllm::kU4, 16, 4, 256)
-  AWQ_CALL_IF_MOE(vllm::kU4, 8, 8, 256)
-  AWQ_CALL_IF_MOE(vllm::kU4, 8, 4, 128)
-  AWQ_CALL_IF_MOE(vllm::kU4, 4, 8, 128)
-  else {
-    return false;
-  }
-  return true;
-}
-
-}  // namespace marlin_moe
diff --git a/csrc/moe/marlin_kernels/marlin_moe_kernel_ku4.h b/csrc/moe/marlin_kernels/marlin_moe_kernel_ku4.h
deleted file mode 100644
index 833fadf37..000000000
--- a/csrc/moe/marlin_kernels/marlin_moe_kernel_ku4.h
+++ /dev/null
@@ -1,20 +0,0 @@
-#pragma once
-
-#include "marlin_moe_kernel.h"
-
-namespace marlin_moe {
-
-// We return bool so we can create these different kernel calls as a sequence
-// of if-elseif's.
-bool call_marlin_moe_kernel_ku4(
-    vllm::ScalarType const& q_type, int thread_n_blocks, int thread_k_blocks,
-    bool has_act_order, int group_blocks, int num_threads, int blocks,
-    int max_shared_mem, cudaStream_t stream, const int4* A_ptr,
-    const int4* B_ptr, int4* C_ptr, const int* sorted_ids_ptr,
-    const float* topk_weights_ptr, const int4* s_ptr, const int4* zp_ptr,
-    const int* g_idx_ptr, int* expert_offsets_ptr, int num_groups,
-    int expert_idx, int num_experts, int topk, int prob_m, int prob_n,
-    int prob_k, int tot_m, int* locks, bool replicate_input, bool apply_weights,
-    int m_block, int max_par, int cfg_max_m_blocks);
-
-}  // namespace marlin_moe
diff --git a/csrc/moe/marlin_kernels/marlin_moe_kernel_ku4b8.cu b/csrc/moe/marlin_kernels/marlin_moe_kernel_ku4b8.cu
deleted file mode 100644
index f7e57b037..000000000
--- a/csrc/moe/marlin_kernels/marlin_moe_kernel_ku4b8.cu
+++ /dev/null
@@ -1,31 +0,0 @@
-#include "marlin_moe_kernel_ku4b8.h"
-
-namespace marlin_moe {
-
-// We return bool so we can create these different kernel calls as a sequence
-// of if-elseif's.
-bool call_marlin_moe_kernel_ku4b8(
-    vllm::ScalarType const& q_type, int thread_n_blocks, int thread_k_blocks,
-    bool has_act_order, int group_blocks, int num_threads, int blocks,
-    int max_shared_mem, cudaStream_t stream, const int4* A_ptr,
-    const int4* B_ptr, int4* C_ptr, const int* sorted_ids_ptr,
-    const float* topk_weights_ptr, const int4* s_ptr, const int4* zp_ptr,
-    const int* g_idx_ptr, int* expert_offsets_ptr, int num_groups,
-    int expert_idx, int num_experts, int topk, int prob_m, int prob_n,
-    int prob_k, int tot_m, int* locks, bool replicate_input, bool apply_weights,
-    int m_block, int max_par, int cfg_max_m_blocks) {
-  bool has_zp = false;
-
-  if (false) {
-  }
-  GPTQ_CALL_IF_MOE(vllm::kU4B8, 16, 4, 256)
-  GPTQ_CALL_IF_MOE(vllm::kU4B8, 8, 8, 256)
-  GPTQ_CALL_IF_MOE(vllm::kU4B8, 8, 4, 128)
-  GPTQ_CALL_IF_MOE(vllm::kU4B8, 4, 8, 128)
-  else {
-    return false;
-  }
-  return true;
-}
-
-}  // namespace marlin_moe
diff --git a/csrc/moe/marlin_kernels/marlin_moe_kernel_ku4b8.h b/csrc/moe/marlin_kernels/marlin_moe_kernel_ku4b8.h
deleted file mode 100644
index 494da8f10..000000000
--- a/csrc/moe/marlin_kernels/marlin_moe_kernel_ku4b8.h
+++ /dev/null
@@ -1,20 +0,0 @@
-#pragma once
-
-#include "marlin_moe_kernel.h"
-
-namespace marlin_moe {
-
-// We return bool so we can create these different kernel calls as a sequence
-// of if-elseif's.
-bool call_marlin_moe_kernel_ku4b8(
-    vllm::ScalarType const& q_type, int thread_n_blocks, int thread_k_blocks,
-    bool has_act_order, int group_blocks, int num_threads, int blocks,
-    int max_shared_mem, cudaStream_t stream, const int4* A_ptr,
-    const int4* B_ptr, int4* C_ptr, const int* sorted_ids_ptr,
-    const float* topk_weights_ptr, const int4* s_ptr, const int4* zp_ptr,
-    const int* g_idx_ptr, int* expert_offsets_ptr, int num_groups,
-    int expert_idx, int num_experts, int topk, int prob_m, int prob_n,
-    int prob_k, int tot_m, int* locks, bool replicate_input, bool apply_weights,
-    int m_block, int max_par, int cfg_max_m_blocks);
-
-}  // namespace marlin_moe
diff --git a/csrc/moe/marlin_kernels/marlin_moe_kernel_ku8b128.cu b/csrc/moe/marlin_kernels/marlin_moe_kernel_ku8b128.cu
deleted file mode 100644
index a901f0b11..000000000
--- a/csrc/moe/marlin_kernels/marlin_moe_kernel_ku8b128.cu
+++ /dev/null
@@ -1,31 +0,0 @@
-#include "marlin_moe_kernel_ku8b128.h"
-
-namespace marlin_moe {
-
-// We return bool so we can create these different kernel calls as a sequence
-// of if-elseif's.
-bool call_marlin_moe_kernel_ku8b128(
-    vllm::ScalarType const& q_type, int thread_n_blocks, int thread_k_blocks,
-    bool has_act_order, int group_blocks, int num_threads, int blocks,
-    int max_shared_mem, cudaStream_t stream, const int4* A_ptr,
-    const int4* B_ptr, int4* C_ptr, const int* sorted_ids_ptr,
-    const float* topk_weights_ptr, const int4* s_ptr, const int4* zp_ptr,
-    const int* g_idx_ptr, int* expert_offsets_ptr, int num_groups,
-    int expert_idx, int num_experts, int topk, int prob_m, int prob_n,
-    int prob_k, int tot_m, int* locks, bool replicate_input, bool apply_weights,
-    int m_block, int max_par, int cfg_max_m_blocks) {
-  bool has_zp = false;
-
-  if (false) {
-  }
-  GPTQ_CALL_IF_MOE(vllm::kU8B128, 16, 4, 256)
-  GPTQ_CALL_IF_MOE(vllm::kU8B128, 8, 8, 256)
-  GPTQ_CALL_IF_MOE(vllm::kU8B128, 8, 4, 128)
-  GPTQ_CALL_IF_MOE(vllm::kU8B128, 4, 8, 128)
-  else {
-    return false;
-  }
-  return true;
-}
-
-}  // namespace marlin_moe
diff --git a/csrc/moe/marlin_kernels/marlin_moe_kernel_ku8b128.h b/csrc/moe/marlin_kernels/marlin_moe_kernel_ku8b128.h
deleted file mode 100644
index f3018aa0c..000000000
--- a/csrc/moe/marlin_kernels/marlin_moe_kernel_ku8b128.h
+++ /dev/null
@@ -1,18 +0,0 @@
-#pragma once
-
-#include "marlin_moe_kernel.h"
-
-namespace marlin_moe {
-
-bool call_marlin_moe_kernel_ku8b128(
-    vllm::ScalarType const& q_type, int thread_n_blocks, int thread_k_blocks,
-    bool has_act_order, int group_blocks, int num_threads, int blocks,
-    int max_shared_mem, cudaStream_t stream, const int4* A_ptr,
-    const int4* B_ptr, int4* C_ptr, const int* sorted_ids_ptr,
-    const float* topk_weights_ptr, const int4* s_ptr, const int4* zp_ptr,
-    const int* g_idx_ptr, int* expert_offsets_ptr, int num_groups,
-    int expert_idx, int num_experts, int topk, int prob_m, int prob_n,
-    int prob_k, int tot_m, int* locks, bool replicate_input, bool apply_weights,
-    int m_block, int max_par, int cfg_max_m_blocks);
-
-}
diff --git a/csrc/moe/marlin_moe_ops.cu b/csrc/moe/marlin_moe_ops.cu
deleted file mode 100644
index 5f12483e9..000000000
--- a/csrc/moe/marlin_moe_ops.cu
+++ /dev/null
@@ -1,588 +0,0 @@
-/*
- * Modified by Neural Magic
- * Copyright (C) Marlin.2024 Elias Frantar
- *
- * Licensed under the Apache License, Version 2.0 (the "License");
- * you may not use this file except in compliance with the License.
- * You may obtain a copy of the License at
- *
- *         http://www.apache.org/licenses/LICENSE-2.0
- *
- * Unless required by applicable law or agreed to in writing, software
- * distributed under the License is distributed on an "AS IS" BASIS,
- * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
- * See the License for the specific language governing permissions and
- * limitations under the License.
- */
-
-#include <torch/all.h>
-
-#include <ATen/cuda/CUDAContext.h>
-#include <c10/cuda/CUDAGuard.h>
-#include <cuda.h>
-#include <cuda_fp16.h>
-#include <cuda_runtime.h>
-
-#include <iostream>
-
-#include "core/exception.hpp"
-#include "core/scalar_type.hpp"
-#include "core/registration.h"
-#include "marlin_kernels/marlin_moe_kernel_ku4b8.h"
-#include "marlin_kernels/marlin_moe_kernel_ku8b128.h"
-#include "marlin_kernels/marlin_moe_kernel_ku4.h"
-
-template <typename T>
-inline std::string str(T x) {
-  return std::to_string(x);
-}
-
-namespace marlin_moe {
-
-#if defined(__CUDA_ARCH__) && __CUDA_ARCH__ >= 800
-
-// For a given "a" of size [M,K] performs a permutation of the K columns based
-// on the given "perm" indices.
-__global__ void permute_cols_kernel(int4 const* __restrict__ a_int4_ptr,
-                                    int const* __restrict__ perm_int_ptr,
-                                    int4* __restrict__ out_int4_ptr, int size_m,
-                                    int size_k, int block_rows) {
-  int start_row = block_rows * blockIdx.x;
-  int finish_row = start_row + block_rows;
-  if (finish_row > size_m) {
-    finish_row = size_m;
-  }
-  int cur_block_rows = finish_row - start_row;
-
-  int row_stride = size_k * sizeof(half) / 16;
-
-  auto permute_row = [&](int row) {
-    int iters = size_k / blockDim.x;
-    int rest = size_k % blockDim.x;
-
-    int offset = row * row_stride;
-
-    half const* a_row_half = reinterpret_cast<half const*>(a_int4_ptr + offset);
-    half* out_half = reinterpret_cast<half*>(out_int4_ptr + offset);
-
-    int base_k = 0;
-
-    for (int i = 0; i < iters; i++) {
-      int cur_k = base_k + threadIdx.x;
-      int src_pos = perm_int_ptr[cur_k];
-
-      out_half[cur_k] = a_row_half[src_pos];
-
-      base_k += blockDim.x;
-    }
-
-    if (rest) {
-      if (threadIdx.x < rest) {
-        int cur_k = base_k + threadIdx.x;
-        int src_pos = perm_int_ptr[cur_k];
-
-        out_half[cur_k] = a_row_half[src_pos];
-      }
-    }
-  };
-
-  for (int i = 0; i < cur_block_rows; i++) {
-    int cur_row = start_row + i;
-    if (cur_row < size_m) {
-      permute_row(cur_row);
-    }
-  }
-}
-
-__global__ void compute_expert_offsets(int const* __restrict__ topk_ids,
-                                       int* __restrict__ expert_offsets,
-                                       int topk_length, int block_size) {
-  int expert_id = threadIdx.x;
-  int num_experts = blockDim.x;
-
-  int occurrences = 0;
-  for (int i = 0; i < topk_length; ++i) {
-    occurrences += (topk_ids[i] == expert_id);
-  }
-  expert_offsets[expert_id + 1] = occurrences;
-  __syncthreads();
-
-  if (threadIdx.x == 0) {
-    int tot_offset = 0;
-    expert_offsets[0] = 0;
-    for (int i = 0; i < num_experts; ++i) {
-      tot_offset += ceildiv(expert_offsets[i + 1], block_size) * block_size;
-      expert_offsets[i + 1] = tot_offset;
-    }
-  }
-  __syncthreads();
-}
-
-#else
-
-__global__ void permute_cols_kernel(int4 const* __restrict__ a_int4_ptr,
-                                    int const* __restrict__ perm_int_ptr,
-                                    int4* __restrict__ out_int4_ptr, int size_m,
-                                    int size_k, int block_rows) {
-  // Marlin is not implemented yet for SM < 8.0
-  assert(false);
-  return;
-}
-
-__global__ void compute_expert_offsets(int const* __restrict__ topk_ids,
-                                       int* __restrict__ expert_offsets,
-                                       int topk_length, int block_size) {
-  // Marlin is not implemented yet for SM < 8.0
-  assert(false);
-  return;
-}
-
-#endif
-
-typedef struct {
-  int thread_k;
-  int thread_n;
-  int num_threads;
-} thread_config_t;
-
-typedef struct {
-  int max_m_blocks;
-  thread_config_t tb_cfg;
-} exec_config_t;
-
-thread_config_t small_batch_thread_configs[] = {
-    // Ordered by priority
-
-    // thread_k, thread_n, num_threads
-    {128, 128, 256},  // Default
-    {128, 64, 128},   // Reduce N 2X, same K
-    {64, 256, 256},   // Reduce K 2X, increase N 2X
-    {64, 128, 128},   // Reduce K 2X, same N
-    {64, 64, 128},    // Reduce both 2X
-};
-
-thread_config_t large_batch_thread_configs[] = {
-    // Ordered by priority
-
-    // thread_k, thread_n, num_threads
-    {64, 256, 256},   // Default
-    {128, 128, 256},  // Reduce N 2X, increase K 2X
-    {64, 128, 128},   // Reduce N 2X, same K
-    {128, 64, 128},   // Reduce N 4X, increase K 2X
-    {64, 64, 128},    // Reduce N 4X, same K
-};
-
-int get_scales_cache_size(thread_config_t const& th_config, int prob_m,
-                          int prob_n, int prob_k, int num_bits, int group_size,
-                          bool has_act_order, bool is_k_full) {
-  bool cache_scales_chunk = has_act_order && !is_k_full;
-
-  int tb_n = th_config.thread_n;
-  int tb_k = th_config.thread_k;
-
-  // Get max scale groups per thread-block
-  int tb_groups;
-  if (group_size == -1) {
-    tb_groups = 1;
-  } else if (group_size == 0) {
-    tb_groups = ceildiv(tb_k, 32);  // Worst case is 32 group size
-  } else {
-    tb_groups = ceildiv(tb_k, group_size);
-  }
-
-  if (cache_scales_chunk) {
-    int load_groups =
-        tb_groups * STAGES * 2;          // Chunk size is 2x pipeline over dim K
-    load_groups = max(load_groups, 32);  // We load at least 32 scale groups
-    return load_groups * tb_n * 4;
-
-  } else {
-    int tb_scales = tb_groups * tb_n * 2;
-
-    return tb_scales * STAGES;
-  }
-}
-
-bool is_valid_cache_size(thread_config_t const& th_config, int max_m_blocks,
-                         int prob_m, int prob_n, int prob_k, int num_bits,
-                         int scales_cache_size, int max_shared_mem) {
-  int pack_factor = 32 / num_bits;
-
-  // Get B size
-  int tb_k = th_config.thread_k;
-  int tb_n = th_config.thread_n;
-
-  int b_size = (tb_k * tb_n / pack_factor) * 4;
-
-  // Get A size
-  int m_blocks = ceildiv(prob_m, 16);
-  int tb_max_m = 16;
-
-  while (true) {
-    if (m_blocks >= max_m_blocks) {
-      tb_max_m *= max_m_blocks;
-      break;
-    }
-
-    max_m_blocks--;
-    if (max_m_blocks == 0) {
-      TORCH_CHECK(false, "Unexpected m_blocks = ", m_blocks);
-    }
-  }
-
-  int a_size = (tb_max_m * tb_k) * 2;
-
-  float pipe_size = (a_size + b_size) * STAGES;
-
-  TORCH_CHECK(max_shared_mem / 2 > scales_cache_size);  // Sanity
-
-  return pipe_size < 0.95f * (max_shared_mem - scales_cache_size);
-}
-
-bool is_valid_config(thread_config_t const& th_config, int max_m_blocks,
-                     int prob_m, int prob_n, int prob_k, int num_bits,
-                     int group_size, bool has_act_order, bool is_k_full,
-                     int max_shared_mem) {
-  // Sanity
-  if (th_config.thread_k == -1 || th_config.thread_n == -1 ||
-      th_config.num_threads == -1) {
-    return false;
-  }
-
-  // Verify K/N are divisible by thread K/N
-  if (prob_k % th_config.thread_k != 0 || prob_n % th_config.thread_n != 0) {
-    return false;
-  }
-
-  // thread_k can be only 128 or 64 (because it must be less than groupsize
-  // which is 128)
-  if (th_config.thread_k != 128 && th_config.thread_k != 64) {
-    return false;
-  }
-
-  // Verify min for thread K/N
-  if (th_config.thread_n < min_thread_n || th_config.thread_k < min_thread_k) {
-    return false;
-  }
-
-  // num_threads must be at least 128 (= 4 warps)
-  if (th_config.num_threads < 128) {
-    return false;
-  }
-
-  //  Determine cache for scales
-  int scales_cache_size =
-      get_scales_cache_size(th_config, prob_m, prob_n, prob_k, num_bits,
-                            group_size, has_act_order, is_k_full);
-
-  // Check that pipeline fits into cache
-  if (!is_valid_cache_size(th_config, max_m_blocks, prob_m, prob_n, prob_k,
-                           num_bits, scales_cache_size, max_shared_mem)) {
-    return false;
-  }
-
-  return true;
-}
-
-exec_config_t determine_thread_config(int prob_m, int prob_n, int prob_k,
-                                      int num_bits, int group_size,
-                                      bool has_act_order, bool is_k_full,
-                                      int max_shared_mem) {
-  int max_m_blocks = 4;
-  while (max_m_blocks > 0) {
-    if (prob_m <= 16) {
-      for (auto th_config : small_batch_thread_configs) {
-        if (is_valid_config(th_config, max_m_blocks, prob_m, prob_n, prob_k,
-                            num_bits, group_size, has_act_order, is_k_full,
-                            max_shared_mem)) {
-          return exec_config_t{max_m_blocks, th_config};
-        }
-      }
-    } else {
-      for (auto th_config : large_batch_thread_configs) {
-        if (is_valid_config(th_config, max_m_blocks, prob_m, prob_n, prob_k,
-                            num_bits, group_size, has_act_order, is_k_full,
-                            max_shared_mem)) {
-          return exec_config_t{max_m_blocks, th_config};
-        }
-      }
-    }
-
-    max_m_blocks--;  // Process less M blocks per invocation to reduce cache
-                     // usage
-  }
-
-  return exec_config_t{0, {-1, -1, -1}};
-}
-
-#define CALL_MOE_KERNEL_FUNCTION(KERNEL_FUNCTION)                             \
-  else if (KERNEL_FUNCTION(                                                   \
-               q_type, thread_n_blocks, thread_k_blocks, has_act_order,       \
-               group_blocks, num_threads, blocks, max_shared_mem, stream,     \
-               A_ptr, B_ptr, C_ptr, sorted_ids_ptr, topk_weights_ptr, s_ptr,  \
-               zp_ptr, g_idx_ptr, expert_offsets_ptr, num_groups, expert_idx, \
-               num_experts, topk, prob_m, prob_n, prob_k, tot_m, locks,       \
-               replicate_input, apply_weights, m_block, max_par,              \
-               exec_cfg.max_m_blocks)) {                                      \
-  }
-
-void marlin_mm_moe(const void* A, const void* B, void* C,
-                   const void* sorted_ids, const void* topk_weights,
-                   const void* topk_ids, const void* s, void* zp,
-                   const void* g_idx, const void* perm, void* a_tmp,
-                   void* expert_offsets, int prob_m, int prob_n, int prob_k,
-                   void* workspace, vllm::ScalarType const& q_type,
-                   bool has_act_order, bool is_k_full, bool has_zp,
-                   int num_groups, int group_size, int num_experts, int topk,
-                   int moe_block_size, int dev, cudaStream_t stream,
-                   int thread_k, int thread_n, int sms, int max_par,
-                   bool replicate_input, bool apply_weights) {
-  TORCH_CHECK(prob_m > 0 && prob_n > 0 && prob_k > 0, "Invalid MNK = [", prob_m,
-              ", ", prob_n, ", ", prob_k, "]");
-
-  if (sms == -1) {
-    cudaDeviceGetAttribute(&sms, cudaDevAttrMultiProcessorCount, dev);
-  }
-
-  int max_shared_mem = 0;
-  cudaDeviceGetAttribute(&max_shared_mem,
-                         cudaDevAttrMaxSharedMemoryPerBlockOptin, dev);
-  TORCH_CHECK(max_shared_mem > 0);
-
-  int num_bits = q_type.size_bits();
-
-  // Set thread config
-  exec_config_t exec_cfg;
-  if (thread_k != -1 && thread_n != -1) {
-    // User-defined config
-    exec_cfg =
-        exec_config_t{4, thread_config_t{thread_k, thread_n, USER_THREADS}};
-  } else {
-    // Auto config
-    exec_cfg =
-        determine_thread_config(prob_m, prob_n, prob_k, num_bits, group_size,
-                                has_act_order, is_k_full, max_shared_mem);
-  }
-
-  TORCH_CHECK(exec_cfg.max_m_blocks > 0 &&
-                  is_valid_config(exec_cfg.tb_cfg, exec_cfg.max_m_blocks,
-                                  prob_m, prob_n, prob_k, num_bits, group_size,
-                                  has_act_order, is_k_full, max_shared_mem),
-              "Invalid thread config: max_m_blocks = ", exec_cfg.max_m_blocks,
-              ", thread_k = ", exec_cfg.tb_cfg.thread_k,
-              ", thread_n = ", exec_cfg.tb_cfg.thread_n,
-              ", num_threads = ", exec_cfg.tb_cfg.num_threads, " for MKN = [",
-              prob_m, ", ", prob_k, ", ", prob_n, "] and num_bits = ", num_bits,
-              ", group_size = ", group_size,
-              ", has_act_order = ", has_act_order, ", is_k_full = ", is_k_full,
-              ", max_shared_mem = ", max_shared_mem);
-
-  int num_threads = exec_cfg.tb_cfg.num_threads;
-  thread_k = exec_cfg.tb_cfg.thread_k;
-  thread_n = exec_cfg.tb_cfg.thread_n;
-
-  int thread_k_blocks = thread_k / 16;
-  int thread_n_blocks = thread_n / 16;
-
-  int blocks = sms;
-
-  TORCH_CHECK(prob_n % thread_n == 0, "prob_n = ", prob_n,
-              " is not divisible by thread_n = ", thread_n);
-  TORCH_CHECK(prob_k % thread_k == 0, "prob_k = ", prob_k,
-              " is not divisible by thread_k = ", thread_k);
-
-  int group_blocks = 0;
-  if (has_act_order) {
-    if (is_k_full) {
-      TORCH_CHECK(group_size != -1);
-      group_blocks = group_size / 16;
-      TORCH_CHECK(prob_k % group_blocks == 0, "prob_k = ", prob_k,
-                  " is not divisible by group_blocks = ", group_blocks);
-    } else {
-      TORCH_CHECK(group_size == 0);
-      group_blocks = 0;
-    }
-
-  } else {
-    if (group_size == -1) {
-      group_blocks = -1;
-    } else {
-      group_blocks = group_size / 16;
-      TORCH_CHECK(prob_k % group_blocks == 0, "prob_k = ", prob_k,
-                  " is not divisible by group_blocks = ", group_blocks);
-    }
-  }
-
-  int tot_m = prob_m;
-
-  const int* topk_ids_ptr = (const int*)topk_ids;
-  int* expert_offsets_ptr = (int*)expert_offsets;
-  compute_expert_offsets<<<1, num_experts, 0, stream>>>(
-      topk_ids_ptr, expert_offsets_ptr, tot_m * topk, moe_block_size);
-
-  bool do_permute_a = has_act_order;
-
-  // If we have a full K, then we can run the non-act-order version of Marlin
-  // (since the weight rows are reordered by increasing group ids, and by
-  // having a full K, we have full original groups)
-  if (is_k_full) {
-    has_act_order = false;
-  }
-
-  int pack_factor = 32 / q_type.size_bits();
-
-  for (int expert_idx = 0; expert_idx < num_experts; ++expert_idx) {
-    const int4* A_ptr = (const int4*)A;
-    int4* a_tmp_ptr = (int4*)a_tmp;
-    const int4* B_ptr =
-        (const int4*)B + (prob_n * prob_k / (pack_factor * 4)) * expert_idx;
-    int4* C_ptr = (int4*)C;
-    const float* topk_weights_ptr = (const float*)topk_weights;
-    const int* sorted_ids_ptr = (const int*)sorted_ids;
-    const int4* s_ptr = (const int4*)s + num_groups * prob_n / 8 * expert_idx;
-    const int4* zp_ptr =
-        (const int4*)zp + num_groups * prob_n / (pack_factor * 4) * expert_idx;
-    const int* g_idx_ptr = (const int*)g_idx + prob_k * expert_idx;
-    const int* perm_ptr = (const int*)perm + prob_k * expert_idx;
-    int* locks = (int*)workspace;
-
-    if (do_permute_a) {
-      // Permute A columns
-      int topk_rows = replicate_input ? tot_m : tot_m * topk;
-      int block_rows = ceildiv(topk_rows, blocks);
-      permute_cols_kernel<<<blocks, num_threads, 0, stream>>>(
-          A_ptr, perm_ptr, a_tmp_ptr, topk_rows, prob_k, block_rows);
-      A_ptr = a_tmp_ptr;
-    }
-
-    int tot_m_blocks = ceildiv(tot_m, 16);
-    for (int m_block = 0; m_block < tot_m_blocks;
-         m_block += 4 * exec_cfg.max_m_blocks) {
-      if (false) {
-      }
-      CALL_MOE_KERNEL_FUNCTION(call_marlin_moe_kernel_ku4b8)
-      CALL_MOE_KERNEL_FUNCTION(call_marlin_moe_kernel_ku8b128)
-      CALL_MOE_KERNEL_FUNCTION(call_marlin_moe_kernel_ku4)
-      else {
-        TORCH_CHECK(false, "Unsupported shapes: MNK = [" + str(prob_m) + ", " +
-                               str(prob_n) + ", " + str(prob_k) + "]" +
-                               ", has_act_order = " + str(has_act_order) +
-                               ", num_groups = " + str(num_groups) +
-                               ", group_size = " + str(group_size) +
-                               ", thread_n_blocks = " + str(thread_n_blocks) +
-                               ", thread_k_blocks = " + str(thread_k_blocks));
-      }
-    }
-  }
-}
-
-}  // namespace marlin_moe
-
-torch::Tensor marlin_gemm_moe(
-    const torch::Tensor& a, const torch::Tensor& b_q_weights,
-    const torch::Tensor& sorted_ids, const torch::Tensor& topk_weights,
-    const torch::Tensor& topk_ids, const torch::Tensor& b_scales,
-    torch::Tensor& b_zeros, const torch::Tensor& g_idx,
-    const torch::Tensor& perm, torch::Tensor& workspace,
-    vllm::ScalarTypeId const b_q_type_id, int64_t size_m, int64_t size_n,
-    int64_t size_k, bool is_k_full, int64_t num_experts, int64_t topk,
-    int64_t moe_block_size, bool replicate_input, bool apply_weights) {
-  vllm::ScalarType const b_q_type = vllm::ScalarType::from_id(b_q_type_id);
-  bool has_zp = b_zeros.size(1) != 0;
-  if (has_zp) {
-    TORCH_CHECK(
-        b_q_type == vllm::kU4,
-        "b_q_type must be u4 when has_zp = True. Got = ", b_q_type.str());
-  } else {
-    TORCH_CHECK(
-        b_q_type == vllm::kU4B8 || b_q_type == vllm::kU8B128,
-        "b_q_type must be uint4b8 or uint8b128. Got = ", b_q_type.str());
-  }
-
-  int pack_factor = 32 / b_q_type.size_bits();
-
-  int max_par = 4;
-
-  int dev = a.get_device();
-
-  auto options_dtype =
-      torch::TensorOptions().dtype(a.dtype()).device(a.device());
-  auto options_int =
-      torch::TensorOptions().dtype(torch::kInt).device(a.device());
-  torch::Tensor c = torch::zeros({size_m, topk, size_n}, options_dtype);
-  torch::Tensor a_tmp =
-      replicate_input ? torch::zeros({size_m, size_k}, options_dtype)
-                      : torch::zeros({size_m, topk, size_k}, options_dtype);
-  torch::Tensor expert_offsets = torch::empty({num_experts + 1}, options_int);
-
-  // thread_k: `k` size of a thread_tile in `weights` (can usually be left as
-  // auto -1)
-  int thread_k = -1;
-  // thread_n: `n` size of a thread_tile in `weights` (can usually be left as
-  // auto -1)
-  int thread_n = -1;
-  // sms: number of SMs to use for the kernel (can usually be left as auto -1)
-  int sms = -1;
-
-  // Detect groupsize and act_order
-  int num_groups = -1;
-  int group_size = -1;
-  bool has_act_order = g_idx.size(1) != 0;
-
-  int b_rank = b_scales.sizes().size();
-  TORCH_CHECK(b_rank == 3, "b_scales rank = ", b_rank, " is not 3");
-  TORCH_CHECK(b_scales.size(2) == size_n, "b_scales dim 2 = ", b_scales.size(2),
-              " is not size_n = ", size_n);
-  num_groups = b_scales.size(1);
-
-  TORCH_CHECK(VLLM_IMPLIES(!is_k_full, has_act_order),
-              "if is_k_full is false, has_act_order must be true");
-
-  if (has_act_order) {
-    if (is_k_full) {
-      TORCH_CHECK(num_groups > 1, "For act_order, num_groups must be > 1");
-      TORCH_CHECK(size_k % num_groups == 0, "size_k = ", size_k,
-                  ", is not divisible by num_groups = ", num_groups);
-      group_size = size_k / num_groups;
-    } else {
-      group_size = 0;
-    }
-
-  } else {
-    if (num_groups > 1) {
-      TORCH_CHECK(
-          size_k % num_groups == 0, "size_k = ", size_k,
-          ", is not divisible by b_scales.size(0) = ", b_scales.size(0));
-      group_size = size_k / num_groups;
-    } else {
-      group_size = -1;
-    }
-  }
-
-  // Verify b_zeros
-  if (has_zp) {
-    int rank = b_zeros.sizes().size();
-    TORCH_CHECK(rank == 3, "b_zeros rank = ", rank, " is not 3");
-    TORCH_CHECK(b_zeros.size(1) == num_groups,
-                "b_zeros dim 1 = ", b_zeros.size(1),
-                " is not num_groups = ", num_groups);
-    TORCH_CHECK(b_zeros.size(2) == size_n / pack_factor,
-                "b_zeros dim 2 = ", b_zeros.size(2),
-                " is not size_n / pack_factor = ", size_n / pack_factor);
-  }
-
-  marlin_moe::marlin_mm_moe(
-      a.data_ptr(), b_q_weights.data_ptr(), c.data_ptr(), sorted_ids.data_ptr(),
-      topk_weights.data_ptr(), topk_ids.data_ptr(), b_scales.data_ptr(),
-      b_zeros.data_ptr(), g_idx.data_ptr(), perm.data_ptr(), a_tmp.data_ptr(),
-      expert_offsets.data_ptr(), size_m, size_n, size_k, workspace.data_ptr(),
-      b_q_type, has_act_order, is_k_full, has_zp, num_groups, group_size,
-      num_experts, topk, moe_block_size, dev,
-      at::cuda::getCurrentCUDAStream(dev), thread_k, thread_n, sms, max_par,
-      replicate_input, apply_weights);
-  return c;
-}
-
-TORCH_LIBRARY_IMPL_EXPAND(TORCH_EXTENSION_NAME, CUDA, m) {
-  m.impl("marlin_gemm_moe", &marlin_gemm_moe);
-}
diff --git a/csrc/quantization/fp8/fp8_marlin.cu b/csrc/quantization/fp8/fp8_marlin.cu
deleted file mode 100644
index 376bbd498..000000000
--- a/csrc/quantization/fp8/fp8_marlin.cu
+++ /dev/null
@@ -1,1311 +0,0 @@
-/*
- * Modified by Neural Magic
- * Copyright (C) Marlin.2024 Elias Frantar
- *
- * Licensed under the Apache License, Version 2.0 (the "License");
- * you may not use this file except in compliance with the License.
- * You may obtain a copy of the License at
- *
- *         http://www.apache.org/licenses/LICENSE-2.0
- *
- * Unless required by applicable law or agreed to in writing, software
- * distributed under the License is distributed on an "AS IS" BASIS,
- * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
- * See the License for the specific language governing permissions and
- * limitations under the License.
- */
-
-/*
- * Adapted from https://github.com/IST-DASLab/marlin
- */
-
-#include "../gptq_marlin/marlin.cuh"
-#include "../gptq_marlin/marlin_dtypes.cuh"
-
-#include "core/registration.h"
-
-using namespace marlin;
-
-#define STATIC_ASSERT_SCALAR_TYPE_VALID(scalar_t)               \
-  static_assert(std::is_same<scalar_t, half>::value ||          \
-                    std::is_same<scalar_t, nv_bfloat16>::value, \
-                "only float16 and bfloat16 is supported");
-
-template <typename T>
-inline std::string str(T x) {
-  return std::to_string(x);
-}
-
-namespace fp8_marlin {
-
-#if defined(__CUDA_ARCH__) && __CUDA_ARCH__ < 800
-
-template <typename scalar_t,          // compute dtype, half or nv_float16
-          const int num_bits,         // number of bits used for weights
-          const int threads,          // number of threads in a threadblock
-          const int thread_m_blocks,  // number of 16x16 blocks in the m
-                                      // dimension (batchsize) of the
-                                      // threadblock
-          const int thread_n_blocks,  // same for n dimension (output)
-          const int thread_k_blocks,  // same for k dimension (reduction)
-          const int stages,  // number of stages for the async global->shared
-                             // fetch pipeline
-          const int group_blocks = -1  // number of consecutive 16x16 blocks
-                                       // with a separate quantization scale
-          >
-__global__ void Marlin(
-    const int4* __restrict__ A,  // fp16 input matrix of shape mxk
-    const int4* __restrict__ B,  // 4bit quantized weight matrix of shape kxn
-    int4* __restrict__ C,        // fp16 output buffer of shape mxn
-    const int4* __restrict__ scales_ptr,  // fp16 quantization scales of shape
-                                          // (k/groupsize)xn
-    int num_groups,  // number of scale groups per output channel
-    int prob_m,      // batch dimension m
-    int prob_n,      // output dimension n
-    int prob_k,      // reduction dimension k
-    int* locks       // extra global storage for barrier synchronization
-) {}
-
-}  // namespace fp8_marlin
-
-torch::Tensor fp8_marlin_gemm(torch::Tensor& a, torch::Tensor& b_q_weight,
-                              torch::Tensor& b_scales, torch::Tensor& workspace,
-                              int64_t num_bits, int64_t size_m, int64_t size_n,
-                              int64_t size_k) {
-  TORCH_CHECK_NOT_IMPLEMENTED(false,
-                              "marlin_gemm(..) requires CUDA_ARCH >= 8.0");
-  return torch::empty({1, 1});
-}
-
-#else
-
-// m16n8k16 tensor core mma instruction with fp16 inputs and fp32
-// output/accumulation.
-template <typename scalar_t>
-__device__ inline void mma(const typename ScalarType<scalar_t>::FragA& a_frag,
-                           const typename ScalarType<scalar_t>::FragB& frag_b,
-                           typename ScalarType<scalar_t>::FragC& frag_c) {
-  const uint32_t* a = reinterpret_cast<const uint32_t*>(&a_frag);
-  const uint32_t* b = reinterpret_cast<const uint32_t*>(&frag_b);
-  float* c = reinterpret_cast<float*>(&frag_c);
-  if constexpr (std::is_same<scalar_t, half>::value) {
-    asm volatile(
-        "mma.sync.aligned.m16n8k16.row.col.f32.f16.f16.f32 "
-        "{%0,%1,%2,%3}, {%4,%5,%6,%7}, {%8,%9}, {%10,%11,%12,%13};\n"
-        : "=f"(c[0]), "=f"(c[1]), "=f"(c[2]), "=f"(c[3])
-        : "r"(a[0]), "r"(a[1]), "r"(a[2]), "r"(a[3]), "r"(b[0]), "r"(b[1]),
-          "f"(c[0]), "f"(c[1]), "f"(c[2]), "f"(c[3]));
-  } else if constexpr (std::is_same<scalar_t, nv_bfloat16>::value) {
-    asm volatile(
-        "mma.sync.aligned.m16n8k16.row.col.f32.bf16.bf16.f32 "
-        "{%0,%1,%2,%3}, {%4,%5,%6,%7}, {%8,%9}, {%10,%11,%12,%13};\n"
-        : "=f"(c[0]), "=f"(c[1]), "=f"(c[2]), "=f"(c[3])
-        : "r"(a[0]), "r"(a[1]), "r"(a[2]), "r"(a[3]), "r"(b[0]), "r"(b[1]),
-          "f"(c[0]), "f"(c[1]), "f"(c[2]), "f"(c[3]));
-  } else {
-    STATIC_ASSERT_SCALAR_TYPE_VALID(scalar_t);
-  }
-}
-
-// Instruction for loading a full 16x16 matrix fragment of operand A from shared
-// memory, directly in tensor core layout.
-template <typename scalar_t>
-__device__ inline void ldsm4(typename ScalarType<scalar_t>::FragA& frag_a,
-                             const void* smem_ptr) {
-  uint32_t* a = reinterpret_cast<uint32_t*>(&frag_a);
-  uint32_t smem = static_cast<uint32_t>(__cvta_generic_to_shared(smem_ptr));
-  asm volatile("ldmatrix.sync.aligned.m8n8.x4.shared.b16 {%0,%1,%2,%3}, [%4];\n"
-               : "=r"(a[0]), "=r"(a[1]), "=r"(a[2]), "=r"(a[3])
-               : "r"(smem));
-}
-
-// Fast FP8ToFp16/FP8ToBf16: Efficiently dequantize 8bit fp8_e4m3 values to fp16
-// bf16 Reference:
-// - FP16:
-// https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L53-L85
-// - BF16:
-// https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L125-L175
-template <typename scalar_t>
-__device__ inline typename ScalarType<scalar_t>::FragB dequant_8bit(int q) {
-  STATIC_ASSERT_SCALAR_TYPE_VALID(scalar_t);
-}
-
-template <>
-__device__ inline typename ScalarType<half>::FragB dequant_8bit<half>(int q) {
-  // Constants for FP8 (E4M3) and FP16 formats
-  constexpr int FP8_EXPONENT = 4, FP8_MANTISSA = 3, FP16_EXPONENT = 5;
-  constexpr int RIGHT_SHIFT = FP16_EXPONENT - FP8_EXPONENT;
-
-  // Calculate MASK for extracting mantissa and exponent
-  constexpr int MASK1 = 0x80000000;
-  constexpr int MASK2 = MASK1 >> (FP8_EXPONENT + FP8_MANTISSA);
-  constexpr int MASK3 = MASK2 & 0x7fffffff;
-  constexpr int MASK = MASK3 | (MASK3 >> 16);
-  // Final MASK value: 0x7F007F00
-
-  // Extract and shift FP8 values to FP16 format
-  int Out1 = (q & 0x80008000) | ((q & MASK) >> RIGHT_SHIFT);
-  int Out2 = ((q << 8) & 0x80008000) | (((q << 8) & MASK) >> RIGHT_SHIFT);
-
-  // Construct and apply exponent bias
-  constexpr int BIAS_OFFSET =
-      (1 << (FP16_EXPONENT - 1)) - (1 << (FP8_EXPONENT - 1));
-  const half2 bias_reg = __float2half2_rn(float(1 << BIAS_OFFSET));
-
-  // Convert to half2 and apply bias
-  typename ScalarType<half>::FragB frag_b;
-  // Note: reverse indexing is intentional because weights are permuted
-  frag_b[1] = __hmul2(*reinterpret_cast<const half2*>(&Out1), bias_reg);
-  frag_b[0] = __hmul2(*reinterpret_cast<const half2*>(&Out2), bias_reg);
-  return frag_b;
-}
-
-template <>
-__device__ inline typename ScalarType<nv_bfloat16>::FragB
-dequant_8bit<nv_bfloat16>(int q) {
-  // Constants for FP8 (E4M3) and BF16 formats
-  constexpr int FP8_EXPONENT = 4, FP8_MANTISSA = 3, BF16_EXPONENT = 8;
-  constexpr int RIGHT_SHIFT = BF16_EXPONENT - FP8_EXPONENT;
-
-  // Calculate MASK for extracting mantissa and exponent
-  constexpr int MASK1 = 0x80000000;
-  constexpr int MASK2 = MASK1 >> (FP8_EXPONENT + FP8_MANTISSA);
-  constexpr int MASK3 = MASK2 & 0x7fffffff;
-  constexpr int MASK = MASK3 | (MASK3 >> 16);
-  // Final MASK value: 0x7F007F00
-
-  // Extract and shift FP8 values to BF16 format
-  int Out1 = (q & 0x80008000) | ((q & MASK) >> RIGHT_SHIFT);
-  int Out2 = ((q << 8) & 0x80008000) | (((q << 8) & MASK) >> RIGHT_SHIFT);
-
-  // Construct and apply exponent bias
-  constexpr int BIAS_OFFSET =
-      (1 << (BF16_EXPONENT - 1)) - (1 << (FP8_EXPONENT - 1));
-  // Add 127 (float exponent bias) to BIAS_OFFSET and shift to float exponent
-  // position
-  constexpr uint32_t BIAS = (BIAS_OFFSET + 127) << 23;
-  const nv_bfloat162 bias_reg =
-      __float2bfloat162_rn(*reinterpret_cast<const float*>(&BIAS));
-
-  // Convert to bfloat162 and apply bias
-  typename ScalarType<nv_bfloat16>::FragB frag_b;
-  // Note: reverse indexing is intentional because weights are permuted
-  frag_b[1] = __hmul2(*reinterpret_cast<const nv_bfloat162*>(&Out1), bias_reg);
-  frag_b[0] = __hmul2(*reinterpret_cast<const nv_bfloat162*>(&Out2), bias_reg);
-  return frag_b;
-}
-
-// Multiply dequantized values by the corresponding quantization scale; used
-// only for grouped quantization.
-template <typename scalar_t>
-__device__ inline void scale(typename ScalarType<scalar_t>::FragB& frag_b,
-                             typename ScalarType<scalar_t>::FragS& frag_s,
-                             int i) {
-  using scalar_t2 = typename ScalarType<scalar_t>::scalar_t2;
-  scalar_t2 s =
-      ScalarType<scalar_t>::num2num2(reinterpret_cast<scalar_t*>(&frag_s)[i]);
-  frag_b[0] = __hmul2(frag_b[0], s);
-  frag_b[1] = __hmul2(frag_b[1], s);
-}
-
-// Given 2 floats multiply by 2 scales (halves)
-template <typename scalar_t>
-__device__ inline void scale_float(float* c,
-                                   typename ScalarType<scalar_t>::FragS& s) {
-  scalar_t* s_ptr = reinterpret_cast<scalar_t*>(&s);
-  c[0] = __fmul_rn(c[0], ScalarType<scalar_t>::num2float(s_ptr[0]));
-  c[1] = __fmul_rn(c[1], ScalarType<scalar_t>::num2float(s_ptr[1]));
-}
-
-// Wait until barrier reaches `count`, then lock for current threadblock.
-__device__ inline void barrier_acquire(int* lock, int count) {
-  if (threadIdx.x == 0) {
-    int state = -1;
-    do
-      // Guarantee that subsequent writes by this threadblock will be visible
-      // globally.
-      asm volatile("ld.global.acquire.gpu.b32 %0, [%1];\n"
-                   : "=r"(state)
-                   : "l"(lock));
-    while (state != count);
-  }
-  __syncthreads();
-}
-
-// Release barrier and increment visitation count.
-__device__ inline void barrier_release(int* lock, bool reset = false) {
-  __syncthreads();
-  if (threadIdx.x == 0) {
-    if (reset) {
-      lock[0] = 0;
-      return;
-    }
-    int val = 1;
-    // Make sure that all writes since acquiring this barrier are visible
-    // globally, while releasing the barrier.
-    asm volatile("fence.acq_rel.gpu;\n");
-    asm volatile("red.relaxed.gpu.global.add.s32 [%0], %1;\n"
-                 :
-                 : "l"(lock), "r"(val));
-  }
-}
-
-template <typename scalar_t,          // compute dtype, half or nv_float16
-          const int num_bits,         // number of bits used for weights
-          const int threads,          // number of threads in a threadblock
-          const int thread_m_blocks,  // number of 16x16 blocks in the m
-                                      // dimension (batchsize) of the
-                                      // threadblock
-          const int thread_n_blocks,  // same for n dimension (output)
-          const int thread_k_blocks,  // same for k dimension (reduction)
-          const int stages,  // number of stages for the async global->shared
-                             // fetch pipeline
-          const int group_blocks = -1  // number of consecutive 16x16 blocks
-                                       // with a separate quantization scale
-          >
-__global__ void Marlin(
-    const int4* __restrict__ A,  // fp16 input matrix of shape mxk
-    const int4* __restrict__ B,  // 4bit quantized weight matrix of shape kxn
-    int4* __restrict__ C,        // fp16 output buffer of shape mxn
-    const int4* __restrict__ scales_ptr,  // fp16 quantization scales of shape
-                                          // (k/groupsize)xn
-    int num_groups,  // number of scale groups per output channel
-    int prob_m,      // batch dimension m
-    int prob_n,      // output dimension n
-    int prob_k,      // reduction dimension k
-    int* locks       // extra global storage for barrier synchronization
-) {
-  // Each threadblock processes one "stripe" of the B matrix with (roughly) the
-  // same size, which might involve multiple column "slices" (of width 16 *
-  // `thread_n_blocks`). Stripes are defined as shown in the 3x3 matrix 5 SM
-  // example:
-  //   0 1 3
-  //   0 2 3
-  //   1 2 4
-  // While this kind of partitioning makes things somewhat more complicated, it
-  // ensures good utilization of all SMs for many kinds of shape and GPU
-  // configurations, while requiring as few slow global cross-threadblock
-  // reductions as possible.
-  using Dtype = ScalarType<scalar_t>;
-  using scalar_t2 = typename ScalarType<scalar_t>::scalar_t2;
-  using FragA = typename ScalarType<scalar_t>::FragA;
-  using FragB = typename ScalarType<scalar_t>::FragB;
-  using FragC = typename ScalarType<scalar_t>::FragC;
-  using FragS = typename ScalarType<scalar_t>::FragS;
-
-  constexpr int pack_factor = 32 / num_bits;
-
-  // For larger GEMMs we run multiple batchsize 64 versions in parallel for a
-  // better partitioning with less reductions
-  int parallel = 1;
-  if (prob_m > 16 * thread_m_blocks) {
-    parallel = prob_m / (16 * thread_m_blocks);
-    prob_m = 16 * thread_m_blocks;
-  }
-
-  int k_tiles = prob_k / 16 / thread_k_blocks;
-  int n_tiles = prob_n / 16 / thread_n_blocks;
-  int iters = div_ceil(k_tiles * n_tiles * parallel, gridDim.x);
-
-  int slice_row = (iters * blockIdx.x) % k_tiles;
-  int slice_col_par = (iters * blockIdx.x) / k_tiles;
-  int slice_col = slice_col_par;
-  int slice_iters;  // number of threadblock tiles in the current slice
-  int slice_count =
-      0;          // total number of active threadblocks in the current slice
-  int slice_idx;  // index of threadblock in current slice; numbered bottom to
-                  // top
-
-  // We can easily implement parallel problem execution by just remapping
-  // indices and advancing global pointers
-  if (slice_col_par >= n_tiles) {
-    A += (slice_col_par / n_tiles) * 16 * thread_m_blocks * prob_k / 8;
-    C += (slice_col_par / n_tiles) * 16 * thread_m_blocks * prob_n / 8;
-    locks += (slice_col_par / n_tiles) * n_tiles;
-    slice_col = slice_col_par % n_tiles;
-  }
-
-  // Compute all information about the current slice which is required for
-  // synchronization.
-  auto init_slice = [&]() {
-    slice_iters =
-        iters * (blockIdx.x + 1) - (k_tiles * slice_col_par + slice_row);
-    if (slice_iters < 0 || slice_col_par >= n_tiles * parallel) slice_iters = 0;
-    if (slice_iters == 0) return;
-    if (slice_row + slice_iters > k_tiles) slice_iters = k_tiles - slice_row;
-    slice_count = 1;
-    slice_idx = 0;
-    int col_first = iters * div_ceil(k_tiles * slice_col_par, iters);
-    if (col_first <= k_tiles * (slice_col_par + 1)) {
-      int col_off = col_first - k_tiles * slice_col_par;
-      slice_count = div_ceil(k_tiles - col_off, iters);
-      if (col_off > 0) slice_count++;
-      int delta_first = iters * blockIdx.x - col_first;
-      if (delta_first < 0 || (col_off == 0 && delta_first == 0))
-        slice_idx = slice_count - 1;
-      else {
-        slice_idx = slice_count - 1 - delta_first / iters;
-        if (col_off > 0) slice_idx--;
-      }
-    }
-    if (slice_col == n_tiles) {
-      A += 16 * thread_m_blocks * prob_k / 8;
-      C += 16 * thread_m_blocks * prob_n / 8;
-      locks += n_tiles;
-      slice_col = 0;
-    }
-  };
-  init_slice();
-
-  // A sizes/strides
-
-  // stride of the A matrix in global memory
-  int a_gl_stride = prob_k / 8;
-  // stride of an A matrix tile in shared memory
-  constexpr int a_sh_stride = 16 * thread_k_blocks / 8;
-  // delta between subsequent A tiles in global memory
-  constexpr int a_gl_rd_delta_o = 16 * thread_k_blocks / 8;
-  // between subsequent accesses within a tile
-  int a_gl_rd_delta_i = a_gl_stride * (threads / a_gl_rd_delta_o);
-  // between shared memory writes
-  constexpr int a_sh_wr_delta = a_sh_stride * (threads / a_gl_rd_delta_o);
-  // between shared memory tile reads
-  constexpr int a_sh_rd_delta_o = 2 * ((threads / 32) / (thread_n_blocks / 4));
-  // within a shared memory tile
-  constexpr int a_sh_rd_delta_i = a_sh_stride * 16;
-  // overall size of a tile
-  constexpr int a_sh_stage = a_sh_stride * (16 * thread_m_blocks);
-  // number of shared write iterations for a tile
-  constexpr int a_sh_wr_iters = div_ceil(a_sh_stage, a_sh_wr_delta);
-
-  // B sizes/strides
-  int b_gl_stride = 16 * prob_n / (pack_factor * 4);
-  constexpr int b_sh_stride = ((thread_n_blocks * 16) * 16 / pack_factor) / 4;
-  constexpr int b_thread_vecs = num_bits == 4 ? 1 : 2;
-  constexpr int b_sh_stride_threads = b_sh_stride / b_thread_vecs;
-
-  int b_gl_rd_delta_o = b_gl_stride * thread_k_blocks;
-  int b_gl_rd_delta_i = b_gl_stride * (threads / b_sh_stride_threads);
-  constexpr int b_sh_wr_delta = threads * b_thread_vecs;
-  constexpr int b_sh_rd_delta = threads * b_thread_vecs;
-  constexpr int b_sh_stage = b_sh_stride * thread_k_blocks;
-  constexpr int b_sh_wr_iters = b_sh_stage / b_sh_wr_delta;
-
-  // Scale sizes/strides without act_order
-  int s_gl_stride = prob_n / 8;
-  constexpr int s_sh_stride = 16 * thread_n_blocks / 8;
-
-  // Scale size/strides with act_order
-  constexpr int tb_k = 16 * thread_k_blocks;
-  constexpr int g_idx_stage = 0;
-  // constexpr int act_s_row_stride      = 1;
-  // int           act_s_col_stride      = act_s_row_stride * num_groups;
-  int act_s_col_stride = 1;
-  int act_s_col_warp_stride = act_s_col_stride * 8;
-  int tb_n_warps = thread_n_blocks / 4;
-  int act_s_col_tb_stride = act_s_col_warp_stride * tb_n_warps;
-
-  // Global A read index of current thread.
-  int a_gl_rd = a_gl_stride * (threadIdx.x / a_gl_rd_delta_o) +
-                (threadIdx.x % a_gl_rd_delta_o);
-  a_gl_rd += a_gl_rd_delta_o * slice_row;
-  // Shared write index of current thread.
-  int a_sh_wr = a_sh_stride * (threadIdx.x / a_gl_rd_delta_o) +
-                (threadIdx.x % a_gl_rd_delta_o);
-  // Shared read index.
-  int a_sh_rd =
-      a_sh_stride * ((threadIdx.x % 32) % 16) + (threadIdx.x % 32) / 16;
-  a_sh_rd += 2 * ((threadIdx.x / 32) / (thread_n_blocks / 4));
-
-  int b_gl_rd = b_gl_stride * (threadIdx.x / b_sh_stride_threads) +
-                (threadIdx.x % b_sh_stride_threads) * b_thread_vecs;
-  b_gl_rd += b_sh_stride * slice_col;
-  b_gl_rd += b_gl_rd_delta_o * slice_row;
-  int b_sh_wr = threadIdx.x * b_thread_vecs;
-  int b_sh_rd = threadIdx.x * b_thread_vecs;
-
-  // For act_order
-  int slice_k_start = tb_k * slice_row;
-  int slice_k_start_shared_fetch = slice_k_start;
-  int slice_n_offset = act_s_col_tb_stride * slice_col;
-
-  // No act_order
-  int s_gl_rd = s_sh_stride * slice_col + threadIdx.x;
-  int s_sh_wr = threadIdx.x;
-  bool s_sh_wr_pred = threadIdx.x < s_sh_stride;
-
-  // We scale a `half2` tile in row-major layout for column-wise quantization.
-  int s_sh_rd =
-      8 * ((threadIdx.x / 32) % (thread_n_blocks / 4)) + (threadIdx.x % 32) % 4;
-
-  // Precompute which thread should not read memory in which iterations; this is
-  // needed if there are more threads than required for a certain tilesize or
-  // when the batchsize is not a multiple of 16.
-  bool a_sh_wr_pred[a_sh_wr_iters];
-  #pragma unroll
-  for (int i = 0; i < a_sh_wr_iters; i++)
-    a_sh_wr_pred[i] = a_sh_wr_delta * i + a_sh_wr < a_sh_stride * prob_m;
-
-  // To ensure that writing and reading A tiles to/from shared memory, the
-  // latter in fragment format, is fully bank conflict free, we need to use a
-  // rather fancy XOR-based layout. The key here is that neither reads nor
-  // writes of the 16-byte `int4` blocks of 8 consecutive threads involve the
-  // same shared memory banks. Further, it seems (based on NSight-Compute) that
-  // each warp must also write a consecutive memory segment?
-  auto transform_a = [&](int i) {
-    int row = i / a_gl_rd_delta_o;
-    return a_gl_rd_delta_o * row + (i % a_gl_rd_delta_o) ^ row;
-  };
-  // Since the computation of this remapping is non-trivial and, due to our main
-  // loop unrolls, all shared memory accesses are static, we simply precompute
-  // both transformed reads and writes.
-  int a_sh_wr_trans[a_sh_wr_iters];
-  #pragma unroll
-  for (int i = 0; i < a_sh_wr_iters; i++)
-    a_sh_wr_trans[i] = transform_a(a_sh_wr_delta * i + a_sh_wr);
-  int a_sh_rd_trans[b_sh_wr_iters][thread_m_blocks];
-  #pragma unroll
-  for (int i = 0; i < b_sh_wr_iters; i++) {
-  #pragma unroll
-    for (int j = 0; j < thread_m_blocks; j++)
-      a_sh_rd_trans[i][j] =
-          transform_a(a_sh_rd_delta_o * i + a_sh_rd_delta_i * j + a_sh_rd);
-  }
-
-  // Since B-accesses have non-constant stride they have to be computed at
-  // runtime; we break dependencies between subsequent accesses with a tile by
-  // maintining multiple pointers (we have enough registers), a tiny
-  // optimization.
-  const int4* B_ptr[b_sh_wr_iters];
-  #pragma unroll
-  for (int i = 0; i < b_sh_wr_iters; i++)
-    B_ptr[i] = B + b_gl_rd_delta_i * i + b_gl_rd;
-
-  extern __shared__ int4 sh[];
-  // Shared memory storage for global fetch pipelines.
-  int4* sh_a = sh;
-  int4* sh_b = sh_a + (stages * a_sh_stage);
-  int4* sh_g_idx = sh_b + (stages * b_sh_stage);
-  int4* sh_s = sh_g_idx + (stages * g_idx_stage);
-
-  // Register storage for double buffer of shared memory reads.
-  FragA frag_a[2][thread_m_blocks];
-  I4 frag_b_quant[2][b_thread_vecs];
-  FragC frag_c[thread_m_blocks][4][2];
-  FragS frag_s[2][4];
-
-  // Zero accumulators.
-  auto zero_accums = [&]() {
-  #pragma unroll
-    for (int i = 0; i < thread_m_blocks * 4 * 2 * 4; i++)
-      reinterpret_cast<float*>(frag_c)[i] = 0;
-  };
-
-  int sh_first_group_id = -1;
-  int sh_num_groups = -1;
-  constexpr int sh_max_num_groups = 32;
-
-  auto fetch_scales_to_shared = [&](bool is_async, int first_group_id,
-                                    int last_group_id) {
-    sh_first_group_id = first_group_id;
-    sh_num_groups = last_group_id - first_group_id + 1;
-
-    if (sh_num_groups < sh_max_num_groups) {
-      sh_num_groups = sh_max_num_groups;
-    }
-
-    if (sh_first_group_id + sh_num_groups > num_groups) {
-      sh_num_groups = num_groups - sh_first_group_id;
-    }
-
-    int row_offset = first_group_id * s_gl_stride;
-
-    if (is_async) {
-      for (int i = 0; i < sh_num_groups; i++) {
-        if (threadIdx.x < s_sh_stride) {
-          cp_async4_pred(&sh_s[(i * s_sh_stride) + threadIdx.x],
-                         &scales_ptr[row_offset + (i * s_gl_stride) +
-                                     slice_n_offset + threadIdx.x]);
-        }
-      }
-    } else {
-      for (int i = 0; i < sh_num_groups; i++) {
-        if (threadIdx.x < s_sh_stride) {
-          sh_s[(i * s_sh_stride) + threadIdx.x] =
-              scales_ptr[row_offset + (i * s_gl_stride) + slice_n_offset +
-                         threadIdx.x];
-        }
-      }
-    }
-  };
-  // Asynchronously fetch the next A, B and s tile from global to the next
-  // shared memory pipeline location.
-  auto fetch_to_shared = [&](int pipe, int a_off, bool pred = true) {
-    if (pred) {
-      int4* sh_a_stage = sh_a + a_sh_stage * pipe;
-  #pragma unroll
-      for (int i = 0; i < a_sh_wr_iters; i++) {
-        cp_async4_pred(
-            &sh_a_stage[a_sh_wr_trans[i]],
-            &A[a_gl_rd_delta_i * i + a_gl_rd + a_gl_rd_delta_o * a_off],
-            a_sh_wr_pred[i]);
-      }
-      int4* sh_b_stage = sh_b + b_sh_stage * pipe;
-  #pragma unroll
-      for (int i = 0; i < b_sh_wr_iters; i++) {
-  #pragma unroll
-        for (int j = 0; j < b_thread_vecs; j++) {
-          cp_async4(&sh_b_stage[b_sh_wr_delta * i + b_sh_wr + j], B_ptr[i] + j);
-        }
-
-        B_ptr[i] += b_gl_rd_delta_o;
-      }
-    }
-    // Insert a fence even when we are winding down the pipeline to ensure that
-    // waiting is also correct at this point.
-    cp_async_fence();
-  };
-
-  // Wait until the next thread tile has been loaded to shared memory.
-  auto wait_for_stage = [&]() {
-    // We only have `stages - 2` active fetches since we are double buffering
-    // and can only issue the next fetch when it is guaranteed that the previous
-    // shared memory load is fully complete (as it may otherwise be
-    // overwritten).
-    cp_async_wait<stages - 2>();
-    __syncthreads();
-  };
-
-  // Load the next sub-tile from the current location in the shared memory pipe
-  // into the current register buffer.
-  auto fetch_to_registers = [&](int k, int pipe) {
-    int4* sh_a_stage = sh_a + a_sh_stage * pipe;
-  #pragma unroll
-    for (int i = 0; i < thread_m_blocks; i++)
-      ldsm4<scalar_t>(frag_a[k % 2][i],
-                      &sh_a_stage[a_sh_rd_trans[k % b_sh_wr_iters][i]]);
-    int4* sh_b_stage = sh_b + b_sh_stage * pipe;
-
-  #pragma unroll
-    for (int i = 0; i < b_thread_vecs; i++) {
-      frag_b_quant[k % 2][i] = *reinterpret_cast<I4*>(
-          &sh_b_stage[b_sh_rd_delta * (k % b_sh_wr_iters) + b_sh_rd + i]);
-    }
-  };
-
-  bool is_same_group[stages];
-  int same_group_id[stages];
-
-  auto init_same_group = [&](int pipe) {
-    is_same_group[pipe] = false;
-    same_group_id[pipe] = 0;
-    return;
-  };
-
-  // Execute the actual tensor core matmul of a sub-tile.
-  auto matmul = [&](int k) {
-  // We have the m dimension as the inner loop in order to encourage overlapping
-  // dequantization and matmul operations.
-  #pragma unroll
-    for (int j = 0; j < 4; j++) {
-      FragB frag_b0;
-      FragB frag_b1;
-
-      int* frag_b_quant_ptr = reinterpret_cast<int*>(frag_b_quant[k % 2]);
-      int b_quant_0 = frag_b_quant_ptr[j * 2 + 0];
-      int b_quant_1 = frag_b_quant_ptr[j * 2 + 1];
-
-      frag_b0 = dequant_8bit<scalar_t>(b_quant_0);
-      frag_b1 = dequant_8bit<scalar_t>(b_quant_1);
-
-  #pragma unroll
-      for (int i = 0; i < thread_m_blocks; i++) {
-        mma<scalar_t>(frag_a[k % 2][i], frag_b0, frag_c[i][j][0]);
-        mma<scalar_t>(frag_a[k % 2][i], frag_b1, frag_c[i][j][1]);
-      }
-    }
-  };
-
-  // Since we slice across the k dimension of a tile in order to increase the
-  // number of warps while keeping the n dimension of a tile reasonable, we have
-  // multiple warps that accumulate their partial sums of the same output
-  // location; which we have to reduce over in the end. We do in shared memory.
-  auto thread_block_reduce = [&]() {
-    constexpr int red_off = threads / b_sh_stride_threads / 2;
-    if (red_off >= 1) {
-      int red_idx = threadIdx.x / b_sh_stride_threads;
-      constexpr int red_sh_stride = b_sh_stride_threads * 4 * 2;
-      constexpr int red_sh_delta = b_sh_stride_threads;
-      int red_sh_rd = red_sh_stride * (threadIdx.x / b_sh_stride_threads) +
-                      (threadIdx.x % b_sh_stride_threads);
-
-      // Parallel logarithmic shared memory reduction. We make sure to avoid any
-      // unnecessary read or write iterations, e.g., for two warps we write only
-      // once by warp 1 and read only once by warp 0.
-
-  #pragma unroll
-      for (int m_block = 0; m_block < thread_m_blocks; m_block++) {
-  #pragma unroll
-        for (int i = red_off; i > 0; i /= 2) {
-          if (i <= red_idx && red_idx < 2 * i) {
-  #pragma unroll
-            for (int j = 0; j < 4 * 2; j++) {
-              int red_sh_wr =
-                  red_sh_delta * j + (red_sh_rd - red_sh_stride * i);
-              if (i < red_off) {
-                float* c_rd =
-                    reinterpret_cast<float*>(&sh[red_sh_delta * j + red_sh_rd]);
-                float* c_wr = reinterpret_cast<float*>(&sh[red_sh_wr]);
-  #pragma unroll
-                for (int k = 0; k < 4; k++)
-                  reinterpret_cast<FragC*>(frag_c)[4 * 2 * m_block + j][k] +=
-                      c_rd[k] + c_wr[k];
-              }
-              sh[red_sh_wr] =
-                  reinterpret_cast<int4*>(&frag_c)[4 * 2 * m_block + j];
-            }
-          }
-          __syncthreads();
-        }
-        if (red_idx == 0) {
-  #pragma unroll
-          for (int i = 0; i < 4 * 2; i++) {
-            float* c_rd =
-                reinterpret_cast<float*>(&sh[red_sh_delta * i + red_sh_rd]);
-  #pragma unroll
-            for (int j = 0; j < 4; j++)
-              reinterpret_cast<FragC*>(frag_c)[4 * 2 * m_block + i][j] +=
-                  c_rd[j];
-          }
-        }
-        __syncthreads();
-      }
-    }
-  };
-
-  // Since multiple threadblocks may process parts of the same column slice, we
-  // finally have to globally reduce over the results. As the striped
-  // partitioning minimizes the number of such reductions and our outputs are
-  // usually rather small, we perform this reduction serially in L2 cache.
-  auto global_reduce = [&](bool first = false, bool last = false) {
-    // We are very careful here to reduce directly in the output buffer to
-    // maximize L2 cache utilization in this step. To do this, we write out
-    // results in FP16 (but still reduce with FP32 compute).
-    constexpr int active_threads = 32 * thread_n_blocks / 4;
-    if (threadIdx.x < active_threads) {
-      int c_gl_stride = prob_n / 8;
-      int c_gl_wr_delta_o = 8 * c_gl_stride;
-      int c_gl_wr_delta_i = 4 * (active_threads / 32);
-      int c_gl_wr = c_gl_stride * ((threadIdx.x % 32) / 4) +
-                    4 * (threadIdx.x / 32) + threadIdx.x % 4;
-      c_gl_wr += (2 * thread_n_blocks) * slice_col;
-      constexpr int c_sh_wr_delta = active_threads;
-      int c_sh_wr = threadIdx.x;
-
-      int row = (threadIdx.x % 32) / 4;
-
-      if (!first) {
-  // Interestingly, doing direct global accesses here really seems to mess up
-  // the compiler and lead to slowdowns, hence we also use async-copies even
-  // though these fetches are not actually asynchronous.
-  #pragma unroll
-        for (int i = 0; i < thread_m_blocks * 4; i++) {
-          cp_async4_pred(
-              &sh[c_sh_wr + c_sh_wr_delta * i],
-              &C[c_gl_wr + c_gl_wr_delta_o * (i / 2) +
-                 c_gl_wr_delta_i * (i % 2)],
-              i < (thread_m_blocks - 1) * 4 || 8 * (i / 2) + row < prob_m);
-        }
-        cp_async_fence();
-        cp_async_wait<0>();
-      }
-
-  #pragma unroll
-      for (int i = 0; i < thread_m_blocks * 4; i++) {
-        if (i < (thread_m_blocks - 1) * 4 || 8 * (i / 2) + row < prob_m) {
-          if (!first) {
-            int4 c_red = sh[c_sh_wr + i * c_sh_wr_delta];
-  #pragma unroll
-            for (int j = 0; j < 2 * 4; j++) {
-              reinterpret_cast<float*>(
-                  &frag_c)[4 * 2 * 4 * (i / 4) + 4 * j + (i % 4)] +=
-                  Dtype::num2float(reinterpret_cast<scalar_t*>(&c_red)[j]);
-            }
-          }
-          if (!last) {
-            int4 c;
-  #pragma unroll
-            for (int j = 0; j < 2 * 4; j++) {
-              reinterpret_cast<scalar_t*>(&c)[j] =
-                  Dtype::float2num(reinterpret_cast<float*>(
-                      &frag_c)[4 * 2 * 4 * (i / 4) + 4 * j + (i % 4)]);
-            }
-            C[c_gl_wr + c_gl_wr_delta_o * (i / 2) + c_gl_wr_delta_i * (i % 2)] =
-                c;
-          }
-        }
-      }
-    }
-  };
-
-  // Write out the reduce final result in the correct layout. We only actually
-  // reshuffle matrix fragments in this step, the reduction above is performed
-  // in fragment layout.
-  auto write_result = [&]() {
-    int c_gl_stride = prob_n / 8;
-    constexpr int c_sh_stride = 2 * thread_n_blocks + 1;
-    int c_gl_wr_delta = c_gl_stride * (threads / (2 * thread_n_blocks));
-    constexpr int c_sh_rd_delta =
-        c_sh_stride * (threads / (2 * thread_n_blocks));
-
-    int c_gl_wr = c_gl_stride * (threadIdx.x / (2 * thread_n_blocks)) +
-                  (threadIdx.x % (2 * thread_n_blocks));
-    c_gl_wr += (2 * thread_n_blocks) * slice_col;
-    int c_sh_wr =
-        (4 * c_sh_stride) * ((threadIdx.x % 32) / 4) + (threadIdx.x % 32) % 4;
-    c_sh_wr += 32 * (threadIdx.x / 32);
-    int c_sh_rd = c_sh_stride * (threadIdx.x / (2 * thread_n_blocks)) +
-                  (threadIdx.x % (2 * thread_n_blocks));
-
-    int c_gl_wr_end = c_gl_stride * prob_m;
-
-    // We first reorder in shared memory to guarantee the most efficient final
-    // global write patterns
-    auto write = [&](int idx, float c0, float c1, FragS& s) {
-      scalar_t2 res =
-          Dtype::nums2num2(Dtype::float2num(c0), Dtype::float2num(c1));
-
-      ((scalar_t2*)sh)[idx] = res;
-    };
-
-    if (threadIdx.x / 32 < thread_n_blocks / 4) {
-  #pragma unroll
-      for (int i = 0; i < thread_m_blocks; i++) {
-  #pragma unroll
-        for (int j = 0; j < 4; j++) {
-          int wr = c_sh_wr + 8 * j;
-          write(wr + (4 * c_sh_stride) * 0 + 0, frag_c[i][j][0][0],
-                frag_c[i][j][0][1], frag_s[j / 2][2 * (j % 2) + 0]);
-          write(wr + (4 * c_sh_stride) * 8 + 0, frag_c[i][j][0][2],
-                frag_c[i][j][0][3], frag_s[j / 2][2 * (j % 2) + 0]);
-          write(wr + (4 * c_sh_stride) * 0 + 4, frag_c[i][j][1][0],
-                frag_c[i][j][1][1], frag_s[j / 2][2 * (j % 2) + 1]);
-          write(wr + (4 * c_sh_stride) * 8 + 4, frag_c[i][j][1][2],
-                frag_c[i][j][1][3], frag_s[j / 2][2 * (j % 2) + 1]);
-        }
-        c_sh_wr += 16 * (4 * c_sh_stride);
-      }
-    }
-    __syncthreads();
-
-  #pragma unroll
-    for (int i = 0;
-         i < div_ceil(16 * thread_m_blocks, threads / (2 * thread_n_blocks));
-         i++) {
-      if (c_gl_wr < c_gl_wr_end) {
-        C[c_gl_wr] = sh[c_sh_rd];
-        c_gl_wr += c_gl_wr_delta;
-        c_sh_rd += c_sh_rd_delta;
-      }
-    }
-  };
-
-  // Start global fetch and register load pipelines.
-  auto start_pipes = [&]() {
-
-  #pragma unroll
-    for (int i = 0; i < stages - 1; i++) {
-      fetch_to_shared(i, i, i < slice_iters);
-    }
-
-    zero_accums();
-    wait_for_stage();
-    init_same_group(0);
-    fetch_to_registers(0, 0);
-    a_gl_rd += a_gl_rd_delta_o * (stages - 1);
-    slice_k_start_shared_fetch += tb_k * (stages - 1);
-  };
-  if (slice_iters) {
-    start_pipes();
-  }
-
-  // Main loop.
-  while (slice_iters) {
-    // We unroll over both the global fetch and the register load pipeline to
-    // ensure all shared memory accesses are static. Note that both pipelines
-    // have even length meaning that the next iteration will always start at
-    // index 0.
-
-  #pragma unroll
-    for (int pipe = 0; pipe < stages;) {
-  #pragma unroll
-      for (int k = 0; k < b_sh_wr_iters; k++) {
-        fetch_to_registers(k + 1, pipe % stages);
-        if (k == b_sh_wr_iters - 2) {
-          fetch_to_shared((pipe + stages - 1) % stages, pipe,
-                          slice_iters >= stages);
-          pipe++;
-          wait_for_stage();
-          init_same_group(pipe % stages);
-        }
-        matmul(k);
-      }
-      slice_iters--;
-      if (slice_iters == 0) {
-        break;
-      }
-    }
-
-    a_gl_rd += a_gl_rd_delta_o * stages;
-    slice_k_start += tb_k * stages;
-    slice_k_start_shared_fetch += tb_k * stages;
-
-    // Process results and, if necessary, proceed to the next column slice.
-    // While this pattern may not be the most readable, other ways of writing
-    // the loop seemed to noticeably worse performance after compilation.
-    if (slice_iters == 0) {
-      cp_async_wait<0>();
-      bool last = slice_idx == slice_count - 1;
-      // For per-column scales, we only fetch them here in the final step before
-      // write-out
-      if (s_sh_wr_pred) {
-        cp_async4(&sh_s[s_sh_wr], &scales_ptr[s_gl_rd]);
-      }
-      cp_async_fence();
-
-      thread_block_reduce();
-
-      cp_async_wait<0>();
-      __syncthreads();
-      if (threadIdx.x / 32 < thread_n_blocks / 4) {
-        reinterpret_cast<int4*>(&frag_s)[0] = sh_s[s_sh_rd + 0];
-        reinterpret_cast<int4*>(&frag_s)[1] = sh_s[s_sh_rd + 4];
-      }
-
-      // For 8-bit channelwise, we apply the scale before the global reduction
-      // that converts the fp32 results to fp16 (so that we avoid possible
-      // overflow in fp16)
-      if (threadIdx.x / 32 < thread_n_blocks / 4) {
-  #pragma unroll
-        for (int i = 0; i < thread_m_blocks; i++) {
-  #pragma unroll
-          for (int j = 0; j < 4; j++) {
-            scale_float<scalar_t>(reinterpret_cast<float*>(&frag_c[i][j][0][0]),
-                                  frag_s[j / 2][2 * (j % 2) + 0]);
-            scale_float<scalar_t>(reinterpret_cast<float*>(&frag_c[i][j][0][2]),
-                                  frag_s[j / 2][2 * (j % 2) + 0]);
-
-            scale_float<scalar_t>(reinterpret_cast<float*>(&frag_c[i][j][1][0]),
-                                  frag_s[j / 2][2 * (j % 2) + 1]);
-            scale_float<scalar_t>(reinterpret_cast<float*>(&frag_c[i][j][1][2]),
-                                  frag_s[j / 2][2 * (j % 2) + 1]);
-          }
-        }
-      }
-
-      if (slice_count > 1) {  // only globally reduce if there is more than one
-                              // block in a slice
-        barrier_acquire(&locks[slice_col], slice_idx);
-        global_reduce(slice_idx == 0, last);
-        barrier_release(&locks[slice_col], last);
-      }
-      if (last)  // only the last block in a slice actually writes the result
-        write_result();
-      slice_row = 0;
-      slice_col_par++;
-      slice_col++;
-      init_slice();
-      if (slice_iters) {
-        a_gl_rd = a_gl_stride * (threadIdx.x / a_gl_rd_delta_o) +
-                  (threadIdx.x % a_gl_rd_delta_o);
-  #pragma unroll
-        for (int i = 0; i < b_sh_wr_iters; i++)
-          B_ptr[i] += b_sh_stride - b_gl_rd_delta_o * k_tiles;
-        if (slice_col == 0) {
-  #pragma unroll
-          for (int i = 0; i < b_sh_wr_iters; i++) B_ptr[i] -= b_gl_stride;
-        }
-
-        // Update slice k/n for scales loading
-        s_gl_rd = s_sh_stride * slice_col + threadIdx.x;
-
-        start_pipes();
-      }
-    }
-  }
-}
-
-  #define __CALL_IF(NUM_BITS, THREAD_M_BLOCKS, THREAD_N_BLOCKS,                \
-                    THREAD_K_BLOCKS, GROUP_BLOCKS, NUM_THREADS)                \
-    else if (num_bits == NUM_BITS && thread_m_blocks == THREAD_M_BLOCKS &&     \
-             thread_n_blocks == THREAD_N_BLOCKS &&                             \
-             thread_k_blocks == THREAD_K_BLOCKS &&                             \
-             group_blocks == GROUP_BLOCKS && num_threads == NUM_THREADS) {     \
-      cudaFuncSetAttribute(                                                    \
-          Marlin<scalar_t, NUM_BITS, NUM_THREADS, THREAD_M_BLOCKS,             \
-                 THREAD_N_BLOCKS, THREAD_K_BLOCKS, pipe_stages, GROUP_BLOCKS>, \
-          cudaFuncAttributeMaxDynamicSharedMemorySize, max_shared_mem);        \
-      Marlin<scalar_t, NUM_BITS, NUM_THREADS, THREAD_M_BLOCKS,                 \
-             THREAD_N_BLOCKS, THREAD_K_BLOCKS, pipe_stages, GROUP_BLOCKS>      \
-          <<<blocks, NUM_THREADS, max_shared_mem, stream>>>(                   \
-              A_ptr, B_ptr, C_ptr, s_ptr, num_groups, prob_m, prob_n, prob_k,  \
-              locks);                                                          \
-    }
-
-typedef struct {
-  int thread_k;
-  int thread_n;
-  int num_threads;
-} thread_config_t;
-
-typedef struct {
-  int max_m_blocks;
-  thread_config_t tb_cfg;
-} exec_config_t;
-
-thread_config_t small_batch_thread_configs[] = {
-    // Ordered by priority
-
-    // thread_k, thread_n, num_threads
-    {128, 128, 256},
-    {64, 128, 128},
-    {128, 64, 128},
-};
-
-thread_config_t large_batch_thread_configs[] = {
-    // Ordered by priority
-
-    // thread_k, thread_n, num_threads
-    {64, 256, 256},
-    {64, 128, 128},
-    {128, 64, 128},
-
-};
-
-int get_scales_cache_size(thread_config_t const& th_config, int prob_m,
-                          int prob_n, int prob_k, int num_bits,
-                          int group_size) {
-  int tb_n = th_config.thread_n;
-
-  // Get max scale groups per thread-block
-  // Fixed for channelwise
-  int tb_groups = 1;
-  int tb_scales = tb_groups * tb_n * 2;
-
-  return tb_scales * pipe_stages;
-}
-
-bool is_valid_cache_size(thread_config_t const& th_config, int max_m_blocks,
-                         int prob_m, int prob_n, int prob_k, int num_bits,
-                         int scales_cache_size, int max_shared_mem) {
-  int pack_factor = 32 / num_bits;
-
-  // Get B size
-  int tb_k = th_config.thread_k;
-  int tb_n = th_config.thread_n;
-
-  int b_size = (tb_k * tb_n / pack_factor) * 4;
-
-  // Get A size
-  int m_blocks = div_ceil(prob_m, 16);
-  int tb_max_m = 16;
-
-  while (true) {
-    if (m_blocks >= max_m_blocks) {
-      tb_max_m *= max_m_blocks;
-      break;
-    }
-
-    max_m_blocks--;
-    if (max_m_blocks == 0) {
-      TORCH_CHECK(false, "Unexpected m_blocks = ", m_blocks);
-    }
-  }
-
-  int a_size = (tb_max_m * tb_k) * 2;
-
-  float pipe_size = (a_size + b_size) * pipe_stages;
-
-  TORCH_CHECK(max_shared_mem / 2 > scales_cache_size);  // Sanity
-
-  return pipe_size < 0.95f * (max_shared_mem - scales_cache_size);
-}
-
-bool is_valid_config(thread_config_t const& th_config, int max_m_blocks,
-                     int prob_m, int prob_n, int prob_k, int num_bits,
-                     int group_size, int max_shared_mem) {
-  // Sanity
-  if (th_config.thread_k == -1 || th_config.thread_n == -1 ||
-      th_config.num_threads == -1) {
-    return false;
-  }
-
-  // Verify K/N are divisible by thread K/N
-  if (prob_k % th_config.thread_k != 0 || prob_n % th_config.thread_n != 0) {
-    return false;
-  }
-
-  // Verify min for thread K/N
-  if (th_config.thread_n < min_thread_n || th_config.thread_k < min_thread_k) {
-    return false;
-  }
-
-  // num_threads must be at least 128 (= 4 warps)
-  if (th_config.num_threads < 128) {
-    return false;
-  }
-
-  //  Determine cache for scales
-  int scales_cache_size = get_scales_cache_size(th_config, prob_m, prob_n,
-                                                prob_k, num_bits, group_size);
-
-  // Check that pipeline fits into cache
-  if (!is_valid_cache_size(th_config, max_m_blocks, prob_m, prob_n, prob_k,
-                           num_bits, scales_cache_size, max_shared_mem)) {
-    return false;
-  }
-
-  return true;
-}
-
-exec_config_t determine_thread_config(int prob_m, int prob_n, int prob_k,
-                                      int num_bits, int group_size,
-                                      int max_shared_mem) {
-  int max_m_blocks = 4;
-  while (max_m_blocks > 0) {
-    if (prob_m <= 16) {
-      for (auto th_config : small_batch_thread_configs) {
-        if (is_valid_config(th_config, max_m_blocks, prob_m, prob_n, prob_k,
-                            num_bits, group_size, max_shared_mem)) {
-          return exec_config_t{max_m_blocks, th_config};
-        }
-      }
-    } else {
-      for (auto th_config : large_batch_thread_configs) {
-        if (is_valid_config(th_config, max_m_blocks, prob_m, prob_n, prob_k,
-                            num_bits, group_size, max_shared_mem)) {
-          return exec_config_t{max_m_blocks, th_config};
-        }
-      }
-    }
-
-    max_m_blocks--;  // Process less M blocks per invocation to reduce cache
-                     // usage
-  }
-
-  return exec_config_t{0, {-1, -1, -1}};
-}
-
-  #define CALL_IF(NUM_BITS, N_BLOCKS, K_BLOCKS, NUM_THREADS)    \
-    __CALL_IF(NUM_BITS, 1, N_BLOCKS, K_BLOCKS, -1, NUM_THREADS) \
-    __CALL_IF(NUM_BITS, 2, N_BLOCKS, K_BLOCKS, -1, NUM_THREADS) \
-    __CALL_IF(NUM_BITS, 3, N_BLOCKS, K_BLOCKS, -1, NUM_THREADS) \
-    __CALL_IF(NUM_BITS, 4, N_BLOCKS, K_BLOCKS, -1, NUM_THREADS)
-
-template <typename scalar_t>
-void marlin_mm_f16i4(const void* A, const void* B, void* C, void* s, int prob_m,
-                     int prob_n, int prob_k, void* workspace, int num_bits,
-                     int num_groups, int group_size, int dev,
-                     cudaStream_t stream, int thread_k, int thread_n, int sms,
-                     int max_par) {
-  TORCH_CHECK(num_bits == 8, "num_bits must be 8. Got = ", num_bits);
-  TORCH_CHECK(prob_m > 0 && prob_n > 0 && prob_k > 0, "Invalid MNK = [", prob_m,
-              ", ", prob_n, ", ", prob_k, "]");
-
-  int tot_m = prob_m;
-  int tot_m_blocks = div_ceil(tot_m, 16);
-  int pad = 16 * tot_m_blocks - tot_m;
-
-  if (sms == -1) {
-    cudaDeviceGetAttribute(&sms, cudaDevAttrMultiProcessorCount, dev);
-  }
-
-  int max_shared_mem = 0;
-  cudaDeviceGetAttribute(&max_shared_mem,
-                         cudaDevAttrMaxSharedMemoryPerBlockOptin, dev);
-  TORCH_CHECK(max_shared_mem > 0);
-
-  // Set thread config
-  exec_config_t exec_cfg;
-  if (thread_k != -1 && thread_n != -1) {
-    // User-defined config
-    exec_cfg =
-        exec_config_t{4, thread_config_t{thread_k, thread_n, default_threads}};
-  } else {
-    // Auto config
-    exec_cfg = determine_thread_config(prob_m, prob_n, prob_k, num_bits,
-                                       group_size, max_shared_mem);
-  }
-
-  TORCH_CHECK(
-      exec_cfg.max_m_blocks > 0 &&
-          is_valid_config(exec_cfg.tb_cfg, exec_cfg.max_m_blocks, prob_m,
-                          prob_n, prob_k, num_bits, group_size, max_shared_mem),
-      "Invalid thread config: max_m_blocks = ", exec_cfg.max_m_blocks,
-      ", thread_k = ", exec_cfg.tb_cfg.thread_k,
-      ", thread_n = ", exec_cfg.tb_cfg.thread_n,
-      ", num_threads = ", exec_cfg.tb_cfg.num_threads, " for MKN = [", prob_m,
-      ", ", prob_k, ", ", prob_n, "] and num_bits = ", num_bits,
-      ", group_size = ", group_size, ", max_shared_mem = ", max_shared_mem);
-
-  int num_threads = exec_cfg.tb_cfg.num_threads;
-  thread_k = exec_cfg.tb_cfg.thread_k;
-  thread_n = exec_cfg.tb_cfg.thread_n;
-
-  int thread_k_blocks = thread_k / 16;
-  int thread_n_blocks = thread_n / 16;
-
-  int blocks = sms;
-
-  TORCH_CHECK(prob_n % thread_n == 0, "prob_n = ", prob_n,
-              " is not divisible by thread_n = ", thread_n);
-  TORCH_CHECK(prob_k % thread_k == 0, "prob_k = ", prob_k,
-              " is not divisible by thread_k = ", thread_k);
-
-  int group_blocks = -1;
-
-  const int4* A_ptr = (const int4*)A;
-  const int4* B_ptr = (const int4*)B;
-  int4* C_ptr = (int4*)C;
-  const int4* s_ptr = (const int4*)s;
-
-  int* locks = (int*)workspace;
-
-  // Main loop
-  for (int i = 0; i < tot_m_blocks; i += exec_cfg.max_m_blocks) {
-    int thread_m_blocks = tot_m_blocks - i;
-    prob_m = tot_m - 16 * i;
-    int par = 1;
-    if (thread_m_blocks > exec_cfg.max_m_blocks) {
-      // Note that parallel > 1 currently only works for inputs without any
-      // padding
-      par = (16 * thread_m_blocks - pad) / (16 * exec_cfg.max_m_blocks);
-      if (par > max_par) par = max_par;
-      prob_m = (16 * exec_cfg.max_m_blocks) * par;
-      i += exec_cfg.max_m_blocks * (par - 1);
-      thread_m_blocks = exec_cfg.max_m_blocks;
-    }
-
-    // Define kernel configurations
-    if (false) {
-    }
-    CALL_IF(8, 32, 2, 256)
-    CALL_IF(8, 16, 4, 256)
-    CALL_IF(8, 8, 8, 256)
-    CALL_IF(8, 8, 4, 128)
-    CALL_IF(8, 4, 8, 128)
-    else {
-      TORCH_CHECK(false, "Unsupported shapes: MNK = [" + str(prob_m) + ", " +
-                             str(prob_n) + ", " + str(prob_k) + "]" +
-                             ", num_groups = " + str(num_groups) +
-                             ", group_size = " + str(group_size) +
-                             ", thread_m_blocks = " + str(thread_m_blocks) +
-                             ", thread_n_blocks = " + str(thread_n_blocks) +
-                             ", thread_k_blocks = " + str(thread_k_blocks));
-    }
-
-    A_ptr += 16 * thread_m_blocks * (prob_k / 8) * par;
-    C_ptr += 16 * thread_m_blocks * (prob_n / 8) * par;
-  }
-}
-
-}  // namespace fp8_marlin
-
-torch::Tensor fp8_marlin_gemm(torch::Tensor& a, torch::Tensor& b_q_weight,
-                              torch::Tensor& b_scales, torch::Tensor& workspace,
-                              int64_t num_bits, int64_t size_m, int64_t size_n,
-                              int64_t size_k) {
-  // Verify num_bits
-  TORCH_CHECK(num_bits == 8, "num_bits must be 8. Got = ", num_bits);
-  int pack_factor = 32 / num_bits;
-
-  // Verify A
-  TORCH_CHECK(a.size(0) == size_m, "Shape mismatch: a.size(0) = ", a.size(0),
-              ", size_m = ", size_m);
-  TORCH_CHECK(a.size(1) == size_k, "Shape mismatch: a.size(1) = ", a.size(1),
-              ", size_k = ", size_k);
-
-  // Verify B
-  TORCH_CHECK(size_k % marlin::tile_size == 0, "size_k = ", size_k,
-              " is not divisible by tile_size = ", marlin::tile_size);
-  TORCH_CHECK((size_k / marlin::tile_size) == b_q_weight.size(0),
-              "Shape mismatch: b_q_weight.size(0) = ", b_q_weight.size(0),
-              ", size_k = ", size_k, ", tile_size = ", marlin::tile_size);
-  TORCH_CHECK(b_q_weight.size(1) % marlin::tile_size == 0,
-              "b_q_weight.size(1) = ", b_q_weight.size(1),
-              " is not divisible by tile_size = ", marlin::tile_size);
-  int actual_size_n = (b_q_weight.size(1) / marlin::tile_size) * pack_factor;
-  TORCH_CHECK(size_n == actual_size_n, "size_n = ", size_n,
-              ", actual_size_n = ", actual_size_n);
-
-  // Verify device and strides
-  TORCH_CHECK(a.device().is_cuda(), "A is not on GPU");
-  TORCH_CHECK(a.is_contiguous(), "A is not contiguous");
-
-  TORCH_CHECK(b_q_weight.device().is_cuda(), "b_q_weight is not on GPU");
-  TORCH_CHECK(b_q_weight.is_contiguous(), "b_q_weight is not contiguous");
-
-  TORCH_CHECK(b_scales.device().is_cuda(), "b_scales is not on GPU");
-  TORCH_CHECK(b_scales.is_contiguous(), "b_scales is not contiguous");
-
-  // Alloc buffers
-  const at::cuda::OptionalCUDAGuard device_guard(device_of(a));
-  auto options = torch::TensorOptions().dtype(a.dtype()).device(a.device());
-  torch::Tensor c = torch::empty({size_m, size_n}, options);
-
-  // thread_k: `k` size of a thread_tile in `weights` (can usually be left as
-  // auto -1)
-  int thread_k = -1;
-  // thread_n: `n` size of a thread_tile in `weights` (can usually be left as
-  // auto -1)
-  int thread_n = -1;
-  // sms: number of SMs to use for the kernel (can usually be left as auto -1)
-  int sms = -1;
-
-  // Detect groupsize and act_order
-  int num_groups = -1;
-  int group_size = -1;
-
-  int b_rank = b_scales.sizes().size();
-  TORCH_CHECK(b_rank == 2, "b_scales rank = ", b_rank, " is not 2");
-  TORCH_CHECK(b_scales.size(1) == size_n, "b_scales dim 1 = ", b_scales.size(1),
-              " is not size_n = ", size_n);
-  // Channelwise only for FP8
-  TORCH_CHECK(b_scales.size(0) == 1)
-  num_groups = b_scales.size(0);
-
-  // Verify workspace size
-  TORCH_CHECK(size_n % marlin::min_thread_n == 0, "size_n = ", size_n,
-              ", is not divisible by min_thread_n = ", marlin::min_thread_n);
-  int min_workspace_size = (size_n / marlin::min_thread_n) * marlin::max_par;
-  TORCH_CHECK(workspace.numel() >= min_workspace_size,
-              "workspace.numel = ", workspace.numel(),
-              " is below min_workspace_size = ", min_workspace_size);
-
-  int dev = a.get_device();
-  if (a.scalar_type() == at::ScalarType::Half) {
-    fp8_marlin::marlin_mm_f16i4<half>(
-        a.data_ptr<at::Half>(), b_q_weight.data_ptr(), c.data_ptr<at::Half>(),
-        b_scales.data_ptr<at::Half>(), size_m, size_n, size_k,
-        workspace.data_ptr(), num_bits, num_groups, group_size, dev,
-        at::cuda::getCurrentCUDAStream(dev), thread_k, thread_n, sms,
-        marlin::max_par);
-  } else if (a.scalar_type() == at::ScalarType::BFloat16) {
-    fp8_marlin::marlin_mm_f16i4<nv_bfloat16>(
-        a.data_ptr<at::BFloat16>(), b_q_weight.data_ptr(),
-        c.data_ptr<at::BFloat16>(), b_scales.data_ptr<at::BFloat16>(), size_m,
-        size_n, size_k, workspace.data_ptr(), num_bits, num_groups, group_size,
-        dev, at::cuda::getCurrentCUDAStream(dev), thread_k, thread_n, sms,
-        marlin::max_par);
-  } else {
-    TORCH_CHECK(false, "fp8_marlin_gemm only supports bfloat16 and float16");
-  }
-
-  return c;
-}
-
-#endif
-
-TORCH_LIBRARY_IMPL_EXPAND(TORCH_EXTENSION_NAME, CUDA, m) {
-  m.impl("fp8_marlin_gemm", &fp8_marlin_gemm);
-}
\ No newline at end of file
-- 
GitLab


From e50a1f1a9cc520d59485f5eb5613bf2d766c5102 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Tue, 6 May 2025 20:59:57 -0400
Subject: [PATCH 185/461] [TPU] Add kernel test for moe_pallas (#17496)

Signed-off-by: Michael Goin <mgoin64@gmail.com>
---
 .../scripts/hardware_ci/run-tpu-v1-test.sh    |  4 +-
 tests/tpu/test_moe_pallas.py                  | 87 +++++++++++++++++++
 vllm/attention/backends/pallas.py             |  3 +-
 .../layers/fused_moe/moe_pallas.py            |  5 +-
 4 files changed, 96 insertions(+), 3 deletions(-)
 create mode 100644 tests/tpu/test_moe_pallas.py

diff --git a/.buildkite/scripts/hardware_ci/run-tpu-v1-test.sh b/.buildkite/scripts/hardware_ci/run-tpu-v1-test.sh
index 21982b01b..07b898787 100755
--- a/.buildkite/scripts/hardware_ci/run-tpu-v1-test.sh
+++ b/.buildkite/scripts/hardware_ci/run-tpu-v1-test.sh
@@ -47,7 +47,9 @@ docker run --privileged --net host --shm-size=16G -it \
     && echo TEST_10 \
     && pytest -s -v /workspace/vllm/tests/v1/tpu/test_pallas.py \
     && echo TEST_11 \
-    && pytest -s -v /workspace/vllm/tests/v1/entrypoints/llm/test_struct_output_generate.py" \
+    && pytest -s -v /workspace/vllm/tests/v1/entrypoints/llm/test_struct_output_generate.py \
+    && echo TEST_12 \
+    && pytest -s -v /workspace/vllm/tests/tpu/test_moe_pallas.py" \
 
 
 # TODO: This test fails because it uses RANDOM_SEED sampling
diff --git a/tests/tpu/test_moe_pallas.py b/tests/tpu/test_moe_pallas.py
new file mode 100644
index 000000000..13fc8bc8f
--- /dev/null
+++ b/tests/tpu/test_moe_pallas.py
@@ -0,0 +1,87 @@
+# SPDX-License-Identifier: Apache-2.0
+"""Tests for the Pallas MOE implementation.
+
+Run `pytest tests/kernels/moe/test_moe_pallas.py`.
+"""
+import pytest
+import torch
+
+# yapf conflicts with isort for this block
+# yapf: disable
+from vllm.model_executor.layers.fused_moe.moe_pallas import (
+    fused_moe as pallas_moe)
+from vllm.model_executor.layers.fused_moe.moe_torch_iterative import (
+    fused_moe as torch_moe)
+# yapf: enable
+from vllm.platforms import current_platform
+
+if not current_platform.is_tpu():
+    pytest.skip("This test needs a TPU.", allow_module_level=True)
+
+NUM_EXPERTS = [8, 64]
+EP_SIZE = [1]
+TOP_KS = [2, 6]
+
+
+# The Pallas GMM kernel requires num_tokens * topk to be a multiple of 16
+@pytest.mark.parametrize("m", [8, 16, 64, 2048])
+@pytest.mark.parametrize("n", [128, 1024, 2048])
+@pytest.mark.parametrize("k", [128, 511, 1024])
+@pytest.mark.parametrize("e", NUM_EXPERTS)
+@pytest.mark.parametrize("topk", TOP_KS)
+@pytest.mark.parametrize("ep_size", EP_SIZE)
+@pytest.mark.parametrize("dtype", [torch.bfloat16])
+def test_pallas_moe(
+    m: int,
+    n: int,
+    k: int,
+    e: int,
+    topk: int,
+    ep_size: int,
+    dtype: torch.dtype,
+):
+    import torch_xla.core.xla_model as xm
+    with torch.device(xm.xla_device()):
+        a = torch.randn((m, k), dtype=dtype) / 10
+        w1 = torch.randn((e, 2 * n, k), dtype=dtype) / 10
+        w2 = torch.randn((e, k, n), dtype=dtype) / 10
+
+        score = torch.randn((m, e), dtype=dtype)
+
+        # TODO: Support ep
+        if ep_size > 1:
+            pytest.skip("No support for ep_size > 1 yet")
+        else:
+            e_map = None
+
+        # Run both implementations
+        torch_output = torch_moe(
+            hidden_states=a,
+            w1=w1,
+            w2=w2,
+            gating_output=score,
+            topk=topk,
+            global_num_experts=e,
+            expert_map=e_map,
+            renormalize=False,
+        )
+
+        pallas_output = pallas_moe(
+            hidden_states=a,
+            w1=w1,
+            w2=w2,
+            gating_output=score,
+            topk=topk,
+            global_num_experts=e,
+            expert_map=e_map,
+            renormalize=False,
+        )
+        xm.mark_step()
+
+    # Compare outputs
+    torch.testing.assert_close(
+        pallas_output.cpu(),
+        torch_output.cpu(),
+        atol=2e-2,
+        rtol=0,
+    )
diff --git a/vllm/attention/backends/pallas.py b/vllm/attention/backends/pallas.py
index 91d20a4e7..19642a939 100644
--- a/vllm/attention/backends/pallas.py
+++ b/vllm/attention/backends/pallas.py
@@ -123,7 +123,8 @@ class PallasAttentionBackendImpl(AttentionImpl):
         self.num_queries_per_kv = self.num_heads // self.num_kv_heads
         self.logits_soft_cap = logits_soft_cap
         if head_size % 128 != 0:
-            raise NotImplementedError("Head size must be a multiple of 128.")
+            raise NotImplementedError(
+                f"Head size must be a multiple of 128, found {head_size}.")
         if alibi_slopes is not None:
             raise NotImplementedError("Alibi slopes is not supported.")
         if sliding_window is not None:
diff --git a/vllm/model_executor/layers/fused_moe/moe_pallas.py b/vllm/model_executor/layers/fused_moe/moe_pallas.py
index 0365afa10..8f28b64ed 100644
--- a/vllm/model_executor/layers/fused_moe/moe_pallas.py
+++ b/vllm/model_executor/layers/fused_moe/moe_pallas.py
@@ -11,7 +11,9 @@ def fused_moe(
     w2: torch.Tensor,
     gating_output: torch.Tensor,
     topk: int,
-    renormalize: bool,
+    global_num_experts: int,
+    expert_map: torch.Tensor = None,
+    renormalize: bool = False,
 ) -> torch.Tensor:
     """
     Args:
@@ -20,6 +22,7 @@ def fused_moe(
         w2: [num_experts, hidden_size, intermediate_size]
         gating_output: [*, num_experts]
     """
+    assert expert_map is None, "expert_map is not supported for pallas MoE."
     orig_shape = hidden_states.shape
     hidden_size = hidden_states.shape[-1]
     num_tokens = hidden_states.shape[:-1].numel()
-- 
GitLab


From 950b71186f9696a60f1a53cd1a033f7fef952500 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Tue, 6 May 2025 21:00:10 -0400
Subject: [PATCH 186/461] Replace lm-eval bash script with pytest and use
 enforce_eager for faster CI (#17717)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 .buildkite/lm-eval-harness/conftest.py        | 39 ++++++++++++
 .buildkite/lm-eval-harness/run-tests.sh       | 59 -------------------
 .../test_lm_eval_correctness.py               | 41 ++++---------
 .buildkite/test-pipeline.yaml                 |  4 +-
 4 files changed, 52 insertions(+), 91 deletions(-)
 create mode 100644 .buildkite/lm-eval-harness/conftest.py
 delete mode 100644 .buildkite/lm-eval-harness/run-tests.sh

diff --git a/.buildkite/lm-eval-harness/conftest.py b/.buildkite/lm-eval-harness/conftest.py
new file mode 100644
index 000000000..a0bcc993e
--- /dev/null
+++ b/.buildkite/lm-eval-harness/conftest.py
@@ -0,0 +1,39 @@
+# SPDX-License-Identifier: Apache-2.0
+from pathlib import Path
+
+import pytest
+
+
+def pytest_addoption(parser):
+    parser.addoption(
+        "--config-list-file",
+        action="store",
+        help="Path to the file listing model config YAMLs (one per line)")
+    parser.addoption("--tp-size",
+                     action="store",
+                     default="1",
+                     help="Tensor parallel size to use for evaluation")
+
+
+@pytest.fixture(scope="session")
+def config_list_file(pytestconfig, config_dir):
+    rel_path = pytestconfig.getoption("--config-list-file")
+    return config_dir / rel_path
+
+
+@pytest.fixture(scope="session")
+def tp_size(pytestconfig):
+    return pytestconfig.getoption("--tp-size")
+
+
+def pytest_generate_tests(metafunc):
+    if "config_filename" in metafunc.fixturenames:
+        rel_path = metafunc.config.getoption("--config-list-file")
+        config_list_file = Path(rel_path).resolve()
+        config_dir = config_list_file.parent
+        with open(config_list_file, encoding="utf-8") as f:
+            configs = [
+                config_dir / line.strip() for line in f
+                if line.strip() and not line.startswith("#")
+            ]
+        metafunc.parametrize("config_filename", configs)
diff --git a/.buildkite/lm-eval-harness/run-tests.sh b/.buildkite/lm-eval-harness/run-tests.sh
deleted file mode 100644
index 26f33b744..000000000
--- a/.buildkite/lm-eval-harness/run-tests.sh
+++ /dev/null
@@ -1,59 +0,0 @@
-#!/bin/bash
-
-usage() {
-    echo``
-    echo "Runs lm eval harness on GSM8k using vllm and compares to "
-    echo "precomputed baseline (measured by HF transformers.)"
-    echo
-    echo "usage: ${0} <options>"
-    echo
-    echo "  -c    - path to the test data config (e.g. configs/small-models.txt)"
-    echo "  -t    - tensor parallel size"
-    echo
-}
-
-SUCCESS=0
-
-while getopts "c:t:" OPT; do
-  case ${OPT} in
-    c ) 
-        CONFIG="$OPTARG"
-        ;;
-    t )
-        TP_SIZE="$OPTARG"
-        ;;
-    \? )
-        usage
-        exit 1
-        ;;
-  esac
-done
-
-# Parse list of configs.
-IFS=$'\n' read -d '' -r -a MODEL_CONFIGS < "$CONFIG"
-
-for MODEL_CONFIG in "${MODEL_CONFIGS[@]}"
-do
-    LOCAL_SUCCESS=0
-    
-    echo "=== RUNNING MODEL: $MODEL_CONFIG WITH TP SIZE: $TP_SIZE==="
-
-    export LM_EVAL_TEST_DATA_FILE=$PWD/configs/${MODEL_CONFIG}
-    export LM_EVAL_TP_SIZE=$TP_SIZE
-    pytest -s test_lm_eval_correctness.py || LOCAL_SUCCESS=$?
-
-    if [[ $LOCAL_SUCCESS == 0 ]]; then
-        echo "=== PASSED MODEL: ${MODEL_CONFIG} ==="
-    else
-        echo "=== FAILED MODEL: ${MODEL_CONFIG} ==="
-    fi
-
-    SUCCESS=$((SUCCESS + LOCAL_SUCCESS))
-
-done
-
-if [ "${SUCCESS}" -eq "0" ]; then
-    exit 0
-else
-    exit 1
-fi
diff --git a/.buildkite/lm-eval-harness/test_lm_eval_correctness.py b/.buildkite/lm-eval-harness/test_lm_eval_correctness.py
index 6015a83e8..c5411daf0 100644
--- a/.buildkite/lm-eval-harness/test_lm_eval_correctness.py
+++ b/.buildkite/lm-eval-harness/test_lm_eval_correctness.py
@@ -3,35 +3,25 @@
 LM eval harness on model to compare vs HF baseline computed offline.
 Configs are found in configs/$MODEL.yaml
 
-* export LM_EVAL_TEST_DATA_FILE=configs/Meta-Llama-3-70B-Instruct.yaml
-* export LM_EVAL_TP_SIZE=4 
-* pytest -s test_lm_eval_correctness.py
+pytest -s -v test_lm_eval_correctness.py \
+    --config-list-file=configs/models-small.txt \
+    --tp-size=1
 """
 
-import os
-from pathlib import Path
-
 import lm_eval
-import numpy
-import pytest
+import numpy as np
 import yaml
 
 RTOL = 0.08
-TEST_DATA_FILE = os.environ.get(
-    "LM_EVAL_TEST_DATA_FILE",
-    ".buildkite/lm-eval-harness/configs/Meta-Llama-3-8B-Instruct.yaml")
-
-TP_SIZE = os.environ.get("LM_EVAL_TP_SIZE", 1)
 
 
-def launch_lm_eval(eval_config):
+def launch_lm_eval(eval_config, tp_size):
     trust_remote_code = eval_config.get('trust_remote_code', False)
-
     model_args = f"pretrained={eval_config['model_name']}," \
-                 f"tensor_parallel_size={TP_SIZE}," \
+                 f"tensor_parallel_size={tp_size}," \
+                 f"enforce_eager=true," \
                  f"add_bos_token=true," \
                  f"trust_remote_code={trust_remote_code}"
-
     results = lm_eval.simple_evaluate(
         model="vllm",
         model_args=model_args,
@@ -39,22 +29,14 @@ def launch_lm_eval(eval_config):
         num_fewshot=eval_config["num_fewshot"],
         limit=eval_config["limit"],
         batch_size="auto")
-
     return results
 
 
-def test_lm_eval_correctness():
-    eval_config = yaml.safe_load(
-        Path(TEST_DATA_FILE).read_text(encoding="utf-8"))
-
-    if eval_config[
-            "model_name"] == "nm-testing/Meta-Llama-3-70B-Instruct-FBGEMM-nonuniform":  #noqa: E501
-        pytest.skip("FBGEMM is currently failing on main.")
+def test_lm_eval_correctness_param(config_filename, tp_size):
+    eval_config = yaml.safe_load(config_filename.read_text(encoding="utf-8"))
 
-    # Launch eval requests.
-    results = launch_lm_eval(eval_config)
+    results = launch_lm_eval(eval_config, tp_size)
 
-    # Confirm scores match ground truth.
     success = True
     for task in eval_config["tasks"]:
         for metric in task["metrics"]:
@@ -62,8 +44,7 @@ def test_lm_eval_correctness():
             measured_value = results["results"][task["name"]][metric["name"]]
             print(f'{task["name"]} | {metric["name"]}: '
                   f'ground_truth={ground_truth} | measured={measured_value}')
-            success = success and numpy.isclose(
+            success = success and np.isclose(
                 ground_truth, measured_value, rtol=RTOL)
 
-    # Assert at the end, print all scores even on failure for debugging.
     assert success
diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index b3005b1b4..01d04759f 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -408,7 +408,7 @@ steps:
   - vllm/model_executor/layers/quantization
   commands:
   - export VLLM_WORKER_MULTIPROC_METHOD=spawn
-  - bash ./run-tests.sh -c configs/models-small.txt -t 1
+  - pytest -s -v test_lm_eval_correctness.py --config-list-file=configs/models-small.txt --tp-size=1
 
 - label: OpenAI API correctness
   source_file_dependencies:
@@ -713,4 +713,4 @@ steps:
   - vllm/model_executor/layers/quantization
   commands:
   - export VLLM_WORKER_MULTIPROC_METHOD=spawn
-  - bash ./run-tests.sh -c configs/models-large.txt -t 4
+  - pytest -s -v test_lm_eval_correctness.py --config-list-file=configs/models-large.txt --tp-size=4
-- 
GitLab


From 8d84d836d17bdabe4c640021bc6f8bd11a546a44 Mon Sep 17 00:00:00 2001
From: Woosuk Kwon <woosuk.kwon@berkeley.edu>
Date: Tue, 6 May 2025 19:51:26 -0700
Subject: [PATCH 187/461] [BugFix][Spec Decode] Fix hidden size mismatch
 between target and eagle head (#17740)

Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>
---
 vllm/v1/spec_decode/eagle.py | 27 +++++++++++++--------------
 1 file changed, 13 insertions(+), 14 deletions(-)

diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index 2293410e7..0989c7e19 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -28,23 +28,25 @@ class EagleProposer:
         device: torch.device,
     ):
         self.vllm_config = vllm_config
-        self.method = self.vllm_config.speculative_config.method
-        self.num_speculative_tokens = (
-            vllm_config.speculative_config.num_speculative_tokens)
-        self.max_model_len = vllm_config.model_config.max_model_len
-        self.block_size = vllm_config.cache_config.block_size
+        self.speculative_config = vllm_config.speculative_config
+        self.draft_model_config = self.speculative_config.draft_model_config
+        self.method = self.speculative_config.method
 
         self.dtype = vllm_config.model_config.dtype
-
-        self.max_num_tokens = vllm_config.scheduler_config \
-            .max_num_batched_tokens
-
-        self.hidden_size = vllm_config.model_config.get_hidden_size()
+        self.max_model_len = vllm_config.model_config.max_model_len
+        self.block_size = vllm_config.cache_config.block_size
+        self.num_speculative_tokens = (
+            self.speculative_config.num_speculative_tokens)
+        self.max_num_tokens = (
+            vllm_config.scheduler_config.max_num_batched_tokens)
+        # We need to get the hidden size from the draft model config because
+        # the draft model's hidden size can be different from the target model's
+        # hidden size (e.g., Llama 3.3 70B).
+        self.hidden_size = self.draft_model_config.get_hidden_size()
 
         self.use_cuda_graph = (self.vllm_config.compilation_config.level
                                == CompilationLevel.PIECEWISE and
                                not self.vllm_config.model_config.enforce_eager)
-
         self.cudagraph_batch_sizes = list(
             reversed(
                 self.vllm_config.compilation_config.cudagraph_capture_sizes))
@@ -56,7 +58,6 @@ class EagleProposer:
         self.positions = torch.zeros(self.max_num_tokens,
                                      dtype=torch.int64,
                                      device=device)
-
         self.hidden_states = torch.zeros(
             (self.max_num_tokens, self.hidden_size),
             dtype=self.dtype,
@@ -131,7 +132,6 @@ class EagleProposer:
             num_input_tokens = num_tokens
         # copy inputs to buffer for cudagraph
         self.positions[:num_tokens] = target_positions
-
         self.hidden_states[:num_tokens] = target_hidden_states
 
         with set_forward_context(attn_metadata,
@@ -209,7 +209,6 @@ class EagleProposer:
             # copy inputs to buffer for cudagraph
             self.input_ids[:batch_size] = input_ids
             self.positions[:batch_size] = clamped_positions
-
             self.hidden_states[:batch_size] = hidden_states
 
             # Run the model.
-- 
GitLab


From 822de7fb9426dced9cba62f4d470176831cb60f0 Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Wed, 7 May 2025 12:42:26 +0800
Subject: [PATCH 188/461] [Misc] Split model loader (#17712)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 .../test_runai_model_streamer_loader.py       |    5 +-
 tests/test_sharded_state_loader.py            |    2 +-
 tests/utils.py                                |    2 +-
 vllm/config.py                                |    2 +-
 vllm/model_executor/model_loader/__init__.py  |   58 +-
 .../model_loader/base_loader.py               |   23 +
 .../model_loader/bitsandbytes_loader.py       |  568 ++++++
 .../model_loader/default_loader.py            |  293 ++++
 .../model_loader/dummy_loader.py              |   37 +
 .../model_loader/gguf_loader.py               |  113 ++
 vllm/model_executor/model_loader/loader.py    | 1544 -----------------
 .../model_loader/runai_streamer_loader.py     |  120 ++
 .../model_loader/sharded_state_loader.py      |  210 +++
 .../model_loader/tensorizer_loader.py         |  119 ++
 vllm/model_executor/model_loader/utils.py     |  133 +-
 vllm/model_executor/models/mllama4.py         |    4 +-
 vllm/model_executor/models/ultravox.py        |    2 +-
 vllm/model_executor/models/utils.py           |    4 +-
 vllm/v1/spec_decode/eagle.py                  |    2 +-
 vllm/v1/worker/gpu_worker.py                  |    2 +-
 vllm/worker/model_runner.py                   |    4 +-
 21 files changed, 1681 insertions(+), 1566 deletions(-)
 create mode 100644 vllm/model_executor/model_loader/base_loader.py
 create mode 100644 vllm/model_executor/model_loader/bitsandbytes_loader.py
 create mode 100644 vllm/model_executor/model_loader/default_loader.py
 create mode 100644 vllm/model_executor/model_loader/dummy_loader.py
 create mode 100644 vllm/model_executor/model_loader/gguf_loader.py
 delete mode 100644 vllm/model_executor/model_loader/loader.py
 create mode 100644 vllm/model_executor/model_loader/runai_streamer_loader.py
 create mode 100644 vllm/model_executor/model_loader/sharded_state_loader.py
 create mode 100644 vllm/model_executor/model_loader/tensorizer_loader.py

diff --git a/tests/runai_model_streamer_test/test_runai_model_streamer_loader.py b/tests/runai_model_streamer_test/test_runai_model_streamer_loader.py
index aa91fa8e1..8b96184f5 100644
--- a/tests/runai_model_streamer_test/test_runai_model_streamer_loader.py
+++ b/tests/runai_model_streamer_test/test_runai_model_streamer_loader.py
@@ -2,8 +2,7 @@
 
 from vllm import SamplingParams
 from vllm.config import LoadConfig, LoadFormat
-from vllm.model_executor.model_loader.loader import (RunaiModelStreamerLoader,
-                                                     get_model_loader)
+from vllm.model_executor.model_loader import get_model_loader
 
 test_model = "openai-community/gpt2"
 
@@ -24,7 +23,7 @@ def get_runai_model_loader():
 
 def test_get_model_loader_with_runai_flag():
     model_loader = get_runai_model_loader()
-    assert isinstance(model_loader, RunaiModelStreamerLoader)
+    assert model_loader.__class__.__name__ == "RunaiModelStreamerLoader"
 
 
 def test_runai_model_loader_download_files(vllm_runner):
diff --git a/tests/test_sharded_state_loader.py b/tests/test_sharded_state_loader.py
index 94b0156e1..77fec0968 100644
--- a/tests/test_sharded_state_loader.py
+++ b/tests/test_sharded_state_loader.py
@@ -10,7 +10,7 @@ import torch
 from huggingface_hub import snapshot_download
 
 from vllm import LLM, SamplingParams
-from vllm.model_executor.model_loader.loader import ShardedStateLoader
+from vllm.model_executor.model_loader import ShardedStateLoader
 
 prompts = [
     "Hello, my name is",
diff --git a/tests/utils.py b/tests/utils.py
index 0983687e2..bf38d7843 100644
--- a/tests/utils.py
+++ b/tests/utils.py
@@ -29,7 +29,7 @@ from vllm.distributed import (ensure_model_parallel_initialized,
                               init_distributed_environment)
 from vllm.engine.arg_utils import AsyncEngineArgs
 from vllm.entrypoints.openai.cli_args import make_arg_parser
-from vllm.model_executor.model_loader.loader import get_model_loader
+from vllm.model_executor.model_loader import get_model_loader
 from vllm.platforms import current_platform
 from vllm.transformers_utils.tokenizer import get_tokenizer
 from vllm.utils import (FlexibleArgumentParser, GB_bytes,
diff --git a/vllm/config.py b/vllm/config.py
index 40beace30..23f69c612 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -54,7 +54,7 @@ if TYPE_CHECKING:
     from vllm.executor.executor_base import ExecutorBase
     from vllm.model_executor.layers.quantization.base_config import (
         QuantizationConfig)
-    from vllm.model_executor.model_loader.loader import BaseModelLoader
+    from vllm.model_executor.model_loader import BaseModelLoader
 
     ConfigType = type[DataclassInstance]
 else:
diff --git a/vllm/model_executor/model_loader/__init__.py b/vllm/model_executor/model_loader/__init__.py
index 9048c70c7..92a0b0923 100644
--- a/vllm/model_executor/model_loader/__init__.py
+++ b/vllm/model_executor/model_loader/__init__.py
@@ -2,19 +2,67 @@
 
 from torch import nn
 
-from vllm.config import VllmConfig
-from vllm.model_executor.model_loader.loader import (BaseModelLoader,
-                                                     get_model_loader)
+from vllm.config import LoadConfig, LoadFormat, VllmConfig
+from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+from vllm.model_executor.model_loader.bitsandbytes_loader import (
+    BitsAndBytesModelLoader)
+from vllm.model_executor.model_loader.default_loader import DefaultModelLoader
+from vllm.model_executor.model_loader.dummy_loader import DummyModelLoader
+from vllm.model_executor.model_loader.gguf_loader import GGUFModelLoader
+from vllm.model_executor.model_loader.runai_streamer_loader import (
+    RunaiModelStreamerLoader)
+from vllm.model_executor.model_loader.sharded_state_loader import (
+    ShardedStateLoader)
+from vllm.model_executor.model_loader.tensorizer_loader import TensorizerLoader
 from vllm.model_executor.model_loader.utils import (
     get_architecture_class_name, get_model_architecture)
 
 
+def get_model_loader(load_config: LoadConfig) -> BaseModelLoader:
+    """Get a model loader based on the load format."""
+    if isinstance(load_config.load_format, type):
+        return load_config.load_format(load_config)
+
+    if load_config.load_format == LoadFormat.DUMMY:
+        return DummyModelLoader(load_config)
+
+    if load_config.load_format == LoadFormat.TENSORIZER:
+        return TensorizerLoader(load_config)
+
+    if load_config.load_format == LoadFormat.SHARDED_STATE:
+        return ShardedStateLoader(load_config)
+
+    if load_config.load_format == LoadFormat.BITSANDBYTES:
+        return BitsAndBytesModelLoader(load_config)
+
+    if load_config.load_format == LoadFormat.GGUF:
+        return GGUFModelLoader(load_config)
+
+    if load_config.load_format == LoadFormat.RUNAI_STREAMER:
+        return RunaiModelStreamerLoader(load_config)
+
+    if load_config.load_format == LoadFormat.RUNAI_STREAMER_SHARDED:
+        return ShardedStateLoader(load_config, runai_model_streamer=True)
+
+    return DefaultModelLoader(load_config)
+
+
 def get_model(*, vllm_config: VllmConfig) -> nn.Module:
     loader = get_model_loader(vllm_config.load_config)
     return loader.load_model(vllm_config=vllm_config)
 
 
 __all__ = [
-    "get_model", "get_model_loader", "BaseModelLoader",
-    "get_architecture_class_name", "get_model_architecture"
+    "get_model",
+    "get_model_loader",
+    "get_architecture_class_name",
+    "get_model_architecture",
+    "BaseModelLoader",
+    "BitsAndBytesModelLoader",
+    "GGUFModelLoader",
+    "DefaultModelLoader",
+    "DummyModelLoader",
+    "RunaiModelStreamerLoader",
+    "ShardedStateLoader",
+    "TensorizerLoader",
 ]
diff --git a/vllm/model_executor/model_loader/base_loader.py b/vllm/model_executor/model_loader/base_loader.py
new file mode 100644
index 000000000..f17cab05c
--- /dev/null
+++ b/vllm/model_executor/model_loader/base_loader.py
@@ -0,0 +1,23 @@
+# SPDX-License-Identifier: Apache-2.0
+from abc import ABC, abstractmethod
+
+import torch.nn as nn
+
+from vllm.config import LoadConfig, ModelConfig, VllmConfig
+
+
+class BaseModelLoader(ABC):
+    """Base class for model loaders."""
+
+    def __init__(self, load_config: LoadConfig):
+        self.load_config = load_config
+
+    @abstractmethod
+    def download_model(self, model_config: ModelConfig) -> None:
+        """Download a model so that it can be immediately loaded."""
+        raise NotImplementedError
+
+    @abstractmethod
+    def load_model(self, *, vllm_config: VllmConfig) -> nn.Module:
+        """Load a model with the given configurations."""
+        raise NotImplementedError
diff --git a/vllm/model_executor/model_loader/bitsandbytes_loader.py b/vllm/model_executor/model_loader/bitsandbytes_loader.py
new file mode 100644
index 000000000..57189bfaf
--- /dev/null
+++ b/vllm/model_executor/model_loader/bitsandbytes_loader.py
@@ -0,0 +1,568 @@
+# SPDX-License-Identifier: Apache-2.0
+# ruff: noqa: SIM117
+import copy
+import fnmatch
+import glob
+import itertools
+import math
+import os
+from typing import Any, Callable, Dict, Generator, List, Optional, Tuple
+
+import numpy as np
+import torch
+from huggingface_hub import HfApi
+from torch import nn
+from transformers.utils import SAFE_WEIGHTS_INDEX_NAME
+
+from vllm.config import LoadConfig, ModelConfig, VllmConfig
+from vllm.distributed import (get_tensor_model_parallel_rank,
+                              get_tensor_model_parallel_world_size)
+# yapf: enable
+from vllm.logger import init_logger
+# yapf conflicts with isort for this block
+# yapf: disable
+from vllm.model_executor.layers.linear import (LinearBase,
+                                               MergedColumnParallelLinear,
+                                               QKVParallelLinear,
+                                               ReplicatedLinear,
+                                               RowParallelLinear)
+from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+from vllm.model_executor.model_loader.utils import (ParamMapping,
+                                                    initialize_model,
+                                                    set_default_torch_dtype)
+from vllm.model_executor.model_loader.weight_utils import (
+    download_safetensors_index_file_from_hf, download_weights_from_hf,
+    filter_duplicate_safetensors_files, filter_files_not_needed_for_inference,
+    pt_weights_iterator, safetensors_weights_iterator)
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+
+logger = init_logger(__name__)
+
+
+class BitsAndBytesModelLoader(BaseModelLoader):
+    """Model loader to load model weights with BitAndBytes quantization."""
+
+    possible_config_file_names = ["adapter_config.json"]
+
+    def __init__(self, load_config: LoadConfig):
+        super().__init__(load_config)
+
+        # Save the module names without sharding.
+        self.unsharded_weights_modules: List[str] = []
+        # Save the module names that are sharded by column.
+        self.column_sharded_weights_modules: List[str] = []
+        # Store all module names (from transformers) that support
+        # BNB quantization.
+        self.target_modules: List[str] = []
+        # mapping weight names from transformers to vllm.
+        self.weight_mapper: Callable = lambda name: name
+
+    def _get_weight_files(
+        self,
+        model_name_or_path: str,
+        allowed_patterns: List[str],
+        revision: Optional[str] = None,
+    ) -> Tuple[str, List[str], str]:
+        """Retrieve weight files. Download the files if necessary.
+
+        Return the weight files and the file pattern."""
+        is_local = os.path.isdir(model_name_or_path)
+
+        if is_local:
+            for pattern in allowed_patterns:
+                weight_files = glob.glob(
+                    os.path.join(model_name_or_path, pattern))
+                if weight_files:
+                    return model_name_or_path, weight_files, pattern
+        else:
+            hf_api = HfApi()
+            repo_files = hf_api.list_repo_files(repo_id=model_name_or_path)
+            for pattern in allowed_patterns:
+                matching_files = fnmatch.filter(repo_files, pattern)
+                if matching_files:
+                    hf_folder = download_weights_from_hf(
+                        model_name_or_path,
+                        self.load_config.download_dir,
+                        [pattern],
+                        revision,
+                        ignore_patterns=self.load_config.ignore_patterns,
+                    )
+                    return hf_folder, glob.glob(
+                        os.path.join(hf_folder, pattern)), pattern
+
+        raise RuntimeError(
+            f"No model weights found in: `{model_name_or_path}`")
+
+    def _prepare_weights(self, model_name_or_path: str,
+                         revision: Optional[str]) -> Tuple[List[str], bool]:
+        """Prepare weight files for the model."""
+
+        allowed_patterns = ["*.safetensors", "*.bin", "*.pt"]
+
+        hf_folder, hf_weights_files, matched_pattern = self._get_weight_files(
+            model_name_or_path, allowed_patterns, revision)
+
+        use_safetensors = matched_pattern == "*.safetensors"
+        is_local = os.path.isdir(model_name_or_path)
+        index_file = SAFE_WEIGHTS_INDEX_NAME
+        if use_safetensors:
+            # For models like Mistral-7B-Instruct-v0.3
+            # there are both sharded safetensors files and a consolidated
+            # safetensors file. Using both breaks.
+            # Here, we download the `model.safetensors.index.json` and filter
+            # any files not found in the index.
+            if not is_local:
+                download_safetensors_index_file_from_hf(
+                    model_name_or_path,
+                    index_file,
+                    self.load_config.download_dir,
+                    revision,
+                )
+            hf_weights_files = filter_duplicate_safetensors_files(
+                hf_weights_files, hf_folder, index_file)
+        else:
+            hf_weights_files = filter_files_not_needed_for_inference(
+                hf_weights_files)
+
+        if len(hf_weights_files) == 0:
+            raise RuntimeError(
+                f"Cannot find any model weights with `{model_name_or_path}`")
+
+        return hf_weights_files, use_safetensors
+
+    def _hf_weight_iter(self, hf_weights_files, use_safetensors: bool):
+        if use_safetensors:
+            iterator = safetensors_weights_iterator(
+                hf_weights_files,
+                self.load_config.use_tqdm_on_load,
+            )
+        else:
+            iterator = pt_weights_iterator(
+                hf_weights_files,
+                self.load_config.use_tqdm_on_load,
+                self.load_config.pt_load_map_location,
+            )
+        for org_name, param in iterator:
+            # mapping weight names from transformers to vllm while preserving
+            # original names.
+            mapped_name = self.weight_mapper(org_name)
+            yield org_name, mapped_name, param
+
+    def _get_quantized_weights_iterator(
+        self,
+        model_name_or_path: str,
+        revision: Optional[str],
+        pre_quant: bool,
+        load_8bit: bool,
+    ) -> Tuple[Generator[Tuple[str, torch.Tensor], None, None], Dict[str,
+                                                                     Any]]:
+        """Get an iterator to the model weights with bitsandbytes quantization,
+        as well as the quantization state dictionary."""
+
+        # only load the bitsandbytes module when needed
+        try:
+            import bitsandbytes
+
+            if bitsandbytes.__version__ < "0.45.3":
+                raise ImportError("bitsandbytes version is wrong. Please "
+                                  "install bitsandbytes>=0.45.3.")
+        except ImportError as err:
+            raise ImportError("Please install bitsandbytes>=0.45.3 via "
+                              "`pip install bitsandbytes>=0.45.3` to use "
+                              "bitsandbytes quantizer.") from err
+
+        hf_weights_files, use_safetensors = self._prepare_weights(
+            model_name_or_path, revision)
+
+        quant_state_dict: Dict[str, Any] = {}
+
+        if pre_quant:
+            if load_8bit:
+                return self._quantized_8bit_generator(
+                    hf_weights_files, use_safetensors,
+                    quant_state_dict), quant_state_dict
+            else:
+                return self._quantized_4bit_generator(
+                    hf_weights_files, use_safetensors,
+                    quant_state_dict), quant_state_dict
+
+        return self._unquantized_generator(hf_weights_files, use_safetensors,
+                                           quant_state_dict), quant_state_dict
+
+    def _is_8bit_weight_name(self, weight_name: str):
+        quantized_suffix = {".scb", ".weight_format"}
+        return any(weight_name.lower().endswith(suffix)
+                   for suffix in quantized_suffix)
+
+    def _is_4bit_weight_name(self, weight_name: str):
+        quantized_suffix = {
+            "absmax",
+            "quant_map",
+            "nested_absmax",
+            "nested_quant_map",
+            "bitsandbytes",
+        }
+        suffix = weight_name.split(".")[-1]
+        return any(q_suffix in suffix for q_suffix in quantized_suffix)
+
+    def _quantized_8bit_generator(self, hf_weights_files, use_safetensors,
+                                  quant_state_dict) -> Generator:
+        for (
+                org_weight_name,
+                mapped_weight_name,
+                weight_tensor,
+        ) in self._hf_weight_iter(hf_weights_files, use_safetensors):
+            if not mapped_weight_name.lower().endswith(".scb"):
+                continue
+
+            weight_key = mapped_weight_name.lower().replace(".scb", ".weight")
+            quant_state_dict[weight_key] = weight_tensor
+
+        for (
+                org_weight_name,
+                mapped_weight_name,
+                weight_tensor,
+        ) in self._hf_weight_iter(hf_weights_files, use_safetensors):
+            if self._is_8bit_weight_name(mapped_weight_name):
+                continue
+
+            if mapped_weight_name in quant_state_dict:
+                set_weight_attrs(weight_tensor, {"load_in_8bit": True})
+                yield org_weight_name, weight_tensor
+            else:
+                yield org_weight_name, weight_tensor
+
+    def _quantized_4bit_generator(self, hf_weights_files, use_safetensors,
+                                  quant_state_dict) -> Generator:
+        from bitsandbytes.functional import QuantState
+
+        # First iterate over all quant state weights
+        weight_iterator = self._hf_weight_iter(hf_weights_files,
+                                               use_safetensors)
+        temp_state_dict = {}
+        for (
+                org_weight_name,
+                mapped_weight_name,
+                weight_tensor,
+        ) in weight_iterator:
+            if not self._is_4bit_weight_name(mapped_weight_name):
+                continue
+            # bitsandbytes library requires
+            # weight.quant_state.bitsandbytes__* in CPU
+            if "quant_state.bitsandbytes" in mapped_weight_name:
+                temp_state_dict[mapped_weight_name] = weight_tensor.cpu().data
+            else:
+                temp_state_dict[mapped_weight_name] = weight_tensor
+
+        # Closure to parse quant_state for each prequant weight
+        def _parse_quant_state(param_name: str,
+                               temp_state_dict: Dict) -> QuantState:
+            quant_state = {}
+            for k in temp_state_dict:
+                if param_name + "." in k:
+                    quant_state[k] = temp_state_dict[k]
+
+            return QuantState.from_dict(quant_state,
+                                        device=current_platform.device_type)
+
+        # Second iterate over all prequant and normal weights
+        # pre quantized weights would have a quant_state
+        for (
+                org_weight_name,
+                mapped_weight_name,
+                weight_tensor,
+        ) in self._hf_weight_iter(hf_weights_files, use_safetensors):
+            if self._is_4bit_weight_name(mapped_weight_name):
+                continue
+
+            if (f"{mapped_weight_name}.quant_state.bitsandbytes__nf4"
+                    in temp_state_dict) or (
+                        f"{mapped_weight_name}.quant_state.bitsandbytes__fp4"
+                        in temp_state_dict):
+                quant_state = _parse_quant_state(mapped_weight_name,
+                                                 temp_state_dict)
+                quant_state_dict[mapped_weight_name] = quant_state
+                yield org_weight_name, weight_tensor
+            else:
+                yield org_weight_name, weight_tensor
+
+    def _unquantized_generator(self, hf_weights_files, use_safetensors,
+                               quant_state_dict) -> Generator:
+        from bitsandbytes.functional import quantize_4bit
+
+        tp_size = get_tensor_model_parallel_world_size()
+        tp_rank = get_tensor_model_parallel_rank()
+
+        for (
+                org_weight_name,
+                mapped_weight_name,
+                weight_tensor,
+        ) in self._hf_weight_iter(hf_weights_files, use_safetensors):
+            if any(target_module in mapped_weight_name
+                   for target_module in self.target_modules
+                   ) and mapped_weight_name.endswith(".weight"):
+                # Without sharding
+                if any(
+                        mapped_weight_name.startswith(module)
+                        for module in self.unsharded_weights_modules):
+                    weight_sub_tensor = weight_tensor
+                # Shard by column
+                elif any(
+                        mapped_weight_name.startswith(module)
+                        for module in self.column_sharded_weights_modules):
+                    total_size = weight_tensor.size(-1)
+                    start_index = total_size // tp_size * tp_rank
+                    end_index = total_size // tp_size * (tp_rank + 1)
+                    weight_sub_tensor = weight_tensor[...,
+                                                      start_index:end_index]
+                # Weights have fused on disk. In this case, we assume that the
+                # weight and module use same name.
+                elif any(
+                        mapped_weight_name.startswith(module)
+                        for module in self.maybe_fused_weights_modules):
+                    # special case for fused weights
+                    # get the size of each shard weight tensor
+                    total_shard_sizes = next(
+                        (sizes for module, sizes in
+                         self.maybe_fused_weights_modules.items()
+                         if mapped_weight_name.startswith(module)))
+                    total_size = weight_tensor.size(0)
+                    assert total_size == sum(total_shard_sizes)
+                    # get the start/end index of each shard weight tensor
+                    total_start_index = list(
+                        itertools.accumulate([0] + total_shard_sizes))[:-1]
+                    shard_weights_index = [(
+                        idx + size // tp_size * tp_rank,
+                        idx + size // tp_size * (tp_rank + 1),
+                    ) for idx, size in zip(total_start_index,
+                                           total_shard_sizes)]
+                    # slice and reorder the weight tensor
+                    weight_tensor = [
+                        weight_tensor[start_index:end_index, ...]
+                        for start_index, end_index in shard_weights_index
+                    ]
+                    weight_sub_tensor = torch.cat(weight_tensor, dim=0)
+                # Shard by row
+                else:
+                    total_size = weight_tensor.size(0)
+                    start_index = total_size // tp_size * tp_rank
+                    end_index = total_size // tp_size * (tp_rank + 1)
+                    weight_sub_tensor = weight_tensor[start_index:end_index,
+                                                      ...]
+
+                # bitsandbytes requires data in GPU
+                if weight_sub_tensor.is_cuda:
+                    loaded_weight = weight_sub_tensor
+                else:
+                    loaded_weight = weight_sub_tensor.cuda()
+
+                # remove the following after the issue is fixed:
+                # https://github.com/bitsandbytes-foundation/bitsandbytes/issues/1342
+                if loaded_weight.is_contiguous() is False:
+                    loaded_weight = loaded_weight.contiguous()
+
+                with set_default_torch_dtype(torch.float32):
+                    processed_weight, quant_state = quantize_4bit(
+                        loaded_weight,
+                        compress_statistics=True,
+                        quant_type="nf4",
+                    )
+
+                quant_state_dict[mapped_weight_name] = quant_state
+            else:
+                processed_weight = weight_tensor
+            yield org_weight_name, processed_weight
+
+    def _get_bnb_target_modules(self, model: nn.Module) -> None:
+
+        for name, module in model.named_modules():
+            if isinstance(module, (LinearBase, )):
+                if modules_info := self.modules_mapping.get_sub_modules(name):
+                    # Map vllm's names to transformers's names.
+                    rep_name, sub_modules = modules_info
+                    for sub_name in sub_modules:
+                        self.target_modules.append(
+                            name.replace(rep_name, sub_name))
+                # Add original module name even if the module has stacked map,
+                # in case model has a mixture of disk-merged and disk-splitted
+                # weights with same last name.
+                self.target_modules.append(name)
+
+        assert (self.target_modules
+                ), "vllm currently does not support BNB quantization for"
+        f" {type(model).__name__}"
+
+    def _load_weights(self, model_config: ModelConfig,
+                      model: nn.Module) -> None:
+        if not hasattr(model, "load_weights"):
+            raise AttributeError(
+                "The required method 'load_weights' is not defined in class"
+                f" {type(model).__name__}.")
+
+        if not hasattr(model, "packed_modules_mapping"):
+            raise AttributeError(
+                f"Model {type(model).__name__} does not support BitsAndBytes "
+                "quantization yet. No 'packed_modules_mapping' found.")
+
+        self.modules_mapping = ParamMapping(
+            copy.deepcopy(model.packed_modules_mapping))
+
+        # For some models like Molmo, we need to use hf_to_vllm_mapper
+        # to ensure correct loading of weights.
+        if hf_to_vllm_mapper := getattr(model, "hf_to_vllm_mapper", None):
+            self.weight_mapper = lambda name: hf_to_vllm_mapper._map_name(name)
+
+        # Modules whose weights might have fused on disk
+        # we need their output_sizes to make shard in flight correctly with TP
+        self.maybe_fused_weights_modules: Dict[str, List[int]] = {}
+        self._get_bnb_target_modules(model)
+        for name, module in model.named_modules():
+            # Some modules like `ReplicatedLinear` should not have their weights
+            # sharded. The reason for implementing it this way is to avoid new
+            # static variable in the model implementation.
+            if isinstance(module, (ReplicatedLinear, )):
+                self.unsharded_weights_modules.append(name)
+            # `QKVParallelLinear` and `MergedColumnParallelLinear` might have
+            # fused weights on disk. We need to use the output sizes of these
+            # modules to shard the weights correctly.
+            elif isinstance(module,
+                            (QKVParallelLinear, MergedColumnParallelLinear)):
+                self.maybe_fused_weights_modules[name] = module.output_sizes
+            # In TP, these weights are partitioned along the column
+            # dimension (dim=-1)
+            elif isinstance(module, (RowParallelLinear, )):
+                self.column_sharded_weights_modules.append(name)
+
+        self.model_type = type(model).__name__
+
+        logger.info("Loading weights with BitsAndBytes quantization. "
+                    "May take a while ...")
+
+        quant_config = getattr(model_config.hf_config, "quantization_config",
+                               None)
+
+        pre_quant = False
+        if quant_config is not None:
+            quant_method = quant_config.get("quant_method")
+            if quant_method == "bitsandbytes":
+                pre_quant = True
+            else:
+                raise ValueError(
+                    f"BitsAndBytes loader does not support {quant_method} "
+                    "quantization")
+
+        # The quant_states in pre_quantized models cannot work with a split
+        # weight tensor. So TP does not work with pre_quantized bnb models.
+        if pre_quant and get_tensor_model_parallel_world_size() > 1:
+            raise ValueError(
+                "Prequant BitsAndBytes models with tensor parallelism is not "
+                "supported. Please try with pipeline parallelism.")
+
+        load_8bit = False
+        if pre_quant:
+            load_8bit = quant_config.get("load_in_8bit", False)
+
+        qweight_iterator, quant_state_dict = (
+            self._get_quantized_weights_iterator(model_config.model,
+                                                 model_config.revision,
+                                                 pre_quant, load_8bit))
+
+        weights_to_load = {name for name, _ in model.named_parameters()}
+        loaded_weights = model.load_weights(qweight_iterator)
+        # Some models may have weights loading tracker unimplemented.
+        if loaded_weights is not None:
+            weights_not_loaded = weights_to_load - loaded_weights
+            if weights_not_loaded:
+                raise ValueError("Following weights were not initialized from "
+                                 f"checkpoint: {weights_not_loaded}")
+
+        torch.cuda.empty_cache()
+
+        param_dict = dict(model.named_parameters())
+        stacked_quant_state_dict: Dict[str, Dict[int, Any]] = {}
+        # TODO: Change this lazy import to normal import
+        # after the checks are updated to run on a new version
+        from vllm.model_executor.models.utils import is_pp_missing_parameter
+
+        for quant_param_name in quant_state_dict:
+            if is_pp_missing_parameter(quant_param_name, model):
+                continue
+
+            non_stacked_param_name = quant_param_name
+
+            shard_index = 0
+            for shard_name, (
+                    weight_name,
+                    index,
+            ) in self.modules_mapping.inverse_packed_mapping.items():
+                # Some models, such as MiniCPM V2.5/2.6, contain both
+                # module names 'kv_proj' and 'qkv_proj'. To prevent 'kv_proj'
+                # from being incorrectly identified as being present in
+                # 'vpm.encoder.layers.0.self_attn.qkv_proj.weight
+                shard_pos = quant_param_name.find(shard_name)
+                can_correct_rename = (shard_pos
+                                      > 0) and (quant_param_name[shard_pos - 1]
+                                                == ".")
+                # If the quant_param_name is packed, it won't occur in the
+                # param_dict before renaming.
+                new_quant_param_name = quant_param_name.replace(
+                    shard_name, weight_name)
+                need_rename = (quant_param_name not in param_dict) \
+                              and (new_quant_param_name in param_dict)
+                if can_correct_rename and need_rename:
+                    shard_index = index
+                    quant_param_name = new_quant_param_name
+                    break
+
+            # Models like Clip/Siglip may skip some layers in initialization,
+            # causing unused quant_param_name in state_dict.
+            if quant_param_name not in param_dict:
+                continue
+
+            if quant_param_name not in stacked_quant_state_dict:
+                stacked_quant_state_dict[quant_param_name] = {}
+
+            stacked_quant_state_dict[quant_param_name][shard_index] = (
+                quant_state_dict[non_stacked_param_name])
+
+        # save quant_states and offsets as the attributes of the parameters
+        for param_name, param in param_dict.items():
+            if param_name in stacked_quant_state_dict:
+                quant_states = stacked_quant_state_dict[param_name]
+                set_weight_attrs(param, {"bnb_quant_state": quant_states})
+
+                pack_ratio = getattr(param, "pack_factor", -1)
+                if pack_ratio == -1:
+                    raise ValueError(
+                        f"pack_factor not set for parameter {param_name}.")
+
+                num_elements = [0] * len(quant_states)
+                for seq, quant_state in quant_states.items():
+                    num_elements[seq] = (math.prod(quant_state.shape) //
+                                         pack_ratio)
+
+                offsets = np.concatenate(([0], np.cumsum(num_elements)))
+                # Make torch infer_schema happy
+                offsets = torch.tensor(offsets).cpu()
+                set_weight_attrs(param, {"bnb_shard_offsets": offsets})
+
+                if load_8bit:
+                    set_weight_attrs(
+                        param, {"matmul_state": [None] * len(quant_states)})
+
+    def download_model(self, model_config: ModelConfig) -> None:
+        self._prepare_weights(model_config.model, model_config.revision)
+
+    def load_model(self, vllm_config: VllmConfig) -> nn.Module:
+        device_config = vllm_config.device_config
+        model_config = vllm_config.model_config
+
+        with set_default_torch_dtype(model_config.dtype):
+            with torch.device(device_config.device):
+
+                model = initialize_model(vllm_config=vllm_config)
+
+                self._load_weights(model_config, model)
+
+        return model.eval()
diff --git a/vllm/model_executor/model_loader/default_loader.py b/vllm/model_executor/model_loader/default_loader.py
new file mode 100644
index 000000000..c8bc4aeca
--- /dev/null
+++ b/vllm/model_executor/model_loader/default_loader.py
@@ -0,0 +1,293 @@
+# SPDX-License-Identifier: Apache-2.0
+import dataclasses
+import glob
+import os
+import time
+from typing import Generator, Iterable, List, Optional, Tuple, cast
+
+import huggingface_hub
+import torch
+from torch import nn
+from transformers.utils import SAFE_WEIGHTS_INDEX_NAME
+
+from vllm.config import LoadConfig, LoadFormat, ModelConfig, VllmConfig
+from vllm.envs import VLLM_USE_MODELSCOPE
+from vllm.logger import init_logger
+from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+from vllm.model_executor.model_loader.utils import (
+    initialize_model, process_weights_after_loading, set_default_torch_dtype)
+from vllm.model_executor.model_loader.weight_utils import (
+    download_safetensors_index_file_from_hf, download_weights_from_hf,
+    fastsafetensors_weights_iterator, filter_duplicate_safetensors_files,
+    filter_files_not_needed_for_inference, get_lock, np_cache_weights_iterator,
+    pt_weights_iterator, safetensors_weights_iterator)
+from vllm.platforms import current_platform
+
+logger = init_logger(__name__)
+
+
+class DefaultModelLoader(BaseModelLoader):
+    """Model loader that can load different file types from disk."""
+
+    @dataclasses.dataclass
+    class Source:
+        """A source for weights."""
+
+        model_or_path: str
+        """The model ID or path."""
+
+        revision: Optional[str]
+        """The optional model revision."""
+
+        prefix: str = ""
+        """A prefix to prepend to all weights."""
+
+        fall_back_to_pt: bool = True
+        """Whether .pt weights can be used."""
+
+        allow_patterns_overrides: Optional[list[str]] = None
+        """If defined, weights will load exclusively using these patterns."""
+
+    counter_before_loading_weights: float = 0.0
+    counter_after_loading_weights: float = 0.0
+
+    def __init__(self, load_config: LoadConfig):
+        super().__init__(load_config)
+        if load_config.model_loader_extra_config:
+            raise ValueError(f"Model loader extra config is not supported for "
+                             f"load format {load_config.load_format}")
+
+    def _maybe_download_from_modelscope(
+            self, model: str, revision: Optional[str]) -> Optional[str]:
+        """Download model from ModelScope hub if VLLM_USE_MODELSCOPE is True.
+
+        Returns the path to the downloaded model, or None if the model is not
+        downloaded from ModelScope."""
+        if VLLM_USE_MODELSCOPE:
+            # download model from ModelScope hub,
+            # lazy import so that modelscope is not required for normal use.
+            # pylint: disable=C.
+            from modelscope.hub.snapshot_download import snapshot_download
+
+            if not os.path.exists(model):
+                # Use file lock to prevent multiple processes from
+                # downloading the same model weights at the same time.
+                with get_lock(model, self.load_config.download_dir):
+                    model_path = snapshot_download(
+                        model_id=model,
+                        cache_dir=self.load_config.download_dir,
+                        local_files_only=huggingface_hub.constants.
+                        HF_HUB_OFFLINE,
+                        revision=revision,
+                        ignore_file_pattern=self.load_config.ignore_patterns,
+                    )
+            else:
+                model_path = model
+            return model_path
+        return None
+
+    def _prepare_weights(
+        self,
+        model_name_or_path: str,
+        revision: Optional[str],
+        fall_back_to_pt: bool,
+        allow_patterns_overrides: Optional[list[str]],
+    ) -> Tuple[str, List[str], bool]:
+        """Prepare weights for the model.
+
+        If the model is not local, it will be downloaded."""
+        model_name_or_path = (self._maybe_download_from_modelscope(
+            model_name_or_path, revision) or model_name_or_path)
+
+        is_local = os.path.isdir(model_name_or_path)
+        load_format = self.load_config.load_format
+        use_safetensors = False
+        index_file = SAFE_WEIGHTS_INDEX_NAME
+        # Some quantized models use .pt files for storing the weights.
+        if load_format == LoadFormat.AUTO:
+            allow_patterns = ["*.safetensors", "*.bin"]
+        elif (load_format == LoadFormat.SAFETENSORS
+              or load_format == LoadFormat.FASTSAFETENSORS):
+            use_safetensors = True
+            allow_patterns = ["*.safetensors"]
+        elif load_format == LoadFormat.MISTRAL:
+            use_safetensors = True
+            allow_patterns = ["consolidated*.safetensors"]
+            index_file = "consolidated.safetensors.index.json"
+        elif load_format == LoadFormat.PT:
+            allow_patterns = ["*.pt"]
+        elif load_format == LoadFormat.NPCACHE:
+            allow_patterns = ["*.bin"]
+        else:
+            raise ValueError(f"Unknown load_format: {load_format}")
+
+        if fall_back_to_pt:
+            allow_patterns += ["*.pt"]
+
+        if allow_patterns_overrides is not None:
+            allow_patterns = allow_patterns_overrides
+
+        if not is_local:
+            hf_folder = download_weights_from_hf(
+                model_name_or_path,
+                self.load_config.download_dir,
+                allow_patterns,
+                revision,
+                ignore_patterns=self.load_config.ignore_patterns,
+            )
+        else:
+            hf_folder = model_name_or_path
+
+        hf_weights_files: List[str] = []
+        for pattern in allow_patterns:
+            hf_weights_files += glob.glob(os.path.join(hf_folder, pattern))
+            if len(hf_weights_files) > 0:
+                if pattern == "*.safetensors":
+                    use_safetensors = True
+                break
+
+        if use_safetensors:
+            # For models like Mistral-7B-Instruct-v0.3
+            # there are both sharded safetensors files and a consolidated
+            # safetensors file. Using both breaks.
+            # Here, we download the `model.safetensors.index.json` and filter
+            # any files not found in the index.
+            if not is_local:
+                download_safetensors_index_file_from_hf(
+                    model_name_or_path,
+                    index_file,
+                    self.load_config.download_dir,
+                    revision,
+                )
+            hf_weights_files = filter_duplicate_safetensors_files(
+                hf_weights_files, hf_folder, index_file)
+        else:
+            hf_weights_files = filter_files_not_needed_for_inference(
+                hf_weights_files)
+
+        if len(hf_weights_files) == 0:
+            raise RuntimeError(
+                f"Cannot find any model weights with `{model_name_or_path}`")
+
+        return hf_folder, hf_weights_files, use_safetensors
+
+    def _get_weights_iterator(
+            self, source: "Source"
+    ) -> Generator[Tuple[str, torch.Tensor], None, None]:
+        """Get an iterator for the model weights based on the load format."""
+        hf_folder, hf_weights_files, use_safetensors = self._prepare_weights(
+            source.model_or_path, source.revision, source.fall_back_to_pt,
+            source.allow_patterns_overrides)
+        if self.load_config.load_format == LoadFormat.NPCACHE:
+            # Currently np_cache only support *.bin checkpoints
+            assert use_safetensors is False
+            weights_iterator = np_cache_weights_iterator(
+                source.model_or_path,
+                self.load_config.download_dir,
+                hf_folder,
+                hf_weights_files,
+                self.load_config.use_tqdm_on_load,
+            )
+        elif use_safetensors:
+            if self.load_config.load_format == LoadFormat.FASTSAFETENSORS:
+                weights_iterator = fastsafetensors_weights_iterator(
+                    hf_weights_files,
+                    self.load_config.use_tqdm_on_load,
+                )
+            else:
+                weights_iterator = safetensors_weights_iterator(
+                    hf_weights_files,
+                    self.load_config.use_tqdm_on_load,
+                )
+        else:
+            weights_iterator = pt_weights_iterator(
+                hf_weights_files,
+                self.load_config.use_tqdm_on_load,
+                self.load_config.pt_load_map_location,
+            )
+
+        if current_platform.is_tpu():
+            # In PyTorch XLA, we should call `xm.mark_step` frequently so that
+            # not too many ops are accumulated in the XLA program.
+            import torch_xla.core.xla_model as xm
+
+            def _xla_weights_iterator(iterator: Generator):
+                for weights in iterator:
+                    yield weights
+                    xm.mark_step()
+
+            weights_iterator = _xla_weights_iterator(weights_iterator)
+
+        elif current_platform.is_hpu():
+            import habana_frameworks.torch.core as htcore
+
+            def _hpu_weights_iterator(iterator: Generator):
+                for weights in iterator:
+                    yield weights
+                    htcore.mark_step()
+
+            weights_iterator = _hpu_weights_iterator(weights_iterator)
+
+        if self.counter_before_loading_weights == 0.0:
+            self.counter_before_loading_weights = time.perf_counter()
+        # Apply the prefix.
+        return ((source.prefix + name, tensor)
+                for (name, tensor) in weights_iterator)
+
+    def get_all_weights(
+        self,
+        model_config: ModelConfig,
+        model: nn.Module,
+    ) -> Generator[Tuple[str, torch.Tensor], None, None]:
+        primary_weights = DefaultModelLoader.Source(
+            model_config.model,
+            model_config.revision,
+            prefix="",
+            fall_back_to_pt=getattr(model, "fall_back_to_pt_during_load",
+                                    True),
+            allow_patterns_overrides=getattr(model, "allow_patterns_overrides",
+                                             None),
+        )
+        yield from self._get_weights_iterator(primary_weights)
+
+        secondary_weights = cast(
+            Iterable[DefaultModelLoader.Source],
+            getattr(model, "secondary_weights", ()),
+        )
+        for source in secondary_weights:
+            yield from self._get_weights_iterator(source)
+
+    def download_model(self, model_config: ModelConfig) -> None:
+        self._prepare_weights(model_config.model,
+                              model_config.revision,
+                              fall_back_to_pt=True,
+                              allow_patterns_overrides=None)
+
+    def load_model(self, vllm_config: VllmConfig) -> nn.Module:
+        device_config = vllm_config.device_config
+        model_config = vllm_config.model_config
+        target_device = torch.device(device_config.device)
+        with set_default_torch_dtype(model_config.dtype):
+            with target_device:
+                model = initialize_model(vllm_config=vllm_config)
+
+            weights_to_load = {name for name, _ in model.named_parameters()}
+            loaded_weights = model.load_weights(
+                self.get_all_weights(model_config, model))
+            self.counter_after_loading_weights = time.perf_counter()
+            logger.info(
+                "Loading weights took %.2f seconds",
+                self.counter_after_loading_weights -
+                self.counter_before_loading_weights)
+            # We only enable strict check for non-quantized models
+            # that have loaded weights tracking currently.
+            if model_config.quantization is None and loaded_weights is not None:
+                weights_not_loaded = weights_to_load - loaded_weights
+                if weights_not_loaded:
+                    raise ValueError(
+                        "Following weights were not initialized from "
+                        f"checkpoint: {weights_not_loaded}")
+
+            process_weights_after_loading(model, model_config, target_device)
+
+        return model.eval()
diff --git a/vllm/model_executor/model_loader/dummy_loader.py b/vllm/model_executor/model_loader/dummy_loader.py
new file mode 100644
index 000000000..5047a161f
--- /dev/null
+++ b/vllm/model_executor/model_loader/dummy_loader.py
@@ -0,0 +1,37 @@
+# SPDX-License-Identifier: Apache-2.0
+import torch
+import torch.nn as nn
+
+from vllm.config import LoadConfig, ModelConfig, VllmConfig
+from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+from vllm.model_executor.model_loader.utils import (
+    initialize_model, process_weights_after_loading, set_default_torch_dtype)
+from vllm.model_executor.model_loader.weight_utils import (
+    initialize_dummy_weights)
+
+
+class DummyModelLoader(BaseModelLoader):
+    """Model loader that will set model weights to random values."""
+
+    def __init__(self, load_config: LoadConfig):
+        super().__init__(load_config)
+        if load_config.model_loader_extra_config:
+            raise ValueError(f"Model loader extra config is not supported for "
+                             f"load format {load_config.load_format}")
+
+    def download_model(self, model_config: ModelConfig) -> None:
+        pass  # Nothing to download
+
+    def load_model(self, vllm_config: VllmConfig) -> nn.Module:
+        device_config = vllm_config.device_config
+        model_config = vllm_config.model_config
+        target_device = torch.device(device_config.device)
+        with set_default_torch_dtype(model_config.dtype):
+            with target_device:
+                model = initialize_model(vllm_config=vllm_config)
+            # NOTE(woosuk): For accurate performance evaluation, we assign
+            # random values to the weights.
+            initialize_dummy_weights(model)
+
+            process_weights_after_loading(model, model_config, target_device)
+        return model.eval()
diff --git a/vllm/model_executor/model_loader/gguf_loader.py b/vllm/model_executor/model_loader/gguf_loader.py
new file mode 100644
index 000000000..ace1cd371
--- /dev/null
+++ b/vllm/model_executor/model_loader/gguf_loader.py
@@ -0,0 +1,113 @@
+# SPDX-License-Identifier: Apache-2.0
+import os
+from typing import Dict, Generator, Tuple
+
+import gguf
+import torch
+import torch.nn as nn
+from transformers import AutoModelForCausalLM
+
+from vllm.config import LoadConfig, ModelConfig, VllmConfig
+from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+from vllm.model_executor.model_loader.utils import (
+    initialize_model, process_weights_after_loading, set_default_torch_dtype)
+from vllm.model_executor.model_loader.weight_utils import (
+    get_gguf_extra_tensor_names, gguf_quant_weights_iterator)
+
+
+class GGUFModelLoader(BaseModelLoader):
+    """
+    Model loader that can load GGUF files. This is useful for loading models
+    that are quantized with GGUF and saved in the GGUF format. This loader
+    supports loading both full models and sharded models.
+    """
+
+    def __init__(self, load_config: LoadConfig):
+        super().__init__(load_config)
+        if load_config.model_loader_extra_config:
+            raise ValueError(f"Model loader extra config is not supported for "
+                             f"load format {load_config.load_format}")
+
+    def _prepare_weights(self, model_name_or_path: str):
+        if os.path.isfile(model_name_or_path):
+            return model_name_or_path
+        else:
+            raise ValueError(f"{model_name_or_path} is not a file.")
+
+    def _get_gguf_weights_map(self, model_config: ModelConfig):
+        """
+        GGUF uses this naming convention for their tensors from HF checkpoint:
+        `blk.N.BB.weight` and `blk.N.BB.bias`
+        where N signifies the block number of a layer, and BB signifies the
+        attention/mlp layer components.
+        See "Standardized tensor names" in
+        https://github.com/ggerganov/ggml/blob/master/docs/gguf.md for details.
+        """
+        config = model_config.hf_config
+        model_type = config.model_type
+        gguf_to_hf_name_map = {}
+        # hack: ggufs have a different name than transformers
+        if model_type == "cohere":
+            model_type = "command-r"
+        if model_type in ("deepseek_v3", "deepseek_v2"):
+            model_type = "deepseek2"
+            # GGUF layer map assumes that we will have a merged expert weights
+            # so we need to map them manually
+            for idx in range(config.num_hidden_layers):
+                gguf_to_hf_name_map[f"blk.{idx}.exp_probs_b.bias"] = \
+                        f"model.layers.{idx}.mlp.gate.e_score_correction_bias"
+                gguf_to_hf_name_map[f"blk.{idx}.ffn_down_exps.weight"] = \
+                        f"model.layers.{idx}.mlp.experts.0.down_proj.weight"
+                gguf_to_hf_name_map[f"blk.{idx}.ffn_gate_exps.weight"] = \
+                        f"model.layers.{idx}.mlp.experts.0.gate_proj.weight"
+                gguf_to_hf_name_map[f"blk.{idx}.ffn_up_exps.weight"] = \
+                        f"model.layers.{idx}.mlp.experts.0.up_proj.weight"
+
+        arch = None
+        for key, value in gguf.MODEL_ARCH_NAMES.items():
+            if value == model_type:
+                arch = key
+                break
+        if arch is None:
+            raise RuntimeError(f"Unknown gguf model_type: {model_type}")
+        num_layers = config.num_hidden_layers
+        name_map = gguf.get_tensor_name_map(arch, num_layers)
+        with torch.device("meta"):
+            dummy_model = AutoModelForCausalLM.from_config(
+                config, trust_remote_code=model_config.trust_remote_code)
+        state_dict = dummy_model.state_dict()
+
+        for hf_name in state_dict:
+            name, suffix = hf_name.rsplit(".", 1)
+            gguf_name = name_map.get_name(name)
+            gguf_to_hf_name_map[f"{gguf_name}.{suffix}"] = hf_name
+        return gguf_to_hf_name_map
+
+    def _get_weights_iterator(
+        self, model_name_or_path: str, gguf_to_hf_name_map: Dict[str, str]
+    ) -> Generator[Tuple[str, torch.Tensor], None, None]:
+        return gguf_quant_weights_iterator(model_name_or_path,
+                                           gguf_to_hf_name_map)
+
+    def download_model(self, model_config: ModelConfig) -> None:
+        self._prepare_weights(model_config.model)
+
+    def load_model(self, vllm_config: VllmConfig) -> nn.Module:
+        device_config = vllm_config.device_config
+        model_config = vllm_config.model_config
+        local_model_path = self._prepare_weights(model_config.model)
+        gguf_weights_map = self._get_gguf_weights_map(model_config)
+        # we can only know if tie word embeddings after mapping weights
+        if "lm_head.weight" in get_gguf_extra_tensor_names(
+                local_model_path, gguf_weights_map):
+            model_config.hf_config.update({"tie_word_embeddings": True})
+
+        target_device = torch.device(device_config.device)
+        with set_default_torch_dtype(model_config.dtype):
+            with target_device:
+                model = initialize_model(vllm_config=vllm_config)
+            model.load_weights(
+                self._get_weights_iterator(local_model_path, gguf_weights_map))
+
+            process_weights_after_loading(model, model_config, target_device)
+        return model
diff --git a/vllm/model_executor/model_loader/loader.py b/vllm/model_executor/model_loader/loader.py
deleted file mode 100644
index 01f75db9e..000000000
--- a/vllm/model_executor/model_loader/loader.py
+++ /dev/null
@@ -1,1544 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-
-# ruff: noqa: SIM117
-import collections
-import copy
-import dataclasses
-import fnmatch
-import glob
-import inspect
-import itertools
-import math
-import os
-import time
-import warnings
-from abc import ABC, abstractmethod
-from contextlib import contextmanager
-from typing import (Any, Callable, Dict, Generator, Iterable, List, Optional,
-                    Tuple, cast)
-
-import gguf
-import huggingface_hub
-import numpy as np
-import torch
-from huggingface_hub import HfApi
-from torch import nn
-from transformers import AutoModelForCausalLM
-from transformers.utils import SAFE_WEIGHTS_INDEX_NAME
-
-from vllm.attention import Attention
-from vllm.config import (LoadConfig, LoadFormat, ModelConfig, ParallelConfig,
-                         VllmConfig, set_current_vllm_config)
-from vllm.distributed import (get_tensor_model_parallel_rank,
-                              get_tensor_model_parallel_world_size)
-from vllm.envs import VLLM_USE_MODELSCOPE
-from vllm.logger import init_logger
-# yapf conflicts with isort for this block
-# yapf: disable
-from vllm.model_executor.layers.linear import (LinearBase,
-                                               MergedColumnParallelLinear,
-                                               QKVCrossParallelLinear,
-                                               QKVParallelLinear,
-                                               ReplicatedLinear,
-                                               RowParallelLinear)
-# yapf: enable
-from vllm.model_executor.layers.quantization.base_config import (
-    QuantizeMethodBase)
-from vllm.model_executor.model_loader.tensorizer import (
-    TensorizerConfig, is_vllm_tensorized, load_with_tensorizer,
-    serialize_vllm_model, tensorizer_weights_iterator)
-from vllm.model_executor.model_loader.utils import (ParamMapping,
-                                                    configure_quant_config,
-                                                    get_model_architecture,
-                                                    set_default_torch_dtype)
-from vllm.model_executor.model_loader.weight_utils import (
-    download_safetensors_index_file_from_hf, download_weights_from_hf,
-    fastsafetensors_weights_iterator, filter_duplicate_safetensors_files,
-    filter_files_not_needed_for_inference, get_gguf_extra_tensor_names,
-    get_lock, gguf_quant_weights_iterator, initialize_dummy_weights,
-    np_cache_weights_iterator, pt_weights_iterator,
-    runai_safetensors_weights_iterator, safetensors_weights_iterator)
-from vllm.model_executor.utils import set_weight_attrs
-from vllm.platforms import current_platform
-from vllm.transformers_utils.s3_utils import glob as s3_glob
-from vllm.transformers_utils.utils import is_s3
-from vllm.utils import is_pin_memory_available
-
-
-@contextmanager
-def device_loading_context(module: torch.nn.Module,
-                           target_device: torch.device):
-    if target_device.type == "cpu":
-        # If target is CPU, no need to move anything
-        yield module
-        return
-
-    original_device_states: Dict[str, torch.device] = {}
-
-    # Store original device states and move parameters to GPU if they're on CPU
-    for name, p in module.named_parameters():
-        if p.device.type == "cpu":
-            original_device_states[name] = p.device
-            p.data = p.data.to(target_device)
-        # Parameters already on target device are not touched
-
-    try:
-        yield module
-
-    finally:
-        # Restore parameters to their original devices, ignoring new parameters
-        pin_memory = is_pin_memory_available()
-        for name, p in module.named_parameters():
-            if name in original_device_states:
-                original_device: torch.device = original_device_states[name]
-                if original_device.type == "cpu":
-                    # `torch.empty_like` does not support `pin_memory` argument
-                    cpu_data = torch.empty_strided(
-                        size=p.data.size(),
-                        stride=p.data.stride(),
-                        dtype=p.data.dtype,
-                        layout=p.data.layout,
-                        device="cpu",
-                        pin_memory=pin_memory,
-                    )
-                    cpu_data.copy_(p.data)
-                    p.data = cpu_data
-                else:
-                    p.data = p.data.to(original_device)
-        # New parameters or parameters already on target device are untouched
-
-
-logger = init_logger(__name__)
-
-
-def _initialize_model(
-    vllm_config: VllmConfig,
-    *,
-    prefix: str = "",
-    model_class: Optional[type[nn.Module]] = None,
-) -> nn.Module:
-    """Initialize a model with the given configurations."""
-    model_config = vllm_config.model_config
-    if model_class is None:
-        model_class, _ = get_model_architecture(model_config)
-
-    if vllm_config.quant_config is not None:
-        configure_quant_config(vllm_config.quant_config, model_class)
-
-    signatures = inspect.signature(model_class.__init__)
-    all_params = [param.name for param in signatures.parameters.values()]
-    if "vllm_config" in all_params and "prefix" in all_params:
-        # new-style model class
-        with set_current_vllm_config(vllm_config, check_compile=True):
-            return model_class(vllm_config=vllm_config, prefix=prefix)
-
-    msg = ("vLLM model class should accept `vllm_config` and `prefix` as "
-           "input arguments. Possibly you have an old-style model class"
-           " registered from out of tree and it is used for new vLLM version. "
-           "Check https://docs.vllm.ai/en/latest/design/arch_overview.html "
-           "for the design and update the model class accordingly.")
-    warnings.warn(msg, DeprecationWarning, stacklevel=2)
-
-    logger.warning(
-        "Trying to guess the arguments for old-style model class %s",
-        model_class,
-    )
-    # try to be compatible with old-style model class
-    kwargs = {}
-    if "prefix" in all_params:
-        kwargs["prefix"] = prefix
-    if "config" in all_params:
-        kwargs["config"] = model_config.hf_config
-    if "cache_config" in all_params:
-        kwargs["cache_config"] = vllm_config.cache_config
-    if "quant_config" in all_params:
-        kwargs["quant_config"] = vllm_config.quant_config
-    if "lora_config" in all_params:
-        kwargs["lora_config"] = vllm_config.lora_config
-    if "scheduler_config" in all_params:
-        kwargs["scheduler_config"] = vllm_config.scheduler_config
-    with set_current_vllm_config(vllm_config, check_compile=True):
-        return model_class(**kwargs)
-
-
-def _process_weights_after_loading(model: nn.Module, model_config: ModelConfig,
-                                   target_device: torch.device) -> None:
-    for _, module in model.named_modules():
-        if isinstance(module, QKVCrossParallelLinear):
-            # NOTE(Isotr0py): special case for cross QKV layer because
-            # q and kv proj aren't registered as submodules intentionally
-            module.process_weights_after_loading()
-            continue
-        quant_method = getattr(module, "quant_method", None)
-        if isinstance(quant_method, QuantizeMethodBase):
-            # When quant methods need to process weights after loading
-            # (for repacking, quantizing, etc), they expect parameters
-            # to be on the global target device. This scope is for the
-            # case where cpu offloading is used, where we will move the
-            # parameters onto device for processing and back off after.
-            with device_loading_context(module, target_device):
-                quant_method.process_weights_after_loading(module)
-
-    # Currently only used by MLA.
-    # NOTE: This intentionally happens after other modules so we can easily
-    # decompress the weights for MLA.
-    for _, module in model.named_modules():
-        if isinstance(module, Attention) and \
-            hasattr(module, "process_weights_after_loading"):
-            # TODO(lucas): see if there is a way to unify the signatures
-            # of process_weights_after_loading
-            module.process_weights_after_loading(model_config.dtype)
-
-
-class BaseModelLoader(ABC):
-    """Base class for model loaders."""
-
-    def __init__(self, load_config: LoadConfig):
-        self.load_config = load_config
-
-    @abstractmethod
-    def download_model(self, model_config: ModelConfig) -> None:
-        """Download a model so that it can be immediately loaded."""
-        raise NotImplementedError
-
-    @abstractmethod
-    def load_model(self, *, vllm_config: VllmConfig) -> nn.Module:
-        """Load a model with the given configurations."""
-        raise NotImplementedError
-
-
-class DefaultModelLoader(BaseModelLoader):
-    """Model loader that can load different file types from disk."""
-
-    @dataclasses.dataclass
-    class Source:
-        """A source for weights."""
-
-        model_or_path: str
-        """The model ID or path."""
-
-        revision: Optional[str]
-        """The optional model revision."""
-
-        prefix: str = ""
-        """A prefix to prepend to all weights."""
-
-        fall_back_to_pt: bool = True
-        """Whether .pt weights can be used."""
-
-        allow_patterns_overrides: Optional[list[str]] = None
-        """If defined, weights will load exclusively using these patterns."""
-
-    counter_before_loading_weights: float = 0.0
-    counter_after_loading_weights: float = 0.0
-
-    def __init__(self, load_config: LoadConfig):
-        super().__init__(load_config)
-        if load_config.model_loader_extra_config:
-            raise ValueError(f"Model loader extra config is not supported for "
-                             f"load format {load_config.load_format}")
-
-    def _maybe_download_from_modelscope(
-            self, model: str, revision: Optional[str]) -> Optional[str]:
-        """Download model from ModelScope hub if VLLM_USE_MODELSCOPE is True.
-
-        Returns the path to the downloaded model, or None if the model is not
-        downloaded from ModelScope."""
-        if VLLM_USE_MODELSCOPE:
-            # download model from ModelScope hub,
-            # lazy import so that modelscope is not required for normal use.
-            # pylint: disable=C.
-            from modelscope.hub.snapshot_download import snapshot_download
-
-            if not os.path.exists(model):
-                # Use file lock to prevent multiple processes from
-                # downloading the same model weights at the same time.
-                with get_lock(model, self.load_config.download_dir):
-                    model_path = snapshot_download(
-                        model_id=model,
-                        cache_dir=self.load_config.download_dir,
-                        local_files_only=huggingface_hub.constants.
-                        HF_HUB_OFFLINE,
-                        revision=revision,
-                        ignore_file_pattern=self.load_config.ignore_patterns,
-                    )
-            else:
-                model_path = model
-            return model_path
-        return None
-
-    def _prepare_weights(
-        self,
-        model_name_or_path: str,
-        revision: Optional[str],
-        fall_back_to_pt: bool,
-        allow_patterns_overrides: Optional[list[str]],
-    ) -> Tuple[str, List[str], bool]:
-        """Prepare weights for the model.
-
-        If the model is not local, it will be downloaded."""
-        model_name_or_path = (self._maybe_download_from_modelscope(
-            model_name_or_path, revision) or model_name_or_path)
-
-        is_local = os.path.isdir(model_name_or_path)
-        load_format = self.load_config.load_format
-        use_safetensors = False
-        index_file = SAFE_WEIGHTS_INDEX_NAME
-        # Some quantized models use .pt files for storing the weights.
-        if load_format == LoadFormat.AUTO:
-            allow_patterns = ["*.safetensors", "*.bin"]
-        elif (load_format == LoadFormat.SAFETENSORS
-              or load_format == LoadFormat.FASTSAFETENSORS):
-            use_safetensors = True
-            allow_patterns = ["*.safetensors"]
-        elif load_format == LoadFormat.MISTRAL:
-            use_safetensors = True
-            allow_patterns = ["consolidated*.safetensors"]
-            index_file = "consolidated.safetensors.index.json"
-        elif load_format == LoadFormat.PT:
-            allow_patterns = ["*.pt"]
-        elif load_format == LoadFormat.NPCACHE:
-            allow_patterns = ["*.bin"]
-        else:
-            raise ValueError(f"Unknown load_format: {load_format}")
-
-        if fall_back_to_pt:
-            allow_patterns += ["*.pt"]
-
-        if allow_patterns_overrides is not None:
-            allow_patterns = allow_patterns_overrides
-
-        if not is_local:
-            hf_folder = download_weights_from_hf(
-                model_name_or_path,
-                self.load_config.download_dir,
-                allow_patterns,
-                revision,
-                ignore_patterns=self.load_config.ignore_patterns,
-            )
-        else:
-            hf_folder = model_name_or_path
-
-        hf_weights_files: List[str] = []
-        for pattern in allow_patterns:
-            hf_weights_files += glob.glob(os.path.join(hf_folder, pattern))
-            if len(hf_weights_files) > 0:
-                if pattern == "*.safetensors":
-                    use_safetensors = True
-                break
-
-        if use_safetensors:
-            # For models like Mistral-7B-Instruct-v0.3
-            # there are both sharded safetensors files and a consolidated
-            # safetensors file. Using both breaks.
-            # Here, we download the `model.safetensors.index.json` and filter
-            # any files not found in the index.
-            if not is_local:
-                download_safetensors_index_file_from_hf(
-                    model_name_or_path,
-                    index_file,
-                    self.load_config.download_dir,
-                    revision,
-                )
-            hf_weights_files = filter_duplicate_safetensors_files(
-                hf_weights_files, hf_folder, index_file)
-        else:
-            hf_weights_files = filter_files_not_needed_for_inference(
-                hf_weights_files)
-
-        if len(hf_weights_files) == 0:
-            raise RuntimeError(
-                f"Cannot find any model weights with `{model_name_or_path}`")
-
-        return hf_folder, hf_weights_files, use_safetensors
-
-    def _get_weights_iterator(
-            self, source: "Source"
-    ) -> Generator[Tuple[str, torch.Tensor], None, None]:
-        """Get an iterator for the model weights based on the load format."""
-        hf_folder, hf_weights_files, use_safetensors = self._prepare_weights(
-            source.model_or_path, source.revision, source.fall_back_to_pt,
-            source.allow_patterns_overrides)
-        if self.load_config.load_format == LoadFormat.NPCACHE:
-            # Currently np_cache only support *.bin checkpoints
-            assert use_safetensors is False
-            weights_iterator = np_cache_weights_iterator(
-                source.model_or_path,
-                self.load_config.download_dir,
-                hf_folder,
-                hf_weights_files,
-                self.load_config.use_tqdm_on_load,
-            )
-        elif use_safetensors:
-            if self.load_config.load_format == LoadFormat.FASTSAFETENSORS:
-                weights_iterator = fastsafetensors_weights_iterator(
-                    hf_weights_files,
-                    self.load_config.use_tqdm_on_load,
-                )
-            else:
-                weights_iterator = safetensors_weights_iterator(
-                    hf_weights_files,
-                    self.load_config.use_tqdm_on_load,
-                )
-        else:
-            weights_iterator = pt_weights_iterator(
-                hf_weights_files,
-                self.load_config.use_tqdm_on_load,
-                self.load_config.pt_load_map_location,
-            )
-
-        if current_platform.is_tpu():
-            # In PyTorch XLA, we should call `xm.mark_step` frequently so that
-            # not too many ops are accumulated in the XLA program.
-            import torch_xla.core.xla_model as xm
-
-            def _xla_weights_iterator(iterator: Generator):
-                for weights in iterator:
-                    yield weights
-                    xm.mark_step()
-
-            weights_iterator = _xla_weights_iterator(weights_iterator)
-
-        elif current_platform.is_hpu():
-            import habana_frameworks.torch.core as htcore
-
-            def _hpu_weights_iterator(iterator: Generator):
-                for weights in iterator:
-                    yield weights
-                    htcore.mark_step()
-
-            weights_iterator = _hpu_weights_iterator(weights_iterator)
-
-        if self.counter_before_loading_weights == 0.0:
-            self.counter_before_loading_weights = time.perf_counter()
-        # Apply the prefix.
-        return ((source.prefix + name, tensor)
-                for (name, tensor) in weights_iterator)
-
-    def get_all_weights(
-        self,
-        model_config: ModelConfig,
-        model: nn.Module,
-    ) -> Generator[Tuple[str, torch.Tensor], None, None]:
-        primary_weights = DefaultModelLoader.Source(
-            model_config.model,
-            model_config.revision,
-            prefix="",
-            fall_back_to_pt=getattr(model, "fall_back_to_pt_during_load",
-                                    True),
-            allow_patterns_overrides=getattr(model, "allow_patterns_overrides",
-                                             None),
-        )
-        yield from self._get_weights_iterator(primary_weights)
-
-        secondary_weights = cast(
-            Iterable[DefaultModelLoader.Source],
-            getattr(model, "secondary_weights", ()),
-        )
-        for source in secondary_weights:
-            yield from self._get_weights_iterator(source)
-
-    def download_model(self, model_config: ModelConfig) -> None:
-        self._prepare_weights(model_config.model,
-                              model_config.revision,
-                              fall_back_to_pt=True,
-                              allow_patterns_overrides=None)
-
-    def load_model(self, vllm_config: VllmConfig) -> nn.Module:
-        device_config = vllm_config.device_config
-        model_config = vllm_config.model_config
-        target_device = torch.device(device_config.device)
-        with set_default_torch_dtype(model_config.dtype):
-            with target_device:
-                model = _initialize_model(vllm_config=vllm_config)
-
-            weights_to_load = {name for name, _ in model.named_parameters()}
-            loaded_weights = model.load_weights(
-                self.get_all_weights(model_config, model))
-            self.counter_after_loading_weights = time.perf_counter()
-            logger.info(
-                "Loading weights took %.2f seconds",
-                self.counter_after_loading_weights -
-                self.counter_before_loading_weights)
-            # We only enable strict check for non-quantized models
-            # that have loaded weights tracking currently.
-            if model_config.quantization is None and loaded_weights is not None:
-                weights_not_loaded = weights_to_load - loaded_weights
-                if weights_not_loaded:
-                    raise ValueError(
-                        "Following weights were not initialized from "
-                        f"checkpoint: {weights_not_loaded}")
-
-            _process_weights_after_loading(model, model_config, target_device)
-
-        return model.eval()
-
-
-class DummyModelLoader(BaseModelLoader):
-    """Model loader that will set model weights to random values."""
-
-    def __init__(self, load_config: LoadConfig):
-        super().__init__(load_config)
-        if load_config.model_loader_extra_config:
-            raise ValueError(f"Model loader extra config is not supported for "
-                             f"load format {load_config.load_format}")
-
-    def download_model(self, model_config: ModelConfig) -> None:
-        pass  # Nothing to download
-
-    def load_model(self, vllm_config: VllmConfig) -> nn.Module:
-        device_config = vllm_config.device_config
-        model_config = vllm_config.model_config
-        target_device = torch.device(device_config.device)
-        with set_default_torch_dtype(model_config.dtype):
-            with target_device:
-                model = _initialize_model(vllm_config=vllm_config)
-            # NOTE(woosuk): For accurate performance evaluation, we assign
-            # random values to the weights.
-            initialize_dummy_weights(model)
-
-            _process_weights_after_loading(model, model_config, target_device)
-        return model.eval()
-
-
-class TensorizerLoader(BaseModelLoader):
-    """Model loader using CoreWeave's tensorizer library."""
-
-    def __init__(self, load_config: LoadConfig):
-        super().__init__(load_config)
-        if isinstance(load_config.model_loader_extra_config, TensorizerConfig):
-            self.tensorizer_config = load_config.model_loader_extra_config
-        else:
-            self.tensorizer_config = TensorizerConfig(
-                **load_config.model_loader_extra_config)
-
-    def _verify_config(self, model_config: ModelConfig,
-                       parallel_config: ParallelConfig):
-        self.tensorizer_config.verify_with_model_config(model_config)
-        self.tensorizer_config.verify_with_parallel_config(parallel_config)
-
-    def _get_weights_iterator(
-        self, ) -> Generator[Tuple[str, torch.Tensor], None, None]:
-        tensorizer_args = self.tensorizer_config._construct_tensorizer_args()
-        return tensorizer_weights_iterator(tensorizer_args)
-
-    def _load_model_serialized_cpu(
-        self,
-        vllm_config: VllmConfig,
-    ) -> nn.Module:
-        """Load a serialized model with tensorizer to the CPU.
-
-        This is only necessary when the model isn't vLLM-tensorized (see
-        examples/other/tensorize_vllm_model.py) This should still
-        be faster than default HuggingFace loading, but will be slower than
-        loading a vLLM-tensorized model.
-        """
-        device_config = vllm_config.device_config
-        model_config = vllm_config.model_config
-        with set_default_torch_dtype(model_config.dtype):
-            with torch.device(device_config.device):
-                model = _initialize_model(vllm_config=vllm_config)
-
-            model.load_weights(self._get_weights_iterator())
-        return model.eval()
-
-    def _load_model_serialized(
-        self,
-        vllm_config: VllmConfig,
-    ) -> nn.Module:
-        """Load a serialized model with tensorizer.
-
-        Expects a vLLM-tensorized model. See the
-        examples/other/tensorize_vllm_model.py example script
-        for serializing vLLM models."""
-
-        device_config = vllm_config.device_config
-        model_config = vllm_config.model_config
-
-        with set_default_torch_dtype(model_config.dtype):
-            with torch.device(device_config.device):
-                model_class = get_model_architecture(model_config)[0]
-
-                tensorizer_config = copy.copy(self.tensorizer_config)
-                tensorizer_config.model_class = model_class
-                tensorizer_config.hf_config = model_config.hf_config
-                tensorizer_config.dtype = model_config.dtype
-
-                model = load_with_tensorizer(tensorizer_config,
-                                             vllm_config=vllm_config)
-        return model.eval()
-
-    def download_model(self, model_config: ModelConfig) -> None:
-        self.tensorizer_config.verify_with_model_config(model_config)
-
-        with self.tensorizer_config.open_stream():
-            pass
-
-    def load_model(self, vllm_config: VllmConfig) -> nn.Module:
-        model_config = vllm_config.model_config
-        parallel_config = vllm_config.parallel_config
-        self._verify_config(model_config, parallel_config)
-
-        if parallel_config.tensor_parallel_size > 1:
-            from vllm.distributed import get_tensor_model_parallel_rank
-
-            self.tensorizer_config.tensorizer_uri = (
-                self.tensorizer_config.tensorizer_uri %
-                get_tensor_model_parallel_rank())
-
-        if is_vllm_tensorized(self.tensorizer_config):
-            return self._load_model_serialized(vllm_config=vllm_config)
-        return self._load_model_serialized_cpu(vllm_config=vllm_config)
-
-    @staticmethod
-    def save_model(
-        model: torch.nn.Module,
-        tensorizer_config: TensorizerConfig,
-    ) -> None:
-        serialize_vllm_model(
-            model=model,
-            tensorizer_config=tensorizer_config,
-        )
-
-
-class ShardedStateLoader(BaseModelLoader):
-    """
-    Model loader that directly loads each worker's model state dict, which
-    enables a fast load path for large tensor-parallel models where each worker
-    only needs to read its own shard rather than the entire checkpoint. See
-    `examples/offline_inference/save_sharded_state.py` for creating a sharded
-    checkpoint.
-    """
-
-    DEFAULT_PATTERN = "model-rank-{rank}-part-{part}.safetensors"
-
-    def __init__(self,
-                 load_config: LoadConfig,
-                 runai_model_streamer: bool = False):
-        super().__init__(load_config)
-
-        self.runai_model_streamer = runai_model_streamer
-        extra_config = ({} if load_config.model_loader_extra_config is None
-                        else load_config.model_loader_extra_config.copy())
-        self.pattern = extra_config.pop("pattern", self.DEFAULT_PATTERN)
-        if extra_config:
-            raise ValueError(f"Unexpected extra config keys for load format "
-                             f"{load_config.load_format}: "
-                             f"{load_config.model_loader_extra_config.keys()}")
-
-    @staticmethod
-    def _filter_subtensors(
-        tensors: Dict[str, torch.Tensor], ) -> Dict[str, torch.Tensor]:
-        """
-        Filter out all tensors that share the same memory or a subset of the
-        memory of another tensor.
-        """
-        same_storage_groups: Dict[Any, List[Tuple[str, torch.Tensor]]] = (
-            collections.defaultdict(list))
-        for key, tensor in tensors.items():
-            if tensor.numel():
-                ptr = tensor.untyped_storage().data_ptr()
-                same_storage_groups[tensor.device, ptr].append((key, tensor))
-
-        def get_end_ptr(tensor: torch.Tensor) -> int:
-            return tensor.view(-1)[-1].data_ptr() + tensor.element_size()
-
-        result: Dict[str, torch.Tensor] = {}
-        for group in same_storage_groups.values():
-            for k, t in group:
-                a, b = t.data_ptr(), get_end_ptr(t)
-                for k2, t2 in group:
-                    if not t2.is_contiguous():
-                        continue
-                    a2, b2 = t2.data_ptr(), get_end_ptr(t2)
-                    if a < a2 or b2 < b:
-                        continue
-                    if a2 < a or b < b2 or not t.is_contiguous():
-                        break  # t2 covers strictly more memory than t.
-                    if k2 < k:
-                        # Same tensors, keep the one with the smaller key.
-                        break
-                else:
-                    result[k] = t
-        return result
-
-    def _prepare_weights(self, model_name_or_path: str,
-                         revision: Optional[str]):
-        if is_s3(model_name_or_path) or os.path.isdir(model_name_or_path):
-            return model_name_or_path
-        else:
-            allow_patterns = ["*.safetensors"]
-            return download_weights_from_hf(
-                model_name_or_path,
-                self.load_config.download_dir,
-                allow_patterns,
-                revision,
-                ignore_patterns=self.load_config.ignore_patterns,
-            )
-
-    def download_model(self, model_config: ModelConfig) -> None:
-        self._prepare_weights(model_config.model, model_config.revision)
-
-    def load_model(self, vllm_config: VllmConfig) -> nn.Module:
-        device_config = vllm_config.device_config
-        model_config = vllm_config.model_config
-        target_device = torch.device(device_config.device)
-
-        from vllm.distributed import get_tensor_model_parallel_rank
-
-        model_weights = model_config.model
-        if hasattr(model_config, "model_weights"):
-            model_weights = model_config.model_weights
-        local_model_path = model_weights
-
-        with set_default_torch_dtype(model_config.dtype):
-            with target_device:
-                model = _initialize_model(vllm_config=vllm_config)
-                _process_weights_after_loading(model, model_config,
-                                               target_device)
-            rank = get_tensor_model_parallel_rank()
-            pattern = os.path.join(
-                local_model_path,
-                self.pattern.format(rank=rank, part="*"),
-            )
-
-            filepaths = []
-            if is_s3(local_model_path):
-                file_pattern = f"*{self.pattern.format(rank=rank, part=' * ')}"
-                filepaths = s3_glob(path=local_model_path,
-                                    allow_pattern=[file_pattern])
-            else:
-                filepaths = glob.glob(pattern)
-            if not filepaths:
-                # TODO: support un-sharded checkpoints too
-                raise ValueError(
-                    f"Could not find checkpoint files '{pattern}', only "
-                    f"pre-sharded checkpoints are currently supported!")
-            state_dict = self._filter_subtensors(model.state_dict())
-            for key, tensor in self.iterate_over_files(filepaths):
-                # If loading with LoRA enabled, additional padding may
-                # be added to certain parameters. We only load into a
-                # narrowed view of the parameter data.
-                param_data = state_dict[key].data
-                param_shape = state_dict[key].shape
-                for dim, size in enumerate(tensor.shape):
-                    if size < param_shape[dim]:
-                        param_data = param_data.narrow(dim, 0, size)
-                if tensor.shape != param_shape:
-                    logger.warning(
-                        "loading tensor of shape %s into "
-                        "parameter '%s' of shape %s",
-                        tensor.shape,
-                        key,
-                        param_shape,
-                    )
-                param_data.copy_(tensor)
-                state_dict.pop(key)
-            if state_dict:
-                raise ValueError(
-                    f"Missing keys {tuple(state_dict)} in loaded state!")
-        return model.eval()
-
-    def iterate_over_files(
-            self, paths) -> Generator[Tuple[str, torch.Tensor], None, None]:
-        if self.runai_model_streamer:
-            yield from runai_safetensors_weights_iterator(paths, True)
-        else:
-            from safetensors.torch import safe_open
-            for path in paths:
-                with safe_open(path, framework="pt") as f:
-                    for key in f.keys():  # noqa: SIM118
-                        tensor = f.get_tensor(key)
-                        yield key, tensor
-
-    @staticmethod
-    def save_model(
-        model: torch.nn.Module,
-        path: str,
-        pattern: Optional[str] = None,
-        max_size: Optional[int] = None,
-    ) -> None:
-        from safetensors.torch import save_file
-
-        from vllm.distributed import get_tensor_model_parallel_rank
-
-        if pattern is None:
-            pattern = ShardedStateLoader.DEFAULT_PATTERN
-        rank = get_tensor_model_parallel_rank()
-        part_idx = 0
-        total_size = 0
-        state_dict = ShardedStateLoader._filter_subtensors(model.state_dict())
-        state_dict_part: Dict[str, torch.Tensor] = {}
-        for key, tensor in state_dict.items():
-            param_size = tensor.nelement() * tensor.element_size()
-            if max_size is not None and total_size + param_size > max_size:
-                filename = pattern.format(rank=rank, part=part_idx)
-                save_file(
-                    state_dict_part,
-                    os.path.join(path, filename),
-                )
-                part_idx += 1
-                total_size = 0
-                state_dict_part = {}
-            state_dict_part[key] = tensor
-            total_size += param_size
-        if len(state_dict_part) > 0:
-            filename = pattern.format(rank=rank, part=part_idx)
-            save_file(
-                state_dict_part,
-                os.path.join(path, filename),
-            )
-
-
-class BitsAndBytesModelLoader(BaseModelLoader):
-    """Model loader to load model weights with BitAndBytes quantization."""
-
-    possible_config_file_names = ["adapter_config.json"]
-
-    def __init__(self, load_config: LoadConfig):
-        super().__init__(load_config)
-
-        # Save the module names without sharding.
-        self.unsharded_weights_modules: List[str] = []
-        # Save the module names that are sharded by column.
-        self.column_sharded_weights_modules: List[str] = []
-        # Store all module names (from transformers) that support
-        # BNB quantization.
-        self.target_modules: List[str] = []
-        # mapping weight names from transformers to vllm.
-        self.weight_mapper: Callable = lambda name: name
-
-    def _get_weight_files(
-        self,
-        model_name_or_path: str,
-        allowed_patterns: List[str],
-        revision: Optional[str] = None,
-    ) -> Tuple[str, List[str], str]:
-        """Retrieve weight files. Download the files if necessary.
-
-        Return the weight files and the file pattern."""
-        is_local = os.path.isdir(model_name_or_path)
-
-        if is_local:
-            for pattern in allowed_patterns:
-                weight_files = glob.glob(
-                    os.path.join(model_name_or_path, pattern))
-                if weight_files:
-                    return model_name_or_path, weight_files, pattern
-        else:
-            hf_api = HfApi()
-            repo_files = hf_api.list_repo_files(repo_id=model_name_or_path)
-            for pattern in allowed_patterns:
-                matching_files = fnmatch.filter(repo_files, pattern)
-                if matching_files:
-                    hf_folder = download_weights_from_hf(
-                        model_name_or_path,
-                        self.load_config.download_dir,
-                        [pattern],
-                        revision,
-                        ignore_patterns=self.load_config.ignore_patterns,
-                    )
-                    return hf_folder, glob.glob(
-                        os.path.join(hf_folder, pattern)), pattern
-
-        raise RuntimeError(
-            f"No model weights found in: `{model_name_or_path}`")
-
-    def _prepare_weights(self, model_name_or_path: str,
-                         revision: Optional[str]) -> Tuple[List[str], bool]:
-        """Prepare weight files for the model."""
-
-        allowed_patterns = ["*.safetensors", "*.bin", "*.pt"]
-
-        hf_folder, hf_weights_files, matched_pattern = self._get_weight_files(
-            model_name_or_path, allowed_patterns, revision)
-
-        use_safetensors = matched_pattern == "*.safetensors"
-        is_local = os.path.isdir(model_name_or_path)
-        index_file = SAFE_WEIGHTS_INDEX_NAME
-        if use_safetensors:
-            # For models like Mistral-7B-Instruct-v0.3
-            # there are both sharded safetensors files and a consolidated
-            # safetensors file. Using both breaks.
-            # Here, we download the `model.safetensors.index.json` and filter
-            # any files not found in the index.
-            if not is_local:
-                download_safetensors_index_file_from_hf(
-                    model_name_or_path,
-                    index_file,
-                    self.load_config.download_dir,
-                    revision,
-                )
-            hf_weights_files = filter_duplicate_safetensors_files(
-                hf_weights_files, hf_folder, index_file)
-        else:
-            hf_weights_files = filter_files_not_needed_for_inference(
-                hf_weights_files)
-
-        if len(hf_weights_files) == 0:
-            raise RuntimeError(
-                f"Cannot find any model weights with `{model_name_or_path}`")
-
-        return hf_weights_files, use_safetensors
-
-    def _hf_weight_iter(self, hf_weights_files, use_safetensors: bool):
-        if use_safetensors:
-            iterator = safetensors_weights_iterator(
-                hf_weights_files,
-                self.load_config.use_tqdm_on_load,
-            )
-        else:
-            iterator = pt_weights_iterator(
-                hf_weights_files,
-                self.load_config.use_tqdm_on_load,
-                self.load_config.pt_load_map_location,
-            )
-        for org_name, param in iterator:
-            # mapping weight names from transformers to vllm while preserving
-            # original names.
-            mapped_name = self.weight_mapper(org_name)
-            yield org_name, mapped_name, param
-
-    def _get_quantized_weights_iterator(
-        self,
-        model_name_or_path: str,
-        revision: Optional[str],
-        pre_quant: bool,
-        load_8bit: bool,
-    ) -> Tuple[Generator[Tuple[str, torch.Tensor], None, None], Dict[str,
-                                                                     Any]]:
-        """Get an iterator to the model weights with bitsandbytes quantization,
-        as well as the quantization state dictionary."""
-
-        # only load the bitsandbytes module when needed
-        try:
-            import bitsandbytes
-
-            if bitsandbytes.__version__ < "0.45.3":
-                raise ImportError("bitsandbytes version is wrong. Please "
-                                  "install bitsandbytes>=0.45.3.")
-        except ImportError as err:
-            raise ImportError("Please install bitsandbytes>=0.45.3 via "
-                              "`pip install bitsandbytes>=0.45.3` to use "
-                              "bitsandbytes quantizer.") from err
-
-        hf_weights_files, use_safetensors = self._prepare_weights(
-            model_name_or_path, revision)
-
-        quant_state_dict: Dict[str, Any] = {}
-
-        if pre_quant:
-            if load_8bit:
-                return self._quantized_8bit_generator(
-                    hf_weights_files, use_safetensors,
-                    quant_state_dict), quant_state_dict
-            else:
-                return self._quantized_4bit_generator(
-                    hf_weights_files, use_safetensors,
-                    quant_state_dict), quant_state_dict
-
-        return self._unquantized_generator(hf_weights_files, use_safetensors,
-                                           quant_state_dict), quant_state_dict
-
-    def _is_8bit_weight_name(self, weight_name: str):
-        quantized_suffix = {".scb", ".weight_format"}
-        return any(weight_name.lower().endswith(suffix)
-                   for suffix in quantized_suffix)
-
-    def _is_4bit_weight_name(self, weight_name: str):
-        quantized_suffix = {
-            "absmax",
-            "quant_map",
-            "nested_absmax",
-            "nested_quant_map",
-            "bitsandbytes",
-        }
-        suffix = weight_name.split(".")[-1]
-        return any(q_suffix in suffix for q_suffix in quantized_suffix)
-
-    def _quantized_8bit_generator(self, hf_weights_files, use_safetensors,
-                                  quant_state_dict) -> Generator:
-        for (
-                org_weight_name,
-                mapped_weight_name,
-                weight_tensor,
-        ) in self._hf_weight_iter(hf_weights_files, use_safetensors):
-            if not mapped_weight_name.lower().endswith(".scb"):
-                continue
-
-            weight_key = mapped_weight_name.lower().replace(".scb", ".weight")
-            quant_state_dict[weight_key] = weight_tensor
-
-        for (
-                org_weight_name,
-                mapped_weight_name,
-                weight_tensor,
-        ) in self._hf_weight_iter(hf_weights_files, use_safetensors):
-            if self._is_8bit_weight_name(mapped_weight_name):
-                continue
-
-            if mapped_weight_name in quant_state_dict:
-                set_weight_attrs(weight_tensor, {"load_in_8bit": True})
-                yield org_weight_name, weight_tensor
-            else:
-                yield org_weight_name, weight_tensor
-
-    def _quantized_4bit_generator(self, hf_weights_files, use_safetensors,
-                                  quant_state_dict) -> Generator:
-        from bitsandbytes.functional import QuantState
-
-        # First iterate over all quant state weights
-        weight_iterator = self._hf_weight_iter(hf_weights_files,
-                                               use_safetensors)
-        temp_state_dict = {}
-        for (
-                org_weight_name,
-                mapped_weight_name,
-                weight_tensor,
-        ) in weight_iterator:
-            if not self._is_4bit_weight_name(mapped_weight_name):
-                continue
-            # bitsandbytes library requires
-            # weight.quant_state.bitsandbytes__* in CPU
-            if "quant_state.bitsandbytes" in mapped_weight_name:
-                temp_state_dict[mapped_weight_name] = weight_tensor.cpu().data
-            else:
-                temp_state_dict[mapped_weight_name] = weight_tensor
-
-        # Closure to parse quant_state for each prequant weight
-        def _parse_quant_state(param_name: str,
-                               temp_state_dict: Dict) -> QuantState:
-            quant_state = {}
-            for k in temp_state_dict:
-                if param_name + "." in k:
-                    quant_state[k] = temp_state_dict[k]
-
-            return QuantState.from_dict(quant_state,
-                                        device=current_platform.device_type)
-
-        # Second iterate over all prequant and normal weights
-        # pre quantized weights would have a quant_state
-        for (
-                org_weight_name,
-                mapped_weight_name,
-                weight_tensor,
-        ) in self._hf_weight_iter(hf_weights_files, use_safetensors):
-            if self._is_4bit_weight_name(mapped_weight_name):
-                continue
-
-            if (f"{mapped_weight_name}.quant_state.bitsandbytes__nf4"
-                    in temp_state_dict) or (
-                        f"{mapped_weight_name}.quant_state.bitsandbytes__fp4"
-                        in temp_state_dict):
-                quant_state = _parse_quant_state(mapped_weight_name,
-                                                 temp_state_dict)
-                quant_state_dict[mapped_weight_name] = quant_state
-                yield org_weight_name, weight_tensor
-            else:
-                yield org_weight_name, weight_tensor
-
-    def _unquantized_generator(self, hf_weights_files, use_safetensors,
-                               quant_state_dict) -> Generator:
-        from bitsandbytes.functional import quantize_4bit
-
-        tp_size = get_tensor_model_parallel_world_size()
-        tp_rank = get_tensor_model_parallel_rank()
-
-        for (
-                org_weight_name,
-                mapped_weight_name,
-                weight_tensor,
-        ) in self._hf_weight_iter(hf_weights_files, use_safetensors):
-            if any(target_module in mapped_weight_name
-                   for target_module in self.target_modules
-                   ) and mapped_weight_name.endswith(".weight"):
-                # Without sharding
-                if any(
-                        mapped_weight_name.startswith(module)
-                        for module in self.unsharded_weights_modules):
-                    weight_sub_tensor = weight_tensor
-                # Shard by column
-                elif any(
-                        mapped_weight_name.startswith(module)
-                        for module in self.column_sharded_weights_modules):
-                    total_size = weight_tensor.size(-1)
-                    start_index = total_size // tp_size * tp_rank
-                    end_index = total_size // tp_size * (tp_rank + 1)
-                    weight_sub_tensor = weight_tensor[...,
-                                                      start_index:end_index]
-                # Weights have fused on disk. In this case, we assume that the
-                # weight and module use same name.
-                elif any(
-                        mapped_weight_name.startswith(module)
-                        for module in self.maybe_fused_weights_modules):
-                    # special case for fused weights
-                    # get the size of each shard weight tensor
-                    total_shard_sizes = next(
-                        (sizes for module, sizes in
-                         self.maybe_fused_weights_modules.items()
-                         if mapped_weight_name.startswith(module)))
-                    total_size = weight_tensor.size(0)
-                    assert total_size == sum(total_shard_sizes)
-                    # get the start/end index of each shard weight tensor
-                    total_start_index = list(
-                        itertools.accumulate([0] + total_shard_sizes))[:-1]
-                    shard_weights_index = [(
-                        idx + size // tp_size * tp_rank,
-                        idx + size // tp_size * (tp_rank + 1),
-                    ) for idx, size in zip(total_start_index,
-                                           total_shard_sizes)]
-                    # slice and reorder the weight tensor
-                    weight_tensor = [
-                        weight_tensor[start_index:end_index, ...]
-                        for start_index, end_index in shard_weights_index
-                    ]
-                    weight_sub_tensor = torch.cat(weight_tensor, dim=0)
-                # Shard by row
-                else:
-                    total_size = weight_tensor.size(0)
-                    start_index = total_size // tp_size * tp_rank
-                    end_index = total_size // tp_size * (tp_rank + 1)
-                    weight_sub_tensor = weight_tensor[start_index:end_index,
-                                                      ...]
-
-                # bitsandbytes requires data in GPU
-                if weight_sub_tensor.is_cuda:
-                    loaded_weight = weight_sub_tensor
-                else:
-                    loaded_weight = weight_sub_tensor.cuda()
-
-                # remove the following after the issue is fixed:
-                # https://github.com/bitsandbytes-foundation/bitsandbytes/issues/1342
-                if loaded_weight.is_contiguous() is False:
-                    loaded_weight = loaded_weight.contiguous()
-
-                with set_default_torch_dtype(torch.float32):
-                    processed_weight, quant_state = quantize_4bit(
-                        loaded_weight,
-                        compress_statistics=True,
-                        quant_type="nf4",
-                    )
-
-                quant_state_dict[mapped_weight_name] = quant_state
-            else:
-                processed_weight = weight_tensor
-            yield org_weight_name, processed_weight
-
-    def _get_bnb_target_modules(self, model: nn.Module) -> None:
-
-        for name, module in model.named_modules():
-            if isinstance(module, (LinearBase, )):
-                if modules_info := self.modules_mapping.get_sub_modules(name):
-                    # Map vllm's names to transformers's names.
-                    rep_name, sub_modules = modules_info
-                    for sub_name in sub_modules:
-                        self.target_modules.append(
-                            name.replace(rep_name, sub_name))
-                # Add original module name even if the module has stacked map,
-                # in case model has a mixture of disk-merged and disk-splitted
-                # weights with same last name.
-                self.target_modules.append(name)
-
-        assert (self.target_modules
-                ), "vllm currently does not support BNB quantization for"
-        f" {type(model).__name__}"
-
-    def _load_weights(self, model_config: ModelConfig,
-                      model: nn.Module) -> None:
-        if not hasattr(model, "load_weights"):
-            raise AttributeError(
-                "The required method 'load_weights' is not defined in class"
-                f" {type(model).__name__}.")
-
-        if not hasattr(model, "packed_modules_mapping"):
-            raise AttributeError(
-                f"Model {type(model).__name__} does not support BitsAndBytes "
-                "quantization yet. No 'packed_modules_mapping' found.")
-
-        self.modules_mapping = ParamMapping(
-            copy.deepcopy(model.packed_modules_mapping))
-
-        # For some models like Molmo, we need to use hf_to_vllm_mapper
-        # to ensure correct loading of weights.
-        if hf_to_vllm_mapper := getattr(model, "hf_to_vllm_mapper", None):
-            self.weight_mapper = lambda name: hf_to_vllm_mapper._map_name(name)
-
-        # Modules whose weights might have fused on disk
-        # we need their output_sizes to make shard in flight correctly with TP
-        self.maybe_fused_weights_modules: Dict[str, List[int]] = {}
-        self._get_bnb_target_modules(model)
-        for name, module in model.named_modules():
-            # Some modules like `ReplicatedLinear` should not have their weights
-            # sharded. The reason for implementing it this way is to avoid new
-            # static variable in the model implementation.
-            if isinstance(module, (ReplicatedLinear, )):
-                self.unsharded_weights_modules.append(name)
-            # `QKVParallelLinear` and `MergedColumnParallelLinear` might have
-            # fused weights on disk. We need to use the output sizes of these
-            # modules to shard the weights correctly.
-            elif isinstance(module,
-                            (QKVParallelLinear, MergedColumnParallelLinear)):
-                self.maybe_fused_weights_modules[name] = module.output_sizes
-            # In TP, these weights are partitioned along the column
-            # dimension (dim=-1)
-            elif isinstance(module, (RowParallelLinear, )):
-                self.column_sharded_weights_modules.append(name)
-
-        self.model_type = type(model).__name__
-
-        logger.info("Loading weights with BitsAndBytes quantization. "
-                    "May take a while ...")
-
-        quant_config = getattr(model_config.hf_config, "quantization_config",
-                               None)
-
-        pre_quant = False
-        if quant_config is not None:
-            quant_method = quant_config.get("quant_method")
-            if quant_method == "bitsandbytes":
-                pre_quant = True
-            else:
-                raise ValueError(
-                    f"BitsAndBytes loader does not support {quant_method} "
-                    "quantization")
-
-        # The quant_states in pre_quantized models cannot work with a split
-        # weight tensor. So TP does not work with pre_quantized bnb models.
-        if pre_quant and get_tensor_model_parallel_world_size() > 1:
-            raise ValueError(
-                "Prequant BitsAndBytes models with tensor parallelism is not "
-                "supported. Please try with pipeline parallelism.")
-
-        load_8bit = False
-        if pre_quant:
-            load_8bit = quant_config.get("load_in_8bit", False)
-
-        qweight_iterator, quant_state_dict = (
-            self._get_quantized_weights_iterator(model_config.model,
-                                                 model_config.revision,
-                                                 pre_quant, load_8bit))
-
-        weights_to_load = {name for name, _ in model.named_parameters()}
-        loaded_weights = model.load_weights(qweight_iterator)
-        # Some models may have weights loading tracker unimplemented.
-        if loaded_weights is not None:
-            weights_not_loaded = weights_to_load - loaded_weights
-            if weights_not_loaded:
-                raise ValueError("Following weights were not initialized from "
-                                 f"checkpoint: {weights_not_loaded}")
-
-        torch.cuda.empty_cache()
-
-        param_dict = dict(model.named_parameters())
-        stacked_quant_state_dict: Dict[str, Dict[int, Any]] = {}
-        # TODO: Change this lazy import to normal import
-        # after the checks are updated to run on a new version
-        from vllm.model_executor.models.utils import is_pp_missing_parameter
-
-        for quant_param_name in quant_state_dict:
-            if is_pp_missing_parameter(quant_param_name, model):
-                continue
-
-            non_stacked_param_name = quant_param_name
-
-            shard_index = 0
-            for shard_name, (
-                    weight_name,
-                    index,
-            ) in self.modules_mapping.inverse_packed_mapping.items():
-                # Some models, such as MiniCPM V2.5/2.6, contain both
-                # module names 'kv_proj' and 'qkv_proj'. To prevent 'kv_proj'
-                # from being incorrectly identified as being present in
-                # 'vpm.encoder.layers.0.self_attn.qkv_proj.weight
-                shard_pos = quant_param_name.find(shard_name)
-                can_correct_rename = (shard_pos
-                                      > 0) and (quant_param_name[shard_pos - 1]
-                                                == ".")
-                # If the quant_param_name is packed, it won't occur in the
-                # param_dict before renaming.
-                new_quant_param_name = quant_param_name.replace(
-                    shard_name, weight_name)
-                need_rename = (quant_param_name not in param_dict) \
-                              and (new_quant_param_name in param_dict)
-                if can_correct_rename and need_rename:
-                    shard_index = index
-                    quant_param_name = new_quant_param_name
-                    break
-
-            # Models like Clip/Siglip may skip some layers in initialization,
-            # causing unused quant_param_name in state_dict.
-            if quant_param_name not in param_dict:
-                continue
-
-            if quant_param_name not in stacked_quant_state_dict:
-                stacked_quant_state_dict[quant_param_name] = {}
-
-            stacked_quant_state_dict[quant_param_name][shard_index] = (
-                quant_state_dict[non_stacked_param_name])
-
-        # save quant_states and offsets as the attributes of the parameters
-        for param_name, param in param_dict.items():
-            if param_name in stacked_quant_state_dict:
-                quant_states = stacked_quant_state_dict[param_name]
-                set_weight_attrs(param, {"bnb_quant_state": quant_states})
-
-                pack_ratio = getattr(param, "pack_factor", -1)
-                if pack_ratio == -1:
-                    raise ValueError(
-                        f"pack_factor not set for parameter {param_name}.")
-
-                num_elements = [0] * len(quant_states)
-                for seq, quant_state in quant_states.items():
-                    num_elements[seq] = (math.prod(quant_state.shape) //
-                                         pack_ratio)
-
-                offsets = np.concatenate(([0], np.cumsum(num_elements)))
-                # Make torch infer_schema happy
-                offsets = torch.tensor(offsets).cpu()
-                set_weight_attrs(param, {"bnb_shard_offsets": offsets})
-
-                if load_8bit:
-                    set_weight_attrs(
-                        param, {"matmul_state": [None] * len(quant_states)})
-
-    def download_model(self, model_config: ModelConfig) -> None:
-        self._prepare_weights(model_config.model, model_config.revision)
-
-    def load_model(self, vllm_config: VllmConfig) -> nn.Module:
-        device_config = vllm_config.device_config
-        model_config = vllm_config.model_config
-        with set_default_torch_dtype(model_config.dtype):
-            with torch.device(device_config.device):
-                model = _initialize_model(vllm_config=vllm_config)
-
-                self._load_weights(model_config, model)
-
-        return model.eval()
-
-
-class GGUFModelLoader(BaseModelLoader):
-    """
-    Model loader that can load GGUF files. This is useful for loading models
-    that are quantized with GGUF and saved in the GGUF format. This loader
-    supports loading both full models and sharded models.
-    """
-
-    def __init__(self, load_config: LoadConfig):
-        super().__init__(load_config)
-        if load_config.model_loader_extra_config:
-            raise ValueError(f"Model loader extra config is not supported for "
-                             f"load format {load_config.load_format}")
-
-    def _prepare_weights(self, model_name_or_path: str):
-        if os.path.isfile(model_name_or_path):
-            return model_name_or_path
-        else:
-            raise ValueError(f"{model_name_or_path} is not a file.")
-
-    def _get_gguf_weights_map(self, model_config: ModelConfig):
-        """
-        GGUF uses this naming convention for their tensors from HF checkpoint:
-        `blk.N.BB.weight` and `blk.N.BB.bias`
-        where N signifies the block number of a layer, and BB signifies the
-        attention/mlp layer components.
-        See "Standardized tensor names" in
-        https://github.com/ggerganov/ggml/blob/master/docs/gguf.md for details.
-        """
-        config = model_config.hf_config
-        model_type = config.model_type
-        gguf_to_hf_name_map = {}
-        # hack: ggufs have a different name than transformers
-        if model_type == "cohere":
-            model_type = "command-r"
-        if model_type in ("deepseek_v3", "deepseek_v2"):
-            model_type = "deepseek2"
-            # GGUF layer map assumes that we will have a merged expert weights
-            # so we need to map them manually
-            for idx in range(config.num_hidden_layers):
-                gguf_to_hf_name_map[f"blk.{idx}.exp_probs_b.bias"] = \
-                        f"model.layers.{idx}.mlp.gate.e_score_correction_bias"
-                gguf_to_hf_name_map[f"blk.{idx}.ffn_down_exps.weight"] = \
-                        f"model.layers.{idx}.mlp.experts.0.down_proj.weight"
-                gguf_to_hf_name_map[f"blk.{idx}.ffn_gate_exps.weight"] = \
-                        f"model.layers.{idx}.mlp.experts.0.gate_proj.weight"
-                gguf_to_hf_name_map[f"blk.{idx}.ffn_up_exps.weight"] = \
-                        f"model.layers.{idx}.mlp.experts.0.up_proj.weight"
-
-        arch = None
-        for key, value in gguf.MODEL_ARCH_NAMES.items():
-            if value == model_type:
-                arch = key
-                break
-        if arch is None:
-            raise RuntimeError(f"Unknown gguf model_type: {model_type}")
-        num_layers = config.num_hidden_layers
-        name_map = gguf.get_tensor_name_map(arch, num_layers)
-        with torch.device("meta"):
-            dummy_model = AutoModelForCausalLM.from_config(
-                config, trust_remote_code=model_config.trust_remote_code)
-        state_dict = dummy_model.state_dict()
-
-        for hf_name in state_dict:
-            name, suffix = hf_name.rsplit(".", 1)
-            gguf_name = name_map.get_name(name)
-            gguf_to_hf_name_map[f"{gguf_name}.{suffix}"] = hf_name
-        return gguf_to_hf_name_map
-
-    def _get_weights_iterator(
-        self, model_name_or_path: str, gguf_to_hf_name_map: Dict[str, str]
-    ) -> Generator[Tuple[str, torch.Tensor], None, None]:
-        return gguf_quant_weights_iterator(model_name_or_path,
-                                           gguf_to_hf_name_map)
-
-    def download_model(self, model_config: ModelConfig) -> None:
-        self._prepare_weights(model_config.model)
-
-    def load_model(self, vllm_config: VllmConfig) -> nn.Module:
-        device_config = vllm_config.device_config
-        model_config = vllm_config.model_config
-        local_model_path = self._prepare_weights(model_config.model)
-        gguf_weights_map = self._get_gguf_weights_map(model_config)
-        # we can only know if tie word embeddings after mapping weights
-        if "lm_head.weight" in get_gguf_extra_tensor_names(
-                local_model_path, gguf_weights_map):
-            model_config.hf_config.update({"tie_word_embeddings": True})
-
-        target_device = torch.device(device_config.device)
-        with set_default_torch_dtype(model_config.dtype):
-            with target_device:
-                model = _initialize_model(vllm_config=vllm_config)
-            model.load_weights(
-                self._get_weights_iterator(local_model_path, gguf_weights_map))
-
-            _process_weights_after_loading(model, model_config, target_device)
-        return model
-
-
-class RunaiModelStreamerLoader(BaseModelLoader):
-    """
-        Model loader that can load safetensors
-        files from local FS or S3 bucket.
-    """
-
-    def __init__(self, load_config: LoadConfig):
-        super().__init__(load_config)
-        if load_config.model_loader_extra_config:
-            extra_config = load_config.model_loader_extra_config
-
-            if ("concurrency" in extra_config
-                    and isinstance(extra_config.get("concurrency"), int)):
-                os.environ["RUNAI_STREAMER_CONCURRENCY"] = str(
-                    extra_config.get("concurrency"))
-
-            if ("memory_limit" in extra_config
-                    and isinstance(extra_config.get("memory_limit"), int)):
-                os.environ["RUNAI_STREAMER_MEMORY_LIMIT"] = str(
-                    extra_config.get("memory_limit"))
-
-            runai_streamer_s3_endpoint = os.getenv(
-                'RUNAI_STREAMER_S3_ENDPOINT')
-            aws_endpoint_url = os.getenv('AWS_ENDPOINT_URL')
-            if (runai_streamer_s3_endpoint is None
-                    and aws_endpoint_url is not None):
-                os.environ["RUNAI_STREAMER_S3_ENDPOINT"] = aws_endpoint_url
-
-    def _prepare_weights(self, model_name_or_path: str,
-                         revision: Optional[str]) -> List[str]:
-        """Prepare weights for the model.
-
-        If the model is not local, it will be downloaded."""
-
-        is_s3_path = is_s3(model_name_or_path)
-        is_local = os.path.isdir(model_name_or_path)
-        safetensors_pattern = "*.safetensors"
-        index_file = SAFE_WEIGHTS_INDEX_NAME
-
-        hf_folder = (model_name_or_path if
-                     (is_local or is_s3_path) else download_weights_from_hf(
-                         model_name_or_path,
-                         self.load_config.download_dir,
-                         [safetensors_pattern],
-                         revision,
-                         ignore_patterns=self.load_config.ignore_patterns,
-                     ))
-        if is_s3_path:
-            hf_weights_files = s3_glob(path=hf_folder,
-                                       allow_pattern=[safetensors_pattern])
-        else:
-            hf_weights_files = glob.glob(
-                os.path.join(hf_folder, safetensors_pattern))
-
-        if not is_local and not is_s3_path:
-            download_safetensors_index_file_from_hf(
-                model_name_or_path, index_file, self.load_config.download_dir,
-                revision)
-
-        if not hf_weights_files:
-            raise RuntimeError(
-                f"Cannot find any safetensors model weights with "
-                f"`{model_name_or_path}`")
-
-        return hf_weights_files
-
-    def _get_weights_iterator(
-            self, model_or_path: str,
-            revision: str) -> Generator[Tuple[str, torch.Tensor], None, None]:
-        """Get an iterator for the model weights based on the load format."""
-        hf_weights_files = self._prepare_weights(model_or_path, revision)
-        return runai_safetensors_weights_iterator(
-            hf_weights_files,
-            self.load_config.use_tqdm_on_load,
-        )
-
-    def download_model(self, model_config: ModelConfig) -> None:
-        """Download model if necessary"""
-        self._prepare_weights(model_config.model, model_config.revision)
-
-    def load_model(self, vllm_config: VllmConfig) -> nn.Module:
-        """Perform streaming of the model to destination"""
-        device_config = vllm_config.device_config
-        model_config = vllm_config.model_config
-
-        target_device = torch.device(device_config.device)
-        with set_default_torch_dtype(model_config.dtype):
-            with target_device:
-                model = _initialize_model(vllm_config=vllm_config)
-
-            model_weights = model_config.model
-            if hasattr(model_config, "model_weights"):
-                model_weights = model_config.model_weights
-            model.load_weights(
-                self._get_weights_iterator(model_weights,
-                                           model_config.revision))
-
-            _process_weights_after_loading(model, model_config, target_device)
-        return model.eval()
-
-
-def get_model_loader(load_config: LoadConfig) -> BaseModelLoader:
-    """Get a model loader based on the load format."""
-    if isinstance(load_config.load_format, type):
-        return load_config.load_format(load_config)
-
-    if load_config.load_format == LoadFormat.DUMMY:
-        return DummyModelLoader(load_config)
-
-    if load_config.load_format == LoadFormat.TENSORIZER:
-        return TensorizerLoader(load_config)
-
-    if load_config.load_format == LoadFormat.SHARDED_STATE:
-        return ShardedStateLoader(load_config)
-
-    if load_config.load_format == LoadFormat.BITSANDBYTES:
-        return BitsAndBytesModelLoader(load_config)
-
-    if load_config.load_format == LoadFormat.GGUF:
-        return GGUFModelLoader(load_config)
-
-    if load_config.load_format == LoadFormat.RUNAI_STREAMER:
-        return RunaiModelStreamerLoader(load_config)
-
-    if load_config.load_format == LoadFormat.RUNAI_STREAMER_SHARDED:
-        return ShardedStateLoader(load_config, runai_model_streamer=True)
-
-    return DefaultModelLoader(load_config)
diff --git a/vllm/model_executor/model_loader/runai_streamer_loader.py b/vllm/model_executor/model_loader/runai_streamer_loader.py
new file mode 100644
index 000000000..1fbb5ca56
--- /dev/null
+++ b/vllm/model_executor/model_loader/runai_streamer_loader.py
@@ -0,0 +1,120 @@
+# SPDX-License-Identifier: Apache-2.0
+# ruff: noqa: SIM117
+import glob
+import os
+from typing import Generator, List, Optional, Tuple
+
+import torch
+from torch import nn
+from transformers.utils import SAFE_WEIGHTS_INDEX_NAME
+
+from vllm.config import LoadConfig, ModelConfig, VllmConfig
+from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+from vllm.model_executor.model_loader.utils import (
+    initialize_model, process_weights_after_loading, set_default_torch_dtype)
+from vllm.model_executor.model_loader.weight_utils import (
+    download_safetensors_index_file_from_hf, download_weights_from_hf,
+    runai_safetensors_weights_iterator)
+from vllm.transformers_utils.s3_utils import glob as s3_glob
+from vllm.transformers_utils.utils import is_s3
+
+
+class RunaiModelStreamerLoader(BaseModelLoader):
+    """
+        Model loader that can load safetensors
+        files from local FS or S3 bucket.
+    """
+
+    def __init__(self, load_config: LoadConfig):
+        super().__init__(load_config)
+        if load_config.model_loader_extra_config:
+            extra_config = load_config.model_loader_extra_config
+
+            if ("concurrency" in extra_config
+                    and isinstance(extra_config.get("concurrency"), int)):
+                os.environ["RUNAI_STREAMER_CONCURRENCY"] = str(
+                    extra_config.get("concurrency"))
+
+            if ("memory_limit" in extra_config
+                    and isinstance(extra_config.get("memory_limit"), int)):
+                os.environ["RUNAI_STREAMER_MEMORY_LIMIT"] = str(
+                    extra_config.get("memory_limit"))
+
+            runai_streamer_s3_endpoint = os.getenv(
+                'RUNAI_STREAMER_S3_ENDPOINT')
+            aws_endpoint_url = os.getenv('AWS_ENDPOINT_URL')
+            if (runai_streamer_s3_endpoint is None
+                    and aws_endpoint_url is not None):
+                os.environ["RUNAI_STREAMER_S3_ENDPOINT"] = aws_endpoint_url
+
+    def _prepare_weights(self, model_name_or_path: str,
+                         revision: Optional[str]) -> List[str]:
+        """Prepare weights for the model.
+
+        If the model is not local, it will be downloaded."""
+
+        is_s3_path = is_s3(model_name_or_path)
+        is_local = os.path.isdir(model_name_or_path)
+        safetensors_pattern = "*.safetensors"
+        index_file = SAFE_WEIGHTS_INDEX_NAME
+
+        hf_folder = (model_name_or_path if
+                     (is_local or is_s3_path) else download_weights_from_hf(
+                         model_name_or_path,
+                         self.load_config.download_dir,
+                         [safetensors_pattern],
+                         revision,
+                         ignore_patterns=self.load_config.ignore_patterns,
+                     ))
+        if is_s3_path:
+            hf_weights_files = s3_glob(path=hf_folder,
+                                       allow_pattern=[safetensors_pattern])
+        else:
+            hf_weights_files = glob.glob(
+                os.path.join(hf_folder, safetensors_pattern))
+
+        if not is_local and not is_s3_path:
+            download_safetensors_index_file_from_hf(
+                model_name_or_path, index_file, self.load_config.download_dir,
+                revision)
+
+        if not hf_weights_files:
+            raise RuntimeError(
+                f"Cannot find any safetensors model weights with "
+                f"`{model_name_or_path}`")
+
+        return hf_weights_files
+
+    def _get_weights_iterator(
+            self, model_or_path: str,
+            revision: str) -> Generator[Tuple[str, torch.Tensor], None, None]:
+        """Get an iterator for the model weights based on the load format."""
+        hf_weights_files = self._prepare_weights(model_or_path, revision)
+        return runai_safetensors_weights_iterator(
+            hf_weights_files,
+            self.load_config.use_tqdm_on_load,
+        )
+
+    def download_model(self, model_config: ModelConfig) -> None:
+        """Download model if necessary"""
+        self._prepare_weights(model_config.model, model_config.revision)
+
+    def load_model(self, vllm_config: VllmConfig) -> nn.Module:
+        """Perform streaming of the model to destination"""
+        device_config = vllm_config.device_config
+        model_config = vllm_config.model_config
+
+        target_device = torch.device(device_config.device)
+        with set_default_torch_dtype(model_config.dtype):
+            with target_device:
+                model = initialize_model(vllm_config=vllm_config)
+
+            model_weights = model_config.model
+            if hasattr(model_config, "model_weights"):
+                model_weights = model_config.model_weights
+            model.load_weights(
+                self._get_weights_iterator(model_weights,
+                                           model_config.revision))
+
+            process_weights_after_loading(model, model_config, target_device)
+        return model.eval()
diff --git a/vllm/model_executor/model_loader/sharded_state_loader.py b/vllm/model_executor/model_loader/sharded_state_loader.py
new file mode 100644
index 000000000..152a3d699
--- /dev/null
+++ b/vllm/model_executor/model_loader/sharded_state_loader.py
@@ -0,0 +1,210 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import collections
+import glob
+import os
+from typing import Any, Dict, Generator, List, Optional, Tuple
+
+import torch
+from torch import nn
+
+from vllm.config import LoadConfig, ModelConfig, VllmConfig
+from vllm.logger import init_logger
+from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+from vllm.model_executor.model_loader.utils import (
+    initialize_model, process_weights_after_loading, set_default_torch_dtype)
+from vllm.model_executor.model_loader.weight_utils import (
+    download_weights_from_hf, runai_safetensors_weights_iterator)
+from vllm.transformers_utils.s3_utils import glob as s3_glob
+from vllm.transformers_utils.utils import is_s3
+
+logger = init_logger(__name__)
+
+
+class ShardedStateLoader(BaseModelLoader):
+    """
+    Model loader that directly loads each worker's model state dict, which
+    enables a fast load path for large tensor-parallel models where each worker
+    only needs to read its own shard rather than the entire checkpoint. See
+    `examples/offline_inference/save_sharded_state.py` for creating a sharded
+    checkpoint.
+    """
+
+    DEFAULT_PATTERN = "model-rank-{rank}-part-{part}.safetensors"
+
+    def __init__(self,
+                 load_config: LoadConfig,
+                 runai_model_streamer: bool = False):
+        super().__init__(load_config)
+
+        self.runai_model_streamer = runai_model_streamer
+        extra_config = ({} if load_config.model_loader_extra_config is None
+                        else load_config.model_loader_extra_config.copy())
+        self.pattern = extra_config.pop("pattern", self.DEFAULT_PATTERN)
+        if extra_config:
+            raise ValueError(f"Unexpected extra config keys for load format "
+                             f"{load_config.load_format}: "
+                             f"{load_config.model_loader_extra_config.keys()}")
+
+    @staticmethod
+    def _filter_subtensors(
+        tensors: Dict[str, torch.Tensor], ) -> Dict[str, torch.Tensor]:
+        """
+        Filter out all tensors that share the same memory or a subset of the
+        memory of another tensor.
+        """
+        same_storage_groups: Dict[Any, List[Tuple[str, torch.Tensor]]] = (
+            collections.defaultdict(list))
+        for key, tensor in tensors.items():
+            if tensor.numel():
+                ptr = tensor.untyped_storage().data_ptr()
+                same_storage_groups[tensor.device, ptr].append((key, tensor))
+
+        def get_end_ptr(tensor: torch.Tensor) -> int:
+            return tensor.view(-1)[-1].data_ptr() + tensor.element_size()
+
+        result: Dict[str, torch.Tensor] = {}
+        for group in same_storage_groups.values():
+            for k, t in group:
+                a, b = t.data_ptr(), get_end_ptr(t)
+                for k2, t2 in group:
+                    if not t2.is_contiguous():
+                        continue
+                    a2, b2 = t2.data_ptr(), get_end_ptr(t2)
+                    if a < a2 or b2 < b:
+                        continue
+                    if a2 < a or b < b2 or not t.is_contiguous():
+                        break  # t2 covers strictly more memory than t.
+                    if k2 < k:
+                        # Same tensors, keep the one with the smaller key.
+                        break
+                else:
+                    result[k] = t
+        return result
+
+    def _prepare_weights(self, model_name_or_path: str,
+                         revision: Optional[str]):
+        if is_s3(model_name_or_path) or os.path.isdir(model_name_or_path):
+            return model_name_or_path
+        else:
+            allow_patterns = ["*.safetensors"]
+            return download_weights_from_hf(
+                model_name_or_path,
+                self.load_config.download_dir,
+                allow_patterns,
+                revision,
+                ignore_patterns=self.load_config.ignore_patterns,
+            )
+
+    def download_model(self, model_config: ModelConfig) -> None:
+        self._prepare_weights(model_config.model, model_config.revision)
+
+    def load_model(self, vllm_config: VllmConfig) -> nn.Module:
+        device_config = vllm_config.device_config
+        model_config = vllm_config.model_config
+        target_device = torch.device(device_config.device)
+
+        from vllm.distributed import get_tensor_model_parallel_rank
+
+        model_weights = model_config.model
+        if hasattr(model_config, "model_weights"):
+            model_weights = model_config.model_weights
+        local_model_path = model_weights
+
+        with set_default_torch_dtype(model_config.dtype):
+            with target_device:
+                model = initialize_model(vllm_config=vllm_config)
+                process_weights_after_loading(model, model_config,
+                                              target_device)
+            rank = get_tensor_model_parallel_rank()
+            pattern = os.path.join(
+                local_model_path,
+                self.pattern.format(rank=rank, part="*"),
+            )
+
+            filepaths = []
+            if is_s3(local_model_path):
+                file_pattern = f"*{self.pattern.format(rank=rank, part=' * ')}"
+                filepaths = s3_glob(path=local_model_path,
+                                    allow_pattern=[file_pattern])
+            else:
+                filepaths = glob.glob(pattern)
+            if not filepaths:
+                # TODO: support un-sharded checkpoints too
+                raise ValueError(
+                    f"Could not find checkpoint files '{pattern}', only "
+                    f"pre-sharded checkpoints are currently supported!")
+            state_dict = self._filter_subtensors(model.state_dict())
+            for key, tensor in self.iterate_over_files(filepaths):
+                # If loading with LoRA enabled, additional padding may
+                # be added to certain parameters. We only load into a
+                # narrowed view of the parameter data.
+                param_data = state_dict[key].data
+                param_shape = state_dict[key].shape
+                for dim, size in enumerate(tensor.shape):
+                    if size < param_shape[dim]:
+                        param_data = param_data.narrow(dim, 0, size)
+                if tensor.shape != param_shape:
+                    logger.warning(
+                        "loading tensor of shape %s into "
+                        "parameter '%s' of shape %s",
+                        tensor.shape,
+                        key,
+                        param_shape,
+                    )
+                param_data.copy_(tensor)
+                state_dict.pop(key)
+            if state_dict:
+                raise ValueError(
+                    f"Missing keys {tuple(state_dict)} in loaded state!")
+        return model.eval()
+
+    def iterate_over_files(
+            self, paths) -> Generator[Tuple[str, torch.Tensor], None, None]:
+        if self.runai_model_streamer:
+            yield from runai_safetensors_weights_iterator(paths, True)
+        else:
+            from safetensors.torch import safe_open
+            for path in paths:
+                with safe_open(path, framework="pt") as f:
+                    for key in f.keys():  # noqa: SIM118
+                        tensor = f.get_tensor(key)
+                        yield key, tensor
+
+    @staticmethod
+    def save_model(
+        model: torch.nn.Module,
+        path: str,
+        pattern: Optional[str] = None,
+        max_size: Optional[int] = None,
+    ) -> None:
+        from safetensors.torch import save_file
+
+        from vllm.distributed import get_tensor_model_parallel_rank
+
+        if pattern is None:
+            pattern = ShardedStateLoader.DEFAULT_PATTERN
+        rank = get_tensor_model_parallel_rank()
+        part_idx = 0
+        total_size = 0
+        state_dict = ShardedStateLoader._filter_subtensors(model.state_dict())
+        state_dict_part: Dict[str, torch.Tensor] = {}
+        for key, tensor in state_dict.items():
+            param_size = tensor.nelement() * tensor.element_size()
+            if max_size is not None and total_size + param_size > max_size:
+                filename = pattern.format(rank=rank, part=part_idx)
+                save_file(
+                    state_dict_part,
+                    os.path.join(path, filename),
+                )
+                part_idx += 1
+                total_size = 0
+                state_dict_part = {}
+            state_dict_part[key] = tensor
+            total_size += param_size
+        if len(state_dict_part) > 0:
+            filename = pattern.format(rank=rank, part=part_idx)
+            save_file(
+                state_dict_part,
+                os.path.join(path, filename),
+            )
diff --git a/vllm/model_executor/model_loader/tensorizer_loader.py b/vllm/model_executor/model_loader/tensorizer_loader.py
new file mode 100644
index 000000000..7cf3940ab
--- /dev/null
+++ b/vllm/model_executor/model_loader/tensorizer_loader.py
@@ -0,0 +1,119 @@
+# SPDX-License-Identifier: Apache-2.0
+# ruff: noqa: SIM117
+import copy
+from typing import Generator, Tuple
+
+import torch
+from torch import nn
+
+from vllm.config import LoadConfig, ModelConfig, ParallelConfig, VllmConfig
+from vllm.logger import init_logger
+from vllm.model_executor.model_loader.base_loader import BaseModelLoader
+from vllm.model_executor.model_loader.tensorizer import (
+    TensorizerConfig, is_vllm_tensorized, load_with_tensorizer,
+    serialize_vllm_model, tensorizer_weights_iterator)
+from vllm.model_executor.model_loader.utils import (get_model_architecture,
+                                                    initialize_model,
+                                                    set_default_torch_dtype)
+
+logger = init_logger(__name__)
+
+
+class TensorizerLoader(BaseModelLoader):
+    """Model loader using CoreWeave's tensorizer library."""
+
+    def __init__(self, load_config: LoadConfig):
+        super().__init__(load_config)
+        if isinstance(load_config.model_loader_extra_config, TensorizerConfig):
+            self.tensorizer_config = load_config.model_loader_extra_config
+        else:
+            self.tensorizer_config = TensorizerConfig(
+                **load_config.model_loader_extra_config)
+
+    def _verify_config(self, model_config: ModelConfig,
+                       parallel_config: ParallelConfig):
+        self.tensorizer_config.verify_with_model_config(model_config)
+        self.tensorizer_config.verify_with_parallel_config(parallel_config)
+
+    def _get_weights_iterator(
+        self, ) -> Generator[Tuple[str, torch.Tensor], None, None]:
+        tensorizer_args = self.tensorizer_config._construct_tensorizer_args()
+        return tensorizer_weights_iterator(tensorizer_args)
+
+    def _load_model_serialized_cpu(
+        self,
+        vllm_config: VllmConfig,
+    ) -> nn.Module:
+        """Load a serialized model with tensorizer to the CPU.
+
+        This is only necessary when the model isn't vLLM-tensorized (see
+        examples/other/tensorize_vllm_model.py) This should still
+        be faster than default HuggingFace loading, but will be slower than
+        loading a vLLM-tensorized model.
+        """
+        device_config = vllm_config.device_config
+        model_config = vllm_config.model_config
+        with set_default_torch_dtype(model_config.dtype):
+            with torch.device(device_config.device):
+                model = initialize_model(vllm_config=vllm_config)
+
+            model.load_weights(self._get_weights_iterator())
+        return model.eval()
+
+    def _load_model_serialized(
+        self,
+        vllm_config: VllmConfig,
+    ) -> nn.Module:
+        """Load a serialized model with tensorizer.
+
+        Expects a vLLM-tensorized model. See the
+        examples/other/tensorize_vllm_model.py example script
+        for serializing vLLM models."""
+
+        device_config = vllm_config.device_config
+        model_config = vllm_config.model_config
+
+        with set_default_torch_dtype(model_config.dtype):
+            with torch.device(device_config.device):
+                model_class = get_model_architecture(model_config)[0]
+
+                tensorizer_config = copy.copy(self.tensorizer_config)
+                tensorizer_config.model_class = model_class
+                tensorizer_config.hf_config = model_config.hf_config
+                tensorizer_config.dtype = model_config.dtype
+
+                model = load_with_tensorizer(tensorizer_config,
+                                             vllm_config=vllm_config)
+        return model.eval()
+
+    def download_model(self, model_config: ModelConfig) -> None:
+        self.tensorizer_config.verify_with_model_config(model_config)
+
+        with self.tensorizer_config.open_stream():
+            pass
+
+    def load_model(self, vllm_config: VllmConfig) -> nn.Module:
+        model_config = vllm_config.model_config
+        parallel_config = vllm_config.parallel_config
+        self._verify_config(model_config, parallel_config)
+
+        if parallel_config.tensor_parallel_size > 1:
+            from vllm.distributed import get_tensor_model_parallel_rank
+
+            self.tensorizer_config.tensorizer_uri = (
+                self.tensorizer_config.tensorizer_uri %
+                get_tensor_model_parallel_rank())
+
+        if is_vllm_tensorized(self.tensorizer_config):
+            return self._load_model_serialized(vllm_config=vllm_config)
+        return self._load_model_serialized_cpu(vllm_config=vllm_config)
+
+    @staticmethod
+    def save_model(
+        model: torch.nn.Module,
+        tensorizer_config: TensorizerConfig,
+    ) -> None:
+        serialize_vllm_model(
+            model=model,
+            tensorizer_config=tensorizer_config,
+        )
diff --git a/vllm/model_executor/model_loader/utils.py b/vllm/model_executor/model_loader/utils.py
index 0ca6b6fd8..42528cd7e 100644
--- a/vllm/model_executor/model_loader/utils.py
+++ b/vllm/model_executor/model_loader/utils.py
@@ -1,6 +1,9 @@
 # SPDX-License-Identifier: Apache-2.0
 """Utilities for selecting and loading models."""
 import contextlib
+import inspect
+import warnings
+from contextlib import contextmanager
 from dataclasses import dataclass, field
 from typing import Dict, List, Optional, Tuple, Type
 
@@ -9,14 +12,18 @@ import transformers
 from torch import nn
 from transformers.dynamic_module_utils import get_class_from_dynamic_module
 
-from vllm.config import ModelConfig, ModelImpl
+from vllm.attention import Attention
+from vllm.config import (ModelConfig, ModelImpl, VllmConfig,
+                         set_current_vllm_config)
 from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import QKVCrossParallelLinear
 from vllm.model_executor.layers.quantization.base_config import (
-    QuantizationConfig)
+    QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.models import ModelRegistry
 from vllm.model_executor.models.adapters import (as_classification_model,
                                                  as_embedding_model,
                                                  as_reward_model)
+from vllm.utils import is_pin_memory_available
 
 logger = init_logger(__name__)
 
@@ -30,6 +37,128 @@ def set_default_torch_dtype(dtype: torch.dtype):
     torch.set_default_dtype(old_dtype)
 
 
+def initialize_model(
+    vllm_config: VllmConfig,
+    *,
+    prefix: str = "",
+    model_class: Optional[type[nn.Module]] = None,
+) -> nn.Module:
+    """Initialize a model with the given configurations."""
+    model_config = vllm_config.model_config
+    if model_class is None:
+        model_class, _ = get_model_architecture(model_config)
+
+    if vllm_config.quant_config is not None:
+        configure_quant_config(vllm_config.quant_config, model_class)
+
+    signatures = inspect.signature(model_class.__init__)
+    all_params = [param.name for param in signatures.parameters.values()]
+    if "vllm_config" in all_params and "prefix" in all_params:
+        # new-style model class
+        with set_current_vllm_config(vllm_config, check_compile=True):
+            return model_class(vllm_config=vllm_config, prefix=prefix)
+
+    msg = ("vLLM model class should accept `vllm_config` and `prefix` as "
+           "input arguments. Possibly you have an old-style model class"
+           " registered from out of tree and it is used for new vLLM version. "
+           "Check https://docs.vllm.ai/en/latest/design/arch_overview.html "
+           "for the design and update the model class accordingly.")
+    warnings.warn(msg, DeprecationWarning, stacklevel=2)
+
+    logger.warning(
+        "Trying to guess the arguments for old-style model class %s",
+        model_class,
+    )
+    # try to be compatible with old-style model class
+    kwargs = {}
+    if "prefix" in all_params:
+        kwargs["prefix"] = prefix
+    if "config" in all_params:
+        kwargs["config"] = model_config.hf_config
+    if "cache_config" in all_params:
+        kwargs["cache_config"] = vllm_config.cache_config
+    if "quant_config" in all_params:
+        kwargs["quant_config"] = vllm_config.quant_config
+    if "lora_config" in all_params:
+        kwargs["lora_config"] = vllm_config.lora_config
+    if "scheduler_config" in all_params:
+        kwargs["scheduler_config"] = vllm_config.scheduler_config
+    with set_current_vllm_config(vllm_config, check_compile=True):
+        return model_class(**kwargs)
+
+
+def process_weights_after_loading(model: nn.Module, model_config: ModelConfig,
+                                  target_device: torch.device) -> None:
+    for _, module in model.named_modules():
+        if isinstance(module, QKVCrossParallelLinear):
+            # NOTE(Isotr0py): special case for cross QKV layer because
+            # q and kv proj aren't registered as submodules intentionally
+            module.process_weights_after_loading()
+            continue
+        quant_method = getattr(module, "quant_method", None)
+        if isinstance(quant_method, QuantizeMethodBase):
+            # When quant methods need to process weights after loading
+            # (for repacking, quantizing, etc), they expect parameters
+            # to be on the global target device. This scope is for the
+            # case where cpu offloading is used, where we will move the
+            # parameters onto device for processing and back off after.
+            with device_loading_context(module, target_device):
+                quant_method.process_weights_after_loading(module)
+
+    # Currently only used by MLA.
+    # NOTE: This intentionally happens after other modules so we can easily
+    # decompress the weights for MLA.
+    for _, module in model.named_modules():
+        if isinstance(module, Attention) and \
+            hasattr(module, "process_weights_after_loading"):
+            # TODO(lucas): see if there is a way to unify the signatures
+            # of process_weights_after_loading
+            module.process_weights_after_loading(model_config.dtype)
+
+
+@contextmanager
+def device_loading_context(module: torch.nn.Module,
+                           target_device: torch.device):
+    if target_device.type == "cpu":
+        # If target is CPU, no need to move anything
+        yield module
+        return
+
+    original_device_states: Dict[str, torch.device] = {}
+
+    # Store original device states and move parameters to GPU if they're on CPU
+    for name, p in module.named_parameters():
+        if p.device.type == "cpu":
+            original_device_states[name] = p.device
+            p.data = p.data.to(target_device)
+        # Parameters already on target device are not touched
+
+    try:
+        yield module
+
+    finally:
+        # Restore parameters to their original devices, ignoring new parameters
+        pin_memory = is_pin_memory_available()
+        for name, p in module.named_parameters():
+            if name in original_device_states:
+                original_device: torch.device = original_device_states[name]
+                if original_device.type == "cpu":
+                    # `torch.empty_like` does not support `pin_memory` argument
+                    cpu_data = torch.empty_strided(
+                        size=p.data.size(),
+                        stride=p.data.stride(),
+                        dtype=p.data.dtype,
+                        layout=p.data.layout,
+                        device="cpu",
+                        pin_memory=pin_memory,
+                    )
+                    cpu_data.copy_(p.data)
+                    p.data = cpu_data
+                else:
+                    p.data = p.data.to(original_device)
+        # New parameters or parameters already on target device are untouched
+
+
 def resolve_transformers_arch(model_config: ModelConfig,
                               architectures: list[str]):
     for i, arch in enumerate(architectures):
diff --git a/vllm/model_executor/models/mllama4.py b/vllm/model_executor/models/mllama4.py
index 56a7f02c4..741b98373 100644
--- a/vllm/model_executor/models/mllama4.py
+++ b/vllm/model_executor/models/mllama4.py
@@ -37,7 +37,7 @@ from vllm.model_executor.layers.linear import (ColumnParallelLinear,
                                                RowParallelLinear)
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
-from vllm.model_executor.model_loader.loader import _initialize_model
+from vllm.model_executor.model_loader.utils import initialize_model
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.model_executor.sampling_metadata import SamplingMetadata
 from vllm.multimodal import MULTIMODAL_REGISTRY
@@ -670,7 +670,7 @@ class Llama4ForConditionalGeneration(nn.Module, SupportsMultiModal,
             self.config,
             None,
             prefix=maybe_prefix(prefix, "multi_modal_projector"))
-        self.language_model = _initialize_model(
+        self.language_model = initialize_model(
             vllm_config=vllm_config.with_hf_config(config.text_config,
                                                    ["LlamaForCausalLM"]),
             prefix=maybe_prefix(prefix, "language_model"),
diff --git a/vllm/model_executor/models/ultravox.py b/vllm/model_executor/models/ultravox.py
index bfa48099b..0bc5d218f 100644
--- a/vllm/model_executor/models/ultravox.py
+++ b/vllm/model_executor/models/ultravox.py
@@ -17,7 +17,7 @@ from vllm.config import VllmConfig
 from vllm.forward_context import get_forward_context
 from vllm.model_executor.layers.activation import MulAndSilu, get_act_fn
 from vllm.model_executor.layers.layernorm import RMSNorm
-from vllm.model_executor.model_loader.loader import DefaultModelLoader
+from vllm.model_executor.model_loader import DefaultModelLoader
 from vllm.model_executor.models.module_mapping import MultiModelKeys
 from vllm.model_executor.sampling_metadata import SamplingMetadata
 from vllm.multimodal import MULTIMODAL_REGISTRY
diff --git a/vllm/model_executor/models/utils.py b/vllm/model_executor/models/utils.py
index 1be40ecd3..0458e3ce0 100644
--- a/vllm/model_executor/models/utils.py
+++ b/vllm/model_executor/models/utils.py
@@ -273,7 +273,7 @@ def init_vllm_registered_model(
     Helper function to initialize an inner model registered to vLLM,
     based on the arguments passed to the outer vLLM model.
     """
-    from vllm.model_executor.model_loader.loader import _initialize_model
+    from vllm.model_executor.model_loader.utils import initialize_model
 
     if hf_config is None and architectures is not None:
         # So that the architectures field is overridden
@@ -283,7 +283,7 @@ def init_vllm_registered_model(
         vllm_config = vllm_config.with_hf_config(hf_config,
                                                  architectures=architectures)
 
-    return _initialize_model(vllm_config=vllm_config, prefix=prefix)
+    return initialize_model(vllm_config=vllm_config, prefix=prefix)
 
 
 @overload
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index 0989c7e19..13cfcc4bb 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -7,7 +7,7 @@ from vllm.config import (CompilationLevel, VllmConfig,
                          get_layers_from_vllm_config, set_current_vllm_config)
 from vllm.forward_context import set_forward_context
 from vllm.logger import init_logger
-from vllm.model_executor.model_loader.loader import get_model_loader
+from vllm.model_executor.model_loader import get_model_loader
 from vllm.model_executor.model_loader.utils import set_default_torch_dtype
 from vllm.model_executor.models import ModelRegistry
 from vllm.model_executor.models.llama_eagle3 import Eagle3LlamaForCausalLM
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index da2ecfc4b..5352b1c5a 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -318,7 +318,7 @@ class Worker(WorkerBase):
         pattern: Optional[str] = None,
         max_size: Optional[int] = None,
     ) -> None:
-        from vllm.model_executor.model_loader.loader import ShardedStateLoader
+        from vllm.model_executor.model_loader import ShardedStateLoader
         ShardedStateLoader.save_model(
             self.model_runner.model,
             path,
diff --git a/vllm/worker/model_runner.py b/vllm/worker/model_runner.py
index e22bbcc65..d96021cc6 100644
--- a/vllm/worker/model_runner.py
+++ b/vllm/worker/model_runner.py
@@ -1220,7 +1220,7 @@ class GPUModelRunnerBase(ModelRunnerBase[TModelInputForGPU]):
         pattern: Optional[str] = None,
         max_size: Optional[int] = None,
     ) -> None:
-        from vllm.model_executor.model_loader.loader import ShardedStateLoader
+        from vllm.model_executor.model_loader import ShardedStateLoader
         ShardedStateLoader.save_model(
             self.model,
             path,
@@ -1232,7 +1232,7 @@ class GPUModelRunnerBase(ModelRunnerBase[TModelInputForGPU]):
         self,
         tensorizer_config: TensorizerConfig,
     ) -> None:
-        from vllm.model_executor.model_loader.loader import TensorizerLoader
+        from vllm.model_executor.model_loader import TensorizerLoader
         TensorizerLoader.save_model(
             self.model,
             tensorizer_config=tensorizer_config,
-- 
GitLab


From c3e9d5060e896597c7428c2dc35223c8e4cd4698 Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Wed, 7 May 2025 12:51:33 +0800
Subject: [PATCH 189/461] [Misc] Use `apply_rotary_emb` from vllm_flash_attn
 for Qwen2-VL vision RoPE (#17726)

Signed-off-by: Isotr0py <2037008807@qq.com>
---
 vllm/model_executor/models/qwen2_5_vl.py | 9 ++-------
 vllm/model_executor/models/qwen2_vl.py   | 9 ++++-----
 2 files changed, 6 insertions(+), 12 deletions(-)

diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 84108200e..5bef4129b 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -297,13 +297,8 @@ class Qwen2_5_VisionAttention(nn.Module):
         q, k, v = (rearrange(x, "s b ... -> b s ...").contiguous()
                    for x in (q, k, v))
         if rotary_pos_emb is not None:
-            use_flash_attn = self.attn_backend == _Backend.FLASH_ATTN
-            q = apply_rotary_pos_emb_vision(q,
-                                            rotary_pos_emb,
-                                            use_flash_attn=use_flash_attn)
-            k = apply_rotary_pos_emb_vision(k,
-                                            rotary_pos_emb,
-                                            use_flash_attn=use_flash_attn)
+            q = apply_rotary_pos_emb_vision(q, rotary_pos_emb)
+            k = apply_rotary_pos_emb_vision(k, rotary_pos_emb)
 
         if self.attn_backend == _Backend.FLASH_ATTN:
             # from vllm_flash_attn.flash_attn_interface import (
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
index 95f0c29d4..a00b756ec 100644
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -64,7 +64,7 @@ from vllm.multimodal.processing import (BaseMultiModalProcessor,
                                         BaseProcessingInfo, PromptReplacement,
                                         PromptUpdate)
 from vllm.multimodal.profiling import BaseDummyInputsBuilder
-from vllm.platforms import _Backend
+from vllm.platforms import _Backend, current_platform
 from vllm.sequence import IntermediateTensors
 from vllm.transformers_utils.config import uses_mrope
 from vllm.transformers_utils.processor import (
@@ -230,14 +230,13 @@ def apply_rotary_emb_torch(x: torch.Tensor,
 
 
 def apply_rotary_pos_emb_vision(t: torch.Tensor,
-                                freqs: torch.Tensor,
-                                use_flash_attn=False) -> torch.Tensor:
+                                freqs: torch.Tensor) -> torch.Tensor:
     t_ = t.float()
     cos = freqs.cos()
     sin = freqs.sin()
     apply_rotary_emb = apply_rotary_emb_torch
-    if use_flash_attn:
-        from flash_attn.layers.rotary import apply_rotary_emb
+    if current_platform.is_cuda():
+        from vllm.vllm_flash_attn.layers.rotary import apply_rotary_emb
     output = apply_rotary_emb(t_, cos, sin).type_as(t)
     return output
 
-- 
GitLab


From 1a45a61387be295c969c620458b7ef4a13250ed2 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Szymon=20O=C5=BC=C3=B3g?=
 <58388001+SzymonOzog@users.noreply.github.com>
Date: Wed, 7 May 2025 14:07:23 +0800
Subject: [PATCH 190/461] [Kernel] GGUF MoeVec kernel (#16780)

Signed-off-by: SzymonOzog <szymon.ozog@aleph-alpha.com>
Signed-off-by: SzymonOzog <szymon.ozog@gmail.com>
Signed-off-by: Isotr0py <2037008807@qq.com>
Co-authored-by: Isotr0py <2037008807@qq.com>
---
 csrc/ops.h                                    |   4 +
 csrc/quantization/gguf/gguf_kernel.cu         | 137 +++++++
 csrc/quantization/gguf/moe_vec.cuh            | 338 ++++++++++++++++++
 csrc/torch_bindings.cpp                       |   6 +
 tests/kernels/quantization/test_ggml.py       |   6 +
 tests/kernels/quantization/test_gguf.py       |  20 +-
 vllm/_custom_ops.py                           |  31 ++
 .../layers/quantization/gguf.py               |  18 +-
 8 files changed, 544 insertions(+), 16 deletions(-)
 create mode 100644 csrc/quantization/gguf/moe_vec.cuh

diff --git a/csrc/ops.h b/csrc/ops.h
index 59ae09376..4cac278c9 100644
--- a/csrc/ops.h
+++ b/csrc/ops.h
@@ -178,6 +178,10 @@ torch::Tensor ggml_moe_a8(torch::Tensor X, torch::Tensor W,
                           torch::Tensor num_tokens_post_padded, int64_t type,
                           int64_t row, int64_t top_k, int64_t tokens);
 
+torch::Tensor ggml_moe_a8_vec(torch::Tensor X, torch::Tensor W,
+                              torch::Tensor topk_ids, int64_t top_k,
+                              int64_t type, int64_t row, int64_t tokens);
+
 int64_t ggml_moe_get_block_size(int64_t type);
 
 #ifndef USE_ROCM
diff --git a/csrc/quantization/gguf/gguf_kernel.cu b/csrc/quantization/gguf/gguf_kernel.cu
index 56b78f183..6c146c3fb 100644
--- a/csrc/quantization/gguf/gguf_kernel.cu
+++ b/csrc/quantization/gguf/gguf_kernel.cu
@@ -13,6 +13,7 @@
 #include "mmvq.cuh"
 #include "mmq.cuh"
 #include "moe.cuh"
+#include "moe_vec.cuh"
 
 // Q8 gemv
 template <typename scalar_t>
@@ -377,6 +378,142 @@ torch::Tensor ggml_moe_a8(torch::Tensor X,  // input
   return Y;
 }
 
+torch::Tensor ggml_moe_a8_vec(torch::Tensor X,  // input
+                              torch::Tensor W,  // expert weights
+                              torch::Tensor topk_ids, int64_t top_k,
+                              int64_t type, int64_t row, int64_t tokens) {
+  int col = X.sizes()[1];
+  const int padded = (col + 512 - 1) / 512 * 512;
+  const at::cuda::OptionalCUDAGuard device_guard(device_of(X));
+  auto options = torch::TensorOptions().dtype(X.dtype()).device(W.device());
+  at::Tensor Y = torch::zeros({tokens * top_k, row}, options);
+  cudaStream_t stream = at::cuda::getCurrentCUDAStream().stream();
+  options = torch::TensorOptions().dtype(torch::kInt32).device(W.device());
+  at::Tensor quant_X = torch::empty({tokens, padded / 32 * 9}, options);
+  VLLM_DISPATCH_FLOATING_TYPES(X.scalar_type(), "ggml_moe_vec_a8", [&] {
+    quantize_row_q8_1_cuda<scalar_t>((scalar_t*)X.data_ptr(),
+                                     (void*)quant_X.data_ptr(), col, tokens,
+                                     stream);
+    switch (type) {
+      case 2:
+        moe_vec_q4_0_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 3:
+        moe_vec_q4_1_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 6:
+        moe_vec_q5_0_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 7:
+        moe_vec_q5_1_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 8:
+        moe_vec_q8_0_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 10:
+        moe_vec_q2_K_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 11:
+        moe_vec_q3_K_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 12:
+        moe_vec_q4_K_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 13:
+        moe_vec_q5_K_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 14:
+        moe_vec_q6_K_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 16:
+        moe_vec_iq2_xxs_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 17:
+        moe_vec_iq2_xs_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 18:
+        moe_vec_iq3_xxs_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 19:
+        moe_vec_iq1_s_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 20:
+        moe_vec_iq4_nl_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 21:
+        moe_vec_iq3_s_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 22:
+        moe_vec_iq2_s_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 23:
+        moe_vec_iq4_xs_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+      case 29:
+        moe_vec_iq1_m_q8_1_cuda<scalar_t>(
+            (void*)W.data_ptr(), (void*)quant_X.data_ptr(),
+            (scalar_t*)Y.data_ptr(), (int*)topk_ids.data_ptr(), top_k, tokens,
+            col, row, quant_X.stride(0), stream);
+        break;
+    }
+  });
+  return Y;
+}
+
 int64_t ggml_moe_get_block_size(int64_t type) {
   switch (type) {
     case 2:
diff --git a/csrc/quantization/gguf/moe_vec.cuh b/csrc/quantization/gguf/moe_vec.cuh
new file mode 100644
index 000000000..60f65a1bf
--- /dev/null
+++ b/csrc/quantization/gguf/moe_vec.cuh
@@ -0,0 +1,338 @@
+// copied and adapted from
+// https://github.com/ggerganov/llama.cpp/blob/b2899/ggml-cuda/mmvq.cu
+template <typename scalar_t, int qk, int qi, typename block_q_t, int vdr,
+          vec_dot_q_cuda_t vec_dot_q_cuda>
+static __global__ void moe_vec_q(const void* __restrict__ vx,
+                                 const void* __restrict__ vy,
+                                 scalar_t* __restrict__ dst,
+                                 const int* topk_ids, const int topk,
+                                 const int ncols, const int nrows,
+                                 const int token_stride) {
+  const auto row = blockIdx.x * blockDim.y + threadIdx.y;
+
+  const auto token = blockIdx.z / topk;
+  const auto expert = (topk_ids)[blockIdx.z];
+
+  if (row >= nrows) {
+    return;
+  }
+
+  const int blocks_per_row = ncols / qk;
+  const int blocks_per_warp = vdr * WARP_SIZE / qi;
+
+  // partial sum for each thread
+  float tmp = 0.0f;
+
+  const block_q_t* x = ((const block_q_t*)vx) + expert * nrows * blocks_per_row;
+  const block_q8_1* y =
+      (const block_q8_1*)(((const int*)vy) + token * token_stride);
+
+  for (auto i = threadIdx.x / (qi / vdr); i < blocks_per_row;
+       i += blocks_per_warp) {
+    const int ibx = row * blocks_per_row + i;  // x block index
+
+    const int iby = i * (qk / QK8_1);  // y block index that aligns with ibx
+
+    const int iqs =
+        vdr *
+        (threadIdx.x %
+         (qi / vdr));  // x block quant index when casting the quants to int
+
+    tmp += vec_dot_q_cuda(&x[ibx], &y[iby], iqs);
+  }
+
+  // sum up partial sums and write back result
+#pragma unroll
+  for (int mask = WARP_SIZE / 2; mask > 0; mask >>= 1) {
+    tmp += VLLM_SHFL_XOR_SYNC(tmp, mask);
+  }
+
+  if (threadIdx.x == 0) {
+    dst[blockIdx.z * nrows + row] = tmp;
+  }
+}
+
+template <typename scalar_t>
+static void moe_vec_q4_0_q8_1_cuda(const void* vx, const void* vy,
+                                   scalar_t* dst, const int* topk_ids,
+                                   const int top_k, const int tokens,
+                                   const int ncols, const int nrows,
+                                   const int token_stride,
+                                   cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK4_0, QI4_0, block_q4_0, VDR_Q4_0_Q8_1_MMVQ,
+            vec_dot_q4_0_q8_1><<<block_nums, block_dims, 0, stream>>>(
+      vx, vy, dst, topk_ids, top_k, ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_q4_1_q8_1_cuda(const void* vx, const void* vy,
+                                   scalar_t* dst, const int* topk_ids,
+                                   const int top_k, const int tokens,
+                                   const int ncols, const int nrows,
+                                   const int token_stride,
+                                   cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK4_0, QI4_1, block_q4_1, VDR_Q4_1_Q8_1_MMVQ,
+            vec_dot_q4_1_q8_1><<<block_nums, block_dims, 0, stream>>>(
+      vx, vy, dst, topk_ids, top_k, ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_q5_0_q8_1_cuda(const void* vx, const void* vy,
+                                   scalar_t* dst, const int* topk_ids,
+                                   const int top_k, const int tokens,
+                                   const int ncols, const int nrows,
+                                   const int token_stride,
+                                   cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK5_0, QI5_0, block_q5_0, VDR_Q5_0_Q8_1_MMVQ,
+            vec_dot_q5_0_q8_1><<<block_nums, block_dims, 0, stream>>>(
+      vx, vy, dst, topk_ids, top_k, ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_q5_1_q8_1_cuda(const void* vx, const void* vy,
+                                   scalar_t* dst, const int* topk_ids,
+                                   const int top_k, const int tokens,
+                                   const int ncols, const int nrows,
+                                   const int token_stride,
+                                   cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK5_1, QI5_1, block_q5_1, VDR_Q5_1_Q8_1_MMVQ,
+            vec_dot_q5_1_q8_1><<<block_nums, block_dims, 0, stream>>>(
+      vx, vy, dst, topk_ids, top_k, ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_q8_0_q8_1_cuda(const void* vx, const void* vy,
+                                   scalar_t* dst, const int* topk_ids,
+                                   const int top_k, const int tokens,
+                                   const int ncols, const int nrows,
+                                   const int token_stride,
+                                   cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK8_0, QI8_0, block_q8_0, VDR_Q8_0_Q8_1_MMVQ,
+            vec_dot_q8_0_q8_1><<<block_nums, block_dims, 0, stream>>>(
+      vx, vy, dst, topk_ids, top_k, ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_q2_K_q8_1_cuda(const void* vx, const void* vy,
+                                   scalar_t* dst, const int* topk_ids,
+                                   const int top_k, const int tokens,
+                                   const int ncols, const int nrows,
+                                   const int token_stride,
+                                   cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK_K, QI2_K, block_q2_K, VDR_Q2_K_Q8_1_MMVQ,
+            vec_dot_q2_K_q8_1><<<block_nums, block_dims, 0, stream>>>(
+      vx, vy, dst, topk_ids, top_k, ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_q3_K_q8_1_cuda(const void* vx, const void* vy,
+                                   scalar_t* dst, const int* topk_ids,
+                                   const int top_k, const int tokens,
+                                   const int ncols, const int nrows,
+                                   const int token_stride,
+                                   cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK_K, QI3_K, block_q3_K, VDR_Q3_K_Q8_1_MMVQ,
+            vec_dot_q3_K_q8_1><<<block_nums, block_dims, 0, stream>>>(
+      vx, vy, dst, topk_ids, top_k, ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_q4_K_q8_1_cuda(const void* vx, const void* vy,
+                                   scalar_t* dst, const int* topk_ids,
+                                   const int top_k, const int tokens,
+                                   const int ncols, const int nrows,
+                                   const int token_stride,
+                                   cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK_K, QI4_K, block_q4_K, VDR_Q4_K_Q8_1_MMVQ,
+            vec_dot_q4_K_q8_1><<<block_nums, block_dims, 0, stream>>>(
+      vx, vy, dst, topk_ids, top_k, ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_q5_K_q8_1_cuda(const void* vx, const void* vy,
+                                   scalar_t* dst, const int* topk_ids,
+                                   const int top_k, const int tokens,
+                                   const int ncols, const int nrows,
+                                   const int token_stride,
+                                   cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK_K, QI5_K, block_q5_K, VDR_Q5_K_Q8_1_MMVQ,
+            vec_dot_q5_K_q8_1><<<block_nums, block_dims, 0, stream>>>(
+      vx, vy, dst, topk_ids, top_k, ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_q6_K_q8_1_cuda(const void* vx, const void* vy,
+                                   scalar_t* dst, const int* topk_ids,
+                                   const int top_k, const int tokens,
+                                   const int ncols, const int nrows,
+                                   const int token_stride,
+                                   cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK_K, QI6_K, block_q6_K, VDR_Q6_K_Q8_1_MMVQ,
+            vec_dot_q6_K_q8_1><<<block_nums, block_dims, 0, stream>>>(
+      vx, vy, dst, topk_ids, top_k, ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_iq2_xxs_q8_1_cuda(const void* vx, const void* vy,
+                                      scalar_t* dst, const int* topk_ids,
+                                      const int top_k, const int tokens,
+                                      const int ncols, const int nrows,
+                                      const int token_stride,
+                                      cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK_K, QI2_XXS, block_iq2_xxs, 1, vec_dot_iq2_xxs_q8_1>
+      <<<block_nums, block_dims, 0, stream>>>(vx, vy, dst, topk_ids, top_k,
+                                              ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_iq2_xs_q8_1_cuda(const void* vx, const void* vy,
+                                     scalar_t* dst, const int* topk_ids,
+                                     const int top_k, const int tokens,
+                                     const int ncols, const int nrows,
+                                     const int token_stride,
+                                     cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK_K, QI2_XS, block_iq2_xs, 1, vec_dot_iq2_xs_q8_1>
+      <<<block_nums, block_dims, 0, stream>>>(vx, vy, dst, topk_ids, top_k,
+                                              ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_iq2_s_q8_1_cuda(const void* vx, const void* vy,
+                                    scalar_t* dst, const int* topk_ids,
+                                    const int top_k, const int tokens,
+                                    const int ncols, const int nrows,
+                                    const int token_stride,
+                                    cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK_K, QI2_S, block_iq2_s, 1, vec_dot_iq2_s_q8_1>
+      <<<block_nums, block_dims, 0, stream>>>(vx, vy, dst, topk_ids, top_k,
+                                              ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_iq3_xxs_q8_1_cuda(const void* vx, const void* vy,
+                                      scalar_t* dst, const int* topk_ids,
+                                      const int top_k, const int tokens,
+                                      const int ncols, const int nrows,
+                                      const int token_stride,
+                                      cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK_K, QI3_XXS, block_iq3_xxs, 1, vec_dot_iq3_xxs_q8_1>
+      <<<block_nums, block_dims, 0, stream>>>(vx, vy, dst, topk_ids, top_k,
+                                              ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_iq1_s_q8_1_cuda(const void* vx, const void* vy,
+                                    scalar_t* dst, const int* topk_ids,
+                                    const int top_k, const int tokens,
+                                    const int ncols, const int nrows,
+                                    const int token_stride,
+                                    cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK_K, QI1_S, block_iq1_s, 1, vec_dot_iq1_s_q8_1>
+      <<<block_nums, block_dims, 0, stream>>>(vx, vy, dst, topk_ids, top_k,
+                                              ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_iq1_m_q8_1_cuda(const void* vx, const void* vy,
+                                    scalar_t* dst, const int* topk_ids,
+                                    const int top_k, const int tokens,
+                                    const int ncols, const int nrows,
+                                    const int token_stride,
+                                    cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK_K, QI1_M, block_iq1_m, 1, vec_dot_iq1_m_q8_1>
+      <<<block_nums, block_dims, 0, stream>>>(vx, vy, dst, topk_ids, top_k,
+                                              ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_iq4_nl_q8_1_cuda(const void* vx, const void* vy,
+                                     scalar_t* dst, const int* topk_ids,
+                                     const int top_k, const int tokens,
+                                     const int ncols, const int nrows,
+                                     const int token_stride,
+                                     cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK4_NL, QI4_NL, block_iq4_nl, VDR_Q4_0_Q8_1_MMVQ,
+            vec_dot_iq4_nl_q8_1><<<block_nums, block_dims, 0, stream>>>(
+      vx, vy, dst, topk_ids, top_k, ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_iq4_xs_q8_1_cuda(const void* vx, const void* vy,
+                                     scalar_t* dst, const int* topk_ids,
+                                     const int top_k, const int tokens,
+                                     const int ncols, const int nrows,
+                                     const int token_stride,
+                                     cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK_K, QI4_XS, block_iq4_xs, 1, vec_dot_iq4_xs_q8_1>
+      <<<block_nums, block_dims, 0, stream>>>(vx, vy, dst, topk_ids, top_k,
+                                              ncols, nrows, token_stride);
+}
+
+template <typename scalar_t>
+static void moe_vec_iq3_s_q8_1_cuda(const void* vx, const void* vy,
+                                    scalar_t* dst, const int* topk_ids,
+                                    const int top_k, const int tokens,
+                                    const int ncols, const int nrows,
+                                    const int token_stride,
+                                    cudaStream_t stream) {
+  const int block_num_y = (nrows + GGML_CUDA_MMV_Y - 1) / GGML_CUDA_MMV_Y;
+  const dim3 block_nums(block_num_y, 1, tokens * top_k);
+  const dim3 block_dims(WARP_SIZE, GGML_CUDA_MMV_Y, 1);
+  moe_vec_q<scalar_t, QK_K, QI3_XS, block_iq3_s, 1, vec_dot_iq3_s_q8_1>
+      <<<block_nums, block_dims, 0, stream>>>(vx, vy, dst, topk_ids, top_k,
+                                              ncols, nrows, token_stride);
+}
diff --git a/csrc/torch_bindings.cpp b/csrc/torch_bindings.cpp
index f59b42d88..e50df72e2 100644
--- a/csrc/torch_bindings.cpp
+++ b/csrc/torch_bindings.cpp
@@ -337,6 +337,12 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
       "int type, SymInt row, SymInt top_k, SymInt tokens) -> Tensor");
   ops.impl("ggml_moe_a8", torch::kCUDA, &ggml_moe_a8);
 
+  ops.def(
+      "ggml_moe_a8_vec(Tensor X, Tensor W, "
+      "Tensor topk_ids, int top_k, "
+      "int type, SymInt row, SymInt tokens) -> Tensor");
+  ops.impl("ggml_moe_a8_vec", torch::kCUDA, &ggml_moe_a8_vec);
+
   ops.def("ggml_moe_get_block_size", &ggml_moe_get_block_size);
 
 #ifndef USE_ROCM
diff --git a/tests/kernels/quantization/test_ggml.py b/tests/kernels/quantization/test_ggml.py
index cc157da51..73697a6d1 100644
--- a/tests/kernels/quantization/test_ggml.py
+++ b/tests/kernels/quantization/test_ggml.py
@@ -36,3 +36,9 @@ def test_ggml_opcheck(quant_type):
     opcheck(torch.ops._C.ggml_moe_a8,
             (x, qweight, sorted_token_ids, expert_ids, num_tokens_post_padded,
              quant_type, qweight.shape[0], 1, x.shape[0]))
+
+    topk_ids = torch.zeros((1, 1), device='cuda', dtype=torch.int32)
+
+    opcheck(
+        torch.ops._C.ggml_moe_a8_vec,
+        (x, qweight, topk_ids, 1, quant_type, qweight.shape[0], x.shape[0]))
diff --git a/tests/kernels/quantization/test_gguf.py b/tests/kernels/quantization/test_gguf.py
index 4c0fae9d9..6cf88604e 100644
--- a/tests/kernels/quantization/test_gguf.py
+++ b/tests/kernels/quantization/test_gguf.py
@@ -151,20 +151,7 @@ def test_mmq(num_tokens: int, hidden_size: int, dtype: torch.dtype,
 @pytest.mark.parametrize("hidden_size", [512])
 @pytest.mark.parametrize("top_k", [4, 8])
 @pytest.mark.parametrize("dtype", DTYPES)
-@pytest.mark.parametrize(
-    "quant_type",
-    [
-        # k-quants
-        GGMLQuantizationType.Q2_K,
-        GGMLQuantizationType.Q3_K,
-        GGMLQuantizationType.Q4_K,
-        GGMLQuantizationType.Q5_K,
-        GGMLQuantizationType.Q6_K,
-        # standard quants
-        GGMLQuantizationType.Q4_0,
-        GGMLQuantizationType.Q5_0,
-        GGMLQuantizationType.Q8_0,
-    ])
+@pytest.mark.parametrize("quant_type", QUANT_TYPES)
 @torch.inference_mode()
 def test_moe(num_tokens: int, hidden_size: int, dtype: torch.dtype,
              quant_type: GGMLQuantizationType, top_k: int):
@@ -174,7 +161,10 @@ def test_moe(num_tokens: int, hidden_size: int, dtype: torch.dtype,
     x = torch.rand((num_tokens, H), dtype=dtype, device="cuda")
 
     topk_weights = torch.rand(num_tokens, top_k, device="cuda", dtype=dtype)
-    topk_ids = torch.randint(0, E, (num_tokens, top_k), device="cuda")
+    topk_ids = torch.randint(0,
+                             E, (num_tokens, top_k),
+                             device="cuda",
+                             dtype=torch.int32)
 
     tensors = get_gguf_MoE_tensors(hidden_size, quant_type)
 
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index 44377ccb2..6f0a5f991 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -497,6 +497,24 @@ if hasattr(torch.ops._C, "ggml_dequantize"):
                            device=W.device)
 
 
+if hasattr(torch.ops._C, "ggml_moe_a8_vec"):
+
+    @register_fake("_C::ggml_moe_a8_vec")
+    def _ggml_moe_a8_vec_fake(
+        X: torch.Tensor,
+        W: torch.Tensor,
+        topk_ids: torch.Tensor,
+        top_k: int,
+        quant_type: int,
+        row: torch.SymInt,
+        tokens: torch.SymInt,
+    ) -> torch.Tensor:
+        tokens = X.size(0)
+        return torch.empty((tokens * top_k, row),
+                           dtype=X.dtype,
+                           device=W.device)
+
+
 # cutlass
 def cutlass_scaled_mm_supports_fp4(cuda_device_capability: int) -> bool:
     return torch.ops._C.cutlass_scaled_mm_supports_fp4(cuda_device_capability)
@@ -1146,6 +1164,19 @@ def ggml_moe_a8(
                                     top_k, tokens)
 
 
+def ggml_moe_a8_vec(
+    X: torch.Tensor,
+    W: torch.Tensor,
+    topk_ids: torch.Tensor,
+    top_k: int,
+    quant_type: int,
+    row: torch.SymInt,
+    tokens: torch.SymInt,
+) -> torch.Tensor:
+    return torch.ops._C.ggml_moe_a8_vec(X, W, topk_ids, top_k, quant_type, row,
+                                        tokens)
+
+
 def ggml_moe_get_block_size(quant_type: int) -> int:
     return torch.ops._C.ggml_moe_get_block_size(quant_type)
 
diff --git a/vllm/model_executor/layers/quantization/gguf.py b/vllm/model_executor/layers/quantization/gguf.py
index 05058dfaa..c88152454 100644
--- a/vllm/model_executor/layers/quantization/gguf.py
+++ b/vllm/model_executor/layers/quantization/gguf.py
@@ -145,7 +145,9 @@ def _fused_moe_gguf(
         moe_align_block_size)
 
     out_hidden_states = torch.empty_like(x)
-    if qweight_type2 in MMQ_QUANT_TYPES and qweight_type in MMQ_QUANT_TYPES:
+    # unless we decent expert reuse we are better off running moe_vec kernel
+    if (qweight_type2 in MMQ_QUANT_TYPES and qweight_type in MMQ_QUANT_TYPES
+            and x.shape[0] > 64):
         num_tokens, _ = x.shape
         E, N, _ = w1.shape
         top_k = topk_ids.shape[1]
@@ -163,6 +165,20 @@ def _fused_moe_gguf(
         out = out.reshape(num_tokens, top_k, w2.shape[1]).mul_(
             topk_weights.view(num_tokens, top_k, 1))
         ops.moe_sum(out, out_hidden_states)
+    elif qweight_type2 in MMVQ_QUANT_TYPES and qweight_type in MMVQ_QUANT_TYPES:
+        num_tokens, _ = x.shape
+        E, N, _ = w1.shape
+        top_k = topk_ids.shape[1]
+
+        out = ops.ggml_moe_a8_vec(x, w1, topk_ids, top_k, qweight_type, N,
+                                  num_tokens)
+        out = act(out)
+
+        out = ops.ggml_moe_a8_vec(out, w2, topk_ids, 1, qweight_type2,
+                                  w2.shape[1], num_tokens * top_k)
+        out = out.reshape(num_tokens, top_k, w2.shape[1]).mul_(
+            topk_weights.view(num_tokens, top_k, 1))
+        ops.moe_sum(out, out_hidden_states)
     else:
         logger.warning_once("There is no support for fast MoE kernel "
                             "for current quantization method. "
-- 
GitLab


From f80ae5bdcfa71ac56bae78ffb0d3ef85d49a67fb Mon Sep 17 00:00:00 2001
From: Wanrui Dai <daiwanrui@u.nus.edu>
Date: Wed, 7 May 2025 14:10:02 +0800
Subject: [PATCH 191/461] [Kernel] Use fused rmsnorm for some models like qwen3
 series (#17735)

Signed-off-by: evian <eviantai@u.nus.edu>
Co-authored-by: evian <eviantai@u.nus.edu>
---
 csrc/layernorm_kernels.cu                |  4 ++++
 vllm/_custom_ops.py                      |  4 +++-
 vllm/model_executor/models/intern_vit.py | 10 ++++------
 vllm/model_executor/models/molmo.py      |  4 ++--
 vllm/model_executor/models/olmo2.py      |  4 ++--
 vllm/model_executor/models/qwen3.py      |  4 ++--
 vllm/model_executor/models/qwen3_moe.py  |  4 ++--
 7 files changed, 19 insertions(+), 15 deletions(-)

diff --git a/csrc/layernorm_kernels.cu b/csrc/layernorm_kernels.cu
index fb6882f3e..d073dd6d2 100644
--- a/csrc/layernorm_kernels.cu
+++ b/csrc/layernorm_kernels.cu
@@ -140,6 +140,10 @@ void rms_norm(torch::Tensor& out,     // [..., hidden_size]
               torch::Tensor& input,   // [..., hidden_size]
               torch::Tensor& weight,  // [hidden_size]
               double epsilon) {
+  TORCH_CHECK(out.is_contiguous());
+  TORCH_CHECK(input.is_contiguous());
+  TORCH_CHECK(weight.is_contiguous());
+
   int hidden_size = input.size(-1);
   int num_tokens = input.numel() / hidden_size;
 
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index 6f0a5f991..8079a6301 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -186,7 +186,9 @@ def batched_rotary_embedding(positions: torch.Tensor, query: torch.Tensor,
 # layer norm ops
 def rms_norm(out: torch.Tensor, input: torch.Tensor, weight: torch.Tensor,
              epsilon: float) -> None:
-    torch.ops._C.rms_norm(out, input, weight, epsilon)
+    # TODO: Remove this contiguous call when the kernel is updated to support non-contiguous input
+    input_contiguous = input.contiguous()
+    torch.ops._C.rms_norm(out, input_contiguous, weight, epsilon)
 
 
 def fused_add_rms_norm(input: torch.Tensor, residual: torch.Tensor,
diff --git a/vllm/model_executor/models/intern_vit.py b/vllm/model_executor/models/intern_vit.py
index 0499f339b..fdcef8b9b 100644
--- a/vllm/model_executor/models/intern_vit.py
+++ b/vllm/model_executor/models/intern_vit.py
@@ -190,8 +190,8 @@ class InternParallelAttention(nn.Module):
         if self.tp_size > 1:
             q = tensor_model_parallel_all_gather(q.contiguous())
             k = tensor_model_parallel_all_gather(k.contiguous())
-        q = self.q_norm.forward_native(q)
-        k = self.k_norm.forward_native(k)
+        q = self.q_norm(q)
+        k = self.k_norm(k)
         if self.tp_size > 1:
             splitter = partial(split_tensor_along_last_dim,
                                num_partitions=self.tp_size)
@@ -264,10 +264,8 @@ class InternSdpaAttention(nn.Module):
 
         if self.qk_normalization:
             B_, N_, H_, D_ = q.shape
-            q = self.q_norm.forward_native(q.flatten(-2,
-                                                     -1)).view(B_, N_, H_, D_)
-            k = self.k_norm.forward_native(k.flatten(-2,
-                                                     -1)).view(B_, N_, H_, D_)
+            q = self.q_norm(q.flatten(-2, -1)).view(B_, N_, H_, D_)
+            k = self.k_norm(k.flatten(-2, -1)).view(B_, N_, H_, D_)
         q = q.transpose(1, 2)
         k = k.transpose(1, 2)
         v = v.transpose(1, 2)
diff --git a/vllm/model_executor/models/molmo.py b/vllm/model_executor/models/molmo.py
index 75eebdacf..42bbb77a2 100644
--- a/vllm/model_executor/models/molmo.py
+++ b/vllm/model_executor/models/molmo.py
@@ -438,8 +438,8 @@ class MolmoAttention(nn.Module):
         if self.tp_size > 1:
             q = tensor_model_parallel_all_gather(q.contiguous())
             k = tensor_model_parallel_all_gather(k.contiguous())
-        q = self.q_norm.forward_native(q)
-        k = self.k_norm.forward_native(k)
+        q = self.q_norm(q)
+        k = self.k_norm(k)
         if self.tp_size > 1:
             splitter = partial(split_tensor_along_last_dim,
                                num_partitions=self.tp_size)
diff --git a/vllm/model_executor/models/olmo2.py b/vllm/model_executor/models/olmo2.py
index 44beae572..422b53d86 100644
--- a/vllm/model_executor/models/olmo2.py
+++ b/vllm/model_executor/models/olmo2.py
@@ -139,8 +139,8 @@ class Olmo2Attention(nn.Module):
         if self.tp_size > 1:
             q = tensor_model_parallel_all_gather(q.contiguous())
             k = tensor_model_parallel_all_gather(k.contiguous())
-        q = self.q_norm.forward_native(q)
-        k = self.k_norm.forward_native(k)
+        q = self.q_norm(q)
+        k = self.k_norm(k)
         if self.tp_size > 1:
             splitter = partial(split_tensor_along_last_dim,
                                num_partitions=self.tp_size)
diff --git a/vllm/model_executor/models/qwen3.py b/vllm/model_executor/models/qwen3.py
index 73d2838f4..40e0ccc1b 100644
--- a/vllm/model_executor/models/qwen3.py
+++ b/vllm/model_executor/models/qwen3.py
@@ -133,11 +133,11 @@ class Qwen3Attention(nn.Module):
         # Add qk-norm
         q_by_head = q.view(*q.shape[:-1], q.shape[-1] // self.head_dim,
                            self.head_dim)
-        q_by_head = self.q_norm.forward_native(q_by_head)
+        q_by_head = self.q_norm(q_by_head)
         q = q_by_head.view(q.shape)
         k_by_head = k.view(*k.shape[:-1], k.shape[-1] // self.head_dim,
                            self.head_dim)
-        k_by_head = self.k_norm.forward_native(k_by_head)
+        k_by_head = self.k_norm(k_by_head)
         k = k_by_head.view(k.shape)
         q, k = self.rotary_emb(positions, q, k)
         attn_output = self.attn(q, k, v)
diff --git a/vllm/model_executor/models/qwen3_moe.py b/vllm/model_executor/models/qwen3_moe.py
index 97acbaa2a..fe6b303ba 100644
--- a/vllm/model_executor/models/qwen3_moe.py
+++ b/vllm/model_executor/models/qwen3_moe.py
@@ -225,12 +225,12 @@ class Qwen3MoeAttention(nn.Module):
         # Add qk-norm
         q_by_head = q.view(*q.shape[:-1], q.shape[-1] // self.head_dim,
                            self.head_dim)
-        q_by_head = self.q_norm.forward_native(q_by_head)
+        q_by_head = self.q_norm(q_by_head)
         q = q_by_head.view(q.shape)
 
         k_by_head = k.view(*k.shape[:-1], k.shape[-1] // self.head_dim,
                            self.head_dim)
-        k_by_head = self.k_norm.forward_native(k_by_head)
+        k_by_head = self.k_norm(k_by_head)
         k = k_by_head.view(k.shape)
         q, k = self.rotary_emb(positions, q, k)
         attn_output = self.attn(q, k, v)
-- 
GitLab


From ba7703e659e21ea376c25b872c4a80a7c82804fe Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Wed, 7 May 2025 14:10:37 +0800
Subject: [PATCH 192/461] [Misc] Remove  qlora_adapter_name_or_path (#17699)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 .../lora_with_quantization_inference.py       | 57 +++++++++----------
 vllm/engine/arg_utils.py                      | 34 +++++------
 .../model_loader/weight_utils.py              | 22 +++----
 3 files changed, 50 insertions(+), 63 deletions(-)

diff --git a/examples/offline_inference/lora_with_quantization_inference.py b/examples/offline_inference/lora_with_quantization_inference.py
index ab235ddd7..b6608ec6e 100644
--- a/examples/offline_inference/lora_with_quantization_inference.py
+++ b/examples/offline_inference/lora_with_quantization_inference.py
@@ -75,43 +75,38 @@ def initialize_engine(model: str, quantization: str,
                       lora_repo: Optional[str]) -> LLMEngine:
     """Initialize the LLMEngine."""
 
-    if quantization == "bitsandbytes":
-        # QLoRA (https://arxiv.org/abs/2305.14314) is a quantization technique.
-        # It quantizes the model when loading, with some config info from the
-        # LoRA adapter repo. So need to set the parameter of load_format and
-        # qlora_adapter_name_or_path as below.
-        engine_args = EngineArgs(model=model,
-                                 quantization=quantization,
-                                 qlora_adapter_name_or_path=lora_repo,
-                                 enable_lora=True,
-                                 max_lora_rank=64)
-    else:
-        engine_args = EngineArgs(model=model,
-                                 quantization=quantization,
-                                 enable_lora=True,
-                                 max_loras=4)
+    engine_args = EngineArgs(model=model,
+                             quantization=quantization,
+                             enable_lora=True,
+                             max_lora_rank=64,
+                             max_loras=4)
     return LLMEngine.from_engine_args(engine_args)
 
 
 def main():
     """Main function that sets up and runs the prompt processing."""
 
-    test_configs = [{
-        "name": "qlora_inference_example",
-        'model': "huggyllama/llama-7b",
-        'quantization': "bitsandbytes",
-        'lora_repo': 'timdettmers/qlora-flan-7b'
-    }, {
-        "name": "AWQ_inference_with_lora_example",
-        'model': 'TheBloke/TinyLlama-1.1B-Chat-v0.3-AWQ',
-        'quantization': "awq",
-        'lora_repo': 'jashing/tinyllama-colorist-lora'
-    }, {
-        "name": "GPTQ_inference_with_lora_example",
-        'model': 'TheBloke/TinyLlama-1.1B-Chat-v0.3-GPTQ',
-        'quantization': "gptq",
-        'lora_repo': 'jashing/tinyllama-colorist-lora'
-    }]
+    test_configs = [
+        # QLoRA (https://arxiv.org/abs/2305.14314)
+        {
+            "name": "qlora_inference_example",
+            'model': "huggyllama/llama-7b",
+            'quantization': "bitsandbytes",
+            'lora_repo': 'timdettmers/qlora-flan-7b'
+        },
+        {
+            "name": "AWQ_inference_with_lora_example",
+            'model': 'TheBloke/TinyLlama-1.1B-Chat-v0.3-AWQ',
+            'quantization': "awq",
+            'lora_repo': 'jashing/tinyllama-colorist-lora'
+        },
+        {
+            "name": "GPTQ_inference_with_lora_example",
+            'model': 'TheBloke/TinyLlama-1.1B-Chat-v0.3-GPTQ',
+            'quantization': "gptq",
+            'lora_repo': 'jashing/tinyllama-colorist-lora'
+        }
+    ]
 
     for test_config in test_configs:
         print(
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 876a70dfe..5d8b5d1f6 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -6,6 +6,7 @@ import dataclasses
 import json
 import re
 import threading
+import warnings
 from dataclasses import MISSING, dataclass, fields
 from itertools import permutations
 from typing import (Any, Callable, Dict, List, Literal, Optional, Type,
@@ -394,7 +395,13 @@ class EngineArgs:
         if isinstance(self.compilation_config, (int, dict)):
             self.compilation_config = CompilationConfig.from_cli(
                 str(self.compilation_config))
-
+        if self.qlora_adapter_name_or_path is not None:
+            warnings.warn(
+                "The `qlora_adapter_name_or_path` is deprecated "
+                "and will be removed in v0.10.0. ",
+                DeprecationWarning,
+                stacklevel=2,
+            )
         # Setup plugins
         from vllm.plugins import load_general_plugins
         load_general_plugins()
@@ -504,10 +511,14 @@ class EngineArgs:
                                 **load_kwargs["ignore_patterns"])
         load_group.add_argument("--use-tqdm-on-load",
                                 **load_kwargs["use_tqdm_on_load"])
-        load_group.add_argument('--qlora-adapter-name-or-path',
-                                type=str,
-                                default=None,
-                                help='Name or path of the QLoRA adapter.')
+        load_group.add_argument(
+            "--qlora-adapter-name-or-path",
+            type=str,
+            default=None,
+            help="The `--qlora-adapter-name-or-path` has no effect, do not set"
+            " it, and it  will be removed in v0.10.0.",
+            deprecated=True,
+        )
         load_group.add_argument('--pt-load-map-location',
                                 **load_kwargs["pt_load_map_location"])
 
@@ -534,7 +545,7 @@ class EngineArgs:
             deprecated=True,
             help="[DEPRECATED] The `--enable-reasoning` flag is deprecated as "
             "of v0.8.6. Use `--reasoning-parser` to specify the reasoning "
-            "parser backend insteadThis flag (`--enable-reasoning`) will be "
+            "parser backend instead. This flag (`--enable-reasoning`) will be "
             "removed in v0.10.0. When `--reasoning-parser` is specified, "
             "reasoning mode is automatically enabled.")
         guided_decoding_group.add_argument(
@@ -896,12 +907,6 @@ class EngineArgs:
 
     def create_load_config(self) -> LoadConfig:
 
-        if(self.qlora_adapter_name_or_path is not None) and \
-            self.quantization != "bitsandbytes":
-            raise ValueError(
-                "QLoRA adapter only support "
-                f"'bitsandbytes' quantization, but got {self.quantization}")
-
         if self.quantization == "bitsandbytes":
             self.load_format = "bitsandbytes"
 
@@ -1098,11 +1103,6 @@ class EngineArgs:
             max_cpu_loras=self.max_cpu_loras if self.max_cpu_loras
             and self.max_cpu_loras > 0 else None) if self.enable_lora else None
 
-        if self.qlora_adapter_name_or_path is not None and \
-            self.qlora_adapter_name_or_path != "":
-            self.model_loader_extra_config[
-                "qlora_adapter_name_or_path"] = self.qlora_adapter_name_or_path
-
         # bitsandbytes pre-quantized model need a specific model loader
         if model_config.quantization == "bitsandbytes":
             self.quantization = self.load_format = "bitsandbytes"
diff --git a/vllm/model_executor/model_loader/weight_utils.py b/vllm/model_executor/model_loader/weight_utils.py
index 10bc55ca5..beff33414 100644
--- a/vllm/model_executor/model_loader/weight_utils.py
+++ b/vllm/model_executor/model_loader/weight_utils.py
@@ -162,23 +162,15 @@ def get_quant_config(model_config: ModelConfig,
                                   None)
     if hf_quant_config is not None:
         return quant_cls.from_config(hf_quant_config)
-    # In case of bitsandbytes/QLoRA, get quant config from the adapter model.
+    # Inflight BNB quantization
     if model_config.quantization == "bitsandbytes":
-        if (not load_config.model_loader_extra_config
-                or "qlora_adapter_name_or_path"
-                not in load_config.model_loader_extra_config):
-            return quant_cls.from_config({"adapter_name_or_path": ""})
-        model_name_or_path = load_config.model_loader_extra_config[
-            "qlora_adapter_name_or_path"]
-
-    else:
-        model_name_or_path = model_config.model
-    is_local = os.path.isdir(model_name_or_path)
+        return quant_cls.from_config({})
+    is_local = os.path.isdir(model_config.model)
     if not is_local:
         # Download the config files.
-        with get_lock(model_name_or_path, load_config.download_dir):
+        with get_lock(model_config.model, load_config.download_dir):
             hf_folder = snapshot_download(
-                model_name_or_path,
+                model_config.model,
                 revision=model_config.revision,
                 allow_patterns="*.json",
                 cache_dir=load_config.download_dir,
@@ -186,7 +178,7 @@ def get_quant_config(model_config: ModelConfig,
                 tqdm_class=DisabledTqdm,
             )
     else:
-        hf_folder = model_name_or_path
+        hf_folder = model_config.model
 
     possible_config_filenames = quant_cls.get_config_filenames()
 
@@ -213,7 +205,7 @@ def get_quant_config(model_config: ModelConfig,
         config = json.load(f)
 
         if model_config.quantization == "bitsandbytes":
-            config["adapter_name_or_path"] = model_name_or_path
+            config["adapter_name_or_path"] = model_config.model
         elif model_config.quantization == "modelopt":
             if config["producer"]["name"] == "modelopt":
                 return quant_cls.from_config(config)
-- 
GitLab


From 043e4c495511d51841a66980e8503ee7da943aa1 Mon Sep 17 00:00:00 2001
From: Satyajith Chilappagari <satchill@amazon.com>
Date: Wed, 7 May 2025 00:07:30 -0700
Subject: [PATCH 193/461] Add NeuronxDistributedInference support, Speculative
 Decoding, Dynamic on-device sampling (#16357)

Signed-off-by: Satyajith Chilappagari <satchill@amazon.com>
Co-authored-by: Aaron Dou <yzdou@amazon.com>
Co-authored-by: Shashwat Srijan <sssrijan@amazon.com>
Co-authored-by: Chongming Ni <chongmni@amazon.com>
Co-authored-by: Amulya Ballakur <amulyaab@amazon.com>
Co-authored-by: Patrick Lange <patlange@amazon.com>
Co-authored-by: Elaine Zhao <elaineyz@amazon.com>
Co-authored-by: Lin Lin Pan <tailinpa@amazon.com>
Co-authored-by: Navyadhara Gogineni <navyadha@amazon.com>
Co-authored-by: Yishan McNabb <yishanm@amazon.com>
Co-authored-by: Mrinal Shukla <181322398+mrinalks@users.noreply.github.com>
---
 examples/offline_inference/neuron_eagle.py    |  54 ++
 .../offline_inference/neuron_speculation.py   |  64 ++
 requirements/neuron.txt                       |   3 +-
 .../neuron/1_core/test_neuron_model_runner.py | 126 ++++
 vllm/config.py                                |   6 +-
 vllm/engine/llm_engine.py                     |   6 +-
 vllm/model_executor/model_loader/neuron.py    | 241 +++++++-
 .../model_loader/neuronx_distributed.py       | 584 ++++++++++++++++++
 vllm/platforms/__init__.py                    |  17 +-
 vllm/platforms/neuron.py                      |  79 ++-
 vllm/worker/multi_step_neuron_model_runner.py |  81 +++
 ...i_step_neuronx_distributed_model_runner.py |  60 ++
 vllm/worker/neuron_model_runner.py            | 182 ++++--
 vllm/worker/neuron_worker.py                  |  86 ++-
 .../neuronx_distributed_model_runner.py       | 136 ++++
 15 files changed, 1623 insertions(+), 102 deletions(-)
 create mode 100644 examples/offline_inference/neuron_eagle.py
 create mode 100644 examples/offline_inference/neuron_speculation.py
 create mode 100644 tests/neuron/1_core/test_neuron_model_runner.py
 create mode 100644 vllm/model_executor/model_loader/neuronx_distributed.py
 create mode 100644 vllm/worker/multi_step_neuron_model_runner.py
 create mode 100644 vllm/worker/multi_step_neuronx_distributed_model_runner.py
 create mode 100644 vllm/worker/neuronx_distributed_model_runner.py

diff --git a/examples/offline_inference/neuron_eagle.py b/examples/offline_inference/neuron_eagle.py
new file mode 100644
index 000000000..4f63f1a2f
--- /dev/null
+++ b/examples/offline_inference/neuron_eagle.py
@@ -0,0 +1,54 @@
+# SPDX-License-Identifier: Apache-2.0
+"""
+This example shows how to run offline inference with an EAGLE speculative 
+decoding model on neuron. To use EAGLE speculative decoding, you must use
+a draft model that is specifically fine-tuned for EAGLE speculation.
+Additionally, to use EAGLE with NxD Inference, the draft model must include
+the LM head weights from the target model. These weights are shared between
+the draft and target model.
+"""
+
+from vllm import LLM, SamplingParams
+
+# Sample prompts.
+prompts = [
+    "What is annapurna labs?",
+]
+
+# Create a sampling params object.
+sampling_params = SamplingParams(top_k=1, max_tokens=500, ignore_eos=True)
+
+# Create an LLM.
+llm = LLM(
+    model="/home/ubuntu/model_hf/Meta-Llama-3.1-70B-Instruct",
+    speculative_config={
+        "model": "/home/ubuntu/model_hf/Llama-3.1-70B-Instruct-EAGLE-Draft",
+        "num_speculative_tokens": 5,
+        "max_model_len": 2048
+    },
+    max_num_seqs=4,
+    # The max_model_len and block_size arguments are required to be same as
+    # max sequence length when targeting neuron device.
+    # Currently, this is a known limitation in continuous batching support
+    # in neuronx-distributed-inference.
+    max_model_len=2048,
+    block_size=2048,
+    # The device can be automatically detected when AWS Neuron SDK is installed.
+    # The device argument can be either unspecified for automated detection,
+    # or explicitly assigned.
+    device="neuron",
+    tensor_parallel_size=32,
+    override_neuron_config={
+        "enable_eagle_speculation": True,
+        "enable_fused_speculation": True
+    },
+)
+
+# Generate texts from the prompts. The output is a list of RequestOutput objects
+# that contain the prompt, generated text, and other information.
+outputs = llm.generate(prompts, sampling_params)
+# Print the outputs.
+for output in outputs:
+    prompt = output.prompt
+    generated_text = output.outputs[0].text
+    print(f"Prompt: {prompt!r}, \n\n\n\ Generated text: {generated_text!r}")
diff --git a/examples/offline_inference/neuron_speculation.py b/examples/offline_inference/neuron_speculation.py
new file mode 100644
index 000000000..bef434bae
--- /dev/null
+++ b/examples/offline_inference/neuron_speculation.py
@@ -0,0 +1,64 @@
+# SPDX-License-Identifier: Apache-2.0
+"""
+This example shows how to run offline inference with a speculative 
+decoding model on neuron.
+"""
+
+import os
+
+from vllm import LLM, SamplingParams
+
+# Sample prompts.
+prompts = [
+    "Hello, I am a language model and I can help",
+    "The president of the United States is",
+    "The capital of France is",
+]
+
+
+def config_buckets():
+    """Configure context length and token gen buckets."""
+    # creates XLA hlo graphs for all the context length buckets.
+    os.environ['NEURON_CONTEXT_LENGTH_BUCKETS'] = "128,512,1024,2048"
+    # creates XLA hlo graphs for all the token gen buckets.
+    os.environ['NEURON_TOKEN_GEN_BUCKETS'] = "128,512,1024,2048"
+
+
+def initialize_model():
+    """Create an LLM with speculative decoding."""
+    return LLM(
+        model="openlm-research/open_llama_7b",
+        speculative_config={
+            "model": "openlm-research/open_llama_3b",
+            "num_speculative_tokens": 4,
+            "max_model_len": 2048
+        },
+        max_num_seqs=4,
+        max_model_len=2048,
+        block_size=2048,
+        use_v2_block_manager=True,
+        device="neuron",
+        tensor_parallel_size=32,
+    )
+
+
+def process_requests(model: LLM, sampling_params: SamplingParams):
+    """Generate texts from prompts and print them."""
+    outputs = model.generate(prompts, sampling_params)
+    for output in outputs:
+        prompt = output.prompt
+        generated_text = output.outputs[0].text
+        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
+
+
+def main():
+    """Main function that sets up the model and processes prompts."""
+    config_buckets()
+    model = initialize_model()
+    # Create a sampling params object.
+    sampling_params = SamplingParams(max_tokens=100, top_k=1)
+    process_requests(model, sampling_params)
+
+
+if __name__ == '__main__':
+    main()
diff --git a/requirements/neuron.txt b/requirements/neuron.txt
index f8e303083..7df478edd 100644
--- a/requirements/neuron.txt
+++ b/requirements/neuron.txt
@@ -5,4 +5,5 @@
 packaging>=24.2
 setuptools>=77.0.3,<80.0.0
 torch-neuronx >= 2.5.0
-neuronx-cc
+neuronx-cc>=2.0.0a0
+torchvision # Required for Llama3.2 multimodal image preprocessing
diff --git a/tests/neuron/1_core/test_neuron_model_runner.py b/tests/neuron/1_core/test_neuron_model_runner.py
new file mode 100644
index 000000000..92417fb64
--- /dev/null
+++ b/tests/neuron/1_core/test_neuron_model_runner.py
@@ -0,0 +1,126 @@
+# SPDX-License-Identifier: Apache-2.0
+import os
+from unittest.mock import MagicMock
+
+from vllm.config import VllmConfig
+from vllm.engine.arg_utils import EngineArgs
+from vllm.platforms import current_platform
+from vllm.platforms.neuron import NeuronFramework
+from vllm.sampling_params import SamplingParams
+from vllm.sequence import SequenceData, SequenceGroupMetadata
+from vllm.worker.neuron_model_runner import NeuronModelRunner
+
+os.environ[
+    'VLLM_NEURON_FRAMEWORK'] = NeuronFramework.TRANSFORMERS_NEURONX.value
+
+
+def _create_neuron_model_runner(model: str, *args,
+                                **kwargs) -> NeuronModelRunner:
+    engine_args = EngineArgs(model, *args, **kwargs)
+    engine_config = engine_args.create_engine_config()
+    vllm_config = VllmConfig(
+        model_config=engine_config.model_config,
+        parallel_config=engine_config.parallel_config,
+        scheduler_config=engine_config.scheduler_config,
+        device_config=engine_config.device_config,
+    )
+    neuron_model_runner = NeuronModelRunner(vllm_config=vllm_config)
+    return neuron_model_runner
+
+
+def test_update_neuron_sampling_params_not_full_batch():
+    os.environ["NEURON_ON_DEVICE_SAMPLING_DISABLED"] = "0"
+    model_runner = _create_neuron_model_runner(
+        "facebook/opt-125m",
+        seed=0,
+        dtype="float16",
+        max_num_seqs=2,
+    )
+    assert not model_runner._on_device_sampling_disabled
+    # Test sampling param updating only when TNx is framework
+    # NxDI handles sampling parameter updating inside model
+    if current_platform.use_transformers_neuronx():
+        model_mock = MagicMock()
+        model_runner.model = model_mock
+
+        seq_group_metadata_list = [
+            SequenceGroupMetadata(
+                request_id="test_0",
+                is_prompt=True,
+                seq_data={0: SequenceData.from_seqs([1, 2, 3])},
+                sampling_params=SamplingParams(temperature=0.5,
+                                               top_k=1,
+                                               top_p=0.5),
+                block_tables={0: [1]},
+            )
+        ]
+
+        model_runner.prepare_model_input(seq_group_metadata_list)
+
+        # Index neuron sampling parameters based on block_tables indices.
+        # The first block_id of the sequence 0 is 1, so its parameters are
+        # placed at index 1. So the sampling parameters will be:
+        # Index 0: default sampling parameters
+        # Index 1: sequecne 0's sampling parameters.
+        neuron_sampling_params = (
+            model_runner.model_config.neuron_sampling_params)
+        assert neuron_sampling_params.temperature == [1.0, 0.5]
+        assert neuron_sampling_params.top_k == [
+            model_runner._MAX_NEURON_SAMPLING_TOP_K, 1
+        ]
+        assert neuron_sampling_params.top_p == [1.0, 0.5]
+        model_mock.model.update_generation_config.assert_called_once_with(
+            neuron_sampling_params)
+
+
+def test_update_neuron_sampling_params_full_batch():
+    os.environ["NEURON_ON_DEVICE_SAMPLING_DISABLED"] = "0"
+    model_runner = _create_neuron_model_runner(
+        "facebook/opt-125m",
+        seed=0,
+        dtype="float16",
+        max_num_seqs=2,
+    )
+    assert not model_runner._on_device_sampling_disabled
+
+    # Test sampling param updating only when TNx is framework
+    # NxDI handles sampling parameter updating inside model
+    if current_platform.use_transformers_neuronx():
+        model_mock = MagicMock()
+        model_runner.model = model_mock
+
+        seq_group_metadata_list = [
+            SequenceGroupMetadata(
+                request_id="test_0",
+                is_prompt=True,
+                seq_data={0: SequenceData.from_seqs([1, 2, 3])},
+                sampling_params=SamplingParams(temperature=0.5,
+                                               top_k=1,
+                                               top_p=0.5),
+                block_tables={0: [1]},
+            ),
+            SequenceGroupMetadata(
+                request_id="test_0",
+                is_prompt=True,
+                seq_data={1: SequenceData.from_seqs([4, 5, 6])},
+                sampling_params=SamplingParams(temperature=0.2,
+                                               top_k=2,
+                                               top_p=0.2),
+                block_tables={1: [0]},
+            )
+        ]
+
+        model_runner.prepare_model_input(seq_group_metadata_list)
+
+        # Index neuron sampling parameters based on block_tables indices.
+        # The first block_id of the sequence 0 is 1, so its parameters are
+        # placed at index 1. So the sampling parameters will be:
+        # Index 0: sequence 1's sampling parameters
+        # Index 1: sequecne 0's sampling parameters.
+        neuron_sampling_params = (
+            model_runner.model_config.neuron_sampling_params)
+        assert neuron_sampling_params.temperature == [0.2, 0.5]
+        assert neuron_sampling_params.top_k == [2, 1]
+        assert neuron_sampling_params.top_p == [0.2, 0.5]
+        model_mock.model.update_generation_config.assert_called_once_with(
+            neuron_sampling_params)
diff --git a/vllm/config.py b/vllm/config.py
index 23f69c612..11e4e500a 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -2273,6 +2273,9 @@ class SpeculativeConfig:
     """Scaling factor for entropy-based threshold, applied when using
     `TypicalAcceptanceSampler`."""
 
+    speculative_token_tree: Optional[str] = None
+    """Specifies the tree structure for speculative token generation. 
+    """
     # required configuration params passed from engine
     target_model_config: ModelConfig = field(default=None,
                                              init=True)  # type: ignore
@@ -2447,10 +2450,11 @@ class SpeculativeConfig:
                             "Chunked prefill and EAGLE are not compatible "
                             "when using V0.")
 
+                    from vllm.platforms import current_platform
                     from vllm.transformers_utils.configs.eagle import (
                         EAGLEConfig)
                     if isinstance(self.draft_model_config.hf_config,
-                                  EAGLEConfig):
+                                  EAGLEConfig) or current_platform.is_neuron():
                         pass
                     else:
                         eagle_config = EAGLEConfig(
diff --git a/vllm/engine/llm_engine.py b/vllm/engine/llm_engine.py
index e0f57e0b4..bed696d3d 100644
--- a/vllm/engine/llm_engine.py
+++ b/vllm/engine/llm_engine.py
@@ -399,10 +399,8 @@ class LLMEngine:
                 self.scheduler,
                 self.seq_counter,
                 get_tokenizer_for_seq,
-                stop_checker=StopChecker(
-                    self.scheduler_config.max_model_len,
-                    get_tokenizer_for_seq,
-                ),
+                stop_checker=StopChecker(self.scheduler_config.max_model_len,
+                                         get_tokenizer_for_seq),
             ))
 
         self.seq_id_to_seq_group: Dict[str, SequenceGroupBase] = {}
diff --git a/vllm/model_executor/model_loader/neuron.py b/vllm/model_executor/model_loader/neuron.py
index a7b313f4e..e4a484837 100644
--- a/vllm/model_executor/model_loader/neuron.py
+++ b/vllm/model_executor/model_loader/neuron.py
@@ -1,5 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
-"""Utilities for selecting and loading neuron models."""
+"""Utilities for selecting and loading Neuron models in transformers-neuronx
+framework."""
+import ast
 import copy
 import importlib
 import os
@@ -9,7 +11,8 @@ import torch
 import torch.nn as nn
 from transformers import PretrainedConfig
 
-from vllm.config import ModelConfig, ParallelConfig, SchedulerConfig
+from vllm.config import (ModelConfig, ParallelConfig, SchedulerConfig,
+                         SpeculativeConfig)
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import get_quantization_config
 from vllm.model_executor.layers.sampler import Sampler, SamplerOutput
@@ -113,6 +116,67 @@ class NeuronCausalLM(nn.Module):
         self.model.to_neuron()
 
 
+class NeuronSpeculationCausalLM(nn.Module):
+    """A Neuron-optimized causal language model with speculative decoding."""
+
+    SPECULATION_TERMINATION_ID = -1
+
+    def __init__(self, speculation_model) -> None:
+        super().__init__()
+        self.model = speculation_model
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        input_block_ids: torch.Tensor,
+    ) -> torch.Tensor:
+        tokens, counts = self.model.speculative_iteration(
+            input_ids, positions, input_block_ids)
+
+        # Mark the end of accepted speculative tokens for each sequence with the
+        # speculation termination id.
+        batch_size, steps = tokens.shape
+        mask = torch.arange(steps).expand(batch_size, -1) >= counts
+        tokens[mask] = self.SPECULATION_TERMINATION_ID
+
+        return tokens
+
+    def sample(
+        self,
+        logits: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+    ) -> Optional[List[SamplerOutput]]:
+        batch_size, num_steps = logits.shape
+        seq_ids = [
+            seq_id for sg in sampling_metadata.seq_groups
+            for seq_id in sg.seq_ids
+        ]
+        # Organize input tensors by step instead of by sequence.
+        accepted_token_ids_by_step = logits.transpose(0, 1)
+        accepted_token_ids_by_step = accepted_token_ids_by_step.tolist()
+
+        sampler_output_list = []
+        for step_index in range(num_steps):
+            if all(token_id == self.SPECULATION_TERMINATION_ID
+                   for token_id in accepted_token_ids_by_step[step_index]):
+                break
+            step_output_token_ids = []
+            for sequence_index in range(batch_size):
+                token_id = accepted_token_ids_by_step[step_index][
+                    sequence_index]
+                step_output_token_ids.append(
+                    CompletionSequenceGroupOutput(samples=[
+                        SequenceOutput(parent_seq_id=seq_ids[sequence_index],
+                                       output_token=token_id,
+                                       logprobs={token_id: Logprob(token_id)})
+                    ],
+                                                  prompt_logprobs=None))
+            sampler_output_list.append(
+                SamplerOutput(outputs=step_output_token_ids))
+        return sampler_output_list
+
+
 def _get_model_architecture(config: PretrainedConfig) -> str:
     architectures = getattr(config, "architectures", [])
     for arch in architectures:
@@ -138,6 +202,7 @@ def _get_buckets(env: str, default_value: List[int]) -> List[int]:
 def _get_default_neuron_config(model_config: ModelConfig,
                                parallel_config: ParallelConfig,
                                scheduler_config: SchedulerConfig):
+    """Generate a neuron config based on vllm config args."""
     from transformers_neuronx.config import ContinuousBatchingConfig
     from transformers_neuronx.constants import LAYOUT_BSH
 
@@ -162,6 +227,27 @@ def _get_default_neuron_config(model_config: ModelConfig,
     return default_neuron_args
 
 
+def _get_default_neuron_config_for_speculation(
+        model_config: ModelConfig, parallel_config: ParallelConfig,
+        scheduler_config: SchedulerConfig):
+    """Generate a neuron config for speculative decoding based on
+    vllm config args."""
+    from transformers_neuronx.config import ContinuousBatchingConfig
+    from transformers_neuronx.constants import LAYOUT_BSH
+
+    continuous_batching_config = ContinuousBatchingConfig(
+        batch_size_for_shared_caches=scheduler_config.max_num_seqs)
+
+    default_neuron_args = dict(collectives_layout=LAYOUT_BSH,
+                               attention_layout=LAYOUT_BSH,
+                               fuse_qkv=True,
+                               on_device_embedding=True,
+                               continuous_batching=continuous_batching_config,
+                               on_device_generation=copy.deepcopy(
+                                   model_config.neuron_sampling_params))
+    return default_neuron_args
+
+
 def _get_neuron_on_device_generation_config(model_config: ModelConfig):
     if not _is_neuron_on_device_sampling_disabled(model_config):
         return copy.deepcopy(model_config.neuron_sampling_params)
@@ -213,7 +299,7 @@ def _get_neuron_config_after_override(default_neuron_config,
 def get_neuron_model(model_config: ModelConfig,
                      parallel_config: ParallelConfig,
                      scheduler_config: SchedulerConfig) -> nn.Module:
-
+    """Initializes a neuron-optimized model for inference."""
     # Create a model instance.
     model = NeuronCausalLM(
         model_config.hf_config,
@@ -230,7 +316,6 @@ def get_neuron_model(model_config: ModelConfig,
     n_positions = _get_buckets("NEURON_TOKEN_GEN_BUCKETS",
                                [scheduler_config.max_model_len])
 
-    # Load the weights from the cached or downloaded files.
     model.load_weights(model_config.model,
                        tp_degree=parallel_config.tensor_parallel_size,
                        amp=TORCH_DTYPE_TO_NEURON_AMP[model_config.dtype],
@@ -240,3 +325,151 @@ def get_neuron_model(model_config: ModelConfig,
                        batch_size=scheduler_config.max_num_seqs)
 
     return model.eval()
+
+
+def get_neuron_speculation_model(model_config: ModelConfig,
+                                 parallel_config: ParallelConfig,
+                                 scheduler_config: SchedulerConfig,
+                                 speculation_config: SpeculativeConfig):
+    """Initializes a neuron-optimized speculation model for inference.
+
+    This method is only applicable for speculation with a standalone draft model
+    """
+    from transformers_neuronx.fused_speculation import FusedSpeculativeDecoder
+
+    # For Eagle SD, we need to pass in additional parameters in neuron config.
+    is_eagle = getattr(speculation_config.draft_model_config.hf_config,
+                       "is_eagle", False)
+
+    # Create target model instance.
+    target_model = NeuronCausalLM(model_config.hf_config)
+
+    default_neuron_config_args = _get_default_neuron_config_for_speculation(
+        model_config, parallel_config, scheduler_config)
+    if is_eagle:
+        default_neuron_config_args['is_eagle_target'] = True
+
+    neuron_config = _get_neuron_config_after_override(
+        default_neuron_config_args, model_config.override_neuron_config)
+
+    context_length_estimates = _get_buckets("NEURON_CONTEXT_LENGTH_BUCKETS",
+                                            [scheduler_config.max_model_len])
+    n_positions = _get_buckets("NEURON_TOKEN_GEN_BUCKETS",
+                               [scheduler_config.max_model_len])
+
+    target_model.load_weights(
+        model_config.model,
+        tp_degree=parallel_config.tensor_parallel_size,
+        amp=TORCH_DTYPE_TO_NEURON_AMP[model_config.dtype],
+        neuron_config=neuron_config,
+        context_length_estimate=context_length_estimates,
+        n_positions=n_positions,
+        batch_size=scheduler_config.max_num_seqs)
+
+    target_model.eval()
+
+    # Create draft model instance.
+    draft_model = NeuronCausalLM(
+        speculation_config.draft_model_config.hf_config)
+
+    default_draft_neuron_config_args = (
+        _get_default_neuron_config_for_speculation(
+            speculation_config.draft_model_config, parallel_config,
+            scheduler_config))
+    if is_eagle:
+        default_draft_neuron_config_args['is_eagle_draft'] = True
+        default_draft_neuron_config_args['has_pre_attention_norm'] = False
+
+    draft_neuron_config = _get_neuron_config_after_override(
+        default_draft_neuron_config_args,
+        speculation_config.draft_model_config.override_neuron_config)
+
+    draft_model.load_weights(speculation_config.draft_model_config.model,
+                             tp_degree=speculation_config.
+                             draft_parallel_config.tensor_parallel_size,
+                             amp=TORCH_DTYPE_TO_NEURON_AMP[
+                                 speculation_config.draft_model_config.dtype],
+                             neuron_config=draft_neuron_config,
+                             context_length_estimate=context_length_estimates,
+                             n_positions=n_positions,
+                             batch_size=scheduler_config.max_num_seqs)
+
+    draft_model.eval()
+
+    num_speculative_tokens = speculation_config.num_speculative_tokens
+    # Create speculation model instance.
+    speculation_model = FusedSpeculativeDecoder(draft_model.model,
+                                                target_model.model,
+                                                num_speculative_tokens)
+    speculation_model.to_neuron()
+
+    return NeuronSpeculationCausalLM(speculation_model)
+
+
+def get_neuron_eagle_speculation_model(model_config: ModelConfig,
+                                       parallel_config: ParallelConfig,
+                                       scheduler_config: SchedulerConfig,
+                                       speculation_config: SpeculativeConfig):
+    """Initializes a neuron-optimized EAGLE speculation model for inference."""
+    from transformers_neuronx.eagle_speculation import EagleSpeculativeDecoder
+
+    # Create target model instance.
+    target_model = NeuronCausalLM(model_config.hf_config)
+
+    default_neuron_config_args = _get_default_neuron_config_for_speculation(
+        model_config, parallel_config, scheduler_config)
+    default_neuron_config_args['is_eagle_target'] = True
+    neuron_config = _get_neuron_config_after_override(
+        default_neuron_config_args, model_config.override_neuron_config)
+
+    context_length_estimates = _get_buckets("NEURON_CONTEXT_LENGTH_BUCKETS",
+                                            [scheduler_config.max_model_len])
+    n_positions = _get_buckets("NEURON_TOKEN_GEN_BUCKETS",
+                               [scheduler_config.max_model_len])
+
+    target_model.load_weights(
+        model_config.model,
+        tp_degree=parallel_config.tensor_parallel_size,
+        amp=TORCH_DTYPE_TO_NEURON_AMP[model_config.dtype],
+        neuron_config=neuron_config,
+        context_length_estimate=context_length_estimates,
+        n_positions=n_positions,
+        batch_size=scheduler_config.max_num_seqs)
+
+    target_model.eval()
+
+    # Create draft model instance.
+    draft_model = NeuronCausalLM(
+        speculation_config.draft_model_config.hf_config)
+
+    default_draft_neuron_config_args = (
+        _get_default_neuron_config_for_speculation(
+            speculation_config.draft_model_config, parallel_config,
+            scheduler_config))
+    default_draft_neuron_config_args['is_eagle_draft'] = True
+    default_draft_neuron_config_args['has_pre_attention_norm'] = False
+    draft_neuron_config = _get_neuron_config_after_override(
+        default_draft_neuron_config_args,
+        speculation_config.draft_model_config.override_neuron_config)
+
+    draft_model.load_weights(speculation_config.draft_model_config.model,
+                             tp_degree=speculation_config.
+                             draft_parallel_config.tensor_parallel_size,
+                             amp=TORCH_DTYPE_TO_NEURON_AMP[
+                                 speculation_config.draft_model_config.dtype],
+                             neuron_config=draft_neuron_config,
+                             context_length_estimate=context_length_estimates,
+                             n_positions=n_positions,
+                             batch_size=scheduler_config.max_num_seqs)
+
+    draft_model.eval()
+
+    token_tree: Dict[int, List[int]] = ast.literal_eval(
+        speculation_config.speculative_token_tree)
+
+    speculation_model = EagleSpeculativeDecoder(draft_model.model,
+                                                target_model.model,
+                                                token_tree=token_tree)
+    speculation_model.to_neuron()
+
+    return NeuronSpeculationCausalLM(speculation_model)
diff --git a/vllm/model_executor/model_loader/neuronx_distributed.py b/vllm/model_executor/model_loader/neuronx_distributed.py
new file mode 100644
index 000000000..f879c99ac
--- /dev/null
+++ b/vllm/model_executor/model_loader/neuronx_distributed.py
@@ -0,0 +1,584 @@
+# SPDX-License-Identifier: Apache-2.0
+"""Utilities for selecting and loading Neuron models in
+neuronx-distributed-inference framework."""
+# Disabling yapf because yapf and isort have conflicts for the below imports
+# yapf: disable
+import copy
+import hashlib
+import importlib
+import multiprocessing
+import os
+import shutil
+from typing import Dict, List, Optional, Tuple
+
+import torch
+import torch.nn as nn
+from neuronx_distributed_inference.models.config import (
+    FusedSpecNeuronConfig, OnDeviceSamplingConfig)
+from neuronx_distributed_inference.models.mllama.utils import (
+    create_vision_mask)
+from neuronx_distributed_inference.utils.hf_adapter import (
+    load_pretrained_config)
+from transformers import AutoModelForCausalLM, AutoTokenizer, PretrainedConfig
+
+from vllm.config import (ModelConfig, ParallelConfig, SchedulerConfig,
+                         SpeculativeConfig)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.sampler import Sampler, SamplerOutput
+from vllm.model_executor.sampling_metadata import SamplingMetadata
+from vllm.sequence import (CompletionSequenceGroupOutput, Logprob,
+                           SequenceOutput)
+
+# yapf: enable
+logger = init_logger(__name__)
+
+TORCH_DTYPE_TO_NEURON_AMP = {
+    "auto": "float32",
+    "half": "float16",
+    "float16": "float16",
+    "bfloat16": "bfloat16",
+    "float": "float32",
+    "float32": "float32",
+    torch.float16: "float16",
+    torch.bfloat16: "bfloat16",
+    torch.float32: "float32",
+}
+
+# Models supported by Neuronx distributed for inference.
+_NEURON_SUPPORTED_MODELS: Dict[str, Tuple[str, str]] = {
+    "LlamaForCausalLM":
+    ("neuronx_distributed_inference.models.llama.modeling_llama",
+     "NeuronLlamaForCausalLM"),
+    "DbrxForCausalLM":
+    ("neuronx_distributed_inference.models.dbrx.modeling_dbrx",
+     "NeuronDbrxForCausalLM"),
+    "MixtralForCausalLM":
+    ("neuronx_distributed_inference.models.mixtral.modeling_mixtral",
+     "NeuronMixtralForCausalLM"),
+    "MllamaForConditionalGeneration":
+    ("neuronx_distributed_inference.models.mllama.modeling_mllama",
+     "NeuronMllamaForCausalLM"),
+}
+
+
+class NeuronCausalLM(nn.Module):
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.logits_processor = LogitsProcessor(config.vocab_size,
+                                                logits_as_input=True)
+        self.sampler = Sampler()
+
+        # Lazy initialized
+        self.model: nn.Module
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        input_block_ids: torch.Tensor,
+        sampling_params: torch.Tensor,
+    ) -> torch.Tensor:
+        output = self.model(input_ids,
+                            attention_mask=None,
+                            position_ids=positions,
+                            seq_ids=input_block_ids,
+                            sampling_params=sampling_params)
+        # on-device sampling
+        if self.config.neuron_config.on_device_sampling_config:
+            return output.hidden_states
+        else:
+            return output.logits[:, -1, :]
+
+    def compute_logits(self, hidden_states: torch.Tensor,
+                       sampling_metadata: SamplingMetadata) -> torch.Tensor:
+        logits = self.logits_processor(None, hidden_states, sampling_metadata)
+        return logits
+
+    def sample(
+        self,
+        logits: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+    ) -> Optional[SamplerOutput]:
+        # on-device sampling
+        if self.config.neuron_config.on_device_sampling_config:
+            batch_size = logits.shape
+            seq_ids = [
+                seq_id for sg in sampling_metadata.seq_groups
+                for seq_id in sg.seq_ids
+            ]
+            assert len(seq_ids) == list(batch_size)[0], "batch size mismatch"
+            # Organize input tensors by step instead of by sequence.
+            accepted_token_ids_by_step = logits.flatten()
+            accepted_token_ids_by_step = accepted_token_ids_by_step.tolist()
+
+            step_output_token_ids = []
+            for i, seq_id in enumerate(seq_ids):
+                token_id = accepted_token_ids_by_step[i]
+                step_output_token_ids.append(
+                    CompletionSequenceGroupOutput(samples=[
+                        SequenceOutput(parent_seq_id=seq_id,
+                                       output_token=token_id,
+                                       logprobs={token_id: Logprob(token_id)})
+                    ],
+                                                  prompt_logprobs=None))
+            return SamplerOutput(outputs=step_output_token_ids)
+        else:
+            return self.sampler(logits, sampling_metadata)
+
+    def load_weights(self, model_name_or_path: str, **kwargs):
+        arch = _get_model_architecture(self.config)
+        neuronx_module_path, neuronx_model_cls_name = (
+            _NEURON_SUPPORTED_MODELS[arch])
+        neuronx_module = importlib.import_module(neuronx_module_path)
+        neuronx_model_cls = getattr(neuronx_module, neuronx_model_cls_name)
+        neuron_config = neuronx_model_cls.get_neuron_config_cls()(
+            **kwargs['neuron_config'])
+        self.config.neuron_config = neuron_config
+        config = neuronx_model_cls.get_config_cls()(
+            neuron_config,
+            load_config=load_pretrained_config(model_name_or_path))
+        hashed_config = hashlib.md5(
+            config.to_json_string().encode('utf-8')).hexdigest()
+        if os.getenv("NEURON_COMPILED_ARTIFACTS") is not None:
+            compiled_model_path = os.getenv("NEURON_COMPILED_ARTIFACTS")
+        elif os.path.exists(model_name_or_path):
+            compiled_model_path = os.path.join(model_name_or_path,
+                                               "neuron-compiled-artifacts",
+                                               hashed_config)
+            shutil.rmtree(compiled_model_path, ignore_errors=True)
+        else:
+            compiled_model_path = os.path.join("local-models",
+                                               model_name_or_path,
+                                               "neuron-compiled-artifacts",
+                                               hashed_config)
+            shutil.rmtree(compiled_model_path, ignore_errors=True)
+        try:
+            self.model = neuronx_model_cls(compiled_model_path)
+            override_neuron_config = kwargs["override_neuron_config"]
+            for k, v in override_neuron_config.items():
+                setattr(self.model.config.neuron_config, k, v)
+            self.model.load(compiled_model_path)
+            return
+        except (FileNotFoundError, ValueError) as e:
+            logger.warning("Exception: %s", e)
+            logger.warning("Failed to load the model from %s, Recompiling...",
+                           compiled_model_path)
+        if not os.path.exists(model_name_or_path):
+            hf_model = AutoModelForCausalLM.from_pretrained(model_name_or_path)
+            saved_path = os.path.join("local-models", model_name_or_path)
+            hf_model.save_pretrained(saved_path)
+            model_name_or_path = saved_path
+        self.model = neuronx_model_cls(model_name_or_path, config)
+        self.model.compile(compiled_model_path)
+        self.model.load(compiled_model_path)
+
+
+class NeuronMllamaForCausalLM(nn.Module):
+
+    def __init__(self,
+                 config: PretrainedConfig,
+                 on_device_sampling_disabled: bool = False) -> None:
+        super().__init__()
+        self.config = config
+        self.logits_processor = LogitsProcessor(
+            config.get_text_config().vocab_size, logits_as_input=True)
+
+        self.on_device_sampling_disabled = on_device_sampling_disabled
+        if self.on_device_sampling_disabled:
+            # Use default sampler
+            self.sampler = Sampler()
+
+        # Lazy initialized
+        self.model: nn.Module
+
+    def forward(self, input_ids: torch.Tensor, positions: torch.Tensor,
+                seq_ids: torch.Tensor, pixel_values: torch.Tensor,
+                aspect_ratios: torch.Tensor, num_chunks: torch.Tensor,
+                has_image: torch.Tensor, sampling_params) -> torch.Tensor:
+        self.vision_mask = create_vision_mask(input_ids, self.vision_token_id)
+        output = self.model(
+            input_ids.to(torch.int32),
+            attention_mask=None,
+            position_ids=positions.to(torch.int32),
+            seq_ids=seq_ids.flatten().to(torch.int32),
+            pixel_values=pixel_values.to(
+                self.config.vision_config.torch_dtype),
+            aspect_ratios=aspect_ratios.to(torch.int32),
+            vision_mask=self.vision_mask.to(torch.int32),
+            sampling_params=sampling_params,
+            num_chunks=num_chunks.to(torch.int32),
+            has_image=has_image.to(torch.int32),
+        )
+        if self.config.neuron_config.on_device_sampling_config:
+            return output.hidden_states
+        return output.logits[:, -1, :]
+
+    def compute_logits(self, hidden_states: torch.Tensor,
+                       sampling_metadata: SamplingMetadata) -> torch.Tensor:
+        logits = self.logits_processor(None, hidden_states, sampling_metadata)
+        return logits
+
+    def sample(self, hidden_states, sampling_metadata):
+        if not self.on_device_sampling_disabled:
+            with torch.profiler.record_function("sample"):
+                hidden_states = hidden_states.flatten()
+                res = []
+                sample_idx = 0
+                for seq_group in sampling_metadata.seq_groups:
+                    seq_ids = seq_group.seq_ids
+                    samples = []
+                    for seq_id in seq_ids:
+                        token_id = hidden_states[sample_idx].item()
+                        samples.append(
+                            SequenceOutput(
+                                parent_seq_id=seq_id,
+                                output_token=token_id,
+                                logprobs={token_id: Logprob(token_id)}))
+                        sample_idx += 1
+                    res.append(
+                        CompletionSequenceGroupOutput(samples=samples,
+                                                      prompt_logprobs=None))
+                next_tokens = SamplerOutput(outputs=res)
+        else:
+            next_tokens = self.sampler(None, hidden_states, sampling_metadata)
+        return next_tokens
+
+    def load_weights(self, model_name_or_path: str, **kwargs):
+        arch = _get_model_architecture(self.config)
+        neuronx_module_path, neuronx_model_cls_name = (
+            _NEURON_SUPPORTED_MODELS[arch])
+        neuronx_module = importlib.import_module(neuronx_module_path)
+        neuronx_model_cls = getattr(neuronx_module, neuronx_model_cls_name)
+        neuron_config = neuronx_model_cls.get_neuron_config_cls()(
+            **kwargs['neuron_config'])
+        self.config.neuron_config = neuron_config
+        logger.info("neuron_config buckets: %s",
+                    self.config.neuron_config.buckets)
+        config = neuronx_model_cls.get_config_cls()(
+            neuron_config,
+            load_config=load_pretrained_config(model_name_or_path))
+        hashed_config = hashlib.md5(
+            config.to_json_string().encode('utf-8')).hexdigest()
+        if os.getenv("NEURON_COMPILED_ARTIFACTS") is not None:
+            compiled_model_path = os.getenv("NEURON_COMPILED_ARTIFACTS")
+        elif os.path.exists(model_name_or_path):
+            compiled_model_path = os.path.join(model_name_or_path,
+                                               "neuron-compiled-artifacts",
+                                               hashed_config)
+        else:
+            compiled_model_path = os.path.join("local-models",
+                                               model_name_or_path,
+                                               "neuron-compiled-artifacts",
+                                               hashed_config)
+        try:
+            self.model = neuronx_model_cls(compiled_model_path)
+            tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
+            self.vision_token_id = tokenizer(
+                "<|image|>", add_special_tokens=False).input_ids
+            self.model.load(compiled_model_path)
+            return
+        except (FileNotFoundError, ValueError):
+            logger.warning("Failed to load the model from %s, Recompiling...",
+                           compiled_model_path)
+        if not os.path.exists(model_name_or_path):
+            hf_model = AutoModelForCausalLM.from_pretrained(model_name_or_path)
+            saved_path = os.path.join("local-models", model_name_or_path)
+            hf_model.save_pretrained(saved_path)
+            model_name_or_path = saved_path
+        self.model = neuronx_model_cls(model_name_or_path, config)
+
+        logger.info("\nCompiling and saving model to %s", model_name_or_path)
+
+        p = multiprocessing.Process(target=compile_model,
+                                    args=(self, compiled_model_path))
+        p.start()
+        p.join()
+
+        tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
+        tokenizer.save_pretrained(compiled_model_path)
+        logger.info("Successfully compiled and saved the model in %s",
+                    compiled_model_path)
+
+        # Read "<|image|>" token_id from the tokenizer
+        self.vision_token_id = tokenizer("<|image|>",
+                                         add_special_tokens=False).input_ids
+        logger.info("\nLoading model from compiled checkpoint...")
+        self.model.load(compiled_model_path)
+
+
+def compile_model(neuron_model, traced_model_path):
+    neuron_model.model.compile(traced_model_path)
+
+
+class NeuronSpeculationCausalLM(nn.Module):
+    """A Neuron-optimized causal language model with speculative decoding."""
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+    ) -> None:
+        super().__init__()
+        self.config = config
+        self.logits_processor = LogitsProcessor(config.vocab_size,
+                                                logits_as_input=True)
+        # Lazy initialized
+        self.model: nn.Module
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        input_block_ids: torch.Tensor,
+        sampling_params: torch.Tensor,
+    ) -> torch.Tensor:
+        output = self.model(input_ids,
+                            attention_mask=None,
+                            position_ids=positions,
+                            seq_ids=input_block_ids,
+                            sampling_params=sampling_params)
+        # CTX encoding
+        if (positions[:, 0]).sum().item() == 0:
+            return output.fused_outputs[0][:, 0:1]
+
+        # Fused Spec (Generation)
+        accepted_tokens_with_padding = output.fused_outputs[0]
+        next_pos_ids = output.fused_outputs[-1]
+        generated_token_counts = next_pos_ids - positions
+
+        assert torch.any(generated_token_counts == 0).item() is False, \
+            "NxDI model generated no output for one or more sequences."
+
+        batch_size, steps = accepted_tokens_with_padding.shape
+        mask = torch.arange(steps).expand(batch_size,
+                                          -1) >= generated_token_counts
+        accepted_tokens_with_padding[mask] = -1
+
+        return accepted_tokens_with_padding
+
+    def sample(
+        self,
+        logits: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+    ) -> Optional[List[SamplerOutput]]:
+        batch_size, num_steps = logits.shape
+        seq_ids = [
+            seq_id for sg in sampling_metadata.seq_groups
+            for seq_id in sg.seq_ids
+        ]
+        # Organize input tensors by step instead of by sequence.
+        accepted_token_ids_by_step = logits.transpose(0, 1)
+        accepted_token_ids_by_step = accepted_token_ids_by_step.tolist()
+
+        sampler_output_list = []
+        for step_index in range(num_steps):
+            if all(token_id == -1
+                   for token_id in accepted_token_ids_by_step[step_index]):
+                break
+            step_output_token_ids = []
+            for sequence_index in range(batch_size):
+                token_id = accepted_token_ids_by_step[step_index][
+                    sequence_index]
+                step_output_token_ids.append(
+                    CompletionSequenceGroupOutput(samples=[
+                        SequenceOutput(parent_seq_id=seq_ids[sequence_index],
+                                       output_token=token_id,
+                                       logprobs={token_id: Logprob(token_id)})
+                    ],
+                                                  prompt_logprobs=None))
+            sampler_output_list.append(
+                SamplerOutput(outputs=step_output_token_ids))
+        return sampler_output_list
+
+    def load_weights(self, model_name_or_path: str,
+                     draft_model_name_or_path: str, **kwargs):
+        arch = _get_model_architecture(self.config)
+        neuronx_module_path, neuronx_model_cls_name = (
+            _NEURON_SUPPORTED_MODELS[arch])
+        neuronx_module = importlib.import_module(neuronx_module_path)
+        neuronx_model_cls = getattr(neuronx_module, neuronx_model_cls_name)
+        neuron_config = neuronx_model_cls.get_neuron_config_cls()(
+            **kwargs['neuron_config'])
+        config = neuronx_model_cls.get_config_cls()(
+            neuron_config,
+            load_config=load_pretrained_config(model_name_or_path))
+
+        draft_neuron_config = copy.deepcopy(config.neuron_config)
+        if not config.neuron_config.enable_eagle_speculation:
+            draft_neuron_config.speculation_length = 0
+        draft_neuron_config.trace_tokengen_model = True
+        draft_neuron_config.enable_fused_speculation = False
+        if config.neuron_config.enable_eagle_speculation:
+            draft_neuron_config.is_eagle_draft = True
+            draft_neuron_config.sequence_parallel_enabled = False
+        draft_config = neuronx_model_cls.get_config_cls()(
+            draft_neuron_config,
+            load_config=load_pretrained_config(draft_model_name_or_path))
+        fused_spec_config = (FusedSpecNeuronConfig(
+            neuronx_model_cls._model_cls,
+            draft_config=draft_config,
+            draft_model_path=draft_model_name_or_path))
+        config.fused_spec_config = fused_spec_config
+        self.config.neuron_config = neuron_config
+
+        hashed_config = hashlib.md5(
+            config.to_json_string().encode('utf-8')).hexdigest()
+        if os.getenv("NEURON_COMPILED_ARTIFACTS") is not None:
+            compiled_model_path = os.getenv("NEURON_COMPILED_ARTIFACTS")
+        elif os.path.exists(model_name_or_path):
+            compiled_model_path = os.path.join(model_name_or_path,
+                                               "neuron-compiled-artifacts",
+                                               hashed_config)
+            shutil.rmtree(compiled_model_path, ignore_errors=True)
+        else:
+            compiled_model_path = os.path.join("local-models",
+                                               model_name_or_path,
+                                               "neuron-compiled-artifacts",
+                                               hashed_config)
+            shutil.rmtree(compiled_model_path, ignore_errors=True)
+        try:
+            self.model = neuronx_model_cls(compiled_model_path)
+            override_neuron_config = kwargs["override_neuron_config"]
+            for k, v in override_neuron_config.items():
+                setattr(self.model.config.neuron_config, k, v)
+            self.model.load(compiled_model_path)
+            return
+        except (FileNotFoundError, ValueError) as e:
+            logger.warning("Exception: %s", e)
+            logger.warning("Failed to load the model from %s Recompiling...",
+                           compiled_model_path)
+        if not os.path.exists(model_name_or_path):
+            hf_model = AutoModelForCausalLM.from_pretrained(model_name_or_path)
+            saved_path = os.path.join("local-models", model_name_or_path)
+            hf_model.save_pretrained(saved_path)
+            model_name_or_path = saved_path
+        if not os.path.exists(draft_model_name_or_path):
+            if draft_model_name_or_path != model_name_or_path:
+                hf_model = AutoModelForCausalLM.from_pretrained(
+                    draft_model_name_or_path)
+                saved_path = os.path.join("local-models",
+                                          draft_model_name_or_path)
+                hf_model.save_pretrained(saved_path)
+                draft_model_name_or_path = saved_path
+            else:
+                draft_model_name_or_path = model_name_or_path
+            config.fused_spec_config.draft_model_path = draft_model_name_or_path
+        self.model = neuronx_model_cls(model_name_or_path, config)
+        self.model.compile(compiled_model_path)
+        self.model.load(compiled_model_path)
+
+
+def _get_model_architecture(config: PretrainedConfig) -> str:
+    architectures = getattr(config, "architectures", [])
+    for arch in architectures:
+        if arch in _NEURON_SUPPORTED_MODELS:
+            return arch
+    raise ValueError(
+        f"Model architectures {architectures} are not supported on Neuron "
+        f"for now. Supported architectures: "
+        f"{list(_NEURON_SUPPORTED_MODELS.keys())}")
+
+
+def _get_default_neuron_config(model_config: ModelConfig,
+                               parallel_config: ParallelConfig,
+                               scheduler_config: SchedulerConfig):
+    """Generate a neuron config based on vllm config args."""
+    on_device_sampling_config = OnDeviceSamplingConfig(dynamic=True,
+                                                       deterministic=False)
+    batch_size = scheduler_config.max_num_seqs
+
+    neuron_config = dict(
+        tp_degree=parallel_config.tensor_parallel_size,
+        ctx_batch_size=1,
+        batch_size=batch_size,
+        max_context_length=scheduler_config.max_model_len,
+        seq_len=scheduler_config.max_model_len,
+        enable_bucketing=True,
+        is_continuous_batching=(batch_size > 1),
+        quantized=False,
+        torch_dtype=TORCH_DTYPE_TO_NEURON_AMP[model_config.dtype],
+        padding_side="right",
+        on_device_sampling_config=on_device_sampling_config,
+        sequence_parallel_enabled=True,
+    )
+    return neuron_config
+
+
+def _get_default_speculation_config(model_config: ModelConfig,
+                                    parallel_config: ParallelConfig,
+                                    scheduler_config: SchedulerConfig,
+                                    speculation_config: SpeculativeConfig):
+    """Generate a neuron config for speculative decoding based on vllm config
+    args."""
+    neuron_config = dict(
+        tp_degree=parallel_config.tensor_parallel_size,
+        batch_size=scheduler_config.max_num_seqs,
+        max_context_length=scheduler_config.max_model_len,
+        seq_len=scheduler_config.max_model_len,
+        speculation_length=speculation_config.num_speculative_tokens,
+        trace_tokengen_model=False,
+        enable_fused_speculation=True,
+        enable_bucketing=True,
+        quantized=False,
+        torch_dtype=TORCH_DTYPE_TO_NEURON_AMP[model_config.dtype],
+        on_device_sampling_config=dict(
+            top_k=1,
+            do_sample=False,
+        ))
+    return neuron_config
+
+
+def _get_neuron_config_after_override(default_neuron_config,
+                                      overridden_neuron_config):
+    """Update default neuron config values with override args"""
+    overridden_neuron_config = overridden_neuron_config or {}
+    default_neuron_config.update(overridden_neuron_config)
+    return default_neuron_config
+
+
+def get_neuron_model(model_config: ModelConfig,
+                     parallel_config: ParallelConfig,
+                     scheduler_config: SchedulerConfig) -> nn.Module:
+    """Initializes a neuron-optimized model for inference."""
+    model_arch = _get_model_architecture(model_config.hf_config)
+    if model_arch == "MllamaForConditionalGeneration":
+        model = NeuronMllamaForCausalLM(model_config.hf_config)
+    else:
+        model = NeuronCausalLM(model_config.hf_config)
+    default_neuron_config_args = _get_default_neuron_config(
+        model_config, parallel_config, scheduler_config)
+    neuron_config = _get_neuron_config_after_override(
+        default_neuron_config_args, model_config.override_neuron_config)
+
+    override_neuron_config = model_config.override_neuron_config
+    model.load_weights(model_config.model,
+                       neuron_config=neuron_config,
+                       override_neuron_config=override_neuron_config)
+    return model.eval()
+
+
+def get_neuron_speculation_model(model_config: ModelConfig,
+                                 parallel_config: ParallelConfig,
+                                 scheduler_config: SchedulerConfig,
+                                 speculation_config: SpeculativeConfig):
+    """Initializes a neuron-optimized speculation model for inference.
+    
+    This model handles speculation using both a draft model and an EAGLE draft. 
+    """
+    model = NeuronSpeculationCausalLM(model_config.hf_config)
+    default_neuron_config_args = _get_default_speculation_config(
+        model_config, parallel_config, scheduler_config, speculation_config)
+    neuron_config = _get_neuron_config_after_override(
+        default_neuron_config_args, model_config.override_neuron_config)
+
+    override_neuron_config = model_config.override_neuron_config
+    model.load_weights(model_config.model,
+                       speculation_config.draft_model_config.model,
+                       neuron_config=neuron_config,
+                       override_neuron_config=override_neuron_config)
+    return model.eval()
diff --git a/vllm/platforms/__init__.py b/vllm/platforms/__init__.py
index 0ed221043..b1df4fd13 100644
--- a/vllm/platforms/__init__.py
+++ b/vllm/platforms/__init__.py
@@ -176,17 +176,26 @@ def cpu_platform_plugin() -> Optional[str]:
 
 
 def neuron_platform_plugin() -> Optional[str]:
-    is_neuron = False
+    tnx_installed = False
+    nxd_installed = False
     logger.debug("Checking if Neuron platform is available.")
     try:
         import transformers_neuronx  # noqa: F401
-        is_neuron = True
+        tnx_installed = True
         logger.debug("Confirmed Neuron platform is available because"
                      " transformers_neuronx is found.")
-    except ImportError as e:
-        logger.debug("Neuron platform is not available because: %s", str(e))
+    except ImportError:
         pass
 
+    try:
+        import neuronx_distributed_inference  # noqa: F401
+        nxd_installed = True
+        logger.debug("Confirmed Neuron platform is available because"
+                     " neuronx_distributed_inference is found.")
+    except ImportError:
+        pass
+
+    is_neuron = tnx_installed or nxd_installed
     return "vllm.platforms.neuron.NeuronPlatform" if is_neuron else None
 
 
diff --git a/vllm/platforms/neuron.py b/vllm/platforms/neuron.py
index e37a3a578..71f7c718c 100644
--- a/vllm/platforms/neuron.py
+++ b/vllm/platforms/neuron.py
@@ -1,5 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
-
+import enum
+import os
+from functools import lru_cache
 from typing import TYPE_CHECKING, Optional
 
 from vllm import envs
@@ -15,6 +17,11 @@ else:
 logger = init_logger(__name__)
 
 
+class NeuronFramework(enum.Enum):
+    TRANSFORMERS_NEURONX = "transformers-neuronx"
+    NEURONX_DISTRIBUTED_INFERENCE = "neuronx-distributed-inference"
+
+
 class NeuronPlatform(Platform):
     _enum = PlatformEnum.NEURON
     device_name: str = "neuron"
@@ -43,8 +50,6 @@ class NeuronPlatform(Platform):
 
         assert (vllm_config.lora_config
                 is None), "LoRA is not supported for Neuron backend."
-        assert (not vllm_config.speculative_config
-                ), "Speculative decoding not yet supported for Neuron backend."
 
         cache_config = vllm_config.cache_config
         if cache_config:
@@ -67,3 +72,71 @@ class NeuronPlatform(Platform):
     @classmethod
     def use_all_gather(cls) -> bool:
         return True
+
+    @classmethod
+    @lru_cache
+    def is_neuronx_distributed_inference(cls) -> bool:
+        try:
+            import neuronx_distributed_inference
+        except ImportError:
+            neuronx_distributed_inference = None
+        return neuronx_distributed_inference is not None
+
+    @classmethod
+    @lru_cache
+    def is_transformers_neuronx(cls) -> bool:
+        try:
+            import transformers_neuronx
+        except ImportError:
+            transformers_neuronx = None
+        return transformers_neuronx is not None
+
+    def get_neuron_framework_to_use(self):
+        """Return the specified framework if corresponding installations are
+        available.
+
+        If no framework is specified, use neuronx-distributed-inference by
+        default.
+        If that's unavailable, check and switch to transformers-neuronx.
+        """
+        if not self.is_neuron():
+            raise AssertionError(
+                f"Neuron Framework unavailable for platform: {self}")
+
+        tnx_installed = self.is_transformers_neuronx()
+        nxd_installed = self.is_neuronx_distributed_inference()
+
+        specified_framework = os.environ.get("VLLM_NEURON_FRAMEWORK")
+        tnx_framework = NeuronFramework.TRANSFORMERS_NEURONX.value
+        nxd_framework = NeuronFramework.NEURONX_DISTRIBUTED_INFERENCE.value
+        if specified_framework == tnx_framework and tnx_installed:
+            return self.TRANSFORMERS_NEURONX
+
+        if ((specified_framework == nxd_framework and nxd_installed)
+                or (specified_framework is None and nxd_installed)):
+            return NeuronFramework.NEURONX_DISTRIBUTED_INFERENCE
+
+        if specified_framework is None and tnx_installed:
+            return NeuronFramework.TRANSFORMERS_NEURONX
+
+        return None
+
+    def use_neuronx_distributed(self):
+        """
+        Return True if the framework determined in get_neuron_framework_to_use()
+        is NeuronFramework.NEURONX_DISTRIBUTED_INFERENCE, False otherwise. This
+        is used to select the Neuron model framework and framework-specific
+        configuration to apply during model compilation.
+        """
+        nxd_framework = NeuronFramework.NEURONX_DISTRIBUTED_INFERENCE
+        return self.get_neuron_framework_to_use() == nxd_framework
+
+    def use_transformers_neuronx(self):
+        """
+        Return True if the framework determined in get_neuron_framework_to_use()
+        is NeuronFramework.TRANSFORMERS_NEURONX, False otherwise. This is used
+        to select the Neuron model framework and framework-specific
+        configuration to apply during model compilation.
+        """
+        return self.get_neuron_framework_to_use(
+        ) == NeuronFramework.TRANSFORMERS_NEURONX
diff --git a/vllm/worker/multi_step_neuron_model_runner.py b/vllm/worker/multi_step_neuron_model_runner.py
new file mode 100644
index 000000000..9618a4b49
--- /dev/null
+++ b/vllm/worker/multi_step_neuron_model_runner.py
@@ -0,0 +1,81 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from importlib.util import find_spec
+from typing import List, Optional
+
+import torch
+
+from vllm.config import VllmConfig
+from vllm.model_executor.layers.sampler import SamplerOutput
+from vllm.multimodal import MultiModalKwargs
+from vllm.sequence import IntermediateTensors
+from vllm.worker.neuron_model_runner import (ModelInputForNeuron,
+                                             NeuronModelRunner)
+
+
+class MultiStepNeuronModelRunner(NeuronModelRunner):
+    """A model runner for multi step decoding using the transformers_neuronx
+    framework"""
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+    ):
+        super().__init__(vllm_config)
+        self.speculation_config = self.speculative_config
+        from transformers_neuronx.config import GenerationConfig
+        self.speculation_config.draft_model_config.neuron_sampling_params = (
+            GenerationConfig(
+            max_length=self.scheduler_config.max_model_len,
+            do_sample=True,
+            per_batch_line=True,
+            top_k=[self._MAX_NEURON_SAMPLING_TOP_K] \
+                  * self.scheduler_config.max_num_seqs,
+            top_p=[1.0] * self.scheduler_config.max_num_seqs,
+            temperature=[1.0] * self.scheduler_config.max_num_seqs,
+            dynamic=True,
+            global_top_k=self._MAX_NEURON_SAMPLING_TOP_K
+        ))
+
+    def load_model(self) -> None:
+        if find_spec("transformers_neuronx") is not None:
+            from vllm.model_executor.model_loader.neuron import (
+                get_neuron_eagle_speculation_model,
+                get_neuron_speculation_model)
+            if self.speculation_config.speculative_token_tree is not None:
+                self.model = get_neuron_eagle_speculation_model(
+                    self.model_config,
+                    parallel_config=self.parallel_config,
+                    scheduler_config=self.scheduler_config,
+                    speculation_config=self.speculation_config)
+            else:
+                self.model = get_neuron_speculation_model(
+                    self.model_config,
+                    parallel_config=self.parallel_config,
+                    scheduler_config=self.scheduler_config,
+                    speculation_config=self.speculation_config)
+        else:
+            raise NotImplementedError(
+                "Supports only Transformer-NeuronX based models.")
+
+    @torch.inference_mode()
+    def execute_model(
+        self,
+        model_input: ModelInputForNeuron,
+        kv_caches: Optional[List[torch.Tensor]] = None,
+        intermediate_tensors: Optional[IntermediateTensors] = None,
+        num_steps: int = 1,
+    ) -> Optional[List[SamplerOutput]]:
+        logits = self.model(
+            input_ids=model_input.input_tokens,
+            positions=model_input.input_positions,
+            input_block_ids=model_input.input_block_ids,
+            **MultiModalKwargs.as_kwargs(model_input.multi_modal_kwargs or {},
+                                         device=self.device),
+        )
+
+        output = self.model.sample(
+            logits=logits,
+            sampling_metadata=model_input.sampling_metadata,
+        )
+        return output
diff --git a/vllm/worker/multi_step_neuronx_distributed_model_runner.py b/vllm/worker/multi_step_neuronx_distributed_model_runner.py
new file mode 100644
index 000000000..b6a3492a4
--- /dev/null
+++ b/vllm/worker/multi_step_neuronx_distributed_model_runner.py
@@ -0,0 +1,60 @@
+# SPDX-License-Identifier: Apache-2.0
+from typing import List, Optional
+
+import torch
+
+from vllm.config import VllmConfig
+from vllm.model_executor.layers.sampler import SamplerOutput
+from vllm.multimodal import MultiModalKwargs
+from vllm.sequence import IntermediateTensors
+from vllm.worker.neuronx_distributed_model_runner import (
+    NeuronxDistributedModelRunner)
+
+
+class MultiStepNeuronxDistributedModelRunner(NeuronxDistributedModelRunner):
+    """A model runner for multi-step decoding using the
+    neuronx-distributed-inference framework"""
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+    ):
+        super().__init__(vllm_config)
+
+    def load_model(self) -> None:
+        from vllm.model_executor.model_loader.neuronx_distributed import (
+            get_neuron_speculation_model)
+        self.model = get_neuron_speculation_model(
+            self.model_config,
+            parallel_config=self.parallel_config,
+            scheduler_config=self.scheduler_config,
+            speculation_config=self.speculative_config)
+
+    @torch.inference_mode()
+    def execute_model(
+        self,
+        model_input,
+        kv_caches: Optional[List[torch.Tensor]] = None,
+        intermediate_tensors: Optional[IntermediateTensors] = None,
+        num_steps: int = 1,
+    ) -> Optional[List[SamplerOutput]]:
+        sampling_params = torch.tensor([[
+            seq_group.sampling_params.top_k,
+            seq_group.sampling_params.top_p,
+            seq_group.sampling_params.temperature,
+        ] for seq_group in model_input.sampling_metadata.seq_groups])
+
+        logits = self.model(
+            input_ids=model_input.input_tokens,
+            positions=model_input.input_positions,
+            input_block_ids=model_input.input_block_ids,
+            sampling_params=sampling_params,
+            **MultiModalKwargs.as_kwargs(model_input.multi_modal_kwargs or {},
+                                         device=self.device),
+        )
+
+        output = self.model.sample(
+            logits=logits,
+            sampling_metadata=model_input.sampling_metadata,
+        )
+        return output
diff --git a/vllm/worker/neuron_model_runner.py b/vllm/worker/neuron_model_runner.py
index e046ebc44..c80b69e78 100644
--- a/vllm/worker/neuron_model_runner.py
+++ b/vllm/worker/neuron_model_runner.py
@@ -2,20 +2,20 @@
 
 import os
 from dataclasses import dataclass
-from importlib.util import find_spec
 from typing import TYPE_CHECKING, Any, Dict, List, Optional, Tuple, Union
 
 import torch
 from torch import nn
-from transformers_neuronx.config import GenerationConfig
 
-from vllm.config import VllmConfig
-from vllm.forward_context import set_forward_context
+from vllm.config import DeviceConfig, VllmConfig
 from vllm.logger import init_logger
 from vllm.model_executor import SamplingMetadata
 from vllm.model_executor.layers.sampler import SamplerOutput
 from vllm.model_executor.model_loader.neuron import get_neuron_model
-from vllm.multimodal import BatchedTensorInputs, MultiModalKwargs
+from vllm.multimodal import (MULTIMODAL_REGISTRY, BatchedTensorInputs,
+                             MultiModalKwargs)
+from vllm.platforms import current_platform
+from vllm.sampling_params import SamplingParams
 from vllm.sequence import IntermediateTensors, SequenceGroupMetadata
 from vllm.utils import is_pin_memory_available, make_tensor_with_pad
 from vllm.worker.model_runner_base import ModelRunnerBase, ModelRunnerInputBase
@@ -34,12 +34,18 @@ class ModelInputForNeuron(ModelRunnerInputBase):
     input_tokens: Optional[torch.Tensor] = None
     input_positions: Optional[torch.Tensor] = None
     input_block_ids: Optional[torch.Tensor] = None
-    sampling_metadata: Optional["SamplingMetadata"] = None
-    multi_modal_kwargs: Optional[BatchedTensorInputs] = None
+    sampling_metadata: SamplingMetadata = None
+    multi_modal_kwargs: BatchedTensorInputs = None
 
     def as_broadcastable_tensor_dict(
             self) -> Dict[str, Union[int, torch.Tensor]]:
-        raise NotImplementedError("ModelInputForNeuron cannot be broadcast.")
+        return {
+            "input_tokens": self.input_tokens,
+            "input_positions": self.input_positions,
+            "input_block_ids": self.input_block_ids,
+            "sampling_metadata": self.sampling_metadata,
+            "multi_modal_kwargs": self.multi_modal_kwargs,
+        }
 
     @classmethod
     def from_broadcasted_tensor_dict(
@@ -47,11 +53,17 @@ class ModelInputForNeuron(ModelRunnerInputBase):
         tensor_dict: Dict[str, Any],
         attn_backend: Optional["AttentionBackend"] = None,
     ) -> "ModelInputForNeuron":
-        assert attn_backend is None
-        return cls.from_broadcasted_tensor_dict(tensor_dict)
+        return ModelInputForNeuron(
+            input_tokens=tensor_dict["input_tokens"],
+            input_positions=tensor_dict["input_positions"],
+            input_block_ids=tensor_dict["input_block_ids"],
+            sampling_metadata=tensor_dict["sampling_metadata"],
+            multi_modal_kwargs=tensor_dict["multi_modal_kwargs"],
+        )
 
 
 class NeuronModelRunner(ModelRunnerBase[ModelInputForNeuron]):
+    """A model runner for AWS Neuron hardware"""
 
     # NEURON has an upper limit on the top_k
     _MAX_NEURON_SAMPLING_TOP_K = 256
@@ -61,13 +73,20 @@ class NeuronModelRunner(ModelRunnerBase[ModelInputForNeuron]):
         vllm_config: VllmConfig,
     ):
         ModelRunnerBase.__init__(self, vllm_config)
-        model_config = self.model_config
-        if model_config is not None and model_config.get_sliding_window():
+
+        if (self.model_config is not None
+                and self.model_config.get_sliding_window()):
             logger.warning("Sliding window is not supported on Neuron. "
                            "The model will run without sliding window.")
+        self.device_config = (self.device_config if self.device_config
+                              is not None else DeviceConfig())
         self.device = self.device_config.device
         self.pin_memory = is_pin_memory_available()
 
+        # Multi-modal data support
+        self.multi_modal_input_mapper = MULTIMODAL_REGISTRY \
+            .create_input_mapper(self.model_config)
+
         # Lazy initialization.
         self.model: nn.Module  # initialize after load_model.
 
@@ -82,32 +101,33 @@ class NeuronModelRunner(ModelRunnerBase[ModelInputForNeuron]):
         self._previous_batch_request_ids: List[str] = []
 
         if not self._on_device_sampling_disabled:
-            logger.warning(
-                "On-device sampling is turned on in Neuron by default, only "
-                "top_k, top_p, and temperature are current supported sampling "
-                "parameters. To turn off the on-device sampling, please set "
-                "the environment variable NEURON_ON_DEVICE_SAMPLING_DISABLED=1."
-            )
-            self.model_config.neuron_sampling_params = GenerationConfig(
-                max_length=self.scheduler_config.max_model_len,
-                do_sample=True,
-                per_batch_line=True,
-                top_k=[self._MAX_NEURON_SAMPLING_TOP_K] \
-                    * self.scheduler_config.max_num_seqs,
-                top_p=[1.0] * self.scheduler_config.max_num_seqs,
-                temperature=[1.0] * self.scheduler_config.max_num_seqs,
-                dynamic=True,
-                global_top_k=self._MAX_NEURON_SAMPLING_TOP_K)
+            self._init_neuron_sampling()
 
-    def load_model(self) -> None:
-        if find_spec("transformers_neuronx") is not None:
-            self.model = get_neuron_model(
-                self.model_config,
-                parallel_config=self.parallel_config,
-                scheduler_config=self.scheduler_config)
+    def _init_neuron_sampling(self) -> None:
+        if current_platform.use_transformers_neuronx():
+            from transformers_neuronx.config import GenerationConfig
         else:
-            raise NotImplementedError(
-                "Supports only Transformer-NeuronX based models.")
+            from transformers import GenerationConfig
+        logger.warning(
+            "On-device sampling is turned on in Neuron by default, only "
+            "top_k, top_p, and temperature are current supported sampling "
+            "parameters. To turn off the on-device sampling, please set "
+            "the environment variable NEURON_ON_DEVICE_SAMPLING_DISABLED=1.")
+        self.model_config.neuron_sampling_params = GenerationConfig(
+            max_length=self.scheduler_config.max_model_len,
+            do_sample=True,
+            per_batch_line=True,
+            top_k=[self._MAX_NEURON_SAMPLING_TOP_K] \
+                  * self.scheduler_config.max_num_seqs,
+            top_p=[1.0] * self.scheduler_config.max_num_seqs,
+            temperature=[1.0] * self.scheduler_config.max_num_seqs,
+            dynamic=True,
+            global_top_k=self._MAX_NEURON_SAMPLING_TOP_K)
+
+    def load_model(self) -> None:
+        self.model = get_neuron_model(self.model_config,
+                                      parallel_config=self.parallel_config,
+                                      scheduler_config=self.scheduler_config)
 
     def get_model(self) -> nn.Module:
         return self.model
@@ -240,6 +260,16 @@ class NeuronModelRunner(ModelRunnerBase[ModelInputForNeuron]):
             (input_tokens, input_positions,
              input_block_ids) = self._prepare_decode(seq_group_metadata_list)
             seq_lens = None
+
+        if not self._on_device_sampling_disabled:
+            for seq_group_metadata in seq_group_metadata_list:
+                sampling_params = seq_group_metadata.sampling_params
+                top_k, top_p, temperature = (
+                    self._convert_to_neuron_sampling_params(sampling_params))
+                sampling_params.top_k = top_k
+                sampling_params.top_p = top_p
+                sampling_params.temperature = temperature
+
         sampling_metadata = SamplingMetadata.prepare(
             seq_group_metadata_list,
             seq_lens,
@@ -251,7 +281,8 @@ class NeuronModelRunner(ModelRunnerBase[ModelInputForNeuron]):
             self.pin_memory,
             generators=self.get_generators(finished_requests_ids))
 
-        if not self._on_device_sampling_disabled:
+        if current_platform.use_transformers_neuronx(
+        ) and not self._on_device_sampling_disabled:
             # Once the request IDs are changed in current iteration, we will
             # update the on-device sampling parameters.
             current_batch_request_ids = [
@@ -259,7 +290,7 @@ class NeuronModelRunner(ModelRunnerBase[ModelInputForNeuron]):
                 for seq_group_meta_data in seq_group_metadata_list
             ]
             if current_batch_request_ids != self._previous_batch_request_ids:
-                self._update_neuron_sampling_params(sampling_metadata)
+                self._update_neuron_sampling_params(seq_group_metadata_list)
                 self._previous_batch_request_ids = current_batch_request_ids
 
         return ModelInputForNeuron(input_tokens=input_tokens,
@@ -268,31 +299,59 @@ class NeuronModelRunner(ModelRunnerBase[ModelInputForNeuron]):
                                    sampling_metadata=sampling_metadata,
                                    multi_modal_kwargs=multi_modal_kwargs)
 
-    def _update_neuron_sampling_params(self,
-                                       sampling_metadata: SamplingMetadata):
+    def _update_neuron_sampling_params(
+            self, seq_group_metadata_list: List[SequenceGroupMetadata]):
         # Update Neuron sampling parameters (GenerationConfig in Neuron)
         current_sampling_params = self.model_config.neuron_sampling_params
         assert current_sampling_params is not None, (
             f"Failed to update sampling_params, "
             f"current sampling params is {current_sampling_params}")
 
+        is_update_needed = False
+
         top_k = current_sampling_params.top_k
         top_p = current_sampling_params.top_p
         temperature = current_sampling_params.temperature
-        for index, sequence_group_to_sample in enumerate(
-                sampling_metadata.seq_groups):
-            top_k[index] = self._convert_to_neuron_top_k(
-                sequence_group_to_sample.sampling_params.top_k)
-            top_p[index] = sequence_group_to_sample.sampling_params.top_p
-            temperature[index] = \
-                sequence_group_to_sample.sampling_params.temperature
 
-        self.model.model.update_generation_config(current_sampling_params)
+        # The index of a sequence's sampling parameters in neuron is equal to
+        # its index in `input_block_ids`.
+        for seq_group_metadata in seq_group_metadata_list:
+            seq_ids = list(seq_group_metadata.seq_data.keys())
+            sampling_params = seq_group_metadata.sampling_params
+
+            seq_group_top_k = sampling_params.top_k
+            seq_group_top_p = sampling_params.top_p
+            seq_group_temperature = sampling_params.temperature
 
-    def _convert_to_neuron_top_k(self, top_k: int) -> int:
+            for seq_id in seq_ids:
+                index = seq_group_metadata.block_tables[seq_id][0]
+                if (top_k[index] != seq_group_top_k
+                        or top_p[index] != seq_group_top_p
+                        or temperature[index] != seq_group_temperature):
+                    is_update_needed = True
+
+                top_k[index] = seq_group_top_k
+                top_p[index] = seq_group_top_p
+                temperature[index] = seq_group_temperature
+
+        # update_generation_config is only available in transformers-neuronx
+        if is_update_needed and current_platform.use_transformers_neuronx():
+            self.model.model.update_generation_config(current_sampling_params)
+
+    def _convert_to_neuron_sampling_params(
+            self, sampling_params: SamplingParams) -> Tuple[int, float, float]:
+        # Returns the top_k, top_p and temperature parameters for neuron.
+        top_k = sampling_params.top_k
+        top_p = sampling_params.top_p
+        temperature = sampling_params.temperature
+
+        if temperature == 0.0:
+            # Enable greedy sampling on zero temperature
+            return (1, 1.0, 1.0)
         if top_k < 0 or top_k > self._MAX_NEURON_SAMPLING_TOP_K:
-            return self._MAX_NEURON_SAMPLING_TOP_K
-        return top_k
+            top_k = self._MAX_NEURON_SAMPLING_TOP_K
+
+        return (top_k, top_p, temperature)
 
     @torch.inference_mode()
     def execute_model(
@@ -306,7 +365,26 @@ class NeuronModelRunner(ModelRunnerBase[ModelInputForNeuron]):
             raise ValueError(
                 "NeuronModelRunner does not support multi-step execution.")
 
-        with set_forward_context(None, self.vllm_config, 0):
+        # extract top_k, top_p and temperature from model_input for neuron
+        # forward call
+        sampling_params = (torch.tensor([[
+            seq_group.sampling_params.top_k, seq_group.sampling_params.top_p,
+            seq_group.sampling_params.temperature
+        ] for seq_group in model_input.sampling_metadata.seq_groups]))
+
+        if current_platform.use_neuronx_distributed():
+            hidden_states = self.model(
+                input_ids=model_input.input_tokens,
+                positions=model_input.input_positions,
+                input_block_ids=model_input.input_block_ids,
+                sampling_params=sampling_params,
+                **MultiModalKwargs.as_kwargs(model_input.multi_modal_kwargs
+                                             or {},
+                                             device=self.device),
+            )
+        elif current_platform.use_transformers_neuronx():
+            # [TODO] validate on-device sampling
+            # The model signature may need change for on-device sampling
             hidden_states = self.model(
                 input_ids=model_input.input_tokens,
                 positions=model_input.input_positions,
diff --git a/vllm/worker/neuron_worker.py b/vllm/worker/neuron_worker.py
index df651e05a..aa8e39613 100644
--- a/vllm/worker/neuron_worker.py
+++ b/vllm/worker/neuron_worker.py
@@ -1,61 +1,81 @@
 # SPDX-License-Identifier: Apache-2.0
 """A Neuron worker class."""
+import os
 from typing import List, Optional, Tuple
 
-import torch
 import torch.distributed
 
 from vllm.config import VllmConfig
 from vllm.distributed import (ensure_model_parallel_initialized,
                               init_distributed_environment)
+from vllm.logger import init_logger
 from vllm.model_executor import set_random_seed
-from vllm.model_executor.layers.sampler import SamplerOutput
+from vllm.platforms import current_platform
+from vllm.platforms.neuron import NeuronFramework
 from vllm.sequence import ExecuteModelRequest
 from vllm.worker.neuron_model_runner import NeuronModelRunner
 from vllm.worker.worker_base import (LocalOrDistributedWorkerBase,
                                      LoRANotSupportedWorkerBase, WorkerBase,
                                      WorkerInput)
 
+logger = init_logger(__name__)
+
 
 class NeuronWorker(LoRANotSupportedWorkerBase, LocalOrDistributedWorkerBase):
     """A worker class that executes the model on a group of neuron cores.
     """
 
-    def __init__(
-        self,
-        vllm_config: VllmConfig,
-        local_rank: int,
-        rank: int,
-        distributed_init_method: str,
-        is_driver_worker: bool = True,
-    ) -> None:
+    model_runner: NeuronModelRunner
+
+    def __init__(self,
+                 vllm_config: VllmConfig,
+                 local_rank: int,
+                 rank: int,
+                 distributed_init_method: str,
+                 is_driver_worker: bool = False) -> None:
         WorkerBase.__init__(self, vllm_config=vllm_config)
         self.local_rank = local_rank
         self.rank = rank
         self.distributed_init_method = distributed_init_method
+        self.is_driver_worker = is_driver_worker
+
         if self.model_config.trust_remote_code:
             # note: lazy import to avoid importing torch before initializing
             from vllm.utils import init_cached_hf_modules
             init_cached_hf_modules()
 
-        self.model_runner: NeuronModelRunner = NeuronModelRunner(
-            vllm_config=vllm_config)
-        self.is_driver_worker = is_driver_worker
-
-    def execute_model(
-        self,
-        execute_model_req: Optional[ExecuteModelRequest] = None,
-    ) -> Optional[List[SamplerOutput]]:
-        assert execute_model_req is not None
-        assert (not execute_model_req.blocks_to_swap_in
-                and not execute_model_req.blocks_to_swap_out
-                and not execute_model_req.blocks_to_copy), (
-                    "Cache operations are not supported for Neuron backend.")
-        assert execute_model_req.num_lookahead_slots == 0, (
-            "lookahead not supported for Neuron backend.")
-        output = LocalOrDistributedWorkerBase.execute_model(
-            self, execute_model_req)
-        return output
+        neuron_framework = current_platform.get_neuron_framework_to_use()
+        if neuron_framework == NeuronFramework.TRANSFORMERS_NEURONX:
+            self.model_runner = self.get_tnx_model_runner(vllm_config)
+        elif neuron_framework == NeuronFramework.NEURONX_DISTRIBUTED_INFERENCE:
+            self.model_runner = self.get_neuronx_distributed_model_runner(
+                vllm_config)
+        else:
+            raise NotImplementedError(
+                "Specified framework" +
+                f" {os.environ.get('VLLM_NEURON_FRAMEWORK')}" +
+                " is either not installed or not supported." +
+                " Supported frameworks: " +
+                "[transformers-neuronx, neuronx-distributed-inference]")
+
+    def get_tnx_model_runner(self, vllm_config):
+        from vllm.worker.multi_step_neuron_model_runner import (
+            MultiStepNeuronModelRunner)
+        if self.speculative_config is not None:
+            return MultiStepNeuronModelRunner(vllm_config=vllm_config)
+        else:
+            return NeuronModelRunner(vllm_config=vllm_config)
+
+    def get_neuronx_distributed_model_runner(self, vllm_config):
+        from vllm.worker.multi_step_neuronx_distributed_model_runner import (
+            MultiStepNeuronxDistributedModelRunner)
+        from vllm.worker.neuronx_distributed_model_runner import (
+            NeuronxDistributedModelRunner)
+        if self.speculative_config is not None:
+            return MultiStepNeuronxDistributedModelRunner(
+                vllm_config=vllm_config)
+        else:
+            return NeuronxDistributedModelRunner(vllm_config=vllm_config)
 
     def init_device(self) -> None:
         self.init_distributed_environment()
@@ -121,17 +141,17 @@ class NeuronWorker(LoRANotSupportedWorkerBase, LocalOrDistributedWorkerBase):
 
     def init_distributed_environment(self):
         """Neuron uses transformers-neuronx for tensor parallelism.
-        It has only one process to control multiple devices.
-        vLLM still needs the environment initialized when TP/PP > 1,
-        so we initialize a distributed environment with one process.
+
+        vLLM still needs the environment initialized when TP/PP > 1
         """
         init_distributed_environment(
             world_size=1,
-            rank=0,
-            local_rank=0,
+            rank=self.rank,
+            local_rank=self.local_rank,
             distributed_init_method=self.distributed_init_method,
             backend="gloo",
         )
+
         ensure_model_parallel_initialized(
             1,
             1,
diff --git a/vllm/worker/neuronx_distributed_model_runner.py b/vllm/worker/neuronx_distributed_model_runner.py
new file mode 100644
index 000000000..4e784e5e0
--- /dev/null
+++ b/vllm/worker/neuronx_distributed_model_runner.py
@@ -0,0 +1,136 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from typing import List, Optional
+
+import torch
+from neuronx_distributed_inference.modules.generation.sampling import (
+    prepare_sampling_params)
+
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.model_executor.layers.sampler import SamplerOutput
+from vllm.model_executor.model_loader.neuronx_distributed import (
+    _get_model_architecture, get_neuron_model)
+from vllm.sequence import IntermediateTensors
+from vllm.worker.neuron_model_runner import (ModelInputForNeuron,
+                                             NeuronModelRunner)
+
+logger = init_logger(__name__)
+
+
+class NeuronxDistributedModelRunner(NeuronModelRunner):
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+    ):
+        super().__init__(vllm_config)
+
+    def load_model(self) -> None:
+        self.model = get_neuron_model(self.model_config,
+                                      parallel_config=self.parallel_config,
+                                      scheduler_config=self.scheduler_config)
+
+    def get_nxd_sampling_params(self, sampling_metadata):
+        if self.model.config.neuron_config.on_device_sampling_config:
+            max_topk = (self.model.config.neuron_config.
+                        on_device_sampling_config.global_topk)
+        else:
+            max_topk = self.model.config.vocab_size
+
+        top_k = [1] * self.scheduler_config.max_num_seqs
+        top_p = [1.0] * self.scheduler_config.max_num_seqs
+        temperature = [1.0] * self.scheduler_config.max_num_seqs
+
+        for index, sequenceGroupToSample in enumerate(
+                sampling_metadata.seq_groups):
+            top_k[index] = (sequenceGroupToSample.sampling_params.top_k
+                            if sequenceGroupToSample.sampling_params.top_k > 0
+                            else max_topk)
+            top_p[index] = sequenceGroupToSample.sampling_params.top_p
+            temperature[index] = (
+                sequenceGroupToSample.sampling_params.temperature)
+
+        sampling_params = prepare_sampling_params(
+            batch_size=self.scheduler_config.max_num_seqs,
+            top_k=top_k,
+            top_p=top_p,
+            temperature=temperature)
+        return sampling_params
+
+    def get_multi_modal_data_neuron(self, input_images):
+        raise NotImplementedError("need to restore multi-modal support")
+
+    @torch.inference_mode()
+    def execute_model(
+        self,
+        model_input: ModelInputForNeuron,
+        kv_caches: Optional[List[torch.Tensor]] = None,
+        intermediate_tensors: Optional[IntermediateTensors] = None,
+        num_steps: int = 1,
+    ) -> Optional[List[SamplerOutput]]:
+        if num_steps > 1:
+            raise ValueError(
+                "NeuronModelRunner does not support multi-step execution.")
+
+        if _get_model_architecture(
+                self.model.config) != "MllamaForConditionalGeneration":
+            return super().execute_model(model_input, kv_caches,
+                                         intermediate_tensors, num_steps)
+
+        sampling_params = self.get_nxd_sampling_params(
+            model_input.sampling_metadata)
+
+        if model_input.multi_modal_kwargs.get('image') is not None:
+            pixel_values = []
+            aspect_ratios = []
+            num_chunks = []
+            has_image = []
+            for multi_modal_input in model_input.multi_modal_kwargs.get(
+                    'image'):
+                image_tensors = self.get_multi_modal_data_neuron(
+                    multi_modal_input.squeeze(0))
+                pixel_values.append(image_tensors[0])
+                aspect_ratios.append(image_tensors[1])
+                num_chunks.append(image_tensors[2])
+                has_image.append(image_tensors[3])
+
+            pixel_values = torch.cat(pixel_values, dim=0)
+            aspect_ratios = torch.cat(aspect_ratios, dim=0)
+            num_chunks = torch.cat(num_chunks, dim=0)
+            has_image = torch.cat(has_image, dim=0)
+
+            hidden_states = self.model(
+                input_ids=model_input.input_tokens,
+                positions=model_input.input_positions,
+                seq_ids=model_input.input_block_ids,
+                pixel_values=pixel_values,
+                aspect_ratios=aspect_ratios,
+                sampling_params=sampling_params,
+                num_chunks=num_chunks,
+                has_image=has_image,
+            )
+        else:
+            empty_pixel_values = torch.zeros([1, 1, 4, 3, 560, 560],
+                                             dtype=torch.bfloat16)
+            empty_aspect_ratios = torch.ones([1, 1, 2], dtype=torch.int64)
+            num_chunks = torch.tensor([[1]
+                                       ])  # dummy num_chunks, will not be used
+            has_image = torch.tensor([0])
+            hidden_states = self.model(
+                input_ids=model_input.input_tokens,
+                positions=model_input.input_positions,
+                seq_ids=model_input.input_block_ids,
+                pixel_values=empty_pixel_values,
+                aspect_ratios=empty_aspect_ratios,
+                sampling_params=sampling_params,
+                num_chunks=num_chunks,
+                has_image=has_image,
+            )
+
+        output = self.model.sample(
+            hidden_states=hidden_states,
+            sampling_metadata=model_input.sampling_metadata,
+        )
+
+        return [output]
-- 
GitLab


From 8a15c2603a902820203040a4773ac0e2335e693d Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Wed, 7 May 2025 15:10:01 +0800
Subject: [PATCH 194/461] [Frontend] Add missing chat templates for various
 MLLMs (#17758)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 docs/source/serving/multimodal_inputs.md      |  2 +-
 ...i_chat_completion_client_for_multimodal.py |  2 +-
 examples/template_chameleon.jinja             |  3 +++
 examples/template_florence2.jinja             |  6 +----
 examples/template_fuyu.jinja                  |  3 +++
 examples/template_llava.jinja                 | 23 -------------------
 examples/template_paligemma.jinja             |  3 +++
 examples/template_qwen_vl.jinja               |  3 +++
 examples/template_qwen_vl_chat.jinja          | 10 ++++++++
 tests/entrypoints/test_chat_utils.py          |  6 ++++-
 tests/v1/tpu/test_multimodal.py               |  2 --
 11 files changed, 30 insertions(+), 33 deletions(-)
 create mode 100644 examples/template_chameleon.jinja
 create mode 100644 examples/template_fuyu.jinja
 delete mode 100644 examples/template_llava.jinja
 create mode 100644 examples/template_paligemma.jinja
 create mode 100644 examples/template_qwen_vl.jinja
 create mode 100644 examples/template_qwen_vl_chat.jinja

diff --git a/docs/source/serving/multimodal_inputs.md b/docs/source/serving/multimodal_inputs.md
index d9a093e8d..bcaa4f9b9 100644
--- a/docs/source/serving/multimodal_inputs.md
+++ b/docs/source/serving/multimodal_inputs.md
@@ -216,7 +216,7 @@ A chat template is **required** to use Chat Completions API.
 
 Although most models come with a chat template, for others you have to define one yourself.
 The chat template can be inferred based on the documentation on the model's HuggingFace repo.
-For example, LLaVA-1.5 (`llava-hf/llava-1.5-7b-hf`) requires a chat template that can be found here: <gh-file:examples/template_llava.jinja>
+For example, DeepSeek-VL2 requires a chat template that can be found here: <gh-file:examples/template_deepseek_vl2.jinja>
 :::
 
 ### Image Inputs
diff --git a/examples/online_serving/openai_chat_completion_client_for_multimodal.py b/examples/online_serving/openai_chat_completion_client_for_multimodal.py
index 70db4d95e..cffd093c9 100644
--- a/examples/online_serving/openai_chat_completion_client_for_multimodal.py
+++ b/examples/online_serving/openai_chat_completion_client_for_multimodal.py
@@ -5,7 +5,7 @@ and run online serving with OpenAI client.
 Launch the vLLM server with the following command:
 
 (single image inference with Llava)
-vllm serve llava-hf/llava-1.5-7b-hf --chat-template template_llava.jinja
+vllm serve llava-hf/llava-1.5-7b-hf
 
 (multi-image inference with Phi-3.5-vision-instruct)
 vllm serve microsoft/Phi-3.5-vision-instruct --task generate \
diff --git a/examples/template_chameleon.jinja b/examples/template_chameleon.jinja
new file mode 100644
index 000000000..3fa2cccc2
--- /dev/null
+++ b/examples/template_chameleon.jinja
@@ -0,0 +1,3 @@
+{%- for message in messages -%}
+    {{- message['content'] -}}
+{%- endfor -%}
diff --git a/examples/template_florence2.jinja b/examples/template_florence2.jinja
index d257aed6a..3fa2cccc2 100644
--- a/examples/template_florence2.jinja
+++ b/examples/template_florence2.jinja
@@ -1,7 +1,3 @@
 {%- for message in messages -%}
-    {%- if message['role'] == 'user' -%}
-        {{- message['content'] -}}
-    {%- elif message['role'] == 'assistant' -%}
-        {{- message['content'] -}}
-    {%- endif -%}
+    {{- message['content'] -}}
 {%- endfor -%}
diff --git a/examples/template_fuyu.jinja b/examples/template_fuyu.jinja
new file mode 100644
index 000000000..ec337d0c6
--- /dev/null
+++ b/examples/template_fuyu.jinja
@@ -0,0 +1,3 @@
+{%- for message in messages -%}
+    {{- message['content'] + '\n' -}}
+{%- endfor -%}
diff --git a/examples/template_llava.jinja b/examples/template_llava.jinja
deleted file mode 100644
index 6a902ee16..000000000
--- a/examples/template_llava.jinja
+++ /dev/null
@@ -1,23 +0,0 @@
-{%- if messages[0]['role'] == 'system' -%}
-    {%- set system_message = messages[0]['content'] -%}
-    {%- set messages = messages[1:] -%}
-{%- else -%}
-    {% set system_message = '' -%}
-{%- endif -%}
-
-{{ bos_token + system_message }}
-{%- for message in messages -%}
-    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
-        {{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}
-    {%- endif -%}
-
-    {%- if message['role'] == 'user' -%}
-        {{ 'USER: ' + message['content'] + '\n' }}
-    {%- elif message['role'] == 'assistant' -%}
-        {{ 'ASSISTANT: ' + message['content'] + eos_token + '\n' }}
-    {%- endif -%}
-{%- endfor -%}
-
-{%- if add_generation_prompt -%}
-    {{ 'ASSISTANT:' }}
-{% endif %}
diff --git a/examples/template_paligemma.jinja b/examples/template_paligemma.jinja
new file mode 100644
index 000000000..3fa2cccc2
--- /dev/null
+++ b/examples/template_paligemma.jinja
@@ -0,0 +1,3 @@
+{%- for message in messages -%}
+    {{- message['content'] -}}
+{%- endfor -%}
diff --git a/examples/template_qwen_vl.jinja b/examples/template_qwen_vl.jinja
new file mode 100644
index 000000000..3fa2cccc2
--- /dev/null
+++ b/examples/template_qwen_vl.jinja
@@ -0,0 +1,3 @@
+{%- for message in messages -%}
+    {{- message['content'] -}}
+{%- endfor -%}
diff --git a/examples/template_qwen_vl_chat.jinja b/examples/template_qwen_vl_chat.jinja
new file mode 100644
index 000000000..e76ab0c2d
--- /dev/null
+++ b/examples/template_qwen_vl_chat.jinja
@@ -0,0 +1,10 @@
+{%- for message in messages -%}
+    {{- '<|im_start|>' + message['role'] + '\n' + message['content'] -}}
+    {%- if (loop.last and add_generation_prompt) or not loop.last -%}
+        {{- '<|im_end|>' + '\n' -}}
+    {%- endif -%}
+{%- endfor -%}
+
+{%- if add_generation_prompt and messages[-1]['role'] != 'assistant' -%}
+    {{- '<|im_start|>assistant\n' -}}
+{%- endif -%}
diff --git a/tests/entrypoints/test_chat_utils.py b/tests/entrypoints/test_chat_utils.py
index 92c1e0fec..1de30f0ac 100644
--- a/tests/entrypoints/test_chat_utils.py
+++ b/tests/entrypoints/test_chat_utils.py
@@ -900,6 +900,7 @@ def test_resolve_content_format_hf_defined(model, expected_format):
     [("template_alpaca.jinja", "string"),
      ("template_baichuan.jinja", "string"),
      ("template_blip2.jinja", "string"),
+     ("template_chameleon.jinja", "string"),
      ("template_chatglm.jinja", "string"),
      ("template_chatglm2.jinja", "string"),
      ("template_chatml.jinja", "string"),
@@ -908,9 +909,12 @@ def test_resolve_content_format_hf_defined(model, expected_format):
      ("template_falcon_180b.jinja", "string"),
      ("template_falcon.jinja", "string"),
      ("template_florence2.jinja", "string"),
+     ("template_fuyu.jinja", "string"),
      ("template_inkbot.jinja", "string"),
-     ("template_llava.jinja", "string"),
+     ("template_paligemma.jinja", "string"),
      ("template_teleflm.jinja", "string"),
+     ("template_qwen_vl.jinja", "string"),
+     ("template_qwen_vl_chat.jinja", "string"),
      ("template_vlm2vec.jinja", "openai"),
      ("tool_chat_template_granite_20b_fc.jinja", "string"),
      ("tool_chat_template_hermes.jinja", "string"),
diff --git a/tests/v1/tpu/test_multimodal.py b/tests/v1/tpu/test_multimodal.py
index dbd2e2204..8c87fc836 100644
--- a/tests/v1/tpu/test_multimodal.py
+++ b/tests/v1/tpu/test_multimodal.py
@@ -64,8 +64,6 @@ async def test_basic_vision(model_name: str, base64_encoded_image: dict[str,
         "576",
         # NOTE: max-num-batched-tokens>=mm_item_size
         "--disable_chunked_mm_input",
-        "--chat-template",
-        "examples/template_llava.jinja"
     ]
 
     # Server will pre-compile on first startup (takes a long time).
-- 
GitLab


From 324a3119b0d738b6fd2e1e5b46ff144411491b4c Mon Sep 17 00:00:00 2001
From: Yong Hoon Shin <48474650+sarckk@users.noreply.github.com>
Date: Wed, 7 May 2025 00:10:33 -0700
Subject: [PATCH 195/461] Fix test_memory_usage_no_spec (#17754)

Signed-off-by: Yong Hoon Shin <yhshin@meta.com>
---
 tests/spec_decode/test_memory_usage.py | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/tests/spec_decode/test_memory_usage.py b/tests/spec_decode/test_memory_usage.py
index 7a205f2ab..16dffe6d7 100644
--- a/tests/spec_decode/test_memory_usage.py
+++ b/tests/spec_decode/test_memory_usage.py
@@ -42,12 +42,12 @@ we can ensure we go through the _no_spec codepath for most of our engine steps.
 
 def test_memory_usage_no_spec():
     previous_memory_allocated = None
-    llm = vllm.LLM(
-        model=MAIN_MODEL,
-        speculative_model=SPEC_MODEL,
-        num_speculative_tokens=3,
-        speculative_disable_by_batch_size=SPEC_DISABLE_BATCH_SIZE,
-    )
+    llm = vllm.LLM(model=MAIN_MODEL,
+                   speculative_config={
+                       "model": SPEC_MODEL,
+                       "num_speculative_tokens": 3,
+                       "disable_by_batch_size": SPEC_DISABLE_BATCH_SIZE,
+                   })
 
     batch_sequences = set()
     engine = llm.llm_engine
-- 
GitLab


From 98c89e16ff834f1c9f1c465e7342c5353e0eb627 Mon Sep 17 00:00:00 2001
From: Yong Hoon Shin <48474650+sarckk@users.noreply.github.com>
Date: Wed, 7 May 2025 00:11:46 -0700
Subject: [PATCH 196/461] Make key optional for rotary embedding (#17566)

Signed-off-by: Yong Hoon Shin <yhshin@meta.com>
---
 csrc/cpu/pos_encoding.cpp                     |  39 +++---
 csrc/cpu/torch_bindings.cpp                   |   2 +-
 csrc/ops.h                                    |   8 +-
 csrc/pos_encoding_kernels.cu                  |  98 ++++++++-------
 csrc/torch_bindings.cpp                       |   4 +-
 tests/kernels/core/test_pos_encoding.py       |  49 +++++---
 tests/kernels/core/test_rotary_embedding.py   |   7 +-
 tests/neuron/1_core/test_rotary_embedding.py  |  33 +++--
 vllm/_custom_ops.py                           |  14 ++-
 .../model_executor/layers/rotary_embedding.py | 118 ++++++++++--------
 10 files changed, 221 insertions(+), 151 deletions(-)

diff --git a/csrc/cpu/pos_encoding.cpp b/csrc/cpu/pos_encoding.cpp
index 8a59e884d..74bb014cf 100644
--- a/csrc/cpu/pos_encoding.cpp
+++ b/csrc/cpu/pos_encoding.cpp
@@ -9,7 +9,8 @@ void rotary_embedding_impl(
     scalar_t* __restrict__ query,           /// [batch_size, seq_len, num_heads,
                                    /// head_size] or [num_tokens, num_heads,
                                    /// head_size]
-    scalar_t* __restrict__ key,  // [batch_size, seq_len, num_kv_heads,
+    scalar_t* __restrict__ key,  // nullptr (optional) or
+                                 // [batch_size, seq_len, num_kv_heads,
                                  // head_size] or [num_tokens, num_kv_heads,
                                  // head_size]
     const scalar_t* __restrict__ cos_sin_cache,  // [max_position, 2, rot_dim //
@@ -85,10 +86,13 @@ void rotary_embedding_impl(
       compute_loop(token_head, cache_ptr, query);
     }
 
-    for (int i = 0; i < num_kv_heads; ++i) {
-      const int head_idx = i;
-      const int64_t token_head = token_idx * key_stride + head_idx * head_size;
-      compute_loop(token_head, cache_ptr, key);
+    if (key != nullptr) {
+      for (int i = 0; i < num_kv_heads; ++i) {
+        const int head_idx = i;
+        const int64_t token_head =
+            token_idx * key_stride + head_idx * head_size;
+        compute_loop(token_head, cache_ptr, key);
+      }
     }
   }
 }
@@ -100,7 +104,8 @@ void rotary_embedding_gptj_impl(
     scalar_t* __restrict__ query,           /// [batch_size, seq_len, num_heads,
                                    /// head_size] or [num_tokens, num_heads,
                                    /// head_size]
-    scalar_t* __restrict__ key,  // [batch_size, seq_len, num_kv_heads,
+    scalar_t* __restrict__ key,  // nullptr (optional) or
+                                 // [batch_size, seq_len, num_kv_heads,
                                  // head_size] or [num_tokens, num_kv_heads,
                                  // head_size]
     const scalar_t* __restrict__ cos_sin_cache,  // [max_position, 2, rot_dim //
@@ -138,6 +143,10 @@ void rotary_embedding_gptj_impl(
     }
   }
 
+  if (key == nullptr) {
+    return;
+  }
+
 #pragma omp parallel for collapse(2)
   for (int token_idx = 0; token_idx < num_tokens; ++token_idx) {
     for (int i = 0; i < num_kv_heads; ++i) {
@@ -168,13 +177,13 @@ void rotary_embedding_gptj_impl(
 };  // namespace
 
 void rotary_embedding(torch::Tensor& positions, torch::Tensor& query,
-                      torch::Tensor& key, int64_t head_size,
+                      std::optional<torch::Tensor> key, int64_t head_size,
                       torch::Tensor& cos_sin_cache, bool is_neox) {
   int num_tokens = positions.numel();
   int rot_dim = cos_sin_cache.size(1);
   int num_heads = query.size(-1) / head_size;
-  int num_kv_heads = key.size(-1) / head_size;
-  int64_t key_stride = key.stride(-2);
+  int num_kv_heads = key.has_value() ? key->size(-1) / head_size : num_heads;
+  int64_t key_stride = key.has_value() ? key->stride(-2) : 0;
   int64_t query_stride = query.stride(-2);
 
   VLLM_DISPATCH_FLOATING_TYPES(
@@ -183,15 +192,15 @@ void rotary_embedding(torch::Tensor& positions, torch::Tensor& query,
         if (is_neox) {
           rotary_embedding_impl(
               positions.data_ptr<int64_t>(), query.data_ptr<scalar_t>(),
-              key.data_ptr<scalar_t>(), cos_sin_cache.data_ptr<scalar_t>(),
-              rot_dim, query_stride, key_stride, num_heads, num_kv_heads,
-              head_size, num_tokens);
+              key.has_value() ? key->data_ptr<scalar_t>() : nullptr,
+              cos_sin_cache.data_ptr<scalar_t>(), rot_dim, query_stride,
+              key_stride, num_heads, num_kv_heads, head_size, num_tokens);
         } else {
           rotary_embedding_gptj_impl(
               positions.data_ptr<int64_t>(), query.data_ptr<scalar_t>(),
-              key.data_ptr<scalar_t>(), cos_sin_cache.data_ptr<scalar_t>(),
-              rot_dim, query_stride, key_stride, num_heads, num_kv_heads,
-              head_size, num_tokens);
+              key.has_value() ? key->data_ptr<scalar_t>() : nullptr,
+              cos_sin_cache.data_ptr<scalar_t>(), rot_dim, query_stride,
+              key_stride, num_heads, num_kv_heads, head_size, num_tokens);
         }
 
         CPU_KERNEL_GUARD_OUT(rotary_embedding_impl)
diff --git a/csrc/cpu/torch_bindings.cpp b/csrc/cpu/torch_bindings.cpp
index 7ae7e3386..84b2a8555 100644
--- a/csrc/cpu/torch_bindings.cpp
+++ b/csrc/cpu/torch_bindings.cpp
@@ -117,7 +117,7 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
   // Apply GPT-NeoX or GPT-J style rotary embedding to query and key.
   ops.def(
       "rotary_embedding(Tensor positions, Tensor! query,"
-      "                 Tensor! key, int head_size,"
+      "                 Tensor!? key, int head_size,"
       "                 Tensor cos_sin_cache, bool is_neox) -> ()");
   ops.impl("rotary_embedding", torch::kCPU, &rotary_embedding);
 
diff --git a/csrc/ops.h b/csrc/ops.h
index 4cac278c9..1dfd2e067 100644
--- a/csrc/ops.h
+++ b/csrc/ops.h
@@ -86,13 +86,13 @@ void rms_norm_dynamic_per_token_quant(torch::Tensor& out,
                                       std::optional<torch::Tensor> residual);
 
 void rotary_embedding(torch::Tensor& positions, torch::Tensor& query,
-                      torch::Tensor& key, int64_t head_size,
+                      std::optional<torch::Tensor> key, int64_t head_size,
                       torch::Tensor& cos_sin_cache, bool is_neox);
 
 void batched_rotary_embedding(torch::Tensor& positions, torch::Tensor& query,
-                              torch::Tensor& key, int64_t head_size,
-                              torch::Tensor& cos_sin_cache, bool is_neox,
-                              int64_t rot_dim,
+                              std::optional<torch::Tensor> key,
+                              int64_t head_size, torch::Tensor& cos_sin_cache,
+                              bool is_neox, int64_t rot_dim,
                               torch::Tensor& cos_sin_cache_offsets);
 
 void silu_and_mul(torch::Tensor& out, torch::Tensor& input);
diff --git a/csrc/pos_encoding_kernels.cu b/csrc/pos_encoding_kernels.cu
index c085d31a3..ef6dd1c09 100644
--- a/csrc/pos_encoding_kernels.cu
+++ b/csrc/pos_encoding_kernels.cu
@@ -38,7 +38,8 @@ inline __device__ void apply_rotary_embedding(
     scalar_t* __restrict__ query,  // [batch_size, seq_len, num_heads,
                                    // head_size] or [num_tokens, num_heads,
                                    // head_size]
-    scalar_t* __restrict__ key,    // [batch_size, seq_len, num_kv_heads,
+    scalar_t* __restrict__ key,    // nullptr or
+                                   // [batch_size, seq_len, num_kv_heads,
                                    // head_size] or [num_tokens, num_kv_heads,
                                    // head_size]
     const scalar_t* cache_ptr, const int head_size, const int num_heads,
@@ -57,13 +58,15 @@ inline __device__ void apply_rotary_embedding(
         query + token_head, cos_ptr, sin_ptr, rot_offset, embed_dim);
   }
 
-  const int nk = num_kv_heads * embed_dim;
-  for (int i = threadIdx.x; i < nk; i += blockDim.x) {
-    const int head_idx = i / embed_dim;
-    const int64_t token_head = token_idx * key_stride + head_idx * head_size;
-    const int rot_offset = i % embed_dim;
-    apply_token_rotary_embedding<scalar_t, IS_NEOX>(
-        key + token_head, cos_ptr, sin_ptr, rot_offset, embed_dim);
+  if (key != nullptr) {
+    const int nk = num_kv_heads * embed_dim;
+    for (int i = threadIdx.x; i < nk; i += blockDim.x) {
+      const int head_idx = i / embed_dim;
+      const int64_t token_head = token_idx * key_stride + head_idx * head_size;
+      const int rot_offset = i % embed_dim;
+      apply_token_rotary_embedding<scalar_t, IS_NEOX>(
+          key + token_head, cos_ptr, sin_ptr, rot_offset, embed_dim);
+    }
   }
 }
 
@@ -74,7 +77,8 @@ __global__ void rotary_embedding_kernel(
     scalar_t* __restrict__ query,           // [batch_size, seq_len, num_heads,
                                    // head_size] or [num_tokens, num_heads,
                                    // head_size]
-    scalar_t* __restrict__ key,  // [batch_size, seq_len, num_kv_heads,
+    scalar_t* __restrict__ key,  // nullptr or
+                                 // [batch_size, seq_len, num_kv_heads,
                                  // head_size] or [num_tokens, num_kv_heads,
                                  // head_size]
     const scalar_t* __restrict__ cos_sin_cache,  // [max_position, 2, rot_dim //
@@ -98,7 +102,8 @@ __global__ void batched_rotary_embedding_kernel(
     scalar_t* __restrict__ query,           // [batch_size, seq_len, num_heads,
                                    // head_size] or [num_tokens, num_heads,
                                    // head_size]
-    scalar_t* __restrict__ key,  // [batch_size, seq_len, num_kv_heads,
+    scalar_t* __restrict__ key,  // nullptr or
+                                 // [batch_size, seq_len, num_kv_heads,
                                  // head_size] or [num_tokens, num_kv_heads,
                                  // head_size]
     const scalar_t* __restrict__ cos_sin_cache,  // [max_position, 2, rot_dim //
@@ -127,10 +132,12 @@ void rotary_embedding(
                            // [num_tokens, num_heads * head_size] or
                            // [batch_size, seq_len, num_heads, head_size] or
                            // [num_tokens, num_heads, head_size]
-    torch::Tensor& key,    // [batch_size, seq_len, num_kv_heads * head_size] or
-                           // [num_tokens, num_kv_heads * head_size] or
-                           // [batch_size, seq_len, num_heads, head_size] or
-                           // [num_tokens, num_heads, head_size]
+    std::optional<torch::Tensor> key,
+    // null or
+    // [batch_size, seq_len, num_kv_heads * head_size] or
+    // [num_tokens, num_kv_heads * head_size] or
+    // [batch_size, seq_len, num_heads, head_size] or
+    // [num_tokens, num_heads, head_size]
     int64_t head_size,
     torch::Tensor& cos_sin_cache,  // [max_position, rot_dim]
     bool is_neox) {
@@ -138,40 +145,40 @@ void rotary_embedding(
   int64_t num_tokens = positions.numel();
   int positions_ndim = positions.dim();
 
-  // Make sure num_tokens dim is consistent across positions, query, and key.
+  // Make sure num_tokens dim is consistent across positions, query, and key
   TORCH_CHECK(
       positions_ndim == 1 || positions_ndim == 2,
       "positions must have shape [num_tokens] or [batch_size, seq_len]");
   if (positions_ndim == 1) {
-    TORCH_CHECK(
-        query.size(0) == positions.size(0) && key.size(0) == positions.size(0),
-        "query, key and positions must have the same number of tokens");
+    TORCH_CHECK(query.size(0) == positions.size(0) &&
+                    (!key.has_value() || key->size(0) == positions.size(0)),
+                "query, key and positions must have the same number of tokens");
   }
   if (positions_ndim == 2) {
     TORCH_CHECK(
         query.size(0) == positions.size(0) &&
-            key.size(0) == positions.size(0) &&
+            (!key.has_value() || key->size(0) == positions.size(0)) &&
             query.size(1) == positions.size(1) &&
-            key.size(1) == positions.size(1),
+            (!key.has_value() || key->size(1) == positions.size(1)),
         "query, key and positions must have the same batch_size and seq_len");
   }
 
   // Make sure head_size is valid for query and key
   // hidden_size = num_heads * head_size
   int query_hidden_size = query.numel() / num_tokens;
-  int key_hidden_size = key.numel() / num_tokens;
+  int key_hidden_size = key.has_value() ? key->numel() / num_tokens : 0;
   TORCH_CHECK(query_hidden_size % head_size == 0);
   TORCH_CHECK(key_hidden_size % head_size == 0);
 
   // Make sure query and key have consistent number of heads
   int num_heads = query_hidden_size / head_size;
-  int num_kv_heads = key_hidden_size / head_size;
+  int num_kv_heads = key.has_value() ? key_hidden_size / head_size : num_heads;
   TORCH_CHECK(num_heads % num_kv_heads == 0);
 
   int rot_dim = cos_sin_cache.size(1);
   int seq_dim_idx = positions_ndim - 1;
   int64_t query_stride = query.stride(seq_dim_idx);
-  int64_t key_stride = key.stride(seq_dim_idx);
+  int64_t key_stride = key.has_value() ? key->stride(seq_dim_idx) : 0;
 
   dim3 grid(num_tokens);
   dim3 block(std::min<int64_t>(num_heads * rot_dim / 2, 512));
@@ -181,15 +188,16 @@ void rotary_embedding(
     if (is_neox) {
       vllm::rotary_embedding_kernel<scalar_t, true><<<grid, block, 0, stream>>>(
           positions.data_ptr<int64_t>(), query.data_ptr<scalar_t>(),
-          key.data_ptr<scalar_t>(), cos_sin_cache.data_ptr<scalar_t>(), rot_dim,
-          query_stride, key_stride, num_heads, num_kv_heads, head_size);
+          key.has_value() ? key->data_ptr<scalar_t>() : nullptr,
+          cos_sin_cache.data_ptr<scalar_t>(), rot_dim, query_stride, key_stride,
+          num_heads, num_kv_heads, head_size);
     } else {
       vllm::rotary_embedding_kernel<scalar_t, false>
           <<<grid, block, 0, stream>>>(
               positions.data_ptr<int64_t>(), query.data_ptr<scalar_t>(),
-              key.data_ptr<scalar_t>(), cos_sin_cache.data_ptr<scalar_t>(),
-              rot_dim, query_stride, key_stride, num_heads, num_kv_heads,
-              head_size);
+              key.has_value() ? key->data_ptr<scalar_t>() : nullptr,
+              cos_sin_cache.data_ptr<scalar_t>(), rot_dim, query_stride,
+              key_stride, num_heads, num_kv_heads, head_size);
     }
   });
 }
@@ -204,10 +212,12 @@ void batched_rotary_embedding(
                            // [num_tokens, num_heads * head_size] or
                            // [batch_size, seq_len, num_heads, head_size] or
                            // [num_tokens, num_heads, head_size]
-    torch::Tensor& key,    // [batch_size, seq_len, num_kv_heads * head_size] or
-                           // [num_tokens, num_kv_heads * head_size] or
-                           // [batch_size, seq_len, num_heads, head_size] or
-                           // [num_tokens, num_heads, head_size]
+    std::optional<torch::Tensor>
+        key,  // null or
+              // [batch_size, seq_len, num_kv_heads * head_size] or
+              // [num_tokens, num_kv_heads * head_size] or
+              // [batch_size, seq_len, num_heads, head_size] or
+              // [num_tokens, num_heads, head_size]
     int64_t head_size,
     torch::Tensor& cos_sin_cache,  // [max_position, rot_dim]
     bool is_neox, int64_t rot_dim,
@@ -221,38 +231,38 @@ void batched_rotary_embedding(
       "cos_sin_cache_offsets");
 
   int positions_ndim = positions.dim();
-  // Make sure num_tokens dim is consistent across positions, query, and key.
+  // Make sure num_tokens dim is consistent across positions, query, and key
   TORCH_CHECK(
       positions_ndim == 1 || positions_ndim == 2,
       "positions must have shape [num_tokens] or [batch_size, seq_len]");
   if (positions_ndim == 1) {
-    TORCH_CHECK(
-        query.size(0) == positions.size(0) && key.size(0) == positions.size(0),
-        "query, key and positions must have the same number of tokens");
+    TORCH_CHECK(query.size(0) == positions.size(0) &&
+                    (!key.has_value() || key->size(0) == positions.size(0)),
+                "query, key and positions must have the same number of tokens");
   }
   if (positions_ndim == 2) {
     TORCH_CHECK(
         query.size(0) == positions.size(0) &&
-            key.size(0) == positions.size(0) &&
+            (!key.has_value() || key->size(0) == positions.size(0)) &&
             query.size(1) == positions.size(1) &&
-            key.size(1) == positions.size(1),
+            (!key.has_value() || key->size(1) == positions.size(1)),
         "query, key and positions must have the same batch_size and seq_len");
   }
 
   // Make sure head_size is valid for query and key
   int query_hidden_size = query.numel() / num_tokens;
-  int key_hidden_size = key.numel() / num_tokens;
+  int key_hidden_size = key.has_value() ? key->numel() / num_tokens : 0;
   TORCH_CHECK(query_hidden_size % head_size == 0);
   TORCH_CHECK(key_hidden_size % head_size == 0);
 
   // Make sure query and key have concistent number of heads
   int num_heads = query_hidden_size / head_size;
-  int num_kv_heads = key_hidden_size / head_size;
+  int num_kv_heads = key.has_value() ? key_hidden_size / head_size : num_heads;
   TORCH_CHECK(num_heads % num_kv_heads == 0);
 
   int seq_dim_idx = positions_ndim - 1;
   int64_t query_stride = query.stride(seq_dim_idx);
-  int64_t key_stride = key.stride(seq_dim_idx);
+  int64_t key_stride = key.has_value() ? key->stride(seq_dim_idx) : 0;
 
   dim3 grid(num_tokens);
   dim3 block(std::min<int64_t>(num_heads * rot_dim / 2, 512));
@@ -263,14 +273,16 @@ void batched_rotary_embedding(
       vllm::batched_rotary_embedding_kernel<scalar_t, true>
           <<<grid, block, 0, stream>>>(
               positions.data_ptr<int64_t>(), query.data_ptr<scalar_t>(),
-              key.data_ptr<scalar_t>(), cos_sin_cache.data_ptr<scalar_t>(),
+              key.has_value() ? key->data_ptr<scalar_t>() : nullptr,
+              cos_sin_cache.data_ptr<scalar_t>(),
               cos_sin_cache_offsets.data_ptr<int64_t>(), rot_dim, query_stride,
               key_stride, num_heads, num_kv_heads, head_size);
     } else {
       vllm::batched_rotary_embedding_kernel<scalar_t, false>
           <<<grid, block, 0, stream>>>(
               positions.data_ptr<int64_t>(), query.data_ptr<scalar_t>(),
-              key.data_ptr<scalar_t>(), cos_sin_cache.data_ptr<scalar_t>(),
+              key.has_value() ? key->data_ptr<scalar_t>() : nullptr,
+              cos_sin_cache.data_ptr<scalar_t>(),
               cos_sin_cache_offsets.data_ptr<int64_t>(), rot_dim, query_stride,
               key_stride, num_heads, num_kv_heads, head_size);
     }
diff --git a/csrc/torch_bindings.cpp b/csrc/torch_bindings.cpp
index e50df72e2..7ca40a5e7 100644
--- a/csrc/torch_bindings.cpp
+++ b/csrc/torch_bindings.cpp
@@ -176,7 +176,7 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
   // Apply GPT-NeoX or GPT-J style rotary embedding to query and key.
   ops.def(
       "rotary_embedding(Tensor positions, Tensor! query,"
-      "                 Tensor! key, int head_size,"
+      "                 Tensor!? key, int head_size,"
       "                 Tensor cos_sin_cache, bool is_neox) -> ()");
   ops.impl("rotary_embedding", torch::kCUDA, &rotary_embedding);
 
@@ -184,7 +184,7 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
   // (supports multiple loras).
   ops.def(
       "batched_rotary_embedding(Tensor positions, Tensor! query,"
-      "                         Tensor! key, int head_size,"
+      "                         Tensor!? key, int head_size,"
       "                         Tensor cos_sin_cache, bool is_neox,"
       "                         int rot_dim,"
       "                         Tensor cos_sin_cache_offsets) -> ()");
diff --git a/tests/kernels/core/test_pos_encoding.py b/tests/kernels/core/test_pos_encoding.py
index 2b7bf755e..d81c7487b 100644
--- a/tests/kernels/core/test_pos_encoding.py
+++ b/tests/kernels/core/test_pos_encoding.py
@@ -21,6 +21,7 @@ SEEDS = [0]
 CUDA_DEVICES = [
     f"cuda:{i}" for i in range(1 if torch.cuda.device_count() == 1 else 2)
 ]
+USE_KEY = [True, False]
 
 
 def _get_flat_tensor_shape(batch_size: int, seq_len: int, num_heads: int,
@@ -46,6 +47,7 @@ TENSORS_SHAPES_FN = [_get_batch_tensor_shape, _get_flat_tensor_shape]
 @pytest.mark.parametrize("dtype", DTYPES)
 @pytest.mark.parametrize("seed", SEEDS)
 @pytest.mark.parametrize("device", CUDA_DEVICES)
+@pytest.mark.parametrize("use_key", USE_KEY)
 @torch.inference_mode()
 def test_rotary_embedding(
     is_neox_style: bool,
@@ -58,6 +60,7 @@ def test_rotary_embedding(
     dtype: torch.dtype,
     seed: int,
     device: str,
+    use_key: bool,
     max_position: int = 8192,
     base: int = 10000,
 ) -> None:
@@ -74,7 +77,7 @@ def test_rotary_embedding(
     positions = torch.randint(0, max_position, (batch_size, seq_len))
     query_shape = tensor_shape_fn(batch_size, seq_len, num_heads, head_size)
     query = torch.randn(query_shape, dtype=dtype)
-    key = torch.randn_like(query)
+    key = torch.randn_like(query) if use_key else None
 
     # NOTE(woosuk): The reference implementation should be executed first
     # because the custom kernel is in-place.
@@ -85,10 +88,14 @@ def test_rotary_embedding(
                                ref_query,
                                atol=get_default_atol(out_query),
                                rtol=get_default_rtol(out_query))
-    torch.testing.assert_close(out_key,
-                               ref_key,
-                               atol=get_default_atol(out_key),
-                               rtol=get_default_rtol(out_key))
+    if use_key:
+        torch.testing.assert_close(out_key,
+                                   ref_key,
+                                   atol=get_default_atol(out_key),
+                                   rtol=get_default_rtol(out_key))
+    else:
+        assert ref_key is None and out_key is None, \
+            "expected returned key to be None"
 
 
 @pytest.mark.parametrize("is_neox_style", IS_NEOX_STYLE)
@@ -101,6 +108,7 @@ def test_rotary_embedding(
 @pytest.mark.parametrize("dtype", DTYPES)
 @pytest.mark.parametrize("seed", SEEDS)
 @pytest.mark.parametrize("device", CUDA_DEVICES)
+@pytest.mark.parametrize("use_key", USE_KEY)
 @torch.inference_mode()
 def test_batched_rotary_embedding(
     is_neox_style: bool,
@@ -113,6 +121,7 @@ def test_batched_rotary_embedding(
     dtype: torch.dtype,
     seed: int,
     device: str,
+    use_key: bool,
     max_position: int = 8192,
     base: int = 10000,
 ) -> None:
@@ -129,7 +138,7 @@ def test_batched_rotary_embedding(
     positions = torch.randint(0, max_position, (batch_size, seq_len))
     query_shape = tensor_shape_fn(batch_size, seq_len, num_heads, head_size)
     query = torch.randn(query_shape, dtype=dtype)
-    key = torch.randn_like(query)
+    key = torch.randn_like(query) if use_key else None
 
     # NOTE(woosuk): The reference implementation should be executed first
     # because the custom kernel is in-place.
@@ -145,10 +154,14 @@ def test_batched_rotary_embedding(
                                ref_query,
                                atol=get_default_atol(out_query),
                                rtol=get_default_rtol(out_query))
-    torch.testing.assert_close(out_key,
-                               ref_key,
-                               atol=get_default_atol(out_key),
-                               rtol=get_default_rtol(out_key))
+    if use_key:
+        torch.testing.assert_close(out_key,
+                                   ref_key,
+                                   atol=get_default_atol(out_key),
+                                   rtol=get_default_rtol(out_key))
+    else:
+        assert ref_key is None and out_key is None, \
+            "expected returned key to be None"
 
 
 @pytest.mark.parametrize("is_neox_style", IS_NEOX_STYLE)
@@ -160,6 +173,7 @@ def test_batched_rotary_embedding(
 @pytest.mark.parametrize("dtype", DTYPES)
 @pytest.mark.parametrize("seed", SEEDS)
 @pytest.mark.parametrize("device", CUDA_DEVICES)
+@pytest.mark.parametrize("use_key", USE_KEY)
 @torch.inference_mode()
 def test_batched_rotary_embedding_multi_lora(
     is_neox_style: bool,
@@ -171,6 +185,7 @@ def test_batched_rotary_embedding_multi_lora(
     dtype: torch.dtype,
     seed: int,
     device: str,
+    use_key: bool,
     max_position: int = 8192,
     base: int = 10000,
 ) -> None:
@@ -190,7 +205,7 @@ def test_batched_rotary_embedding_multi_lora(
                         seq_len,
                         num_heads * head_size,
                         dtype=dtype)
-    key = torch.randn_like(query)
+    key = torch.randn_like(query) if use_key else None
 
     offset_map = torch.tensor(
         list(
@@ -214,10 +229,14 @@ def test_batched_rotary_embedding_multi_lora(
                                ref_query,
                                atol=get_default_atol(out_query),
                                rtol=get_default_rtol(out_query))
-    torch.testing.assert_close(out_key,
-                               ref_key,
-                               atol=get_default_atol(out_key),
-                               rtol=get_default_rtol(out_key))
+    if use_key:
+        torch.testing.assert_close(out_key,
+                                   ref_key,
+                                   atol=get_default_atol(out_key),
+                                   rtol=get_default_rtol(out_key))
+    else:
+        assert ref_key is None and out_key is None, \
+            "expected returned key to be None"
 
 
 @torch.inference_mode()
diff --git a/tests/kernels/core/test_rotary_embedding.py b/tests/kernels/core/test_rotary_embedding.py
index c497dd90e..4e5486100 100644
--- a/tests/kernels/core/test_rotary_embedding.py
+++ b/tests/kernels/core/test_rotary_embedding.py
@@ -15,7 +15,7 @@ from vllm.model_executor.layers.rotary_embedding import RotaryEmbedding
 def rotary_embedding_opcheck(rot,
                              positions: torch.Tensor,
                              query: torch.Tensor,
-                             key: torch.Tensor,
+                             key: Optional[torch.Tensor] = None,
                              offsets: Optional[torch.Tensor] = None):
     cos_sin_cache = rot.cos_sin_cache.to(query.device, dtype=query.dtype)
 
@@ -37,9 +37,10 @@ def rotary_embedding_opcheck(rot,
 @pytest.mark.parametrize("rotary_dim", [32])
 @pytest.mark.parametrize("head_size", [32, 108])
 @pytest.mark.parametrize("seq_len", [11, 1024])
+@pytest.mark.parametrize("use_key", [True, False])
 def test_rotary_embedding_opcheck(dist_init, device, max_position,
                                   is_neox_style, rotary_dim, head_size,
-                                  seq_len):
+                                  seq_len, use_key):
     batch_size = 1
     base = 10000
     num_heads = 7
@@ -54,7 +55,7 @@ def test_rotary_embedding_opcheck(dist_init, device, max_position,
                         num_heads * head_size,
                         dtype=torch.float32,
                         device=device)
-    key = torch.randn_like(query)
+    key = torch.randn_like(query) if use_key else None
 
     rotary_embedding_opcheck(rot, positions, query, key)
     offsets = torch.zeros(batch_size * seq_len,
diff --git a/tests/neuron/1_core/test_rotary_embedding.py b/tests/neuron/1_core/test_rotary_embedding.py
index c015b80bd..da57631fc 100644
--- a/tests/neuron/1_core/test_rotary_embedding.py
+++ b/tests/neuron/1_core/test_rotary_embedding.py
@@ -11,14 +11,16 @@ from vllm.platforms import current_platform
 
 
 @pytest.mark.parametrize(
-    "max_position,is_neox_style,rotary_dim,head_size,seq_len", [
-        (16, False, 32, 32, 1024),
-        (16, False, 32, 128, 1024),
-        (16, True, 32, 32, 1024),
-        (16, True, 32, 128, 1024),
+    "max_position,is_neox_style,rotary_dim,head_size,seq_len,use_key", [
+        (16, False, 32, 32, 1024, True),
+        (16, False, 32, 128, 1024, True),
+        (16, True, 32, 32, 1024, True),
+        (16, True, 32, 128, 1024, True),
+        (16, False, 32, 128, 1024, False),
+        (16, True, 32, 128, 1024, False),
     ])
 def test_rotary_embedding_opcheck(max_position, is_neox_style, rotary_dim,
-                                  head_size, seq_len):
+                                  head_size, seq_len, use_key):
     import torch_xla.core.xla_model as xm
 
     device = xm.xla_device()
@@ -40,19 +42,26 @@ def test_rotary_embedding_opcheck(max_position, is_neox_style, rotary_dim,
                         num_heads * head_size,
                         dtype=torch.float32,
                         device="cpu")
-    key = torch.randn_like(query)
-
+    key = torch.randn_like(query) if use_key else None
     assert positions.is_cpu, \
         "reference input tensor is expected to be CPU tensor."
     ref_query, ref_key = rot.to(device="cpu").forward_native(
         positions, query, key)
     out_query, out_key = rot.to(device=device).forward_neuron(
         positions.to(device=device), query.to(device=device),
-        key.to(device=device))
-    assert out_query.is_xla and out_key.is_xla, \
-        "output tensor is expected to be XLA tensor"
+        key.to(device=device) if key is not None else None)
+    if use_key:
+        assert out_query.is_xla and out_key.is_xla, \
+            "output tensor is expected to be XLA tensor"
+        torch.testing.assert_close(out_key.cpu(),
+                                   ref_key,
+                                   atol=1e-2,
+                                   rtol=1e-2)
+    else:
+        assert out_key is None, "expected returned key to be None"
+        assert out_query.is_xla, \
+            "output tensor is expected to be XLA tensor"
     torch.testing.assert_close(out_query.cpu(),
                                ref_query,
                                atol=1e-2,
                                rtol=1e-2)
-    torch.testing.assert_close(out_key.cpu(), ref_key, atol=1e-2, rtol=1e-2)
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index 8079a6301..c693c14f4 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -153,34 +153,36 @@ def merge_attn_states(output: torch.Tensor,
 def rotary_embedding(
     positions: torch.Tensor,
     query: torch.Tensor,
-    key: torch.Tensor,
+    key: Optional[torch.Tensor],
     head_size: int,
     cos_sin_cache: torch.Tensor,
     is_neox: bool,
 ) -> None:
     # TODO: Remove this contiguous call when the kernel is updated to support tensor slices
     query_contiguous = query.contiguous()
-    key_contiguous = key.contiguous()
+    key_contiguous = key.contiguous() if key is not None else None
     torch.ops._C.rotary_embedding(positions, query_contiguous, key_contiguous,
                                   head_size, cos_sin_cache, is_neox)
     query.copy_(query_contiguous)
-    key.copy_(key_contiguous)
+    if key is not None:
+        key.copy_(key_contiguous)
 
 
 def batched_rotary_embedding(positions: torch.Tensor, query: torch.Tensor,
-                             key: torch.Tensor, head_size: int,
+                             key: Optional[torch.Tensor], head_size: int,
                              cos_sin_cache: torch.Tensor, is_neox: bool,
                              rot_dim: int,
                              cos_sin_cache_offsets: torch.Tensor) -> None:
     # TODO: Remove this contiguous call when the kernel is updated to support tensor slices
     query_contiguous = query.contiguous()
-    key_contiguous = key.contiguous()
+    key_contiguous = key.contiguous() if key is not None else None
     torch.ops._C.batched_rotary_embedding(positions, query_contiguous,
                                           key_contiguous, head_size,
                                           cos_sin_cache, is_neox, rot_dim,
                                           cos_sin_cache_offsets)
     query.copy_(query_contiguous)
-    key.copy_(key_contiguous)
+    if key is not None:
+        key.copy_(key_contiguous)
 
 
 # layer norm ops
diff --git a/vllm/model_executor/layers/rotary_embedding.py b/vllm/model_executor/layers/rotary_embedding.py
index 523250c30..32c2a2859 100644
--- a/vllm/model_executor/layers/rotary_embedding.py
+++ b/vllm/model_executor/layers/rotary_embedding.py
@@ -138,9 +138,9 @@ class RotaryEmbedding(CustomOp):
         self,
         positions: torch.Tensor,
         query: torch.Tensor,
-        key: torch.Tensor,
+        key: Optional[torch.Tensor] = None,
         offsets: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
         """A PyTorch-native implementation of forward()."""
         if offsets is not None:
             positions = positions + offsets
@@ -157,22 +157,24 @@ class RotaryEmbedding(CustomOp):
                                             self.is_neox_style)
         query = torch.cat((query_rot, query_pass), dim=-1).reshape(query_shape)
 
-        key_shape = key.shape
-        key = key.view(num_tokens, -1, self.head_size)
-        key_rot = key[..., :self.rotary_dim]
-        key_pass = key[..., self.rotary_dim:]
-        key_rot = _apply_rotary_emb_torch(key_rot, cos, sin,
-                                          self.is_neox_style)
-        key = torch.cat((key_rot, key_pass), dim=-1).reshape(key_shape)
+        # key may be None in some cases, e.g. cross-layer KV sharing
+        if key is not None:
+            key_shape = key.shape
+            key = key.view(num_tokens, -1, self.head_size)
+            key_rot = key[..., :self.rotary_dim]
+            key_pass = key[..., self.rotary_dim:]
+            key_rot = _apply_rotary_emb_torch(key_rot, cos, sin,
+                                              self.is_neox_style)
+            key = torch.cat((key_rot, key_pass), dim=-1).reshape(key_shape)
         return query, key
 
     def forward_cuda(
         self,
         positions: torch.Tensor,
         query: torch.Tensor,
-        key: torch.Tensor,
+        key: Optional[torch.Tensor] = None,
         offsets: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
         from vllm import _custom_ops as ops
 
         # __setattr__ in nn.Module (called by `self.cos_sin_cache = ...`)
@@ -198,32 +200,39 @@ class RotaryEmbedding(CustomOp):
         self,
         positions: torch.Tensor,
         query: torch.Tensor,
-        key: torch.Tensor,
+        key: Optional[torch.Tensor] = None,
         offsets: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
         from vllm._ipex_ops import ipex_ops as ops
 
         self.cos_sin_cache = self.cos_sin_cache.to(positions.device,
                                                    dtype=query.dtype)
         # ops.rotary_embedding()/batched_rotary_embedding()
         # are in-place operations that update the query and key tensors.
-        if offsets is not None:
-            ops.batched_rotary_embedding(positions, query, key, self.head_size,
-                                         self.cos_sin_cache,
-                                         self.is_neox_style, self.rotary_dim,
-                                         offsets)
+        if key is None:
+            # XPU kernel doesn't support key=None so fall back to native impl
+            # TODO(sarckk): add support for optional key in
+            # ipex.llm.functional.rotary_embedding_batched
+            return self.forward_native(positions, query, key, offsets)
         else:
-            ops.rotary_embedding(positions, query, key, self.head_size,
-                                 self.cos_sin_cache, self.is_neox_style)
+            if offsets is not None:
+                ops.batched_rotary_embedding(positions, query, key,
+                                             self.head_size,
+                                             self.cos_sin_cache,
+                                             self.is_neox_style,
+                                             self.rotary_dim, offsets)
+            else:
+                ops.rotary_embedding(positions, query, key, self.head_size,
+                                     self.cos_sin_cache, self.is_neox_style)
         return query, key
 
     def forward_hpu(
         self,
         positions: torch.Tensor,
         query: torch.Tensor,
-        key: torch.Tensor,
+        key: Optional[torch.Tensor] = None,
         offsets: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
         from habana_frameworks.torch.hpex.kernels import (
             RotaryPosEmbeddingMode, apply_rotary_pos_emb)
         if offsets is not None:
@@ -265,21 +274,23 @@ class RotaryEmbedding(CustomOp):
                                          rope_mode)
         query = torch.cat((query_rot, query_pass), dim=-1).reshape(query_shape)
 
-        key_shape = key.shape
-        key = key.view(num_tokens, -1, self.head_size)
-        key_rot = key[..., :self.rotary_dim]
-        key_pass = key[..., self.rotary_dim:]
-        key_rot = apply_rotary_pos_emb(key_rot, cos, sin, None, 0, rope_mode)
-        key = torch.cat((key_rot, key_pass), dim=-1).reshape(key_shape)
+        if key is not None:
+            key_shape = key.shape
+            key = key.view(num_tokens, -1, self.head_size)
+            key_rot = key[..., :self.rotary_dim]
+            key_pass = key[..., self.rotary_dim:]
+            key_rot = apply_rotary_pos_emb(key_rot, cos, sin, None, 0,
+                                           rope_mode)
+            key = torch.cat((key_rot, key_pass), dim=-1).reshape(key_shape)
         return query, key
 
     def forward_neuron(
         self,
         positions: torch.Tensor,
         query: torch.Tensor,
-        key: torch.Tensor,
+        key: Optional[torch.Tensor] = None,
         offsets: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
 
         def _apply_rotary_emb_neuron(
             x: torch.Tensor,
@@ -319,14 +330,16 @@ class RotaryEmbedding(CustomOp):
 
         query_shape = query.shape
         query = query.view(num_tokens, -1, self.head_size)
-        key_shape = key.shape
-        key = key.view(num_tokens, -1, self.head_size)
+        if key is not None:
+            key_shape = key.shape
+            key = key.view(num_tokens, -1, self.head_size)
 
         if self.rotary_dim == self.head_size:
             query = _apply_rotary_emb(query, cos, sin, self.is_neox_style)
             query = query.reshape(query_shape)
-            key = _apply_rotary_emb(key, cos, sin, self.is_neox_style)
-            key = key.reshape(key_shape)
+            if key is not None:
+                key = _apply_rotary_emb(key, cos, sin, self.is_neox_style)
+                key = key.reshape(key_shape)
         else:
             head_size = query.shape[-1]
             query_reshaped = query.view(-1, head_size)
@@ -339,14 +352,15 @@ class RotaryEmbedding(CustomOp):
             query = torch.cat((query_rot, query_pass),
                               dim=-1).reshape(query_shape)
 
-            key_reshaped = key.view(-1, head_size)
-            key_pass = key_reshaped[:, self.rotary_dim:].view(
-                *key.shape[:-1], head_size - self.rotary_dim)
-            key_rot = key_reshaped[:, :self.rotary_dim].view(
-                *key.shape[:-1], self.rotary_dim)
-            key_rot = _apply_rotary_emb_neuron(key_rot, cos, sin,
-                                               self.is_neox_style)
-            key = torch.cat((key_rot, key_pass), dim=-1).reshape(key_shape)
+            if key is not None:
+                key_reshaped = key.view(-1, head_size)
+                key_pass = key_reshaped[:, self.rotary_dim:].view(
+                    *key.shape[:-1], head_size - self.rotary_dim)
+                key_rot = key_reshaped[:, :self.rotary_dim].view(
+                    *key.shape[:-1], self.rotary_dim)
+                key_rot = _apply_rotary_emb_neuron(key_rot, cos, sin,
+                                                   self.is_neox_style)
+                key = torch.cat((key_rot, key_pass), dim=-1).reshape(key_shape)
         return query, key
 
     def extra_repr(self) -> str:
@@ -672,9 +686,10 @@ class Phi3LongRoPEScaledRotaryEmbedding(nn.Module):
         self,
         positions: torch.Tensor,
         query: torch.Tensor,
-        key: torch.Tensor,
+        key: Optional[torch.Tensor] = None,
         offsets: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
+        assert key is not None
         query = query.view(*query.shape[:-1], -1, self.head_size)
         key = key.view(*key.shape[:-1], -1, self.head_size)
 
@@ -782,10 +797,11 @@ class DeepseekScalingRotaryEmbedding(RotaryEmbedding):
         self,
         positions: torch.Tensor,
         query: torch.Tensor,
-        key: torch.Tensor,
+        key: Optional[torch.Tensor] = None,
         offsets: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
         """PyTorch-native implementation equivalent to forward()."""
+        assert key is not None
         query_rot = query[..., :self.rotary_dim]
         key_rot = key[..., :self.rotary_dim]
         if self.rotary_dim < self.head_size:
@@ -912,8 +928,9 @@ class Llama4VisionRotaryEmbedding(RotaryEmbedding):
     def forward(
         self,
         query: torch.Tensor,
-        key: torch.Tensor,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+        key: Optional[torch.Tensor] = None,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
+        assert key is not None
         self.cos_sin_cache: torch.Tensor = self.cos_sin_cache.to(query.device)
         query_ = torch.view_as_complex(query.float().reshape(
             *query.shape[:-1], -1, 2))
@@ -957,8 +974,8 @@ class MRotaryEmbedding(RotaryEmbedding):
         self,
         positions: torch.Tensor,
         query: torch.Tensor,
-        key: torch.Tensor,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+        key: Optional[torch.Tensor] = None,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
         """PyTorch-native implementation equivalent to forward().
 
         Args:
@@ -969,6 +986,7 @@ class MRotaryEmbedding(RotaryEmbedding):
             key: [num_tokens, num_kv_heads * head_size]
         """
         assert positions.ndim == 1 or positions.ndim == 2
+        assert key is not None
 
         num_tokens = positions.shape[-1]
         cos_sin = self.cos_sin_cache[positions]
-- 
GitLab


From 7377dd0307a56a3a5cd0214a8b7226e9ebdc5ad6 Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Wed, 7 May 2025 20:29:05 +0800
Subject: [PATCH 197/461] [doc] update the issue link (#17782)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 docs/source/features/quantization/fp8.md  | 2 +-
 docs/source/features/quantization/int4.md | 2 +-
 docs/source/features/quantization/int8.md | 2 +-
 3 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/docs/source/features/quantization/fp8.md b/docs/source/features/quantization/fp8.md
index 21969bbc2..cb304d547 100644
--- a/docs/source/features/quantization/fp8.md
+++ b/docs/source/features/quantization/fp8.md
@@ -117,7 +117,7 @@ Here's an example of the resulting scores:
 
 ## Troubleshooting and Support
 
-If you encounter any issues or have feature requests, please open an issue on the `vllm-project/llm-compressor` GitHub repository.
+If you encounter any issues or have feature requests, please open an issue on the [vllm-project/llm-compressor](https://github.com/vllm-project/llm-compressor/issues) GitHub repository.
 
 ## Online Dynamic Quantization
 
diff --git a/docs/source/features/quantization/int4.md b/docs/source/features/quantization/int4.md
index be48788a4..7a0ab4ad2 100644
--- a/docs/source/features/quantization/int4.md
+++ b/docs/source/features/quantization/int4.md
@@ -169,4 +169,4 @@ recipe = GPTQModifier(
 
 ## Troubleshooting and Support
 
-If you encounter any issues or have feature requests, please open an issue on the [`vllm-project/llm-compressor`](https://github.com/vllm-project/llm-compressor) GitHub repository. The full INT4 quantization example in `llm-compressor` is available [here](https://github.com/vllm-project/llm-compressor/blob/main/examples/quantization_w4a16/llama3_example.py).
+If you encounter any issues or have feature requests, please open an issue on the [vllm-project/llm-compressor](https://github.com/vllm-project/llm-compressor/issues) GitHub repository. The full INT4 quantization example in `llm-compressor` is available [here](https://github.com/vllm-project/llm-compressor/blob/main/examples/quantization_w4a16/llama3_example.py).
diff --git a/docs/source/features/quantization/int8.md b/docs/source/features/quantization/int8.md
index d6ddca18e..1e4b01d35 100644
--- a/docs/source/features/quantization/int8.md
+++ b/docs/source/features/quantization/int8.md
@@ -138,4 +138,4 @@ Quantized models can be sensitive to the presence of the `bos` token. Make sure
 
 ## Troubleshooting and Support
 
-If you encounter any issues or have feature requests, please open an issue on the [`vllm-project/llm-compressor`](https://github.com/vllm-project/llm-compressor) GitHub repository.
+If you encounter any issues or have feature requests, please open an issue on the [vllm-project/llm-compressor](https://github.com/vllm-project/llm-compressor/issues) GitHub repository.
-- 
GitLab


From 32aa74c09c82c54a4a6c3fbaaf9892a9fe6ce4cc Mon Sep 17 00:00:00 2001
From: Gregory Shtrasberg <156009573+gshtras@users.noreply.github.com>
Date: Wed, 7 May 2025 10:12:35 -0400
Subject: [PATCH 198/461] [ROCm][FP8][Kernel] FP8 quantization fused into
 Custom Paged Attention (#17139)

Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>
---
 csrc/rocm/attention.cu       | 92 ++++++++++++++++++++++++------------
 csrc/rocm/ops.h              | 20 ++++----
 csrc/rocm/torch_bindings.cpp |  3 +-
 vllm/_custom_ops.py          |  3 +-
 4 files changed, 74 insertions(+), 44 deletions(-)

diff --git a/csrc/rocm/attention.cu b/csrc/rocm/attention.cu
index 292352649..f8ae4b65d 100644
--- a/csrc/rocm/attention.cu
+++ b/csrc/rocm/attention.cu
@@ -1287,7 +1287,7 @@ __launch_bounds__(NUM_THREADS) void paged_attention_ll4mi_reduce_kernel(
                                            // max_num_partitions, head_size]
     const int* __restrict__ context_lens,  // [num_seqs]
     const int* __restrict__ query_start_loc_ptr,  // [num_seqs]
-    const int max_num_partitions) {
+    const int max_num_partitions, const float* __restrict__ fp8_out_scale_ptr) {
   const auto num_heads = gridDim.x;
   const auto head_idx = blockIdx.x;
   const auto seq_idx = blockIdx.y;
@@ -1465,8 +1465,10 @@ __launch_bounds__(NUM_THREADS) void paged_attention_ll4mi_reduce_kernel(
 
   const float inv_global_exp_sum =
       __fdividef(1.0f, shared_global_exp_sum + 1e-6f);
+  const float out_scale =
+      (fp8_out_scale_ptr != nullptr) ? 1.0f / (*fp8_out_scale_ptr) : 1.0f;
   acc *= inv_global_exp_sum;
-
+  acc *= out_scale;
   const int64_t query_start_off = static_cast<int64_t>(
       query_start_loc_ptr ? query_start_loc_ptr[seq_idx] : seq_idx);
   OUTT* out_ptr = out + query_start_off * num_heads * HEAD_SIZE +
@@ -1548,7 +1550,7 @@ __launch_bounds__(NUM_THREADS) void paged_attention_ll4mi_reduce_kernel(
     const scalar_t* __restrict__ tmp_out,  // [num_seqs, num_heads, max_num_partitions, head_size]
     const int* __restrict__ context_lens,  // [num_seqs]
     const int* __restrict__ query_start_loc_ptr,  // [num_seqs]
-    const int max_num_partitions) {
+    const int max_num_partitions, const float* __restrict__ fp8_out_scale_ptr) {
   UNREACHABLE_CODE
 }
 // clang-format on
@@ -1582,7 +1584,8 @@ __launch_bounds__(NUM_THREADS) void paged_attention_ll4mi_reduce_kernel(
                                       PARTITION_SIZE, NPAR_LOOPS>    \
       <<<reduce_grid, reduce_block, 0, stream>>>(                    \
           out_ptr, exp_sums_ptr, max_logits_ptr, tmp_out_ptr,        \
-          context_lens_ptr, query_start_loc_ptr, max_num_partitions);
+          context_lens_ptr, query_start_loc_ptr, max_num_partitions, \
+          fp8_out_scale_ptr);
 
 template <typename T, typename KVT, vllm::Fp8KVCacheDataType KV_DTYPE,
           int BLOCK_SIZE, int HEAD_SIZE, typename OUTT, int PARTITION_SIZE_OLD,
@@ -1594,7 +1597,7 @@ void paged_attention_custom_launcher(
     torch::Tensor& block_tables, torch::Tensor& context_lens,
     const std::optional<torch::Tensor>& query_start_loc, int max_context_len,
     const std::optional<torch::Tensor>& alibi_slopes, torch::Tensor& k_scale,
-    torch::Tensor& v_scale) {
+    torch::Tensor& v_scale, const c10::optional<torch::Tensor>& fp8_out_scale) {
   int num_seqs = block_tables.size(0);
   int num_heads = query.size(1);
   int head_size = query.size(2);
@@ -1626,6 +1629,11 @@ void paged_attention_custom_launcher(
   int* context_lens_ptr = context_lens.data_ptr<int>();
   const float* k_scale_ptr = reinterpret_cast<const float*>(k_scale.data_ptr());
   const float* v_scale_ptr = reinterpret_cast<const float*>(v_scale.data_ptr());
+  // NOTE: fp8_out_scale is optional.
+  const auto fp8_out_scale_ptr =
+      fp8_out_scale
+          ? static_cast<const float*>(fp8_out_scale.value().data_ptr())
+          : nullptr;
   OUTT* out_ptr = reinterpret_cast<OUTT*>(out.data_ptr());
 
   const int max_ctx_blocks = DIVIDE_ROUND_UP(max_context_len, BLOCK_SIZE);
@@ -1736,33 +1744,54 @@ void paged_attention_custom_launcher(
   }
 }
 
-#define CALL_CUSTOM_LAUNCHER(T, KVT, KV_DTYPE, BLK_SIZE, HEAD_SIZE, PSIZE,  \
-                             ALIBI_ENABLED)                                 \
-  paged_attention_custom_launcher<T, KVT, KV_DTYPE, BLK_SIZE, HEAD_SIZE, T, \
-                                  PSIZE, ALIBI_ENABLED>(                    \
-      out, exp_sums, max_logits, tmp_out, query, key_cache, value_cache,    \
-      num_kv_heads, scale, block_tables, context_lens, query_start_loc,     \
-      max_context_len, alibi_slopes, k_scale, v_scale);
-
-#define CALL_CUSTOM_LAUNCHER_ALIBI(T, KVT, KV_DTYPE, BLK_SIZE, HEAD_SIZE,      \
-                                   PSIZE)                                      \
-  if (alibi_slopes) {                                                          \
-    CALL_CUSTOM_LAUNCHER(T, KVT, KV_DTYPE, BLK_SIZE, HEAD_SIZE, PSIZE, true);  \
-  } else {                                                                     \
-    CALL_CUSTOM_LAUNCHER(T, KVT, KV_DTYPE, BLK_SIZE, HEAD_SIZE, PSIZE, false); \
+#define CALL_CUSTOM_LAUNCHER(T, KVT, KV_DTYPE, BLK_SIZE, HEAD_SIZE, OUTT,      \
+                             PSIZE, ALIBI_ENABLED)                             \
+  paged_attention_custom_launcher<T, KVT, KV_DTYPE, BLK_SIZE, HEAD_SIZE, OUTT, \
+                                  PSIZE, ALIBI_ENABLED>(                       \
+      out, exp_sums, max_logits, tmp_out, query, key_cache, value_cache,       \
+      num_kv_heads, scale, block_tables, context_lens, query_start_loc,        \
+      max_context_len, alibi_slopes, k_scale, v_scale, fp8_out_scale);
+
+#define CALL_CUSTOM_LAUNCHER_ALIBI(T, KVT, KV_DTYPE, BLK_SIZE, HEAD_SIZE,    \
+                                   OUTT, PSIZE)                              \
+  if (alibi_slopes) {                                                        \
+    CALL_CUSTOM_LAUNCHER(T, KVT, KV_DTYPE, BLK_SIZE, HEAD_SIZE, OUTT, PSIZE, \
+                         true);                                              \
+  } else {                                                                   \
+    CALL_CUSTOM_LAUNCHER(T, KVT, KV_DTYPE, BLK_SIZE, HEAD_SIZE, OUTT, PSIZE, \
+                         false);                                             \
   }
 
-#define CALL_CUSTOM_LAUNCHER_BLK(T, KVT, KV_DTYPE, HEAD_SIZE)           \
-  switch (block_size) {                                                 \
-    case 16:                                                            \
-      CALL_CUSTOM_LAUNCHER_ALIBI(T, KVT, KV_DTYPE, 16, HEAD_SIZE, 256); \
-      break;                                                            \
-    case 32:                                                            \
-      CALL_CUSTOM_LAUNCHER_ALIBI(T, KVT, KV_DTYPE, 32, HEAD_SIZE, 256); \
-      break;                                                            \
-    default:                                                            \
-      TORCH_CHECK(false, "Unsupported block size: ", block_size);       \
-      break;                                                            \
+#if defined(__HIPCC__) && defined(__gfx90a__)
+  #define CALL_CUSTOM_LAUNCHER_OUT(T, KVT, KV_DTYPE, BLK_SIZE, HEAD_SIZE)  \
+    if (fp8_out_scale) {                                                   \
+      TORCH_CHECK(false, "fp8 out scale unsupported for gfx90a");          \
+    } else {                                                               \
+      CALL_CUSTOM_LAUNCHER_ALIBI(T, KVT, KV_DTYPE, BLK_SIZE, HEAD_SIZE, T, \
+                                 256);                                     \
+    }
+#else
+  #define CALL_CUSTOM_LAUNCHER_OUT(T, KVT, KV_DTYPE, BLK_SIZE, HEAD_SIZE)  \
+    if (fp8_out_scale) {                                                   \
+      CALL_CUSTOM_LAUNCHER_ALIBI(T, KVT, KV_DTYPE, BLK_SIZE, HEAD_SIZE,    \
+                                 uint8_t, 256);                            \
+    } else {                                                               \
+      CALL_CUSTOM_LAUNCHER_ALIBI(T, KVT, KV_DTYPE, BLK_SIZE, HEAD_SIZE, T, \
+                                 256);                                     \
+    }
+#endif
+
+#define CALL_CUSTOM_LAUNCHER_BLK(T, KVT, KV_DTYPE, HEAD_SIZE)     \
+  switch (block_size) {                                           \
+    case 16:                                                      \
+      CALL_CUSTOM_LAUNCHER_OUT(T, KVT, KV_DTYPE, 16, HEAD_SIZE);  \
+      break;                                                      \
+    case 32:                                                      \
+      CALL_CUSTOM_LAUNCHER_OUT(T, KVT, KV_DTYPE, 32, HEAD_SIZE);  \
+      break;                                                      \
+    default:                                                      \
+      TORCH_CHECK(false, "Unsupported block size: ", block_size); \
+      break;                                                      \
   }
 
 #define CALL_CUSTOM_LAUNCHER_BLK_HEAD(T, KVT, KV_DTYPE)         \
@@ -1795,7 +1824,8 @@ void paged_attention(
     int64_t block_size, int64_t max_context_len,
     const std::optional<torch::Tensor>& alibi_slopes,
     const std::string& kv_cache_dtype, torch::Tensor& k_scale,
-    torch::Tensor& v_scale) {
+    torch::Tensor& v_scale,
+    const c10::optional<torch::Tensor>& fp8_out_scale) {
   // clang-format on
   const int head_size = query.size(2);
   if (kv_cache_dtype == "auto") {
diff --git a/csrc/rocm/ops.h b/csrc/rocm/ops.h
index b90cfdc61..2252ea717 100644
--- a/csrc/rocm/ops.h
+++ b/csrc/rocm/ops.h
@@ -11,14 +11,12 @@ torch::Tensor wvSplitK(at::Tensor& in_a, at::Tensor& in_b,
 void wvSplitKQ(at::Tensor& in_a, at::Tensor& in_b, at::Tensor& out_c,
                at::Tensor& scale_a, at::Tensor& scale_b, const int64_t CuCount);
 
-void paged_attention(torch::Tensor& out, torch::Tensor& exp_sums,
-                     torch::Tensor& max_logits, torch::Tensor& tmp_out,
-                     torch::Tensor& query, torch::Tensor& key_cache,
-                     torch::Tensor& value_cache, int64_t num_kv_heads,
-                     double scale, torch::Tensor& block_tables,
-                     torch::Tensor& context_lens,
-                     const std::optional<torch::Tensor>& query_start_loc,
-                     int64_t block_size, int64_t max_context_len,
-                     const std::optional<torch::Tensor>& alibi_slopes,
-                     const std::string& kv_cache_dtype, torch::Tensor& k_scale,
-                     torch::Tensor& v_scale);
+void paged_attention(
+    torch::Tensor& out, torch::Tensor& exp_sums, torch::Tensor& max_logits,
+    torch::Tensor& tmp_out, torch::Tensor& query, torch::Tensor& key_cache,
+    torch::Tensor& value_cache, int64_t num_kv_heads, double scale,
+    torch::Tensor& block_tables, torch::Tensor& context_lens,
+    const std::optional<torch::Tensor>& query_start_loc, int64_t block_size,
+    int64_t max_context_len, const std::optional<torch::Tensor>& alibi_slopes,
+    const std::string& kv_cache_dtype, torch::Tensor& k_scale,
+    torch::Tensor& v_scale, const c10::optional<torch::Tensor>& fp8_out_scale);
diff --git a/csrc/rocm/torch_bindings.cpp b/csrc/rocm/torch_bindings.cpp
index 4ac6fd1e9..34575477b 100644
--- a/csrc/rocm/torch_bindings.cpp
+++ b/csrc/rocm/torch_bindings.cpp
@@ -47,7 +47,8 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, rocm_ops) {
       "                int max_context_len,"
       "                Tensor? alibi_slopes,"
       "                str kv_cache_dtype,"
-      "                Tensor k_scale, Tensor v_scale) -> ()");
+      "                Tensor k_scale, Tensor v_scale,"
+      "                Tensor? fp8_out_scale) -> ()");
   rocm_ops.impl("paged_attention", torch::kCUDA, &paged_attention);
 }
 
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index c693c14f4..0206d4552 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -117,13 +117,14 @@ def paged_attention_rocm(
     kv_cache_dtype: str,
     k_scale: torch.Tensor,
     v_scale: torch.Tensor,
+    fp8_out_scale: Optional[torch.Tensor] = None,
 ) -> None:
     torch.ops._rocm_C.paged_attention(out, exp_sum, max_logits, tmp_out, query,
                                       key_cache, value_cache, num_kv_heads,
                                       scale, block_tables, seq_lens,
                                       query_start_loc, block_size, max_seq_len,
                                       alibi_slopes, kv_cache_dtype, k_scale,
-                                      v_scale)
+                                      v_scale, fp8_out_scale)
 
 
 def mla_decode_kvcache_cpu(
-- 
GitLab


From 1a6af1453d2077832c3d5e8bcd60a5ef6a95e46b Mon Sep 17 00:00:00 2001
From: Christian Heimes <christian@python.org>
Date: Wed, 7 May 2025 16:51:06 +0200
Subject: [PATCH 199/461] Only depend on importlib-metadata for Python < 3.10
 (#17776)

Signed-off-by: Christian Heimes <christian@python.org>
---
 requirements/common.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/requirements/common.txt b/requirements/common.txt
index 7ea27753e..dbc9903f1 100644
--- a/requirements/common.txt
+++ b/requirements/common.txt
@@ -29,7 +29,7 @@ partial-json-parser # used for parsing partial JSON outputs
 pyzmq >= 25.0.0
 msgspec
 gguf >= 0.13.0
-importlib_metadata
+importlib_metadata; python_version < '3.10'
 mistral_common[opencv] >= 1.5.4
 opencv-python-headless >= 4.11.0    # required for video IO
 pyyaml
-- 
GitLab


From be8ff88e661d72b67f8410354b6a33ad78d2c81c Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Wed, 7 May 2025 23:36:06 +0800
Subject: [PATCH 200/461] [Bugfix] Fix Video IO error for short video (#17791)

Signed-off-by: Isotr0py <2037008807@qq.com>
---
 tests/multimodal/test_utils.py | 17 +++++++++++++++++
 vllm/multimodal/video.py       |  6 ++++--
 2 files changed, 21 insertions(+), 2 deletions(-)

diff --git a/tests/multimodal/test_utils.py b/tests/multimodal/test_utils.py
index ce1429fda..478184c34 100644
--- a/tests/multimodal/test_utils.py
+++ b/tests/multimodal/test_utils.py
@@ -26,6 +26,11 @@ TEST_IMAGE_URLS = [
     "https://upload.wikimedia.org/wikipedia/commons/0/0b/RGBA_comp.png",
 ]
 
+TEST_VIDEO_URLS = [
+    "https://www.bogotobogo.com/python/OpenCV_Python/images/mean_shift_tracking/slow_traffic_small.mp4",
+    "https://filesamples.com/samples/video/avi/sample_640x360.avi",
+]
+
 
 @pytest.fixture(scope="module")
 def url_images() -> dict[str, Image.Image]:
@@ -134,6 +139,18 @@ async def test_fetch_image_local_files(image_url: str):
                 f"file://{temp_dir}/../{os.path.basename(image_url)}")
 
 
+@pytest.mark.asyncio
+@pytest.mark.parametrize("video_url", TEST_VIDEO_URLS)
+@pytest.mark.parametrize("num_frames", [-1, 32, 1800])
+async def test_fetch_video_http(video_url: str, num_frames: int):
+    connector = MediaConnector()
+
+    video_sync = connector.fetch_video(video_url, num_frames=num_frames)
+    video_async = await connector.fetch_video_async(video_url,
+                                                    num_frames=num_frames)
+    assert np.array_equal(video_sync, video_async)
+
+
 # Used for the next two tests related to `merge_and_sort_multimodal_metadata`.
 class TestCase(NamedTuple):
     mm_positions: "MultiModalPlaceholderDict"
diff --git a/vllm/multimodal/video.py b/vllm/multimodal/video.py
index 6d875a1c6..72e9b65d7 100644
--- a/vllm/multimodal/video.py
+++ b/vllm/multimodal/video.py
@@ -81,7 +81,8 @@ class OpenCVVideoBackend(VideoLoader):
         total_frames_num = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
         full_read = num_frames == -1 or total_frames_num < num_frames
         if full_read:
-            frame_idx = list(range(0, total_frames_num))
+            num_frames = total_frames_num
+            frame_idx = list(range(0, num_frames))
         else:
             uniform_sampled_frames = np.linspace(0,
                                                  total_frames_num - 1,
@@ -104,7 +105,8 @@ class OpenCVVideoBackend(VideoLoader):
                     frames[i] = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
                     i += 1
         # we expect all frames loaded
-        assert i == num_frames
+        assert i == num_frames, (f"Expected reading {num_frames} frames, "
+                                 f"but only loaded {i} frames from video.")
         return frames
 
 
-- 
GitLab


From 646a31e51ecf0da02d136512a7e37283c4cee34e Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Wed, 7 May 2025 16:51:06 +0100
Subject: [PATCH 201/461] Fix and simplify `deprecated=True` CLI `kwarg`
 (#17781)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 examples/offline_inference/basic/chat.py     |  5 +-
 examples/offline_inference/basic/generate.py |  5 +-
 vllm/engine/arg_utils.py                     |  1 +
 vllm/utils.py                                | 78 ++++++--------------
 4 files changed, 27 insertions(+), 62 deletions(-)

diff --git a/examples/offline_inference/basic/chat.py b/examples/offline_inference/basic/chat.py
index 6857c6e9e..8e6f78ed7 100644
--- a/examples/offline_inference/basic/chat.py
+++ b/examples/offline_inference/basic/chat.py
@@ -7,9 +7,8 @@ from vllm.utils import FlexibleArgumentParser
 def create_parser():
     parser = FlexibleArgumentParser()
     # Add engine args
-    engine_group = parser.add_argument_group("Engine arguments")
-    EngineArgs.add_cli_args(engine_group)
-    engine_group.set_defaults(model="meta-llama/Llama-3.2-1B-Instruct")
+    EngineArgs.add_cli_args(parser)
+    parser.set_defaults(model="meta-llama/Llama-3.2-1B-Instruct")
     # Add sampling params
     sampling_group = parser.add_argument_group("Sampling parameters")
     sampling_group.add_argument("--max-tokens", type=int)
diff --git a/examples/offline_inference/basic/generate.py b/examples/offline_inference/basic/generate.py
index 54b52b22a..72f4a8208 100644
--- a/examples/offline_inference/basic/generate.py
+++ b/examples/offline_inference/basic/generate.py
@@ -7,9 +7,8 @@ from vllm.utils import FlexibleArgumentParser
 def create_parser():
     parser = FlexibleArgumentParser()
     # Add engine args
-    engine_group = parser.add_argument_group("Engine arguments")
-    EngineArgs.add_cli_args(engine_group)
-    engine_group.set_defaults(model="meta-llama/Llama-3.2-1B-Instruct")
+    EngineArgs.add_cli_args(parser)
+    parser.set_defaults(model="meta-llama/Llama-3.2-1B-Instruct")
     # Add sampling params
     sampling_group = parser.add_argument_group("Sampling parameters")
     sampling_group.add_argument("--max-tokens", type=int)
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 5d8b5d1f6..27af74e2e 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -833,6 +833,7 @@ class EngineArgs:
         parser.add_argument('--use-v2-block-manager',
                             action='store_true',
                             default=True,
+                            deprecated=True,
                             help='[DEPRECATED] block manager v1 has been '
                             'removed and SelfAttnBlockSpaceManager (i.e. '
                             'block manager v2) is now the default. '
diff --git a/vllm/utils.py b/vllm/utils.py
index 212138e4b..24535196c 100644
--- a/vllm/utils.py
+++ b/vllm/utils.py
@@ -41,7 +41,6 @@ from collections.abc import (AsyncGenerator, Awaitable, Generator, Hashable,
 from concurrent.futures.process import ProcessPoolExecutor
 from dataclasses import dataclass, field
 from functools import cache, lru_cache, partial, wraps
-from gettext import gettext as _gettext
 from types import MappingProxyType
 from typing import (TYPE_CHECKING, Any, Callable, Generic, Literal, NamedTuple,
                     Optional, Sequence, Tuple, Type, TypeVar, Union, cast,
@@ -1333,31 +1332,10 @@ class SortedHelpFormatter(ArgumentDefaultsHelpFormatter):
         super().add_arguments(actions)
 
 
-class _FlexibleArgumentGroup(_ArgumentGroup):
-
-    def __init__(self, parser: FlexibleArgumentParser, *args, **kwargs):
-        self._parser = parser
-        super().__init__(*args, **kwargs)
-
-    def add_argument(self, *args: Any, **kwargs: Any):
-        if sys.version_info < (3, 13):
-            deprecated = kwargs.pop('deprecated', False)
-            action = super().add_argument(*args, **kwargs)
-            object.__setattr__(action, 'deprecated', deprecated)
-            if deprecated and action.dest not in \
-                    self._parser.__class__._deprecated:
-                self._parser._deprecated.add(action)
-            return action
-
-        # python>3.13
-        return super().add_argument(*args, **kwargs)
-
-
 class FlexibleArgumentParser(ArgumentParser):
     """ArgumentParser that allows both underscore and dash in names."""
 
     _deprecated: set[Action] = set()
-    _seen: set[str] = set()
 
     def __init__(self, *args, **kwargs):
         # Set the default 'formatter_class' to SortedHelpFormatter
@@ -1366,39 +1344,36 @@ class FlexibleArgumentParser(ArgumentParser):
         super().__init__(*args, **kwargs)
 
     if sys.version_info < (3, 13):
+        # Enable the deprecated kwarg for Python 3.12 and below
 
-        def parse_known_args(  # type: ignore[override]
-            self,
-            args: Sequence[str] | None = None,
-            namespace: Namespace | None = None,
-        ) -> tuple[Namespace | None, list[str]]:
+        def parse_known_args(self, args=None, namespace=None):
             namespace, args = super().parse_known_args(args, namespace)
             for action in FlexibleArgumentParser._deprecated:
-                if action.dest not in FlexibleArgumentParser._seen and getattr(
-                        namespace, action.dest,
-                        None) != action.default:  # noqa: E501
-                    self._warning(
-                        _gettext("argument '%(argument_name)s' is deprecated")
-                        % {'argument_name': action.dest})
-                    FlexibleArgumentParser._seen.add(action.dest)
+                if (hasattr(namespace, dest := action.dest)
+                        and getattr(namespace, dest) != action.default):
+                    logger.warning_once("argument '%s' is deprecated", dest)
             return namespace, args
 
-        def add_argument(self, *args: Any, **kwargs: Any):
-            # add a deprecated=True compatibility
-            # for python < 3.13
-            deprecated = kwargs.pop('deprecated', False)
+        def add_argument(self, *args, **kwargs):
+            deprecated = kwargs.pop("deprecated", False)
             action = super().add_argument(*args, **kwargs)
-            object.__setattr__(action, 'deprecated', deprecated)
-            if deprecated and \
-                action not in FlexibleArgumentParser._deprecated:
-                self._deprecated.add(action)
-
+            if deprecated:
+                FlexibleArgumentParser._deprecated.add(action)
             return action
 
-        def _warning(self, message: str):
-            self._print_message(
-                _gettext('warning: %(message)s\n') % {'message': message},
-                sys.stderr)
+        class _FlexibleArgumentGroup(_ArgumentGroup):
+
+            def add_argument(self, *args, **kwargs):
+                deprecated = kwargs.pop("deprecated", False)
+                action = super().add_argument(*args, **kwargs)
+                if deprecated:
+                    FlexibleArgumentParser._deprecated.add(action)
+                return action
+
+        def add_argument_group(self, *args, **kwargs):
+            group = self._FlexibleArgumentGroup(self, *args, **kwargs)
+            self._action_groups.append(group)
+            return group
 
     def parse_args(  # type: ignore[override]
         self,
@@ -1575,15 +1550,6 @@ class FlexibleArgumentParser(ArgumentParser):
 
         return processed_args
 
-    def add_argument_group(
-        self,
-        *args: Any,
-        **kwargs: Any,
-    ) -> _FlexibleArgumentGroup:
-        group = _FlexibleArgumentGroup(self, self, *args, **kwargs)
-        self._action_groups.append(group)
-        return group
-
 
 async def _run_task_with_lock(task: Callable, lock: asyncio.Lock, *args,
                               **kwargs):
-- 
GitLab


From f98e3075880bde73f5bdc20ab688e224352f6880 Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Thu, 8 May 2025 00:17:12 +0800
Subject: [PATCH 202/461] [Bugfix] Fix missing lora name mapping for lora
 without prefix (#17793)

Signed-off-by: Isotr0py <2037008807@qq.com>
---
 tests/lora/test_utils.py | 69 +++++++++++++++++++++++++++++++++-------
 vllm/lora/utils.py       |  6 ++--
 2 files changed, 61 insertions(+), 14 deletions(-)

diff --git a/tests/lora/test_utils.py b/tests/lora/test_utils.py
index 67f3866be..0d4e0bf68 100644
--- a/tests/lora/test_utils.py
+++ b/tests/lora/test_utils.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from collections import OrderedDict
+from typing import NamedTuple, Optional
 from unittest.mock import patch
 
 import pytest
@@ -9,52 +10,96 @@ from torch import nn
 
 from vllm.lora.utils import (get_adapter_absolute_path,
                              parse_fine_tuned_lora_name, replace_submodule)
+from vllm.model_executor.models.utils import WeightsMapper
+
+
+class LoRANameParserTestConfig(NamedTuple):
+    name: str
+    module_name: str
+    is_lora_a: bool
+    is_bias: bool
+    weights_mapper: Optional[WeightsMapper] = None
 
 
 def test_parse_fine_tuned_lora_name_valid():
-    fixture = {
-        ("base_model.model.lm_head.lora_A.weight", "lm_head", True, False),
-        ("base_model.model.lm_head.lora_B.weight", "lm_head", False, False),
-        (
+    fixture = [
+        LoRANameParserTestConfig("base_model.model.lm_head.lora_A.weight",
+                                 "lm_head", True, False),
+        LoRANameParserTestConfig("base_model.model.lm_head.lora_B.weight",
+                                 "lm_head", False, False),
+        LoRANameParserTestConfig(
             "base_model.model.model.embed_tokens.lora_embedding_A",
             "model.embed_tokens",
             True,
             False,
         ),
-        (
+        LoRANameParserTestConfig(
             "base_model.model.model.embed_tokens.lora_embedding_B",
             "model.embed_tokens",
             False,
             False,
         ),
-        (
+        LoRANameParserTestConfig(
             "base_model.model.model.layers.9.mlp.down_proj.lora_A.weight",
             "model.layers.9.mlp.down_proj",
             True,
             False,
         ),
-        (
+        LoRANameParserTestConfig(
             "base_model.model.model.layers.9.mlp.down_proj.lora_B.weight",
             "model.layers.9.mlp.down_proj",
             False,
             False,
         ),
-        (
+        LoRANameParserTestConfig(
             "language_model.layers.9.mlp.down_proj.lora_A.weight",
             "language_model.layers.9.mlp.down_proj",
             True,
             False,
         ),
-        (
+        LoRANameParserTestConfig(
             "language_model.layers.9.mlp.down_proj.lora_B.weight",
             "language_model.layers.9.mlp.down_proj",
             False,
             False,
         ),
-    }
-    for name, module_name, is_lora_a, is_bias in fixture:
+        # Test with WeightsMapper
+        LoRANameParserTestConfig(
+            "base_model.model.model.layers.9.mlp.down_proj.lora_A.weight",
+            "language_model.model.layers.9.mlp.down_proj",
+            True,
+            False,
+            weights_mapper=WeightsMapper(
+                orig_to_new_prefix={"model.": "language_model.model."}),
+        ),
+        LoRANameParserTestConfig(
+            "base_model.model.model.layers.9.mlp.down_proj.lora_B.weight",
+            "language_model.model.layers.9.mlp.down_proj",
+            False,
+            False,
+            weights_mapper=WeightsMapper(
+                orig_to_new_prefix={"model.": "language_model.model."}),
+        ),
+        LoRANameParserTestConfig(
+            "model.layers.9.mlp.down_proj.lora_A.weight",
+            "language_model.model.layers.9.mlp.down_proj",
+            True,
+            False,
+            weights_mapper=WeightsMapper(
+                orig_to_new_prefix={"model.": "language_model.model."}),
+        ),
+        LoRANameParserTestConfig(
+            "model.layers.9.mlp.down_proj.lora_B.weight",
+            "language_model.model.layers.9.mlp.down_proj",
+            False,
+            False,
+            weights_mapper=WeightsMapper(
+                orig_to_new_prefix={"model.": "language_model.model."}),
+        ),
+    ]
+    for name, module_name, is_lora_a, is_bias, weights_mapper in fixture:
         assert (module_name, is_lora_a,
-                is_bias) == parse_fine_tuned_lora_name(name)
+                is_bias) == parse_fine_tuned_lora_name(name, weights_mapper)
 
 
 def test_parse_fine_tuned_lora_name_invalid():
diff --git a/vllm/lora/utils.py b/vllm/lora/utils.py
index 883ca938e..01064e5d0 100644
--- a/vllm/lora/utils.py
+++ b/vllm/lora/utils.py
@@ -117,16 +117,18 @@ def parse_fine_tuned_lora_name(
     # LoRA weight qualified name usually starts with `base_model.model.`,
     # so we remove the prefix `base_model.model.` to make the following
     # mapping correctly.
-    if "base_model.model." in name:
+    if name.startswith("base_model.model."):
         name = name.replace("base_model.model.", "")
         name = weights_mapper._map_name(name) if weights_mapper else name
         # recover the prefix `base_model.model.`
         name = "base_model.model." + name
+    else:
+        name = weights_mapper._map_name(name) if weights_mapper else name
 
     # In some situations, we may not start with `base_model.model.`.
     # If we don't (e.g., ibm-granite/granite-speech-3.3-8b),
     # we should keep the prefix intact.
-    start_index = 2 if "base_model.model." in name else 0
+    start_index = 2 if name.startswith("base_model.model.") else 0
 
     parts = name.split(".")
     if parts[-1] == "weight" and (parts[-2] == "lora_A"
-- 
GitLab


From db593aa67f8dd99e676208f053fab03560952843 Mon Sep 17 00:00:00 2001
From: Bowen Bao <bowenbao@amd.com>
Date: Wed, 7 May 2025 12:05:05 -0700
Subject: [PATCH 203/461] [Quantization] Quark MXFP4 format loading  (#16943)

---
 tests/models/quantization/test_mxfp4.py       |  40 ++++++
 vllm/envs.py                                  |   9 ++
 .../layers/quantization/quark/quark.py        |  56 +++++++-
 .../quantization/quark/schemes/__init__.py    |   3 +-
 .../quark/schemes/quark_w4a4_mxfp4.py         | 125 ++++++++++++++++++
 .../layers/quantization/utils/mxfp4_utils.py  |  45 +++++++
 vllm/model_executor/model_loader/utils.py     |   2 +-
 vllm/platforms/interface.py                   |   7 +
 vllm/platforms/rocm.py                        |   5 +
 9 files changed, 289 insertions(+), 3 deletions(-)
 create mode 100644 tests/models/quantization/test_mxfp4.py
 create mode 100644 vllm/model_executor/layers/quantization/quark/schemes/quark_w4a4_mxfp4.py
 create mode 100644 vllm/model_executor/layers/quantization/utils/mxfp4_utils.py

diff --git a/tests/models/quantization/test_mxfp4.py b/tests/models/quantization/test_mxfp4.py
new file mode 100644
index 000000000..9a0608295
--- /dev/null
+++ b/tests/models/quantization/test_mxfp4.py
@@ -0,0 +1,40 @@
+# SPDX-License-Identifier: Apache-2.0
+# flake8: noqa
+"""Tests Quark mxfp4 models against ground truth generation
+"""
+import pytest
+
+from vllm import LLM, SamplingParams
+
+MODELS = ["amd/Llama-2-7b-chat-hf-wmxfp4-amxfp4-kvfp8-scale-uint8"]
+
+EXPECTED_STRS_MAP = {
+    "amd/Llama-2-7b-chat-hf-wmxfp4-amxfp4-kvfp8-scale-uint8": [
+        '\n### Key Features\n\n* **High-throughput Inference**: vLL',
+        '\nArtificial intelligence (AI) has evolved significantly since its inception in the 1',
+        'Artificial intelligence (AI) and human intelligence (HI) are two distinct concepts that have been',
+        'A neural network is a machine learning model inspired by the structure of the human brain. It consists of',
+        '\nTitle: The Dreaming Robot\n\nAs the sun set on the bustling metropol',
+        '\nThe COVID-19 pandemic has had a profound impact on global economic structures and business',
+        'The Mona Lisa painting, created by Leonardo da Vinci in the early 16th',
+        " everybody knows this proverbial saying, but did you know that it's not entirely accurate?",
+    ]
+}
+
+
+@pytest.mark.skip(reason="Model to be released in the future")
+@pytest.mark.quant_model
+@pytest.mark.parametrize("model_name", MODELS)
+def test_models(example_prompts, model_name) -> None:
+    sampling_params = SamplingParams(max_tokens=20, temperature=0)
+    llm = LLM(
+        model=model_name,
+        kv_cache_dtype="fp8",
+        quantization="quark",
+    )
+    outputs = llm.generate(example_prompts, sampling_params)
+    for i, output in enumerate(outputs):
+        output_str = output.outputs[0].text
+        expected_str = EXPECTED_STRS_MAP[model_name][i]
+        assert expected_str == output_str, (
+            f"Expected: {expected_str!r}\nvLLM: {output_str!r}")
diff --git a/vllm/envs.py b/vllm/envs.py
index ea40bfff1..c8bb39ceb 100644
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -84,6 +84,7 @@ if TYPE_CHECKING:
     VLLM_ROCM_FP8_PADDING: bool = True
     VLLM_ROCM_MOE_PADDING: bool = True
     VLLM_ROCM_CUSTOM_PAGED_ATTN: bool = True
+    VLLM_QUARK_EMU_MEM_OPT: bool = False
     VLLM_ENABLE_V1_MULTIPROCESSING: bool = True
     VLLM_LOG_BATCHSIZE_INTERVAL: float = -1
     VLLM_DISABLE_COMPILE_CACHE: bool = False
@@ -583,6 +584,14 @@ environment_variables: dict[str, Callable[[], Any]] = {
     lambda: (os.getenv("VLLM_ROCM_CUSTOM_PAGED_ATTN", "True").lower() in
              ("true", "1")),
 
+    # If set, when running in Quark emulation mode, do not dequantize the
+    # weights at load time. Instead, dequantize weights on-the-fly during
+    # kernel execution.
+    # This allows running larger models at the cost of slower inference.
+    # This flag has no effect when not running in Quark emulation mode.
+    "VLLM_QUARK_EMU_MEM_OPT":
+    lambda: bool(int(os.getenv("VLLM_QUARK_EMU_MEM_OPT", "0"))),
+
     # Divisor for dynamic query scale factor calculation for FP8 KV Cache
     "Q_SCALE_CONSTANT":
     lambda: int(os.getenv("Q_SCALE_CONSTANT", "200")),
diff --git a/vllm/model_executor/layers/quantization/quark/quark.py b/vllm/model_executor/layers/quantization/quark/quark.py
index da2312190..66e677f56 100644
--- a/vllm/model_executor/layers/quantization/quark/quark.py
+++ b/vllm/model_executor/layers/quantization/quark/quark.py
@@ -5,6 +5,7 @@ from typing import Any, Dict, List, Optional, cast
 
 import torch
 
+from vllm.logger import init_logger
 from vllm.model_executor.layers.fused_moe import FusedMoE
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                                UnquantizedLinearMethod)
@@ -15,13 +16,15 @@ from vllm.model_executor.layers.quantization.kv_cache import BaseKVCacheMethod
 from vllm.model_executor.layers.quantization.quark.quark_moe import (  # noqa: E501
     QuarkMoEMethod)
 from vllm.model_executor.layers.quantization.quark.schemes import (
-    QuarkScheme, QuarkW8A8Fp8, QuarkW8A8Int8)
+    QuarkScheme, QuarkW4A4MXFP4, QuarkW8A8Fp8, QuarkW8A8Int8)
 from vllm.model_executor.layers.quantization.quark.utils import (
     deep_compare, should_ignore_layer)
 from vllm.platforms import current_platform
 
 __all__ = ["QuarkLinearMethod"]
 
+logger = init_logger(__name__)
+
 
 class QuarkConfig(QuantizationConfig):
 
@@ -67,6 +70,7 @@ class QuarkConfig(QuantizationConfig):
             return QuarkLinearMethod(self)
         if isinstance(layer, Attention):
             return QuarkKVCacheMethod(self)
+
         if isinstance(layer, FusedMoE):
             return QuarkMoEMethod.get_moe_method(self,
                                                  module=layer,
@@ -205,6 +209,54 @@ class QuarkConfig(QuantizationConfig):
         # Only symmetric weight quantization supported.
         return is_int8_dtype and is_tensor and is_weight_symmetric and is_static
 
+    def _is_mx_fp4(self, weight_quant: Optional[Dict[str, Any]],
+                   input_quant: Optional[Dict[str, Any]]) -> bool:
+        # Confirm weights and input quantized.
+        if weight_quant is None or input_quant is None:
+            logger.debug("Quark model is not in MX-FP4 format: "
+                         "weight_quant or input_quant not set")
+            return False
+
+        # Input and weight dtype needs to be fp4.
+        if weight_quant.get("dtype") != "fp4" or input_quant.get(
+                "dtype") != "fp4":
+            logger.debug("Quark model is not in MX-FP4 format: dtype not fp4")
+            return False
+
+        # Input and weight qscheme needs to be per group.
+        if weight_quant.get("qscheme") != "per_group" or input_quant.get(
+                "qscheme") != "per_group":
+            logger.debug("Quark model is not in MX-FP4 format: not per_group")
+            return False
+
+        # Input and weight group size needs to be 32.
+        if weight_quant.get("group_size") != 32 or input_quant.get(
+                "group_size") != 32:
+            logger.debug(
+                "Quark model is not in MX-FP4 format: not group_size=32")
+            return False
+
+        # Weights need to use static quantization.
+        if weight_quant.get("is_dynamic") is True:
+            logger.debug(
+                "Quark model is not in MX-FP4 format: not weight static")
+            return False
+
+        # Activations need to use dynamic quantization.
+        if input_quant.get("is_dynamic") is False:
+            logger.debug(
+                "Quark model is not in MX-FP4 format: not activation dynamic")
+            return False
+
+        # Activations and weight scales need to be in e8m0 format.
+        if weight_quant.get("scale_format") != "e8m0" or input_quant.get(
+                "scale_format") != "e8m0":
+            logger.debug(
+                "Quark model is not in MX-FP4 format: not scale_format e8m0")
+            return False
+
+        return True
+
     def _find_matched_config(self, layer_name: str,
                              module: torch.nn.Module) -> Dict[str, Any]:
 
@@ -269,6 +321,8 @@ class QuarkConfig(QuantizationConfig):
             return QuarkW8A8Int8(qscheme=weight_qscheme,
                                  is_static_input_scheme=True,
                                  input_symmetric=input_config.get("symmetric"))
+        elif self._is_mx_fp4(weight_config, input_config):
+            return QuarkW4A4MXFP4(weight_config, input_config)
 
         raise NotImplementedError("No quark compatible scheme was found. "
                                   f"Weight config: {weight_config}, "
diff --git a/vllm/model_executor/layers/quantization/quark/schemes/__init__.py b/vllm/model_executor/layers/quantization/quark/schemes/__init__.py
index 9069b5a0d..d7dac1757 100644
--- a/vllm/model_executor/layers/quantization/quark/schemes/__init__.py
+++ b/vllm/model_executor/layers/quantization/quark/schemes/__init__.py
@@ -1,7 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from .quark_scheme import QuarkScheme
+from .quark_w4a4_mxfp4 import QuarkW4A4MXFP4
 from .quark_w8a8_fp8 import QuarkW8A8Fp8
 from .quark_w8a8_int8 import QuarkW8A8Int8
 
-__all__ = ["QuarkScheme", "QuarkW8A8Fp8", "QuarkW8A8Int8"]
+__all__ = ["QuarkScheme", "QuarkW8A8Fp8", "QuarkW8A8Int8", "QuarkW4A4MXFP4"]
diff --git a/vllm/model_executor/layers/quantization/quark/schemes/quark_w4a4_mxfp4.py b/vllm/model_executor/layers/quantization/quark/schemes/quark_w4a4_mxfp4.py
new file mode 100644
index 000000000..9da52a732
--- /dev/null
+++ b/vllm/model_executor/layers/quantization/quark/schemes/quark_w4a4_mxfp4.py
@@ -0,0 +1,125 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from typing import Any, Callable, Dict, List, Optional
+
+import torch
+import torch.nn.functional as F
+
+import vllm.envs as envs
+from vllm.model_executor.layers.quantization.quark.schemes import QuarkScheme
+from vllm.model_executor.layers.quantization.utils.mxfp4_utils import (
+    OCP_MX_BLOCK_SIZE, per_token_group_quant_mxfp4)
+from vllm.model_executor.parameter import (GroupQuantScaleParameter,
+                                           PackedvLLMParameter)
+from vllm.platforms import current_platform
+
+__all__ = ["QuarkW4A4MXFP4"]
+
+
+class QuarkW4A4MXFP4(QuarkScheme):
+
+    def __init__(self, weight_quant_spec: Dict[str, Any],
+                 input_quant_spec: Dict[str, Any]):
+        self.out_dtype = torch.get_default_dtype()
+        self.qscheme = "per_group"
+        self.weight_quant_spec = weight_quant_spec
+        self.input_quant_spec = input_quant_spec
+        self.emulate = not current_platform.supports_mx()
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 70
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        layer.weight = torch.nn.Parameter(layer.weight.data,
+                                          requires_grad=False)
+        layer.weight_scale = torch.nn.Parameter(layer.weight_scale.data,
+                                                requires_grad=False)
+
+        if self.emulate:
+            try:
+                from quark.torch.export.nn.modules import realquantizer
+                from quark.torch.quantization.config.config import (
+                    QuantizationSpec)
+            except ImportError as err:
+                raise ImportError(
+                    "The package `amd-quark` is required to use AMD Quark "
+                    "MX-FP4 models. Please install it with `pip install "
+                    "amd-quark`.") from err
+
+            weight_quant_spec = QuantizationSpec.from_dict(
+                self.weight_quant_spec)
+
+            weight_quantizer = realquantizer.get_real_quantizer(
+                qspec=weight_quant_spec,
+                quantizer=None,
+                real_quantized=True,
+                reorder=False,
+                float_dtype=self.out_dtype,
+                scale_shape=layer.weight_scale.shape,
+                zero_point_shape=None,
+            )
+            weight_quantizer.scale.data = layer.weight_scale.data
+
+            if not envs.VLLM_QUARK_EMU_MEM_OPT:
+                layer.weight = torch.nn.Parameter(
+                    weight_quantizer(layer.weight.data).to(self.out_dtype),
+                    requires_grad=False,
+                )
+            else:
+                self.weight_quantizer = weight_quantizer
+            layer.weight_scale = None
+
+            # This call is necessary to release the scales memory.
+            torch.cuda.empty_cache()
+
+    def create_weights(self, layer: torch.nn.Module,
+                       output_partition_sizes: List[int],
+                       input_size_per_partition: int,
+                       params_dtype: torch.dtype, weight_loader: Callable,
+                       **kwargs):
+        output_size_per_partition = sum(output_partition_sizes)
+        layer.logical_widths = output_partition_sizes
+
+        # WEIGHT
+        weight = PackedvLLMParameter(
+            data=torch.empty(
+                output_size_per_partition,
+                input_size_per_partition // 2,
+                dtype=torch.uint8,
+            ),
+            input_dim=1,
+            output_dim=0,
+            packed_dim=1,
+            packed_factor=2,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight", weight)
+
+        # WEIGHT SCALE
+        weight_scale = GroupQuantScaleParameter(
+            data=torch.empty(
+                output_size_per_partition,
+                input_size_per_partition // OCP_MX_BLOCK_SIZE,
+                dtype=torch.uint8,
+            ),
+            input_dim=1,
+            output_dim=0,
+            weight_loader=weight_loader,
+        )
+        layer.register_parameter("weight_scale", weight_scale)
+
+    def apply_weights(self,
+                      layer: torch.nn.Module,
+                      x: torch.Tensor,
+                      bias: Optional[torch.Tensor] = None) -> torch.Tensor:
+
+        if self.emulate:
+            if envs.VLLM_QUARK_EMU_MEM_OPT:
+                dq_w = self.weight_quantizer(layer.weight).to(self.out_dtype)
+            else:
+                dq_w = layer.weight
+            qdq_x, _ = per_token_group_quant_mxfp4(x, OCP_MX_BLOCK_SIZE)
+            return F.linear(qdq_x, dq_w, bias)
+        else:
+            raise NotImplementedError()
diff --git a/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py b/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py
new file mode 100644
index 000000000..6312c3934
--- /dev/null
+++ b/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py
@@ -0,0 +1,45 @@
+# SPDX-License-Identifier: Apache-2.0
+from typing import Tuple
+
+import torch
+
+OCP_MX_BLOCK_SIZE = 32
+
+
+def per_token_group_quant_mxfp4(x: torch.Tensor,
+                                block_k: int,
+                                scale_calculation_mode: str = "even"
+                                ) -> Tuple[torch.Tensor, torch.Tensor]:
+    try:
+        from quark.torch.kernel.hw_emulation.hw_emulation_interface import (
+            fake_quantize_fp4_fp6_per_group_with_scale)
+        from quark.torch.quantization.utils import (even_round,
+                                                    reshape_to_blocks)
+    except ImportError as err:
+        raise ImportError("The package `amd-quark` is required to use "
+                          "MX-FP4 models. Please install it with `pip install "
+                          "amd-quark`.") from err
+
+    axis = -1
+    block_x = reshape_to_blocks(x, block_k, axis)
+    amax, _ = torch.max(torch.abs(block_x), dim=-1, keepdim=True)
+    amax = amax.squeeze(-1)
+
+    # TODO: there are other rounding strategies supported in quark and in the
+    # config.json that we do not check for here!
+    if scale_calculation_mode != "even":
+        raise NotImplementedError(
+            f"Scale calculation mode {scale_calculation_mode} is not yet "
+            "supported in MX-FP4 quantization")
+    scale = even_round(amax, "fp4")
+
+    # Apply dequantize(quantize(x)).
+    x = fake_quantize_fp4_fp6_per_group_with_scale(
+        x,
+        scale.to(x.device),
+        axis=axis,
+        group_size=block_k,
+        quant_dtype="fp4",
+    )
+
+    return x, scale
diff --git a/vllm/model_executor/model_loader/utils.py b/vllm/model_executor/model_loader/utils.py
index 42528cd7e..ddc857aeb 100644
--- a/vllm/model_executor/model_loader/utils.py
+++ b/vllm/model_executor/model_loader/utils.py
@@ -220,7 +220,7 @@ def get_model_architecture(
     # Special handling for quantized Mixtral.
     # FIXME(woosuk): This is a temporary hack.
     mixtral_supported = [
-        "fp8", "compressed-tensors", "gptq_marlin", "awq_marlin"
+        "fp8", "compressed-tensors", "gptq_marlin", "awq_marlin", "quark"
     ]
 
     if (model_config.quantization is not None
diff --git a/vllm/platforms/interface.py b/vllm/platforms/interface.py
index 5df0e9d3d..f097ecc0a 100644
--- a/vllm/platforms/interface.py
+++ b/vllm/platforms/interface.py
@@ -339,6 +339,13 @@ class Platform:
         """
         return "vllm.distributed.device_communicators.base_device_communicator.DeviceCommunicatorBase"  # noqa
 
+    @classmethod
+    def supports_mx(cls) -> bool:
+        """
+        Returns whether the current platform supports MX types.
+        """
+        return False
+
     @classmethod
     def supports_fp8(cls) -> bool:
         """
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index ff63f9656..8a4920303 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -327,6 +327,11 @@ class RocmPlatform(Platform):
     def get_device_communicator_cls(cls) -> str:
         return "vllm.distributed.device_communicators.cuda_communicator.CudaCommunicator"  # noqa
 
+    @classmethod
+    def supports_mx(cls) -> bool:
+        gcn_arch = torch.cuda.get_device_properties(0).gcnArchName
+        return any(gfx in gcn_arch for gfx in ["gfx95"])
+
     @classmethod
     def supports_fp8(cls) -> bool:
         gcn_arch = torch.cuda.get_device_properties(0).gcnArchName
-- 
GitLab


From c20ef40fd0e8663e82911f53d00a64f53beb98aa Mon Sep 17 00:00:00 2001
From: Akshat Tripathi <akshat@krai.ai>
Date: Wed, 7 May 2025 21:28:47 +0100
Subject: [PATCH 204/461] [Hardware][TPU][V1] Multi-LoRA implementation for the
 V1 TPU backend (#14238)

Signed-off-by: Akshat Tripathi <akshat@krai.ai>
Signed-off-by: Chengji Yao <chengjiyao@google.com>
Co-authored-by: Chengji Yao <chengjiyao@google.com>
---
 .../scripts/hardware_ci/run-tpu-v1-test.sh    |   3 +
 tests/lora/conftest.py                        |   2 +-
 tests/tpu/lora/__init__.py                    |   0
 tests/tpu/lora/test_lora.py                   | 124 +++++++
 tests/tpu/lora/test_pallas_kernels.py         |  73 ++++
 vllm/config.py                                |   5 +-
 vllm/lora/fully_sharded_layers.py             |  39 ++-
 vllm/lora/layers.py                           |  53 ++-
 vllm/lora/ops/xla_ops/__init__.py             |   6 +
 vllm/lora/ops/xla_ops/lora_ops.py             | 106 ++++++
 vllm/lora/ops/xla_ops/pallas.py               | 133 +++++++
 vllm/lora/punica_wrapper/punica_base.py       |  25 +-
 vllm/lora/punica_wrapper/punica_tpu.py        | 325 ++++++++++++++++++
 vllm/lora/punica_wrapper/utils.py             |   6 +-
 vllm/platforms/interface.py                   |  21 ++
 vllm/platforms/tpu.py                         |  18 +-
 vllm/v1/worker/tpu_model_runner.py            |  24 +-
 vllm/v1/worker/tpu_worker.py                  |   8 +
 vllm/worker/tpu_worker.py                     |   4 +
 19 files changed, 929 insertions(+), 46 deletions(-)
 create mode 100644 tests/tpu/lora/__init__.py
 create mode 100644 tests/tpu/lora/test_lora.py
 create mode 100644 tests/tpu/lora/test_pallas_kernels.py
 create mode 100644 vllm/lora/ops/xla_ops/__init__.py
 create mode 100644 vllm/lora/ops/xla_ops/lora_ops.py
 create mode 100644 vllm/lora/ops/xla_ops/pallas.py
 create mode 100644 vllm/lora/punica_wrapper/punica_tpu.py

diff --git a/.buildkite/scripts/hardware_ci/run-tpu-v1-test.sh b/.buildkite/scripts/hardware_ci/run-tpu-v1-test.sh
index 07b898787..cae1bffe6 100755
--- a/.buildkite/scripts/hardware_ci/run-tpu-v1-test.sh
+++ b/.buildkite/scripts/hardware_ci/run-tpu-v1-test.sh
@@ -50,6 +50,9 @@ docker run --privileged --net host --shm-size=16G -it \
     && pytest -s -v /workspace/vllm/tests/v1/entrypoints/llm/test_struct_output_generate.py \
     && echo TEST_12 \
     && pytest -s -v /workspace/vllm/tests/tpu/test_moe_pallas.py" \
+    # Disable the TPU LoRA tests until the feature is activated
+    # && echo TEST_13 \
+    # && pytest -s -v /workspace/vllm/tests/tpu/lora/" \
 
 
 # TODO: This test fails because it uses RANDOM_SEED sampling
diff --git a/tests/lora/conftest.py b/tests/lora/conftest.py
index dc433f9da..b940f7190 100644
--- a/tests/lora/conftest.py
+++ b/tests/lora/conftest.py
@@ -47,7 +47,7 @@ def dist_init():
     temp_file = tempfile.mkstemp()[1]
 
     backend = "nccl"
-    if current_platform.is_cpu():
+    if current_platform.is_cpu() or current_platform.is_tpu():
         backend = "gloo"
 
     init_distributed_environment(world_size=1,
diff --git a/tests/tpu/lora/__init__.py b/tests/tpu/lora/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tests/tpu/lora/test_lora.py b/tests/tpu/lora/test_lora.py
new file mode 100644
index 000000000..21d7fce69
--- /dev/null
+++ b/tests/tpu/lora/test_lora.py
@@ -0,0 +1,124 @@
+# SPDX-License-Identifier: Apache-2.0
+import pytest
+
+import vllm
+from vllm.lora.request import LoRARequest
+
+# This file contains tests to ensure that LoRA works correctly on the TPU
+# backend. We use a series of custom trained adapters for Qwen2.5-3B-Instruct
+# for this. The adapters are:
+# Username6568/Qwen2.5-3B-Instruct-1_plus_1_equals_x_adapter, where x ranges
+# from 1 to 4.
+
+# These adapters are trained using a standard huggingface peft training script,
+# where all the inputs are "What is 1+1? \n" and all the outputs are "x". We run
+# 100 training iterations with a training batch size of 100.
+
+
+@pytest.fixture(scope="function", autouse=True)
+def use_v1_only(monkeypatch: pytest.MonkeyPatch):
+    """
+    Since Multi-LoRA is only supported on the v1 TPU backend, set VLLM_USE_V1=1
+    for all tests in this file
+    """
+    with monkeypatch.context() as m:
+        m.setenv("VLLM_USE_V1", "1")
+        yield
+
+
+def setup_vllm(num_loras: int) -> vllm.LLM:
+    return vllm.LLM(model="Qwen/Qwen2.5-3B-Instruct",
+                    num_scheduler_steps=1,
+                    max_model_len=256,
+                    max_seq_len_to_capture=256,
+                    max_num_seqs=8,
+                    enable_lora=True,
+                    max_loras=num_loras,
+                    max_lora_rank=8)
+
+
+def test_single_lora():
+    """
+    This test ensures we can run a single LoRA adapter on the TPU backend.
+    We run "Username6568/Qwen2.5-3B-Instruct-1_plus_1_equals_1_adapter" which
+    will force Qwen2.5-3B-Instruct to claim 1+1=1.
+    """
+
+    llm = setup_vllm(1)
+
+    prompt = "What is 1+1? \n"
+
+    lora_request = LoRARequest(
+        "lora_adapter_1", 1,
+        "Username6568/Qwen2.5-3B-Instruct-1_plus_1_equals_1_adapter")
+    output = llm.generate(prompt,
+                          sampling_params=vllm.SamplingParams(max_tokens=256,
+                                                              temperature=0),
+                          lora_request=lora_request)[0].outputs[0].text
+
+    answer = output.strip()[0]
+
+    assert answer.isdigit()
+    assert int(answer) == 1
+
+
+def test_lora_hotswapping():
+    """
+    This test ensures we can run multiple LoRA adapters on the TPU backend, even
+    if we only have space to store 1.
+    
+    We run "Username6568/Qwen2.5-3B-Instruct-1_plus_1_equals_x_adapter" which
+    will force Qwen2.5-3B-Instruct to claim 1+1=x, for a range of x.
+    """
+
+    lora_name_template = \
+        "Username6568/Qwen2.5-3B-Instruct-1_plus_1_equals_{}_adapter"
+    lora_requests = [
+        LoRARequest(f"lora_adapter_{i}", i, lora_name_template.format(i))
+        for i in range(1, 5)
+    ]
+
+    llm = setup_vllm(1)
+
+    prompt = "What is 1+1? \n"
+
+    for i, req in enumerate(lora_requests):
+        output = llm.generate(prompt,
+                              sampling_params=vllm.SamplingParams(
+                                  max_tokens=256, temperature=0),
+                              lora_request=req)[0].outputs[0].text
+        answer = output.strip()[0]
+
+        assert answer.isdigit()
+        assert int(answer) == i + 1
+
+
+def test_multi_lora():
+    """
+    This test ensures we can run multiple LoRA adapters on the TPU backend, when
+    we have enough space to store all of them.
+    
+    We run "Username6568/Qwen2.5-3B-Instruct-1_plus_1_equals_x_adapter" which
+    will force Qwen2.5-3B-Instruct to claim 1+1=x, for a range of x.
+    """
+    lora_name_template = \
+        "Username6568/Qwen2.5-3B-Instruct-1_plus_1_equals_{}_adapter"
+    lora_requests = [
+        LoRARequest(f"lora_adapter_{i}", i, lora_name_template.format(i))
+        for i in range(1, 5)
+    ]
+
+    llm = setup_vllm(4)
+
+    prompt = "What is 1+1? \n"
+
+    for i, req in enumerate(lora_requests):
+        output = llm.generate(prompt,
+                              sampling_params=vllm.SamplingParams(
+                                  max_tokens=256, temperature=0),
+                              lora_request=req)[0].outputs[0].text
+
+        answer = output.strip()[0]
+
+        assert answer.isdigit()
+        assert int(output.strip()[0]) == i + 1
diff --git a/tests/tpu/lora/test_pallas_kernels.py b/tests/tpu/lora/test_pallas_kernels.py
new file mode 100644
index 000000000..8bd47de50
--- /dev/null
+++ b/tests/tpu/lora/test_pallas_kernels.py
@@ -0,0 +1,73 @@
+# SPDX-License-Identifier: Apache-2.0
+import pytest
+import torch
+
+# Required to register the custom ops
+import vllm.lora.ops.xla_ops.pallas  # noqa # pylint: disable=unused-import
+
+N_TOKENS = [16, 1024, 4096]
+HIDDEN_SIZES = [1024, 2048, 4096]
+
+DTYPES = [torch.bfloat16]
+NUM_LORA = [1, 4, 16]
+RANKS = [32, 256, 512]
+
+
+def generate_test_data(T, D, L, N, seed, dtype=torch.float32):
+    """
+    Inputs: (All integers)
+        T: Total number of tokens
+        D: Input dim
+        L: LoRA Dim
+        N: N LoRAs
+    
+    Outputs:
+        inputs:     torch.Tensor - shape (T, D)
+        loras:      torch.Tensor - shape (N, 1, L, D)
+        idxs:       torch.Tensor - shape (T, ) - all values must be in [0, N)
+        
+        ref_output: torch.Tensor - shape (T, L) - inputs @ loras[idxs].T
+    """
+    torch.manual_seed(seed)
+
+    inputs = torch.randn((T, D), device="xla", dtype=dtype)
+    loras = torch.randn((N, 1, L, D), device="xla", dtype=dtype)
+    idxs = torch.randint(0, N, (T, ), dtype=torch.int32, device="xla")
+
+    ref_output = ref_bgmv(inputs, loras, idxs)
+    return inputs, loras, idxs, ref_output
+
+
+def ref_bgmv(inputs: torch.Tensor, loras: torch.Tensor, idxs: torch.Tensor):
+    selected_loras = loras[idxs]
+    if len(selected_loras.shape) == 4:
+        selected_loras = selected_loras.squeeze(axis=1)
+
+    batch_size, output_size, input_size = selected_loras.shape
+    return (selected_loras @ inputs.reshape(
+        (batch_size, input_size, 1))).reshape((batch_size, output_size))
+
+
+# Parameterize tests with various shapes and dtypes
+@pytest.mark.parametrize("T", N_TOKENS)
+@pytest.mark.parametrize("D", HIDDEN_SIZES)
+@pytest.mark.parametrize("L", RANKS)
+@pytest.mark.parametrize("N", NUM_LORA)
+@pytest.mark.parametrize("dtype", DTYPES)
+@pytest.mark.parametrize("op_type", ["shrink", "expand"])
+@pytest.mark.parametrize("seed", [0])
+def test_bgmv_correctness(T, D, L, N, dtype, op_type, seed):
+    if op_type == "expand":
+        D, L = L, D
+
+    inputs, loras, idxs, ref_output = generate_test_data(
+        T, D, L, N, seed, dtype)
+
+    # Run bgmv
+    output = torch.ops.xla.bgmv(inputs, loras, idxs)
+
+    # Make sure we have no NaNs
+    assert not torch.any(torch.isnan(output))
+
+    # Compare with reference output
+    assert torch.allclose(output, ref_output, rtol=1e-2, atol=1e-2)
diff --git a/vllm/config.py b/vllm/config.py
index 11e4e500a..0bbf588fb 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -2694,8 +2694,8 @@ class LoRAConfig:
     lora_extra_vocab_size: int = 256
     """Maximum size of extra vocabulary that can be present in a LoRA adapter
     (added to the base model vocabulary)."""
-    # This is a constant.
-    lora_vocab_padding_size: ClassVar[int] = 256
+    lora_vocab_padding_size: ClassVar[int] = current_platform\
+        .get_lora_vocab_padding_size()
     long_lora_scaling_factors: Optional[tuple[float, ...]] = None
     """Specify multiple scaling factors (which can be different from base model
     scaling factor - see eg. Long LoRA) to allow for multiple LoRA adapters
@@ -2723,6 +2723,7 @@ class LoRAConfig:
         factors.append(self.fully_sharded_loras)
         factors.append(self.lora_dtype)
         factors.append(self.lora_extra_vocab_size)
+        factors.append(self.lora_vocab_padding_size)
         factors.append(self.long_lora_scaling_factors)
         factors.append(self.bias_enabled)
         hash_str = hashlib.md5(str(factors).encode(),
diff --git a/vllm/lora/fully_sharded_layers.py b/vllm/lora/fully_sharded_layers.py
index 41e1ec941..e195f8cf5 100644
--- a/vllm/lora/fully_sharded_layers.py
+++ b/vllm/lora/fully_sharded_layers.py
@@ -16,6 +16,7 @@ from vllm.lora.layers import (ColumnParallelLinearWithLoRA,
                               MergedQKVParallelLinearWithLoRA,
                               QKVParallelLinearWithLoRA,
                               RowParallelLinearWithLoRA)
+from vllm.platforms import current_platform
 
 if TYPE_CHECKING:
     pass
@@ -57,15 +58,25 @@ def _mcp_apply(x, bias, layer: ColumnParallelLinearWithLoRA):
         device=x.device,
     )
 
-    layer.punica_wrapper.add_shrink(buffers, x, layer.lora_a_stacked, 1.0)
+    shrunk_buffers: Optional[torch.Tensor] = layer.punica_wrapper.add_shrink(
+        buffers, x, layer.lora_a_stacked, 1.0)
+
+    if not current_platform.can_update_inplace():
+        buffers = shrunk_buffers
+
     buffers = tensor_model_parallel_all_gather(buffers)
-    layer.punica_wrapper.add_expand(output,
-                                    buffers,
-                                    layer.lora_b_stacked,
-                                    layer.lora_bias_stacked,
-                                    layer.output_slices,
-                                    offset_start=0,
-                                    add_input=True)
+
+    lora_output: Optional[torch.Tensor] = layer.punica_wrapper.add_expand(
+        output,
+        buffers,
+        layer.lora_b_stacked,
+        layer.lora_bias_stacked,
+        layer.output_slices,
+        offset_start=0,
+        add_input=True)
+
+    if not current_platform.can_update_inplace():
+        output = lora_output
 
     output = output.view(*out_orig_shape)
     # now have column partitioned and packed output
@@ -292,7 +303,11 @@ class RowParallelLinearWithShardedLoRA(RowParallelLinearWithLoRA):
             device=x.device,
         )
 
-        self.punica_wrapper.add_shrink(buffer, x, self.lora_a_stacked, 1.0)
+        shrunk_buffer: Optional[torch.Tensor] = self.punica_wrapper.add_shrink(
+            buffer, x, self.lora_a_stacked, 1.0)
+        if not current_platform.can_update_inplace():
+            buffer = shrunk_buffer
+
         buffer = tensor_model_parallel_all_reduce(buffer)
 
         # following S-LoRA, allows the fusing of all_gather and all_reduce
@@ -304,7 +319,7 @@ class RowParallelLinearWithShardedLoRA(RowParallelLinearWithLoRA):
         # NOTE offset are based on the rank.
         shard_size = self.lora_b_stacked[0].shape[2]
         offset_start = self.tp_rank * shard_size
-        self.punica_wrapper.add_expand(
+        lora_output: Optional[torch.Tensor] = self.punica_wrapper.add_expand(
             output,
             buffer,
             self.lora_b_stacked,
@@ -313,6 +328,10 @@ class RowParallelLinearWithShardedLoRA(RowParallelLinearWithLoRA):
             offset_start=offset_start,
             add_input=True,
         )
+
+        if not current_platform.can_update_inplace():
+            output = lora_output
+
         output = output.view(*out_orig_shape)
         return output
 
diff --git a/vllm/lora/layers.py b/vllm/lora/layers.py
index d9de0f3cf..6749ec16a 100644
--- a/vllm/lora/layers.py
+++ b/vllm/lora/layers.py
@@ -261,10 +261,17 @@ class VocabParallelEmbeddingWithLoRA(BaseLayerWithLoRA):
                 full_lora_a_embeddings.shape[1],
                 -1,
             )
-        self.punica_wrapper.add_lora_embedding(full_output,
-                                               full_lora_a_embeddings,
-                                               self.lora_b_stacked,
-                                               add_input=True)
+
+        lora_output: Optional[
+            torch.Tensor] = self.punica_wrapper.add_lora_embedding(
+                full_output,
+                full_lora_a_embeddings,
+                self.lora_b_stacked,
+                add_input=True)
+
+        if not current_platform.can_update_inplace():
+            full_output = lora_output
+
         return full_output.view_as(full_output_org)
 
     @classmethod
@@ -410,10 +417,13 @@ class BaseLinearLayerWithLoRA(BaseLayerWithLoRA):
             output = output.flatten(0, 1)
             x = x.flatten(0, 1)
 
-        self.punica_wrapper.add_lora_linear(output, x, self.lora_a_stacked,
-                                            self.lora_b_stacked,
-                                            self.lora_bias_stacked, 1.0,
-                                            self.output_slices)
+        lora_output: Optional[
+            torch.Tensor] = self.punica_wrapper.add_lora_linear(
+                output, x, self.lora_a_stacked, self.lora_b_stacked,
+                self.lora_bias_stacked, 1.0, self.output_slices)
+        if not current_platform.can_update_inplace():
+            output = lora_output
+
         return output
 
     @property
@@ -1133,15 +1143,23 @@ class LogitsProcessorWithLoRA(BaseLayerWithLoRA):
         torch.matmul(self.embeddings_tensors,
                      hidden_states.T,
                      out=lora_logits[:-1])
-        lora_logits[-1] = float("-inf")
+
+        neg_inf, pos_inf = current_platform.get_infinity_values(
+            lora_logits.dtype)
+
+        lora_logits[-1] = neg_inf
         lora_logits = lora_logits.mT
         indices_padded = self.punica_wrapper.sampler_indices_padded
+
+        if current_platform.is_tpu():
+            indices_padded = indices_padded[:logits.size(0)]
+
         lora_logits = (lora_logits.reshape(
             lora_logits.shape[0] * lora_logits.shape[1],
             lora_logits.shape[2],
-        ).index_select(0, indices_padded).nan_to_num_(nan=float("-inf"),
-                                                      posinf=float("inf"),
-                                                      neginf=float("-inf")))
+        ).index_select(0, indices_padded).nan_to_num_(nan=neg_inf,
+                                                      posinf=pos_inf,
+                                                      neginf=neg_inf))
 
         # HPU needs special handling to prune out dummy samples.
         if current_platform.is_hpu():
@@ -1151,10 +1169,13 @@ class LogitsProcessorWithLoRA(BaseLayerWithLoRA):
                self.base_layer.org_vocab_size:self.base_layer.org_vocab_size +
                lora_logits.shape[1]] = lora_logits
 
-        # LogitsProcessorWithLoRA always using bgmv
-        self.punica_wrapper.add_lora_logits(logits, hidden_states,
-                                            self.lora_a_stacked,
-                                            self.lora_b_stacked, 1.0)
+        lora_output: Optional[
+            torch.Tensor] = self.punica_wrapper.add_lora_logits(
+                logits, hidden_states, self.lora_a_stacked,
+                self.lora_b_stacked, 1.0)
+
+        if not current_platform.can_update_inplace():
+            logits = lora_output
 
         # Remove paddings in vocab (if any).
         logits = logits[:, :self.base_layer.vocab_size]
diff --git a/vllm/lora/ops/xla_ops/__init__.py b/vllm/lora/ops/xla_ops/__init__.py
new file mode 100644
index 000000000..94062b05d
--- /dev/null
+++ b/vllm/lora/ops/xla_ops/__init__.py
@@ -0,0 +1,6 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from vllm.lora.ops.xla_ops.lora_ops import (bgmv_expand, bgmv_expand_slice,
+                                            bgmv_shrink)
+
+__all__ = ["bgmv_expand", "bgmv_expand_slice", "bgmv_shrink"]
diff --git a/vllm/lora/ops/xla_ops/lora_ops.py b/vllm/lora/ops/xla_ops/lora_ops.py
new file mode 100644
index 000000000..acbec0cfa
--- /dev/null
+++ b/vllm/lora/ops/xla_ops/lora_ops.py
@@ -0,0 +1,106 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import torch
+
+# Required to register the custom ops
+import vllm.lora.ops.xla_ops.pallas  # noqa # pylint: disable=unused-import
+
+
+def bgmv_expand(inputs: torch.Tensor,
+                lora_b_weights: torch.Tensor,
+                output_tensor: torch.Tensor,
+                lora_indices_tensor: torch.Tensor,
+                add_inputs: bool = True):
+    """
+    Args:
+        inputs (torch.Tensor): Input tensor of shape [num_tokens, hidden_size].
+        
+        lora_b_weights (torch.Tensor): LoRA weights of shape 
+            [num_loras, lora_rank, hidden_size].
+        
+        output_tensor (torch.Tensor): output tensor of shape 
+            [num_tokens, hidden_size * num_slices].
+        
+        lora_indices_tensor (torch.Tensor): Tensor of shape [num_tokens] 
+            indicating which LoRA matrix to use for each token.
+        add_inputs (bool): Whether or not to add the input tensor to the output 
+            tensor.
+    """
+
+    outputs = torch.ops.xla.bgmv(inputs, lora_b_weights, lora_indices_tensor)
+    n_tokens = outputs.size(0)
+
+    limit = output_tensor.shape[0]
+    if outputs.shape[0] == 1 and output_tensor.shape[0] != 1:
+        limit = 1
+
+    outputs = torch.cat(
+        (outputs,
+         torch.zeros((n_tokens, output_tensor.shape[1] - outputs.shape[1]),
+                     device=outputs.device)),
+        dim=1)
+
+    if add_inputs:
+        return output_tensor + outputs[:limit, :]
+    else:
+        return outputs[:limit, :]
+
+
+def bgmv_shrink(inputs: torch.Tensor,
+                lora_b_weights: torch.Tensor,
+                output_tensor: torch.Tensor,
+                lora_indices_tensor: torch.Tensor,
+                scaling: float = 1.0):
+    """
+    Args:
+        inputs (torch.Tensor): Input tensor of shape [num_tokens, hidden_size].
+        lora_b_weights (torch.Tensor): LoRA weights of shape 
+            [num_loras, lora_rank, hidden_size].
+        output_tensor (torch.Tensor): (Unused) output tensor (placeholder).
+        lora_indices_tensor (torch.Tensor): Tensor of shape [num_tokens] 
+            indicating which LoRA matrix to use for each token.
+        scaling (float, optional): Scalar multiplier applied to the output.
+    """
+
+    return scaling * torch.ops.xla.bgmv(inputs, lora_b_weights,
+                                        lora_indices_tensor)
+
+
+def bgmv_expand_slice(inputs: torch.Tensor,
+                      lora_b_weights: torch.Tensor,
+                      output_tensor: torch.Tensor,
+                      lora_indices_tensor: torch.Tensor,
+                      slice_offset: int,
+                      slice_size: int,
+                      add_inputs: bool = True):
+    """
+    Args:
+        inputs (torch.Tensor): Input tensor of shape [num_tokens, hidden_size].
+        
+        lora_b_weights (torch.Tensor): LoRA weights of shape 
+            [num_loras, lora_rank, hidden_size].
+        
+        output_tensor (torch.Tensor): output tensor of shape 
+            [num_tokens, hidden_size * num_slices].
+        
+        lora_indices_tensor (torch.Tensor): Tensor of shape [num_tokens] 
+            indicating which LoRA matrix to use for each token.
+        add_inputs (bool): Whether or not to add the input tensor to the output 
+            tensor.
+    """
+    outputs = torch.ops.xla.bgmv(inputs, lora_b_weights, lora_indices_tensor)
+    n_tokens = outputs.size(0)
+
+    outputs = torch.cat((
+        torch.zeros((n_tokens, slice_offset), device=outputs.device),
+        outputs,
+        torch.zeros(
+            (n_tokens, output_tensor.shape[1] - (slice_offset + slice_size)),
+            device=outputs.device),
+    ),
+                        dim=1)
+
+    if add_inputs:
+        return output_tensor + outputs
+    else:
+        return outputs
diff --git a/vllm/lora/ops/xla_ops/pallas.py b/vllm/lora/ops/xla_ops/pallas.py
new file mode 100644
index 000000000..35dc30753
--- /dev/null
+++ b/vllm/lora/ops/xla_ops/pallas.py
@@ -0,0 +1,133 @@
+# SPDX-License-Identifier: Apache-2.0
+import functools
+
+import jax
+import jax.numpy as jnp
+import torch
+from jax.experimental import pallas as pl
+from jax.experimental.pallas import tpu as pltpu
+from torch.library import impl
+from torch_xla.experimental.custom_kernel import (XLA_LIB, jax_import_guard,
+                                                  make_kernel_from_pallas)
+
+# TODO: Tune these
+TOKENS_BLOCK = 16
+LORA_RANK_BLOCK = 128
+DIM_BLOCK_SIZE = 128
+
+
+def _bgmv_kernel(bT: int, bL: int, idx_ref, inp_ref, lora_ref, out_ref,
+                 acc_ref, mask_ref):
+
+    @pl.when(pl.program_id(2) == 0)
+    def _():
+        acc_ref[...] = jnp.zeros_like(acc_ref[...], dtype=jnp.float32)
+
+    t = pl.program_id(0)
+
+    for i in range(bT):
+        idx = idx_ref[i + bT * t]
+        mask_ref[...] = jnp.zeros_like(mask_ref[...], dtype=jnp.float32)
+        mask_ref[i, :] = jnp.ones((bL, ), dtype=jnp.float32)
+
+        acc_ref[...] += jax.lax.dot_general(
+            inp_ref[...],
+            lora_ref[idx, ...], (((1, ), (1, )), ((), ())),
+            preferred_element_type=jnp.float32) * mask_ref[...]
+
+    @pl.when(pl.program_id(2) == pl.num_programs(2) - 1)
+    def _():
+        out_ref[...] = acc_ref[...].astype(out_ref.dtype)
+
+
+@jax.jit
+def _bgmv(
+    idxs: jax.Array,  # (T, ) int32
+    inputs: jax.Array,  # (T, D) model dtype
+    loras: jax.Array  # (N, L, D) model dtype
+) -> jax.Array:  # (T, L) model dtype
+    T, D = inputs.shape
+    N, L, _ = loras.shape
+
+    return pl.pallas_call(
+        kernel=functools.partial(_bgmv_kernel, TOKENS_BLOCK, LORA_RANK_BLOCK),
+        out_shape=jax.ShapeDtypeStruct((T, L), dtype=inputs.dtype),
+        grid_spec=pltpu.PrefetchScalarGridSpec(
+            num_scalar_prefetch=1,
+            grid=(T // TOKENS_BLOCK, L // LORA_RANK_BLOCK,
+                  D // DIM_BLOCK_SIZE),
+            in_specs=[
+                pl.BlockSpec((TOKENS_BLOCK, DIM_BLOCK_SIZE),
+                             lambda i, j, k, block_idx: (i, k)),
+                pl.BlockSpec((N, LORA_RANK_BLOCK, DIM_BLOCK_SIZE),
+                             lambda i, j, k, block_idx: (0, j, k)),
+            ],
+            out_specs=pl.BlockSpec((TOKENS_BLOCK, LORA_RANK_BLOCK),
+                                   lambda i, j, k, block_idx: (i, j)),
+            scratch_shapes=[
+                pltpu.VMEM((TOKENS_BLOCK, LORA_RANK_BLOCK), jnp.float32),
+                pltpu.VMEM((TOKENS_BLOCK, LORA_RANK_BLOCK), jnp.float32)
+            ]),
+        compiler_params=pltpu.TPUCompilerParams(
+            dimension_semantics=("parallel", "parallel", "arbitrary")),
+        name="bgmv")(idxs, inputs, loras)
+
+
+def bgmv_shape_function(idxs, inputs, loras):
+    T, _ = inputs.shape
+    _, L, _ = loras.shape
+
+    return [((T, L), inputs.dtype)]
+
+
+XLA_LIB.define("bgmv(Tensor inputs, Tensor loras, Tensor idxs) -> Tensor", )
+
+
+@impl(XLA_LIB, "bgmv", "XLA")
+def bgmv_xla(inputs: torch.Tensor, loras: torch.Tensor, idxs: torch.IntTensor):
+    inputs = inputs.to(dtype=loras.dtype)
+
+    if len(loras.shape) == 4:
+        loras = loras.squeeze(axis=1)
+
+    jax_import_guard()
+    kernel = make_kernel_from_pallas(_bgmv, bgmv_shape_function)
+
+    T, _ = inputs.shape
+    _, L, D = loras.shape
+
+    # Pad the loras' rank if it's too low. This is to allow it to fit in a TPU
+    # register. This has to happen in pytorch, doing it in Jax will lead to NaNs
+    L1 = L
+    if LORA_RANK_BLOCK > L or L % LORA_RANK_BLOCK != 0:
+        L1 = (L // LORA_RANK_BLOCK + 1) * LORA_RANK_BLOCK
+
+    D1 = D
+    if DIM_BLOCK_SIZE > D or D % DIM_BLOCK_SIZE != 0:
+        D1 = (D // DIM_BLOCK_SIZE + 1) * DIM_BLOCK_SIZE
+
+    T1 = T
+    if TOKENS_BLOCK > T or T % TOKENS_BLOCK != 0:
+        T1 = (T // TOKENS_BLOCK + 1) * TOKENS_BLOCK
+
+    if D1 != D or L1 != L:
+        loras = torch.nn.functional.pad(loras, (0, D1 - D, 0, L1 - L, 0, 0))
+    if D1 != D or T1 != T:
+        inputs = torch.nn.functional.pad(inputs, (0, D1 - D, 0, T1 - T))
+        if T1 != T:
+            idxs = torch.nn.functional.pad(idxs, ((0, T1 - T)))
+
+    return kernel(idxs, inputs, loras)[:T, :L]
+
+
+@impl(XLA_LIB, "bgmv", "CompositeExplicitAutograd")
+def bgmv_non_xla(inputs: torch.Tensor, loras: torch.Tensor,
+                 idxs: torch.IntTensor):
+    T, _ = inputs.shape
+
+    if len(loras.shape) == 4:
+        loras = loras.squeeze(axis=1)
+
+    _, L, _ = loras.shape
+
+    return torch.empty((T, L), device=inputs.device)
diff --git a/vllm/lora/punica_wrapper/punica_base.py b/vllm/lora/punica_wrapper/punica_base.py
index 94fa3f27a..78866c518 100644
--- a/vllm/lora/punica_wrapper/punica_base.py
+++ b/vllm/lora/punica_wrapper/punica_base.py
@@ -48,7 +48,7 @@ class PunicaWrapperABC(ABC):
         lora_a_stacked: Tuple[torch.Tensor, ...],
         scale: float,
         **kwargs,
-    ) -> None:
+    ) -> Optional[torch.Tensor]:
         """
         Performs GEMM  for multiple slices of lora_a.
         """
@@ -66,7 +66,7 @@ class PunicaWrapperABC(ABC):
         offset_start: int = 0,
         add_inputs=True,
         **kwargs,
-    ) -> None:
+    ) -> Optional[torch.Tensor]:
         """
         Performs GEMM and bias addition for multiple slices of lora_b.
         """
@@ -80,7 +80,7 @@ class PunicaWrapperABC(ABC):
         lora_b_stacked: torch.Tensor,
         add_inputs: bool = True,
         **kwargs,
-    ) -> None:
+    ) -> Optional[torch.Tensor]:
         """
         Applies lora  specifically for VocabParallelEmbeddingWithLoRA, 
         and this layer only requires the expand operation.
@@ -98,7 +98,7 @@ class PunicaWrapperABC(ABC):
                         output_slices: Tuple[int, ...],
                         *,
                         buffer: Optional[Tuple[torch.Tensor, ...]] = None,
-                        **kwargs) -> None:
+                        **kwargs) -> Optional[torch.Tensor]:
         """
         Applicable to linear-related lora. 
         """
@@ -114,7 +114,7 @@ class PunicaWrapperABC(ABC):
                         scale,
                         *,
                         buffer: Optional[torch.Tensor] = None,
-                        **kwargs) -> None:
+                        **kwargs) -> Optional[torch.Tensor]:
         """
         Applies lora  specifically for LogitsProcessorWithLoRA.
         """
@@ -207,7 +207,8 @@ class PunicaWrapperBase(PunicaWrapperABC):
             self._long_lora_indices.zero_()
         self.indices_len[:] = indices_len
 
-    def _update_prefill_metada(self, token_lora_tensor: torch.Tensor) -> None:
+    def _update_prefill_metadata(self,
+                                 token_lora_tensor: torch.Tensor) -> None:
 
         (b_seq_start_tensor, seq_length_tensor, lora_indices_tensor,
          batch_size, max_length, token_nums,
@@ -334,7 +335,7 @@ class PunicaWrapperBase(PunicaWrapperABC):
                                    long_lora_context)
         if mapping.is_prefill:
             # Update metadata required for prefill-related operators.
-            self._update_prefill_metada(self.token_lora_indices)
+            self._update_prefill_metadata(self.token_lora_indices)
             self.is_prefill = True
         else:
             self.is_prefill = False
@@ -342,7 +343,7 @@ class PunicaWrapperBase(PunicaWrapperABC):
     @abstractmethod
     def add_shrink(self, y: Union[Tuple[torch.Tensor, ...], torch.Tensor],
                    x: torch.Tensor, lora_a_stacked: Tuple[torch.Tensor, ...],
-                   scale: float, **kwargs) -> None:
+                   scale: float, **kwargs) -> Optional[torch.Tensor]:
         """
         Performs GEMM  for multiple slices of lora_a.
 
@@ -369,7 +370,7 @@ class PunicaWrapperBase(PunicaWrapperABC):
                    output_slices: Tuple[int, ...],
                    offset_start: int = 0,
                    add_inputs=True,
-                   **kwargs) -> None:
+                   **kwargs) -> Optional[torch.Tensor]:
         """
         Performs GEMM and bias addition for multiple slices of lora_b.
       
@@ -401,7 +402,7 @@ class PunicaWrapperBase(PunicaWrapperABC):
                            x: torch.Tensor,
                            lora_b_stacked: torch.Tensor,
                            add_inputs: bool = True,
-                           **kwargs) -> None:
+                           **kwargs) -> Optional[torch.Tensor]:
         """
         Applies lora  specifically for VocabParallelEmbeddingWithLoRA.
         and this layer only requires the expand operation.
@@ -428,7 +429,7 @@ class PunicaWrapperBase(PunicaWrapperABC):
                         output_slices: Tuple[int, ...],
                         *,
                         buffer: Optional[Tuple[torch.Tensor, ...]] = None,
-                        **kwargs) -> None:
+                        **kwargs) -> Optional[torch.Tensor]:
         """
         Applicable to linear-related lora. 
 
@@ -463,7 +464,7 @@ class PunicaWrapperBase(PunicaWrapperABC):
                         scale,
                         *,
                         buffer: Optional[torch.Tensor] = None,
-                        **kwargs) -> None:
+                        **kwargs) -> Optional[torch.Tensor]:
         """
         Applies lora  specifically for LogitsProcessorWithLoRA.
         
diff --git a/vllm/lora/punica_wrapper/punica_tpu.py b/vllm/lora/punica_wrapper/punica_tpu.py
new file mode 100644
index 000000000..37544c755
--- /dev/null
+++ b/vllm/lora/punica_wrapper/punica_tpu.py
@@ -0,0 +1,325 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from typing import Optional, Tuple, Union
+
+import torch
+import torch.nn.functional as F
+
+from vllm.lora.ops.xla_ops import bgmv_expand, bgmv_expand_slice, bgmv_shrink
+
+from .punica_base import PunicaWrapperBase
+
+
+class PunicaWrapperTPU(PunicaWrapperBase):
+    """
+    PunicaWrapperTPU is designed to manage and provide metadata for the punica
+    kernel. The main function is to maintain the state information for
+    Multi-LoRA, and to provide the interface for the pytorch punica ops.
+    """
+
+    def __init__(self, max_num_batched_tokens: int, max_batches: int,
+                 device: Union[torch.device, str], **kwargs):
+        PunicaWrapperBase.__init__(self, max_num_batched_tokens, max_batches,
+                                   device)
+
+        # PunicaWrapperBase defines some tensors with dtype=torch.int64, which
+        # isn't supported by the TPU. So convert those tensors to int32.
+        # Not all of them are used by the TPU so only convert the useful ones.
+        self._token_lora_indices = self._token_lora_indices.to(
+            dtype=torch.int32)
+        self._sampler_indices = self._sampler_indices.to(dtype=torch.int32)
+        self._sampler_indices_padded = self._sampler_indices_padded.to(
+            dtype=torch.int32)
+
+        torch._dynamo.mark_dynamic(self._token_lora_indices, 0)
+        torch._dynamo.mark_dynamic(self._embeddings_indices, 1)
+        torch._dynamo.mark_dynamic(self._sampler_indices_padded, 0)
+
+    def _get_token_lora_indices(self, x: torch.Tensor) -> torch.IntTensor:
+        return torch.narrow(self._token_lora_indices, 0, 0, x.size(0))
+
+    @property
+    def embeddings_indices(self) -> torch.Tensor:
+        """
+        This property provides access to the indices used for lora embeddings,
+        specifically for VocabParallelEmbeddingWithLoRA.
+        """
+        return self._embeddings_indices[:]
+
+    @property
+    def sampler_indices_padded(self) -> torch.Tensor:
+        """
+        This property provides access to padded sampler indices.
+        """
+        return self._sampler_indices_padded[:]
+
+    def shrink(
+        self,
+        y: torch.Tensor,
+        x: torch.Tensor,
+        w_t_all: torch.Tensor,
+        scale: float,
+    ):
+        if self.no_lora:
+            return y
+        return bgmv_shrink(x, w_t_all, y, self._get_token_lora_indices(x),
+                           scale)
+
+    def expand(self, y: torch.Tensor, x: torch.Tensor, w_t_all: torch.Tensor,
+               add_inputs: bool):
+        return bgmv_expand(x, w_t_all, y, self._get_token_lora_indices(x),
+                           add_inputs)
+
+    def expand_slice(self, y: torch.Tensor, x: torch.Tensor,
+                     w_t_all: torch.Tensor, y_offset: int, y_slice_size: int,
+                     y_total_size: int, add_inputs: bool) -> torch.Tensor:
+        return bgmv_expand_slice(x, w_t_all, y,
+                                 self._get_token_lora_indices(x), y_offset,
+                                 y_slice_size, add_inputs)
+
+    def add_shrink(self, y: Union[Tuple[torch.Tensor, ...], torch.Tensor],
+                   x: torch.Tensor, lora_a_stacked: Tuple[torch.Tensor, ...],
+                   scale: float, **kwargs) -> Optional[torch.Tensor]:
+        """
+        Performs GEMM for multiple slices of lora_a.
+
+        Semantics:
+        for i in range(len(lora_a_stacked)):
+            y[i] += (x @ lora_a_stacked[i]) * scale
+
+        Args:
+            y (Union[Tuple[torch.Tensor, ...], torch.Tensor]): Output tensors
+            x (torch.Tensor): Input tensor
+            lora_a_stacked (Tuple[torch.Tensor, ...]): lora_a's weights
+            scale (float): Scaling factor for the operation
+        """
+
+        torch.ops.xla.dynamo_set_buffer_donor_(y, True)
+        x = x.view(-1, x.shape[-1])
+
+        for slice_idx in range(len(lora_a_stacked)):
+            y_s = y[slice_idx]
+            lora_s = lora_a_stacked[slice_idx]
+            y_s = self.shrink(y_s, x, lora_s, scale)
+            y[slice_idx, :, :] = y_s  # type: ignore[index]
+        return y
+
+    def add_expand(self,
+                   y: torch.Tensor,
+                   x: Union[Tuple[torch.Tensor, ...], torch.Tensor],
+                   lora_b_stacked: Tuple[torch.Tensor, ...],
+                   lora_bias_stacked: Optional[Tuple[torch.Tensor, ...]],
+                   output_slices: Tuple[int, ...],
+                   offset_start: int = 0,
+                   add_inputs=True,
+                   **kwargs) -> torch.Tensor:
+        """
+        Performs GEMM and bias addition for multiple slices of lora_b.
+
+        Semantics:
+            for i in range(len(lora_b_stacked)):
+                slice = output_slices[i]
+                y[:, offset:offset+slice] += x[i] @ lora_b_stacked[i] +
+                    lora_bias_stacked[i]
+                offset += slice
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (Union[Tuple[torch.Tensor, ...], torch.Tensor]): Input tensors
+            lora_b_stacked (Tuple[torch.Tensor, ...]): lora_b's weight
+            lora_bias_stacked (Optional[Tuple[torch.Tensor, ...]]):
+                bias's weight
+            output_slices (Tuple[int, ...]): Every slice's size
+            add_inputs (bool):  Defaults to True.
+        """
+        y_org = y
+        y = y.view(-1, y.shape[-1])
+        offset_left = 0
+
+        if lora_bias_stacked is not None:
+            y = self._apply_bias(self._get_token_lora_indices(y), y,
+                                 output_slices, lora_bias_stacked)
+        for slice_idx in range(len(lora_b_stacked)):
+            y = self.expand_slice(
+                y,
+                x[slice_idx],
+                lora_b_stacked[slice_idx],
+                offset_left,
+                output_slices[slice_idx],
+                y_total_size=sum(output_slices),
+                add_inputs=add_inputs,
+            )
+            offset_left += output_slices[slice_idx]
+        return y.view_as(y_org)
+
+    def add_lora_embedding(self,
+                           y: torch.Tensor,
+                           x: torch.Tensor,
+                           lora_b_stacked: torch.Tensor,
+                           add_inputs: bool = True,
+                           **kwargs) -> torch.Tensor:
+        """
+        Applies lora  specifically for VocabParallelEmbeddingWithLoRA.
+
+        Semantics:
+            y += x @ lora_b_stacked
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (torch.Tensor): Input tensor.
+            lora_b_stacked (torch.Tensor): lora_b's weights.
+            add_inputs (bool): Default to True.
+        """
+
+        # Embedding layer only needs the expand op
+        return self.expand(y, x, lora_b_stacked, add_inputs)
+
+    def add_lora_linear(self,
+                        y: torch.Tensor,
+                        x: torch.Tensor,
+                        lora_a_stacked: Tuple[torch.Tensor, ...],
+                        lora_b_stacked: Tuple[torch.Tensor, ...],
+                        lora_bias_stacked: Optional[Tuple[torch.Tensor, ...]],
+                        scale: float,
+                        output_slices: Tuple[int, ...],
+                        *,
+                        buffer: Optional[Tuple[torch.Tensor, ...]] = None,
+                        **kwargs) -> torch.Tensor:
+        """
+        Applicable to linear-related lora.
+
+        Semantics:
+            for i in range(len(lora_a_stacked)):
+                y[i] += (
+                    x[i].unsqueeze(0)
+                    @ lora_a_stacked[indices[i], layer_idx, :, :]
+                    @ lora_b_stacked[indices[i], layer_idx, :, :]
+                    * scale
+                    ).squeeze(0)+lora_bias_stacked[i]
+
+        Args:
+            y (torch.Tensor): Output tensor. Will not be changed in-place.
+            x (torch.Tensor): Input tensor (T, E)
+            lora_a_stacked (Tuple[torch.Tensor, ...]): lora_a's weight.
+            lora_b_stacked (Tuple[torch.Tensor, ...]): lora_b's weight.
+            lora_bias_stacked (Optional[Tuple[torch.Tensor, ...]]): lora's bias.
+            scale (float): Scaling factor.
+            output_slices (Tuple[int, ...]): Every slice's size.
+            buffer (Optional[Tuple[torch.Tensor, ...]]): Defaults to None.
+        """
+
+        assert len(lora_a_stacked) == len(lora_b_stacked) == len(output_slices)
+        if lora_bias_stacked is not None:
+            assert len(lora_bias_stacked) == len(output_slices)
+            y = self._apply_bias(self._get_token_lora_indices(y), y,
+                                 output_slices, lora_bias_stacked)
+
+        if buffer is None:
+            r = lora_b_stacked[0].size(-1)
+            # We set the buffer to be float32 by default, consistent with the
+            # triton op
+            T = x.size(0)
+            buffer = torch.zeros(
+                (len(output_slices), T, r),
+                dtype=torch.float32,
+                device=x.device,
+            )
+        buffer = self.add_shrink(buffer, x, lora_a_stacked, scale, **kwargs)
+        return self.add_expand(y,
+                               buffer,
+                               lora_b_stacked,
+                               None,
+                               output_slices,
+                               add_inputs=True,
+                               **kwargs)
+
+    def add_lora_logits(self,
+                        y: torch.Tensor,
+                        x: torch.Tensor,
+                        lora_a_stacked: torch.Tensor,
+                        lora_b_stacked: torch.Tensor,
+                        scale,
+                        *,
+                        buffer: Optional[torch.Tensor] = None,
+                        **kwargs) -> torch.Tensor:
+        """
+        Applies lora specifically for LogitsProcessorWithLoRA.
+
+        Semantics:
+            buffer = (x @ lora_a_stacked) * scale
+            y += buffer @ lora_b_stacked
+
+        Args:
+            y (torch.Tensor): Output tensor.
+            x (torch.Tensor): Input tensor.
+            lora_a_stacked (torch.Tensor): lora_a's weights.
+            lora_b_stacked (torch.Tensor):lora_b's weights.
+            scale (float): Scaling factor.
+            buffer (Optional[torch.Tensor]):Default to None.
+        """
+        if self.no_lora:
+            return y
+
+        y_org = y
+        y = y.view(-1, y.shape[-1])
+        x = x.view(-1, x.shape[-1])
+        r = lora_b_stacked.size(-1)
+        if buffer is None:
+            # We set the buffer to be float32 by default, consistent with the
+            # triton op
+            buffer = torch.zeros((x.size(0), r),
+                                 dtype=torch.float32,
+                                 device=x.device)
+
+        buffer = bgmv_shrink(x, lora_a_stacked, buffer, self.sampler_indices,
+                             scale)
+        y = bgmv_expand(buffer,
+                        lora_b_stacked,
+                        y,
+                        self.sampler_indices,
+                        add_inputs=True)
+        return y.view_as(y_org)
+
+    def _apply_bias(
+        self,
+        indices: torch.Tensor,
+        output: torch.Tensor,
+        output_slices: Tuple[int, ...],
+        lora_bias_stacked: Tuple[Optional[torch.Tensor], ...],
+    ):
+        """Applies bias to output
+
+        Input shapes:
+            lora_bias_stacked:      3 element tuple of (num_loras, output_dim)
+            indices:           (batch_size)
+            output:            (batch_size, q_slice_size + 2*kv_slice_size)
+            output_slices:     n-1 element tuple of (slice_size...),
+                            where n is number of slices
+        """
+        org_output = output
+        output = output.view(-1, output.shape[-1])
+        indices = indices.view(-1)
+
+        offset_left = 0
+        for slice_idx, slice in enumerate(output_slices):
+            bias = lora_bias_stacked[slice_idx]
+            if bias is not None:
+                bias = bias.view(-1, bias.shape[-1])
+                bias = bias[indices]
+                bias = torch.where(indices[:, None] == -1, 0, bias)
+
+                bias = F.pad(bias, (offset_left, output.shape[1] -
+                                    (offset_left + slice), 0, 0))
+
+                output += bias
+            offset_left += slice
+
+        return output.view_as(org_output)
+
+    def _update_prefill_metadata(self,
+                                 token_lora_tensor: torch.Tensor) -> None:
+        self.batch_size = 1
+        self._lora_indices_per_batch[:self.batch_size].copy_(
+            token_lora_tensor[:self.batch_size])
+        # TODO: .item() is extremely inefficient on TPU, so find a way around it
+        self.no_lora = torch.all(token_lora_tensor == -1).item()
diff --git a/vllm/lora/punica_wrapper/utils.py b/vllm/lora/punica_wrapper/utils.py
index dbc2d27c5..f4e5542b1 100644
--- a/vllm/lora/punica_wrapper/utils.py
+++ b/vllm/lora/punica_wrapper/utils.py
@@ -125,11 +125,13 @@ def convert_mapping(
         indices[2] * extra_vocab_size,
         indices[2] * (vocab_size + extra_vocab_size),
     ])
-    embeddings_indices[embeddings_indices == -1] = max_loras - 1
+    embeddings_indices = torch.where(embeddings_indices == -1, max_loras - 1,
+                                     embeddings_indices)
     base_indices = indices[1]
     sampler_indices = prompt_mapping_tensor
     sampler_indices_padded = sampler_indices.clone()
-    sampler_indices_padded[sampler_indices_padded == -1] = max_loras - 1
+    sampler_indices_padded = torch.where(sampler_indices_padded == -1,
+                                         max_loras - 1, sampler_indices_padded)
     sampler_indices_padded = torch.arange(
         0, len(sampler_indices_padded), device=device, dtype=torch.long) + (
             sampler_indices_padded * len(sampler_indices_padded))
diff --git a/vllm/platforms/interface.py b/vllm/platforms/interface.py
index f097ecc0a..531b13da0 100644
--- a/vllm/platforms/interface.py
+++ b/vllm/platforms/interface.py
@@ -332,6 +332,27 @@ class Platform:
         """
         raise NotImplementedError
 
+    @classmethod
+    def get_infinity_values(cls, dtype: torch.dtype) -> Tuple[float, float]:
+        """
+        Return the platform specific values for (-inf, inf)
+        """
+        return float("-inf"), float("inf")
+
+    @classmethod
+    def can_update_inplace(cls) -> bool:
+        """
+        Checks if the platform allows inplace memory updates
+        """
+        return True
+
+    @classmethod
+    def get_lora_vocab_padding_size(cls) -> int:
+        """
+        Returns how much padding the LoRA logits need for kernels
+        """
+        return 256
+
     @classmethod
     def get_device_communicator_cls(cls) -> str:
         """
diff --git a/vllm/platforms/tpu.py b/vllm/platforms/tpu.py
index 8c968e7df..2782a3866 100644
--- a/vllm/platforms/tpu.py
+++ b/vllm/platforms/tpu.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import TYPE_CHECKING, Optional, Union
+from typing import TYPE_CHECKING, Optional, Tuple, Union
 
 import torch
 from tpu_info import device
@@ -67,6 +67,22 @@ class TpuPlatform(Platform):
     def is_async_output_supported(cls, enforce_eager: Optional[bool]) -> bool:
         return not envs.VLLM_USE_V1
 
+    @classmethod
+    def get_punica_wrapper(cls) -> str:
+        return "vllm.lora.punica_wrapper.punica_tpu.PunicaWrapperTPU"
+
+    @classmethod
+    def get_infinity_values(cls, dtype: torch.dtype) -> Tuple[float, float]:
+        return torch.finfo(dtype).min, torch.finfo(dtype).max
+
+    @classmethod
+    def can_update_inplace(cls):
+        return False
+
+    @classmethod
+    def get_lora_vocab_padding_size(cls) -> int:
+        return 1
+
     @classmethod
     def inference_mode(cls):
         return torch.no_grad()
diff --git a/vllm/v1/worker/tpu_model_runner.py b/vllm/v1/worker/tpu_model_runner.py
index f5626abb2..be059c304 100644
--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@@ -39,6 +39,7 @@ from vllm.v1.sample.tpu.metadata import TPUSupportedSamplingMetadata
 from vllm.v1.sample.tpu.sampler import Sampler as TPUSampler
 from vllm.v1.utils import bind_kv_cache
 from vllm.v1.worker.gpu_input_batch import CachedRequestState, InputBatch
+from vllm.v1.worker.lora_model_runner_mixin import LoRAModelRunnerMixin
 
 from .utils import sanity_check_mm_encoder_outputs
 
@@ -90,7 +91,7 @@ MIN_NUM_SEQS = 8
 # The dummy_run should be comprehensive, ensuring all potential input shapes and
 # branch predictions are included as subgraph inputs to facilitate
 # pre-compilation.
-class TPUModelRunner:
+class TPUModelRunner(LoRAModelRunnerMixin):
 
     def __init__(
         self,
@@ -568,6 +569,17 @@ class TPUModelRunner:
             self.device)
         seq_lens = self.seq_lens_cpu[:self.max_num_reqs].to(self.device)
 
+        if self.lora_config is not None:
+            # We need to respect padding when activating LoRA adapters
+            padded_num_scheduled_tokens_per_req = np.copy(
+                num_scheduled_tokens_per_req
+            )  # Copying to avoid accidental state corruption bugs
+            padded_num_scheduled_tokens_per_req[-1] += \
+                padded_total_num_scheduled_tokens - total_num_scheduled_tokens
+
+            self.set_active_loras(self.input_batch,
+                                  padded_num_scheduled_tokens_per_req)
+
         attn_metadata = PallasMetadata(
             slot_mapping=slot_mapping,
             block_tables=block_tables,
@@ -907,6 +919,11 @@ class TPUModelRunner:
                 "get_tensor_model_parallel_rank",
                 return_value=xm_tp_rank):
             model = get_model(vllm_config=self.vllm_config)
+        if self.lora_config is not None:
+            model = self.load_lora_model(model, self.model_config,
+                                         self.scheduler_config,
+                                         self.lora_config, self.device)
+
         # Sync all pending XLA execution during model initialization and weight
         # loading.
         xm.mark_step()
@@ -970,7 +987,10 @@ class TPUModelRunner:
             for layer_name in layer_names
         }
 
-        with set_forward_context(per_layer_attn_metadata, self.vllm_config, 0):
+        with self.maybe_dummy_run_with_lora(
+                self.lora_config,
+                np.array([num_tokens], dtype=np.int32)), set_forward_context(
+                    per_layer_attn_metadata, self.vllm_config, 0):
             out = self.model(input_ids=input_ids,
                              positions=position_ids,
                              inputs_embeds=inputs_embeds)
diff --git a/vllm/v1/worker/tpu_worker.py b/vllm/v1/worker/tpu_worker.py
index de676541e..9eea26d85 100644
--- a/vllm/v1/worker/tpu_worker.py
+++ b/vllm/v1/worker/tpu_worker.py
@@ -15,6 +15,7 @@ from vllm.config import ParallelConfig, VllmConfig
 from vllm.distributed import (ensure_model_parallel_initialized,
                               init_distributed_environment)
 from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
 from vllm.model_executor import set_random_seed
 from vllm.utils import STR_DTYPE_TO_TORCH_DTYPE
 from vllm.v1.core.sched.output import SchedulerOutput
@@ -82,6 +83,10 @@ class TPUWorker:
         if self.model_config.seed is None:
             self.model_config.seed = 0
 
+        if vllm_config.lora_config is not None:
+            raise NotImplementedError(
+                "The V1 TPU backend doesn't support LoRA serving")
+
     def init_device(self):
         os.environ["PJRT_DEVICE"] = "TPU"
         # Note: Currently the XLA compiler wrongly uses 2D ring strategy on 1D
@@ -211,6 +216,9 @@ class TPUWorker:
             else:
                 xp.stop_trace()
 
+    def add_lora(self, lora_request: LoRARequest) -> bool:
+        return self.model_runner.add_lora(lora_request)
+
     def load_model(self) -> None:
         self.model_runner.load_model()
 
diff --git a/vllm/worker/tpu_worker.py b/vllm/worker/tpu_worker.py
index bbcc4d59a..4bb9bea02 100644
--- a/vllm/worker/tpu_worker.py
+++ b/vllm/worker/tpu_worker.py
@@ -54,6 +54,10 @@ class TPUWorker(LoRANotSupportedWorkerBase, LocalOrDistributedWorkerBase):
         if self.model_config.seed is None:
             self.model_config.seed = 0
 
+        if vllm_config.lora_config is not None:
+            raise NotImplementedError(
+                "The V0 TPU backend doesn't support LoRA serving")
+
     def init_device(self) -> None:
         os.environ["PJRT_DEVICE"] = "TPU"
         torch.set_grad_enabled(False)
-- 
GitLab


From ed5272cf217cf81f004523a8e7ec67e65aa489c0 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Wed, 7 May 2025 14:55:04 -0700
Subject: [PATCH 205/461] [BugFix] Avoid secondary missing
 `MultiprocExecutor.workers` error (#17811)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 vllm/v1/executor/multiproc_executor.py | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/vllm/v1/executor/multiproc_executor.py b/vllm/v1/executor/multiproc_executor.py
index ff4499010..74b226b45 100644
--- a/vllm/v1/executor/multiproc_executor.py
+++ b/vllm/v1/executor/multiproc_executor.py
@@ -258,9 +258,10 @@ class MultiprocExecutor(Executor):
                 self.io_thread_pool.shutdown(wait=False, cancel_futures=True)
                 self.io_thread_pool = None
 
-            for w in self.workers:
-                w.worker_response_mq = None
-            self._ensure_worker_termination([w.proc for w in self.workers])
+            if workers := getattr(self, 'workers', None):
+                for w in workers:
+                    w.worker_response_mq = None
+                self._ensure_worker_termination([w.proc for w in workers])
 
         self.rpc_broadcast_mq = None
 
-- 
GitLab


From d43f914d42dc00a59ca8b6d26363cf02b3b898b2 Mon Sep 17 00:00:00 2001
From: Wallas Henrique <wallashss@users.noreply.github.com>
Date: Wed, 7 May 2025 19:15:09 -0300
Subject: [PATCH 206/461] [Core][Feature] Input metadata dump on crash (#13407)

Signed-off-by: Wallas Santos <wallashss@ibm.com>
---
 .github/ISSUE_TEMPLATE/400-bug-report.yml     |  2 +-
 .../test_basic_correctness.py                 | 49 +++++++++--
 vllm/logging_utils/dump_input.py              | 84 +++++++++++++++++++
 vllm/v1/core/sched/output.py                  | 27 ++++++
 vllm/v1/engine/core.py                        | 16 +++-
 5 files changed, 169 insertions(+), 9 deletions(-)
 create mode 100644 vllm/logging_utils/dump_input.py

diff --git a/.github/ISSUE_TEMPLATE/400-bug-report.yml b/.github/ISSUE_TEMPLATE/400-bug-report.yml
index 637d2dd11..00b0f024c 100644
--- a/.github/ISSUE_TEMPLATE/400-bug-report.yml
+++ b/.github/ISSUE_TEMPLATE/400-bug-report.yml
@@ -75,7 +75,7 @@ body:
       ```
 
       ```
-      The error message you got, with the full traceback.
+      The error message you got, with the full traceback and the error logs with [dump_input.py:##] if present.
       ```
   validations:
     required: true
diff --git a/tests/basic_correctness/test_basic_correctness.py b/tests/basic_correctness/test_basic_correctness.py
index 1458f0893..9f3b0e8ae 100644
--- a/tests/basic_correctness/test_basic_correctness.py
+++ b/tests/basic_correctness/test_basic_correctness.py
@@ -5,11 +5,13 @@ Run `pytest tests/basic_correctness/test_basic_correctness.py`.
 """
 import os
 import weakref
+from unittest.mock import Mock
 
 import pytest
 
 from vllm import LLM
 from vllm.platforms import current_platform
+from vllm.v1.engine.llm_engine import LLMEngine as LLMEngineV1
 
 from ..conftest import VllmRunner
 from ..models.utils import check_outputs_equal
@@ -152,9 +154,44 @@ def test_models_distributed(
         with hf_runner(model, dtype=dtype) as hf_model:
             hf_outputs = hf_model.generate_greedy(example_prompts, max_tokens)
 
-        check_outputs_equal(
-            outputs_0_lst=hf_outputs,
-            outputs_1_lst=vllm_outputs,
-            name_0="hf",
-            name_1="vllm",
-        )
+    check_outputs_equal(
+        outputs_0_lst=hf_outputs,
+        outputs_1_lst=vllm_outputs,
+        name_0="hf",
+        name_1="vllm",
+    )
+
+
+def test_failed_model_execution(vllm_runner, monkeypatch) -> None:
+
+    from vllm.envs import VLLM_USE_V1
+
+    if not VLLM_USE_V1:
+        pytest.skip("Skipping V0 test, dump input not supported")
+
+    # Needed to mock an error in the same process
+    monkeypatch.setenv('VLLM_ENABLE_V1_MULTIPROCESSING', '0')
+
+    with vllm_runner('facebook/opt-125m', enforce_eager=True) as vllm_model:
+        if isinstance(vllm_model.model.llm_engine, LLMEngineV1):
+            v1_test_failed_model_execution(vllm_model)
+
+
+def v1_test_failed_model_execution(vllm_model):
+
+    engine = vllm_model.model.llm_engine
+    mocked_execute_model = Mock(
+        side_effect=RuntimeError("Mocked Critical Error"))
+    engine.engine_core.engine_core.model_executor.execute_model =\
+                mocked_execute_model
+
+    with pytest.raises(RuntimeError) as exc_info:
+        prompts = [
+            "Hello, my name is",
+            "The president of the United States is",
+            "The capital of France is",
+            "The future of AI is",
+        ]
+        vllm_model.generate_greedy(prompts, 200, use_tqdm=False)
+    assert isinstance(exc_info.value, RuntimeError)
+    assert "Mocked Critical Error" in str(exc_info.value)
diff --git a/vllm/logging_utils/dump_input.py b/vllm/logging_utils/dump_input.py
new file mode 100644
index 000000000..169e24794
--- /dev/null
+++ b/vllm/logging_utils/dump_input.py
@@ -0,0 +1,84 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import contextlib
+import enum
+import json
+from typing import Optional
+
+import torch
+
+from vllm.config import VllmConfig
+from vllm.logger import init_logger
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.metrics.stats import SchedulerStats
+from vllm.version import __version__ as VLLM_VERSION
+
+logger = init_logger(__name__)
+
+
+def prepare_object_to_dump(obj) -> str:
+    if isinstance(obj, str):
+        return "'{obj}'"  # Double quotes
+    elif isinstance(obj, dict):
+        dict_str = ', '.join({f'{str(k)}: {prepare_object_to_dump(v)}' \
+            for k, v in obj.items()})
+        return f'{{{dict_str}}}'
+    elif isinstance(obj, list):
+        return f"[{', '.join([prepare_object_to_dump(v) for v in obj])}]"
+    elif isinstance(obj, set):
+        return f"[{', '.join([prepare_object_to_dump(v) for v in list(obj)])}]"
+        # return [prepare_object_to_dump(v) for v in list(obj)]
+    elif isinstance(obj, tuple):
+        return f"[{', '.join([prepare_object_to_dump(v) for v in obj])}]"
+    elif isinstance(obj, enum.Enum):
+        return repr(obj)
+    elif isinstance(obj, torch.Tensor):
+        # We only print the 'draft' of the tensor to not expose sensitive data
+        # and to get some metadata in case of CUDA runtime crashed
+        return (f"Tensor(shape={obj.shape}, "
+                f"device={obj.device},"
+                f"dtype={obj.dtype})")
+    elif hasattr(obj, 'anon_repr'):
+        return obj.anon_repr()
+    elif hasattr(obj, '__dict__'):
+        items = obj.__dict__.items()
+        dict_str = ','.join([f'{str(k)}={prepare_object_to_dump(v)}' \
+            for k, v in items])
+        return (f"{type(obj).__name__}({dict_str})")
+    else:
+        # Hacky way to make sure we can serialize the object in JSON format
+        try:
+            return json.dumps(obj)
+        except (TypeError, OverflowError):
+            return repr(obj)
+
+
+def dump_engine_exception(config: VllmConfig,
+                          scheduler_output: SchedulerOutput,
+                          scheduler_stats: Optional[SchedulerStats]):
+    # NOTE: ensure we can log extra info without risking raises
+    # unexpected errors during logging
+    with contextlib.suppress(BaseException):
+        _dump_engine_exception(config, scheduler_output, scheduler_stats)
+
+
+def _dump_engine_exception(config: VllmConfig,
+                           scheduler_output: SchedulerOutput,
+                           scheduler_stats: Optional[SchedulerStats]):
+    logger.error("Dumping input data")
+
+    logger.error(
+        "V1 LLM engine (v%s) with config: %s, ",
+        VLLM_VERSION,
+        config,
+    )
+
+    try:
+        dump_obj = prepare_object_to_dump(scheduler_output)
+        logger.error("Dumping scheduler output for model execution:")
+        logger.error(dump_obj)
+        if scheduler_stats:
+            logger.error(scheduler_stats)
+    except BaseException as exception:
+        logger.error("Error preparing object to dump")
+        logger.error(repr(exception))
diff --git a/vllm/v1/core/sched/output.py b/vllm/v1/core/sched/output.py
index 928fb231a..24032498e 100644
--- a/vllm/v1/core/sched/output.py
+++ b/vllm/v1/core/sched/output.py
@@ -48,6 +48,33 @@ class NewRequestData:
             lora_request=request.lora_request,
         )
 
+    def __repr__(self):
+        return (f"NewRequestData("
+                f"req_id={self.req_id},"
+                f"prompt_token_ids={self.prompt_token_ids},"
+                f"mm_inputs={self.mm_inputs},"
+                f"mm_hashes={self.mm_hashes},"
+                f"mm_positions={self.mm_positions},"
+                f"sampling_params={self.sampling_params},"
+                f"block_ids={self.block_ids},"
+                f"num_computed_tokens={self.num_computed_tokens},"
+                f"lora_request={self.lora_request}"
+                ")")
+
+    # Version of __repr__ with the prompt data obfuscated
+    def anon_repr(self):
+        return (f"NewRequestData("
+                f"req_id={self.req_id},"
+                f"prompt_token_ids_len={len(self.prompt_token_ids)},"
+                f"mm_inputs={self.mm_inputs},"
+                f"mm_hashes={self.mm_hashes},"
+                f"mm_positions={self.mm_positions},"
+                f"sampling_params={self.sampling_params},"
+                f"block_ids={self.block_ids},"
+                f"num_computed_tokens={self.num_computed_tokens},"
+                f"lora_request={self.lora_request}"
+                ")")
+
 
 @dataclass
 class CachedRequestData:
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index e772615b7..d9dd4957c 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -19,6 +19,7 @@ from vllm.config import ParallelConfig, VllmConfig
 from vllm.distributed import stateless_destroy_torch_distributed_process_group
 from vllm.executor.multiproc_worker_utils import _add_prefix
 from vllm.logger import init_logger
+from vllm.logging_utils.dump_input import dump_engine_exception
 from vllm.lora.request import LoRARequest
 from vllm.transformers_utils.config import (
     maybe_register_config_serialize_by_value)
@@ -56,6 +57,7 @@ class EngineCore:
                  executor_fail_callback: Optional[Callable] = None):
         assert vllm_config.model_config.runner_type != "pooling"
 
+        self.vllm_config = vllm_config
         logger.info("Initializing a V1 LLM engine (v%s) with config: %s",
                     VLLM_VERSION, vllm_config)
 
@@ -191,6 +193,16 @@ class EngineCore:
         self.scheduler.finish_requests(request_ids,
                                        RequestStatus.FINISHED_ABORTED)
 
+    def execute_model(self, scheduler_output: SchedulerOutput):
+        try:
+            return self.model_executor.execute_model(scheduler_output)
+        except BaseException as err:
+            # NOTE: This method is exception-free
+            dump_engine_exception(self.vllm_config, scheduler_output,
+                                  self.scheduler.make_stats())
+            # Re-raise exception
+            raise err
+
     def step(self) -> EngineCoreOutputs:
         """Schedule, execute, and make output."""
 
@@ -202,9 +214,9 @@ class EngineCore:
                 scheduler_stats=self.scheduler.make_stats(),
             )
         scheduler_output = self.scheduler.schedule()
-        output = self.model_executor.execute_model(scheduler_output)
+        model_output = self.execute_model(scheduler_output)
         engine_core_outputs = self.scheduler.update_from_output(
-            scheduler_output, output)  # type: ignore
+            scheduler_output, model_output)  # type: ignore
 
         return engine_core_outputs
 
-- 
GitLab


From a8238bbdb086d2e25a6c1a16b3438e0ffeb0de89 Mon Sep 17 00:00:00 2001
From: Aaron Pham <contact@aarnphm.xyz>
Date: Wed, 7 May 2025 21:48:57 -0400
Subject: [PATCH 207/461] [Chore][Doc] uses model id determined from OpenAI
 client (#17815)

Signed-off-by: Aaron Pham <contact@aarnphm.xyz>
---
 .../online_serving/openai_chat_completion_structured_outputs.py | 2 +-
 .../openai_chat_completion_structured_outputs_structural_tag.py | 2 +-
 .../openai_chat_completion_structured_outputs_with_reasoning.py | 2 +-
 3 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/examples/online_serving/openai_chat_completion_structured_outputs.py b/examples/online_serving/openai_chat_completion_structured_outputs.py
index 9c57af1c1..660369e55 100644
--- a/examples/online_serving/openai_chat_completion_structured_outputs.py
+++ b/examples/online_serving/openai_chat_completion_structured_outputs.py
@@ -138,7 +138,7 @@ def main():
         api_key="-",
     )
 
-    model = "Qwen/Qwen2.5-3B-Instruct"
+    model = client.models.list().data[0].id
 
     print("Guided Choice Completion:")
     print(guided_choice_completion(client, model))
diff --git a/examples/online_serving/openai_chat_completion_structured_outputs_structural_tag.py b/examples/online_serving/openai_chat_completion_structured_outputs_structural_tag.py
index b807bc540..42aa12c45 100644
--- a/examples/online_serving/openai_chat_completion_structured_outputs_structural_tag.py
+++ b/examples/online_serving/openai_chat_completion_structured_outputs_structural_tag.py
@@ -59,7 +59,7 @@ and San Francisco?
     }]
 
     response = client.chat.completions.create(
-        model="meta-llama/Llama-3.1-8B-Instruct",
+        model=client.models.list().data[0].id,
         messages=messages,
         response_format={
             "type":
diff --git a/examples/online_serving/openai_chat_completion_structured_outputs_with_reasoning.py b/examples/online_serving/openai_chat_completion_structured_outputs_with_reasoning.py
index 5da9236c5..a04f0cdf1 100644
--- a/examples/online_serving/openai_chat_completion_structured_outputs_with_reasoning.py
+++ b/examples/online_serving/openai_chat_completion_structured_outputs_with_reasoning.py
@@ -4,7 +4,7 @@ An example shows how to generate structured outputs from reasoning models
 like DeepSeekR1. The thinking process will not be guided by the JSON
 schema provided by the user. Only the final output will be structured.
 
-To run this example, you need to start the vLLM server with the reasoning 
+To run this example, you need to start the vLLM server with the reasoning
 parser:
 
 ```bash
-- 
GitLab


From 66ab3b13c9a0ebf71ce2d445f8620018ba2e8443 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Thu, 8 May 2025 05:06:39 +0100
Subject: [PATCH 208/461] Don't call the venv `vllm` (#17810)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .../getting_started/installation/python_env_setup.inc.md      | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/docs/source/getting_started/installation/python_env_setup.inc.md b/docs/source/getting_started/installation/python_env_setup.inc.md
index a03d35030..00b61ea5c 100644
--- a/docs/source/getting_started/installation/python_env_setup.inc.md
+++ b/docs/source/getting_started/installation/python_env_setup.inc.md
@@ -14,6 +14,6 @@ Or you can create a new Python environment using [uv](https://docs.astral.sh/uv/
 
 ```console
 # (Recommended) Create a new uv environment. Use `--seed` to install `pip` and `setuptools` in the environment.
-uv venv vllm --python 3.12 --seed
-source vllm/bin/activate
+uv venv --python 3.12 --seed
+source .venv/bin/activate
 ```
-- 
GitLab


From 3d13ca0e242a99ef1ca53de1828689130924b3f5 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Wed, 7 May 2025 21:08:15 -0700
Subject: [PATCH 209/461] [BugFix] Fix `--disable-log-stats` in V1 server mode
 (#17600)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 vllm/v1/engine/async_llm.py   | 5 +++--
 vllm/v1/engine/core_client.py | 7 ++++---
 2 files changed, 7 insertions(+), 5 deletions(-)

diff --git a/vllm/v1/engine/async_llm.py b/vllm/v1/engine/async_llm.py
index 14ce820cc..00ceb7d3d 100644
--- a/vllm/v1/engine/async_llm.py
+++ b/vllm/v1/engine/async_llm.py
@@ -120,8 +120,9 @@ class AsyncLLM(EngineClient):
             executor_class=executor_class,
             log_stats=self.log_stats,
         )
-        for stat_logger in self.stat_loggers[0]:
-            stat_logger.log_engine_initialized()
+        if self.stat_loggers:
+            for stat_logger in self.stat_loggers[0]:
+                stat_logger.log_engine_initialized()
         self.output_handler: Optional[asyncio.Task] = None
         try:
             # Start output handler eagerly if we are in the asyncio eventloop.
diff --git a/vllm/v1/engine/core_client.py b/vllm/v1/engine/core_client.py
index 0d5d92f72..91a0a75a3 100644
--- a/vllm/v1/engine/core_client.py
+++ b/vllm/v1/engine/core_client.py
@@ -442,9 +442,10 @@ class MPClient(EngineCoreClient):
             logger.info("Core engine process %d ready.", eng_id)
             identities.discard(eng_id)
             # Setup KV cache config with initialization state from
-            # engine core process.
-            self.vllm_config.cache_config.num_gpu_blocks = message_dict[
-                'num_gpu_blocks']
+            # engine core process. Sum values from all engines in DP case.
+            num_gpu_blocks = self.vllm_config.cache_config.num_gpu_blocks or 0
+            num_gpu_blocks += message_dict['num_gpu_blocks']
+            self.vllm_config.cache_config.num_gpu_blocks = num_gpu_blocks
 
     def _init_core_engines(
         self,
-- 
GitLab


From 7ea2adb8026ec1213727a315a226b51b030b7af5 Mon Sep 17 00:00:00 2001
From: Chanh Nguyen <chanhnguyen@gmail.com>
Date: Wed, 7 May 2025 22:30:15 -0700
Subject: [PATCH 210/461] [Core] Support full cuda graph in v1 (#16072)

Signed-off-by: Chanh Nguyen <cnguyen@linkedin.com>
Co-authored-by: Chanh Nguyen <cnguyen@linkedin.com>
---
 docs/source/design/v1/torch_compile.md        |  6 ++
 .../compile/piecewise/test_full_cudagraph.py  | 97 +++++++++++++++++++
 vllm/config.py                                | 19 +++-
 vllm/v1/attention/backends/flash_attn.py      | 13 ++-
 vllm/v1/worker/gpu_model_runner.py            | 68 +++++++++++--
 5 files changed, 190 insertions(+), 13 deletions(-)
 create mode 100644 tests/compile/piecewise/test_full_cudagraph.py

diff --git a/docs/source/design/v1/torch_compile.md b/docs/source/design/v1/torch_compile.md
index 792013164..4d8ce0fd9 100644
--- a/docs/source/design/v1/torch_compile.md
+++ b/docs/source/design/v1/torch_compile.md
@@ -137,3 +137,9 @@ By default, vLLM will try to determine a set of sizes to capture cudagraph. You
 `vllm serve meta-llama/Llama-3.2-1B --compilation-config "{'cudagraph_capture_sizes': [1, 2, 4, 8]}"`
 
 Then it will only capture cudagraph for the specified sizes. It can be useful to have fine-grained control over the cudagraph capture.
+
+### Full Cudagraph capture
+
+It is possible to include attention as part of the cudagraph if using an attention backend that is cudagraph compatible. This can improve performance in some cases such as decode speed for smaller models. Enable this using `--compilation-config "{'full_cuda_graph': True}"`
+
+Currently only FlashAttention 3 is compatible, and only when cascade attention is disabled.
diff --git a/tests/compile/piecewise/test_full_cudagraph.py b/tests/compile/piecewise/test_full_cudagraph.py
new file mode 100644
index 000000000..a71a40cda
--- /dev/null
+++ b/tests/compile/piecewise/test_full_cudagraph.py
@@ -0,0 +1,97 @@
+# SPDX-License-Identifier: Apache-2.0
+import contextlib
+import os
+
+import pytest
+
+from vllm import LLM, SamplingParams
+from vllm.config import CompilationConfig
+
+MODEL = "Qwen/Qwen2-1.5B-Instruct"
+
+
+@contextlib.contextmanager
+def temporary_environ(env_vars):
+    """
+    Temporarily set environment variables and restore them afterward.
+    We have to do this vs monkeypatch because monkeypatch doesn't work
+    with "module" scoped fixtures.
+    """
+    original_env = {k: os.environ.get(k) for k in env_vars}
+    try:
+        os.environ.update(env_vars)
+        yield
+    finally:
+        for k, v in original_env.items():
+            if v is None:
+                os.environ.pop(k, None)
+            else:
+                os.environ[k] = v
+
+
+@pytest.fixture(scope="module")
+def full_cudagraph_llm():
+    with temporary_environ({
+            "VLLM_USE_V1": "1",
+            "VLLM_FLASH_ATTN_VERSION": "3"
+    }):
+        return LLM(model=MODEL,
+                   gpu_memory_utilization=0.2,
+                   compilation_config=CompilationConfig(full_cuda_graph=True))
+
+
+@pytest.fixture(scope="module")
+def piecewise_llm():
+    with temporary_environ({
+            "VLLM_USE_V1": "1",
+            "VLLM_FLASH_ATTN_VERSION": "3"
+    }):
+        return LLM(model=MODEL,
+                   gpu_memory_utilization=0.5,
+                   compilation_config=CompilationConfig())
+
+
+def generate_text(llm: LLM, batch_size: int, max_tokens: int):
+    prompts = ["Hi my name is"] * batch_size
+    sampling_params = SamplingParams(temperature=0.0,
+                                     max_tokens=max_tokens,
+                                     top_p=0.95)
+
+    return llm.generate(prompts, sampling_params)
+
+
+@pytest.mark.parametrize(("batch_size", "max_tokens"), [(1, 10), (7, 10),
+                                                        (16, 10), (25, 10),
+                                                        (32, 10), (45, 10),
+                                                        (64, 10), (8, 5),
+                                                        (8, 20), (8, 200)])
+def test_full_cudagraph(batch_size, max_tokens, full_cudagraph_llm,
+                        piecewise_llm):
+    """
+    Load full cudagraph model and piecewise model once, and at the same time to
+    reuse them across various test cases.
+
+    Test various batch sizes and max_tokens to ensure that the full cudagraph
+    compilation works for padded cases too.
+    """
+    piecewise_responses = generate_text(piecewise_llm,
+                                        batch_size=batch_size,
+                                        max_tokens=max_tokens)
+    full_cudagraph_responses = generate_text(full_cudagraph_llm,
+                                             batch_size=batch_size,
+                                             max_tokens=max_tokens)
+
+    # Check that all responses are the same
+    for i in range(len(piecewise_responses)):
+        assert piecewise_responses[i].outputs[
+            0].text == full_cudagraph_responses[i].outputs[0].text
+
+
+def test_full_cudagraph_with_invalid_backend():
+    with temporary_environ({
+            "VLLM_USE_V1": "1",
+            "VLLM_FLASH_ATTN_VERSION":
+            "2"  #FA2 not supported with full_cuda_graph
+    }), pytest.raises(RuntimeError):
+        LLM(model=MODEL,
+            compilation_config=CompilationConfig(full_cuda_graph=True))
diff --git a/vllm/config.py b/vllm/config.py
index 0bbf588fb..fca2865f8 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -3605,6 +3605,10 @@ class CompilationConfig(BaseModel):
             are always used, it can set this to False. Otherwise, it should
             set this to True, and the compiler will copy the input to an
             internally managed buffer. Default is False.
+        - full_cuda_graph: whether to use a full cuda graph for the entire forward 
+            pass rather than splitting certain operations such as attention into subgraphs. 
+            Thus this flag cannot be used together with splitting_ops. This may provide 
+            performance benefits for smaller models.
     - Inductor compilation:
         - use_inductor: whether to use inductor compilation.
             - False: inductor compilation is not used. graph runs in eager.
@@ -3649,6 +3653,7 @@ class CompilationConfig(BaseModel):
     cudagraph_num_of_warmups: int = 0
     cudagraph_capture_sizes: Optional[list[int]] = None
     cudagraph_copy_inputs: bool = False
+    full_cuda_graph: bool = False
 
     class PassConfig(BaseModel):
         """
@@ -3871,10 +3876,14 @@ class CompilationConfig(BaseModel):
             self.max_capture_size] = self.max_capture_size
 
     def set_splitting_ops_for_v1(self):
-        # If default, override splitting ops for piecewise cudagraph on V1.
         # NOTE: this function needs to be called
+        if self.splitting_ops and self.full_cuda_graph:
+            raise ValueError("full_cuda_graph cannot be used together with "
+                             "splitting_ops, as Full CUDA graph will override "
+                             f"the splitting_ops: {self.splitting_ops}")
+
         if not self.splitting_ops:
-            self.splitting_ops = [
+            self.splitting_ops = [] if self.full_cuda_graph else [
                 "vllm.unified_attention",
                 "vllm.unified_attention_with_output",
             ]
@@ -4151,6 +4160,12 @@ class VllmConfig:
                 "Disabling `torch.compile`.")
             self.compilation_config.level = CompilationLevel.NO_COMPILATION
 
+        if self.compilation_config.full_cuda_graph and \
+            not self.model_config.disable_cascade_attn:
+            logger.warning_once(
+                "full_cuda_graph is not supported with "
+                "cascade attention. Disabling cascade attention.")
+            self.model_config.disable_cascade_attn = True
 
         if self.model_config and self.model_config.use_mla and \
             not (current_platform.is_cuda() or current_platform.is_rocm()):
diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index db7926902..605dff374 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -291,6 +291,7 @@ class FlashAttentionMetadataBuilder:
 
     def __init__(self, runner: "GPUModelRunner"):
         model_config = runner.model_config
+        compilation_config = runner.vllm_config.compilation_config
 
         self.runner = runner
         self.num_heads_q = model_config.get_num_attention_heads(
@@ -300,7 +301,14 @@ class FlashAttentionMetadataBuilder:
         self.headdim = model_config.get_head_size()
         self.page_size = self.runner.block_size
 
-        self.aot_schedule = (get_flash_attn_version() == 3)
+        if get_flash_attn_version() == 3:
+            self.aot_schedule = not compilation_config.full_cuda_graph
+            if not self.aot_schedule:
+                logger.warning(
+                    "AOT Schedule is disabled when using full_cuda_graph")
+        else:
+            self.aot_schedule = False
+
         # Sliding window size to be used with the AOT scheduler will be
         # populated on first build() call.
         self.aot_sliding_window: Optional[tuple[int, int]] = None
@@ -317,8 +325,7 @@ class FlashAttentionMetadataBuilder:
         seq_lens = common_attn_metadata.seq_lens
         block_table = (
             self.runner.input_batch.block_table.get_device_tensor()[:num_reqs])
-        slot_mapping = self.runner.slot_mapping_cpu[:num_actual_tokens].to(
-            self.runner.device, non_blocking=True).long()
+        slot_mapping = self.runner.slot_mapping[:num_actual_tokens]
 
         if self.aot_sliding_window is None:
             self.aot_sliding_window = (-1, -1)
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index e0c3d05c7..bd8c87fd9 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -12,6 +12,7 @@ import torch.nn as nn
 
 from vllm.attention import AttentionType, get_attn_backend
 from vllm.attention.layer import Attention
+from vllm.attention.utils.fa_utils import get_flash_attn_version
 from vllm.config import (CompilationLevel, VllmConfig,
                          get_layers_from_vllm_config)
 from vllm.distributed.kv_transfer import (get_kv_transfer_group,
@@ -139,6 +140,16 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             raise NotImplementedError(
                 "Non-Attention backend is not supported by V1 GPUModelRunner.")
 
+        if self.vllm_config.compilation_config.full_cuda_graph:
+            attn_backend_name = self.attn_backend.__name__
+            flash_attn_version = get_flash_attn_version()
+            if attn_backend_name != "FlashAttentionBackend" or \
+                flash_attn_version != 3:
+                raise ValueError(
+                    f"full_cuda_graph is only supported with "
+                    f"FA3. Current attention backend is {attn_backend_name}, "
+                    f"FlashAttention version is {flash_attn_version}.")
+
         self.attn_metadata_builder = self.attn_backend.get_builder_cls()(
             weakref.proxy(self))
         self.cascade_attn_enabled = not self.model_config.disable_cascade_attn
@@ -219,6 +230,16 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         self.positions = torch.zeros(self.max_num_tokens,
                                      dtype=torch.int64,
                                      device=self.device)
+        self.query_start_loc = torch.zeros(self.max_num_reqs + 1,
+                                           dtype=torch.int32,
+                                           device=self.device)
+        self.seq_lens = torch.zeros(self.max_num_reqs,
+                                    dtype=torch.int32,
+                                    device=self.device)
+        self.slot_mapping = torch.zeros(self.max_num_tokens,
+                                        dtype=torch.int64,
+                                        device=self.device)
+
         # None in the first PP rank. The rest are set after load_model.
         self.intermediate_tensors: Optional[IntermediateTensors] = None
 
@@ -271,7 +292,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                                          pin_memory=self.pin_memory)
         self.positions_np = self.positions_cpu.numpy()
         self.slot_mapping_cpu = torch.zeros(self.max_num_tokens,
-                                            dtype=torch.int32,
+                                            dtype=torch.int64,
                                             device="cpu",
                                             pin_memory=self.pin_memory)
         self.slot_mapping_np = self.slot_mapping_cpu.numpy()
@@ -589,10 +610,22 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                 self.positions_cpu[:total_num_scheduled_tokens],
                 non_blocking=True)
 
-        query_start_loc = self.query_start_loc_cpu[:num_reqs + 1].to(
-            self.device, non_blocking=True)
-        seq_lens = self.seq_lens_cpu[:num_reqs].to(self.device,
-                                                   non_blocking=True)
+        self.query_start_loc[:num_reqs + 1].copy_(
+            self.query_start_loc_cpu[:num_reqs + 1], non_blocking=True)
+        self.seq_lens[:num_reqs].copy_(self.seq_lens_cpu[:num_reqs],
+                                       non_blocking=True)
+        self.slot_mapping[:total_num_scheduled_tokens].copy_(
+            self.slot_mapping_cpu[:total_num_scheduled_tokens],
+            non_blocking=True)
+
+        # Fill unused with -1. Needed for reshape_and_cache
+        self.slot_mapping[total_num_scheduled_tokens:].fill_(-1)
+        self.seq_lens[num_reqs:].fill_(0)
+        self.query_start_loc[num_reqs + 1:].fill_(-1)
+
+        query_start_loc = self.query_start_loc[:num_reqs + 1]
+        seq_lens = self.seq_lens[:num_reqs]
+
         common_attn_metadata = CommonAttentionMetadata(
             query_start_loc=query_start_loc, seq_lens=seq_lens)
 
@@ -1478,6 +1511,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
     def _dummy_run(
         self,
         num_tokens: int,
+        skip_attn: bool = True,
     ) -> torch.Tensor:
 
         # Set num_scheduled_tokens based on num_tokens and max_num_seqs
@@ -1494,6 +1528,23 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         num_scheduled_tokens = np.array(num_scheduled_tokens_list,
                                         dtype=np.int32)
 
+        if skip_attn:
+            attn_metadata = None
+        else:
+            query_start_loc = self.query_start_loc[:num_reqs + 1]
+            seq_lens = self.seq_lens[:num_reqs]
+
+            common_attn_metadata = CommonAttentionMetadata(
+                query_start_loc=query_start_loc, seq_lens=seq_lens)
+
+            attn_metadata = self.attn_metadata_builder.build(
+                num_reqs=num_tokens,
+                num_actual_tokens=num_tokens,
+                max_query_len=num_tokens,
+                common_prefix_len=0,
+                common_attn_metadata=common_attn_metadata,
+            )
+
         with self.maybe_dummy_run_with_lora(self.lora_config,
                                             num_scheduled_tokens):
             model = self.model
@@ -1522,7 +1573,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                     for k, v in self.intermediate_tensors.items()
                 })
 
-            with set_forward_context(None,
+            with set_forward_context(attn_metadata,
                                      self.vllm_config,
                                      num_tokens=num_tokens):
                 outputs = model(
@@ -1708,11 +1759,12 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         # Capture the large shapes first so that the smaller shapes
         # can reuse the memory pool allocated for the large shapes.
         with graph_capture(device=self.device):
+            skip_attn = not self.vllm_config.compilation_config.full_cuda_graph
             for num_tokens in reversed(self.cudagraph_batch_sizes):
                 for _ in range(self.vllm_config.compilation_config.
                                cudagraph_num_of_warmups):
-                    self._dummy_run(num_tokens)
-                self._dummy_run(num_tokens)
+                    self._dummy_run(num_tokens, skip_attn=skip_attn)
+                self._dummy_run(num_tokens, skip_attn=skip_attn)
 
         end_time = time.perf_counter()
         end_free_gpu_memory = torch.cuda.mem_get_info()[0]
-- 
GitLab


From b2da14a05a33d9ec9317d4589ee09f4d57ee9672 Mon Sep 17 00:00:00 2001
From: Vadim Markovtsev <gmarkhor@gmail.com>
Date: Thu, 8 May 2025 07:32:39 +0200
Subject: [PATCH 211/461] Improve exception reporting in MP engine (#17800)

Signed-off-by: Vadim Markovtsev <vadim@poolside.ai>
---
 vllm/engine/multiprocessing/engine.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/engine/multiprocessing/engine.py b/vllm/engine/multiprocessing/engine.py
index 3d7b73f97..a5dcf9e2d 100644
--- a/vllm/engine/multiprocessing/engine.py
+++ b/vllm/engine/multiprocessing/engine.py
@@ -284,7 +284,7 @@ class MQLLMEngine:
         except Exception as e:
             self._set_errored(e)
             self._send_unhealthy(e)
-            raise e
+            raise e from None
 
     def _handle_process_request(self, request: RPCProcessRequest):
         """Handle RPCProcessRequest by adding it to the LLMEngine."""
@@ -447,4 +447,4 @@ def run_mp_engine(vllm_config: VllmConfig, usage_context: UsageContext,
     except BaseException as e:
         logger.exception(e)
         engine_alive.value = False
-        raise e
+        raise e from None
-- 
GitLab


From c747d84576bfa20db77047b7116486ec782920c3 Mon Sep 17 00:00:00 2001
From: Mikhail Podvitskii <podvitskiymichael@gmail.com>
Date: Thu, 8 May 2025 07:32:49 +0200
Subject: [PATCH 212/461] [Installation] OpenTelemetry version update (#17771)

Signed-off-by: Mikhail Podvitskii <podvitskiymichael@gmail.com>
---
 requirements/common.txt | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/requirements/common.txt b/requirements/common.txt
index dbc9903f1..d6f59ad0b 100644
--- a/requirements/common.txt
+++ b/requirements/common.txt
@@ -43,7 +43,7 @@ watchfiles # required for http server to monitor the updates of TLS files
 python-json-logger # Used by logging as per examples/other/logging_configuration.md
 scipy # Required for phi-4-multimodal-instruct
 ninja # Required for xgrammar, rocm, tpu, xpu
-opentelemetry-sdk>=1.26.0,<1.27.0  # vllm.tracing
-opentelemetry-api>=1.26.0,<1.27.0  # vllm.tracing
-opentelemetry-exporter-otlp>=1.26.0,<1.27.0  # vllm.tracing
-opentelemetry-semantic-conventions-ai>=0.4.1,<0.5.0  # vllm.tracing
+opentelemetry-sdk>=1.26.0  # vllm.tracing
+opentelemetry-api>=1.26.0  # vllm.tracing
+opentelemetry-exporter-otlp>=1.26.0  # vllm.tracing
+opentelemetry-semantic-conventions-ai>=0.4.1  # vllm.tracing
-- 
GitLab


From 998eea4a0eaceb40bb3597c0d40ce2cf729dd1fa Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Thu, 8 May 2025 06:33:29 +0100
Subject: [PATCH 213/461] Only log non-default CLI args for online serving
 (#17803)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 vllm/entrypoints/openai/api_server.py |  5 +++--
 vllm/entrypoints/openai/cli_args.py   | 12 ++++++++++++
 2 files changed, 15 insertions(+), 2 deletions(-)

diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index 9746d9697..af132481b 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -41,7 +41,8 @@ from vllm.entrypoints.chat_utils import (load_chat_template,
                                          resolve_mistral_chat_template)
 from vllm.entrypoints.launcher import serve_http
 from vllm.entrypoints.logger import RequestLogger
-from vllm.entrypoints.openai.cli_args import (make_arg_parser,
+from vllm.entrypoints.openai.cli_args import (log_non_default_args,
+                                              make_arg_parser,
                                               validate_parsed_serve_args)
 # yapf conflicts with isort for this block
 # yapf: disable
@@ -1040,7 +1041,7 @@ def create_server_socket(addr: tuple[str, int]) -> socket.socket:
 
 async def run_server(args, **uvicorn_kwargs) -> None:
     logger.info("vLLM API server version %s", VLLM_VERSION)
-    logger.info("args: %s", args)
+    log_non_default_args(args)
 
     if args.tool_parser_plugin and len(args.tool_parser_plugin) > 3:
         ToolParserManager.import_tool_parser(args.tool_parser_plugin)
diff --git a/vllm/entrypoints/openai/cli_args.py b/vllm/entrypoints/openai/cli_args.py
index a2639d374..d8cec2202 100644
--- a/vllm/entrypoints/openai/cli_args.py
+++ b/vllm/entrypoints/openai/cli_args.py
@@ -17,8 +17,11 @@ from vllm.entrypoints.chat_utils import (ChatTemplateContentFormatOption,
 from vllm.entrypoints.openai.serving_models import (LoRAModulePath,
                                                     PromptAdapterPath)
 from vllm.entrypoints.openai.tool_parsers import ToolParserManager
+from vllm.logger import init_logger
 from vllm.utils import FlexibleArgumentParser
 
+logger = init_logger(__name__)
+
 
 class LoRAParserAction(argparse.Action):
 
@@ -285,6 +288,15 @@ def validate_parsed_serve_args(args: argparse.Namespace):
                         "--tool-call-parser")
 
 
+def log_non_default_args(args: argparse.Namespace):
+    non_default_args = {}
+    parser = make_arg_parser(FlexibleArgumentParser())
+    for arg, default in vars(parser.parse_args([])).items():
+        if default != getattr(args, arg):
+            non_default_args[arg] = getattr(args, arg)
+    logger.info("non-default args: %s", non_default_args)
+
+
 def create_parser_for_docs() -> FlexibleArgumentParser:
     parser_for_docs = FlexibleArgumentParser(
         prog="-m vllm.entrypoints.openai.api_server")
-- 
GitLab


From 6930a411163c302381e03685fc117c0d2f6a8e90 Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Thu, 8 May 2025 01:34:02 -0400
Subject: [PATCH 214/461] [V1] Add VLLM_ALLOW_INSECURE_SERIALIZATION env var
 (#17490)

Signed-off-by: Russell Bryant <rbryant@redhat.com>
Signed-off-by: Nick Hill <nhill@redhat.com>
Co-authored-by: Nick Hill <nhill@redhat.com>
---
 .../llm/test_struct_output_generate.py        |  84 ++++++----
 tests/v1/test_serial_utils.py                 | 151 +++++++++---------
 vllm/envs.py                                  |   7 +
 vllm/v1/serial_utils.py                       |  43 ++++-
 4 files changed, 170 insertions(+), 115 deletions(-)

diff --git a/tests/v1/entrypoints/llm/test_struct_output_generate.py b/tests/v1/entrypoints/llm/test_struct_output_generate.py
index c3ea024f5..81601c87a 100644
--- a/tests/v1/entrypoints/llm/test_struct_output_generate.py
+++ b/tests/v1/entrypoints/llm/test_struct_output_generate.py
@@ -105,8 +105,9 @@ def test_structured_output(
         max_tokens=1000,
         guided_decoding=GuidedDecodingParams(json=sample_json_schema))
     outputs = llm.generate(prompts=[
-        f"Give an example JSON for an employee profile "
-        f"that fits this schema: {sample_json_schema}"
+        (f"Give an example JSON for an employee profile that fits this "
+         f"schema. Make the response as short as possible. Schema: "
+         f"{sample_json_schema}")
     ] * 2,
                            sampling_params=sampling_params,
                            use_tqdm=True)
@@ -136,7 +137,8 @@ def test_structured_output(
 
     outputs = llm.generate(
         prompts=("Generate a JSON object with curly braces for a person with "
-                 "name and age fields for John Smith who is 31 years old."),
+                 "name and age fields for John Smith who is 31 years old. "
+                 "Make the response as short as possible."),
         sampling_params=sampling_params,
         use_tqdm=True)
 
@@ -165,19 +167,20 @@ def test_structured_output(
         with pytest.raises(ValueError,
                            match="The provided JSON schema contains features "
                            "not supported by xgrammar."):
-            llm.generate(prompts=[
-                f"Give an example JSON for an employee profile "
-                f"that fits this schema: {unsupported_json_schema}"
-            ] * 2,
-                         sampling_params=sampling_params,
-                         use_tqdm=True)
+            llm.generate(
+                prompts=[(f"Give an example JSON for an employee profile that "
+                          f"fits this schema: {unsupported_json_schema}. "
+                          f"Make the response as short as possible.")] * 2,
+                sampling_params=sampling_params,
+                use_tqdm=True)
     else:
-        outputs = llm.generate(
-            prompts=("Give an example JSON object for a grade "
-                     "that fits this schema: "
-                     f"{unsupported_json_schema}"),
-            sampling_params=sampling_params,
-            use_tqdm=True)
+        outputs = llm.generate(prompts=(
+            "Give an example JSON object for a grade "
+            "that fits this schema: "
+            f"{unsupported_json_schema}. Make the response as short as "
+            "possible."),
+                               sampling_params=sampling_params,
+                               use_tqdm=True)
         assert outputs is not None
         for output in outputs:
             assert output is not None
@@ -199,8 +202,10 @@ def test_structured_output(
         max_tokens=1000,
         guided_decoding=GuidedDecodingParams(grammar=sample_sql_ebnf))
     outputs = llm.generate(
-        prompts=("Generate a sql statement that selects col_1 from "
-                 "table_1 where it is equal to 1"),
+        prompts=(
+            "Generate a sql statement that selects col_1 from "
+            "table_1 where it is equal to 1. Make the response as short as "
+            "possible."),
         sampling_params=sampling_params,
         use_tqdm=True,
     )
@@ -231,8 +236,10 @@ def test_structured_output(
         max_tokens=1000,
         guided_decoding=GuidedDecodingParams(grammar=sample_sql_lark))
     outputs = llm.generate(
-        prompts=("Generate a sql statement that selects col_1 from "
-                 "table_1 where it is equal to 1"),
+        prompts=(
+            "Generate a sql statement that selects col_1 from "
+            "table_1 where it is equal to 1. Make the response as short as "
+            "possible."),
         sampling_params=sampling_params,
         use_tqdm=True,
     )
@@ -269,8 +276,10 @@ def test_structured_output(
         guided_decoding=GuidedDecodingParams(grammar="not a grammar"))
     with pytest.raises(ValueError, match="Failed to convert the grammar "):
         llm.generate(
-            prompts=("Generate a sql statement that selects col_1 from "
-                     "table_1 where it is equal to 1"),
+            prompts=(
+                "Generate a sql statement that selects col_1 from "
+                "table_1 where it is equal to 1. Make the response as short "
+                "as possible."),
             sampling_params=sampling_params,
             use_tqdm=True,
         )
@@ -284,7 +293,8 @@ def test_structured_output(
         guided_decoding=GuidedDecodingParams(regex=sample_regex))
     outputs = llm.generate(
         prompts=[
-            f"Give an example IPv4 address with this regex: {sample_regex}"
+            (f"Give an example IPv4 address with this regex: {sample_regex}. "
+             f"Make the response as short as possible.")
         ] * 2,
         sampling_params=sampling_params,
         use_tqdm=True,
@@ -309,7 +319,8 @@ def test_structured_output(
         top_p=0.95,
         guided_decoding=GuidedDecodingParams(choice=sample_guided_choice))
     outputs = llm.generate(
-        prompts="The best language for type-safe systems programming is ",
+        prompts=("The best language for type-safe systems programming is "
+                 "(Make the response as short as possible.) "),
         sampling_params=sampling_params,
         use_tqdm=True)
     assert outputs is not None
@@ -331,11 +342,12 @@ def test_structured_output(
         temperature=1.0,
         max_tokens=1000,
         guided_decoding=GuidedDecodingParams(json=json_schema))
-    outputs = llm.generate(
-        prompts="Generate a JSON with the brand, model and car_type of"
-        "the most iconic car from the 90's",
-        sampling_params=sampling_params,
-        use_tqdm=True)
+    outputs = llm.generate(prompts=(
+        "Generate a JSON with the brand, model and car_type of the most "
+        "iconic car from the 90's. Make the response as short as "
+        "possible."),
+                           sampling_params=sampling_params,
+                           use_tqdm=True)
 
     assert outputs is not None
 
@@ -373,7 +385,8 @@ def test_structured_output(
         guided_decoding=GuidedDecodingParams(json=json_schema))
 
     outputs = llm.generate(
-        prompts="Generate a description of a frog using 50 characters.",
+        prompts=("Generate a description of a frog using 50 characters. "
+                 "Make the response as short as possible."),
         sampling_params=sampling_params,
         use_tqdm=True)
 
@@ -452,7 +465,8 @@ Reminder:
 
 You are a helpful assistant.
          
-Given the previous instructions, what is the weather in New York City?
+Given the previous instructions, what is the weather in New York City? \
+Make the response as short as possible.
 """
 
     # Change this once other backends support structural_tag
@@ -509,9 +523,10 @@ def test_structured_output_auto_mode(
         max_tokens=1000,
         guided_decoding=GuidedDecodingParams(json=unsupported_json_schema))
 
-    prompts = ("Give an example JSON object for a grade "
-               "that fits this schema: "
-               f"{unsupported_json_schema}")
+    prompts = (
+        "Give an example JSON object for a grade "
+        "that fits this schema: "
+        f"{unsupported_json_schema}. Make the response as short as possible.")
     # This would fail with the default of "xgrammar", but in "auto"
     # we will handle fallback automatically.
     outputs = llm.generate(prompts=prompts,
@@ -566,7 +581,8 @@ def test_guidance_no_additional_properties(monkeypatch: pytest.MonkeyPatch):
     prompt = (
         "<|im_start|>system\nYou are Qwen, created by Alibaba Cloud. You are a "
         "helpful assistant.<|im_end|>\n<|im_start|>user\nPlease generate a "
-        "large JSON object with key-value pairs a1=b1, a2=b2, ..., a20=b20"
+        "large JSON object with key-value pairs a1=b1, a2=b2, ..., a20=b20. "
+        "Make the response as short as possible."
         "<|im_end|>\n<|im_start|>assistant\n")
 
     def generate_with_backend(backend):
diff --git a/tests/v1/test_serial_utils.py b/tests/v1/test_serial_utils.py
index d1271b210..ee490071f 100644
--- a/tests/v1/test_serial_utils.py
+++ b/tests/v1/test_serial_utils.py
@@ -9,8 +9,8 @@ import pytest
 import torch
 
 from vllm.multimodal.inputs import (MultiModalBatchedField,
-                                    MultiModalFieldElem, MultiModalKwargs,
-                                    MultiModalKwargsItem,
+                                    MultiModalFieldElem, MultiModalFlatField,
+                                    MultiModalKwargs, MultiModalKwargsItem,
                                     MultiModalSharedField, NestedTensors)
 from vllm.v1.serial_utils import MsgpackDecoder, MsgpackEncoder
 
@@ -36,59 +36,62 @@ class MyType:
     empty_tensor: torch.Tensor
 
 
-def test_encode_decode():
+def test_encode_decode(monkeypatch: pytest.MonkeyPatch):
     """Test encode/decode loop with zero-copy tensors."""
 
-    obj = MyType(
-        tensor1=torch.randint(low=0,
-                              high=100,
-                              size=(1024, ),
-                              dtype=torch.int32),
-        a_string="hello",
-        list_of_tensors=[
-            torch.rand((1, 10), dtype=torch.float32),
-            torch.rand((3, 5, 4000), dtype=torch.float64),
-            torch.tensor(1984),  # test scalar too
-            # Make sure to test bf16 which numpy doesn't support.
-            torch.rand((3, 5, 1000), dtype=torch.bfloat16),
-            torch.tensor([float("-inf"), float("inf")] * 1024,
-                         dtype=torch.bfloat16),
-        ],
-        numpy_array=np.arange(512),
-        unrecognized=UnrecognizedType(33),
-        small_f_contig_tensor=torch.rand(5, 4).t(),
-        large_f_contig_tensor=torch.rand(1024, 4).t(),
-        small_non_contig_tensor=torch.rand(2, 4)[:, 1:3],
-        large_non_contig_tensor=torch.rand(1024, 512)[:, 10:20],
-        empty_tensor=torch.empty(0),
-    )
+    with monkeypatch.context() as m:
+        m.setenv("VLLM_ALLOW_INSECURE_SERIALIZATION", "1")
 
-    encoder = MsgpackEncoder(size_threshold=256)
-    decoder = MsgpackDecoder(MyType)
+        obj = MyType(
+            tensor1=torch.randint(low=0,
+                                  high=100,
+                                  size=(1024, ),
+                                  dtype=torch.int32),
+            a_string="hello",
+            list_of_tensors=[
+                torch.rand((1, 10), dtype=torch.float32),
+                torch.rand((3, 5, 4000), dtype=torch.float64),
+                torch.tensor(1984),  # test scalar too
+                # Make sure to test bf16 which numpy doesn't support.
+                torch.rand((3, 5, 1000), dtype=torch.bfloat16),
+                torch.tensor([float("-inf"), float("inf")] * 1024,
+                             dtype=torch.bfloat16),
+            ],
+            numpy_array=np.arange(512),
+            unrecognized=UnrecognizedType(33),
+            small_f_contig_tensor=torch.rand(5, 4).t(),
+            large_f_contig_tensor=torch.rand(1024, 4).t(),
+            small_non_contig_tensor=torch.rand(2, 4)[:, 1:3],
+            large_non_contig_tensor=torch.rand(1024, 512)[:, 10:20],
+            empty_tensor=torch.empty(0),
+        )
 
-    encoded = encoder.encode(obj)
+        encoder = MsgpackEncoder(size_threshold=256)
+        decoder = MsgpackDecoder(MyType)
 
-    # There should be the main buffer + 4 large tensor buffers
-    # + 1 large numpy array. "large" is <= 512 bytes.
-    # The two small tensors are encoded inline.
-    assert len(encoded) == 8
+        encoded = encoder.encode(obj)
+
+        # There should be the main buffer + 4 large tensor buffers
+        # + 1 large numpy array. "large" is <= 512 bytes.
+        # The two small tensors are encoded inline.
+        assert len(encoded) == 8
 
-    decoded: MyType = decoder.decode(encoded)
+        decoded: MyType = decoder.decode(encoded)
 
-    assert_equal(decoded, obj)
+        assert_equal(decoded, obj)
 
-    # Test encode_into case
+        # Test encode_into case
 
-    preallocated = bytearray()
+        preallocated = bytearray()
 
-    encoded2 = encoder.encode_into(obj, preallocated)
+        encoded2 = encoder.encode_into(obj, preallocated)
 
-    assert len(encoded2) == 8
-    assert encoded2[0] is preallocated
+        assert len(encoded2) == 8
+        assert encoded2[0] is preallocated
 
-    decoded2: MyType = decoder.decode(encoded2)
+        decoded2: MyType = decoder.decode(encoded2)
 
-    assert_equal(decoded2, obj)
+        assert_equal(decoded2, obj)
 
 
 class MyRequest(msgspec.Struct):
@@ -122,7 +125,7 @@ def test_multimodal_kwargs():
     total_len = sum(memoryview(x).cast("B").nbytes for x in encoded)
 
     # expected total encoding length, should be 44559, +-20 for minor changes
-    assert total_len >= 44539 and total_len <= 44579
+    assert 44539 <= total_len <= 44579
     decoded: MultiModalKwargs = decoder.decode(encoded).mm[0]
     assert all(nested_equal(d[k], decoded[k]) for k in d)
 
@@ -135,14 +138,15 @@ def test_multimodal_items_by_modality():
         "video",
         "v0",
         [torch.zeros(1000, dtype=torch.int8) for _ in range(4)],
-        MultiModalBatchedField(),
+        MultiModalFlatField(
+            [[slice(1, 2, 3), slice(4, 5, 6)], [slice(None, 2)]], 0),
     )
     e3 = MultiModalFieldElem("image", "i0", torch.zeros(1000,
                                                         dtype=torch.int32),
                              MultiModalSharedField(4))
-    e4 = MultiModalFieldElem("image", "i1", torch.zeros(1000,
-                                                        dtype=torch.int32),
-                             MultiModalBatchedField())
+    e4 = MultiModalFieldElem(
+        "image", "i1", torch.zeros(1000, dtype=torch.int32),
+        MultiModalFlatField([slice(1, 2, 3), slice(4, 5, 6)], 2))
     audio = MultiModalKwargsItem.from_elems([e1])
     video = MultiModalKwargsItem.from_elems([e2])
     image = MultiModalKwargsItem.from_elems([e3, e4])
@@ -161,7 +165,7 @@ def test_multimodal_items_by_modality():
     total_len = sum(memoryview(x).cast("B").nbytes for x in encoded)
 
     # expected total encoding length, should be 14255, +-20 for minor changes
-    assert total_len >= 14235 and total_len <= 14275
+    assert 14250 <= total_len <= 14300
     decoded: MultiModalKwargs = decoder.decode(encoded).mm[0]
 
     # check all modalities were recovered and do some basic sanity checks
@@ -178,8 +182,7 @@ def test_multimodal_items_by_modality():
 def nested_equal(a: NestedTensors, b: NestedTensors):
     if isinstance(a, torch.Tensor):
         return torch.equal(a, b)
-    else:
-        return all(nested_equal(x, y) for x, y in zip(a, b))
+    return all(nested_equal(x, y) for x, y in zip(a, b))
 
 
 def assert_equal(obj1: MyType, obj2: MyType):
@@ -199,11 +202,10 @@ def assert_equal(obj1: MyType, obj2: MyType):
     assert torch.equal(obj1.empty_tensor, obj2.empty_tensor)
 
 
-@pytest.mark.parametrize("allow_pickle", [True, False])
-def test_dict_serialization(allow_pickle: bool):
+def test_dict_serialization():
     """Test encoding and decoding of a generic Python object using pickle."""
-    encoder = MsgpackEncoder(allow_pickle=allow_pickle)
-    decoder = MsgpackDecoder(allow_pickle=allow_pickle)
+    encoder = MsgpackEncoder()
+    decoder = MsgpackDecoder()
 
     # Create a sample Python object
     obj = {"key": "value", "number": 42}
@@ -218,11 +220,10 @@ def test_dict_serialization(allow_pickle: bool):
     assert obj == decoded, "Decoded object does not match the original object."
 
 
-@pytest.mark.parametrize("allow_pickle", [True, False])
-def test_tensor_serialization(allow_pickle: bool):
+def test_tensor_serialization():
     """Test encoding and decoding of a torch.Tensor."""
-    encoder = MsgpackEncoder(allow_pickle=allow_pickle)
-    decoder = MsgpackDecoder(torch.Tensor, allow_pickle=allow_pickle)
+    encoder = MsgpackEncoder()
+    decoder = MsgpackDecoder(torch.Tensor)
 
     # Create a sample tensor
     tensor = torch.rand(10, 10)
@@ -238,11 +239,10 @@ def test_tensor_serialization(allow_pickle: bool):
         tensor, decoded), "Decoded tensor does not match the original tensor."
 
 
-@pytest.mark.parametrize("allow_pickle", [True, False])
-def test_numpy_array_serialization(allow_pickle: bool):
+def test_numpy_array_serialization():
     """Test encoding and decoding of a numpy array."""
-    encoder = MsgpackEncoder(allow_pickle=allow_pickle)
-    decoder = MsgpackDecoder(np.ndarray, allow_pickle=allow_pickle)
+    encoder = MsgpackEncoder()
+    decoder = MsgpackDecoder(np.ndarray)
 
     # Create a sample numpy array
     array = np.random.rand(10, 10)
@@ -268,26 +268,31 @@ class CustomClass:
         return isinstance(other, CustomClass) and self.value == other.value
 
 
-def test_custom_class_serialization_allowed_with_pickle():
+def test_custom_class_serialization_allowed_with_pickle(
+        monkeypatch: pytest.MonkeyPatch):
     """Test that serializing a custom class succeeds when allow_pickle=True."""
-    encoder = MsgpackEncoder(allow_pickle=True)
-    decoder = MsgpackDecoder(CustomClass, allow_pickle=True)
 
-    obj = CustomClass("test_value")
+    with monkeypatch.context() as m:
+        m.setenv("VLLM_ALLOW_INSECURE_SERIALIZATION", "1")
+        encoder = MsgpackEncoder()
+        decoder = MsgpackDecoder(CustomClass)
 
-    # Encode the custom class
-    encoded = encoder.encode(obj)
+        obj = CustomClass("test_value")
 
-    # Decode the custom class
-    decoded = decoder.decode(encoded)
+        # Encode the custom class
+        encoded = encoder.encode(obj)
 
-    # Verify the decoded object matches the original
-    assert obj == decoded, "Decoded object does not match the original object."
+        # Decode the custom class
+        decoded = decoder.decode(encoded)
+
+        # Verify the decoded object matches the original
+        assert obj == decoded, (
+            "Decoded object does not match the original object.")
 
 
 def test_custom_class_serialization_disallowed_without_pickle():
     """Test that serializing a custom class fails when allow_pickle=False."""
-    encoder = MsgpackEncoder(allow_pickle=False)
+    encoder = MsgpackEncoder()
 
     obj = CustomClass("test_value")
 
diff --git a/vllm/envs.py b/vllm/envs.py
index c8bb39ceb..134cdf990 100644
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -111,6 +111,7 @@ if TYPE_CHECKING:
     VLLM_USE_DEEP_GEMM: bool = False
     VLLM_XGRAMMAR_CACHE_MB: int = 0
     VLLM_MSGPACK_ZERO_COPY_THRESHOLD: int = 256
+    VLLM_ALLOW_INSECURE_SERIALIZATION: bool = False
 
 
 def get_default_cache_root():
@@ -736,6 +737,12 @@ environment_variables: dict[str, Callable[[], Any]] = {
     # limit will actually be zero-copy decoded.
     "VLLM_MSGPACK_ZERO_COPY_THRESHOLD":
     lambda: int(os.getenv("VLLM_MSGPACK_ZERO_COPY_THRESHOLD", "256")),
+
+    # If set, allow insecure serialization using pickle.
+    # This is useful for environments where it is deemed safe to use the
+    # insecure method and it is needed for some reason.
+    "VLLM_ALLOW_INSECURE_SERIALIZATION":
+    lambda: bool(int(os.getenv("VLLM_ALLOW_INSECURE_SERIALIZATION", "0"))),
 }
 
 # end-env-vars-definition
diff --git a/vllm/v1/serial_utils.py b/vllm/v1/serial_utils.py
index e00ecde66..6989ad9a4 100644
--- a/vllm/v1/serial_utils.py
+++ b/vllm/v1/serial_utils.py
@@ -14,6 +14,7 @@ import zmq
 from msgspec import msgpack
 
 from vllm import envs
+from vllm.logger import init_logger
 from vllm.multimodal.inputs import (BaseMultiModalField,
                                     MultiModalBatchedField,
                                     MultiModalFieldConfig, MultiModalFieldElem,
@@ -21,6 +22,8 @@ from vllm.multimodal.inputs import (BaseMultiModalField,
                                     MultiModalKwargsItem,
                                     MultiModalSharedField, NestedTensors)
 
+logger = init_logger(__name__)
+
 CUSTOM_TYPE_PICKLE = 1
 CUSTOM_TYPE_CLOUDPICKLE = 2
 CUSTOM_TYPE_RAW_VIEW = 3
@@ -47,9 +50,7 @@ class MsgpackEncoder:
     via dedicated messages. Note that this is a per-tensor limit.
     """
 
-    def __init__(self,
-                 size_threshold: Optional[int] = None,
-                 allow_pickle: bool = True):
+    def __init__(self, size_threshold: Optional[int] = None):
         if size_threshold is None:
             size_threshold = envs.VLLM_MSGPACK_ZERO_COPY_THRESHOLD
         self.encoder = msgpack.Encoder(enc_hook=self.enc_hook)
@@ -58,7 +59,10 @@ class MsgpackEncoder:
         # pass custom data to the hook otherwise.
         self.aux_buffers: Optional[list[bytestr]] = None
         self.size_threshold = size_threshold
-        self.allow_pickle = allow_pickle
+        if envs.VLLM_ALLOW_INSECURE_SERIALIZATION:
+            logger.warning(
+                "Allowing insecure serialization using pickle due to "
+                "VLLM_ALLOW_INSECURE_SERIALIZATION=1")
 
     def encode(self, obj: Any) -> Sequence[bytestr]:
         try:
@@ -89,6 +93,12 @@ class MsgpackEncoder:
         if isinstance(obj, np.ndarray) and obj.dtype.kind not in ('O', 'V'):
             return self._encode_ndarray(obj)
 
+        if isinstance(obj, slice):
+            # We are assuming only int-based values will be used here.
+            return tuple(
+                int(v) if v is not None else None
+                for v in (obj.start, obj.stop, obj.step))
+
         if isinstance(obj, MultiModalKwargs):
             mm: MultiModalKwargs = obj
             if not mm.modalities:
@@ -108,7 +118,7 @@ class MsgpackEncoder:
                     for itemlist in mm._items_by_modality.values()
                     for item in itemlist]
 
-        if not self.allow_pickle:
+        if not envs.VLLM_ALLOW_INSECURE_SERIALIZATION:
             raise TypeError(f"Object of type {type(obj)} is not serializable")
 
         if isinstance(obj, FunctionType):
@@ -185,13 +195,16 @@ class MsgpackDecoder:
     not thread-safe when encoding tensors / numpy arrays.
     """
 
-    def __init__(self, t: Optional[Any] = None, allow_pickle: bool = True):
+    def __init__(self, t: Optional[Any] = None):
         args = () if t is None else (t, )
         self.decoder = msgpack.Decoder(*args,
                                        ext_hook=self.ext_hook,
                                        dec_hook=self.dec_hook)
         self.aux_buffers: Sequence[bytestr] = ()
-        self.allow_pickle = allow_pickle
+        if envs.VLLM_ALLOW_INSECURE_SERIALIZATION:
+            logger.warning(
+                "Allowing insecure deserialization using pickle due to "
+                "VLLM_ALLOW_INSECURE_SERIALIZATION=1")
 
     def decode(self, bufs: Union[bytestr, Sequence[bytestr]]) -> Any:
         if isinstance(bufs, (bytes, bytearray, memoryview, zmq.Frame)):
@@ -212,6 +225,8 @@ class MsgpackDecoder:
                 return self._decode_ndarray(obj)
             if issubclass(t, torch.Tensor):
                 return self._decode_tensor(obj)
+            if t is slice:
+                return slice(*obj)
             if issubclass(t, MultiModalKwargs):
                 if isinstance(obj, list):
                     return MultiModalKwargs.from_items(
@@ -253,6 +268,12 @@ class MsgpackDecoder:
                 factory_meth_name, *field_args = v["field"]
                 factory_meth = getattr(MultiModalFieldConfig,
                                        factory_meth_name)
+
+                # Special case: decode the union "slices" field of
+                # MultiModalFlatField
+                if factory_meth_name == "flat":
+                    field_args[0] = self._decode_nested_slices(field_args[0])
+
                 v["field"] = factory_meth(None, *field_args).field
                 elems.append(MultiModalFieldElem(**v))
             decoded_items.append(MultiModalKwargsItem.from_elems(elems))
@@ -269,11 +290,17 @@ class MsgpackDecoder:
             return self._decode_tensor(obj)
         return [self._decode_nested_tensors(x) for x in obj]
 
+    def _decode_nested_slices(self, obj: Any) -> Any:
+        assert isinstance(obj, (list, tuple))
+        if obj and not isinstance(obj[0], (list, tuple)):
+            return slice(*obj)
+        return [self._decode_nested_slices(x) for x in obj]
+
     def ext_hook(self, code: int, data: memoryview) -> Any:
         if code == CUSTOM_TYPE_RAW_VIEW:
             return data
 
-        if self.allow_pickle:
+        if envs.VLLM_ALLOW_INSECURE_SERIALIZATION:
             if code == CUSTOM_TYPE_PICKLE:
                 return pickle.loads(data)
             if code == CUSTOM_TYPE_CLOUDPICKLE:
-- 
GitLab


From 5a499e70d5a8b8d89b524e570e313ca93d8692cd Mon Sep 17 00:00:00 2001
From: Hashem Hashemi <159079214+amd-hhashemi@users.noreply.github.com>
Date: Wed, 7 May 2025 22:34:49 -0700
Subject: [PATCH 215/461] [Kernel][Hardware][AMD] Bf16 mfma opt for ROCm skinny
 GEMMs (#17071)

Signed-off-by: Hashem Hashemi <hashem.hashemi@amd.com>
Signed-off-by: charlifu <charlifu@amd.com>
Co-authored-by: charlifu <charlifu@amd.com>
---
 csrc/rocm/skinny_gemms.cu                     | 539 ++++++++++--------
 .../quantization/test_rocm_skinny_gemms.py    |   2 +-
 vllm/model_executor/layers/utils.py           |   2 +-
 vllm/platforms/rocm.py                        |   1 +
 4 files changed, 316 insertions(+), 228 deletions(-)

diff --git a/csrc/rocm/skinny_gemms.cu b/csrc/rocm/skinny_gemms.cu
index 72d2820f2..b3717892d 100644
--- a/csrc/rocm/skinny_gemms.cu
+++ b/csrc/rocm/skinny_gemms.cu
@@ -126,8 +126,8 @@ __global__ void LLGemm1_kernel(const scalar_t* in_a, const scalar_t* in_b,
   const int warp = threadIdx.x / WARP_SIZE;
   const int lane = threadIdx.x % WARP_SIZE;
   const int num_warps = blockDim.x / WARP_SIZE;
-  const int qwarpid = threadid / num_warps;
-  const int qthreadid = threadid % num_warps;
+  const int qwarpid = threadid / 16;
+  const int qthreadid = threadid % 16;
   float4 rowA_elem4[NUM_A_ROWS_PER_BLOCK];
   scalar2_t colB_elem4x, colB_elem4y, colB_elem4z, colB_elem4w;
   float acc[NUM_A_ROWS_PER_BLOCK];
@@ -142,15 +142,13 @@ __global__ void LLGemm1_kernel(const scalar_t* in_a, const scalar_t* in_b,
       // rowA_elem4[i] holds 8 * half numbers seen as a single float4.
       rowA_elem4[i] = load_ntmprl(&af4[row_addr + threadid + K / 8 * i]);
     }
+    colB_elem4x = bf4[threadid * 4 + 0];
+    colB_elem4y = bf4[threadid * 4 + 1];
+    colB_elem4z = bf4[threadid * 4 + 2];
+    colB_elem4w = bf4[threadid * 4 + 3];
   }
 
-  colB_elem4x = bf4[threadid * 4 + 0];
-  colB_elem4y = bf4[threadid * 4 + 1];
-  colB_elem4z = bf4[threadid * 4 + 2];
-  colB_elem4w = bf4[threadid * 4 + 3];
-
   scalar2_t Af2;
-  [[maybe_unused]] scalar2_t Bf2;
   float2 S;
 
   auto Ah2ptr = reinterpret_cast<scalar2_t*>(&rowA_elem4);
@@ -193,12 +191,13 @@ __global__ void LLGemm1_kernel(const scalar_t* in_a, const scalar_t* in_b,
 
   if (qwarpid < NUM_A_ROWS_PER_BLOCK) {
     acc[qwarpid] = qthreadid < num_warps ? red_smem[qwarpid][qthreadid] : 0.f;
-    for (int mask = num_warps / 2; mask >= 1; mask /= 2) {
+#pragma unroll
+    for (int mask = 16 / 2; mask >= 1; mask /= 2) {
       acc[qwarpid] += __shfl_xor(acc[qwarpid], mask);
     }
-    float oval2 = __shfl_xor(acc[qwarpid], num_warps);
+    float oval2 = __shfl_xor(acc[qwarpid], 16);
 
-    if (lane % (num_warps * 2) == 0) {
+    if (lane % 32 == 0) {
       oval = __float22s2_rn<scalar2_t>(make_float2(acc[qwarpid], oval2));
       c[blockIdx.x * NUM_A_ROWS_PER_BLOCK / 2 + qwarpid / 2] = oval;
     }
@@ -222,9 +221,10 @@ torch::Tensor LLMM1(at::Tensor& in_a, at::Tensor& in_b,
   // NUM_TREADS need to be a multiple of WARP_SIZE, as we are using warp shuffle
   // operations.
   const int NUM_THREADS =
-      K * 2 / 16 % WARP_SIZE == 0
-          ? K * 2 / 16
-          : K * 2 / 16 + (WARP_SIZE - K * 2 / 16 % WARP_SIZE);
+      max(rows_per_block * 16,
+          K * 2 / 16 % WARP_SIZE == 0
+              ? K * 2 / 16
+              : K * 2 / 16 + (WARP_SIZE - K * 2 / 16 % WARP_SIZE));
 
   int NUM_BLOCKS = M / rows_per_block;
 
@@ -275,13 +275,22 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
     wvSplitK_hf_sml_(const int K, const int M, const scalar_t* B,
                      const scalar_t* __restrict__ A, scalar_t* C,
                      const int _WvPrGrp, const int CuCount) {
+  #if defined(__HIP__MI300__)
+  constexpr bool use_mfma = (std::is_same_v<scalar_t, __hip_bfloat16>);
+  #else
+  constexpr bool use_mfma = false;
+  #endif
+
   using scalar8 =
       __attribute__((__vector_size__((A_CHUNK / 2) * sizeof(float)))) float;
+  using half4 =
+      __attribute__((__vector_size__((A_CHUNK / 2) * sizeof(__bf16)))) __bf16;
   union bigType {
     scalar_t h[A_CHUNK];
     float f[A_CHUNK / 2];
     float2 f2[A_CHUNK / 4];
     double d[A_CHUNK / 4];
+    half4 h4[A_CHUNK / 4];
     scalar8 h8;
   };
 
@@ -318,6 +327,7 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
   uint32_t m = (blockIdx.x * _WvPrGrp + (threadIdx.y % _WvPrGrp)) * YTILE;
 
   float sum[N][YTILE];
+  scalar8 sum4[N][YTILE];
 
   //----------------------------------------------------
   // Each wave works on a single column of weight matrix.
@@ -343,7 +353,11 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
     // are being worked on by each wave.
     //----------------------------------------------------
     for (int i = 0; i < YTILE; i++)
-      for (int n = 0; n < N; n++) sum[n][i] = 0;
+      for (int n = 0; n < N; n++)
+        if constexpr (!use_mfma)
+          sum[n][i] = 0;
+        else
+          sum4[n][i] = {0, 0, 0, 0};
 
     bigType bigA[N][UNRL];
     bigType bigB[YTILE][UNRL];
@@ -374,24 +388,8 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
         if (k_ >= K) break;
 
         const scalar_t* B_ = &B[(m + 0) * K + k_];
-        bigB[0][k2].h8 = (loadnt((scalar8*)(&B_[0 * K])));
-        //----------------------------------------------------
-        // The following code with YTILE > 1 has to be deleted
-        //----------------------------------------------------
-        if constexpr (YTILE >= 2)
-          bigB[1][k2].h8 = (loadnt((scalar8*)(&B_[1 * K])));
-        if constexpr (YTILE >= 3)
-          bigB[2][k2].h8 = (loadnt((scalar8*)(&B_[2 * K])));
-        if constexpr (YTILE >= 4)
-          bigB[3][k2].h8 = (loadnt((scalar8*)(&B_[3 * K])));
-        if constexpr (YTILE >= 5)
-          bigB[4][k2].h8 = (loadnt((scalar8*)(&B_[4 * K])));
-        if constexpr (YTILE >= 6)
-          bigB[5][k2].h8 = (loadnt((scalar8*)(&B_[5 * K])));
-        if constexpr (YTILE >= 7)
-          bigB[6][k2].h8 = (loadnt((scalar8*)(&B_[6 * K])));
-        if constexpr (YTILE >= 8)
-          bigB[7][k2].h8 = (loadnt((scalar8*)(&B_[7 * K])));
+        for (int y = 0; y < YTILE; y++)
+          bigB[y][k2].h8 = (loadnt((scalar8*)(&B_[y * K])));
       }
 
       // Fetch activation matrix from either just LDS or from both LDS / memory
@@ -419,32 +417,17 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
   #pragma unroll
         for (uint32_t n = 0; n < N; n++) {
   #pragma unroll
-          for (uint32_t b = 0; b < A_CHUNK / 2; b++) {
-            DOT2C(sum[n][0], bigA[n][k2].f[b], bigB[0][k2].f[b])
-            //----------------------------------------------------
-            // The following code with YTILE > 1
-            //----------------------------------------------------
-            if constexpr (YTILE >= 2) {
-              DOT2C(sum[n][1], bigA[n][k2].f[b], bigB[1][k2].f[b]);
-            }
-            if constexpr (YTILE >= 3) {
-              DOT2C(sum[n][2], bigA[n][k2].f[b], bigB[2][k2].f[b]);
-            }
-            if constexpr (YTILE >= 4) {
-              DOT2C(sum[n][3], bigA[n][k2].f[b], bigB[3][k2].f[b]);
-            }
-            if constexpr (YTILE >= 5) {
-              DOT2C(sum[n][4], bigA[n][k2].f[b], bigB[4][k2].f[b]);
-            }
-            if constexpr (YTILE >= 6) {
-              DOT2C(sum[n][5], bigA[n][k2].f[b], bigB[5][k2].f[b]);
-            }
-            if constexpr (YTILE >= 7) {
-              DOT2C(sum[n][6], bigA[n][k2].f[b], bigB[6][k2].f[b]);
-            }
-            if constexpr (YTILE >= 8) {
-              DOT2C(sum[n][7], bigA[n][k2].f[b], bigB[7][k2].f[b]);
-            }
+          for (int y = 0; y < YTILE; y++) {
+            if constexpr (!use_mfma)
+  #pragma unroll
+              for (uint32_t b = 0; b < A_CHUNK / 2; b++) {
+                DOT2C(sum[n][y], bigA[n][k2].f[b], bigB[y][k2].f[b])
+              }
+            else
+  #pragma unroll
+              for (uint32_t b = 0; b < A_CHUNK / 4; b++)
+                sum4[n][y] = __builtin_amdgcn_mfma_f32_4x4x4bf16_1k(
+                    bigA[n][k2].h4[b], bigB[y][k2].h4[b], sum4[n][y], 0, 0, 0);
           }
         }
       }
@@ -453,37 +436,84 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
     //----------------------------------------------------
     // Final reduction step using shuffle
     //----------------------------------------------------
-    for (int n = 0; n < N; n++) {
-      for (int y = 0; y < YTILE; y++) {
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:8 bound_ctrl:0 "
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:4 bound_ctrl:0 "
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:2 bound_ctrl:0 "
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 wave_shr:1 bound_ctrl:0"
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:15 bound_ctrl:0"
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:31 bound_ctrl:0"
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+    if constexpr (!use_mfma) {
+      for (int n = 0; n < N; n++) {
+        for (int y = 0; y < YTILE; y++) {
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:8 bound_ctrl:0 "
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:4 bound_ctrl:0 "
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:2 bound_ctrl:0 "
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 wave_shr:1 bound_ctrl:0"
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:15 bound_ctrl:0"
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:31 bound_ctrl:0"
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+        }
       }
-    }
-    if (threadIdx.x == 63) {
+
+      if (threadIdx.x == 63) {
+        for (int n = 0; n < N; n++) {
+          for (int i = 0; i < YTILE; i++) {
+            // if (commitColumn[i]) C[m + i + n * M] = __float2half(sum[n][i]);
+            C[m + i + n * M] = __float2s<scalar_t>(sum[n][i]);
+          }
+        }
+      }
+    } else {
+  #pragma unroll
       for (int n = 0; n < N; n++) {
-        for (int i = 0; i < YTILE; i++) {
-          // if (commitColumn[i]) C[m + i + n * M] = __float2half(sum[n][i]);
-          C[m + i + n * M] = __float2s<scalar_t>(sum[n][i]);
+  #pragma unroll
+        for (int y = 0; y < YTILE; y++) {
+          // float accm1 = 0;
+          // for (int i=0; i<64; i++)
+          //    accm1 += __shfl(sum4[n][y][i%4], i);
+          float accm = sum4[n][y][0];
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shl:1 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(sum4[n][y][1]), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shl:2 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(sum4[n][y][2]), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shl:3 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(sum4[n][y][3]), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shl:4 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(accm), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shl:8 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(accm), "v"(accm));
+          asm("s_nop 0\n\tv_mov_b32 %0, %2 row_shr:15 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:15 bound_ctrl:0"
+              : "=v"(accm)
+              : "0"(accm), "v"(accm), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:31 bound_ctrl:0"
+              : "=v"(accm)
+              : "0"(accm), "v"(accm), "v"(accm));
+
+          sum4[n][y][0] = accm;
+        }
+      }
+      if (threadIdx.x == 63) {
+        for (int n = 0; n < N; n++) {
+          for (int i = 0; i < YTILE; i++) {
+            // if (commitColumn[i]) C[n + i + m * N] = __float2half(sum[n][i]);
+            C[m + i + n * M] = __float2bfloat16(sum4[n][i][0]);
+          }
         }
       }
     }
-
     m += CuCount * _WvPrGrp * YTILE;
   }
 }
@@ -505,13 +535,22 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
     wvSplitK_hf_(const int K, const int M, const scalar_t* B,
                  const scalar_t* __restrict__ A, scalar_t* C,
                  const int _WvPrGrp, const int CuCount) {
+  #if defined(__HIP__MI300__)
+  constexpr bool use_mfma = (std::is_same_v<scalar_t, __hip_bfloat16>);
+  #else
+  constexpr bool use_mfma = false;
+  #endif
+
   using scalar8 =
       __attribute__((__vector_size__((A_CHUNK / 2) * sizeof(float)))) float;
+  using half4 =
+      __attribute__((__vector_size__((A_CHUNK / 2) * sizeof(__bf16)))) __bf16;
   union bigType {
     scalar_t h[A_CHUNK];
     float f[A_CHUNK / 2];
     float2 f2[A_CHUNK / 4];
     double d[A_CHUNK / 4];
+    half4 h4[A_CHUNK / 4];
     scalar8 h8;
   };
 
@@ -573,6 +612,7 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
   if (threadIdx.y >= _WvPrGrp) return;
 
   float sum[N][YTILE];
+  scalar8 sum4[N][YTILE];
 
   //----------------------------------------------------
   // Each wave works on a single column of weight matrix.
@@ -598,7 +638,11 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
     // are being worked on by each wave.
     //----------------------------------------------------
     for (int i = 0; i < YTILE; i++)
-      for (int n = 0; n < N; n++) sum[n][i] = 0;
+      for (int n = 0; n < N; n++)
+        if constexpr (!use_mfma)
+          sum[n][i] = 0;
+        else
+          sum4[n][i] = {0, 0, 0, 0};
 
     bigType bigA[N][UNRL];
     bigType bigB[YTILE][UNRL];
@@ -628,24 +672,8 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
         if (k_ >= K) break;
 
         const scalar_t* B_ = &B[(m + 0) * K + k_];
-        bigB[0][k2].h8 = (loadnt((scalar8*)(&B_[0 * K])));
-        //----------------------------------------------------
-        // The following code with YTILE > 1 has to be deleted
-        //----------------------------------------------------
-        if constexpr (YTILE >= 2)
-          bigB[1][k2].h8 = (loadnt((scalar8*)(&B_[1 * K])));
-        if constexpr (YTILE >= 3)
-          bigB[2][k2].h8 = (loadnt((scalar8*)(&B_[2 * K])));
-        if constexpr (YTILE >= 4)
-          bigB[3][k2].h8 = (loadnt((scalar8*)(&B_[3 * K])));
-        if constexpr (YTILE >= 5)
-          bigB[4][k2].h8 = (loadnt((scalar8*)(&B_[4 * K])));
-        if constexpr (YTILE >= 6)
-          bigB[5][k2].h8 = (loadnt((scalar8*)(&B_[5 * K])));
-        if constexpr (YTILE >= 7)
-          bigB[6][k2].h8 = (loadnt((scalar8*)(&B_[6 * K])));
-        if constexpr (YTILE >= 8)
-          bigB[7][k2].h8 = (loadnt((scalar8*)(&B_[7 * K])));
+        for (int b = 0; b < YTILE; b++)
+          bigB[b][k2].h8 = (loadnt((scalar8*)(&B_[b * K])));
       }
 
       // Fetch activation matrix from either just LDS or from both LDS / memory
@@ -676,32 +704,17 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
           // Do the matrix multiplication of activation and weight matrix
           // - Remember the accumulation is happening for K-split of 64!
   #pragma unroll
-          for (uint32_t b = 0; b < A_CHUNK / 2; b++) {
-            DOT2C(sum[n][0], bigA[n][k2].f[b], bigB[0][k2].f[b]);
-            //----------------------------------------------------
-            // The following code with YTILE > 1
-            //----------------------------------------------------
-            if constexpr (YTILE >= 2) {
-              DOT2C(sum[n][1], bigA[n][k2].f[b], bigB[1][k2].f[b]);
-            }
-            if constexpr (YTILE >= 3) {
-              DOT2C(sum[n][2], bigA[n][k2].f[b], bigB[2][k2].f[b]);
-            }
-            if constexpr (YTILE >= 4) {
-              DOT2C(sum[n][3], bigA[n][k2].f[b], bigB[3][k2].f[b]);
-            }
-            if constexpr (YTILE >= 5) {
-              DOT2C(sum[n][4], bigA[n][k2].f[b], bigB[4][k2].f[b]);
-            }
-            if constexpr (YTILE >= 6) {
-              DOT2C(sum[n][5], bigA[n][k2].f[b], bigB[5][k2].f[b]);
-            }
-            if constexpr (YTILE >= 7) {
-              DOT2C(sum[n][6], bigA[n][k2].f[b], bigB[6][k2].f[b]);
-            }
-            if constexpr (YTILE >= 8) {
-              DOT2C(sum[n][7], bigA[n][k2].f[b], bigB[7][k2].f[b]);
-            }
+          for (int y = 0; y < YTILE; y++) {
+            if constexpr (!use_mfma)
+  #pragma unroll
+              for (uint32_t b = 0; b < A_CHUNK / 2; b++) {
+                DOT2C(sum[n][y], bigA[n][k2].f[b], bigB[y][k2].f[b])
+              }
+            else
+  #pragma unroll
+              for (uint32_t b = 0; b < A_CHUNK / 4; b++)
+                sum4[n][y] = __builtin_amdgcn_mfma_f32_4x4x4bf16_1k(
+                    bigA[n][k2].h4[b], bigB[y][k2].h4[b], sum4[n][y], 0, 0, 0);
           }
         }
       }
@@ -710,34 +723,82 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
     //----------------------------------------------------
     // Final reduction step using shuffle
     //----------------------------------------------------
-    for (int n = 0; n < N; n++) {
-      for (int y = 0; y < YTILE; y++) {
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:8 bound_ctrl:0 "
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:4 bound_ctrl:0 "
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:2 bound_ctrl:0 "
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 wave_shr:1 bound_ctrl:0"
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:15 bound_ctrl:0"
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:31 bound_ctrl:0"
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+    if constexpr (!use_mfma) {
+      for (int n = 0; n < N; n++) {
+        for (int y = 0; y < YTILE; y++) {
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:8 bound_ctrl:0 "
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:4 bound_ctrl:0 "
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:2 bound_ctrl:0 "
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 wave_shr:1 bound_ctrl:0"
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:15 bound_ctrl:0"
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:31 bound_ctrl:0"
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+        }
       }
-    }
 
-    if (threadIdx.x == 63) {
+      if (threadIdx.x == 63) {
+        for (int n = 0; n < N; n++) {
+          for (int i = 0; i < YTILE; i++) {
+            if (commitColumn[i])
+              C[m + i + n * M] = __float2s<scalar_t>(sum[n][i]);
+          }
+        }
+      }
+    } else {
+  #pragma unroll
       for (int n = 0; n < N; n++) {
-        for (int i = 0; i < YTILE; i++) {
-          if (commitColumn[i])
-            C[m + i + n * M] = __float2s<scalar_t>(sum[n][i]);
+  #pragma unroll
+        for (int y = 0; y < YTILE; y++) {
+          // float accm1 = 0;
+          // for (int i=0; i<64; i++)
+          //    accm1 += __shfl(sum4[n][y][i%4], i);
+
+          float accm = sum4[n][y][0];
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shl:1 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(sum4[n][y][1]), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shl:2 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(sum4[n][y][2]), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shl:3 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(sum4[n][y][3]), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shl:4 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(accm), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shl:8 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(accm), "v"(accm));
+          asm("s_nop 0\n\tv_mov_b32 %0, %2 row_shr:15 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:15 bound_ctrl:0"
+              : "=v"(accm)
+              : "0"(accm), "v"(accm), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:31 bound_ctrl:0"
+              : "=v"(accm)
+              : "0"(accm), "v"(accm), "v"(accm));
+
+          sum4[n][y][0] = accm;
+        }
+      }
+      if (threadIdx.x == 63) {
+        for (int n = 0; n < N; n++) {
+          for (int i = 0; i < YTILE; i++) {
+            // if (commitColumn[i]) C[n + i + m * N] = __float2half(sum[n][i]);
+            C[m + i + n * M] = __float2bfloat16(sum4[n][i][0]);
+          }
         }
       }
     }
@@ -774,14 +835,22 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
     wvSplitK_hf_big_(const int K, const int M, const scalar_t* B,
                      const scalar_t* __restrict__ A, scalar_t* C,
                      const int _WvPrGrp, const int CuCount) {
+  #if defined(__HIP__MI300__)
+  constexpr bool use_mfma = (std::is_same_v<scalar_t, __hip_bfloat16>);
+  #else
+  constexpr bool use_mfma = false;
+  #endif
+
   using scalar8 =
       __attribute__((__vector_size__((A_CHUNK / 2) * sizeof(float)))) float;
-
+  using half4 =
+      __attribute__((__vector_size__((A_CHUNK / 2) * sizeof(__bf16)))) __bf16;
   union bigType {
     scalar_t h[A_CHUNK];
     float f[A_CHUNK / 2];
     float2 f2[A_CHUNK / 4];
     double d[A_CHUNK / 4];
+    half4 h4[A_CHUNK / 4];
     scalar8 h8;
   };
 
@@ -857,6 +926,7 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
   kFit = min(kFit, K);
 
   float sum[N][YTILE];
+  scalar8 sum4[N][YTILE];
 
   //----------------------------------------------------
   // Each wave works on a single column of weight matrix.
@@ -888,7 +958,11 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
     // are being worked on by each wave.
     //----------------------------------------------------
     for (int i = 0; i < YTILE; i++)
-      for (int n = 0; n < N; n++) sum[n][i] = 0;
+      for (int n = 0; n < N; n++)
+        if constexpr (!use_mfma)
+          sum[n][i] = 0;
+        else
+          sum4[n][i] = {0, 0, 0, 0};
 
     bigType bigA[N][UNRL];
     bigType bigB[YTILE][UNRL];
@@ -937,24 +1011,8 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
         if (k_ >= K) break;
 
         const scalar_t* B_ = &B[(m + 0) * K + k_];
-        bigB[0][k2].h8 = (loadnt((scalar8*)(&B_[0 * K])));
-        //----------------------------------------------------
-        // The following code with YTILE > 1 has to be deleted
-        //----------------------------------------------------
-        if constexpr (YTILE >= 2)
-          bigB[1][k2].h8 = (loadnt((scalar8*)(&B_[1 * K])));
-        if constexpr (YTILE >= 3)
-          bigB[2][k2].h8 = (loadnt((scalar8*)(&B_[2 * K])));
-        if constexpr (YTILE >= 4)
-          bigB[3][k2].h8 = (loadnt((scalar8*)(&B_[3 * K])));
-        if constexpr (YTILE >= 5)
-          bigB[4][k2].h8 = (loadnt((scalar8*)(&B_[4 * K])));
-        if constexpr (YTILE >= 6)
-          bigB[5][k2].h8 = (loadnt((scalar8*)(&B_[5 * K])));
-        if constexpr (YTILE >= 7)
-          bigB[6][k2].h8 = (loadnt((scalar8*)(&B_[6 * K])));
-        if constexpr (YTILE >= 8)
-          bigB[7][k2].h8 = (loadnt((scalar8*)(&B_[7 * K])));
+        for (int b = 0; b < YTILE; b++)
+          bigB[b][k2].h8 = (loadnt((scalar8*)(&B_[b * K])));
       }
 
       // Fetch activation matrix from either just LDS or from both LDS / memory
@@ -989,32 +1047,17 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
           // Do the matrix multiplication of activation and weight matrix
           // - Remember the accumulation is happening for K-split of 64!
   #pragma unroll
-          for (uint32_t b = 0; b < A_CHUNK / 2; b++) {
-            DOT2C(sum[n][0], bigA[n][k2].f[b], bigB[0][k2].f[b]);
-            //----------------------------------------------------
-            // The following code with YTILE > 1
-            //----------------------------------------------------
-            if constexpr (YTILE >= 2) {
-              DOT2C(sum[n][1], bigA[n][k2].f[b], bigB[1][k2].f[b]);
-            }
-            if constexpr (YTILE >= 3) {
-              DOT2C(sum[n][2], bigA[n][k2].f[b], bigB[2][k2].f[b]);
-            }
-            if constexpr (YTILE >= 4) {
-              DOT2C(sum[n][3], bigA[n][k2].f[b], bigB[3][k2].f[b]);
-            }
-            if constexpr (YTILE >= 5) {
-              DOT2C(sum[n][4], bigA[n][k2].f[b], bigB[4][k2].f[b]);
-            }
-            if constexpr (YTILE >= 6) {
-              DOT2C(sum[n][5], bigA[n][k2].f[b], bigB[5][k2].f[b]);
-            }
-            if constexpr (YTILE >= 7) {
-              DOT2C(sum[n][6], bigA[n][k2].f[b], bigB[6][k2].f[b]);
-            }
-            if constexpr (YTILE >= 8) {
-              DOT2C(sum[n][7], bigA[n][k2].f[b], bigB[7][k2].f[b]);
-            }
+          for (int y = 0; y < YTILE; y++) {
+            if constexpr (!use_mfma)
+  #pragma unroll
+              for (uint32_t b = 0; b < A_CHUNK / 2; b++) {
+                DOT2C(sum[n][y], bigA[n][k2].f[b], bigB[y][k2].f[b])
+              }
+            else
+  #pragma unroll
+              for (uint32_t b = 0; b < A_CHUNK / 4; b++)
+                sum4[n][y] = __builtin_amdgcn_mfma_f32_4x4x4bf16_1k(
+                    bigA[n][k2].h4[b], bigB[y][k2].h4[b], sum4[n][y], 0, 0, 0);
           }
         }
       }
@@ -1031,34 +1074,78 @@ __global__ void __launch_bounds__(WvPrGrp* THRDS)
     //----------------------------------------------------
     // Final reduction step using shuffle
     //----------------------------------------------------
-    for (int n = 0; n < N; n++) {
-      for (int y = 0; y < YTILE; y++) {
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:8 bound_ctrl:0 "
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:4 bound_ctrl:0 "
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:2 bound_ctrl:0 "
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 wave_shr:1 bound_ctrl:0"
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:15 bound_ctrl:0"
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
-        asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:31 bound_ctrl:0"
-            : "=v"(sum[n][y])
-            : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+    if constexpr (!use_mfma) {
+      for (int n = 0; n < N; n++) {
+        for (int y = 0; y < YTILE; y++) {
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:8 bound_ctrl:0 "
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:4 bound_ctrl:0 "
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shr:2 bound_ctrl:0 "
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 wave_shr:1 bound_ctrl:0"
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:15 bound_ctrl:0"
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:31 bound_ctrl:0"
+              : "=v"(sum[n][y])
+              : "0"(sum[n][y]), "v"(sum[n][y]), "v"(sum[n][y]));
+        }
       }
-    }
 
-    if (threadIdx.x == 63) {
+      if (threadIdx.x == 63) {
+        for (int n = 0; n < N; n++) {
+          for (int i = 0; i < YTILE; i++) {
+            if (commitColumn[i])
+              C[m + i + n * M] = __float2s<scalar_t>(sum[n][i]);
+          }
+        }
+      }
+    } else {
+  #pragma unroll
       for (int n = 0; n < N; n++) {
-        for (int i = 0; i < YTILE; i++) {
-          if (commitColumn[i])
-            C[m + i + n * M] = __float2s<scalar_t>(sum[n][i]);
+  #pragma unroll
+        for (int y = 0; y < YTILE; y++) {
+          float accm = sum4[n][y][0];
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shl:1 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(sum4[n][y][1]), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shl:2 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(sum4[n][y][2]), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shl:3 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(sum4[n][y][3]), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shl:4 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(accm), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_shl:8 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(accm), "v"(accm));
+          asm("s_nop 0\n\tv_mov_b32 %0, %2 row_shr:15 bound_ctrl:0 "
+              : "=v"(accm)
+              : "0"(accm), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:15 bound_ctrl:0"
+              : "=v"(accm)
+              : "0"(accm), "v"(accm), "v"(accm));
+          asm("s_nop 0\n\tv_add_f32 %0, %2, %3 row_bcast:31 bound_ctrl:0"
+              : "=v"(accm)
+              : "0"(accm), "v"(accm), "v"(accm));
+
+          sum4[n][y][0] = accm;
+        }
+      }
+      if (threadIdx.x == 63) {
+        for (int n = 0; n < N; n++) {
+          for (int i = 0; i < YTILE; i++) {
+            // if (commitColumn[i]) C[n + i + m * N] = __float2half(sum[n][i]);
+            C[m + i + n * M] = __float2bfloat16(sum4[n][i][0]);
+          }
         }
       }
     }
diff --git a/tests/kernels/quantization/test_rocm_skinny_gemms.py b/tests/kernels/quantization/test_rocm_skinny_gemms.py
index 622079c39..76d331690 100644
--- a/tests/kernels/quantization/test_rocm_skinny_gemms.py
+++ b/tests/kernels/quantization/test_rocm_skinny_gemms.py
@@ -8,7 +8,7 @@ from vllm.platforms import current_platform
 
 DTYPES = [torch.bfloat16, torch.float16]
 M = [16, 32, 64, 128, 256, 512, 1024, 4096, 8192]
-K = [8, 16, 32, 64, 128, 256, 512, 1024, 2048, 4096, 8192]  # k % 8 == 0
+K = [8, 16, 32, 64, 128, 256, 512, 1024, 2048, 4096, 6144, 8192]  # k % 8 == 0
 N = [1, 2, 3, 4]
 SEEDS = [0]
 
diff --git a/vllm/model_executor/layers/utils.py b/vllm/model_executor/layers/utils.py
index adb966c4b..751b86787 100644
--- a/vllm/model_executor/layers/utils.py
+++ b/vllm/model_executor/layers/utils.py
@@ -84,7 +84,7 @@ def rocm_unquantized_gemm(x: torch.Tensor,
     m = weight.shape[0]
     cu_count = current_platform.get_cu_count()
 
-    if m > 8 and 0 < n < 4:
+    if m > 8 and 0 < n <= 4:
         out = ops.wvSplitK(weight, x_view, cu_count)
         return out.view(*x.shape[:-1], weight.shape[0])
     elif m % 4 == 0 and n == 1 and k <= 8192:
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index 8a4920303..03b49e823 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -104,6 +104,7 @@ def device_id_to_physical_device_id(device_id: int) -> int:
         return device_id
 
 
+@cache
 def on_mi250_mi300() -> bool:
     GPU_ARCH = torch.cuda.get_device_properties("cuda").gcnArchName
     return any(arch in GPU_ARCH for arch in ["gfx90a", "gfx942"])
-- 
GitLab


From e515668edf510d86a0543ac5d7981dd91b2026d7 Mon Sep 17 00:00:00 2001
From: Akash kaothalkar <61960177+Akashcodes732@users.noreply.github.com>
Date: Thu, 8 May 2025 11:05:03 +0530
Subject: [PATCH 216/461] [Hardware][Power] Enable compressed tensor W8A8 INT8
 quantization for POWER (#17153)

Signed-off-by: Akash Kaothalkar <akash.kaothalkar@ibm.com>
Co-authored-by: Akash Kaothalkar <akash.kaothalkar@ibm.com>
Co-authored-by: mgoin <mgoin64@gmail.com>
---
 cmake/cpu_extension.cmake   |  33 +++-
 csrc/cpu/cpu_types_vsx.hpp  | 265 ++++++++++++++++++++++++++++
 csrc/cpu/quant.cpp          | 341 +++++++++++++++++++++++++++++++++++-
 csrc/cpu/torch_bindings.cpp |  35 ++++
 4 files changed, 669 insertions(+), 5 deletions(-)

diff --git a/cmake/cpu_extension.cmake b/cmake/cpu_extension.cmake
index 00670bd39..fb763db9f 100644
--- a/cmake/cpu_extension.cmake
+++ b/cmake/cpu_extension.cmake
@@ -167,6 +167,33 @@ if (AVX512_FOUND AND NOT AVX512_DISABLED)
 
     FetchContent_MakeAvailable(oneDNN)
     
+    list(APPEND LIBS dnnl)
+elseif(POWER10_FOUND)
+    FetchContent_Declare(
+        oneDNN
+        GIT_REPOSITORY https://github.com/oneapi-src/oneDNN.git
+        GIT_TAG v3.7.2
+        GIT_PROGRESS TRUE
+        GIT_SHALLOW TRUE
+    )
+
+    set(ONEDNN_LIBRARY_TYPE "STATIC")
+    set(ONEDNN_BUILD_DOC "OFF")
+    set(ONEDNN_BUILD_EXAMPLES "OFF")
+    set(ONEDNN_BUILD_TESTS "OFF")
+    set(ONEDNN_ENABLE_WORKLOAD "INFERENCE")
+    set(ONEDNN_ENABLE_PRIMITIVE "MATMUL;REORDER")
+    set(ONEDNN_BUILD_GRAPH "OFF")
+    set(ONEDNN_ENABLE_JIT_PROFILING "OFF")
+    set(ONEDNN_ENABLE_ITT_TASKS "OFF")
+    set(ONEDNN_ENABLE_MAX_CPU_ISA "OFF")
+    set(ONEDNN_ENABLE_CPU_ISA_HINTS "OFF")
+    set(CMAKE_POLICY_DEFAULT_CMP0077 NEW)
+
+    set(DNNL_CPU_RUNTIME "OMP")
+
+    FetchContent_MakeAvailable(oneDNN)
+
     list(APPEND LIBS dnnl)
 endif()
 
@@ -197,6 +224,10 @@ if (AVX512_FOUND AND NOT AVX512_DISABLED)
         "csrc/cpu/quant.cpp"
         "csrc/cpu/shm.cpp"
         ${VLLM_EXT_SRC})
+elseif(POWER10_FOUND)
+    set(VLLM_EXT_SRC
+        "csrc/cpu/quant.cpp"
+        ${VLLM_EXT_SRC})
 endif()
 
 #
@@ -214,4 +245,4 @@ define_gpu_extension_target(
     WITH_SOABI
 )
 
-message(STATUS "Enabling C extension.")
\ No newline at end of file
+message(STATUS "Enabling C extension.")
diff --git a/csrc/cpu/cpu_types_vsx.hpp b/csrc/cpu/cpu_types_vsx.hpp
index a8e1be37e..089b9840e 100644
--- a/csrc/cpu/cpu_types_vsx.hpp
+++ b/csrc/cpu/cpu_types_vsx.hpp
@@ -4,6 +4,7 @@
 
 #include <altivec.h>
 #include <cmath>
+#include <algorithm>
 #include <torch/all.h>
 
 namespace vec_op {
@@ -62,6 +63,10 @@ typedef struct f32x4x4_t {
   __vector float val[4];
 } f32x4x4_t;
 
+typedef struct i32x4x4_t {
+  __vector int32_t val[4];
+} i32x4x4_t;
+
 struct FP32Vec8;
 struct FP32Vec16;
 
@@ -98,6 +103,28 @@ struct BF16Vec16 : public Vec<BF16Vec16> {
     vec_xst(reg.val[0], 0, (signed short*)ptr);
     vec_xst(reg.val[1], 16, (signed short*)ptr);
   }
+
+  void save(void* ptr, const int elem_num) const {
+    const int clamped_elem = std::max(0, std::min(elem_num, 16));
+
+    // Calculate elements to store in each 128-bit part (8 elements each)
+    const int elements_val0 = std::min(clamped_elem, 8);
+    const int elements_val1 = std::max(clamped_elem - 8, 0);
+
+    // Convert elements to bytes (2 bytes per element)
+    const size_t bytes_val0 = elements_val0 * sizeof(signed short);
+    const size_t bytes_val1 = elements_val1 * sizeof(signed short);
+
+    signed short* dest = static_cast<signed short*>(ptr);
+    // Store the first part using vec_xst_len
+    if (bytes_val0 > 0) {
+      vec_xst_len(reg.val[0], dest, bytes_val0);
+    }
+    // Store the second part if needed
+    if (bytes_val1 > 0) {
+      vec_xst_len(reg.val[1], dest + elements_val0, bytes_val1);
+    }
+  }
 };
 
 const static __vector signed short zero = vec_splats((signed short)0);
@@ -257,6 +284,64 @@ struct FP32Vec8 : public Vec<FP32Vec8> {
   }
 };
 
+struct INT32Vec16 : public Vec<INT32Vec16> {
+  constexpr static int VEC_ELEM_NUM = 16;
+  union AliasReg {
+    i32x4x4_t reg;
+    int32_t values[VEC_ELEM_NUM];
+  };
+
+  i32x4x4_t reg;
+
+  explicit INT32Vec16(const void* data_ptr) {
+    reg.val[0] = vec_xl(0, reinterpret_cast<const __vector int32_t*>(data_ptr));
+    reg.val[1] =
+        vec_xl(16, reinterpret_cast<const __vector int32_t*>(data_ptr));
+    reg.val[2] =
+        vec_xl(32, reinterpret_cast<const __vector int32_t*>(data_ptr));
+    reg.val[3] =
+        vec_xl(48, reinterpret_cast<const __vector int32_t*>(data_ptr));
+  }
+
+  void save(int32_t* ptr) const {
+    vec_xst(reg.val[0], 0, reinterpret_cast<__vector int32_t*>(ptr));
+    vec_xst(reg.val[1], 16, reinterpret_cast<__vector int32_t*>(ptr));
+    vec_xst(reg.val[2], 32, reinterpret_cast<__vector int32_t*>(ptr));
+    vec_xst(reg.val[3], 48, reinterpret_cast<__vector int32_t*>(ptr));
+  }
+
+  void save(int32_t* ptr, const int elem_num) const {
+    const int elements_in_chunk1 =
+        (elem_num >= 0) ? ((elem_num >= 4) ? 4 : elem_num) : 0;
+    const int elements_in_chunk2 =
+        (elem_num > 4) ? ((elem_num >= 8) ? 4 : elem_num - 4) : 0;
+    const int elements_in_chunk3 =
+        (elem_num > 8) ? ((elem_num >= 12) ? 4 : elem_num - 8) : 0;
+    const int elements_in_chunk4 =
+        (elem_num > 12) ? ((elem_num >= 16) ? 4 : elem_num - 12) : 0;
+
+    const size_t bytes_chunk1 =
+        static_cast<size_t>(elements_in_chunk1 * sizeof(int32_t));
+    const size_t bytes_chunk2 =
+        static_cast<size_t>(elements_in_chunk2 * sizeof(int32_t));
+    const size_t bytes_chunk3 =
+        static_cast<size_t>(elements_in_chunk3 * sizeof(int32_t));
+    const size_t bytes_chunk4 =
+        static_cast<size_t>(elements_in_chunk4 * sizeof(int32_t));
+
+    vec_xst_len(reg.val[0], reinterpret_cast<int32_t*>(ptr), bytes_chunk1);
+    vec_xst_len(reg.val[1],
+                reinterpret_cast<int32_t*>(reinterpret_cast<char*>(ptr) + 16),
+                bytes_chunk2);
+    vec_xst_len(reg.val[2],
+                reinterpret_cast<int32_t*>(reinterpret_cast<char*>(ptr) + 32),
+                bytes_chunk3);
+    vec_xst_len(reg.val[3],
+                reinterpret_cast<int32_t*>(reinterpret_cast<char*>(ptr) + 48),
+                bytes_chunk4);
+  }
+};
+
 struct FP32Vec16 : public Vec<FP32Vec16> {
   constexpr static int VEC_ELEM_NUM = 16;
   union AliasReg {
@@ -319,6 +404,13 @@ struct FP32Vec16 : public Vec<FP32Vec16> {
 
   explicit FP32Vec16(const BF16Vec8& v) : FP32Vec16(FP32Vec8(v)) {}
 
+  explicit FP32Vec16(const INT32Vec16& v) {
+    reg.val[0] = vec_ctf(v.reg.val[0], 0);
+    reg.val[1] = vec_ctf(v.reg.val[1], 0);
+    reg.val[2] = vec_ctf(v.reg.val[2], 0);
+    reg.val[3] = vec_ctf(v.reg.val[3], 0);
+  }
+
   FP32Vec16 operator*(const FP32Vec16& b) const {
     return FP32Vec16(f32x4x4_t({vec_mul(reg.val[0], b.reg.val[0]),
                                 vec_mul(reg.val[1], b.reg.val[1]),
@@ -347,6 +439,117 @@ struct FP32Vec16 : public Vec<FP32Vec16> {
                                 vec_div(reg.val[3], b.reg.val[3])}));
   }
 
+  FP32Vec16 clamp(const FP32Vec16& min, const FP32Vec16& max) const {
+    return FP32Vec16(f32x4x4_t(
+        {vec_min(max.reg.val[0], vec_max(min.reg.val[0], reg.val[0])),
+         vec_min(max.reg.val[1], vec_max(min.reg.val[1], reg.val[1])),
+         vec_min(max.reg.val[2], vec_max(min.reg.val[2], reg.val[2])),
+         vec_min(max.reg.val[3], vec_max(min.reg.val[3], reg.val[3]))}));
+  }
+
+  FP32Vec16 max(const FP32Vec16& b) const {
+    return FP32Vec16(f32x4x4_t({vec_max(reg.val[0], b.reg.val[0]),
+                                vec_max(reg.val[1], b.reg.val[1]),
+                                vec_max(reg.val[2], b.reg.val[2]),
+                                vec_max(reg.val[3], b.reg.val[3])}));
+  }
+
+  FP32Vec16 max(const FP32Vec16& b, int elem_num) const {
+    FP32Vec16 result;
+
+    // Create a vector of element indices for each chunk
+    __vector unsigned int indices = {0, 1, 2, 3};
+    __vector unsigned int elem_num_vec =
+        vec_splats(static_cast<unsigned int>(elem_num));
+
+    // Compute masks for each chunk
+    __vector unsigned int chunk_offset0 = {0, 0, 0,
+                                           0};  // Chunk 0: Elements 0-3
+    __vector unsigned int chunk_offset1 = {4, 4, 4,
+                                           4};  // Chunk 1: Elements 4-7
+    __vector unsigned int chunk_offset2 = {8, 8, 8,
+                                           8};  // Chunk 2: Elements 8-11
+    __vector unsigned int chunk_offset3 = {12, 12, 12,
+                                           12};  // Chunk 3: Elements 12-15
+
+    // Compute masks for each chunk
+    __vector bool int mask0 = vec_cmplt(indices + chunk_offset0, elem_num_vec);
+    __vector bool int mask1 = vec_cmplt(indices + chunk_offset1, elem_num_vec);
+    __vector bool int mask2 = vec_cmplt(indices + chunk_offset2, elem_num_vec);
+    __vector bool int mask3 = vec_cmplt(indices + chunk_offset3, elem_num_vec);
+
+    // Apply masks to compute the result for each chunk
+    result.reg.val[0] = vec_sel(this->reg.val[0],
+                                vec_max(this->reg.val[0], b.reg.val[0]), mask0);
+    result.reg.val[1] = vec_sel(this->reg.val[1],
+                                vec_max(this->reg.val[1], b.reg.val[1]), mask1);
+    result.reg.val[2] = vec_sel(this->reg.val[2],
+                                vec_max(this->reg.val[2], b.reg.val[2]), mask2);
+    result.reg.val[3] = vec_sel(this->reg.val[3],
+                                vec_max(this->reg.val[3], b.reg.val[3]), mask3);
+
+    return FP32Vec16(result.reg);
+  }
+
+  FP32Vec16 min(const FP32Vec16& b) const {
+    return FP32Vec16(f32x4x4_t({vec_min(reg.val[0], b.reg.val[0]),
+                                vec_min(reg.val[1], b.reg.val[1]),
+                                vec_min(reg.val[2], b.reg.val[2]),
+                                vec_min(reg.val[3], b.reg.val[3])}));
+  }
+
+  FP32Vec16 min(const FP32Vec16& b, int elem_num) const {
+    FP32Vec16 result;
+
+    vector unsigned int indices = {0, 1, 2, 3};
+    vector unsigned int elem_num_vec =
+        vec_splats(static_cast<unsigned int>(elem_num));
+
+    vector unsigned int chunk_offset0 = {0, 0, 0, 0};
+    vector unsigned int chunk_offset1 = {4, 4, 4, 4};
+    vector unsigned int chunk_offset2 = {8, 8, 8, 8};
+    vector unsigned int chunk_offset3 = {12, 12, 12, 12};
+
+    vector bool int mask0 = vec_cmplt(indices + chunk_offset0, elem_num_vec);
+    vector bool int mask1 = vec_cmplt(indices + chunk_offset1, elem_num_vec);
+    vector bool int mask2 = vec_cmplt(indices + chunk_offset2, elem_num_vec);
+    vector bool int mask3 = vec_cmplt(indices + chunk_offset3, elem_num_vec);
+
+    result.reg.val[0] = vec_sel(this->reg.val[0],
+                                vec_min(this->reg.val[0], b.reg.val[0]), mask0);
+    result.reg.val[1] = vec_sel(this->reg.val[1],
+                                vec_min(this->reg.val[1], b.reg.val[1]), mask1);
+    result.reg.val[2] = vec_sel(this->reg.val[2],
+                                vec_min(this->reg.val[2], b.reg.val[2]), mask2);
+    result.reg.val[3] = vec_sel(this->reg.val[3],
+                                vec_min(this->reg.val[3], b.reg.val[3]), mask3);
+
+    return FP32Vec16(result.reg);
+  }
+
+  FP32Vec16 abs() const {
+    return FP32Vec16(f32x4x4_t({vec_abs(reg.val[0]), vec_abs(reg.val[1]),
+                                vec_abs(reg.val[2]), vec_abs(reg.val[3])}));
+  }
+
+  float reduce_max() {
+    __vector float max01 = vec_max(reg.val[0], reg.val[1]);
+    __vector float max23 = vec_max(reg.val[2], reg.val[3]);
+    __vector float max_all = vec_max(max01, max23);
+    __vector float temp = vec_max(max_all, vec_sld(max_all, max_all, 8));
+    temp = vec_max(temp, vec_sld(temp, temp, 4));
+    return vec_extract(temp, 0);
+  }
+
+  float reduce_min() {
+    __vector float min01 = vec_min(reg.val[0], reg.val[1]);
+    __vector float min23 = vec_min(reg.val[2], reg.val[3]);
+    __vector float min_all = vec_min(min01, min23);
+    __vector float temp = vec_min(min_all, vec_sld(min_all, min_all, 8));
+    temp = vec_min(temp, vec_sld(temp, temp, 4));
+    return vec_extract(temp, 0);
+  }
+
   float reduce_sum() const {
     AliasReg ar;
     ar.reg = reg;
@@ -377,6 +580,68 @@ struct FP32Vec16 : public Vec<FP32Vec16> {
     vec_xst(reg.val[2], 32, ptr);
     vec_xst(reg.val[3], 48, ptr);
   }
+
+  void save(float* ptr, const int elem_num) const {
+    const int elements_in_chunk1 =
+        (elem_num >= 0) ? ((elem_num >= 4) ? 4 : elem_num) : 0;
+    const int elements_in_chunk2 =
+        (elem_num > 4) ? ((elem_num >= 8) ? 4 : elem_num - 4) : 0;
+    const int elements_in_chunk3 =
+        (elem_num > 8) ? ((elem_num >= 12) ? 4 : elem_num - 8) : 0;
+    const int elements_in_chunk4 =
+        (elem_num > 12) ? ((elem_num >= 16) ? 4 : elem_num - 12) : 0;
+
+    const size_t bytes_chunk1 =
+        static_cast<size_t>(elements_in_chunk1 * sizeof(float));
+    const size_t bytes_chunk2 =
+        static_cast<size_t>(elements_in_chunk2 * sizeof(float));
+    const size_t bytes_chunk3 =
+        static_cast<size_t>(elements_in_chunk3 * sizeof(float));
+    const size_t bytes_chunk4 =
+        static_cast<size_t>(elements_in_chunk4 * sizeof(float));
+
+    vec_xst_len(reg.val[0], ptr, bytes_chunk1);
+    vec_xst_len(reg.val[1],
+                reinterpret_cast<float*>(reinterpret_cast<char*>(ptr) + 16),
+                bytes_chunk2);
+    vec_xst_len(reg.val[2],
+                reinterpret_cast<float*>(reinterpret_cast<char*>(ptr) + 32),
+                bytes_chunk3);
+    vec_xst_len(reg.val[3],
+                reinterpret_cast<float*>(reinterpret_cast<char*>(ptr) + 48),
+                bytes_chunk4);
+  }
+};
+
+struct INT8Vec16 : public Vec<INT8Vec16> {
+  constexpr static int VEC_NUM_ELEM = 16;  // 128 bits / 8 bits = 16
+
+  union AliasReg {
+    __vector signed char reg;
+    int8_t values[VEC_NUM_ELEM];
+  };
+
+  __vector signed char reg;
+
+  explicit INT8Vec16(const FP32Vec16& vec) {
+    __vector signed int ret[4];
+    ret[0] = vec_cts(vec.reg.val[0], 0);
+    ret[1] = vec_cts(vec.reg.val[1], 0);
+    ret[2] = vec_cts(vec.reg.val[2], 0);
+    ret[3] = vec_cts(vec.reg.val[3], 0);
+
+    __vector signed short packed1 = vec_packs(ret[0], ret[1]);
+    __vector signed short packed2 = vec_packs(ret[2], ret[3]);
+
+    reg = vec_packs(packed1, packed2);
+  }
+
+  void save(void* ptr) const {
+    *reinterpret_cast<__vector signed char*>(ptr) = reg;
+  }
+  void save(signed char* ptr, const int elem_num) {
+    vec_xst_len(reg, ptr, static_cast<size_t>(elem_num));
+  }
 };
 
 template <typename T>
diff --git a/csrc/cpu/quant.cpp b/csrc/cpu/quant.cpp
index 6751e7e55..f61dbcc94 100644
--- a/csrc/cpu/quant.cpp
+++ b/csrc/cpu/quant.cpp
@@ -239,6 +239,280 @@ void static_quant_epilogue(const float* input, scalar_t* output,
   }
 }
 
+template <bool AZP, bool PerChannel, bool Bias, typename scalar_t>
+void dynamic_quant_epilogue(const float* input, scalar_t* output,
+                            const float* a_scale, const float* b_scale,
+                            const int32_t* azp, const int32_t* azp_adj,
+                            const scalar_t* bias, const int num_tokens,
+                            const int hidden_size) {
+  CPU_KERNEL_GUARD_IN(dynamic_quant_epilogue)
+  using load_vec_t = typename KernelVecType<scalar_t>::load_vec_type;
+  using azp_adj_load_vec_t =
+      typename KernelVecType<scalar_t>::azp_adj_load_vec_type;
+  using cvt_vec_t = typename KernelVecType<scalar_t>::cvt_vec_type;
+  constexpr int vec_elem_num = load_vec_t::VEC_ELEM_NUM;
+
+  #pragma omp parallel for
+  for (int i = 0; i < num_tokens; ++i) {
+    int j = 0;
+    cvt_vec_t token_scale_vec(a_scale[i]);
+    cvt_vec_t token_zp_scale_vec;
+    if constexpr (AZP) {
+      float zp_scale_val = a_scale[i] * static_cast<float>(azp[i]);
+      if constexpr (!PerChannel) {
+        zp_scale_val *= *b_scale;
+      }
+      token_zp_scale_vec = cvt_vec_t(zp_scale_val);
+    }
+
+    for (; j < hidden_size - vec_elem_num; j += vec_elem_num) {
+      cvt_vec_t elems_fp32(input + i * hidden_size + j);
+      elems_fp32 = elems_fp32 * token_scale_vec;
+
+      if constexpr (AZP) {
+        azp_adj_load_vec_t azp_adj_vec(azp_adj + j);
+        cvt_vec_t azp_adj_fp32(azp_adj_vec);
+        azp_adj_fp32 = azp_adj_fp32 * token_zp_scale_vec;
+
+        if constexpr (PerChannel) {
+          cvt_vec_t b_scale_vec(b_scale + j);
+          azp_adj_fp32 = azp_adj_fp32 * b_scale_vec;
+        }
+
+        elems_fp32 = elems_fp32 - azp_adj_fp32;
+      }
+
+      if constexpr (Bias) {
+        load_vec_t bias_vec(bias + j);
+        cvt_vec_t bias_vec_fp32(bias_vec);
+        elems_fp32 = elems_fp32 + bias_vec_fp32;
+      }
+
+      load_vec_t elems_out(elems_fp32);
+      elems_out.save(output + i * hidden_size + j);
+    }
+
+    cvt_vec_t elems_fp32(input + i * hidden_size + j);
+    elems_fp32 = elems_fp32 * token_scale_vec;
+
+    if constexpr (AZP) {
+      azp_adj_load_vec_t azp_adj_vec(azp_adj + j);
+      cvt_vec_t azp_adj_fp32(azp_adj_vec);
+      azp_adj_fp32 = azp_adj_fp32 * token_zp_scale_vec;
+
+      if constexpr (PerChannel) {
+        cvt_vec_t b_scale_vec(b_scale + j);
+        azp_adj_fp32 = azp_adj_fp32 * b_scale_vec;
+      }
+
+      elems_fp32 = elems_fp32 - azp_adj_fp32;
+    }
+
+    if constexpr (Bias) {
+      load_vec_t bias_vec(bias + j);
+      cvt_vec_t bias_vec_fp32(bias_vec);
+      elems_fp32 = elems_fp32 + bias_vec_fp32;
+    }
+
+    load_vec_t elems_out(elems_fp32);
+    elems_out.save(output + i * hidden_size + j, hidden_size - j);
+  }
+}
+#elif defined(__powerpc64__)
+template <bool AZP, typename scalar_t>
+void static_scaled_int8_quant_impl(const scalar_t* input, int8_t* output,
+                                   const float* scale, const int32_t* azp,
+                                   const int num_tokens,
+                                   const int hidden_size) {
+  using load_vec_t = typename KernelVecType<scalar_t>::load_vec_type;
+  using cvt_vec_t = typename KernelVecType<scalar_t>::cvt_vec_type;
+  constexpr int vec_elem_num = load_vec_t::VEC_ELEM_NUM;
+
+  constexpr float i8_min =
+      static_cast<float>(std::numeric_limits<int8_t>::min());
+  constexpr float i8_max =
+      static_cast<float>(std::numeric_limits<int8_t>::max());
+
+  const cvt_vec_t inv_scale(1.0 / *scale);
+  const cvt_vec_t i8_min_vec(i8_min);
+  const cvt_vec_t i8_max_vec(i8_max);
+
+  cvt_vec_t zp_vec;
+  if constexpr (AZP) {
+    zp_vec = cvt_vec_t(static_cast<float>(*azp));
+  }
+  #pragma omp parallel for
+  for (int i = 0; i < num_tokens; ++i) {
+    int j = 0;
+    for (; j < hidden_size - vec_elem_num; j += vec_elem_num) {
+      load_vec_t elems(input + i * hidden_size + j);
+      cvt_vec_t elems_fp32(elems);
+      elems_fp32 = elems_fp32 * inv_scale;
+      if constexpr (AZP) {
+        elems_fp32 = elems_fp32 + zp_vec;
+      }
+      elems_fp32 = elems_fp32.clamp(i8_min_vec, i8_max_vec);
+      vec_op::INT8Vec16 elems_int8(elems_fp32);
+      elems_int8.save(output + i * hidden_size + j);
+    }
+    load_vec_t elems(input + i * hidden_size + j);
+    cvt_vec_t elems_fp32(elems);
+    elems_fp32 = elems_fp32 * inv_scale;
+
+    if constexpr (AZP) {
+      elems_fp32 = elems_fp32 + zp_vec;
+    }
+
+    elems_fp32 = elems_fp32.clamp(i8_min_vec, i8_max_vec);
+    vec_op::INT8Vec16 elems_int8(elems_fp32);
+    elems_int8.save(output + i * hidden_size + j, hidden_size - j);
+  }
+}
+template <bool AZP, typename scalar_t>
+void dynamic_scaled_int8_quant_impl(const scalar_t* input, int8_t* output,
+                                    float* scale, int32_t* azp,
+                                    const int num_tokens,
+                                    const int hidden_size) {
+  using load_vec_t = typename KernelVecType<scalar_t>::load_vec_type;
+  using cvt_vec_t = typename KernelVecType<scalar_t>::cvt_vec_type;
+  constexpr int vec_elem_num = load_vec_t::VEC_ELEM_NUM;
+
+  constexpr float i8_min =
+      static_cast<float>(std::numeric_limits<int8_t>::min());
+  constexpr float i8_max =
+      static_cast<float>(std::numeric_limits<int8_t>::max());
+  const cvt_vec_t i8_min_vec(i8_min);
+  const cvt_vec_t i8_max_vec(i8_max);
+
+  #pragma omp parallel for
+  for (int i = 0; i < num_tokens; ++i) {
+    cvt_vec_t max_value(std::numeric_limits<float>::lowest());
+    cvt_vec_t min_value(std::numeric_limits<float>::max());
+    {
+      int j = 0;
+      for (; j < hidden_size - vec_elem_num; j += vec_elem_num) {
+        load_vec_t elems(input + i * hidden_size + j);
+        cvt_vec_t elems_fp32(elems);
+        if constexpr (AZP) {
+          max_value = max_value.max(elems_fp32);
+          min_value = min_value.min(elems_fp32);
+        } else {
+          max_value = max_value.max(elems_fp32.abs());
+        }
+      }
+
+      load_vec_t elems(input + i * hidden_size + j);
+      cvt_vec_t elems_fp32(elems);
+
+      if (j + vec_elem_num == hidden_size) {
+        if constexpr (AZP) {
+          max_value = max_value.max(elems_fp32);
+          min_value = min_value.min(elems_fp32);
+        } else {
+          max_value = max_value.max(elems_fp32.abs());
+        }
+      } else {
+        if constexpr (AZP) {
+          max_value = max_value.max(elems_fp32, hidden_size - j);
+          min_value = min_value.min(elems_fp32, hidden_size - j);
+        } else {
+          max_value = max_value.max(elems_fp32.abs(), hidden_size - j);
+        }
+      }
+    }
+
+    float scale_val, azp_val;
+    if constexpr (AZP) {
+      float max_scalar = max_value.reduce_max();
+      float min_scalar = min_value.reduce_min();
+      scale_val = (max_scalar - min_scalar) / 255.0f;
+      azp_val = std::nearbyint(-128.0f - min_scalar / scale_val);
+      azp[i] = static_cast<int32_t>(azp_val);
+      scale[i] = scale_val;
+    } else {
+      scale_val = max_value.reduce_max() / 127.0f;
+      scale[i] = scale_val;
+    }
+
+    const cvt_vec_t inv_scale(1.0 / scale_val);
+    const cvt_vec_t azp_vec(azp_val);
+
+    {
+      int j = 0;
+      for (; j < hidden_size - vec_elem_num; j += vec_elem_num) {
+        load_vec_t elems(input + i * hidden_size + j);
+        cvt_vec_t elems_fp32(elems);
+        elems_fp32 = (elems_fp32 * inv_scale);
+
+        if constexpr (AZP) {
+          elems_fp32 = elems_fp32 + azp_vec;
+        }
+        elems_fp32 = elems_fp32.clamp(i8_min_vec, i8_max_vec);
+        vec_op::INT8Vec16 elems_int8(elems_fp32);
+        elems_int8.save(output + i * hidden_size + j);
+      }
+
+      load_vec_t elems(input + i * hidden_size + j);
+      cvt_vec_t elems_fp32(elems);
+      elems_fp32 = (elems_fp32 * inv_scale);
+
+      if constexpr (AZP) {
+        elems_fp32 = elems_fp32 + azp_vec;
+      }
+      elems_fp32 = elems_fp32.clamp(i8_min_vec, i8_max_vec);
+      vec_op::INT8Vec16 elems_int8(elems_fp32);
+      elems_int8.save(output + i * hidden_size + j, hidden_size - j);
+    }
+  }
+}
+template <bool PerChannel, typename scalar_t>
+void static_quant_epilogue(const float* input, scalar_t* output,
+                           const float a_scale, const float* b_scale,
+                           const int32_t* azp_with_adj, const int num_tokens,
+                           const int hidden_size) {
+  CPU_KERNEL_GUARD_IN(dynamic_output_scale_impl)
+  using load_vec_t = typename KernelVecType<scalar_t>::load_vec_type;
+  using azp_adj_load_vec_t =
+      typename KernelVecType<scalar_t>::azp_adj_load_vec_type;
+  using cvt_vec_t = typename KernelVecType<scalar_t>::cvt_vec_type;
+  constexpr int vec_elem_num = load_vec_t::VEC_ELEM_NUM;
+
+  #pragma omp parallel for
+  for (int i = 0; i < num_tokens; ++i) {
+    cvt_vec_t a_scale_vec(a_scale);
+    cvt_vec_t b_scale_vec(*b_scale);
+    cvt_vec_t scale_vec = a_scale_vec * b_scale_vec;
+
+    int j = 0;
+    for (; j < hidden_size - vec_elem_num; j += vec_elem_num) {
+      cvt_vec_t elems_fp32(input + i * hidden_size + j);
+      azp_adj_load_vec_t azp_adj_vec(azp_with_adj + j);
+      cvt_vec_t azp_adj_fp32(azp_adj_vec);
+
+      if constexpr (PerChannel) {
+        b_scale_vec = cvt_vec_t(b_scale + j);
+        scale_vec = b_scale_vec * a_scale_vec;
+      }
+      elems_fp32 = elems_fp32 - scale_vec * azp_adj_fp32;
+      load_vec_t elems_out(elems_fp32);
+      elems_out.save(output + i * hidden_size + j);
+    }
+
+    cvt_vec_t elems_fp32(input + i * hidden_size + j);
+    azp_adj_load_vec_t azp_adj_vec(azp_with_adj + j);
+    cvt_vec_t azp_adj_fp32(azp_adj_vec);
+
+    if constexpr (PerChannel) {
+      b_scale_vec = cvt_vec_t(b_scale + j);
+      scale_vec = b_scale_vec * a_scale_vec;
+    }
+
+    elems_fp32 = elems_fp32 - scale_vec * azp_adj_fp32;
+
+    load_vec_t elems_out(elems_fp32);
+    elems_out.save(output + i * hidden_size + j, hidden_size - j);
+  }
+}
 template <bool AZP, bool PerChannel, bool Bias, typename scalar_t>
 void dynamic_quant_epilogue(const float* input, scalar_t* output,
                             const float* a_scale, const float* b_scale,
@@ -324,7 +598,8 @@ void static_scaled_int8_quant_impl(const scalar_t* input, int8_t* output,
                                    const float* scale, const int32_t* azp,
                                    const int num_tokens,
                                    const int hidden_size) {
-  TORCH_CHECK(false, "static_scaled_int8_quant_impl requires AVX512 support.")
+  TORCH_CHECK(
+      false, "static_scaled_int8_quant_impl requires AVX512/powerpc64 support.")
 }
 
 template <typename scalar_t>
@@ -332,7 +607,9 @@ void dynamic_scaled_int8_quant_impl(const scalar_t* input, int8_t* output,
                                     float* scale, int32_t* azp,
                                     const int num_tokens,
                                     const int hidden_size) {
-  TORCH_CHECK(false, "dynamic_scaled_int8_quant_impl requires AVX512 support.")
+  TORCH_CHECK(
+      false,
+      "dynamic_scaled_int8_quant_impl requires AVX512/powerpc64 support.")
 }
 
 template <bool PerChannel, typename scalar_t>
@@ -340,7 +617,7 @@ void static_quant_epilogue(const float* input, scalar_t* output,
                            const float a_scale, const float* b_scale,
                            const int32_t* azp_with_adj, const int num_tokens,
                            const int hidden_size) {
-  TORCH_CHECK(false, "static_quant_epilogue requires AVX512 support.")
+  TORCH_CHECK(false, "static_quant_epilogue requires AVX512/powerpc64 support.")
 }
 
 template <typename scalar_t>
@@ -349,7 +626,8 @@ void dynamic_quant_epilogue(const float* input, scalar_t* output,
                             const int32_t* azp, const int32_t* azp_with_adj,
                             const scalar_t* bias, const int num_tokens,
                             const int hidden_size) {
-  TORCH_CHECK(false, "dynamic_quant_epilogue requires AVX512 support.")
+  TORCH_CHECK(false,
+              "dynamic_quant_epilogue requires AVX512/powerpc64 support.")
 }
 #endif
 }  // namespace
@@ -611,3 +889,58 @@ void dynamic_scaled_int8_quant(
         }
       });
 }
+
+#if defined(__powerpc64__)
+void int8_scaled_mm_ppc64le(torch::Tensor& c,        // [M, OC], row-major
+                            const torch::Tensor& a,  // [M, IC], row-major
+                            const torch::Tensor& b,  // [IC, OC], column-major
+                            const torch::Tensor& a_scales,
+                            const torch::Tensor& b_scales,
+                            const std::optional<torch::Tensor>& bias  // [OC]
+) {
+  CPU_KERNEL_GUARD_IN(cutlass_scaled_mm)
+  // Checks for conformality
+  TORCH_CHECK(a.dtype() == torch::kInt8 && b.dtype() == torch::kInt8,
+              "int8_scaled_mm_ppc64le only supports INT8 inputs.");
+  TORCH_CHECK(a.dim() == 2 && b.dim() == 2 && c.dim() == 2);
+  TORCH_CHECK(c.size(0) == a.size(0) && a.size(1) == b.size(0) &&
+              b.size(1) == c.size(1));
+  // We dont need this
+  TORCH_CHECK(a_scales.numel() == 1 || a_scales.numel() == a.size(0));
+  TORCH_CHECK(b_scales.numel() == 1 || b_scales.numel() == b.size(1));
+
+  // Check for strides and alignment
+  TORCH_CHECK(a.stride(1) == 1 && c.stride(1) == 1);  // Row-major
+  TORCH_CHECK(b.stride(0) == 1);                      // Column-major
+  TORCH_CHECK(c.stride(0) % 16 == 0 &&
+              b.stride(1) % 16 == 0);  // 16 Byte Alignment
+  TORCH_CHECK(a_scales.is_contiguous() && b_scales.is_contiguous());
+
+  if (bias) {
+    TORCH_CHECK(bias->numel() == b.size(1) && bias->is_contiguous() &&
+                bias->dim() == 1);
+  }
+  VLLM_DISPATCH_FLOATING_TYPES(c.scalar_type(), "int8_scaled_mm_ppc64le", [&] {
+    torch::Tensor tmp_fp32_out = torch::empty_like(c, ::at::ScalarType::Float);
+    // Compute C_inter=s_b * (A@B)
+    DNNLPrimitiveHelper<true>::gemm_s8s8_jit<float, void>(
+        a.data_ptr<int8_t>(), b.data_ptr<int8_t>(),
+        tmp_fp32_out.data_ptr<float>(), nullptr, a.size(0), b.size(1),
+        a.size(1), nullptr, b_scales.data_ptr<float>(), 0, b_scales.numel());
+    if (bias.has_value()) {
+      // Compute C=s_a * C_inter + bias
+      dynamic_quant_epilogue<false, true, true>(
+          tmp_fp32_out.data_ptr<float>(), c.data_ptr<scalar_t>(),
+          a_scales.data_ptr<float>(), nullptr, nullptr, nullptr,
+          bias->data_ptr<scalar_t>(), c.size(0), c.size(1));
+    } else {
+      // Compute C=s_a * C_inter
+      dynamic_quant_epilogue<false, true, false, scalar_t>(
+          tmp_fp32_out.data_ptr<float>(), c.data_ptr<scalar_t>(),
+          a_scales.data_ptr<float>(), nullptr, nullptr, nullptr, nullptr,
+          c.size(0), c.size(1));
+    }
+  });
+}
+
+#endif
diff --git a/csrc/cpu/torch_bindings.cpp b/csrc/cpu/torch_bindings.cpp
index 84b2a8555..447e826bc 100644
--- a/csrc/cpu/torch_bindings.cpp
+++ b/csrc/cpu/torch_bindings.cpp
@@ -18,6 +18,14 @@ void int8_scaled_mm_azp(torch::Tensor& c, const torch::Tensor& a,
                         const std::optional<torch::Tensor>& azp,
                         const std::optional<torch::Tensor>& bias);
 
+#if defined(__powerpc64__)
+void int8_scaled_mm_ppc64le(torch::Tensor& c, const torch::Tensor& a,
+                            const torch::Tensor& b,
+                            const torch::Tensor& a_scales,
+                            const torch::Tensor& b_scales,
+                            const std::optional<torch::Tensor>& bias);
+#endif
+
 void mla_decode_kvcache(torch::Tensor& out, torch::Tensor& query,
                         torch::Tensor& kv_cache, double scale,
                         torch::Tensor& block_tables, torch::Tensor& seq_lens);
@@ -150,6 +158,33 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
       "                  Tensor b_scales, Tensor azp_adj,"
       "                  Tensor? azp, Tensor? bias) -> ()");
   ops.impl("cutlass_scaled_mm_azp", torch::kCPU, &int8_scaled_mm_azp);
+#elif defined(__powerpc64__)
+  // Compute int8 quantized tensor for given scaling factor.
+  ops.def(
+      "static_scaled_int8_quant(Tensor! out, Tensor input, Tensor scale,"
+      "Tensor? azp) -> ()");
+  ops.impl("static_scaled_int8_quant", torch::kCPU, &static_scaled_int8_quant);
+
+  // Compute int8 quantized tensor and scaling factor
+  ops.def(
+      "dynamic_scaled_int8_quant(Tensor! out, Tensor input, Tensor! scale, "
+      "Tensor!? azp) -> ()");
+  ops.impl("dynamic_scaled_int8_quant", torch::kCPU,
+           &dynamic_scaled_int8_quant);
+  // W8A8 GEMM, supporting symmetric quantization.
+  ops.def(
+      "cutlass_scaled_mm(Tensor! out, Tensor a,"
+      "                  Tensor b, Tensor a_scales,"
+      "                  Tensor b_scales, Tensor? bias) -> ()");
+  ops.impl("cutlass_scaled_mm", torch::kCPU, &int8_scaled_mm_ppc64le);
+  // w8a8 GEMM, supporting asymmetric per-tensor or per-row/column
+  // quantization.
+  ops.def(
+      "cutlass_scaled_mm_azp(Tensor! out, Tensor a,"
+      "                  Tensor b, Tensor a_scales,"
+      "                  Tensor b_scales, Tensor azp_adj,"
+      "                  Tensor? azp, Tensor? bias) -> ()");
+  ops.impl("cutlass_scaled_mm_azp", torch::kCPU, &int8_scaled_mm_azp);
 #endif
 
 // SHM CCL
-- 
GitLab


From 843b222723b659e4b80d71d3ffb4944266af1d74 Mon Sep 17 00:00:00 2001
From: Agata Dobrzyniewicz <160237065+adobrzyn@users.noreply.github.com>
Date: Thu, 8 May 2025 07:37:03 +0200
Subject: [PATCH 217/461] [Hardware][Intel-Gaudi] Support Automatic Prefix
 Caching on HPU (#17648)

Signed-off-by: Agata Dobrzyniewicz <adobrzyniewicz@habana.ai>
---
 vllm/attention/backends/hpu_attn.py  |  32 ++++---
 vllm/attention/ops/hpu_paged_attn.py |  36 ++-----
 vllm/worker/hpu_model_runner.py      | 134 +++++++++++++++++++++++----
 3 files changed, 146 insertions(+), 56 deletions(-)

diff --git a/vllm/attention/backends/hpu_attn.py b/vllm/attention/backends/hpu_attn.py
index 55a63a816..d701c59a2 100644
--- a/vllm/attention/backends/hpu_attn.py
+++ b/vllm/attention/backends/hpu_attn.py
@@ -57,16 +57,16 @@ class HPUAttentionBackend(AttentionBackend):
     def swap_blocks(
         src_kv_cache: torch.Tensor,
         dst_kv_cache: torch.Tensor,
-        src_to_dst: Dict[int, int],
+        src_to_dsts: torch.Tensor,
     ) -> None:
-        HPUPagedAttention.swap_blocks(src_kv_cache, dst_kv_cache, src_to_dst)
+        HPUPagedAttention.swap_blocks(src_kv_cache, dst_kv_cache, src_to_dsts)
 
     @staticmethod
     def copy_blocks(
         kv_caches: List[torch.Tensor],
-        src_to_dists: Dict[int, List[int]],
+        src_to_dsts: torch.Tensor,
     ) -> None:
-        HPUPagedAttention.copy_blocks(kv_caches, src_to_dists)
+        HPUPagedAttention.copy_blocks(kv_caches, src_to_dsts)
 
 
 @dataclass
@@ -77,6 +77,7 @@ class HPUAttentionMetadata(HPUPagedAttentionMetadata, AttentionMetadata):
     is_prompt: bool
     attn_bias: Optional[torch.Tensor]
     seq_lens_tensor: Optional[torch.Tensor]
+    context_lens_tensor: Optional[torch.Tensor]
 
 
 class HPUAttentionImpl(AttentionImpl, torch.nn.Module):
@@ -198,8 +199,7 @@ class HPUAttentionImpl(AttentionImpl, torch.nn.Module):
         key_cache = None
         value_cache = None
         if attn_metadata.is_prompt and self.attn_type \
-           is not AttentionType.ENCODER_ONLY \
-           and attn_metadata.block_list is None:
+           is not AttentionType.ENCODER_ONLY:
             key = key.unflatten(0, (block_indices.size(0), -1))
             value = value.unflatten(0, (block_indices.size(0), -1))
         if kv_cache is not None and isinstance(kv_cache, tuple):
@@ -229,6 +229,9 @@ class HPUAttentionImpl(AttentionImpl, torch.nn.Module):
                 attn_bias = attn_bias.tile((1, self.num_kv_heads, 1, 1))
                 attn_bias.add_(position_bias)
 
+            block_list = attn_metadata.block_list if attn_metadata \
+                and attn_metadata.block_list is not None else None
+
             out = ops.prompt_attention(
                 impl=self.prefill_impl,
                 query=query.view(query_shape),
@@ -237,23 +240,25 @@ class HPUAttentionImpl(AttentionImpl, torch.nn.Module):
                 is_causal=True,
                 attn_bias=attn_bias,
                 valid_seq_lengths=attn_metadata.seq_lens_tensor,
-                **self.common_attention_args())
+                **self.common_attention_args(block_list, key_cache,
+                                             value_cache))
             output = out.reshape(batch_size, seq_len, hidden_size)
         else:
             # Decoding run.
             output = HPUPagedAttention.forward_decode(
                 query=query,
-                key_cache=key_cache,
-                value_cache=value_cache,
-                block_list=attn_metadata.block_list,
                 block_mapping=attn_metadata.block_mapping,
                 block_bias=attn_metadata.attn_bias,
                 block_groups=attn_metadata.block_groups,
-                **self.common_attention_args())
+                **self.common_attention_args(attn_metadata.block_list,
+                                             key_cache, value_cache))
         # Reshape the output tensor.
         return output.view(batch_size, seq_len, hidden_size)
 
-    def common_attention_args(self):
+    def common_attention_args(self,
+                              block_list=None,
+                              key_cache=None,
+                              value_cache=None):
         fsdpa_op = self.fused_scaled_dot_product_attention.apply \
             if self.fused_scaled_dot_product_attention is not None else None
         return {
@@ -266,6 +271,9 @@ class HPUAttentionImpl(AttentionImpl, torch.nn.Module):
             'keys_fetch_func': self.k_cache.fetch_from_cache,
             'values_fetch_func': self.v_cache.fetch_from_cache,
             'softmax_op': self.softmax,
+            'block_list': block_list,
+            'key_cache': key_cache,
+            'value_cache': value_cache,
         }
 
 
diff --git a/vllm/attention/ops/hpu_paged_attn.py b/vllm/attention/ops/hpu_paged_attn.py
index 1dedd2ffc..a97c36338 100644
--- a/vllm/attention/ops/hpu_paged_attn.py
+++ b/vllm/attention/ops/hpu_paged_attn.py
@@ -5,7 +5,7 @@
 ###############################################################################
 
 from dataclasses import dataclass
-from typing import Dict, List, Optional, Tuple
+from typing import List, Optional, Tuple
 
 import torch
 from vllm_hpu_extension import cache_ops, ops
@@ -63,43 +63,25 @@ class HPUPagedAttention:
     def forward_decode(**kwargs) -> torch.Tensor:
         return ops.flat_pa(**kwargs)
 
-    @staticmethod
-    def forward_prefix(
-        query: torch.Tensor,
-        key: torch.Tensor,
-        value: torch.Tensor,
-        key_cache: torch.Tensor,
-        value_cache: torch.Tensor,
-        block_tables: torch.Tensor,
-        subquery_start_loc: torch.Tensor,
-        seq_lens_tensor: torch.Tensor,
-        context_lens: torch.Tensor,
-        max_query_len: int,
-        alibi_slopes: Optional[torch.Tensor],
-        sliding_window: Optional[int],
-    ) -> torch.Tensor:
-        raise NotImplementedError(
-            "forward_prefix is not implemented for HPUPagedAttention")
-
     @staticmethod
     def swap_blocks(
-        src_kv_cache: torch.Tensor,
-        dst_kv_cache: torch.Tensor,
-        src_to_dst: Dict[int, int],
+        src_kv_cache: Tuple[torch.Tensor, torch.Tensor],
+        dst_kv_cache: Tuple[torch.Tensor, torch.Tensor],
+        src_to_dsts: torch.Tensor,
     ) -> None:
         src_key_cache = src_kv_cache[0]
         dst_key_cache = dst_kv_cache[0]
-        cache_ops.swap_blocks(src_key_cache, dst_key_cache, src_to_dst)
+        cache_ops.swap_blocks(src_key_cache, dst_key_cache, src_to_dsts)
 
         src_value_cache = src_kv_cache[1]
         dst_value_cache = dst_kv_cache[1]
-        cache_ops.swap_blocks(src_value_cache, dst_value_cache, src_to_dst)
+        cache_ops.swap_blocks(src_value_cache, dst_value_cache, src_to_dsts)
 
     @staticmethod
     def copy_blocks(
-        kv_caches: List[torch.Tensor],
-        src_to_dists: Dict[int, List[int]],
+        kv_caches: List[Tuple[torch.Tensor, torch.Tensor]],
+        src_to_dsts: torch.Tensor,
     ) -> None:
         key_caches = [kv_cache[0] for kv_cache in kv_caches]
         value_caches = [kv_cache[1] for kv_cache in kv_caches]
-        cache_ops.copy_blocks(key_caches, value_caches, src_to_dists)
+        cache_ops.copy_blocks(key_caches, value_caches, src_to_dsts)
diff --git a/vllm/worker/hpu_model_runner.py b/vllm/worker/hpu_model_runner.py
index e25864349..a343e2fed 100644
--- a/vllm/worker/hpu_model_runner.py
+++ b/vllm/worker/hpu_model_runner.py
@@ -14,7 +14,7 @@ import math
 import os
 import time
 from array import array
-from enum import IntEnum
+from enum import Enum, IntEnum
 from typing import (TYPE_CHECKING, Any, Callable, Dict, List, NamedTuple,
                     Optional, Set, Tuple, Type, TypeVar, Union)
 
@@ -75,6 +75,12 @@ LORA_WARMUP_RANK = 8
 DUMMY_TOKEN_ID = -1
 
 
+class PhaseType(Enum):
+    PREFILL = 'prefill'
+    PREFIX_PREFILL = 'prefix_prefill'
+    DECODE = 'decode'
+
+
 def subtuple(obj: object,
              typename: str,
              to_copy: List[str],
@@ -213,20 +219,40 @@ class HpuModelAdapter:
 
     def _set_attn_bias(self, attn_metadata, batch_size, seq_len, device,
                        dtype):
-        prefill_metadata = attn_metadata
-        if prefill_metadata is None or self.prefill_use_fusedsdpa:
+        if (attn_metadata is None
+                or (self.prefill_use_fusedsdpa \
+                    and attn_metadata.block_list is None)
+                or not attn_metadata.is_prompt):
             return attn_metadata
 
+        prefill_metadata = attn_metadata
+
         seq_lens_t = prefill_metadata.seq_lens_tensor
+        context_lens_t = prefill_metadata.context_lens_tensor
+        query_lens_t = seq_lens_t - context_lens_t
+
+        block_list = attn_metadata.block_list
+        max_context_len = (block_list.size(-1) //
+                           batch_size if block_list is not None else 0)
+        max_context_len = max_context_len * self.block_size
+        past_mask = torch.arange(0,
+                                 max_context_len,
+                                 dtype=torch.int32,
+                                 device=device)
+        past_mask = (past_mask.view(1, -1).expand(batch_size, -1).ge(
+            context_lens_t.view(-1, 1)).view(batch_size, 1, -1).expand(
+                batch_size, seq_len, -1).view(batch_size, 1, seq_len, -1))
+
         len_mask = (torch.arange(0, seq_len, device=device,
                                  dtype=torch.int32).view(1, seq_len).ge(
-                                     seq_lens_t.unsqueeze(-1)).view(
+                                     query_lens_t.unsqueeze(-1)).view(
                                          batch_size, 1, 1, seq_len))
         causal_mask = torch.triu(torch.ones((batch_size, 1, seq_len, seq_len),
                                             device=device,
                                             dtype=torch.bool),
                                  diagonal=1)
         mask = causal_mask.logical_or(len_mask)
+        mask = torch.concat((past_mask, mask), dim=-1)
         attn_bias = (torch.zeros_like(mask, dtype=dtype).masked_fill_(
             mask, -math.inf))
         attn_metadata = prefill_metadata._replace(attn_bias=attn_bias)
@@ -517,6 +543,11 @@ class HPUModelRunnerBase(ModelRunnerBase[TModelInputForHPU]):
                                                  False, self.max_model_len)
         self.graphed_buckets: Set[Any] = set()
         self._set_gc_threshold()
+        if self.vllm_config.cache_config.enable_prefix_caching:
+            os.environ.setdefault("VLLM_CONTIGUOUS_PA", "False")
+            assert os.environ.get(
+                "VLLM_CONTIGUOUS_PA",
+                "").lower() != "true", "Contiguous PA doesn't support APC"
         self.use_contiguous_pa = envs.VLLM_USE_HPU_CONTIGUOUS_CACHE_FETCH
 
         # For multi-step scheduling
@@ -702,6 +733,10 @@ class HPUModelRunnerBase(ModelRunnerBase[TModelInputForHPU]):
                     computed_block_nums) > 0 and self.sliding_window is None:
                 # Prefix is not supported with sliding_window
                 context_len = len(computed_block_nums) * self.block_size
+                if context_len == seq_len \
+                and self.vllm_config.cache_config.enable_prefix_caching:
+                    # Fully cached prompt - compute only last token
+                    context_len = context_len - 1
                 prompt_tokens = prompt_tokens[context_len:]
                 prefix_block_tables.append(computed_block_nums)
             elif self.scheduler_config.chunked_prefill_enabled:
@@ -779,12 +814,33 @@ class HPUModelRunnerBase(ModelRunnerBase[TModelInputForHPU]):
             if lora_id > 0:
                 lora_requests.add(seq_group_metadata.lora_request)
 
-            lora_index_mapping += [lora_id] * (max_prompt_len - context_len)
+            lora_index_mapping += [lora_id] * max_prompt_len
             lora_prompt_mapping.extend(
                 [lora_id] *
-                (max_prompt_len - context_len
+                (max_prompt_len
                  if seq_group_metadata.sampling_params.prompt_logprobs else 1))
 
+        if any(context_lens):
+            assert not self.scheduler_config.chunked_prefill_enabled
+            # prefix caching
+
+            max_num_block = max(len(bt) for bt in prefix_block_tables)
+            prefix_block_list = list(
+                itertools.chain.from_iterable(
+                    bt if len(bt) == max_num_block else bt +
+                    ([_PAD_BLOCK_ID] * (max_num_block - len(bt)))
+                    for bt in prefix_block_tables))
+
+            pad_len = len(prefix_block_list)
+            prefix_block_list = pad_list(prefix_block_list, pad_len,
+                                         _PAD_BLOCK_ID)
+
+            prefix_block_list_tensor = torch.tensor(prefix_block_list,
+                                                    dtype=torch.long,
+                                                    device=self.device)
+        else:
+            prefix_block_list_tensor = None
+
         input_tokens = make_tensor_with_pad(input_tokens,
                                             max_len=max_prompt_len,
                                             pad=0,
@@ -807,11 +863,15 @@ class HPUModelRunnerBase(ModelRunnerBase[TModelInputForHPU]):
                                        dtype=torch.long,
                                        device=self.device)
 
+        context_lens_tensor = torch.tensor(context_lens,
+                                           dtype=torch.long,
+                                           device=self.device)
+
         block_indices, block_offsets = precompute_indices_and_offsets(
             self.block_size, slot_mapping, True)
         attn_metadata = self.attn_backend.make_metadata(
             is_prompt=True,
-            block_list=None,
+            block_list=prefix_block_list_tensor,
             block_mapping=None,
             block_usage=None,
             block_indices=block_indices,
@@ -819,6 +879,7 @@ class HPUModelRunnerBase(ModelRunnerBase[TModelInputForHPU]):
             block_groups=None,
             attn_bias=None,
             seq_lens_tensor=seq_lens_tensor,
+            context_lens_tensor=context_lens_tensor,
             num_prefills=real_num_seqs,
             num_prefill_tokens=sum_query_len,
             num_decode_tokens=0,
@@ -987,6 +1048,7 @@ class HPUModelRunnerBase(ModelRunnerBase[TModelInputForHPU]):
             block_groups=block_groups,
             attn_bias=None,
             seq_lens_tensor=None,
+            context_lens_tensor=None,
             num_prefills=0,
             num_prefill_tokens=0,
             num_decode_tokens=num_decode_tokens,
@@ -1091,7 +1153,7 @@ class HPUModelRunnerBase(ModelRunnerBase[TModelInputForHPU]):
         # FIXME: We need to adjust selected_token_indices to accommodate
         # for padding
         max_len = input_tokens.size(1)
-        paddings = [max_len - s for s in seq_lens]
+        paddings = [max_len - q for q in query_lens]
         paddings = [0] + paddings[:-1]
         paddings = list(itertools.accumulate(paddings))
         paddings_prompt_logprobs = []
@@ -1187,9 +1249,17 @@ class HPUModelRunnerBase(ModelRunnerBase[TModelInputForHPU]):
         # input_hash(123) != input_hash(321)
         # input_hash("abc") != input_hash("cba")
         attention_metadata = subtuple(metadata, 'TrimmedAttentionMetadata', [
-            'attn_bias', 'seq_lens_tensor', 'block_list', 'block_mapping',
-            'block_usage', 'slot_mapping', 'is_prompt', 'block_indices',
-            'block_offsets', 'block_groups'
+            'attn_bias',
+            'seq_lens_tensor',
+            'context_lens_tensor',
+            'block_list',
+            'block_mapping',
+            'block_usage',
+            'slot_mapping',
+            'is_prompt',
+            'block_indices',
+            'block_offsets',
+            'block_groups',
         ])
         return attention_metadata
 
@@ -1733,14 +1803,44 @@ class HPUModelRunner(HPUModelRunnerBase[ModelInputForHPUWithSamplingMetadata]):
         from neural_compressor.torch.quantization import finalize_calibration
         finalize_calibration(self.model.model)
 
-    def _check_config(self, batch_size, seq_len, is_prompt, warmup_mode):
-        cfg = (batch_size, seq_len, is_prompt)
+    def _num_blocks(self, attn_metadata):
+        if attn_metadata.block_list is None:
+            return 0
+        return attn_metadata.block_list.numel()
+
+    def _phase(self, attn_metadata):
+        phase_type: PhaseType
+        is_prompt = attn_metadata.is_prompt
+        is_prefix_prefill = is_prompt and attn_metadata.block_list is not None
+        if is_prompt and is_prefix_prefill:
+            phase_type = PhaseType.PREFIX_PREFILL
+        elif is_prompt and not is_prefix_prefill:
+            phase_type = PhaseType.PREFILL
+        elif not is_prompt:
+            phase_type = PhaseType.DECODE
+        else:
+            raise ValueError("Unrecognized pass type, likely due to malformed "
+                             "attention metadata")
+        return phase_type
+
+    def _check_config(self, batch_size, seq_len, attn_metadata, warmup_mode):
+        is_prefix_caching = self.vllm_config.cache_config.enable_prefix_caching
+        cfg: Optional[tuple] = None
+        assert cfg is None, "Configs changed between 2D and 3D"
+        if is_prefix_caching:
+            phase = self._phase(attn_metadata)
+            num_blocks = self._num_blocks(attn_metadata)
+            cfg = (batch_size, seq_len, num_blocks, phase)
+        else:
+            phase = 'prompt' if attn_metadata.is_prompt else 'decode'
+            cfg = (batch_size, seq_len, phase)
         seen = cfg in self.seen_configs
         self.seen_configs.add(cfg)
         if not seen and not warmup_mode:
-            phase = 'prompt' if is_prompt else 'decode'
-            logger.warning("Configuration: (%s, %s, %s) was not warmed-up!",
-                           phase, batch_size, seq_len)
+            logger.warning("Configuration: %s was not warmed-up!",
+                           (phase.value, batch_size, seq_len,
+                            num_blocks) if is_prefix_caching else
+                           (phase, batch_size, seq_len))
 
     def create_lora_mask(self, input_tokens: torch.Tensor, lora_ids: List[int],
                          is_prompt: bool):
@@ -1912,7 +2012,7 @@ class HPUModelRunner(HPUModelRunnerBase[ModelInputForHPUWithSamplingMetadata]):
             batch_size = input_tokens.size(0)
             seq_len = self._seq_len(attn_metadata)
             use_graphs = self._use_graphs(batch_size, seq_len, is_prompt)
-            self._check_config(batch_size, seq_len, is_prompt, warmup_mode)
+            self._check_config(batch_size, seq_len, attn_metadata, warmup_mode)
 
             lora_mask: torch.Tensor = None
             lora_logits_mask: torch.Tensor = None
-- 
GitLab


From 96722aa81da3d103675a38cfe528dd719cd9fc0a Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Thu, 8 May 2025 14:05:54 +0800
Subject: [PATCH 218/461] [Frontend] Chat template fallbacks for multimodal
 models (#17805)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 docs/source/serving/multimodal_inputs.md      |   9 +-
 examples/template_florence2.jinja             |   3 -
 examples/template_paligemma.jinja             |   3 -
 examples/template_qwen_vl.jinja               |   3 -
 .../entrypoints/openai/test_chat_template.py  |  20 ++-
 tests/entrypoints/test_chat_utils.py          | 115 +++++++++++++++---
 tests/models/registry.py                      |   6 +-
 vllm/entrypoints/chat_utils.py                |  38 ++++--
 vllm/entrypoints/llm.py                       |   4 +-
 vllm/entrypoints/openai/api_server.py         |   3 +-
 vllm/entrypoints/openai/serving_engine.py     |   4 +-
 .../chat_templates/__init__.py                |   4 +
 .../chat_templates/registry.py                |  59 +++++++++
 .../chat_templates/template_basic.jinja       |   0
 .../chat_templates}/template_blip2.jinja      |   0
 .../chat_templates/template_chatml.jinja      |   0
 .../template_deepseek_vl2.jinja               |   0
 .../chat_templates}/template_fuyu.jinja       |   0
 18 files changed, 219 insertions(+), 52 deletions(-)
 delete mode 100644 examples/template_florence2.jinja
 delete mode 100644 examples/template_paligemma.jinja
 delete mode 100644 examples/template_qwen_vl.jinja
 create mode 100644 vllm/transformers_utils/chat_templates/__init__.py
 create mode 100644 vllm/transformers_utils/chat_templates/registry.py
 rename examples/template_chameleon.jinja => vllm/transformers_utils/chat_templates/template_basic.jinja (100%)
 rename {examples => vllm/transformers_utils/chat_templates}/template_blip2.jinja (100%)
 rename examples/template_qwen_vl_chat.jinja => vllm/transformers_utils/chat_templates/template_chatml.jinja (100%)
 rename {examples => vllm/transformers_utils/chat_templates}/template_deepseek_vl2.jinja (100%)
 rename {examples => vllm/transformers_utils/chat_templates}/template_fuyu.jinja (100%)

diff --git a/docs/source/serving/multimodal_inputs.md b/docs/source/serving/multimodal_inputs.md
index bcaa4f9b9..bb2997f00 100644
--- a/docs/source/serving/multimodal_inputs.md
+++ b/docs/source/serving/multimodal_inputs.md
@@ -213,10 +213,13 @@ Our OpenAI-compatible server accepts multi-modal data via the [Chat Completions
 
 :::{important}
 A chat template is **required** to use Chat Completions API.
+For HF format models, the default chat template is defined inside `chat_template.json` or `tokenizer_config.json`.
 
-Although most models come with a chat template, for others you have to define one yourself.
-The chat template can be inferred based on the documentation on the model's HuggingFace repo.
-For example, DeepSeek-VL2 requires a chat template that can be found here: <gh-file:examples/template_deepseek_vl2.jinja>
+If no default chat template is available, we will first look for a built-in fallback in <gh-file:vllm/transformers_utils/chat_templates/registry.py>.
+If no fallback is available, an error is raised and you have to provide the chat template manually via the `--chat-template` argument.
+
+For certain models, we provide alternative chat templates inside <gh-dir:vllm/examples>.
+For example, VLM2Vec uses <gh-file:examples/template_vlm2vec.jinja> which is different from the default one for Phi-3-Vision.
 :::
 
 ### Image Inputs
diff --git a/examples/template_florence2.jinja b/examples/template_florence2.jinja
deleted file mode 100644
index 3fa2cccc2..000000000
--- a/examples/template_florence2.jinja
+++ /dev/null
@@ -1,3 +0,0 @@
-{%- for message in messages -%}
-    {{- message['content'] -}}
-{%- endfor -%}
diff --git a/examples/template_paligemma.jinja b/examples/template_paligemma.jinja
deleted file mode 100644
index 3fa2cccc2..000000000
--- a/examples/template_paligemma.jinja
+++ /dev/null
@@ -1,3 +0,0 @@
-{%- for message in messages -%}
-    {{- message['content'] -}}
-{%- endfor -%}
diff --git a/examples/template_qwen_vl.jinja b/examples/template_qwen_vl.jinja
deleted file mode 100644
index 3fa2cccc2..000000000
--- a/examples/template_qwen_vl.jinja
+++ /dev/null
@@ -1,3 +0,0 @@
-{%- for message in messages -%}
-    {{- message['content'] -}}
-{%- endfor -%}
diff --git a/tests/entrypoints/openai/test_chat_template.py b/tests/entrypoints/openai/test_chat_template.py
index 78e40eeec..48ede50e9 100644
--- a/tests/entrypoints/openai/test_chat_template.py
+++ b/tests/entrypoints/openai/test_chat_template.py
@@ -2,11 +2,13 @@
 
 import pytest
 
+from vllm.config import ModelConfig
 from vllm.entrypoints.chat_utils import (apply_hf_chat_template,
                                          load_chat_template)
 from vllm.entrypoints.openai.protocol import ChatCompletionRequest
 from vllm.transformers_utils.tokenizer import get_tokenizer
 
+from ...models.registry import HF_EXAMPLE_MODELS
 from ...utils import VLLM_PATH
 
 chatml_jinja_path = VLLM_PATH / "examples/template_chatml.jinja"
@@ -91,8 +93,22 @@ def test_no_load_chat_template_literallike():
     MODEL_TEMPLATE_GENERATON_OUTPUT)
 def test_get_gen_prompt(model, template, add_generation_prompt,
                         continue_final_message, expected_output):
+    model_info = HF_EXAMPLE_MODELS.find_hf_info(model)
+    model_info.check_available_online(on_fail="skip")
+
+    model_config = ModelConfig(
+        model,
+        tokenizer=model_info.tokenizer or model,
+        tokenizer_mode=model_info.tokenizer_mode,
+        trust_remote_code=model_info.trust_remote_code,
+        hf_overrides=model_info.hf_overrides,
+    )
+
     # Initialize the tokenizer
-    tokenizer = get_tokenizer(tokenizer_name=model)
+    tokenizer = get_tokenizer(
+        tokenizer_name=model_config.tokenizer,
+        trust_remote_code=model_config.trust_remote_code,
+    )
     template_content = load_chat_template(chat_template=template)
 
     # Create a mock request object using keyword arguments
@@ -106,8 +122,8 @@ def test_get_gen_prompt(model, template, add_generation_prompt,
 
     # Call the function and get the result
     result = apply_hf_chat_template(
+        model_config,
         tokenizer,
-        trust_remote_code=True,
         conversation=mock_request.messages,
         chat_template=mock_request.chat_template or template_content,
         tools=None,
diff --git a/tests/entrypoints/test_chat_utils.py b/tests/entrypoints/test_chat_utils.py
index 1de30f0ac..bcb25ed99 100644
--- a/tests/entrypoints/test_chat_utils.py
+++ b/tests/entrypoints/test_chat_utils.py
@@ -4,8 +4,6 @@ import warnings
 from typing import Optional
 
 import pytest
-from packaging.version import Version
-from transformers import __version__ as TRANSFORMERS_VERSION
 
 from vllm.assets.image import ImageAsset
 from vllm.config import ModelConfig
@@ -19,6 +17,7 @@ from vllm.multimodal import MultiModalDataDict
 from vllm.multimodal.utils import encode_image_base64
 from vllm.transformers_utils.tokenizer_group import TokenizerGroup
 
+from ..models.registry import HF_EXAMPLE_MODELS
 from ..utils import VLLM_PATH
 
 EXAMPLES_DIR = VLLM_PATH / "examples"
@@ -772,6 +771,7 @@ def test_multimodal_image_parsing_matches_hf(model, image_url):
         enable_lora=False,
         max_num_seqs=5,
         max_input_length=None,
+        trust_remote_code=model_config.trust_remote_code,
     )
     tokenizer = tokenizer_group.tokenizer
 
@@ -793,8 +793,8 @@ def test_multimodal_image_parsing_matches_hf(model, image_url):
     )
 
     vllm_result = apply_hf_chat_template(
+        model_config,
         tokenizer,
-        trust_remote_code=model_config.trust_remote_code,
         conversation=conversation,
         chat_template=None,
         tools=None,
@@ -813,6 +813,16 @@ def test_multimodal_image_parsing_matches_hf(model, image_url):
 @pytest.mark.parametrize("use_tools", [True, False])
 def test_resolve_hf_chat_template(sample_json_schema, model, use_tools):
     """checks that chat_template is a dict type for HF models."""
+    model_info = HF_EXAMPLE_MODELS.find_hf_info(model)
+    model_info.check_available_online(on_fail="skip")
+
+    model_config = ModelConfig(
+        model,
+        tokenizer=model_info.tokenizer or model,
+        tokenizer_mode=model_info.tokenizer_mode,
+        trust_remote_code=model_info.trust_remote_code,
+        hf_overrides=model_info.hf_overrides,
+    )
 
     # Build the tokenizer group and grab the underlying tokenizer
     tokenizer_group = TokenizerGroup(
@@ -820,6 +830,7 @@ def test_resolve_hf_chat_template(sample_json_schema, model, use_tools):
         enable_lora=False,
         max_num_seqs=5,
         max_input_length=None,
+        trust_remote_code=model_config.trust_remote_code,
     )
     tokenizer = tokenizer_group.tokenizer
 
@@ -834,10 +845,10 @@ def test_resolve_hf_chat_template(sample_json_schema, model, use_tools):
 
     # Test detecting the tokenizer's chat_template
     chat_template = resolve_hf_chat_template(
+        model_config,
         tokenizer,
         chat_template=None,
         tools=tools,
-        trust_remote_code=True,
     )
     assert isinstance(chat_template, str)
 
@@ -857,24 +868,32 @@ def test_resolve_hf_chat_template(sample_json_schema, model, use_tools):
 )
 # yapf: enable
 def test_resolve_content_format_hf_defined(model, expected_format):
-    if model == QWEN25VL_MODEL_ID and Version(TRANSFORMERS_VERSION) < Version(
-            "4.49.0"):
-        pytest.skip("Qwen2.5-VL requires transformers>=4.49.0")
+    model_info = HF_EXAMPLE_MODELS.find_hf_info(model)
+    model_info.check_available_online(on_fail="skip")
+
+    model_config = ModelConfig(
+        model,
+        tokenizer=model_info.tokenizer or model,
+        tokenizer_mode=model_info.tokenizer_mode,
+        trust_remote_code=model_info.trust_remote_code,
+        hf_overrides=model_info.hf_overrides,
+    )
 
     tokenizer_group = TokenizerGroup(
         model,
         enable_lora=False,
         max_num_seqs=5,
         max_input_length=None,
+        trust_remote_code=model_config.trust_remote_code,
     )
     tokenizer = tokenizer_group.tokenizer
 
     # Test detecting the tokenizer's chat_template
     chat_template = resolve_hf_chat_template(
+        model_config,
         tokenizer,
         chat_template=None,
         tools=None,
-        trust_remote_code=True,
     )
     assert isinstance(chat_template, str)
 
@@ -884,11 +903,70 @@ def test_resolve_content_format_hf_defined(model, expected_format):
     print(_try_extract_ast(chat_template))
 
     resolved_format = resolve_chat_template_content_format(
+        model_config,
+        None,  # Test detecting the tokenizer's chat_template
+        None,
+        "auto",
+        tokenizer,
+    )
+
+    assert resolved_format == expected_format
+
+
+# yapf: disable
+@pytest.mark.parametrize(
+    ("model", "expected_format"),
+    [("Salesforce/blip2-opt-2.7b", "string"),
+     ("facebook/chameleon-7b", "string"),
+     ("deepseek-ai/deepseek-vl2-tiny", "string"),
+     ("microsoft/Florence-2-base", "string"),
+     ("adept/fuyu-8b", "string"),
+     ("google/paligemma-3b-mix-224", "string"),
+     ("Qwen/Qwen-VL", "string"),
+     ("Qwen/Qwen-VL-Chat", "string")],
+)
+# yapf: enable
+def test_resolve_content_format_fallbacks(model, expected_format):
+    model_info = HF_EXAMPLE_MODELS.find_hf_info(model)
+    model_info.check_available_online(on_fail="skip")
+
+    model_config = ModelConfig(
+        model,
+        tokenizer=model_info.tokenizer or model,
+        tokenizer_mode=model_info.tokenizer_mode,
+        trust_remote_code=model_info.trust_remote_code,
+        hf_overrides=model_info.hf_overrides,
+    )
+
+    tokenizer_group = TokenizerGroup(
+        model_config.tokenizer,
+        enable_lora=False,
+        max_num_seqs=5,
+        max_input_length=None,
+        trust_remote_code=model_config.trust_remote_code,
+    )
+    tokenizer = tokenizer_group.tokenizer
+
+    # Test detecting the tokenizer's chat_template
+    chat_template = resolve_hf_chat_template(
+        model_config,
+        tokenizer,
+        chat_template=None,
+        tools=None,
+    )
+    assert isinstance(chat_template, str)
+
+    print("[TEXT]")
+    print(chat_template)
+    print("[AST]")
+    print(_try_extract_ast(chat_template))
+
+    resolved_format = resolve_chat_template_content_format(
+        model_config,
         None,  # Test detecting the tokenizer's chat_template
         None,
         "auto",
         tokenizer,
-        trust_remote_code=True,
     )
 
     assert resolved_format == expected_format
@@ -899,22 +977,14 @@ def test_resolve_content_format_hf_defined(model, expected_format):
     ("template_path", "expected_format"),
     [("template_alpaca.jinja", "string"),
      ("template_baichuan.jinja", "string"),
-     ("template_blip2.jinja", "string"),
-     ("template_chameleon.jinja", "string"),
      ("template_chatglm.jinja", "string"),
      ("template_chatglm2.jinja", "string"),
      ("template_chatml.jinja", "string"),
-     ("template_deepseek_vl2.jinja", "string"),
      ("template_dse_qwen2_vl.jinja", "openai"),
      ("template_falcon_180b.jinja", "string"),
      ("template_falcon.jinja", "string"),
-     ("template_florence2.jinja", "string"),
-     ("template_fuyu.jinja", "string"),
      ("template_inkbot.jinja", "string"),
-     ("template_paligemma.jinja", "string"),
      ("template_teleflm.jinja", "string"),
-     ("template_qwen_vl.jinja", "string"),
-     ("template_qwen_vl_chat.jinja", "string"),
      ("template_vlm2vec.jinja", "openai"),
      ("tool_chat_template_granite_20b_fc.jinja", "string"),
      ("tool_chat_template_hermes.jinja", "string"),
@@ -926,11 +996,18 @@ def test_resolve_content_format_hf_defined(model, expected_format):
 )
 # yapf: enable
 def test_resolve_content_format_examples(template_path, expected_format):
+    model_config = ModelConfig(
+        PHI3V_MODEL_ID,  # Dummy
+        tokenizer=PHI3V_MODEL_ID,  # Dummy
+        trust_remote_code=True,
+    )
+
     tokenizer_group = TokenizerGroup(
-        PHI3V_MODEL_ID,
+        PHI3V_MODEL_ID,  # Dummy
         enable_lora=False,
         max_num_seqs=5,
         max_input_length=None,
+        trust_remote_code=model_config.trust_remote_code,
     )
     dummy_tokenizer = tokenizer_group.tokenizer
     dummy_tokenizer.chat_template = None
@@ -944,11 +1021,11 @@ def test_resolve_content_format_examples(template_path, expected_format):
     print(_try_extract_ast(chat_template))
 
     resolved_format = resolve_chat_template_content_format(
+        model_config,
         chat_template,
         None,
         "auto",
         dummy_tokenizer,
-        trust_remote_code=True,
     )
 
     assert resolved_format == expected_format
diff --git a/tests/models/registry.py b/tests/models/registry.py
index cd5e1dab0..a1f2edac0 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -182,7 +182,9 @@ _TEXT_GENERATION_EXAMPLE_MODELS = {
     "JAISLMHeadModel": _HfExamplesInfo("inceptionai/jais-13b-chat"),
     "JambaForCausalLM": _HfExamplesInfo("ai21labs/AI21-Jamba-1.5-Mini",
                                         extras={"tiny": "ai21labs/Jamba-tiny-dev"}),  # noqa: E501
-    "LlamaForCausalLM": _HfExamplesInfo("meta-llama/Llama-3.2-1B-Instruct"),
+    "LlamaForCausalLM": _HfExamplesInfo("meta-llama/Llama-3.2-1B-Instruct",
+                                        extras={"guard": "meta-llama/Llama-Guard-3-1B",  # noqa: E501
+                                                "hermes": "NousResearch/Hermes-3-Llama-3.1-8B"}),  # noqa: E501
     "LLaMAForCausalLM": _HfExamplesInfo("decapoda-research/llama-7b-hf",
                                         is_available_online=False),
     "MambaForCausalLM": _HfExamplesInfo("state-spaces/mamba-130m-hf"),
@@ -378,7 +380,7 @@ _MULTIMODAL_EXAMPLE_MODELS = {
     # Therefore, we borrow the BartTokenizer from the original Bart model
     "Florence2ForConditionalGeneration": _HfExamplesInfo("microsoft/Florence-2-base",  # noqa: E501
                                                          tokenizer="Isotr0py/Florence-2-tokenizer",
-                                                         trust_remote_code=True),  # noqa: E501
+                                                         trust_remote_code=True,),  # noqa: E501
     "MllamaForConditionalGeneration": _HfExamplesInfo("meta-llama/Llama-3.2-11B-Vision-Instruct"),  # noqa: E501
     "WhisperForConditionalGeneration": _HfExamplesInfo("openai/whisper-large-v3"),  # noqa: E501
 }
diff --git a/vllm/entrypoints/chat_utils.py b/vllm/entrypoints/chat_utils.py
index 23dded7f2..38fe98572 100644
--- a/vllm/entrypoints/chat_utils.py
+++ b/vllm/entrypoints/chat_utils.py
@@ -38,6 +38,10 @@ from vllm.config import ModelConfig
 from vllm.logger import init_logger
 from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalDataDict
 from vllm.multimodal.utils import MediaConnector
+# yapf: disable
+from vllm.transformers_utils.chat_templates import (
+    get_chat_template_fallback_path)
+# yapf: enable
 from vllm.transformers_utils.processor import cached_get_processor
 from vllm.transformers_utils.tokenizer import AnyTokenizer, MistralTokenizer
 
@@ -325,11 +329,10 @@ def resolve_mistral_chat_template(
     return None
 
 def resolve_hf_chat_template(
+    model_config: ModelConfig,
     tokenizer: Union[PreTrainedTokenizer, PreTrainedTokenizerFast],
     chat_template: Optional[str],
     tools: Optional[list[dict[str, Any]]],
-    *,
-    trust_remote_code: bool,
 ) -> Optional[str]:
     # 1st priority: The given chat template
     if chat_template is not None:
@@ -342,7 +345,7 @@ def resolve_hf_chat_template(
                 tokenizer.name_or_path,
                 processor_cls=(PreTrainedTokenizer, PreTrainedTokenizerFast,
                                ProcessorMixin),
-                trust_remote_code=trust_remote_code,
+                trust_remote_code=model_config.trust_remote_code,
             )
             if isinstance(processor, ProcessorMixin) and \
                 processor.chat_template is not None:
@@ -358,22 +361,34 @@ def resolve_hf_chat_template(
         logger.debug("Failed to load AutoTokenizer chat template for %s",
                      tokenizer.name_or_path, exc_info=True)
 
-    return None
+    # 4th priority: Predefined fallbacks
+    path = get_chat_template_fallback_path(
+        model_type=model_config.hf_config.model_type,
+        tokenizer_name_or_path=model_config.tokenizer,
+    )
+    if path is not None:
+        logger.info("Loading chat template fallback for %s as there isn't one "
+                    "defined on HF Hub.", tokenizer.name_or_path)
+        chat_template = load_chat_template(path)
+    else:
+        logger.debug("There is no chat template fallback for %s",
+                     tokenizer.name_or_path)
+
+    return chat_template
 
 
 def _resolve_chat_template_content_format(
+    model_config: ModelConfig,
     chat_template: Optional[str],
     tools: Optional[list[dict[str, Any]]],
     given_format: ChatTemplateContentFormatOption,
     tokenizer: AnyTokenizer,
-    *,
-    trust_remote_code: bool,
 ) -> _ChatTemplateContentFormat:
     if isinstance(tokenizer, (PreTrainedTokenizer, PreTrainedTokenizerFast)):
         hf_chat_template = resolve_hf_chat_template(
+            model_config,
             tokenizer,
             chat_template=chat_template,
-            trust_remote_code=trust_remote_code,
             tools=tools,
         )
     else:
@@ -413,19 +428,18 @@ def _log_chat_template_content_format(
 
 
 def resolve_chat_template_content_format(
+    model_config: ModelConfig,
     chat_template: Optional[str],
     tools: Optional[list[dict[str, Any]]],
     given_format: ChatTemplateContentFormatOption,
     tokenizer: AnyTokenizer,
-    *,
-    trust_remote_code: bool = False,
 ) -> _ChatTemplateContentFormat:
     detected_format = _resolve_chat_template_content_format(
+        model_config,
         chat_template,
         tools,
         given_format,
         tokenizer,
-        trust_remote_code=trust_remote_code,
     )
 
     _log_chat_template_content_format(
@@ -1177,20 +1191,20 @@ def parse_chat_messages_futures(
 
 
 def apply_hf_chat_template(
+    model_config: ModelConfig,
     tokenizer: Union[PreTrainedTokenizer, PreTrainedTokenizerFast],
     conversation: list[ConversationMessage],
     chat_template: Optional[str],
     tools: Optional[list[dict[str, Any]]],
     *,
-    trust_remote_code: bool = False,
     tokenize: bool = False,  # Different from HF's default
     **kwargs: Any,
 ) -> str:
     hf_chat_template = resolve_hf_chat_template(
+        model_config,
         tokenizer,
         chat_template=chat_template,
         tools=tools,
-        trust_remote_code=trust_remote_code,
     )
 
     if hf_chat_template is None:
diff --git a/vllm/entrypoints/llm.py b/vllm/entrypoints/llm.py
index a04ab885a..72ad79bd2 100644
--- a/vllm/entrypoints/llm.py
+++ b/vllm/entrypoints/llm.py
@@ -726,11 +726,11 @@ class LLM:
         tokenizer = self.get_tokenizer(lora_request)
         model_config = self.llm_engine.get_model_config()
         resolved_content_format = resolve_chat_template_content_format(
+            model_config,
             chat_template,
             tools,
             chat_template_content_format,
             tokenizer,
-            trust_remote_code=model_config.trust_remote_code,
         )
 
         _chat_template_kwargs: dict[str, Any] = dict(
@@ -762,8 +762,8 @@ class LLM:
                 )
             else:
                 prompt_str = apply_hf_chat_template(
+                    model_config,
                     tokenizer,
-                    trust_remote_code=model_config.trust_remote_code,
                     conversation=conversation,
                     **_chat_template_kwargs,
                 )
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index af132481b..e034eacb2 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -937,10 +937,11 @@ async def init_app_state(
                 chat_template=resolved_chat_template)
         else:
             hf_chat_template = resolve_hf_chat_template(
+                vllm_config.model_config,
                 tokenizer,
                 chat_template=None,
                 tools=None,
-                trust_remote_code=model_config.trust_remote_code)
+            )
 
             if hf_chat_template != resolved_chat_template:
                 logger.warning(
diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
index 25069c28a..bb1165081 100644
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -394,11 +394,11 @@ class OpenAIServing:
         model_config = self.model_config
 
         resolved_content_format = resolve_chat_template_content_format(
+            model_config,
             chat_template,
             tool_dicts,
             chat_template_content_format,
             tokenizer,
-            trust_remote_code=model_config.trust_remote_code,
         )
         conversation, mm_data_future = parse_chat_messages_futures(
             messages,
@@ -425,8 +425,8 @@ class OpenAIServing:
             )
         else:
             request_prompt = apply_hf_chat_template(
+                model_config,
                 tokenizer,
-                trust_remote_code=model_config.trust_remote_code,
                 conversation=conversation,
                 **_chat_template_kwargs,
             )
diff --git a/vllm/transformers_utils/chat_templates/__init__.py b/vllm/transformers_utils/chat_templates/__init__.py
new file mode 100644
index 000000000..fe2bd3ca4
--- /dev/null
+++ b/vllm/transformers_utils/chat_templates/__init__.py
@@ -0,0 +1,4 @@
+# SPDX-License-Identifier: Apache-2.0
+from .registry import get_chat_template_fallback_path
+
+__all__ = ["get_chat_template_fallback_path"]
diff --git a/vllm/transformers_utils/chat_templates/registry.py b/vllm/transformers_utils/chat_templates/registry.py
new file mode 100644
index 000000000..853fed5d4
--- /dev/null
+++ b/vllm/transformers_utils/chat_templates/registry.py
@@ -0,0 +1,59 @@
+# SPDX-License-Identifier: Apache-2.0
+from pathlib import Path
+from typing import Callable, Optional, Union
+
+from vllm.logger import init_logger
+
+logger = init_logger(__file__)
+
+CHAT_TEMPLATES_DIR = Path(__file__).parent
+
+ChatTemplatePath = Union[Path, Callable[[str], Optional[Path]]]
+
+
+def _get_qwen_chat_template_fallback(
+        tokenizer_name_or_path: str) -> Optional[Path]:
+    if tokenizer_name_or_path.endswith("-Chat"):
+        return CHAT_TEMPLATES_DIR / "template_chatml.jinja"
+
+    return CHAT_TEMPLATES_DIR / "template_basic.jinja"
+
+
+# yapf: disable
+_MODEL_TYPE_TO_CHAT_TEMPLATE_FALLBACK: dict[str, ChatTemplatePath] = {
+    "blip-2": CHAT_TEMPLATES_DIR / "template_blip2.jinja",
+    "chameleon": CHAT_TEMPLATES_DIR / "template_basic.jinja",
+    "deepseek_vl_v2": CHAT_TEMPLATES_DIR / "template_deepseek_vl2.jinja",
+    "florence2": CHAT_TEMPLATES_DIR / "template_basic.jinja",
+    "fuyu": CHAT_TEMPLATES_DIR / "template_fuyu.jinja",
+    "paligemma": CHAT_TEMPLATES_DIR / "template_basic.jinja",
+    "qwen": _get_qwen_chat_template_fallback,
+}
+# yapf: enable
+
+
+def register_chat_template_fallback_path(
+    model_type: str,
+    chat_template: ChatTemplatePath,
+) -> None:
+    if model_type in _MODEL_TYPE_TO_CHAT_TEMPLATE_FALLBACK:
+        logger.warning(
+            "Model type %s already has a chat template registered. "
+            "It will be overwritten by the new chat template %s.", model_type,
+            chat_template)
+
+    _MODEL_TYPE_TO_CHAT_TEMPLATE_FALLBACK[model_type] = chat_template
+
+
+def get_chat_template_fallback_path(
+    model_type: str,
+    tokenizer_name_or_path: str,
+) -> Optional[Path]:
+    chat_template = _MODEL_TYPE_TO_CHAT_TEMPLATE_FALLBACK.get(model_type)
+    if callable(chat_template):
+        chat_template = chat_template(tokenizer_name_or_path)
+
+    if chat_template is None:
+        return None
+
+    return chat_template
diff --git a/examples/template_chameleon.jinja b/vllm/transformers_utils/chat_templates/template_basic.jinja
similarity index 100%
rename from examples/template_chameleon.jinja
rename to vllm/transformers_utils/chat_templates/template_basic.jinja
diff --git a/examples/template_blip2.jinja b/vllm/transformers_utils/chat_templates/template_blip2.jinja
similarity index 100%
rename from examples/template_blip2.jinja
rename to vllm/transformers_utils/chat_templates/template_blip2.jinja
diff --git a/examples/template_qwen_vl_chat.jinja b/vllm/transformers_utils/chat_templates/template_chatml.jinja
similarity index 100%
rename from examples/template_qwen_vl_chat.jinja
rename to vllm/transformers_utils/chat_templates/template_chatml.jinja
diff --git a/examples/template_deepseek_vl2.jinja b/vllm/transformers_utils/chat_templates/template_deepseek_vl2.jinja
similarity index 100%
rename from examples/template_deepseek_vl2.jinja
rename to vllm/transformers_utils/chat_templates/template_deepseek_vl2.jinja
diff --git a/examples/template_fuyu.jinja b/vllm/transformers_utils/chat_templates/template_fuyu.jinja
similarity index 100%
rename from examples/template_fuyu.jinja
rename to vllm/transformers_utils/chat_templates/template_fuyu.jinja
-- 
GitLab


From 597051e56ff2d06d624cf7ae647d2664995b5a7d Mon Sep 17 00:00:00 2001
From: Ximingwang-09 <72070413+Ximingwang-09@users.noreply.github.com>
Date: Thu, 8 May 2025 14:09:32 +0800
Subject: [PATCH 219/461] [Qwen3]add qwen3-235b-bf16 fused moe config on A100
 (#17715)

---
 ...192,device_name=NVIDIA_A100-SXM4-80GB.json | 146 ++++++++++++++++++
 1 file changed, 146 insertions(+)
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_A100-SXM4-80GB.json

diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_A100-SXM4-80GB.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 000000000..e1c4cac9c
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=192,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
-- 
GitLab


From 39956efb3f2a3457d29725916e0ba9cbb69841a3 Mon Sep 17 00:00:00 2001
From: Qiong Zhou Huang <qionghuang6@gmail.com>
Date: Wed, 7 May 2025 23:32:10 -0700
Subject: [PATCH 220/461] [Bugfix] Fix bad words for Mistral models (#17753)

Signed-off-by: Qiong Zhou Huang <qiong@phonic.co>
---
 vllm/logits_process.py  | 17 +++++++----------
 vllm/sampling_params.py | 10 ++--------
 2 files changed, 9 insertions(+), 18 deletions(-)

diff --git a/vllm/logits_process.py b/vllm/logits_process.py
index e3faf2002..29a73656b 100644
--- a/vllm/logits_process.py
+++ b/vllm/logits_process.py
@@ -4,11 +4,12 @@ from typing import Callable, Union
 
 import torch
 
-from vllm.transformers_utils.tokenizer import AnyTokenizer, MistralTokenizer
+from vllm.transformers_utils.tokenizer import AnyTokenizer
 
-LogitsProcessor = Union[Callable[[list[int], torch.Tensor], torch.Tensor],
-                        Callable[[list[int], list[int], torch.Tensor],
-                                 torch.Tensor]]
+LogitsProcessor = Union[
+    Callable[[list[int], torch.Tensor], torch.Tensor],
+    Callable[[list[int], list[int], torch.Tensor], torch.Tensor],
+]
 """LogitsProcessor is a function that takes a list
 of previously generated tokens, the logits tensor
 for the next token and, optionally, prompt tokens as a
@@ -29,12 +30,8 @@ def get_bad_words_logits_processors(
             prefix = " " if add_prefix_space else ""
             prompt = prefix + bad_word.lstrip()
 
-            if isinstance(tokenizer, MistralTokenizer):
-                # Mistral tokenizers should not add special tokens
-                prompt_token_ids = tokenizer.encode(text=prompt)
-            else:
-                prompt_token_ids = tokenizer.encode(text=prompt,
-                                                    add_special_tokens=False)
+            prompt_token_ids = tokenizer.encode(text=prompt,
+                                                add_special_tokens=False)
 
             # If no space at the beginning
             # or if prefix space produces a new word token
diff --git a/vllm/sampling_params.py b/vllm/sampling_params.py
index 66a77681b..affc5c64b 100644
--- a/vllm/sampling_params.py
+++ b/vllm/sampling_params.py
@@ -13,7 +13,6 @@ from typing_extensions import deprecated
 from vllm.logger import init_logger
 from vllm.logits_process import LogitsProcessor
 from vllm.transformers_utils.tokenizer import AnyTokenizer
-from vllm.transformers_utils.tokenizers.mistral import MistralTokenizer
 
 logger = init_logger(__name__)
 
@@ -491,13 +490,8 @@ class SamplingParams(
             for add_prefix_space in [False, True]:
                 prefix = " " if add_prefix_space else ""
                 prompt = prefix + bad_word.lstrip()
-
-                if isinstance(tokenizer, MistralTokenizer):
-                    # Mistral tokenizers should not add special tokens
-                    prompt_token_ids = tokenizer.encode(text=prompt)
-                else:
-                    prompt_token_ids = tokenizer.encode(
-                        text=prompt, add_special_tokens=False)
+                prompt_token_ids = tokenizer.encode(text=prompt,
+                                                    add_special_tokens=False)
 
                 # If no space at the beginning
                 # or if prefix space produces a new word token
-- 
GitLab


From 0a9bbaa104d2a4a09e047410edbfbe2a62febeef Mon Sep 17 00:00:00 2001
From: xsank <xsank@foxmail.com>
Date: Thu, 8 May 2025 15:50:22 +0800
Subject: [PATCH 221/461] [Misc] support model prefix & add deepseek vl2 tiny
 fused moe config (#17763)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: 唯勤 <xsank.mz@alibaba-inc.com>
Co-authored-by: 唯勤 <xsank.mz@alibaba-inc.com>
---
 benchmarks/kernels/benchmark_moe.py           |  24 +--
 .../E=64,N=896,device_name=NVIDIA_H20.json    | 146 ++++++++++++++++++
 2 files changed, 161 insertions(+), 9 deletions(-)
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=64,N=896,device_name=NVIDIA_H20.json

diff --git a/benchmarks/kernels/benchmark_moe.py b/benchmarks/kernels/benchmark_moe.py
index 1884a80a4..4e328b4d4 100644
--- a/benchmarks/kernels/benchmark_moe.py
+++ b/benchmarks/kernels/benchmark_moe.py
@@ -6,15 +6,16 @@ import time
 from contextlib import nullcontext
 from datetime import datetime
 from itertools import product
+from types import SimpleNamespace
 from typing import Any, TypedDict
 
 import ray
 import torch
 from ray.experimental.tqdm_ray import tqdm
-from transformers import AutoConfig
 
 from vllm.model_executor.layers.fused_moe.fused_moe import *
 from vllm.platforms import current_platform
+from vllm.transformers_utils.config import get_config
 from vllm.triton_utils import triton
 from vllm.utils import FlexibleArgumentParser
 
@@ -534,8 +535,12 @@ def get_weight_block_size_safety(config, default_value=None):
 def main(args: argparse.Namespace):
     print(args)
 
-    config = AutoConfig.from_pretrained(
-        args.model, trust_remote_code=args.trust_remote_code)
+    config = get_config(model=args.model,
+                        trust_remote_code=args.trust_remote_code)
+    if args.model_prefix:
+        config = getattr(config, args.model_prefix)
+    config = SimpleNamespace(**config)
+
     if config.architectures[0] == "DbrxForCausalLM":
         E = config.ffn_config.moe_num_experts
         topk = config.ffn_config.moe_top_k
@@ -546,15 +551,14 @@ def main(args: argparse.Namespace):
         topk = config.num_experts_per_tok
         intermediate_size = config.intermediate_size
         shard_intermediate_size = 2 * intermediate_size // args.tp_size
-    elif (config.architectures[0] == "DeepseekV3ForCausalLM"
-          or config.architectures[0] == "DeepseekV2ForCausalLM"):
+    elif (config.architectures[0]
+          in ("DeepseekV3ForCausalLM", "DeepseekV2ForCausalLM")):
         E = config.n_routed_experts
         topk = config.num_experts_per_tok
         intermediate_size = config.moe_intermediate_size
         shard_intermediate_size = 2 * intermediate_size // args.tp_size
-    elif config.architectures[0] in [
-            "Qwen2MoeForCausalLM", "Qwen3MoeForCausalLM"
-    ]:
+    elif config.architectures[0] in ("Qwen2MoeForCausalLM",
+                                     "Qwen3MoeForCausalLM"):
         E = config.num_experts
         topk = config.num_experts_per_tok
         intermediate_size = config.moe_intermediate_size
@@ -569,7 +573,8 @@ def main(args: argparse.Namespace):
         shard_intermediate_size = 2 * intermediate_size // args.tp_size
 
     hidden_size = config.hidden_size
-    dtype = torch.float16 if current_platform.is_rocm() else config.torch_dtype
+    dtype = torch.float16 if current_platform.is_rocm() else getattr(
+        torch, config.torch_dtype)
     use_fp8_w8a8 = args.dtype == "fp8_w8a8"
     use_int8_w8a16 = args.dtype == "int8_w8a16"
     block_quant_shape = get_weight_block_size_safety(config)
@@ -659,6 +664,7 @@ if __name__ == "__main__":
     parser.add_argument("--batch-size", type=int, required=False)
     parser.add_argument("--tune", action="store_true")
     parser.add_argument("--trust-remote-code", action="store_true")
+    parser.add_argument("--model-prefix", type=str, required=False)
     args = parser.parse_args()
 
     main(args)
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=64,N=896,device_name=NVIDIA_H20.json b/vllm/model_executor/layers/fused_moe/configs/E=64,N=896,device_name=NVIDIA_H20.json
new file mode 100644
index 000000000..5a9910a4d
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=64,N=896,device_name=NVIDIA_H20.json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}
-- 
GitLab


From ca04b97c93614ae51d2b79e2323aa731fbaed697 Mon Sep 17 00:00:00 2001
From: Rick Yuan <76869524+RIckYuan999@users.noreply.github.com>
Date: Thu, 8 May 2025 17:47:19 +0800
Subject: [PATCH 222/461] [Bugfix] Fix tool call template validation for
 Mistral models (#17644)

Signed-off-by: Rick Yuan <yuan821120@gmail.com>
Signed-off-by: RIck Yuan <yuan821120@gmail.com>
Co-authored-by: Aaron Pham <Aaronpham0103@gmail.com>
---
 examples/tool_chat_template_mistral3.jinja | 11 +++++++++--
 1 file changed, 9 insertions(+), 2 deletions(-)

diff --git a/examples/tool_chat_template_mistral3.jinja b/examples/tool_chat_template_mistral3.jinja
index 2b2f94d7e..7c4249ec4 100644
--- a/examples/tool_chat_template_mistral3.jinja
+++ b/examples/tool_chat_template_mistral3.jinja
@@ -29,7 +29,14 @@
 
 {%- set user_messages = loop_messages | selectattr("role", "equalto", "user") | list %}
 
-{%- for message in loop_messages | rejectattr("role", "equalto", "tool") | rejectattr("role", "equalto", "tool_results") | selectattr("tool_calls", "undefined") %}
+{%- set filtered_messages = [] %}
+{%- for message in loop_messages %}
+    {%- if message["role"] not in ["tool", "tool_results"] and not message.get("tool_calls") %}
+        {%- set filtered_messages = filtered_messages + [message] %}
+    {%- endif %}
+{%- endfor %}
+
+{%- for message in filtered_messages %}
     {%- if (message["role"] == "user") != (loop.index0 % 2 == 0) %}
         {{- raise_exception("After the optional system message, conversation roles must alternate user/assistant/user/assistant/...") }}
     {%- endif %}
@@ -116,4 +123,4 @@
     {%- else %}
         {{- raise_exception("Only user and assistant roles are supported, with the exception of an initial optional system message!") }}
     {%- endif %}
-{%- endfor %}
\ No newline at end of file
+{%- endfor %}
-- 
GitLab


From a463555dee7cd98f88ce1282a730d0f857ad3216 Mon Sep 17 00:00:00 2001
From: Jevin Jiang <jevin0change@gmail.com>
Date: Thu, 8 May 2025 02:51:33 -0700
Subject: [PATCH 223/461] [TPU] Fix the test_sampler (#17820)

---
 tests/v1/tpu/test_sampler.py         | 2 +-
 vllm/v1/attention/backends/pallas.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/tests/v1/tpu/test_sampler.py b/tests/v1/tpu/test_sampler.py
index 57c195982..2bbeb3dda 100644
--- a/tests/v1/tpu/test_sampler.py
+++ b/tests/v1/tpu/test_sampler.py
@@ -26,7 +26,7 @@ def test_sampler_different(model_name: str):
               enforce_eager=False,
               max_num_seqs=1,
               max_model_len=512,
-              max_num_batched_tokens=512)
+              max_num_batched_tokens=256)
     prompts = [
         "Write a short story about a robot that dreams for the first time."
     ]
diff --git a/vllm/v1/attention/backends/pallas.py b/vllm/v1/attention/backends/pallas.py
index 79ec67b89..8187e457d 100644
--- a/vllm/v1/attention/backends/pallas.py
+++ b/vllm/v1/attention/backends/pallas.py
@@ -95,7 +95,7 @@ class PallasMetadata:
     block_tables: torch.Tensor
     context_lens: torch.Tensor
     query_start_loc: torch.Tensor
-    num_seqs: int
+    num_seqs: torch.Tensor
 
 
 class PallasAttentionBackendImpl(AttentionImpl):
-- 
GitLab


From bb239a730f2a5534e1d68caf093358b5506f5555 Mon Sep 17 00:00:00 2001
From: fxmarty-amd <felmarty@amd.com>
Date: Thu, 8 May 2025 11:53:53 +0200
Subject: [PATCH 224/461] [Bugfix] Fix quark fp8 format loading on AMD GPUs
 (#12612)

Signed-off-by: Felix Marty <felmarty@amd.com>
Signed-off-by: kewang2 <kewang2@amd.com>
Co-authored-by: kewang2 <kewang2@amd.com>
---
 tests/quantization/test_quark.py              | 26 +++++++++++++++++++
 .../quark/schemes/quark_w8a8_fp8.py           | 21 ++++++++-------
 2 files changed, 38 insertions(+), 9 deletions(-)

diff --git a/tests/quantization/test_quark.py b/tests/quantization/test_quark.py
index ce918a324..ae09ac58e 100644
--- a/tests/quantization/test_quark.py
+++ b/tests/quantization/test_quark.py
@@ -5,6 +5,7 @@ Run `pytest tests/quantization/test_quark.py`.
 """
 
 import pytest
+import torch
 
 from vllm.model_executor.layers.quantization.quark.quark import (  # noqa: E501
     QuarkLinearMethod, QuarkW8A8Fp8, QuarkW8A8Int8)
@@ -63,3 +64,28 @@ def test_quark_int8_w_per_tensor_a_per_tensor(vllm_runner, tp):
 
         output = llm.generate_greedy("Hello my name is", max_tokens=20)
         assert output
+
+
+def test_quark_fp8_parity(vllm_runner):
+    quark_model_id = "amd-quark/llama-tiny-fp8-quark-quant-method"
+    fp8_model_id = "amd-quark/llama-tiny-fp8-quant-method"
+
+    llm_kwargs = {
+        "tensor_parallel_size": 1,
+        "enforce_eager": True,
+        "gpu_memory_utilization": 0.1
+    }
+    with (vllm_runner(quark_model_id, **llm_kwargs) as
+          quark_handle, vllm_runner(fp8_model_id, **llm_kwargs) as fp8_handle):
+        quark_model = (quark_handle.model.llm_engine.model_executor.
+                       driver_worker.model_runner.model)
+        quark_state_dict = quark_model.state_dict()
+
+        fp8_model = (fp8_handle.model.llm_engine.model_executor.driver_worker.
+                     model_runner.model)
+        fp8_state_dict = fp8_model.state_dict()
+
+    assert fp8_state_dict.keys() == quark_state_dict.keys()
+
+    for key in fp8_state_dict:
+        assert torch.equal(fp8_state_dict[key], quark_state_dict[key])
diff --git a/vllm/model_executor/layers/quantization/quark/schemes/quark_w8a8_fp8.py b/vllm/model_executor/layers/quantization/quark/schemes/quark_w8a8_fp8.py
index afd4bb722..f8eb36115 100644
--- a/vllm/model_executor/layers/quantization/quark/schemes/quark_w8a8_fp8.py
+++ b/vllm/model_executor/layers/quantization/quark/schemes/quark_w8a8_fp8.py
@@ -34,21 +34,24 @@ class QuarkW8A8Fp8(QuarkScheme):
         # tensor scales (thus N scales being passed to the kernel),
         # requantize so we can always run per tensor
         if self.qscheme == "per_tensor":
-            max_w_scale, weight = requantize_with_max_scale(
-                weight=layer.weight,
-                weight_scale=layer.weight_scale,
-                logical_widths=layer.logical_widths,
-            )
-
-            if current_platform.is_fp8_fnuz():
+            if current_platform.is_rocm():
                 input_scale = getattr(layer, 'input_scale', None)
                 weight, max_w_scale, input_scale = normalize_e4m3fn_to_e4m3fnuz(
-                    weight=weight,
-                    weight_scale=max_w_scale,
+                    weight=layer.weight,
+                    weight_scale=layer.weight_scale,
                     input_scale=input_scale)
                 if input_scale is not None:
                     layer.input_scale = Parameter(input_scale,
                                                   requires_grad=False)
+            else:
+                max_w_scale = layer.weight_scale
+                weight = layer.weight
+
+            max_w_scale, weight = requantize_with_max_scale(
+                weight=weight,
+                weight_scale=max_w_scale,
+                logical_widths=layer.logical_widths,
+            )
 
             layer.weight = Parameter(weight.t(), requires_grad=False)
             layer.weight_scale = Parameter(max_w_scale, requires_grad=False)
-- 
GitLab


From a1e19b635d5fd770f7bd8bd80afd77ed8defc41f Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Thu, 8 May 2025 18:04:18 +0800
Subject: [PATCH 225/461] [Doc] Fix a typo in the file name (#17836)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 .../offline_inference/{reproduciblity.py => reproducibility.py}   | 0
 1 file changed, 0 insertions(+), 0 deletions(-)
 rename examples/offline_inference/{reproduciblity.py => reproducibility.py} (100%)

diff --git a/examples/offline_inference/reproduciblity.py b/examples/offline_inference/reproducibility.py
similarity index 100%
rename from examples/offline_inference/reproduciblity.py
rename to examples/offline_inference/reproducibility.py
-- 
GitLab


From f50dcb7c215bf5468727839ebd1a413e6bd49387 Mon Sep 17 00:00:00 2001
From: Lu Fang <30275821+houseroad@users.noreply.github.com>
Date: Thu, 8 May 2025 03:05:10 -0700
Subject: [PATCH 226/461] [Easy] Eliminate c10::optional usage in vllm/csrc
 (#17819)

---
 csrc/quantization/gptq_allspark/allspark_qgemm_w8a16.cu | 4 ++--
 csrc/quantization/gptq_allspark/allspark_repack.cu      | 4 ++--
 csrc/rocm/attention.cu                                  | 4 ++--
 csrc/rocm/ops.h                                         | 2 +-
 4 files changed, 7 insertions(+), 7 deletions(-)

diff --git a/csrc/quantization/gptq_allspark/allspark_qgemm_w8a16.cu b/csrc/quantization/gptq_allspark/allspark_qgemm_w8a16.cu
index ea3bb4299..03bd5964a 100644
--- a/csrc/quantization/gptq_allspark/allspark_qgemm_w8a16.cu
+++ b/csrc/quantization/gptq_allspark/allspark_qgemm_w8a16.cu
@@ -9,7 +9,7 @@ at::Tensor as_g_workspace;
 
 torch::Tensor allspark_w8a16_gemm(
     torch::Tensor const& a, torch::Tensor const& b_qweight,
-    torch::Tensor const& b_scales, c10::optional<torch::Tensor> const& b_qzeros,
+    torch::Tensor const& b_scales, std::optional<torch::Tensor> const& b_qzeros,
     int64_t n, int64_t group_size, int64_t sm_count, int64_t sm_version,
     int64_t CUBLAS_M_THRESHOLD, bool has_zp, bool n32k16_reorder) {
   TORCH_CHECK_NOT_IMPLEMENTED(
@@ -918,7 +918,7 @@ void allspark_qgemm_w8a16_perc_ampere(
 
 torch::Tensor allspark_w8a16_gemm(
     torch::Tensor const& a, torch::Tensor const& b_qweight,
-    torch::Tensor const& b_scales, c10::optional<torch::Tensor> const& b_qzeros,
+    torch::Tensor const& b_scales, std::optional<torch::Tensor> const& b_qzeros,
     int64_t n, int64_t group_size, int64_t sm_count, int64_t sm_version,
     int64_t CUBLAS_M_THRESHOLD, bool has_zp, bool n32k16_reorder) {
   // Verify device and strides
diff --git a/csrc/quantization/gptq_allspark/allspark_repack.cu b/csrc/quantization/gptq_allspark/allspark_repack.cu
index ea8eccf04..7a5b2f95c 100644
--- a/csrc/quantization/gptq_allspark/allspark_repack.cu
+++ b/csrc/quantization/gptq_allspark/allspark_repack.cu
@@ -100,9 +100,9 @@ void rearrange_kn_weight_as_n32k16_order_ldg16(
 
 void rearrange_kn_weight_as_n32k16_order(
     torch::Tensor const& b_qweight, torch::Tensor const& b_scales,
-    c10::optional<torch::Tensor> const& b_zeros, bool has_zp,
+    std::optional<torch::Tensor> const& b_zeros, bool has_zp,
     torch::Tensor& b_qweight_reorder, torch::Tensor& b_scales_reorder,
-    c10::optional<torch::Tensor> const& b_zeros_reorder, const int64_t K,
+    std::optional<torch::Tensor> const& b_zeros_reorder, const int64_t K,
     const int64_t N, const int64_t N_32align) {
   // Verify device and strides
   TORCH_CHECK(b_qweight.device().is_cuda(), "b_qweight is not on GPU");
diff --git a/csrc/rocm/attention.cu b/csrc/rocm/attention.cu
index f8ae4b65d..8cc5a0f4f 100644
--- a/csrc/rocm/attention.cu
+++ b/csrc/rocm/attention.cu
@@ -1597,7 +1597,7 @@ void paged_attention_custom_launcher(
     torch::Tensor& block_tables, torch::Tensor& context_lens,
     const std::optional<torch::Tensor>& query_start_loc, int max_context_len,
     const std::optional<torch::Tensor>& alibi_slopes, torch::Tensor& k_scale,
-    torch::Tensor& v_scale, const c10::optional<torch::Tensor>& fp8_out_scale) {
+    torch::Tensor& v_scale, const std::optional<torch::Tensor>& fp8_out_scale) {
   int num_seqs = block_tables.size(0);
   int num_heads = query.size(1);
   int head_size = query.size(2);
@@ -1825,7 +1825,7 @@ void paged_attention(
     const std::optional<torch::Tensor>& alibi_slopes,
     const std::string& kv_cache_dtype, torch::Tensor& k_scale,
     torch::Tensor& v_scale,
-    const c10::optional<torch::Tensor>& fp8_out_scale) {
+    const std::optional<torch::Tensor>& fp8_out_scale) {
   // clang-format on
   const int head_size = query.size(2);
   if (kv_cache_dtype == "auto") {
diff --git a/csrc/rocm/ops.h b/csrc/rocm/ops.h
index 2252ea717..e538197db 100644
--- a/csrc/rocm/ops.h
+++ b/csrc/rocm/ops.h
@@ -19,4 +19,4 @@ void paged_attention(
     const std::optional<torch::Tensor>& query_start_loc, int64_t block_size,
     int64_t max_context_len, const std::optional<torch::Tensor>& alibi_slopes,
     const std::string& kv_cache_dtype, torch::Tensor& k_scale,
-    torch::Tensor& v_scale, const c10::optional<torch::Tensor>& fp8_out_scale);
+    torch::Tensor& v_scale, const std::optional<torch::Tensor>& fp8_out_scale);
-- 
GitLab


From 53d0cb742366a00acd259beb786ac5d8224bc641 Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Thu, 8 May 2025 18:05:26 +0800
Subject: [PATCH 227/461] [Misc] add chatbox integration (#17828)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 .../source/assets/deployment/chatbox-chat.png | Bin 0 -> 109988 bytes
 .../assets/deployment/chatbox-settings.png    | Bin 0 -> 97161 bytes
 docs/source/deployment/frameworks/chatbox.md  |  36 ++++++++++++++++++
 docs/source/deployment/frameworks/index.md    |   1 +
 4 files changed, 37 insertions(+)
 create mode 100644 docs/source/assets/deployment/chatbox-chat.png
 create mode 100644 docs/source/assets/deployment/chatbox-settings.png
 create mode 100644 docs/source/deployment/frameworks/chatbox.md

diff --git a/docs/source/assets/deployment/chatbox-chat.png b/docs/source/assets/deployment/chatbox-chat.png
new file mode 100644
index 0000000000000000000000000000000000000000..b1718cb504717578dd36062759af8b834426483c
GIT binary patch
literal 109988
zcmZsjby!r}*T)e@WkBgrdgw+$KpKVy>2B%nZV?axNePi0K%~1FK#=Z`?vn2A_i*2z
zSFiW};q#ow;heMg+O^haeb)(+lM#D_jE{_ffbd8{Tv!1C0Yry@aF++^KJY)0UV=>s
z2zNBhgoNZIgoH@t>}`zAER7HlXd;~=_@&;+W4HRm8vDG*Por&$C4GuPZ^}k4Mc9m-
zOR1wPeYd<T7h_<M+BA3-OIR~qO4!?vG|Mz6-_#UIOLC?+H%7y8e)rP##mdYIv8jWZ
zq|ufDlkRhU*prja^-q&$@BL)BR@0@1Q0UM@MKc0ytaxJxEMs-THC;IUW@dJgm<u5W
z<drTe*ORmMH6OCyFr7n|M`Pqc39>J06qRsyP|zM@N}l#FI3~$5%6vbAkCbAgAnSrp
zHl8rjUXpG~JU?5b>NTo7DtxHou1ePcr{SVu6ZS{9{t-_}g>O>OddbSFo&YWh(8u$W
z9yFxsG!!5diH+VxbaRBe`d^)9Waeq#%;<enj50b`OLn((-Efh^e_QYOmgAga7A$lI
zHG6wps;=3hGxl+JwE7DujC{y5#LwYjPG#nq4olBExNP>D(K6O~g1+~4``IvH>=#CA
z62{Wf2!Qz!kPz+!njwIIt2@9yeBd7f0%9uS&;J3@rQZE{eV6C<#~2xbS_A|E1PNh5
zCD%KfNe^Bt8jZX~Q(UbR-yubMa}UK?q*=LWV?v%GwLn{Sv|{AS%3`M`H_O6B8NC?A
zqD9A)PFyVbu=nA&%af})6c;GVhi(eRl+uKbo~v^Q@(wSD-m{#1ojNX`Z*Lz}m=2J2
zb#xSOPuFUCd)F)Hs`NZX5+E%H8TTfdZB16nT75aZe+Nkb0TKN*0*Dj=xJ-S68F9V4
zRXMAnqm#^L{=J=rm6g$8u{9L;9ZrSop8llsq!k7&-D-=`#NYS)yxligQ~=t-RJ*Bf
zF<MX#ye<BD@IyC62JM>fTrS&|Po6w+RZuF+?ev7)zUk*(e_i54zjj1YFVv~CJlkLH
zbt5ylIzOtgp60Tcs<OMMjXU)Af6e>trqndd2t1JwRMLry{=j>Ju*=Pd?e|D=oaDO+
ze)Z?)4Zgt=Up<t+=c@JvynYdmT(^4<$3eXt|G)n5rGO63#L_n~j?>0Se!GR<_P;uM
z2T92m(LSxcr>C4DKizq2V)IzOk(p*F@E@)0WcH1rSDiRq8?x$%qO?}^+vgt2VPh4+
zrO`EL3nP-|=ujKS%u+AS?D_cYTS?i5*wOlMmoxi&)PEW$H3~CAeD8KdMhmp_P5P2!
z<KxvOR5kWuW8&gW4p#bHM!(3W@V&z^as`)5n<a5My~H4S;tmV(6a3lv|2<G(9o+r_
zN+tqy3xif6yi%A~^7)|Cz|nwHQ)id}V7{rjeS15C*mEo+4ocBKOfJU>rkP3?3BiqV
zu!}KNuHmbZQ5(nVSNSZH^{Oqrq~UQl@HQG=M5#EY@|}j8nZx&gzuwmot3MQPo_H-&
ztK{0r%Q2~_ggVtCvayBc0;TaGDT41H<(vrejaE%MEB^n_!vAkLGUj6r>%=wrVd-=K
zK}BHHnuBw$onKwygnmsE39;<{_^iTqzR8~ZNWIi}T+^n`2<R9+hePy(0OHQ|O=<Oj
zXTQ&~Xm;O=?b<#rr}ZUb>LkagHQ1<oK~7r0pn`acZO3!)70p&9#iC%UA!rF~`y<|D
zVpP{hyCh7%?0V^gtmWzM{4>cY?xVAnl*xN|TCcid8KnyJ5+|7J4x{Q$W<2a9L-@A7
z@irIeeS3>hoF){AD#DR@|L@+=7$IKQhG6nUEfq)4$2Hkv(jG==I}V6Mip|!0C5c0d
zo8sb{96Ni^b+XzA!$@R`kytFK49=>nD=y1bt&X_Ut)^`nsx#TRT`IVIxW3~PdgUp1
z^~z*&cg=pZpl@w>Mejpww1In7liiRxsZqD>m*-uGm9HUcf3*y{;ypSDIi593x7z=4
zU4e4WojC+!&$s}q@OE5BX*`U9$oYcdfN9v>4^6qR4u`si>5^R+z;U5&Utiym=<D+7
zzj%vD?>u2fePa4OE0Vv5^;fqX5YK1G!ex0kJc7Ls2a21K-2&e73Q4hyms^ZZoF8pW
zt3;@)t5dGgQCe|Wj=i$345ZkRQe<(Zby?u0f(u~q!r`>r4L8^C<Y4Z~EuO1lu`>@l
zw$CF^+MpL#3n+O%F5O1*ba=b0i$fP<YaN3aeJ(K)Soa@UIPKhx9k(1hOH2Kcuk)%Q
z{INNkgYg*qBMWusHur?{u6U!ahK8;mFE0zrxfblY@`m791zKltHk2*@lfL3?x6*v)
zD=w8nMFSUa_g<dbwUvvlGupz*kO#cxj26`F4gU8(V}j_=@3eUJB=b%hr4;DYxd$27
z>$f1E%#YW5T|h4e9^~<XHtyXRH?t0B%cs8`F3{%IiOJ~8l?7uJKa3>9#p(UI0_0*r
zaB&!ka?`Bxp_izB0FThOl@Cd|%|Q|$s5tLrsN`#8k`x?GRaj|SjO3}8On=V1=9u*~
zIOiKLG3tswQYYq)iu3n>=SmjvgP{<a7p~f}UAwcb6W4Z>;Vv^smH3LXh3p9onv9J}
zyMA9^WXM>Wu~yXfL;97BUtpM%jL`uT*X+K7LvUgx4=shl_wg59pV)0)jSpA4%B-rb
zC>>uAm}q+I3|w^pyF*LaW%Wpry1|gNT6xdSP;qbe=IO~>_1@OB3wrxIO0NYtNq092
z8#Ka+c{h7FW*MFmxItFod=Z8<W)0Wp8&-vN$0b)Mv$O8Un`U^rp2fgfG!aAM(EThE
z9fkI!_}n3e{YF0dp_}%q(BbR5sJ2(r?i=~r-<Y&)E>HK^ZRZ3gjpDQ|+lXAsuw-5|
zQds+Mbx^023Hsfy=HlKg@+0y-oj?ArC|gaJtCDZ;F!12u0g2~a*h*gti8b-bi)3+(
zt45N_yU2eXX1Cjj04-+!36Ymi<fw4jW7rNe3-}3TaS#@@hV$H2{Z9QwO@gi$^Y@WN
zEUK49Y!)NY85R>%0s_zg;diFY;N{GBy;64b0eCgU4VU{}Aol`7<wL)mX4bfLC^Kex
zOySk2o5FKT!YZjYbG$@F_0W3<R?8NJIOAKvU}i4aU{UEey6S!v>nxZ3C^5s`NoMp^
z^-6|5-+bK0-4wpt3_i8?p}VkJBqX@*q8B+9yN9F%LOi!olb}B$aT+_+Sh@09<e0Mc
z!(z3rUdF|nfkZB(hx3&Ll6a4?)o#~pST<Z8mjWBwM`6?}a{Mj|TU276G4Jy=>RMnq
zZw;&JI_U>YTyE&z(Dg3`(-#y?J5Tl`d!L(eZ&xjDPTDk-0}r8B5R(vOOWCTJ?A38w
z#_<3;n+F_x&IdgllP<GfE7;ygxoC1;0vlC!i_$s@kuv&(qzcWin`nRTt#lw?*Lk9W
z1ra;kbQ0esL5vwDWu1pfeowE97<KEX+&+6BkDFwYB&Ufy^csz-g6)%dpEfq}Q>=+G
z$7F}`P=1el$*;0@)JEd7d9LI(X75MRvb+W3J4&)!?u?mVK=#=TKw=iaE+^elmnXJY
zKCKR1A>7cag1>0n&-}=4HIca`@nJ7Z?W|XGM4(_&0c$~BE|V)qGde%<GLsFdiTAs1
z9@8}E5#D$C>9oz^S<!0S@U(M9@ptR`=vk7WXwOpM#2P8o<=>d8tG!xg_9@OSte-F+
z$y<Bcz9{(SwUTr8#@^J;QuW?JAOEB@$F!jsp`HI0{Ghj2G2LZnCX*0PkAU6sBmJbu
zP90!H>r!B+h>!NPIr!1zu+UEAGBtl5xzeJns=XXcEt|Z_C(MTDmC9~5*xZwwWs4(>
zEE{L?w<$62OwZv_iPCJ6pa0++Kgz!0boeo5BbY1*MmiUiI`P|@C=c<Ul_ZtR3aa;6
zYoiF*k$kbMQ^U#0dAu0T&$V*|xCt{}VnZ%Mx=f9FfY-6jozmoeq^-!Gye5_f?8mh`
ze(Q?-?%B*X`!oY*1=_VWJi+rj@9SkmyqUsG{G0eBhc1~Y^z4KoG}rShY4%AW%ix6#
z>=kwXck8^LwC?x3%3y0G=nwF~ewMSIceWfyW*(of{kV#FxIK(k;j|T#Udd#uN#a^*
zY9$5tW!ZY;n9STeMJb~kRzBbB1;<7+Bqeb~OtK996qgyd<Ks!2S~RWzeN&e(!<QsV
zEMO!(58#<w{5NN^r{7ha4k1~Wk7o|i5}SCiz0=T`gGhn9zR-{GD|O(LiIg;Fq5br1
z+#quS?_Bl$t(Q=+STNNC{R4qbbsX?RwwoWgakO7FdhlkU@rQYjMN#KYtOn-YL&2?r
zM4u{nS=Me<jHC+Qjhlt)`$PTevcsT3wN4v9>?77LQuZUVLq}5Ums{x3&}=3xOGD{L
zOMxTK4twPyb*B){vyrKT#;ml;$pAWaJGZ~#x=cjf39!B4LJgl^`QmWxc{&y+b|ODG
zx}VkWLFcumeV2`tT<)8Kv2T?eBe~O+1ZTITo)4`iHIX1`0H_JMyyj|!|7LCKTnDA8
zWX5fUC@xEM23=Lh?eo#v5cPcI=ccY&$hn_FGU~t#s&oQ7V}IfG9@uBDJso<}FOk~s
ziE|9&!D%U13u5h%kk|TD=J(U7e-0MUil9XkIXqzqdcdOFR!7rHvQtdTtQnx+eju3E
zLgI5d57%`1KocHZ<FtX>9tbH!Nf~|l#&3dtO2~<lU0i8*zV%ZqRI15BF3DEG>4;i(
zqR8x}%{BMudJ^{?U0s!d<YgQf$qIa}*2XamIl%2S;bxU(w%~cn6`|*8kT9}Oo?F&b
zpX!RD(KT;0<TL$~Tp}9X>W#{(m1c{Cgbx-I1!Xk3<<fnr4O(&GtUA+kyp{zGuRI3Q
z@>~v*W3jqrtrp^UWG7?v(P?%-y}Tz{+^2JXC@+Ul(CypkyN!E3DW|HD(8Xyx$9tWx
zeUZtk0=Dbv2mKKcA+iGZd-%<6kT~9ID$zDNCatRemgs;492||~uXoWt`hNh{?P&HH
z;F3Gd)6DZp+P@c<$8;|X_+`7*R-IYxC3zT+J|^`c`TN<u^b802)0U}f2l9DhOv-39
zgK*wsTL|8a0Tf11qxZekr@gcZ1#MzN$&KQ0F~-~9d?+*YAPlKbcIDgb-QjRNlBT1k
zHcWYVz~s3D&XGFD{&lOaMZeu?c`xtH<-s<jFt{jdzK%hG_P!}xE%RA43Dg1H*ViZA
zH=|Tg<DN0-IDItZ03*>U7dL!;>kh`!XG>s6zFyC=mRBjfAl0n5%->*EiQCrN6?0Om
zq`7tYDvU*n`~>?mi>{T#oSq>?yC5ngA3<=OLk>vD?BhS2p*;fMn~4@zwDXyvpd)l!
ziafr)*r`Q(R6U*K(91~$5%%gTg~$(CL)LXUnc-_kdu=2(w?`Ad@=_@ey=W-DQ6QoH
zJ0iz^!CpqW(CCQlDk|J-UvYV@;9s*a4{6ooef>9afqoYOlKW{6?yHH!EzhpRucXkE
zNv?IWy(#G06B=jn*4v(5ef_+Pa?=lYl%bME4no~;SH_fCX8V9H|1rC7x7P-ro@*(i
z=oqK2I|S>RbHtqjTm0c}2fJ66h}k>r`Lkwx=8<aK1SO&kFW3b#wGu_T3fqhG$C|V7
z07gwrL(|Z7P?n{YoS0Kc$@yf;tBsP$$-$O{=5X7%?H8x%CFSE=FM*#R)8Uo9Ppm9k
z7K}85aO(MEoRHVEnC|=T%LwS9pUYKW9Zy<yM$;a*;OSN+v0>MK854*POW?5CzSdJr
zesGmuIL*G)x*|=&(7DQh_BNi?q-N+m;sb{tpH`Vm#Y+g0{rm+GSs;6UtZM4<$=H`v
zR%HTHaz;hb`9iPEO~QqxNrLUqF4l7kUk0%r3Fe`rTfyi)jJ~~wMbY{TJ3ZIYOMZ1N
zq}6vW(DKXK5g||Ad5TFFji8NoQ`efpT%ZO^M8~9{P-&-!W)cX2(avX<T~vlnBm>@@
z8YY}Sd&%wN3L*Er$#U3Vh-oWi4sX!}Pf{w0Q^@nW8PI$Yktc4dXC77-f6oyBTdgg=
z(a9qDdZ;mL(3OirrQpA^DdKyv(=eNK+$2&ZW5he+Ar+qS!AzyAz?yN#qhEz>vK9BL
z*i`Yc_^v3*jMcW<iVBC7alYT}@vPjHXPqDB*`#7pRw{xLTZ@hcMs}x}S`43?S~s`K
zKZ?9z8D{LvF;S|FyU$~slv7?|<iju?EmEQJv|$c*;~LATrB9R}Q%Cq+Ui%^9a?<N4
z?M_9#=64uOpe4Yp&Kx`60@0YCI)R^@Ke!w-2rmZ?l|H7@lIv#=6P(ZF2p8@=Ae_S_
zAab4a-7arNX%LBNdP(s*5eRd7m!D3}kZcIaNU$z{wj0w6RKK~tN}7YoVb;mC_VV9&
z#$CD1ef5=z86Ei?&a?mS(c`CIx2so(E48!FKOm%`$sLi%e2?x{`~GtaK|sVwdJTHW
z8%(aUdS9;AaaEn)do7SQV0yicYUc@rPtv<U>#<~N0oQr4I43PO9obO0E=$ZBY{%a`
zouqI9eD7TEC4>xE0|Zy8nG{JP0e)4!Z}`sz=`YC>{c$N*51|3gXmw%7xO-b&lcnCL
z2b{!dE5N#m*-)Qdsk6n<E@Y`6ar&OFvD?}`3;1-?32gBJKOPkDcHLZ*<P%=S=Fe`r
zE0Ld~WzN9v<~Kg`K@|?(G^{DT46UxvzeK6f-$&AHaLuvMOqamRZJ5STX&4O>B<oo^
z?*gBD?62T$#bnz|FehAW;2yeY#eLg+zfBDy6S2RdEPqTVM2dRH3#rUzmQTiP{>!oq
zwGG$}clDdZ4AKDA&Rs778pvmto{)lct90+HBh@d7U06c%<N$Y~k(0i8A+D}kjrSB;
z38^mP4U?0WCRPgps}k=vj1S@Su16oLa<n<q(KNN(;MC_$3!TS*N2OUbplBOtGDh}u
zW+m)O-R0bVA$|cfv2eA_9i4ia7e4-l^uEwp@~ab(;kaE=2u1SRMNa+b`HsupdQ8ii
zqt+L-jR*vY4Vc#hqsc}nClQ;AS?c>;@{z|lM~OTJ$sXI)($E&~i!D|8(MC8#4u%vh
zoRuYqVpQ@QD8fKotGN>!cL!F0(M`!GKI#<A@yt!hKLD&NyAa?XV!C6ht23Um%$cmL
zH29$t)%WOUtoT1Pmh}#VPD{6-Jjt?Bgg#$K0}pJ8)ll9MpP5#lk^ZvIn1Unp2i-vc
zbtWSqwq#nQ_M-*dGdg{LZscS3@y_2?`APT?5S3$I@9!pg9rsJudbgJ&{`3-lKF{|%
zR(}s3Kl+zs3p$VQM?o=pd@%<7sskW6dnD|AUVxDiV-3CeKlvRHXYnA05^y+k=d{qT
zcmiN3%;gpkVeU={zg1=EbmsaO*0RU!AK6#Td|6!Wu(F^o-^*0YL+hyR_!l0cOeMrA
zVek(wsYCzcJ|$~J0F#ySd7X~|U~T$Qal@0`soa9cxr$YR!2P#(?+bnf<6zRmLqyI#
z;+FpE_FtnT=Z3UORR#F%F(!g}AVf3LIVZ5aQpO!7ZRpSb|H5x_JcvwU_vT4j{KV*g
z`sjb}wFn>uDN><5`I$Pha_u34|FAQ<`1{wRR9dTI`qEkVem(UU{2Y`ZogGVlp5(dq
zU&Jy4=>-hx(Wd{~tor*hH4j|0A*QZ-r}dxA@vqjALP>?ho;=y6wU4^{AI&C}I|t>c
z$2wnqy+v>2PaS@A4-&kO{H<fRmrCe}35hiOj8c<6;(1?l)81%tW~$GFft6g}ROox}
zkKq?*^S!+E9HoSjWK&7`{N2o7CZ&)T2*WOUxOFOcDmHj&`pX7?zg7Sl>}o}3Fp+rg
zhjIw^v8?KUJVk(14^bzf-E=aI7An#-mWA|hs|s)-`P(ZgvEGmo-5sF*uTh~1em%QH
zZty*;ayN@67<c(U-jfj{Kq1xw(D*?v^rU|;G{A0YNbTuqt%5`h8}C`)Vk>j3?ZeqZ
z7+kJ7VjI?7x@IG=%4Q$08EDHS8@*IFU@Ku^v|TPD-KKCwc9!TVupX{3vry-~&@f*7
z5qVDdhb?bstlSxxhB3fD*!*J4=hgMtGm;F;7EYg+WlkS-%9f?##@@m&^Ut;8N(XYJ
z)vVY`*|);+3nGZ%ru|jL!!HgUyS8f#s%WwoZz-HC|CM2>Nnb@v2%aVYNb><SIZ|vO
zmaF(h#<w28O$PjzyMElGX(A{a-?J5c_Z{m`0oTu}B^ZZl*fhoKSYky^xnw6Xkx;YF
z-N|qZ0H39A9}$S^v~l%cq`M!j7Y8fYTmR^e9|5RX^q~m#ALgVZ@NErrtjw!!c%XyU
zo2zFrPda|jMy<Sm<fUh$_a~m&Yqewxw%iBFn8kT|bJFr(pF7v*Yet$(cI%jO!;hlJ
zX?;pJGZ|67OD+X~f&oe}70aMrqI{%LZa#hsVgZ&R0#YwCjpPLaf&y#cs8(cBvK%XF
z)bZG28*Ko6s5_pZXDL+G^%~BUO|g!Tk4M76pv&ewJsgtV0sz)~ieT+Z>m)BA?yLZ)
ziDu6ywnfymEn8IX&8N2^{o)Ah*DU_uNGZq)Of;W|uc*bQF<<I@rX(`H+R+^^`Rb?F
zSfa)KD$so|Ao#`Ij!FG))vo;MsL!!%*A88Lb01%@8KeM=tZ)lBLulo)5)`I0I+x7s
zR+3yM<{JIB=KRo@<e0UY4|A^xY~b@XJ40V&@4(2k4OEW2TeQep<i&`LrfZxWUMxw&
zPFgABv=p*bTbLUz^$Q!WYi`kl*->8B`sll(KW6MZDpD&bzKF_!mBI%!XlGmN@PXyb
zpq9nJ3vRPWC|2|X(U4d+%bCOS5y$z>3?5#9hS&hJ#?df|dk0>c1h_=NG+|x2=C@yJ
zZ)e`@<GaW^$T6MaVY3K-*eO^|nre$yM?$Ia95}UEsDo6HuaHtgu&w#z2+Ea7)*jvo
zB90sVV^ZXB-I)%#cT<@s#Z*m0D@aQG!pT%{p?j{)GFMp$Mwnn}VC&xc=7`-#q9BdC
zqU79()oN0OE#Lh(lb!9&6pn@86z*B|#)nUF-hwCd#GN8`YoFt4rqJ-^+#bmA><M20
z7{qcgLn4z=mhbx1;1+jPeCkW&bkNFr3uSRsto??{JvJXmLcG?+A-9bZMB=d0>$F&5
zG1^<>yk%bJe#Ao5745eGOtwR5t={)5$sWDV(@v_lxi9h+r-+0Ei*&K@3NRMc3pDiQ
z&i*RtPtR%PWSOaClPv+{P`_cbHu!lYN0~m(XYr#!STVp|#MXTd2gHs6a9T5(lYVX3
z*##*U9eo)*T--)X;6SJv&;N&ofGtLWv}lc(4V|uRQ8Wk2-@RY)>3p;yuOgdXLo-}w
zQuD3z3C*iBcCTZtgtKq1+^#DVu`$&ma}hc7&EbegiwzN7^_4=XoQCvzf<{7b9~P(h
zT#qX&E_9nJrhQAWuIT^($#QU+Q||e2&oz#!7DhIoQ71M)LngIog7`Uou03x<kEyC#
zhPzeL#Uz96wo`ZFiKAI%3#&UC(d_LaXHYUta+$IVlumr{OhGlR6Ci|}Ha-^#SP)NN
zP<)(@dq)uC^%StFNTUVRi>Crc389|={H7#Qhz-^_V9b?f>;U%59iJPAmFN&i?BfOG
zv%CM=(P=0VCrqJy=ufJvC-};iaHW*wdV}ueZcH`?5@WhjS=!XOpS*KFEW3*~)u&=q
zfx^QCJwV#P0n1p;z}+H0>0yxCv%HXF>AH)?)6WY~=_gF~ZJ4A>RuCAuR)Mx41;`bM
z$@aC|kH-wqxDUEnt!}PPTndME^!;Dzw}7b==faM@0I<b*J^PF3KGi8=d8GJ2org<Y
zb1?v=3rqn>dCQ~E%$fFnpfJPdete9HF}nKzwQNY1pErt7$?Y*Q5KX^(SKPxsiT(H{
z-X!^15c3ZFAZ$Ysf{q-X-I;0e1Q(XWf->@F-j4^py|cSpa*}7C{l28QvvgNy@XWG7
zS47QxL9FsOTo6<w!I+I5rx^)jd{BRb-0k6M5n2p8YQ+o2u#VEDg4%5sW^A6_uXq0n
zPzxOWm}T#QS@5OiDUtUc-vZ0qP$21nKc)+vr*Nj{1FOl3a$v9r>QrPN29XxO3?lKO
z2|kab4&dRYh!7W$R||3m?@{@t={9(8FTcKXck@SrjWYy-X~}o7S=!D-MmJ=Qw@(on
z*UEprht}0KxpZa^fM1((?cALPIv%Nv{%^Y9a*BQoYNR(;PLZN^H;hVJXtnwR=e4Ox
z=H{zOecH=kF8phObEH*1Xl(H_pCQ4CxArp_!wl5zjZgRUi`i`&$ux`gW9rx!gfy$|
z%L!C!gbS2H^*_}Mzx}2f?BPJM*BFBRDR^Jl^?*CjG|{54Ze)5l#c@zV2GoC?j)~w&
zWF_$_PeN{&3MNu3<9fk6234VIY|?ZMQBFc>K=tr3t*^m234)Xp<=z5z`u^6WJg83-
znaE0SQf`0eP=nIdVhPjk3%YHez_k<zxd16AqC4{j?-u`y4;Io^zdSBqVel!*+c$(b
z!(<XTSXNrDyd9|XV~^^3(e`BxHTsCP^StY7Vu@VUHv4lEhO^Y`b_*~WVpQMmGn^*a
zx>1x_j<Yn5Xy!Pr_Um<p%+YXjbMJFq-cu&V0&vsETmBa%CPYa25qsrF9<Z42fiNH8
z_rhS!Ns_PE98733$R{j>^~h(UnaM5pm-?OaI&C0BEphE{1WAcNOA@|<sVtcN9<`!H
z9_YVm03wJH`92Ga7D<`ivGI?3gojJRep1HyUWlVDiMyhhtK5%>FULf4MaJq)5+6It
zoz7T!D9Y?upvwf3OD@5YLm%%buju>77{D6SsT<EBb%a*aF7d*iBF9I`Cj;=-8CYC+
z=y*`+V4i5|xBK$`jD($J%xFPRFbxeS)`V*P{iTDr>W1?*M@ec-tjf>UzNCouN;vMh
zJtw2i9cvVPKxF7HZo5BP5)2Wav=1R4`E14F_|O*{bFMB4`qA;1m#vQ;arZTY7ntr%
zZ|(!l&>scb*14m3k1Bc?Tn{!y(XR8fD`#Tw6W>kJY(eMr{0vIIINsW*I95^yV@ldT
zL0ydanwoHcL$6Xb)6~I&waTX;GLP34$LvxV6GxUfOUl3`j89=pIxIe!xm|y;9XYYs
z79LJ0<v(!mLtOjjcxjS2Y+Af5H;}{1VqIE7=-V;iZE)KOt-wdyvgFgXTqRz>DW@{&
z2&J+jB=Y(T=wmwUsl4<#7uz(p%Sae(8XYIA%(FFhM5je#$KmNlE)xSeClj+dCu3h&
z7!%6>=`iAad>wAsj?8{Xx`PG2kAZs8j_MzLEN#CvS=dmz<!+5fk$E}7zGU4on;N+c
zmUCJ3v?%tXxnun7Im%Ye9*{|_A#ige)N<%yb3UC9tTl|q7b3>i$&mXfY<GZp$_MIM
z@j`zYy5)ix^gs#vmIu-Vp{y^!G-9_H>Bb(}13=&;Kti=6p&FiQfzAw1_&lq)Z#wA<
z)rK;qr-f>xX!J5)dPxcF9RtpmFq}5}@<7(-`~&ax=_1pJ2Dkqdkp9DveKea%$LrA-
z+*$IY+#tD}jfBU@?SRAWQn=7!v9l#pZ2P;7Wsk>ANjGj%zVi)4W#hGCdhY%o@(qD(
ztO&(`gRFk$b4~xZ3w;LT>!d+CGRea^#Vzvb^3yK~4z`{r91gjRWa@>LXW?z`7mp_i
zkvmzcGLCJf!`N)#ZfyX5I){_O^}OnbQHSZxRgfq9nQ$k{g^1BG?_ElJRprAOnBcoj
zhz>|`cuslK9M5B$!IXwdW3T<um%}4$Be9yF(#L0ZD$7C$I;ml2FH`uYWzd{A9<vy}
zJKCA$XNiUreh-Xt6rFt5Mz{zkb<}~jh>>_1mKyii2eAQSg2B~wX8<{I?m_P%Q=gqQ
z+z@56y6(Q3w65LS^h4vbJ!7MID^3cwf#GL&3kHxC>9x9Qo;4l$BJ5cy9K@y;@AHpN
z)Yuhj)?wL{<)PL^nadje+K~P_TeHbX^9AA|ERN{7sFEySeW(jcZ)DVrHaINz22F>`
zYPLq41Gc_1^`VaEM;^_7jwBj0=`u)}d6X}ez$N&mM|!e8zptlq1<!cQL8=l7FQ`{y
zGO#nC0g#|P8_n><tekdEV6z;1I>1z!^QAc&6CchIfN9<teWBmSd*av@Y;b*f&^KK?
zX1+0i&&HlFmKNb+Vu$mFACr}-{&WEm%%XggSK3>0bypU{2J^W!e6O{AB>ftmtn9Pe
z4|CouZWEP}%G%STn-Iwm3nvciGW(K*o1Ko1ZvR}^R;k_3Nw>~S%9@kMERqba1}0n=
z^3wamv+9fzC|A|>;JsNT4}a%okh0l)&3f%bz_~}X!Oz<kHUkSA&a0R39IJX(#ferH
zlGoj2z%{aLSr*sOSN?_Iqy)=l-2m@ontYsAc)d`!VJ1MfJAtDQj9@iURt$tgBArt1
zq&5Kn?!8~lv0l3ymDWrggoR8H*%kojg4<&7qPeNi_-6p8Z7(@_%~XR5(H36`u+zuY
zrU8nnfRU4}oTk#px-QdBGNkJx`3agOFQ$QQ)wzQ*4x3Ji_M{E)A*}&*fP?URNlMl_
zlZi^3loBRNhCJ8J%jlyoVe4of{pQ=wYQ+~?SQIubq;l%u?*)oqN|-{O{zgo`EYzta
z$3QS>qE2wYo++HsAAD>+-qzZE*2I_F@O?yD&4kF@aEvOusgMJmZmCWF)y1H+kziS%
zw7TXrU%R=DlOMsE5SQ~|Xz&pOL?DQ4D272HP3%Ryk^Bdx$Kqtkgq`w{?>bO~^k~LL
zKucR`=#Rmu?&)1+rNR5I;(1x>?Z<C06TgpmbX!h)oN=bxhU0|me%uFV_vKk}q2G_P
zFLC^5WRETSl^elu?LL?C2uwngySyv%_<fyqN}iUHF31|Y(QB4!(y_txtg+yeL#&O-
z*|;EaNQ5!$q9bu4UZv2QsMaztDQ|<lN0E*3Jo^m@`$xJho>kAfv<{9)kciV8T`BrE
z;xIN^>VRdN!>*7EtvbzFarIv2MY1+Kv^RXiF6p^CA({b*e=MXmvWR6LJDC;)1^(l$
zsZos)uyeu3gP0!e%CGhZ93Xdp>>vPCKRBZ||88b=rY@);{RsbZz@dlq26{2!WcBI`
z(+Dfl5K@#$7Pg;2F<9IdDFihXpN-C0cR3&Cd?Nnb&UlNQ=^3+%c$S)T+nxxMn3u&v
z=ex9+I5>YpliMVfFE*B~xo;FdoxB0vOJe+K4X0wJ9`2fHW(t37%D3Wk{p9rM%nEGb
zN_hc%q;fi7Q<OpBo)GLD5<aG!x>f;zfnffVfe7S)4cl!R+k7)h9KfiZSTIk7&M$If
zLQYC}kz_Hduj}dPeG?^8K33p_nm8e%A>Wv~wn%9zE5?IRVp`}<9zB2CDp^kJ(*CS*
z`*{c+^Gwc0!_}6}@hE-4*t(|?mz_qD$leX#b(Nab`DSU~X5K4;AHrLJu&UD6@Ba7$
z5^pub4`L)9-M6|RvW?FrP5pY`EH`hiRSn}Lb@Hs@74;_g+}FQnQ~47AhAwGRKyN@e
z!()tTo;n1^_k2Hs>|4V_-E^pv1nf>*R7?)YV;=-`Qpja>^Dj85jj8QTU^{sO7@w(n
zjUNzL3Jjz9C9KH<BC;=!h_&WCjXa(KA&_RRv2<}Ppp2udoRlLAb#QRl3gg}>Q<UW$
zKAwO(+3Rfq#~7L>`X-msr;$n<T?-7$Gp*>gI=dO&YXzlp|4uvxwO3+<ZW)u$Xkqu2
z-uy482ml2dWyDUzNO>hS(d^!Ljldw1ftO@1Al5`d=mVK>>|C*#4dMYK_k2R!y}Y90
zg>u?;`2O1|+i#DK0k?bNWY%XVrx2wAtA6Wva%<^>Oz>uAI)UVLs`ph7M`nVx&BPCm
z^U<U6Qj-L4C+6<VzK?o~t@jw9U=?LuueGU80no?iW(pZ7L5R9uSLIh+Mv{^97UtN6
zH{yZv4*)l(@;3a>Ezi;*Gq50-;dEH3(J=v8TwI1QlUWQox9{VlR~~OoRCBc~|G>Ao
zRvg1GH`=F8@zlq<`xc+ya<3EhY$zpf`o~$ew@&}|t<c2gjYR=Fi#8sZMq|gO!D^2}
zVH(Ie5447p>@+>pUY-j-`PgrgFoT!kbzRM<Ueb)y6{0U%BvNDv$R}l<IxwI978lAf
zA)W3-sw>bRlEu{eM2Fx2x&b8xL^qVoHtl#&kZCblB9Ft-I}frM?D`K=P-jG1ONQC{
z7k#zcB_Tv!hXc+BjFn^bg>ZdYo<08ym({coCj05S(?KcclW7;tzGPl$Vx-~H(yd4_
z;^JEsfyYk6Ee<KG<Fq$4Tt#83`YMA4r3-uLO&iWWy@dLNrFr_&WwXEWHvEs%a?eh3
zZ2}jpp9xO#zR^9txtOqU?iYM8o_}-Vb8LtH$*v_v^%G{%y0LB_8t-Xp%LHFl)^++y
z`sgiEuqdb-`NU@N!#eZEd)mqQaxWn&k&5dW;5+MZ%Hwet-2~z($BkAUj)m|C5W)q=
zVP(~7*v-y}=JXx_9+I&uci|x#=>?+(ja7iW*QH4?h0klVSd7F;FCZW$iC8NRrI&y9
z{=IqHTeVXNQ~lUPne~=1NdO8TuV)pOmX7zCktU`;GVOEm9lRixI4!^@L4!Xt2Q`g$
z3wZW>=mU756p(;&hJ%B23|hmS^qW6@^;^!SPH{|Yx2l}}5$oL5!;ug+eE;`_NdofJ
z2!6Ol5-cvy$Anz^T7V41UZ8<r`N<zC2xq3L?OIFiqir&-V1ld4?XskBzuxa+a^Q$@
zxd$PYy}p=r*0x>Lsdct;89MXvRomSaLaR>bsuT^i=lEDN&lDC)_^e5z%v8^S@4S7w
zdj|jTK(4>iJM!fC`T@xc2$U?KqPUKw3NrHOaFrB$xz1(QiKBS{Mpth|c6Cv6?WTur
z3_F7pA>o>&IK|dsPrd7kBI2e-m*;ZYToq10L%d@WNaS4P1G4C6ue~K-8wUddbK?%-
zyi;~|H`o=TZclme-(gnX(+cE2iuS^HRc3hD3;{y}Vnq6uI|Rfd`Y9UqHUXvTkPP?u
z$2oP)M;jVtsLp;-;t&tI$6^r1PjS5xhYDe#MIBNA2b?K(nem=<KU~$bxi_jXi4_v~
zauK57A7uCNZ!XfA{MtYG>$8!P5>{3KU|(zi5?Z-sr0<2gvsZ&Y0LGjIf^*ATi1CmQ
z*?KPFxtV?~NC%GvoZV?*XEo;}mnc`x+Q&0=*xz%IM~Xey#oSQ#St@Sg?Hm<9tM~#v
z_j*>kC9o1)+K_eo9~}c6!5ld|;^<K)vHPi>3*i-Y<aPQaA+9UB=@m=pLAS9yWW0EI
z#zTMgv}!S|6mV5ImV?MpG}AF5m8fu1Vk91!rRpN7qGXOY{@F9g^aoCdKq{M3!-~k&
zZ?k+<N9GhME-*Z44Bhix#|J}e^y{?U#8o(n5F%Pa_go$MfG9D~d{MHkF5z!bGnxc3
zvL9`$Y<`-)v+wXD7(|L5E&#+z6?V%b+{Rh;vYBg>#t*=(>5PQ<3*pN_7+ud*xTHCe
zDU?>n6QI0@D6V6l*sa!~1S1dJkoDE!2RYop@gq%)->KT4ugQU@fj%u(TVX~1<wsA#
zO0#Bwv41|G7Jy0|HpB%Tl5C5$h2Dj<CR7+5bIW0~RoE=19PL!XMc{0xP^Is2eLHh~
zZ5~YTHLIlME#SQE%w)`g0L~qV1(8L-Nw@1(h!y#wnmU^d9-=rSWMgb1u<`6>onFk|
zSWnlwRB{8-C&en6vJS<C>j%WPP~o@&?IdcMGP(Hx(sG=|N1OW?p^?9EYU&h5zsuI#
zO)Snvh)Z<>BNlMPkbzhdT;9_w38P?53>zf)^u71@6OPMO48qy-M-Ek<$b>&4xvztx
zm+-<a?Vu#<$)$S=#${Iwo-2>*P-wNca<~cdf!vJW4M+#&JWv+QqdP+gMb8c0munAM
ztiHKyn>Ni2<9QnG$f}Vcr(SZEE4^!D^HR#$GGBWVF4-RG1<ak1Dm#N*&B|?+4v`Pb
zxXG{dER-;ZS_E~F0=8FS5#azQ>lX#-J@G*XWw{#dU+-r2!N84deB|xwcH5jQRd5Q9
z8OIO2gs#O?Zf!*MpFC6)q`|VC@^+R*J^4TgK;kk_w%ziBzqmlTD$(GVTjskjCNPVF
zbB<vtYu;l2g~>-sUlctHA5_A<_1FbwvEV8y{=T1l#QAgazS`*>WP+|yiK9}eK-pp&
zp!r*e-;K5qn2aU%9@DeV3QOXuo@Oc|58QuwN#AZW&x@(wBf`yB28Kf%7i)mZgp;m@
z^)-@4walWs<A5@72P%Ngl9q_W4Bv(3ty_x)8J>racl`L!5teT(%YX1*Go<+whTxll
ztCLCQALt$SC@u<*h3t3%bhdRt;%zHk@d&Q6K9Xx9`Bq&`y~=0UWA6Hb$U$4tEr`ZY
z*sFah9+o7xgq&qjMI}y1hlUp)<sas{_-OL+ihGSDjDKA!Q(Ml^-G}#ys~-)7`Zt~<
zR{`?8?tbXCHxwuQ5D`7=F$e$&{M*9iIN3g?mEme+!mhQ0X;Egl>?%_d(M73%7}6QY
zn~X8uoCXq&H8gAyY??!uLmb}dP8iiy%+4%7?Uy0G*e(s1Mybe~g1PKerK1vXeb+&D
z{(L$F2^<p?WO{!W^~Kk%V7vJrM51W~=6RET)1=Xfb~mZkH?OGC1Jq30g4ALyZ;H=%
zSE7hCZ|v!{3}*!rA7dkNBD?fkQx-F*ThH?$Yo^0F92sSJm$A8@w^I)CR~cLRHOK8|
z(&RBrHG~D;A6=U#9WZL}zS^8i&9|4#(jD*R-r0m}o!_r5H4W{IhfQms@*c`@)1yoD
zKE#ZoOA&X3N{_x+4}VO56NG7djc#d^6M;eLsGN)f*yU%IIMot-3h+A7Fv57Bu^+m0
zUCxs4QGGjQ1sW#IQQD#=7A(%yXD(+k*F|9@dYZ1r`imwNtCrH&@=rnJQ?l?ywp`UV
zddYRTx1ef?@KsGgLYL_fdo-J0;{BQ@Or6n$iksXZZbO>Jv<kvu=5@)5Cw+%f7dE~~
z3e2mzLBuGf3x~RDK0)vEw|HccD%6Hc)!Kz9aKEhDMa|<{YktRHc4Oh#wO%E5RdSU@
znyoKl(G}~Xck1~fT^h@%X<d%%WxDpsYz0-71Br8hiFT$GYDGCkvF|PC0Z@@b!+`S%
zL3^3sdQ0jB0{m!;;Tg|^9?vbka3DZjqmH11>2G~Bv0C;)rt)~taq(6ajtxGG;0WMh
z#4L9IGNoUR`hqPo=iYjTWEM?7Epr7KIxbxW-IDMG5~)(gBSxZM8}-Se=5);wLvGQS
z^$XzH%O75Y{GAqcDyOn%aXAG6nY_Is_Q=y(sTBPn?0_Q)b#pMyC{#X~IGZSP=JyaM
zLI-hXl1&_>%V@1oeJJBQ13~bOLeFwp2yHyZU?Q=OoIZu)xHApD;nSWKQOSU+V~zpY
z1*^l=0VB?Pt-lwt2uOlY{ZC}Fc5_4|#Zp;;VyJvj3D;rCxzLX6+2eIZFN43Q!vAOe
zBtHNte9Q~ZisvS+YJke231q&FyLtF@v(cZI9(n7<ZibxhI@WLQ&R^Nv2@tZY(kb3&
zUT`b$lcbD56Lir+?9;v^_ULyNFH!~UIMS`(I|y_KGlCt%@JkUxwTkOWaFny82T+S;
ziA1B6KA>C}?|fJNpivQQqn*PjZgD~aUFa^UwtSELw@+~UEPo_JLqibf^Sdy8p!5qi
zL<k5PaN=J(-yI+~8KjP7_0C(CxoF(SeOVcr8(U*!^xeuZzK2`G`3q6Ld*M~Sd$<?f
zzI{CRKQiWWV6dT)v9U^%Q85LQk`*E*DLN$Q*yHu^uQ3LinT9b|WtW~{|CT??6y;U@
z9~QiAn-Vc1@>N9jmV`v6x*HP%y{~{e)>o<Ayh4P<FChp!TaJ;Rb^qSRi-G`?C&~%3
zNYCH`7SBO4R4q)-DOi1gxEu`pt-TZH$A>>#8505gE&G|WQq#Q>ioYz@uAOU~uhClA
zXY?&aUQt$H$Efa09lid#SgP3HZ$P+%v71d>0=KxQcH6p);Mdlx=HK(;bGCt({NDU5
zGEj~(ioKF){yQAyrQp(+zdhprF9kR$Q~Sd&FMB$kdl8CrCeaW57UccCs|2IB4{|Nb
zN75DFj!lK*ngWo154)`xc{9-V34M`3uu1R<`eQD~EF#a{Ms}C&DSuI$>6-F7AR~Qz
zx)@Halp^_iyZ)MFEQsou=n4>pJODz?cwbm0uv>j%GwuJ1%cx-pc>k3^lCwJq7bx8;
z1;Elc;1ouEDz>I!YpbxDq#6$EM1LnDK-L0aNUYp<4*z=i+gr6y3>{h^Pz5z@e!t@Y
zpq|jK&d!plDJ=pv^XSmW&zfYo)-v>&oo+*M=12a)`s5jU@4nhJTp8;Eam4D&fk5+r
zm!Peoi+2=|099+1w?$ik*R>;zEX~W!J?SQU2{7_V!=(Kh*Tql{%UeZ3iIEidemi+S
zfYoB-;#Q_MmP6$myuBs?=9i~hsFO+1d|OLUUI@&O+w}Kmp#XV0M&I->uFholby|Yw
zrgD*!ChK0b#a8VRkeJv9D1WZg8Kf#goEpdw-(E{O|MlrNe0EDUQtE(nh2&t~<1zBV
ztqh3|iLQ`FK|L}|h$D~NzM*EVbN(Zs%0eYiO%F)DmpE-r47<rY?#xWPDT!BoC6!Y^
zbk}v-92;<+vTMtqDID-BR4;9%l1W^h2^lbg|GpRf#cmGK+Z7(Z3%^UdjlLf(Hzp>Z
zNg(Vd)lMNm6CPlhU{ztq5st|oJ*Jq}vCtAC9rSRx5Xx^poU^>X{{WGaQZ8Ne5m4Y6
zgoLv{HQ*r!l*2(crm9Q1M=mq~k?%j#1h>U`z3FKgZghZrU^m>f?;&Ml^r-O8Ox<)a
z_Q<?641!5&h$&fC+VuVjs}`Bek)I%`HVE6A0;4IxIr}#GJJqG_GCiE)tbZRW0($V^
zk2y0aLmKgbL5TPvWqGD_0@nb<y-O^`0NTN3v<JeNrns$mV5(UqyG^ks;fYAp@krKC
zO{nT14nRdJt*0%IH^;YO1~!<iN_c;a5`ym`Rz#^EgV3ATKJrs~%kssy>HD!_18KV}
zmgP^6S&iQV`uH#H);K=~K1<=@?LRZ=CDg32RHwM}<;NEy;itC?yeSC#e17YLEMGBD
zK{LVYxGC+lo3;Dg^^XC$J!$kHfQ;#rIpA7Y0w;(w(D6^st7>)b<x<h{;+Wll%w^)%
zU39+8(yT1#(%l1u1T{;afYOZ8Q5}z-n62uS<h9Sx9pyK#;S^2K7FZxLzQc5mpP0zY
z=ZXHm2+-{sj<83>q{BXxw*qvlXA?Qkbksyk$SqF7fVxo)VBwN$#!wBm0gC)Y6EWcV
z+D>l9rv}R<{r*xVtP*4nsWQW)yMX%mqjL`D<?c5W?cMfBa_uN-uvs>XRnH{QP$eg^
zKZON!kM4+g0CljlC5{I>)AS0(TwA^Ji9}p!E|2zr`m!Yltqgtd!#j6KGM{^%+Tx{Q
zhrGjVFsDXOL1I@S`n#g-r+!Od9Z5U^>DoqJGBaKhM&_iLL5-9V_*%Hg6)5+75~=fN
zrEe+?;vhBlc_b`2d+aPd>kjRI$kz}M_mEDbv7ZFrX-p?0rt1Cutoff5M-Cr!8J1z~
zF*x`*;@RyM{>N0mRU=}ABg1JIAPYP{&x+sX>t~U#Up}|DcXiR{KYQ}eE&qReb~D8s
z5v|s0pem#O$P&eWJOW*u^^O@<Xu*czU*5#0whZ9J{+CjS6#c{NA*zxbtBK_2#*bwF
zLt_Z&JjmwKc=xS7h~0ycd=^g9`;Y#-lMt8?F7N)D4lTg(_ii?9miUi%Nd~>Hpzi7G
zs(k;5fIWIJ;^A-1?3am<sUsqR0%F%kl7EiPZQ}(#fi0)120|m|(FS>lr~kwB2)<Py
z>~n|%C!KialQ^t<zghL?Wi;ZQLg|Q?rP!}nLH}X704!SqFC`QnI^;r8+W+_+U7Y_;
z$|tgKwJI4t;-Wv#(0`bA58R&H<fcTb(i|uZME}2f_rJ?EYSKvPIf#>Pu<sMbzkfy-
zk3b;C0l!K6N4fFe_eQ`BahOVt&)f7t|6%6aAuS8~JbGjN#J45y>wk>|soVr;>?pk~
zh*hVWYWFM}XW8BRCF(ysi`N21)UfJgil5&Cn46;A-`}UZ;8G_6VUpRNta5^f(=q?-
zT1KEitiFIkQu;#Wtam9I-|5$$DxaI{Z9qcXtC=rw1Z=!NdI4;Haf=+Q+f;Dq*Mg2V
zM!AoNb5#p7==0RNYUt5vfl`*XWbF;rybe~)KROuWFAzHtxz2-wNkRc_zby5L%;dMJ
zJBqym_(TP;y)jCYXH-l^l8a4{hx6zI5<(}BX36Gipx9=JZtynQ32+s2K%gtNrf*#}
ze}57XUrbE}J|Zw?HST^legl*wS^?rL-R_coX9XP`51sGnaOse<Kh{mwAqY_yxvR6U
zuW%PdyWZ0+8;L9%;iz8-Z5&8}n%)-qbW9ooa-!P;vPsUBM1yd?bJL0D;6}d(lQF6~
zW`6e{Nw%<PkpLeDD6y$OYb|KFc0bV|6S*y*2jnZ7p%`81#<`M4o={>O7C4=xH>4~<
z&RQnyGkG2ZE9+3nUFHlWlsrmZHr{`>j1rQ1ffSE&)gRJ%_*s{ud!IN0iPdgFcw@S@
z5^&}wZ#}OM)Up*!+BIr`P7-BTG2R+pIcd#(Th{B#GHsci2b7180Cm0>K)GI?e7b0C
z%rc<@0|&?GQ3BS~N3%Rv7$GoxwY-3A$9YJaV?5>N(u6}a5S7UCOOkU5!1HTa0vb$t
z+&-`V(6KTEQjT_g`*QL8KJ~ZX4p<*$ew>`@%zt(Gp*EJ+<M@5I4d6vp=zY5nRHY=}
zVs(5D>&<fo{+wB$;%(AxC5aJmypnXw&0}%_({QUY=`7$`0ji+NB>PU<d(gm&S#J;S
z^VRh9+?vtbPdWhAh-yIDZJtaL*LI>mK3IA|?h~%er!x`sb(q*#)5`G};eF@}@sDzs
z23H;>OjRRmEOmVcZ>}u>F<kcbv?Lz$`LCJ?V6zc{%nd1IP#&h!Al2NFH4$$I<Q~?y
zRlZlZny|D+0EKS?*<zREhnP=)^d@aUMUJOkbg7Zs6XpTrQVG;n4tSp}<KcDM&U&3x
z8!-T-UA;U9FJ1f?^`IOJvpzR<yeCr*RL=y+zV^d}l8{OO4b}^cML=_RD<HQFm<KBN
zOEnsMh5;|QR5{-IJdRQGNAE`K6`;g)*1^5a4_wXOT%{cNS1m<J-F|Rj1W<mp$r59J
zNp{b%H~^YEp?kfLXEBf#Fq|d-4SRiWA%wYxGv^9$*0untmmQ3RI??t`!VMru+y<cq
zK`>R5J@+Ln0N38@a<5J1`9Sew^BE#;XNIRMK+)|u;M8oj64)@<))(O|xa_syal@b+
zQAG~G-`*+!j4P+?rSzl~buxFuiqtT8U!N50u23qVqb`_XUo*%C4?Yc5OgHWsd>s7G
zLlKY?lER>ZB<kl!rO$cjnil+_#6a1wp=4@2(-8AXO-I3#sdhrUW(=8()7@`q`ECb4
zoEz`qRe9oK(s^I*iQOsz6XhU%h;AyIfXR*l<8uqn0Uo!*43-Ui?=2Rab={H5Xkkia
zGoqW`YNjrtul3jA27f<OW*j&7c5<PDjRC4VLg7Vb*0;*HgS;x>iwQ|D_Qp+8IBhUu
zBzF6?D9KExAVP0nKm@#|02*Q4(-{DnHw5IzLH^#R#D5h*(^Fuso~HoS7c!2nfI+6Q
zDaH=BCP#}SPsGb;8{YZ{n)XElONz6YT1z*X1oQb)vE8V)OZCPckTK(8#&&b3@ewhb
z%oRipHrPo}%2JzOp@@VY6*nWbFT$SZm9^4_mOuUV#fIB+=hgO%5@Cts(B?G#;JwzJ
zAM*j=AYAwM%W9=?ucb(_nuz;Hxy2Ok#WNy0u$p!x(~3fXg7RLK0<AS3N^H6`f>fZ)
z6wvU`fcBlysd;7i&I~<(;zVtJ<fMpp$PNmaoW)H+y!-TMR9D->#r}W<j8_b$X>w|6
z+eh3>q=*)ui>wSF2Id7@fU)@dNI8fNQaq3Hb38C3a``(W{eoTGAZ(VN4PeAvpl|!s
z$$VD|eXcB~&T@Q$m<IIU3x}HSp!5tUzy+6{>;p=Y=^j}fl8&c)R~ZZH3w}J*X?4_1
zUaCrw&^HOt=%vr4?nmZ$$r(-(3<_hRO&<@5BLXpg1Bth1Y$^{rKq)SL6j^#4k#TAU
zV&xzQeZ;SQl2D7uHt(e-m@zAy7GFK8wmt{G0-&*SXW$m5BSZR-;_caJEQKNHGiAgn
zeoZUk5pB@Zx7zcNee8Ga<uQT63?BlUfjq<}55%+DAISz^Y9ZJkkbfXtYLy=ZfpB_+
zHu`%^d0^0LI*Jj0X^wo2+=`bmYxgUj-VxM!0;q4nF7sjKci%zHkXeJo_w)LBaMBcG
zoyTETTHe8GdZak=86Vj!V%H{C>j=8At<wYT{b+c^cVMVQTrURbRlNRmYiSq}Yh+zu
zB=~a7gOn=%LOju=ES7XqaUz9nC|CoFb?583?0QWg0^sW;C|HpkEw}tPXN^i`{;}lO
zHJi=l{8R$oczcC*fcJIK7?~F)JuSNsDWiSxmWK_y9!79pWagn9grV0+uEhis0l(-2
zWY+C#dy8$giP)dQq4Z04V3$}dTTE$kacY@vU5XTz>rxB;JhYh4iscde7d}FHZ`H_g
zt4cGpUmkFZbPfXe?2|0~z=(6y)j-Ntu}Kw--tiIisO~1F@-rZk!C=lXJWpl%r!(QJ
zguZ+7?MbIBx|d=~@EuQ*{n%Z!07`$7Yj~k1Zl5GeHV?}F%ZQIKEi_5&wSdrDsH@|?
zMmfYhT$8P+7RceIVS4gt+Hylwo*2B3eOqr!&TV~K;~qO^Hz+|p{y9#^JjHWA$e}Gx
zv%Z3oh}XT$0<VCCk8deL$nv&K&+SV=JP&Ia@39(Q30WUFbh_TlV^o+U=?2*R$@h4<
zXqnM_<eleyA8<7a>)~Oll<6FKeU}%j-WR?Wca&e1DjR(ZMa_H}Uo!k{R=}bg$dOLi
zMNxO%7Ti0(*fT&S;hPFrI2~P=a$^T{CzZDxgL40{P-<T*`tkp<b(K+7ZCzVRQaTRO
zB}gMmNOwp}D&1WQ9HhHL8j(gsK)Or1r9@g935i2DeCymd?$z%dgCFWZ*k|vx*P8RG
zsjBWS*R7=S(!H07wAe!Tz4v!buL6#LAftcP!aBGk%_XdK>9kThtgO>qiLb=VufX>6
zabTKy$rvsjFbJ^UPJCSf4FBx5QhmIMCSqWL+J>gLv#mPO;DiAPp+op$gU$oU>P#LC
zj?a}eY%$m7_K;e<UvkA&-3V}9iIoY8)9U8lNumKvWkC0+VhcXBpG8Ve6kan~WO~(r
z>TUQg4&`<`$Lh>2IF=gNaR92lex7ZbdT=t*0IzJ4BcInZubO4kXNA3U_6YUsMoV)x
zv+Rl62<b#|H?(w%VJWF=50e0q8t+ZKr_GZ2+a#}h2_)y)<`Xbi0B9ZwE#GKz)pZAj
znO7pdP)IF<2Bdcn=j4fy7GZo@mY!u(nP!}O5zcXtwkm%3e~r=qD#*j1wR)(lW4apj
zQUSQd=`w73$V2{&oUkGFM2@E8-WBnO{^l%`AGSS(B=+$oCQ%E88b!TBWCz3}nwbZ<
zDlMo8@ml_I1oA2>V~RU(Xux0EUmO*E3B<ywEvxTG61PiuCb9B>8S+q2vOT;rc!M0D
zMYGuP@UWgOfm;2VSwSLy5@Sb2Tq;#ivdZ2);f#}5D|Ru{rlh{RT4QWD+*&^GVfpfy
z=zA3<3<u#p^TI=QOM#br=gU3JyOn{D-No|6^U#LH_DIp)@LR)8Y!ErJ$0}ypeA50Q
zMFt0f3P0M$e7^mUH=1lyinIo^ZpP*4y*6S3P|HT;wIY=Q{{wYFK;@K^sb^RA*E;n-
z{FqWhe=H}&GIKyQgGbDivu>d7{`xvc|D#&L87L9t33pYebQ!YxUVY>XR#7FluJQxF
z<?l8|GV9#nbRP7{TLz{q1oLoN?bc-J-T`l~gd`=A@cW!cpDX!nRQ;8M(mcV5(q*O3
zK129G&C*{gG5I@f0`~`c{)gf3YA+@rzkd$k_oAh?qpj5Q8i-4C%P~Uz@TC6WakOMO
zd|3-Be$oXT*IUC6%Azl0^JgCi<Iu^UY9IY4WZ~ae2)Dj)Rk9)xf&#9KHmm7jKSx}_
z4iLfSn-;$5oZ;cs7r8HC@?j>y#7s2SQDa`N99}r_Y`=eHOyu-?6I9TNys8S)$w&je
z)t7As$Cw`?{McZ$#((hcu@(NOl1Y4a{A$x~`6^|G%<sev-oLUpT;+{tdBganYuBIr
z^L|mQaDjvawD-(t*99rbF*;gii2H(g##~`*VtB;t#?|PV&&-P*8zp1bk^Q?O4I^eL
zh2CfbfJKjcCp^bA<M*4SQjKPb`c<^3tQhps>Yo!UU%=zOisGkkUhOY;p$IZpy-t5N
z9!JVDD(uyq=AZt$<>tbsHhmA^G`45Ym34rEWG4Veq)LX;y>p&YXhv&|^taZpKpgoI
zNL4Euan@l*W)}9Fo0|(H;Q}z~=Ph=f3e%!j`%3iOnoYvX>B$y7Q`A&lz+&wHL^RFK
z=Rec-3!N!{|7nQGo=|9#NCBdac^GbiGxDks*Hf5+3R)-$Q`~-mEMpmHHRdZSE7=4f
zdBFF0GB7Oi@fF|2@4#0-KSGeV`oPdsLay=i_Hb$w6maw>cpx^^5BK%SS!V#Brd(l5
zX>s|OnIg}6p2{sqb*iC}tqA+CrtmKeMk5)t#uvOhijTe)UJ@Iw5haR(JTiQMalHW0
zT=HjUb?9ij2uZh?$%la|nMZ$=7p(*%LgF{UQAumcFrar($3g@T0Ip2{0(|7~_8RJA
z0l$rNP$#fHuFvmo|Hu0R|6{^kgb(@JF2DE&Vr}48uTG8#yj(1=D}urZNAImUsiqJ;
z(KNDq_y@We%j$PkO~&J{9-B+6^Lji)bQ;fcrs@-1f)2z#8q0FMm$VsHSW$`A@G4*N
zJ!iIPEy;Ty@73d_5DN1*hW`OQ{^}G(ztb*?iy#_=vr^FCXK6A09$Y9D_FX(H1^ND@
zqJz2yypa<h|JssS*v_wJbRX%DYXPvq+z&!Zq7PB&`_w9r5aF02XzjZPHQt8r$N<>g
z^nd-AM+wEWsxjeX8RRSAY3!o|(2|brc4un=={V~5$AinH2)9q76+iAVV+Guo6!QJY
zmT(81N%))Dv8W66h2P(VJAM_^v0WupW`5~hG_m&)*<RMXrnm<6rsmjf(g%I{JeXI$
zdGHb9@Aw<AL$J$8f%rhc96gwf137`B_0-fx*&rtmfWUbv{4DsXdCqD~b4beJl9sB!
z!*8;TetE9fvg?u?z!J+OjDU{iv0WYl9^`=eV9HzA#D^Jw^+u0azRI(0EA-!fZ(fq`
zVF9(Wly&wP8FGKPFEXkSydU?u+7AKOJ*Zi#Z&zPmZ!bSRJ+1jsiNa>8EF0uK4FbU8
zh30cJ-9Lbkmw0HjV^QQpFO8Ov!ApvOjvI<gbo;d8HxZ~huqGv{CuJkQxslR9Y<=-R
z5H%(d<g1fB9ReQ%n}D%0sm;jEZwfJ{wzuBb@t>6R(DL55PJYvzDM{b@(6mrEo{fLV
zEauP<h1|ONK;ibEON&VlAjJoV0V6RxFUB1yi9QWJ=Q_#7QHa5&5MXFx4!d8NsgM>Z
z@R1f7pPqAd-@vxru903l&AJ@Up4q$GOm;KNZ}La|LC7SA_{N;{j+Mr#v8mbNlPih5
zvTXl>eS5kxgoKn$Yh<dfz=h!cyqEH3(M_P#r-<-W-=!gbL#I-cZQyI4T!cl?&DS{D
zxAIQaTe=jQ|D+@R4xWk51g?ffUbU9eQix0GuzAfmJl~n3!!DO<i$-OrPUX%=ofWii
za97MPjS==-7$SR0pZWl03&gWfGaPaNUOAke+E4r^N(3#L3Jp6#7}^u-iK>}4Y`Rb0
z1qPDgbsG==i42McF;IJnXH${B@Y7c(9_Z6?z-QsHovNZRk(*#BUpiD4QEG^&w$YsR
zKR=AOUndiMz3}7YEEne@Suhz9A&fvjYowBdP2R{d_@6%&e&YH0`re8?dd5Ya*q2Lt
zvDMF#WA)8k^P|0<R@IyD%rC1paBLQ`P4c#u7mqv9R}_sHcV^ri*DZ$Mk%m%`*?Lp+
zf%wbL`%kRNKT!#vxgX?-CZt#h>{S#2L{3C^)!FCjVqmqE#U$}~uBG-n#@tc|4_(S^
zd)946^P89Hi^&$Lf?}YdH2O7BTDh=3RIT~>Wk{Oidql+1oWO=7+MqpsajCQS__p}i
z%bV~`^Phkf^)a$%G)AqE)m9^ih!D2Gt1_>XY2wmQCj(DSYSxv8qFZYTC84&AtI1r~
zqa~jTAEBGjv@4<8rmyIP974CnQRw3QId&`Ef{k0H$x|cTN=|kcdyOHVqH3SmXw6zN
zQdsyjABkTMlyPsbuEaPa2KE!pIIU(OxK3;`@(+gvT<+L$d^vk>bJ1;6It2hrJA<gp
z_OE@XJ+HRV&h&(uAb7;|?YU4fI(_##_MU&PcKAa8`yXCRc>lJdDq+q-zEb(=g4b-f
z_eu5lVx55p%I^#(uXdaTt|KdVb}y;Q{g6&-BiOHt?wx&W{oHW>yxZpFdvfNi4c$U@
z{?~WYrwiUD78$NN>2GFIOLqO;54YPRZmmPG1P52kY4BFlO21SgT~L_jO1Id5O{*=t
zjfT!9KpY2U_Ga05b!~cX&XEOdrraMmV0SGUc>Rca88r|#jtiT|3k!r6l$2(^8{I_t
z?NA2SpM!o@MM&!I?mlX!@zZ7HfnxESGLP2JwR0PR!6mb<IDsK<tSl@=vUlZE>L=$f
z`QM5sx@}cP-1FI8Gpr4GS7LX4_a1N&ktq6)5CkO-zT@ghO!w|q@mLL85=-e3XVmw+
zUgLY&U>auE`(v^H{P|O4dSSsQRWGvxK9Rr8QIRD4gKLmQN7$2H5*KN*ejAtZtUjLM
z8F8a7w)a%dM1`<y&8DI|<E{tH>1E}cYCXsK>6%;p#+eSBxnB{OUYh#huGxYlg>xQ2
zMGtD=l61+~GBY!?+2AHc@lFmAW#@Sk#!Sa5%)Q>PZ0^g$Fl};15RpSIOh~U;)ZTCW
zeVzQbS`D1lgfYHfGKb@gmoy@lT{NIYOSj%lFpRWk77Cd^o3QZ<$qSGApAFB}4U1HM
z%<vjb*K2~7Yhcz$+m4jI_0VI>eYa*ewfrQf48uWQbGpFEr13BVRUw1nmhAHF_0B=W
z_J~*r34ihf#k83!>eroV_zuDsBVMiti;A;xch$W{HHTw_k3?hXE2D(Y2P2}daTa`R
zZoSTfK5seYyhe)+$a&4jjq&?6`?aG%?b_{>Uubv5B``3nSz-lAZ!eVkjCEAo%?>?4
z5pW$$<(>tsuzjvfR8`H+jEw8l##DKw*V#>D+YlLxU7P<o&vLaEoylN2_W=9FfJ&`R
zh_lquc73y%g;p)tAnKk@i)r_U6S2@9cc3C+3y&wH95zz#e|Quxd^-4CY$)8x$qf~~
zHjzX&jc4b*Y`Oi97arzkU-b67ucCI{zts(NDDo*0_?5}h?4bv_2R1X|_Zhv-|1`?>
z#|L4S%JP*7(uc0mY7nl{&@5&1ElWIlwIQ;I>#>(U>N;rTQ!!XPXh=coI_ZTY)c_G(
zWo_KfIkas>@R;TiLmUXeAtfC58A#l#cxkXc?PwYMxboSgo!$9?nd{c3h4z4ES`D%g
z)5hh{ONa9BVwSyDVj@NYSG~D<2VX0dM5ebU9SlFuR+SHwHu2~(?C$GG3|FU>e3_Z|
zw#oafUpd3xuv&WZYdAi@{iciZ&9>aE+ZUwmEf$W-h+!)8Q{gl1Id3K=egqCl*(|j6
zoDp{e%>&g9gg@WDaN07tG|nO(>+ymsKcw3E@3fkz&omj5ww<<RsOo-h5<hHzrQ70J
ze;Bzj_370j(OU}kM?nBUE~Ca};6cYl!3ZGXwot$kWY?T_1+9X#w7H+LyYYB|>Z>AQ
zuMdEpotmk(u}iaicljJ$$VREsd<acY?r8&8;zw~x8URSS>`ay#kOb!1R)Ozh9H&YQ
zml35TGQtVp(5Kf7M2XxufR>U?My1EP{5v@T`jzjGJ}XO}py2t(5)BWahB%1fTMi8r
zrDs;BA16(uRtZC=R##t+7#RDl2KKAMi&c4>J%{y275A@Gf$14y|1Hx14AqRE^fyh^
zzx%o@Yl2=hS6G4>Q&|3Ru}<~dvNyk-CjaX9L16_K=e*sb5b3v8jl}%@#Q6(0>7rk(
z4pa0dB6@Z2e+Deei?@Ev?}e2RC7SB7BK`T~z=?|?Pu;6zG?a^2p5w1CmVfX6{f+{9
zWS+H=x%Ud+di>Pms>`wd$AvO8AqX-vZv>hAkDTg$S!#(sW>`T%WOCAzKT2e<bu(iF
z{?Zg#)5-j+!v84g3dWHu9t`T)1>ox%uQceOPvreC8WC4ELsWWLvzm>AgX27@>d&&`
zug~=GL2NbzmkKp*xn=YB&iLQoPA}EU0IzA)1`GZ;+yA=L_t8vw3av=b&(Ezk-m(9W
zOZ639My_J9`eAeN4zO1L6gvLvY5vtW5g{Ze8S7=>U8rhm`8xfNpAw22t5SZom-!;N
z=^?Bj)N$$W|NP%_!|xF_wO!7OV}*g<!9ml>m`8PYuzs)4|N7QeV#I@j0-qn0X>nE+
zLYu^#<p2Nn!}Dq8%&DeH)11}I4rMkC?nwV3n}7o)hM0blkyrzyyu*)v4reNF^boWE
z&!2S{8ML%JHeX(7f<Vr1kFMbQB;ZVaR=5{{{gmm`g?ccsJ9!G51?@~%dlxo-5czX0
zG5PxnGMnmb_A2j#T$D7*bOASZ<NGhe8Eju~jX(Uv^YX<jWWRA-zLOTYlgj|F=if-1
z|9e;dy>fwSFd-@D=DQag3s?<H(tYX)vRojeBrr`7qz()r(UCgQEe(A_^Fv1KO%r#W
z+~9{}*Z7uVM1Nk4ED-{~ntGAJk4LXnM&qqOVr!x+tPOP*p3*>+S#HwPPyw{&PDK@x
z%I`f7`c6O+FQd9%1`R4D)KJ{zS?(B6u2>T=D$Q9J05WkF=wYnjESF;HBeNpsbd{Sp
zU`Bmxu5;8!W?$FlKDu!wfg`k<^6Q<X2;7aek-zry_=le;&82arp{o6ZZpq*FAJB6n
zAdWrI{BgPSAe)wAiRwe2<IsElA+i;~a4cABr#~-=1k{q9M$$$Y5bVr?t&yNG1Egu-
zBlHKz`POabrztGUO?ls(TRazz&Gf$LgJ*)l3CLP}_o`@k>@9GptT}#5>G=<{dvUtA
z*H6N(YZ(sA@QOz!aKdO>Mkh0YH|Vrrq_T+_<lX<iT7e2`?7_j$(wgEivPaEyaNz1>
z-eYh2uhfE}A=iM<FKdT{uV50hz|c~2-*YraDxYi{$jgQR8%g|dQn6<7vHjeXyXrOw
z#d!P3htq9W_j#{EqwCJxC(ut$t@g!#2IkHdc|QyH2eO2gBUyg%uvmL<YYqe{JCG}D
z)o;%%mTfkWq*-gPH|Y)E{|i*<cr(Gj=m2tcjt@}vH2_l90o^}l<ch%{=zW#=*9hZ%
z2?lOXYQIba^_#hto=YN&J)jZwe6Ek9GnL>j>XSk4;VF<c0#EoUQ8MxY#&mmLeQlUp
zoF+QRbI6JLnSTtzIC?a68eV?_(Y%7$`^LwqgZ$`t^ET}w9&g)E>9X6CH|HqD{1w~9
z1SvB9*b4G8K(kmtm`&AQ2?SVmY4b56H+<sHjHnv+_a;8STz!x1UpXv13pja^=lYQ#
zdIYZb%8@;XbM}C^jDSPgaF1`VyAN#QrNcB3Mp@&tm>$qi0esUAxO>@GR{-Drv2-f~
zuzdVvoQA$aAddWjpW#TBSjlJmEoHu?z)(KwQAs0wknQKTvpSmPME?{BCQ)4{bS(It
zmO#d_<M5WuvJ`7P>;N9_*(BG5yZB3v9wOr1L;+$rZW4AHewFY5tSz+6X*rB>CW52I
z(jvp%JWr_!DNJnnedI?;P0b{eU*|tpSEt|^m$x8uW%*wG*rB%;P8c3OQ;rmdND4=U
z*6y$U|F<JEFj8mJ)@hWGgIko1a*v#E1mt28Wz(sO@g6M&W&?p?uGjH*trMVnOp^=*
zX$U>@UZ;A``2u;5odDfB1>U_?<@$BFy5h;C?uvcEDTpL-+XXk&%>)kfo`585LNvTo
zE|cJgZUOeKPm-Dho+49X^e1PJp#7M$VXpv+#4&f}NHX3bc#4O+=F#@_w`NU9h#;YK
z4CRiq7)Va)tab`g^?^$W1Ifa8@lo3I`NI-V@2cv6kpy~)@LXJruc~%yR;mediz5*H
z!1f0jzz5c+2_E)YhkL@D%cR}|)lJ~#uY%{Mf*#utL@T+}MO0A^2+*qHgqd#TyNtd5
zGs^^@V8qMWvC*2eL9CedfvWgCDuzz%x^LiJcZNVaxU>OIoc<_&h83$qL({R4S5(q2
z1gD0Iz>AQ#3AQvN5GV5q^KC4uzXIhwcw!Y?gh`M6*mi0p8q`LzWOk#>dv~ec&~AWj
zqK-h0o|xRR6#=hYOuP#SL{@%2aKJ!+cyIw*BHZc;QDf501A2xBqcl2)ztro(Y9A=R
zJL|~HWRSHKe(`duQvy-;s3T+zuIdbf_}pGD=&30O#dKntp`WJpo1o*C0^Q08yGBMq
zma3)9pN*EUs5o*3z;_7>wegsbcYn;j{`Oe~8J+VcSXj_)O|0%@#zv767Xw|jBm`9b
zfkoONc>=R(0u!AYpZw-9^OlcGocHHJaBNCB*mR_~PB+Tey0y>+n`Ht^soTW(+354P
z8~0jVfzd0i35!rXXAXB*<hH5r*9v&~D!GUFI(RGLfkV+QS!6e5A7%a8#r2t#gB9Gl
zn|cCMdfR_FGUA`nmD4AU&;*m{LyfY9n64x<h#IgD7MU=gLqaL{+XXyRWOW9kxc+$m
z0ov97gK6LZb@N5jfhfJPJpJ^i=N}~tiC@T25@MXks${FgT7Gj)2i`)?Ano2FQQk{@
z)SJxa!#lA#@)uA$dREm(w6rOAx_l7`D^u{0Qltjo{5(oM{E@1<r#{FZ5uU+sERNEK
zcDEw#6?P-0=e5UK()@ht^z@JED-J#L{L5p^FT0zYg<2Y=d~Knkv<jLv)C-;9o!AzC
z0-H0`z@-xQ3kgaFP6*=FEZA%>&S;bSt4W?66DArb1~b(&V5!$4p%otr2W#rQ14EDn
zgD2tOo)HD)BPS<R0)@o~)&kTy3?+%Mgs~E5@dDKOhpd?x-~5nJlj^S3$#I8e--b76
zgrJ4`{{AKEjNJ6myZ*s9g$Y@)WC1W=B56>e<Z}NRP^I=fynt%pV&Er&bFbbL1FDMa
zz28e013{;8&y-bJ-Vd$=$H;q<J4Kp{ZEgKT0jM~xM$}N1Ca_3Qz5{c#FneBLX97gh
zay^Q7zN`aBq$z6<gokY=yv{sClt9rZ8`rzvAtu)4G+!2uW>;~<blp}Na8vpDaRpdB
zPxr8}c#Mq9@DHpdZ$bFkZg`vNYVX@<21<5-#x%Y}>6#Q%Qx$*Rq=Iuz&)SXIC(b`?
z_O|RT;vRatV7oryi~K6q*Dl4se_CHOdgaz%YpJWEFn8QIk*2dasO-`14*`bmkmZ*z
z4gA-n<+ej>{ZE~>zf5ie>AG7Vlg=lkQp|Q7SQDHij(~~;#vJa&2<-BCfXz@(O|j{Y
zEV4U%;09RMzalA`dQ6aLVvzeD>s%aygZW8<Tf2<x_-2qG(fDYt3{GvBmbk=}zP`We
z9c=GSji#rv_%H6$tfNX(HOaRdapVGDXi<vfuTHwP8JkiUmZH}8ufBir@mWWC1rih>
zlpIjcIiK6>AsZA9;y_&pJiclGb@@;?Hj5BR%PNX>T!2aY94YL<V5cYzU64eskEAH_
zZ(mvBXwX^77iC-RGuj!bW}7H-^mtfA8XBB=i}%FFWCGvc0|f-ThTFcpVRvR3hB!@5
z1(5sa3MDv;3l@gs-uQ`qtXer)Y3*&Bg2z~Y`83nCtcrJ%73xZEBE=kUrIh-J!5llm
zvhjiyk(T<muj;5fpB@5<x~WxLT$&Afa%`xm6?$1*FFd3wDLCrE12((#C&zrG%+_0}
z-|K$6YEk5V`8yIQm~y6Scuv&wT{*=>zs_c4vVb$d6`U-MiR!%rG@m>XGjD5pg((_G
zq?Prp2`oyhPzEO0B<3D7etTL|Y%}X-Y3Shs?4%C$_CzWDd*yF_zdl-(S#-l>YA@6J
zwSs~jUz^#pn5SC>Gd!!z{PQ1MQp{rRrCF_55GmPj2?#h?W$g1hFXMY`#FN%o6}@rY
z%J{sK_v6Jm?HeKlJlubN`N=a-$Arswm3B)}KSB1sc$KOrU|PW~nvf@rbziIHai2aJ
z|D^ryWLrb^@WZ|(W|rS>8n}lK8Do{OLfeJahBS!6MT795CgXwv8_}81Z1d3EaB(oV
zve?7^T;%F^5ggKb6_k}rBTv5PqlJoMpc!iOU4}V5Ea<aU#KrviYiqVyM}AA4;g5$z
z3mgEO^kWHNmrxf$4D@(^XlflvxHS5l(Ir_5l&cPH;o?$-(6vOZISei-*Ul*zC<ow{
z-MI|lteyrfhC?xDd?fM!`z$=6u9AtRRE1>VP<rj1O-VUm0fidsXS`e1l3s2Hli3%H
z+~C}Q+zZl&GmK{khlkw;o`M-l4O10sdWInXuEw-4PL21~PW9vr*h*e*t#qKafatdF
zxFulZPP+z!A;R6$g9m;!|NZI5B@u_xbC?C0CM4_b$D<`MA~>rpqP(@vR@!2ZP<YQb
zO3bdSofm$7xK1W-^aw2NF+_$ak8u$FhPB2+ssnJkC@K+Q^HH#{>KmM2y^7cd7W6k`
z-LbT&T5b2ZErzN{xy{urhZ|mR8pAuO8pVs?Hp@1Dl&&PUJw!++JWNcDmm3t-EALo}
zBFXv3N}3Mj1wbtNUw(YBjZTBGI@Jklm!`ijT3rBfv(xvCFV=d}!$lj}`XPemDRrr2
zMa6)5)OK9J48zO0?}}tZG!Xih^Pgmwpeg#H*4J0lhjj+}Ca~w<;}&G^e+G|o@Brpj
zJ3v>XD2}*J;euS23h{Y_E>caP&4r6rPJn=wbT8LG+XBo3l5RF?!!!l+s)E}>%2z1V
zG{yS5J<LGEBUNZj&NO_K=-Pqru%INcV+v>3>IzIc+{O2$`6kGUA1I_4vS<?Oe+afg
z>`<Rt!Rf%CZSq6U{k}1py92JS7M!cZ)-esAIxzRVJiOC<f@oZfM*NCMupUx*!u-5|
zQiE$4ujd+UulB4rDKMMjS9~5PwwFMM)Y0``ET#fYU$)ufv<4)U57z+6U?bRfDK53=
zMS_?|QU89q3XG8F3aR>^t9A?(20vdxFGIGfc(m%z9-NK1N!oPM=w_=HGA8ZL@iP42
z4HygZ0<_KPkLud)lGUZIYJSG&NPY?u9|gbz`>faKDlNVU=D!RCku9>v03({Vd46Lv
z!;=Z^pn}ueo4wojG{`u9pg(<zas`&STljt(DwVB)&vo_aBs_GkeiJ@lr3P;7z!AAJ
zgv%>OhYN69fDZK|A4)Yy+6yM>0S%csD#h#AY;uqtvCoc`4Kn+O`1~v0w4*cDS>MGb
zw*;cs*Oj+`;Zxdd20@!Uc_0~s=lQlpB#K44OA>b|eA>g1O4YBD#u=bv{1tr-6rAKM
zQ9LufDtW&qOC5lF*T358TQ~lW3F}opuB*RO0PcIBl$`2MWci_uibHAp(ylu32M{Qh
zq=O$aghsLnnpm++E<p-VZAur6fLeX8=F8!b09?Jx-+>^V2z>uvovcBpb`6xQu0z1x
zysrWY1~qfFQ*<o6UQefr6i|gHJ?&sI!DA*sc+yBT|4#^zWUSBePlLuzFVhJAsAs_o
zzkx*nZ}su?JC8%&<^l_qv=03!e;(C)juOl*Nw^BLL;GkWH>N@5BQQ<X?_3>%Eu-Eh
zbuUEn?_<mw)2}tTeaxb?`08wN22po~5QxFfu4<*aD{{g*JyZgt2op|c_e+?DI{bMo
zi>eMle7X*>!(dzot(-ZXe*uXZa|<BuW7+&z^{J{O0ebinP<w49oWlJt!Ppemw`V;f
zb37v4F~*Z%W03p~={K+P865G*wimpYqTvJ1`fcFCaqbQW&$&N{$1tn)+nqMLKpuA~
zSVF6%e;YkB(*a1radug`=h#hZF$HW#YvJ$*dKU?c8X_{K)Pfp`p%2>@wF)7<8v_rT
z++!YPnZI*HHGGfo5NJz>-5ImU>A*@VTagffXr1o<pa@t#sSmilK@A4ztWyS}V<)VG
zM?3qBu8M+3t?XXFox4=sn?a`#%8H5#T}nI%7&8=d0-jjoQ^RARI5=CD`yzZaA~7@-
zD27IdGLN}>-0CR008bbFHIg0h16bBdl(cal_@5$8qMCKg^Mno2bdz8il7~3zlXe(|
zQ2Z2jsF^k&I%`9Xl+ay=ybf<n`q6eF^N)ve2O%RdmimaU_vH38<US|+Juzf!K|kdl
z;;+}Zl#jd7Z#X5P%Hc3?hrGo^=dirG8hnZY)@u+_qO%c``kI5uBT#4?01ZkHJD&Ie
ziTpzztyXw$h&bg1NVY3-4yUZ#4!lbZHHRh30u}XwxL0l|1icA&*Du7c6m{(le1t{i
zVZt=%#nW?!uMa^nRtaJvDqB_j4u)^E{o9pZ&WHM~qf~C8xfl}CNZtv81fVRTK`ffc
zL8gk*d5?_|5Pdp_S1)MAO~T=lASGP=eXyAcNT7sQDr-0FcasUk+-<tQffMXYpe#80
z<gKMa9Zo{WSpW$N&Er-7I^cEekXmk$aqoeO-=g`6)t_Prtp^9jXBff#VeyJQPSVMB
zL=WnbI>aJ~*&=a?k%vMk-xL(3wZNO>-KWQskBsg^Q=xLNvG?Vd8gg&Z){|9;Yl4CV
znW3Sv3B)U5zr6zpnMt&;D5Y08#?@wv_dlYkyCLQ>mc}&4JW0~-4%1$n($t+^o(b3D
zm`(K)0WcjV5zP{{5fT~=4wLs_MaT!Q%ab5yg22=Lj1^~RXDo&(%*vC%H)oxZ5TdhZ
z^novI!C4a&o|X58#sVQ2=;&H6re9&<1+p&sjR0Tc$HC=m(J91vjKEOIAg@4)EOiet
z_hWtvG!CQS48gmBX}GR<iLmXbCfH<LIc5Z2`5eX0;(YDIFKw5^Nzg`N{yDk;K3dli
z6_<%K#U~b*mCy0If$Hxww@H`-vtu;T6`B`yn7LE?xgW|T<~cRYkOr%hJMxW@id!*q
zNmamdX0hYE$@j1Bxs;KZ5cYO_CCV3b{PcuB{V~}crJpuQVhh4Vd-!#!GT0#@u!7jX
zn;ua+THkD16+G7TX;F9e@%-nd<(h7YpjeC)2wcX(DaTeIM2su=tnHF$O4cvLOPioQ
zw{cEajJP)bQqAOhkJDgTd~!RcJ~7kwDwe2<^}aV##0d6raF8xqOBCqL_#N&hC>}^J
zMvVfS1l=l1S7sB6Dvd6J$(?x=eU<jT#y#OvJPFipbbP*c+6nxku&J}B@$Nwa+4xX<
zT;X<Wf}7eqNcbiUtU)lsNK#m<3Rq@UdI_#WNK153J6vlCCJDX-hBuM7kz(e++UL4N
z#TkrZa*E{@im|pyU_xVxoUL0I)hEU$Q-QzN#Op9WM@q;U&c)7A6=l@_%xN8W<=zqt
zl(3Cwg1<Wgl`iN&#=Y?GlC^*h`RdT}X-Va$H?Yrau*XVx1qz6mNuP0$&`vu-JOgXr
z@*S4A<rCX33(W?{y!?`2oP!$+wIfp34(0`KT%*7{`d|nt8b7rKN;Xbd;IuvA7?^KX
zW+*2cr@ef$@aZ|D8<R`+NRpJcmyvet_P6!y)+}FyHkKr)ORS9FjY)wh8j(8ywsd8s
zi)-p99|c6ey;F*AzKMRhNMxjeB`D7%({eAVK=SI|te5PlNR?DCVlY91-3;v#!=4qD
z173G<yD~r4W2g`P49U*@aK3s9PS&@4gu_TP5(uY#^!u@)jDc^OKn)qxE^L|kDqz2(
zG)s&LWfIpGuLKF?gJSlvp&Q82A9bC=p;)I$+GB3l6p-OZhO(Z{!#Nilf~+~dqs5&a
zwLC=grQYk}h${}dTrR%xTpgC+m;BH7lMEr_*#DO8he*N%&z<|FXyf#VP&LWshn&)Z
z_wXZ6e?exaD1Sj~l0S03QfxtNLWgJOK$)^S^*nZ}(bJ?pnNGZ;4<VO;-sPw96qm>D
z&RWz;l-1VpPhY(&YPFWgiGxoAtQdVkk+`-p=%?pc8<?4W6nM&LwW4?*?9C@t1N)x)
z;i`!t%4~JTO6($HAs0KwSsR&Q9lRN_xQOvrtdNhB&#8*fBE-Qs`9>wKuLKgaCZi-T
z+phyDvdPAAM27IPg|F^7-KdUPalh|;>?ugT)E9oA;^}LqDHI9sMnhTBCb7B)p2B#7
zV%kdqzrvl2A+q#=sbx86=#p}lVOlse%(@0g=`HZs)Dn#LR2V*u0ctSwkQP|Jsjos2
z?sDJ=Dj2&fj=05@$p78!W!2y<l5(6aj8Re@bkF$7968}cSKssRW<exU^wl|cv=17q
z`f^N^3lhMaXhT5j`9zcOA)#$66pyW^2Dp}ZY+}ts7G{JrpFErm&Jp&$g4RAZm79tU
zjbBZL^5C-LJzIJv#i;tTFQSdri`k++b@SsMYZxi9Ad)PrJUbc|ZzMqnLN@9e4S<0h
zX;{2<6fV}{!<XMKp5_*ZFpRc1^2bT3p>~r--ch9~MOz|-a2TV{6M%^AlA!pHYSC0&
zEy~bb6^<oBBR@Km{p_bpUgh)Ll!D}*LLi#N<+?kK{;6wpCa}75KXS^*@#5GekMlv?
zBWo8yBZ>Qalk!C?W{i#h);dP%bzWWl@kGS)TC<q|0gs6n@e`-|5yj(fX(e6!${24c
zoG;wuCrh>a_lKV0-9tf7o-H?#@K{+cSyFt%fk-572;A-LP7M0Ifs1D<Z!xTz$jRE6
zPQieghR)J*{E{S-Z-p=ZKEw+J5yUgVG&s{#E2~Y7mddRxw9wW!h@f%ComBBNqO}c_
z?N-6NhoiF)M`|Z0ne_+_lnm<#G!##|WD$DcrQ&CO=kFR?8h16TAO79OYP|D3jl;$w
zD*s_u^m^|*KVCr>^2yd%C*_5yv>I~$!X(`%=Y5RPBuQlEfIAt4PgG&pZ~u8OIv<Ea
zIpQew+u2-I?Ld1C=H9t3RFvDz6zbQzh4ENEqy77L{i~fN5^EJuGtK|_u|Ch#TSDq_
z2@hCd{nCr$LN8|%ITXWn(3dEM0yIS9@H7#^7^`UT{@JjDKl_E#E($R}3J4MjH)Sm?
zP%5AR|2BrlXH~0tGSgen^-802;F)S%l5CC~8UEiL$-nyk0w%<Hznn2{D|Y>+DR@_A
zV#Nm<bkPH3c$beDQjmb@qE`El&Ej9HpE=I=v_Q7Ucu7Rv6t(4Ii)9wnGCQ$IIAsIT
zbHmtE?gEW)ux&Jl_A<LhGOGc9V?wxRm#R*uzfn1TobCUA1bSaP|6}3z+3k&5>guTQ
znaQ=chtj{Atb?odggc%-F0pvInm1h)qhI|Td#(dy#^|W(sS41ld`3UonIF8H*`y;c
z$O6mDV&8(J0l$5TN)Z^ks}bMGg0Wsj8#SN7R1HmspU4A4vbEFCv}U%=inf!dBZ_sd
zZD$+I=o+mTRZoC{K?C|_JPQp=Iaar#aICEiHe~ja%$-4=h5Q-CBejI2tZ1;p{|TMQ
z68Q~AMp9>*hnux`%DEo;P)5G|wfAlPg>*MQ8Nbj1kM-=>JKKtEmmi$N^W^)LPfFvh
zTz-A8wEC7mElp-eSQ`x$a3ty*7^vLd-iAt5=^-!UZ@BGgr+FL1)Lj;BVT(VRud6E(
zI__fiu$@vM6S0v}(=$U?(>zsK9?Wz66#K`A=Ev8rG><A0`u0W6?B(s%1_@c>WamLL
zTZQz?*R>5_XSAiSk1LyxTkeAk@N^iMG}re2(ap2yn{jf4x-c^#uxm`^b@X<pLgN`o
zqF`1{hPBo$1(U&N^RlmZgGPJR+3-Ec`Sw$#r~A|ZA9T4Aqe}|<(-=_m_dRvpPC43_
zd!p7Y4sis8T7r1B;mEX855*3MZ?7I494E`bctY&Sw-U)+>~niF(df3fQDS{P?eV<K
zx|;#Dx+uw{ZLxJ>{R>-#au0jeXngWa=QPmuRCw}c<nyOal$+_zwn!k&7Cj@F^&05@
z?)-kM>W|O=l}>a6HEuKBDxX;yK0eNFyWMlZ>P!7+{rb5r9tRtpd%R^w#jPDnd(z2@
znYN8~E!kiDtnGi)%+J_+{j__Tp*a~Xyl+Z&{=?0+Qz_jRz$S9f4L~x%Uo#p&z2vcx
z9a0Qjx$sfG7Ii7y7SVcuFzuQMBI*8ebIkGA%uo=}%Y9(E4d`4R<4!ai5RzZsqos~;
z!EZmu*ZA|D&HElXFe@Bn`j1ljTsgr<l)caX034rdGwBbX=R=CB#~+gtLYQJpi;T`>
zj&u!uWASL^r81>{$4LtxA$%E;>5sQEhKSy`YiWM6GcoXJ>q%KvYp&7!X@~7@?cQvm
zJ9qKy_n2vmfp=3n9w4>!IC=URZ@O76)`s2lmJ0)1#If=FyPkF2#Ppbs?Sbe@?mfB2
z0HCS8$2&K2akRN2hywuPX7TTazF_tT4t%1i3k~gdXHg)78W-a0jgdA^&qYN)mD8~g
z&-AWYv`SvjGR2hp?&#<A3*1cutjU}pj)6T0p0Fpg^CW?oHI1Br27I+<?dQ*nuTBQw
z+_hLAbp#Hi8Mwz7Zgh+y<?hb#xj7f_fwQuJ%fw6r=vLbaK<?^qNNmyOp-8fIcHKi;
ztX-rGoJod|Hz0@4Zfo47zonE+nPlrd@ZkatriHXmVa}rBk`Obrt4RF+ZN9WBPRLD2
zT~EJ+6V^oFZ=0PP_)IyR-e!J&!8uEOD?H=;^mUDs^3^xZuc_vCCqmu9F{y?^Pu<FF
zD7}ApLvEAPy;`Fu>_RAA$6Dh*)9WJu2ce51@VbqYQg~j%fskeZ4Bh0yy|KXIdpQl_
zOwF`(oq{NwduiB7x`703JMI~~(;5h0mcBd~;MjpD{b%l%r3kuLP=HCkL#=Jya45$i
z0)PNxiDG>s8(9I{;C{ZAjs{Z?e!wRwtpD(%S%UWxYiH|#Vz2Z8)K(4X%x8m0^fziu
zR<k(3|E+)*Yc&JxjZ+{L9V1%qry|HC)}sKHZF4cFnXT_d$v?oj2)MwZF_!pZt67TE
z7TVV92qtMX#=v|jOqR7TK$^(#Sx%5XS0{XEp(~gJ^0XxKv<-D~osoah*YJFrIw5!;
z%)PaPyVs|0Z%)66yQm+bI)t`D#FQ{@Np@vkXJU~UJq3sTA3*LW#>MB)P2Wt0t3UCJ
z`}M(lHhL(H*6l{&Wwm4UXLR$4!(`U7_fh_9gq2$}BcmO*JF^BeBFZ~9CJ(NxP#2CO
zg)RmoZeV!^v$YO;2i#dHxhgAmWdPvfTWbPTe+gyeJ*ci>F|`lMogv{%TQMRtjsIi;
zba3tijr}Zu9c+Q?_cLa;<zz{^9YtW?V!D{SxCk054c00!!@JBwzz~3HxWOIHBwPYq
z?K1$%CaP_;PBWZW`z`0{%9nKf$`|2T0c^E%W5;WsYv-Ni1zczX^Iz}IP1|*d9s)9I
z3K+rHu^tFZ_YkrE%mfo|$Kmn^tt}8VT?6NM^?j~gX03}p>oVQjfm<JkHo*Ht0!K>q
zGWmUl%QNZoz)Ffaq;E^}FTVvq)exkOk7wF6Uc9+Ab`)qEz(bzYWyfg}=hRh6a(xQ`
z;JWfy7GyfS?i8>Fzuo82&8*E+`LK3nl>GI6JuG@T5@)`{fA<J0`faG_Bjmc;gjJ6;
zh4e&??ptB#fUDUtU8?K;+%jdntx}HZmV#93+CZ{E=_7BPLZlw`$a=x8)?B=#EBnA#
z+8>thf0zesXtGSL#>f9`#-b0=@;;#G(D4o3jwI(q(}qAXLuc`dna0kW8vS80!4o+>
zewr2mnr-W1Nf~;>6U9Td6PM(6-z>hC-?kh@M?tvf&DnI#A$L4OrQY@v*w%r2lD@PE
zkCDYGWSRw=Y!Q5ptCLK2YpvyIJL$tIUs^xo-FSxw1v5MC1ip@Vfm(vtXl|_%eotXp
zi!`qRDEVsEC>$YRgaGhvG&m4daLMbDh)`a`DQb5{BZ9z}e+3K);YO?Be<CSPT2Ay4
z7vpRyi+T#?UhhTn1{zSqhZ6rH+e0@Z1*1KF5oGQw7zsjq99g9ykzzO6{m`~4zuG`8
zY~WG)8A-~y@6Q{)5HopqXDLxFRlH)*l)yYG&(<vZ6LWQxQ_)B>wbD9g{)dAbf{&>f
zKO(u<w{?h1otoalOxsh?I2=~j8aqxl49py9>z$kyG}@;judEn61y2WoMxd@!qb=A&
z_0gnm7z;-m!h0F2v5*jo`T%|C5{d;{_qWJP)-R|;43KD`TbZo;>Xa^BTFLM%sgvy%
zEO)*bz7otx*nZ%`tYb6u9xb^W*ggduB%ra+!xv<|WmeG73-vwsrFgAiz_-X3Bh=1(
zeTuNxq5Va1f9r6zCx*%ZccRyUfBo-*R^=Rd<Wqo5qf6i8=llaJ=J)}mUDY-dLXjUn
zSnwf9xqeHspB?Knv7HDRo-N!Ld6B%0RW#{B(0J6@!n1w3@VT!)#!hrN-EOX8twwI0
z{UmeI@9tj6av-YS0e!5(A)Mg!0jiw}VB!7dj+({9T@=$Jq0Onw881G)jJ$`@PNu>R
z#cc+Bjjk{nrNX`-jKvAID3kN7U8ZKr7;`-p@1DstKo2qB9oEx94Kat?m!n!!<Y}1*
z;q!(C0^jV@wmA|I3rgWeK8{=hxzBF(Y_J3vB`)~@62o0W4hT!mieWJ<qRVBeJ?Lgc
zd|(hiKR!O*B#bf`6PtCN7eWn70H9(9R()2)k{^v+#vKe~3{ri8C7Y+`_pQC<%x}3=
zS}g&g;C61siD4|-nakp-OgoIpudn8wSz;AffBH6!N${IKsR?~8-WMWBx@sYM{o#Nu
z2e8yUJYSWil`IhqT9CZ($B$VO$bfltS8wcHCq&GzUzdyAUR83pa|?T?aatbE_B%*u
zr&t<ZLBF~iA+}?7d$yzFMZSWv8Q(GTP~VsZdCbchNSsY{S3egK!tgS_m&mg~x>6pu
z(#7sk&j$nZs;-}EbJg({-+wAxpt<YKyH6OQE`)pti@llVPU8BxN1r72V>3k(@f-v$
z?7-G4KO00mn6Ua-qAB9|?b`E(w(+LD@ty`OouZ~D*e|B1-_X@;t5DbDtoU2;_g}Y_
zWyX8V;a3t<2;A&UGWyV|r%QnZAa9iN70!8}FU%K0Oxc8HC+hywkLfKeD=2RG;KMku
zBXF;mw{275^aVbp27{KIaP$I$R5&UvMv;@3Ts<xO!H&90nKZRdU}p~?;H4b&1(V0r
zR3W?yRo3786F+{@Px*e(jnn-ViLo+vuwiLwDaZuyrc9STA~#FCq{Y1fc*K;jMFs5$
zpOLi}%h~Z)#QL!N`~F7AbW*@ic9k#h)rHn(z&A)YM??Cs{c)U!G6c`xzs)5O4vX5m
z+%HK6Zb!mEvHEnM+W<y{Nns;RT^Y}iI{h=s?AWq*I0s|TIQYAQ4s?eD-<+2*C*U}j
za!N#uVx!PA7e{xv4Y0&|hM+gMkMwP`?HH3U3c$5GPo*BH`kd{mGG>TF7&{(0ugZQ@
zIo}Ie2wAF<i+_M}8kHgBF#|CEt)@Ph{(*m+|5NxpwJ#5MSt2*Nxx0=~*y-EX8Y3Qs
zId3P*6KY2m!_2ptq9KWkazd;DSU5gkvQ!CGcFVU{ZhEdw0`BoJjb&<^{PfI1b2eCP
z@iSapYmv`1k(28VNKX4QQ4k^QNR{IQ%iEiKmBQZx_06(;)dCTrw0Q4!k-VYH*l+@&
zJLQ?7_v4y3ySbk$gjL0~0=*CO5Q9?g99{;$4R3Lx`dJIXK}hQU2^IVW!CCijd9xzq
z$tR<`r(2um(BdwJZ(Sl+La}Egb6JiY@F=+4Qr4ijLYD(Vb+yO!g^WHi`aYx}{?$8$
zbU_Z7P$*+$)UPhGhfFe|cPE{vAlM#)+?=tnODTK$NKNRJ<5wl@$P?YmtKg2<Unq3<
z-lMy9_I5q_>c)6M5k1LkNAjO0j>!OV^D6dZzpR+nz8YUykL$@E=CJmu+i0rmKv!EK
zWt+i#WSHw(x1H^;VE!RlvGX6imbO|oHg@aCK2h9bY#ct-D9_$%UpBaGk3>E}*&RuU
zVhl8cEyl1s#F<CK$zOf5C<gfuID*m6!D*=yd>tr54rmXqqO~QICBI=z9IHCMTy^Te
zB)GMC*Kb?|_tD{Wz9QMj*2C6kRF)B^<$<X5lo?Hpe3eo_Ta$b^-#hr)HBURFegs!n
zBlXFOSTSg8cM-5+@B>l#DZ9@kIP*DQ5-N?!v7?*2xQpVjh?8TIVUg)l3EnxlLvifC
z*suwLbWFB>m~(l;L=`FYd&$}*xVgh2(a<}mIOR+P(D*<UEi209=B&rqK>qd6!22b$
z!3ya^wP|U)!iX}Oz|Lyj4kkM$e5AWrj&hbxv)E*%OcAHplep4Y$fXRzuPCy|jT8)%
zAYyH;)P8DVV}9+yS;g5?j%<}xoM!F)kt|1U{3S9R3HzDnEwJ>?-oEC+5Ke|I9PV|`
zTT+f)*ph}bntS+~M!S%I>_ZNwTc$dQS-U@N5Z;5-GxuE$rpCdnl}~=+gF-Q`b(w8Q
zV*5b^^JIa>qcsaXr`VK{C@A<+<CqI}-R)iho_vtd>+6Z+r6&_9s`odMo;{?S!#UrT
ziORHJU$~_gpd6w&)piJ6@)r9scWBgB-Ni44_rWW2Y%YRn{j$SjSa`HP+HGglY&Tgy
zEJQ#$u)vUYsim(vJZ^U{jcLr2ku!xFva!MO#YPv&lLO|T`{hQrE#wzL0O1$K$Y~#$
zv#%Yo385T2DyZw33sRBW8K{>z;yNt^`n~mdzb>Wt1sOOMoH#-(&Q4?Y(7wp%23)!B
zH~PP2NK)aMfWR?W3|RYOyS2eMDrTTfddtz?!UCyN-Kk@<q2%)Pofr&<@%2g^)v)g*
zcK^jB3LuE{Ja~d``5&vK2uD5#g!tmo$q-#pyxQJBX<bD9(V_FB6|z6^{`};!;#iJ%
zv-RC#n~R2b#^-xC9u~XeX^Ckvy7F_=HI5(M4eJ3}q$kLUv%$nO_;epP6yc6p7-}t<
zzv(*wlX$gxH<8M|AbmE~gG62FAb3Rwkxcn?)K6FnA)eYrkwCzy98?)Y#UdFOYgeFL
z%xMpUJhqIDpzDVD;RQ}l1FbZ5HYPJm1kABNau1ZuTa^8(KbxHbG^AvS<$VeW0<f+Z
z{k~%292}wR3le%5J;A4}n;tF?tSB=^y&GIm789b<-@XJ!AiZAVSxVK^Zuj5k!tAL(
z;Acts(7{PSY@TGa7!+~_Q~|l6*`0eF12$8#ey7NQUE&B|#<x%Uu=DOsG4D)vucKX7
zY!+uuN_N(v9@e_S(tX(7yL%18F72l{42USmQo++o98kS1?L{lUipb?YDtUAtrZA?Z
zKBlu4CH-^nT+dOQmX3KQ(o&JCps~JcWrIyEZP><Q1|d;`>jG~AYl)l4^W6b84vfe0
z8WrL?f@o+x?Y*+;Ovw=9CN*@M6O&NGns=m5KEf*F5Z)`kq*tMinWEWUXkAXw(5$IS
zHs<~ALH?rw;aB9rK`<}c7dV;mq&WS}r(=td?mMse9Cr){#SMp=(Ez)8=VIlad0?Zv
zauOI+sDXb)@N33|O1|Zbj4@vrk$4-AAPeW*DCM=Nr_ToJ%F@hYObaJ*Q&^KR1rOzt
zm9J6MHPewUHv`@f%c*hX{Ug*;!39R|p0f_^);;pOmXJ3~9z%RN;_0^QjbT~@3wvdL
z<hgiXzUt1754&t#etohv`#~sDzMM~bHg8Wi-V?QcqPY!q7`r9yDDhWR`55sjtv3rl
z$qjG3P5Oe(f3-lO->G8{G(<Q(p&TfbkD+L{AeD-2aO4<Ux5l96SH42+C?@d?sa*hS
z_=O7_oyxeoij#D>=qH_)H&I?qhUH!jrk|?!YN99zd)WBGW2Q9{ToYap5>vit8e192
zsakROO=H6#!1=5X9f=xxz(v+65#^@Xbx5Ndj4HE*fr-<->Sic_b18^RBZzxQEg34K
z4(&CqiED6gHM#pF1L2bdCmqSIL{$mQ0t*`q9DJ>?p*7z14z(3zqSAPVdJH2yV#$V$
z3`)?2f6yvqYE}450(nFb;@sN7YL+{fDrez>Yks-mqs_;76~ypP0jG<4nk(d&+|TPQ
z!!R}acbo)BL6L-gxC*+#d$ir*8w#wGi6rKss%NR2lILqJer?p`g+W~YHUklvLOmlr
z$K71|57*wTdXTurpZ0XUS-V+53A&eypf9Xj#PpJhd;cP!h~MNen3s^YpOG#S-GPBn
z%zU7pF$e`Eh6^gi+{6J``>xX-GU}z(p0Jz^i?^RbF3A@39A2Xj8(y9=#lG)x98=iU
zcyF*5hFhxaEr3DKJ;RhaN7cc-+@f&wBz500=46eJ5(Sc5K+@eah3i1R_@bkr)g{#U
zYcuwWy;Z5uRMz5(QLy7Z!^p6V=R*jCbxNFLS&$COB{$zo^7U|UT1N}AZiYbD_HYmA
z90YH}M-I94KA7*yb=SLcllO}c+Riz-g3&M$2-veba)E{WvDm&25JDH)*B4!k<{HE_
z>4*>8<5&=Cd5%Wudu9HnBaCC1MW5g*|H1=Nu=(r~A@iJqf*5M&s0bs=48^&Oz(hE<
z+tBzAdysX7UN?nEnQ|Rq$DAga?IkRm;4<^+<5bnBZ*u_$z7a9iNW`q=%3rSL=Pzz>
zZ14vi$CZ^U=N1v{Rbh+V484lwPU}(IzPo8Nlppn;=j_6=h=+s5wK@aRmH9Sn8Qye3
zRPQfkbF<#~i8QfYQQq8Svotjq@43ff^_(W<2~+BxvnWB!c5%5xC1ct~RCQA~xQO=8
zms<mjWg|^f=N)NGq^5@uG04KP`%|<ERaiSP$g`25Y)i}0?a{_Vrw9Qbc^$I|v-8}S
z-bG-@-_=)wie;s!P<7XDxV>FzcR7!JP%|onkDN2eofb7Z$T$`8or+K{5~9BmpcQ^y
zqg@KPNHkA0?yz~Edd3w>WdnKI@;b?w9w^>!r3e*-T;)I|uQ>#9g-#jqRPzS5dSI7T
zr6xSBW4X2N?XOC(mUgKB{;UQ+QG)cizlEdcc$uLI2kFi^C8zr0S^zI1zw4DtKi7x)
z6P0|fo3k6|FPY?!ug%U%R4T3frDbak`K-bECERr*BnPgJc2GL(1&R`@OjJY(8ST`Q
zo%8af)kIf563+c#r;DFazt%H-ytB9Xd^|a>PE$_Hy&a7F{MyKBJ6wnhVS6|bTh0j@
zqYm`UdQGk=sZ3SQGH%z~G}0I(X^h<`f&NbVAQnlkFzTVF!{*;4MwT@$HHBnbhelyz
zXUF$UzjoNvigKL@C3Yn@Qc#oLv&(gqo|#HzJqN8H-X+J4tI*lQRpFX%cpfiHuRUJ4
z1}qwV@}Qb6IBZ~D__Uk6Rm6uVh|DOk^1`Y4#ey2&pvm>b@gAqPth~~lF2Ct#`sj4V
z6NFu8DEM^#nOyni<`SyiDvnL-Sd~RgvE&_~Izbb*rPg<F3}ZAvk=F`obqrn(eMCV-
z$Y|d9DQ&WBOsPWBeCnYD6xr@MyS|UgV^vDkGhFlB=5@qO(&tkifp%zXRv~39TOk^N
zqMbHw;T;`8OL$0?UtW?Qcl!)V=>j#Q{P`Ydh-mJrzTIp7lp+A<^7_23&Tou_2k|VU
zlZ^XP)s~CU5aR2^9N1!{vhV-4HAE(BF<2s4<%Mdv>d7Y3I*}Bgr%<=RWXp|qspGy8
z)pidWBC0ckqqmWwFnXj#;Nv#@Y(0m9R?*h#fm5Vh6mf$Mk)G!`Jtl)p5r&*?b&^zQ
zeX#5(2qi>@wS#hpOL%X(ZK|Nh<LBAahceoz1M#$u-HXH}@p~a(=Fe}qGO*iRNS<*{
zIi|<1cl(s`-7SIg5i{z3)ZK$T+~8i|=P1MWS)U@gZaJ^`haLcm=qDrfqRm#mFwG(<
z6cvkOkT#0!vhv=g%R9w)wS!yV`)Y<Lc&gGHZH+Ho_iUrciZSD5XH8|E*(7`F)|48Q
zYQ)^3VT+rQx`TqYf;@no0r-uf+;!l;cr7o8K_dTb+>HDKIZE`%ooEIU#2#E)UuUH$
z(c<Y@P91YCRe#kiRdH2GV+x5ukv`*3Y2MI1?29O;#MM&UT)k5D2U|F18!Q+^(#d5c
z#71nkhZ!_2Uzik`B32X82U@AsBXsl<xE4xb-qA|}L^irh&SCQ%nTetq(B&{hWkeC~
zuV+R9Z75w+EU{3f*pOgH^6mf<j3uI`kmuUVQK^rrqC9*aC(E3j#kE*Wq`!({L|ack
z^lJ;3>|yF(Iuzp{3Oc>N$QynWa*rr%$fc=eNk}XumL!sa-c{0Q{arVvpX*{!ThuSo
zVVWilPQwu#WF(Zkv`{)|hY>P708r088i&!yB}o1Zr;n|^W--_gx0D7;OZR1<g0uv(
z*YSJq_QE=Q2&R$R5i0s*SP!k>VhmpF|FLxzP*H7r7?<u22arw)>5y(vkOn~-q#LB9
zq$MOIlul{smKZ>~k<I}`R6rV}-=6#4y;tvjYq^%gVmLFiXP<NS{{O%4_jz2Fh$eOm
zt-0wqQ<>a4)a^W@%el9l^4VccJkTYug{a?4B91du`z36YdglHp!)Mzy@vb^WYA$rs
zqW!Qpx_;vVe-$7i>G4IA_2<niunm14wzrW?e24c5^yl~%>iu{x%uh5fo=*T+`WIC@
zqQ-`McvO*|^LBzFSJa#HO!|)6v{&l%bZX<sZy#(TGzp+Dql;%|&Z$`nsxu@US4ydW
zfk@-FeDHQz^c7*DUOpC`=1$BDFfzq?)1mZ2f|y<6aQIsGs>3b#{Iz;!r$f>gv6}Du
z#2;QyhTlfy9X6Uf>di&Zt<8aj_m29XxZLUe>9!SHI`lYEbvB$R))lwO<L!7aSI9*`
z^=q&})(_|GRTi5;73EgJug7N#f6Ym~m2?>BsW|(Uu++e&VO*gNYmZe$=*E{iYA_>c
z6@67C3$x>EU=Go`*-^8ymc;g1+r_T1Jn0RUOtK)RY4+2Ig{Ql!5%ZJce+||I5zI3U
z16tb~4n}KY)o)<9lx|UuipQC9Ln=HRxHeMtd5I%Uk{P^&E02Uj-+aNME<L4FBSN2K
zl978PWUTFgy(qG8X+rv>I`dW-ov4%=U*1FZ91=!;t+EQeU0WoC*M4TY`}gH+yWaB4
z|L<jsN|4`jnQ4?6$VlV{TYbr`jiAhP|5gL91WyVe4lyZoS=v$r>#kdnrjH?84(4U@
zH69k)>PYA;%<EiXz#gm-z16uHw?_V7Ye20PgX<gdEGs+F4CeJql%)T)bS2#xV27fz
z7cl@(h?c8$bYGb!eVez%aQCmC7;EOOdJKjP$VO4AeYd9qN8~@+!GHWXX^A+?q*##h
z0Q)62N!^*o*sNT(FS@f+{G=n|xkK^Nrg7e1r2%{p7$F(%oI`zw#a!;eelZY3OR^)H
zuFL-PE32N@`GDSMt^Q%8LH-vl{5x8hrUpPF>kQ`Q@*%rNgTJ6fT;}Sq`zaQBxhakI
zRpu1~42Q7Ab=e!Iy&^t%I{R-?i6pXyG<375PgzNma5xcPn~_c}3d2hVx#H3#cz^e*
zjVn`kq4VOn?HqqEEW$aq)g|b$6Umz@I%UPb#{eA7j9_mxCNPJtPwNlCK%fTUo;;dS
z7b+&<@d0yj1~Qz{bLsNPD>yWor0(#^SkYetC`+S<Xw;y%DW&m8x6FbTiqn1LqS`+&
z@H#%1UD6I(1u1UCZKS%aTMh8Ch3@eo|2gsCVgy$j0P{v1jdXYUxG@%1LJSlTjL2$|
zDfdD5-4hivAh?*ZYldqbA0`Yn>2P0dbyy>wvi#)$2n5bV1}5l)T4hSln3&*`0f_wl
z3)0tHa_D$@Yx1Xxd~ukd$1ofcY+m2tNtmgf^{>sOcQi0&(WD18#Cy+Pf>Ad`G&&m^
z1i)nJ(DBK0)yr9D!=HBf(?|rjetAhi+4i!Oo$!8nM7@?gjSK$`OBjGw4|r>0=Ravq
z+X~u}`Mq%%fo_s!(u!wQwD*G~0(b0>Gw-DWltSdnuEllUNCe~OR%iRP3MP5opN$YO
z>m*%}bu)<zBabdGTh<0_+u^@rkdutG)_7}cNNaez?nj~>^zYB2#srk%WDk8GGX)9j
z{<(1dweg!hgzVes+#I0!g<Lxj9R591w%*|rzw;={mhxCLg5qE1{p54R5PzB!CmagL
z!lSKH<*T~u*Z8*xihL10TY0D4*MM$c+uw>c2d%4@qrM`zT~<SXj=?O~@9%d*gUBEJ
zB5QHrj)>#yXkz~LbX#J$_`)O~R#9?y4T6V?a@8!vmAPH5m*;A+xVv11v5?KF{Yte7
zQGMgrqtr#dF#alo!D>5YGh-r`Z3|{4=JRj`1Wa#l3Y6E3f%~_}s9JEFvXz=n*)pY&
znT~RDfkd17;^^WzLzL3SucwJ@_9U{eZKOK_&AW1@Gb9jF0f$c2n{{LA1CDhEb=KU7
zKU~VP!+?+Lxrgbx;MVR!MVch{kqi~lLTtO^g_T@McSFMW=Yvm-kJ1zC#3_I8OZMX{
zDuFx_KHFIu-NI)MO`!oMF961#*NH5`Bf9?Z@NkJbf)_}b+3D%&pD4qd^0r(Eq9kuy
z6>NIB#(2@IB-ML91wB4_obP3h;V>cKm&@rTlK-SdD!arh?&p5!sEqbj+HRiF-zOe8
z0x1Gunh^!QyIF7S8XQ)va@EcpHmsc><uG<o(kbUSYIrvFL|+C^I*8kRsziIFl3>29
z0gP|m3rV3e#BPXOiUS0Pi%=^O=*nv&5Ky`vGzJuJW4ZHAm#|!mYIV02tN!|J@Fz(2
z$m4Jv-Z-|epi+%9Z}ebB6W<oE>+2ashmq7P2&KB$4Bz{aU?C=KL6Q@Nh8pA<3ba7k
zC*azHAz?;raosW#xME~fp-wN?NO`VK6-0|HBd5)$qm`_n<n64J@#~9C1xp4W);ApK
zbBc*<$YXW_WZ0m)d?e%GaB>-!KDn1x*$`d}YtZTCu-?;?!AX9X2c~6e%aM&<wKB-I
z?14p6FPyQk(Kk5uqlq^*9<27tTzP4Oelc1YrV(3EfHp<@IsGqvWwm`|Or0x5B_%)c
zN4o@p%yJ&nPZr7?nx{rpY8-^~7hby9*^jK%37GqHeT8I_ni5YYD7Qrd4Yh=?Zq6w{
zeAnd2gp<zeWKzS)W(t(<iEx87fNPhAJc>^<2aca<(3j8eNvW(JQ^6KJS_LMHTJY3a
zfTFemU~=3f-J6q=((-CRCN;kbd+6^8)b+YI*H`ZW7!bqf0M4@pdmBf14Xx94Ue6sP
z`;w_<+e*$$bL@6|r`%gzZ;HFtgS_Ys`XtLfPNdN+>g(#-U$f4C^?|9mVLV+v82jY$
zuw6z|0FZ^9*M|7*Cd%}>piyS;<~Ge|bl<$1updY_V<!$c4SQZxA!ObSJW$4CHyy!f
z`YI|hI1nzV!{AWaEQ#*7U0@(Ea2*R$>GtMz`=Z>{$MZkYO1cK)$|Z0}&I2p?PBihI
zSMg>w!vZzH*6~5n0zd~@tKahoDyQ&tlXBkkKk)_H^lErB8_o-dH?vu525mniBCGjd
zpr8h2b{Jc*b|%^6-!jxbD%dL|mU;ENx{UQT^!tM-_QRv=a3%|E#d>p=@235D;xXjy
z)3{6bhb=h`>?9uP5ru>zZ@pr;+Ye#I75@nfnh(P!GlRG2_v+yRi<f7I?}2Fi1V|+2
zKt`)A@WXrd!Yx%?5PR^}N1&^0(oIft)$iULG)?qGldZ?VZ3S13r@|o5<T3StKj`*g
z?qCI&+@A(vpUd;LHtQ|Sv%QUb1(Lu}1e@=<Ksp1g$3=nj1t0-vcokqdnz_^YOkmao
z>G29^zo=D?wwpH10Gi|q9OT>H-<mr_4WQql^=EjMDL|RRjjIE2E5IkZ3<US{eg*B7
z<`RAfsM(c|`^xlcFm=rg%zP(<$Me<m+{<^k;0Z>95<Ea@)C-}1DB4l_1xy=vrCE=y
z>EY^{;Ll6}gTR<*0#r1GVrQQd{1c2y$q=xKLvAw+jH)eOS7SF-zal;o`(E`TygM5?
zxI{4zcRTM&X^ek|@XrPaT+0^7L!{`GW}d>4%CBM*6IqlKWK{1+UKULLwf%is0opi~
zox^k|f4#jNu#@N>Cq4Tdf_@3iG<9%|5HOSRUI1kfb{-V&<yT5(cj-ZjCU|4)-;{Gn
z2Wn=upiR|$z|spOJ%w1jLf`Te7O$1=HGKrW{S8rCIQsm<UMJR0y4#4$MdytPU$z4_
z3W!>8{{VDHVqMwJhr@y&Mge3z0|&V9ggt-QgOJx7D_|&d+XZ%dJ9vecS2X+Q3SjEX
zTlWJ$3JjYP9*)#__w*WWumJ7&d8Rabji<&fI1pD{iA(1Xz+AHp1Zn)yf{^Eq?N=UK
zp9*8gam~A|1LF~pJ_26BS8P%U)gERC`T>Z35z3@+sEr493&#^sZx$M<Rr-n3+XXT2
z1!^37fT7^;K|cf;4E2hqd*w95$c~U#)?0wPQ2k@+!-s0I=SR-Rrcl%N{Br`6p0=H)
zmBz}buiLG7IHp<=*kl%D?iQgwAs2U43i^eJLYrmDLbo0q`}_nV^RJJ+GlI2F^^YTd
zxuI)0A==E5k$#lRCmG5uG!wF;SBm*Esc*iMTDTBpT!zz0J3TKSDBfg<?@;-CgJ)}O
z)_ygpZ-6TB3bE@}Sctn_5z}oZ4FiDfzw(r+VjMz@#gdj)OXq%Kf(%RY#p$K;v6m{s
z=!t@Z6TFcwK_Z2R5hjEceaA$E3gIYW4=K^tRVoC99xE)8In%3?Ol&qB;g%EHcW<y)
zbb!mofXH}+Omq*mqe$9#FIBhFB=8vU<Ka<JA{&XC22=2$3%FFs<7-Y;mpjC2@-P_b
zevF@K$KWb}@;_Uqi@q|xIe)VQyp$ulLHh{wC?K3Fb{6hHkLLF6fd-8uhZ(_%n#O*|
zNxZCZKuF9Sh-zOS*#If3-=jHu@3=*?#d!ArVRXi-glAhhv|pXnfZW%)$D2mnwk9p6
zEfB@8y?-cjm?0uu&z#?zC`N2@XcS5N6}?7QYg3=*)`f9EvBd|3BYCpeH0~F^k37<a
zg($aID0FxiKkRwI6<%^DQ{$GZ)356iTjapS)lVF}wz`T_eG`bmNJ?=dhUu0{t}{;(
zXjHq?QEW~&?Q3u-I2t~A8j`+MM3j-MJXg@-x&ym{@%qc3zWKsygbG|mdQyF8@+jBn
zk4?T@1AUOkDs2eQn7AuYWa$GW%c74fohYzs{_v}@98M2Xrc)r4a0Gh86L>_D-)cZn
zxHHE0k8UQe_$omP$PPV(iJpniqlwW`NeB&dU;4<PtWsT_A4j=2E`)K@=|C{u<yzUf
z?s?t+(YU?{DWb@`B~Q$GEk?@<6pnR3xHjw^^7E=?Ekjxey@z_fvu{;K5AJrn0B;O4
z(j0rA3g0UgpFBvN-oA+D4q6_eH;Xk<N5WdNzN1SH_hdv>P?hU7!_=EwnA`)+S*@p3
zC?uwQ=xpm{_Xw{I)Mfp=P}aYU0?VDMm%iLF^P<Y^OTy*y(_dE)bZS({eVR=N!~4l8
zq`Fu?UrfAtSWFGM3sxtl#*YllInweMEGf#X_?v8!GvdF9-sRHp^1hi7o^HKjwact=
zRPu(XD(ZYY)EL7I3x*SSLZ5NjsWwV$kqhD)h+mT?I%DIahlKzx$fWl}FC;`NG+_SQ
zUwJpvjz1BIh7$G$l!02HdsS^8&pml9hqzh@Iy*}!y*#`kHaJ#K_aExY12=GI+M*9O
z4Uqlm#P6))croIW^E$(zLFt6s0YLU)XpK432X_@6*x)x4l1395u_%bgRECV&B=U=5
zbYNgLao|gfb<Qw_;RI04jt;Pb<!nommK$Qy>La!IW%7L$y!9R*hV44o%Hj8wUJ;{(
zUzd)u*#-D}BbaybuJ%^RzXhV?D-;TMWX%mqe4bZHd%8e6JmbxZ|6^6`?iWtH7IxBt
zh1?|fvKx=m^fz*l>RoFueb(g_AmSbolA=PHr&$R(eY<zuYnMjmpST6ObkL2+pTO&A
zponNnZW@|ViP}kmPPC6f4~Ryx#(wdSTd)=HkdeCHueF=G*K&9DA`FLu^uS0_SE!aq
z6|aRvmo!mZhU<w5F%(_W3w@bI{8_MbGMs7i>>0jfNH-gUX_u^ZjSs~MOU|9`Jf-~S
zu~BJ`&HeCD6wf<3e4k-^>~k-ry26VZrGb&Jgcf19f7O_+%UTnss(A3%X~G|U>p9~b
z!^D08j8l89i-~aR4TY`Kz~!^8DVL-T6hmEN`VLE;V@6xHWpSM*6Kxzx808Boga=_L
zrr3aulDdi@b#rM;9P%b4lp!uef@>=l-zX?|XJL;`*Mvcmix8VaU?@~{FC{Jvz^$ek
zn?Jkp!0`{wPv4GLAB8TGk4qew(1cXM+=KRko$6^0&?~vx>(+hraaB$e7&Zb-njmi3
zg$G}F`(?RLpa|>u$Lsq9q@rr*7_<^-zASFw1_#IaKdD?pm&YAJF{SyJVjn;7`y=Sq
zKnlzJ_}pGK_N(*G^0Uc0-wpB$_wV!2)&N7ZA!do;N}2kBN{%OG_4{ts>}<}pefk-e
znxs#46P|B%viVXE461dolEQ_kt-vr;Z$HP=@EkNn0R`WqYS8d?A`vGVAbzBq1EJF&
z%z{1K<ntrxT;&!7^llm##=+c)d-4RtZZXW9NEia@v-`R<g(wve^*vFODXar?2DUP-
zHMfT$v8MWEJ2M7uuLjwqywKQT!>kMp4Nt#~0x;J6#({~i*L~;r_|npAj|gpFqu1mI
zA*=z>rW-9~h<jXm4InFpmgG=&S_)BD<{F12m?-YgAcxVF^EdwD!1;4OTq1~Y1ce1C
z`S|ux*r|&1oL~~Zqg(?{Vk{8abf!?gblfhg-}ubX>(-5jUHhWSx28#>o8nB$S&O8@
z0*HiQ7w&fY7O^fi!spPJ&+jJIt5(Ix^fMO9fR#nYK^n+IwA|fiSCkh@Uc?0cYYw$c
zb4mp-#Pz)gJbIQ13>kWQTRLD>7C5?W^3gx$+hlP<D3MW5iAXaJCsH(ah)bLouXeT9
zzL`~A$BQ5?$8-IO>-bMd6?oVJ?7;(&uKO&xSB#6nuIUt6lAqpq0~M4(Ie{ogNfeB6
zy;ZYBDU0YhVe6H|2+`)ttxg|&Mq!l;+uI1y<st7}M!Uuuf1p_}?Mm&?<&6JY>tdjL
zp&-{4_DVN%GCg-S>9Z^v<A>OA^-k25qj}K<j}{t5`6kPy;BO92_v*Wv+3U{r>~`Mn
zywT4X;<JmdnV#qGPBXjeDt-LfPpsI#8=r8*Q_`oO{O(t!XC$w@uFT1XE8}Q**;iXg
z?X3c8l^cC?Pt$vWvTQ<aP1B|bN*^M@$wFyCkeI}E;pN`V7H+2eTBGOgKaC%tI&_VE
z$>0%}XXf6a>|YWV>Pp7XGuf})kiN}#>NyvvH=S!5W`V{{eO%4E7%klU`SPkw#e=dz
zmT7^3k+~A6oIh~kB>yb4?X>@3d{D>kNAHP7%QH?QJD^b*!yyu=MJ_tHOfjXVjsCT{
zh}BB^3ck+$@4vv3N1)E8=(C-aW2gFUrorHO6q`_h`u>l#@ttcou&s%N2w#e~MoPLf
zscFhcH0D%F4*@l9hF~1=r|-T=1@*g&yBJpV%F)Q3y8TV!&tByx*Vz80z`zeom8M}X
z475nz?4mOw5lu8J+e;>Zb^9p3WAE)t$Sp81BUf;sgSF2v6mr=7cs>8Ixc*hrR);Y~
zox?Wp;Qei3k?cq3>JNQNxMiFfG#)51zaP-%GQWW^{U$yzS9CPwJ89qnJ&Z)Xt*b0Z
z6FA319%u|!Fqbs35<n$)D$oL6X}!BH=KS><sU3A|G+NQ}`ST~hGtfg`A}IfHzR&?Y
zV=CcAd%TJ7NBT(Qx|S?1)1bo=lLz`_G^LwO97+}34*_j|Ar!G{jbH|428}LQPOtB~
z?w_LxzR5Y{7EPJT@8M>lb|=NtUu8j;HQV=m3?3=k<V(W7B4YOOC0&m3#tKE9S_<-|
zJ9I#fVRYm9p6QF_O6`;@&4u6I<eL`(M$ZNlbe0@Ttl;l0@P(ijOf1lBz$#HQaq7}H
znbN2M+tnQsb*}py5k-O>+@v4Gy8(A_EM_?tHpD;RoBmk*uSeuhkqlHo!He-7Lwfp1
ze2F{_J&`(aPYn5XfOuYFbte+-tyS6Pw%gaJpCz{H&Iw;0FLa#s3UwSqsdxSE-#qbC
zD9eocWeJ{mJJ7v8f(9J%)pKWd&Y_aW$hK$*KWLX>-;y*$SzF?z!y@KgD7hZq_ykoU
zV)$tM^m7cq{_O+^L`TS^)cZ-#D<Q#ItwasKn`eJU&ILsnA|pKxZwKLACVX@Xrp{fv
z&RIUxzegG$eB*H`@i}}X8{v=nqa=6eXe??yGIrPGOSf`_r00LFW8pKw#Hx9(()LtZ
z;T7$`YQnhJPjrHWjeaXBg3HNnd`1jU&d>dM_XGYXzr5C;=Sz_-a*Km>KVRv5ih6)-
zHYz?;lZ{hw=KZ-kQkdpWn56WlGLtD1r}%OYB(?Bg7bdoh2)jwG_c(ms%VtY~5llow
zh$d!xToxCfD+*)MV;<~u#U-A9!@x!I_sIih6CrT-+BJK=FCuK!U<T{!60yLRmPK2M
zuvDH~8BwXOO#FXTYX5sO7l|PUZ4-Y1@W`?vF=j)0lE4EdsC`?$E&f<j5&5Q6>))q6
z0)b)-wE0e|<$!wp9nK`eKwCMJAB#-_VB@df=$r%R*8>8H!A%XQ>@hR<f_MxwjwiL1
zUxw2P{SE9ijo;a_Ga_U}X#{;T{dIOFJ)lYG*)Q6Az{Xm`YpV~wNqgk$%R|*PVC3L1
zZ056+Ymy35x+Z1UHGu;aQE|w1L5-md6e+j|?ecy(-T#<kT6}@ZueJLW)yHS2GSTys
zp}BHV_S>^nBe&FFr*c~Zeg~(3!#v;C#Jebd$Hhj5@X~*wqw=F)G(18sov~SsO;p#G
zqf^5`23UVnK=b3Qil<xD7G*CAZf5xPBfuYn6O$)Nv4&^A)PaD70s$KfY!UtDSkEr3
zf1tFLgV)T@SJD2x7!Ll7kr8AnCX%(~&uSSVvu52|r2^PEnE?^$|L64^potqHe<zNc
z&m){I04B;qg%|0>8><9z|NqJOURwDn2U=RF&w)+z9W(Sh)#oG@&K$@2UwrcaJuM~W
z2%#ytovvC#dQClT=`{n(na!Q@L;4m<2h&fw%J>$F_39}X%iE4^)q9^zYMYHlw%nT3
zIc9_s=JyW(k-I&JK5*;qeMMn)$w*(DW1*Bl`;O-y15``{Ey-839Bd}*2|qX}(T)4i
zGji?G_9`{Y%G++5^!vpcRCj-TNc#sTo7ix(Q=CPx=Q1?aa?nH_JyHCn<Vz^9qP?<^
zONa;Ycx6yUDQ|J7$_~^MAfYDp5po!VgHxk8^r=t)s?xkS%Q>j^azbeuBqJYK=gv>2
zWMw%8Q~QoBdv8*ff<RojiO53>_~$B3yKH$;-L-x@rz7b>;-65Iq&L~!HcU|#51)W!
zKVHFxm+^G-QqhpaJkj0<;IuL$k_=SU;Zm0E_IWJZ(0gw1y55Y^IN5>WECX)*%};)p
znd%G>B4U<6>y)$P0z5*%G&={J@+PWcSI-_nQhR=_NYVhU9GBM9-Kk};1P9#_6d%pK
zFKJDs_Rz<N_BQ@-)m=$}Xs=5Pyo}5e7>ae9bO~ZL*y4Q{xgAmWUNNU#FfsqVm%D6(
zY6{OgHUC!t&+}xKrt<<IRBsF0+nQAV1asfv`tmHa{xDFDl=u`5w&`orrC>s#<yi4O
zd<9P6vN1<j*Gh*6um^-HOp#XoFXQQVVzV>6`jzhT`d|K(zHoDMTM{rLXrXJv)6qKH
z%Zp7%U|JM16)@!_TMqB?fhT;6fC80$>HGR>O3&F2)O4?0xE*Je_2~EOW{DVrJ(2tA
z%Et*_9v+Rh@4ZJGr4F#Yv-;+z0+EPCcY60HH8rH-_adbp#A<sJ6yYN0VtV9?=ZPvX
zCRbB)tV_Jf=Lk@Cseo&Gm)v$+%OQff^cTl9AVw+|RtaBDg$n(|5nS@Ep#<a)4-43X
z${Pf<*|*&0m@yU${e|gf0Bcj70oLdq*JqphEgQ*JC_S;kxZ<;SF9G1LzV&2&(8z0F
zZY4UyXW9D%AU}H@0=~>yEuFwEc_%wd3-DAcxcuEz0p;o?xjIWDSf+wl$gb^h>Hzkl
zT{s~LA<zY(l#7<HmolKmkn-ph5U^?h9&eEfyrrP(Xat$)H}FI-6}+DH4Nz>Yz6$d9
zI=cd)n|k=2^uOQmQe~l`{!fvy{Ih2-gyOVt_9n)$>@E5pj@PP;rxT@g6o~21RFyXK
zSDOnITTux1)jp!IAbl3N&PkbZIkXSHY7027$o<<yHz?;>0_kyOFLi)u`Gm%p8UW8@
zT1u*lpM7R{n3^*?=D`lIjmGxC)zScpNFvjYB0II87Ox|Sn0pqD7v(K=Ia`l39+xrr
z#c1z>OiFWjj9!_cTs^!Ztd{RFZ^JC8=?`l5LW0M1D0Q@q$l$K<x*Tm6<A5CIE@^~$
z{rXYC1A0aqwmFqQz_x(%(zFIDOlcsBMOYOH)JTNRFLqz?7@=#Eod9M^YG)n{@GY|z
zj)BE*9zcmKT5^xT9#a3rPHm+okd`L7<*bKdy4l_C;wV9NySOm3THmp$8?b==^(i4r
zEwCNu8^6;zj+^U-)km)0CX)Ao1b-(3nztGZ-5V>>X8XX)RV(`r6e8g)Dv?p#_T4M!
z;Q9;LMP^cxMevWd1#*-#hU?o$`~A$B&Zh-8pmZz1)Nf(Zu;8%}<V)-oYw~tgg!y0J
zmp2!h4Q)CKZKjBu4XUVHx9x>MA3s5|NQ0Bvg_EveOFu4#&be2a0<TD(CejCsg#v-6
zr<U~&HSDDnx~eU{6d?g>#x9-MtPjO&YCxV^96XG3T0)U8oX~YM!;{q0tLkE**2Wz8
z#g(cySn%EFaH(rS53i8HOcuH%#tvbISC$(Brb;G4TLDuw-=w~Q!4LPet38X)=C$VJ
z<)&<f1o98KC9*{f!f;_XSrorIKZ;$G{~aGH6gZyCU`o9)bpdLP!v)AWxJMRGO)4c*
zm`yj~Ra*n4mR*noDs||knY}&pUbB~s)=v>R>_w*7^I6nKY0cFPi;H4K7imxm+GLYH
z-=la1gSQwtcOVYBVf+$Le|CHd)YgdOZ2Q?6YPa3E9&-;nc&k~VGIpmbUo}g7<Zb5_
zv1(!kA|6IP?dLZ_FenlS{nC=FA$l(;ai(i&d~((gd2axaaUK^A4fpfxy|R{nU0}YH
zbZ3SgSfLV-rm&nA9~J#H=^3D-r5<{0RyOMrym9i~m~Fcu)Y~x>&nW@Q7w>3uGBYt1
zD$4CVklltr=|*^v30Cl$d*HHdy1q(1=iG(!>g^%O{hS4-g^}|m$WYiR%<`}9c}4Mo
zOpQ3Z5~d?=-h;hK`C{UgeRV&R<GT>&CgAp4IPDnXL=CLeAh}1hD;9~*y$Of-N)d>!
z$G;f#)O~Bgbds53DJlnIuev^DREMkQfU13HePQ(|MDnen<@DRO>=1|6<7u6Cf4{Du
zh&N#6BZR{HoTDQx>OI_?830M*8W@wXoQU@_XDG<3a%lcm5Y~$wNk_#y{xq&?B&Ag7
zrxnQbJyC!$!J#ZO0qvBhe&++2kn~>4pvIf;bOts3A%Yzk9_mKRd7bS{<eo<t@kRF4
z7kdw9`4kT#9(Q{NcHFWM=M<WO;JG5v8_uQ$33t)r8t|TV@P{}%m<pj|$;UYRN9>8W
za9mS*J#^-9sOl!2zSpQA`|e7fg2aAJ9D23?-LCxZY){&&Af77G@xA2p$7&Lpnu|V9
zkY_II1DTQKMSk2iq+3xxC+9>{6gA(VkO_Yh3l$==&?*Z4t!D?eGKsfFR}?L^s@S)@
zmQ$N^6-k0`bZvd=?JWx(=Al;{!^WB)-*P+ZW%`K}Rx+cKs2jV4VJ2_MgrVZ?Z=$$-
z@h3^B84)g3>qD(tZ9w6TXPNs{sOtGpVwD!cua*s_qZz<ryyX=It(5!sk~6R`KBf|V
zxVC}$$H0pBSD+3Qg3ruG<KgHo4vMeh#D}AS9Yf!hI$lSq%XCLb1+`S>Aa<v7Va`jA
zGxyU_(Jy`Q^yGlG`Mcq_$BKw}qje5=uwF!?p)V7HburMLTSKj-tkJ`;&O><Q6$i06
zThy$N_Ih4QNe~R=j1ka%0%^xqzApvkdzAEEqpvXrt0RZT9==3;`!#)h+Ak36rd8@*
z2;4I3T?vQns;JAIS+0QP?jpAMamXQ(v%Pk5dU|?D7$!E+G8@gb(B(s#mNo6TzQLgS
z0U5Pgg=mOro_uUQMKC^UG+qU&yxa))%0lJG4+<_~*C!XdtGOpiCf4>8UALrY+ZrIu
znSNi$tnxc0j}O=?h=s*319$J7zTOP-C0UkyiH0iwQrEAuvcD17t-io*zZ<&JiR%G)
z=aD%$9b<t~C{BbS9*wxI&c5uc%XQ`^W52^DBp)%ro}EDxXvL<HJoQj7*MoBR4;35@
zMiDn(BHG|H6j`U&jiAgsUGnY~ykxBU9+hmj($+et8VDvSqI?*0kdQMmm*o|~Vz(0r
z^u9e9lN+_RkRyZk0o3T0{0~I%cVnVXK*im06m<Z@Wq16eHwzJq=wxgIY8X!9eQdmb
zOibRYGYB2NWqr!V5-8>_S>51e(s(_@1_7OL{<YOC6hAl#BQyhYq3_f>)s(v)PvFFK
zpTw^q7H(=C^t?rnP0!K<(0;XcL1b2z{ojI5rT5KQe(;Y&uBtvmp^C^`<%S=c(~-B8
zo{ez*1o97q*PmbsG@J-*Vj+(oda?E0zNLDi%}o1|HlBe;LpHW+oi3huMkm*tXop@l
z*cS(aguVpj4U$b{xLLfr#z;^BJo?KEh8N;1C<9l0P&OnaDfZP=hudB<&ZFz8Ya-Df
zvHTVQ2YboCGj;FBs*&VKWD)lW$@v9!i_9`kbh0t(>1*-uJ8Sh5%ga*6;mD_uwoP<z
zrlOit|BI$kFNhz$Z-uT4GH3Qo(3U{*<om}JP-{ZF_WEC&Y2ZT31j`!!)K%lP!Jn-k
zpl5G>dy|AmCu9NB)nfJ~&pn0bfSxNNcLZ$5JUTpJ`Qw8vhop**ypc+#i%o`}OioN5
zeG6(rN-PtIr%rQ^Qbx8_k{cb%ok+ME+;{GG-HO0WNl|E0)KR+zwGa!I0d)6D#6ZE4
zN}L7{%k<MZE9y-gNiUR4VteL9ggnelOb}<7ui2vZY^^D{Fn6@FODzy~K4LH0lU1$g
zVt(YF5D>y`f-jA6y2B)F<%AqTwBHQ7>=^M$k3;*2Ma6OzM8bS&-?U;hWqkj3@oQ^c
z#oA@9dXn<AT|CUok$?bdjE)XiAHT}I$fx<nap9H~FcF^#5V3kAvtlxZ)AITRopB9&
z#?2Cz5h4|DKmbAiIkHOj>>A~ENEAtn)pi3)7!(aDHb*SDy6n2c9b%M|pS`!@WSurv
z^d2!d6;H-|h9q#@#lghn=~O%to^W3|mJUJF`pE*;fn7Rb*?EU&st-Qf3z$2J5?3`-
z+Gm03{duNelp8dN+9@wQ^MT-w<-5O(o=EGXPwW)j70&3ruNUhC{2#PAEHH>z9xDZ@
z#i?5MsL(v{>&D>C7*ff7c88iBp^ut-nPK9iNe3qB$249FYEohXQ6iQ>|LT))#`C#d
z3gAA{^g<__^F17X&sQ^2e6LaZPZmHpa?Sf#<cO=iYbeO}NvOn64Z_!1T{OO4e$a?v
z-YxPXon-YeO#ePDNmYKCU(EA|_~Pp1^p8OrMI-mQOPuP*s6lo7XzB;gMv5o^M6<LK
zCcMj7rg-i!wVJeu3Mp1xBv;yd_8|0U3w?1B+Y>a*n}!blJIOQjr9=1=d`x|(_@p|p
zJ!!Lt(vbk}gkyjO+4|}x+QHTFoz{!T9eu!6bVVlXXOgy5ZV)qarYPhCIjXz4G9d1^
z3P}KgidK%<q8%3x>{!YR>%L~^nS=+1Xo4bQWJkgUrt5>xnb3MPM5lkycPF(FNAl?Q
zo;rs`R#xjzBT!G28xhE$xG#%&L~so2oA-M3RSAEyK^Y!0tm_$};$HcJR#6pl9!X>g
z0o^gVLbadO?m>EUL@GiZR6g6>w-JL1k$+5^nkFG6V!9e+E5eFlDCW?mj@LnD#Q3Cy
z8>S{utj^wZ-Y9*IInKA^j5jF9*;>2_k%;TvJ|30GIf8FZAkg6q5AGOQ88KaM+T{G)
z(RZ!#xmBkiVc4HkP`-r*Al#URtwM5X-~dmb4eI$XEz`)~02oqf9%9EH;i~eHmD-8I
zK?`kFWXPB&C<lu^@OCsxw|5e3b^LgDk?^`vw*t^r-B#5g5@-Gjp<6=nF41k?^m0eK
zex!dEyWr)bz<EjNH~+v^8nLP1rHV&}gSt-P&b#_kN(~uLCaaJZrrEeO@PBY~a;c=B
zF8NZB>5WXDM!+RDrUi*)+Jxfgdj4i(+$?-JYb)y87&#{Ogu$p5v#MUV1_|iU(C*DK
zXfZ4X-NA<l^|`%JdakQz|3E14amd}^eW(>P&YMR^nJLE6L^G&LI1_?d_><JZot@hf
z7`zx9QfEzohq?`%#O|dQ+34f9iCq$%qKO-0dS7cD-`82{c96LnQk?bROS;!x$LKbL
zmKoVi>=|!StQJoM`Hb}#kr8-QLPay(!h>`nuRW97j_aO;!qSRyx62s^LS7m88+*6$
z)Qr{{8c8p8d*dZOUYM#g>Kt0eY{}CVu5At_(tiBqd&4gkE6HIxm?$fvzSMw>#FLr9
z%8ay`s#Uk?P*-FJ-K*$lgSgSSSttwSPYdSClI-kd_pTS9k_4j(h>Mdl;M7&Z0d&S{
zWup|E-i)+6C@kkgT4rS?H^)-;LJvqI=z%GspP0Z^3})&A`XbHml=R})K&}Ma1fMs}
zo-<7^@+v+9J%cY2$|Ca$o2yzn4$HikH_V@kg#AH?UFB=k<2BY%jUqhJy%#>CZ@*EO
z??$7UVpkD=SvzmhkDIM*L6#YV!#^1CExx3Zi25E3to7&`WD#cY8l0FaK=5afmdR?D
zB>L>)%3vwZz#8A!0tum|0Ss6oSA7~t5lfeU=L=R1^yB^eIvR8LHoGfS;s>7FJvS_K
z{(b8UG^Jt)Rz>Kdq!U3QF?Q;2HSd0UTvp#Ik?z3u*t~!xV-iRB^uccOv;c-os1vQA
z;LHZ2bN_ab0q!cq**L7xe{ER(-0y4PN-rBKZp-Z!GxFuz{;G|rM)=F?LGSo5dS6ai
z{%i#5|DMbZ$-{$#MV_=(Uy{i>=T+&hjXR7@jrD9LqvPDJRpSb8&7C72x|l~N$NH;0
z8-elO@6!%ky*sz}!uqQCQu*fty3?E2^`XoJgZ2d)iqHC+Sl_ebMZb7mB9rZZpMzW9
zUA`#u@9qRpcQYV5?261z02*y`J#Zo4rJfP&V5RB}xIg;Pyp-nidXv#`nF36mmLM=y
zmS!ppa~7ajj(YW|2XA4iVz$H$nB`}Cld%ps6ArAZf&URo;Hu%j3bp_v2VtEsA9gOx
zm5at!-JKsIw@hNkLCvAP!%Q#7Iui7~2nU&q9j*Ye7|;WtneQy6@wozf(~w__(4f*a
z5Dsl#jJ4xv&3{0nG?8H#jGUUaJHx{z{8V4Z`dzH9du5iZ@sE`OAr(;Hj1xsjcHSXl
zcj-T<i%9+&J*}u0vpT!SQ#tPXZ&>`sqZe9eQTJ{{kNf%ZD4kL>965hXFMdJB;A_Vw
zv~J^dkc*RbOXBF)r|{CxpHmtBKHJejnBV&3seV+m+~IB6txs0qa`O{ew>Vfr=Q*tt
z=6&J5Iq4Xp5K*T4QX_~5#c@w-SwHW*lpx>vZF>%?<d2Yjg+AyX2hScIB$K*-+Sz;c
zy{Y}cQRz5J(t-H}LheK~{-VmmEQN;ptmes>_DiRo;+=|Lx>Vp0Q=qP&`xJx0mY)X)
zRJUlz5I2%enNsSt3%Ed?yHoV&!7pV+kX*J`e0QSNPHyT)`EzDaFg8SgYGILP!_<DD
z`q&wFv8m`Xvk2|Cs%ab_0-|`j0uY)%;MJ4@pVSOJ?p7g4H%yKv`<x!%kqddUQ7K}A
z>obC|`42+VROqc7YP(>r1I$5nbwg-T7C5j4^NS#ZLY1ZJ$NA*H>TbYeTS^3gNp03F
zNBC_c{lD_?6l0u9HD;Dx&36w?v0r-)f6cX`elQkvdt*A-ZjZ#rL5JwqdH&zWTFi(~
zj`M^wIFA2v6aLwRhQ9$JgiVzyu*f49SH@BOW!(OHPPQ<<A~Who5T+K6TN?Y@IQ>~i
z<$nXxb=5K>Q+<N?dHy~T{(hJDkP(eBHDe;byVg&t{=X-5AnPU(yW~(`%ivH|g#Es_
z`rk{cg~CHKF|Ud`nI9PbpTP*6m%b$<*Olf`_pIgaXLWUbl@C3?U=sg&<Jt+g>LY5m
zm6b;O`o>DAwGZzUKmO~Ne?L&OLx-tXZRb$WFn&66p{cVxA}{(sqx(`aiLTOP=gDAJ
z<CsAVrnurizTp4;m|cyYUnoM<-F$}xM4Xj<%J%rjx&Ghh(ZCL^nl~Q6CCh(}|1S?%
z6F@^SwB;`AAzzWh{~1Pn1avS&-#|tbDZ&5!H9?UUqL9W@$HhJ#@8GH2Tv0ZivL_A!
z!$vlTZin`(1EPZ?$_-5J)n(c$VRa7GLlZiqf`g7u$wuuO2*ob{?~s9!^e-IfHn$yS
z$XHni6!+J6qjvhaKiQx4*wnK+JTi$!HxO|h=1E4?Nf@1(PbTyBIOw2!Z{v|V_r1F#
zMxI1LmgBdb&7b{BEpmiS#rSs1rGxy9r6`b{HSg9{xUi#nQ`>F$iM?IQB)IQEL-g}+
z$s$g5@6Q>4Le|FaSa91GFQBs1Kc(^Gbh(k*@=^)mafLxs^}{2XjK3!1-wy%@7+xrJ
zzorO(to*eXNrrjBlj414^Ds|TbklN}UVU>vdD_XAwB1~F4!=Wdpr5cu!BpudsIY@p
zzSj^AP|5}j?bw$+uE@lp6z2PJt+lILYaLJNKB<0k^hs48=xEGzB>c{weSlL4K|DY`
zNcvcSFXF96GvO$*=Ib6&mTDIeUnMU;35pP0)mBTrK#n;LNB@Wbwv5>iPDlDCB}gwk
zBMaWq1H|o5Osbi84l7H`n+JeOJNE4btNA*aRl4cb#c9KGs}HliKS1_*0EpZIIHCy|
z85zc)?O$xGKgaf^<QbuJKOa&o=9|1+QE3TMj*+?u^Md)#P&S87JU8|{8}k}@cP#m&
zcKcWFGaGs)$lvLCBw*_&CsCB8G*6Rq8rT|=$JBYYZ`oVb%|Us1gSq0&J_8;)Ckr=N
zo(=Z*S0NywHaeuF$i1RR2_0O;!Mp}aZFUI>3CkT27GKrocku*Z*Z&A@D0q}69NZ16
z^Y-uvtk#18wg($n-+*kP(-oBE>OceU<F*VB1po%?EdbnoMtsl#<gUPiJ?{cgY)9Q$
z2JIHQ1y(nt=-ZsQ(&3TumLSm={MuYq>^Lz4Bm{IPPCNc<;szctK%e@;v`ka>iN9A1
zh?^hWp*ZN!N^`nj&;IgwcI|XdAjjQD3F|=PGl!x1ptyl~@2RcBS?TmFTGmi~bE%vC
z<!ilZA-5zyZaX)-iRvmpQM2-$cBLq@53T@6cRP`c=jlt$>#l{pCvPPJ+UlHEmi^Da
zF@v<HNALZw-1~)@Rno0N-o-Oaur>-Ab+(x)H<W5+X><EB#9fiNxv?<^`V+Q5O$VaW
z1P4b(?y;nO9R_+ndk7i4hk+=Abd|IG$HF+~jtyuNB&?=XfpyaYoE239PkML{Ks)f{
zxW@%1y(>;?WA`mVXDITAYZfyQgZG3X1PQP8!%=<!3)cV-&r&1!F1GfP9@F8F8WshN
z)O&U-Yxg@Zz{`IygSfy(>p>9(Rldkwo<Udjzqm|mpyFf|qV~F9nen{S?~5orJPvqE
z>_NbMAhU{+mF&J>#4)+kHl!8~_YncJHQ~fELi>+G#-)VMCPIar%kgSg>l-6kc0R0R
z77sadP6+?_Y+eMpIiY?och7Qe6_dv+v3;fOsy82(34G+rUYbdD#{^+c%sFLt9144S
zFYKV-9IhWYrevh}S$cSkr0~}Kef|F9-ZU(eUH;Bsnc4lT?I8A(&gJWpgyXMsAUf7H
z|Cl^UZ(77lLwV4?iP2|aka|+L0{4@{Xa~}EX#BcE3WDKISJlqW66eA~nz5hldf{m0
zBddGXb^J-KtOKiFpW_v_!HjRXzPea|PhKD)Hr9FwPm#Jf->S$9y8K>RF;AdyhoJD`
zBABQipaUwWini$n`ZKbjXMmu{jg6?x3AICDB<ns~i{gwiBHTFO29!+-o~Md;I!1k}
z%Ic<{a65roW~}-msEo-!`8*ZMcRFv!xd6wK)_zin!o0Z)`e~3`z)xWE0klx^Tu{2H
zoe&azkh{91&?uk6n-}n)Ikoww8F)J(ul)1^97?Yc&_N>@lZ!lC76JMibaKTDYCwsI
z9F-<o4iwm%;l*$G)nyLw6>q;Hg^+Pc8h}qWZh|0Duxo<s4FtXBDeNG=uO7sG$l?(d
z?9wQ&c6^mu=Jsd-jsEEhV+jgwGg)@Qf)AhHO|&N9%9p~iDPMR4T2KCc+j|lY9ZFfv
zqmcUUn|D9K@5j{s$=I;!0w5c_4-Vz@MV9Hp3m#vMQdiR3naw=uuU@x*D6mAjJHw`O
z`crkUW!C=Kak{O(C)0m}P2Y5?d*{7J*4)RlE@^V2LjBPnJ89{yz<RJWZRE3K?Q7DE
zqA9EPoEzCB8uq4+6r#6cndY$V6mXFScOle+5D5htDCmnh1c3Y-b8)rAH=v_s%`W-P
z60;YaD%45)u4Hoe751{7z1Lp}=5}<Q>fxESopti1p!NY!CdsQiK+vpzQ~)yqmtg7z
zvnUQTc8EHciYNdT*TaIadhRlTR;5f!gIN!{?z_x8nMuF}&?WQ+Gn0%t-C6obCy;s(
zz!8Z=F88|f;2LtoJn(K>D+^FF8E+dnOR=NHR_Hf4a>qhmOoQBuug4v&tM99qpKr~L
z<;XaI?o>=iI3BfQB1Ty5V<YeG#w==(wh`9BoMiihQWY1QA#>*Fxx>F#nzgtHrz5d;
zT9qbp{vqvm=e#y|s_IPyI&9~y1n7s3--^}<L_bk&@GyQ=g`%^>!VY3Pd!~IImc+k9
zNQcX6w3D|X3VqaGtkGo^OM^z|Cb?6Ou%jqWM(qzK^+=NnK8M@w;|qZnEvBZp?w!{X
z1>`W=K=q(+SYGrdeGpMEXRQ!!Ez$jtM5dX_q$JJ-p_S-gK+V$5yeB$h&a4$fl!8k*
zTj&j;u^<8-`t5?pu>C+dy{sM-nHS*seTAjx-I|Eq%Z0w#m4#cHu!u?!7TWWTLHTY6
z4U`YkqV$lA6%`x8r9bc7AI^O5c0oBj<!gK$326i#O;U)t08xesxPI>Y`b`}jUtrJK
zR2UtVVWQI+woL35)N*ru5ekFIr1PJ?Iz^X%)smB&>eH(h_&Ds}tF-JL^pD+qG6x*h
zZ<*p_)2Lc#f)?aIG(SnRtrK7@<4CE)!m{!xsyn`IJRjzJklM=Sm&<YE?zv#n+UBvc
z=Ts)6rt-m~yw0hUI6{SVn)9vr`~FYjcepc=+wP(Cswo5gv6uN0S_}PK#5hd)Be-KA
z1K90d9-<hLmPJ6HW1!O?JMNfLTaeK!+;?H5?m{!3l$`j6sl3C&4DP#kpOe#LohgO-
zxYCX)J3ygpL4gS7(%c<~NJx*2_H3b=dFfn!NJxF)d;qsvlSN=O_+reuYR6E9)>#{^
z#ih~+72vOTUS#7~I6D9U*2n2QolROLO`dHd2c1})`EP81is+Z+D*SPF5=JAETqSC4
zdGwW8ZmZTsraMj+<BlkMO(?02)28@wGS2q+3h9&VaIyQYWgP9Yw?7=d8+EwG<JqdR
z9DGVpfs$x=GtdL{BHJM2>Mj(vMd~HaWf)XU?2Cf5ukMQt2}Z?<>_zWw#`PsJU;7xb
zuUmDao1RciSvCU;!^G=#SGIyeUSt;)hT%;(<KedV1n8OY9-~X<Y+})6N)WqDTy#-i
z!`^&6ru2;;?Cfw7)MchWHtNgbtOH$&Oh#W)Vj~C#7pxM-@=0dTdcT;0efkWzhNhzi
z*xpeq;}H1|1?-2o(B9d2yiHU*wRiz^CTcF+DymBD|F{={A30>8ZwiX;7Gl@SP8h3X
zJT*)%sgb)-t&dnLn58gQt}H$r2Iy#sh7_q)gQAt7lZlHI2O(=4{deYgTeGyjO!+7w
zoLXF02pezX{if9<?_e(zfyg0ktxCPh@j~rN8s<;fKl2$Q&w#DO9FFp(eEu~jv_dy=
z;GUf+>|KX+3b-g(DBm_m#uQm5E)GX99);>cpP@z*-&}4=tUFaT>O~>0qsfyD5UpdK
zZg!r5mJ7d%%j&ga7Rr4+#oD)J&EHF0xQ8z9PshMMm7YnEV#vjS3s@s+kKAoT;zEZz
zK;9E}8~qf8+4vN(3knu21|}J*g{gi&5V~+qg99UeF7+iC84tIvYj;f&{)JNddtJIf
zh|Vf}$Y$9zxv5a2&uX``FkI>WeYs|TM|j~j#c4Ih`fzi@E`C9%azmk!_rmm7UK)0R
zrffgHFK!E-hZ9?3eEb2vfos5c6OAdljLjYw@wgKJhV6i<%R8DX_Le9T*S$t)#9izV
z8Sb8+P-2usw;Sn~;T$J}%~%kj5z)gTq4yzmyj+p6{TB^^K4g3SpMX`2%fCADE`fbT
z{k&~=ZZy`5gA|pvH7Q+D!Jm;~gMnyN)_DrCF?RNQ{P@_^zWgC|WRd;CTV<NMnsj2L
zsYKtJiTrWJy{x!ek%H0hfZWpA#zw|d_)WC;SQ4Ht{52j?rXa3zj|t0`XSg6IsOsft
z<eGOUb(9+}OLe(C|0yoTG}~{;{{L?5Ybg<)b#t9K?sPJ9@QR|PYEt<g`T6X(tsYMo
zeT{omgRvt#m;L??I@aAbhYH*$i}O>cn*9wtZnl;QR9Q9@cm_R8;V2wB2F{TV)z1N$
znXcW7w~`78Q)J+{*5*?#LEtevE5?9$7VI;*{JMHF1)aaxOuYYH8G@`IPo?^wjSpyi
zgB5dmAAEkjUuA@}&n?GjSV2!sZA8Z2*UuLN(!J;dn#V8LnS_CY>1)3<gV!_Xm8nJj
z)UTlMZtCS{VxNn>Ctm!qeX{ki8-H!JrfLe3I^oM_nHH+QRFls=vqk>Tb^BX=jO-|2
zA#Ak}W!1UU_@dR>>E~<3>|QIivmQCFNMsAwu-0pJAByP!f~|DO-D<KF_vh~u-q$}h
zzBnlDuUFjcum2I*`XpV<_^qUkXGcvAIX%j%y6q=Bu^8Kc($-9VjuMiBcZoy=m3xmL
za8ca>dpQpf49QoT6Qr7Qu-W+p@+jVx?6rKc&n8t${U>ty$b!Yva*&zu_ns17hW8GY
zq;$Jfdi6z+RC+hGc~)hC!!Aqwif|euO`s;@QHtm=RqEoPydQs;FgumF7&$U$<hRkf
zntLnH>it_cYsgH+f=Ni<TI!cSZgpLr75(0PfUK*WSmC*Me_A8TF*!D8W29P=3G1bR
zwyr*sImsuNe~BV#5FM1D4n!P0$6Zc4SFy~Y$M``?a&bzIelsTvHg_pROiOTXzS>dj
z&mmtpA2CpjwZ1vtnd(TU9-B+v{?u{KIe8bNB8qwy30;(v)Rg#AelWT8kIE7sXCT-U
z=ou>cADfShXJFkI|Asf%yCaVEtd``qQ|e#<t%k!t{^Y+u4rwE=VaBm<v;3nn_`fj>
ztY;Y8@hsKFag+3=Qq;GUxB2&a1srH-0onFV>S(Tl+&fi~k%hO<e)nGeS($n-W%50N
zTJMokx%xP{U=H6uZ%=>Rt=evof3kl2tgkSfdfpN9@4NaRPnwT>!KtKv2y#PH3jAxe
zxmgT<|JMIE3D8Z7`gm$mE#4STe^$?VNc&rx@PBuNv1H^$0d-A%{n85mT8jrP|F@JA
zXq|?xLQ+He>ByUA?O*!U{~pOf>P4*I$6{)Ra?XHSIRchP|Mx91!?vuZxzJ>(NMhvv
z&rJy&%0Vi-QXT-^90HAPesyI0_5I}|V^WduXyxnHa{S*9M2hUI7nus!-L-P(4>kX_
z2>4?FF_9PJb7OGINd2?%r76IxuIMAiMqf@)k#jF+Qj2vgUq7pUl_n&%Ja}oiW#1nv
zGMA08WWT=QGarVud9l2l$8+!Z*XHshaE^_%E{cmc`@w3kG~A*Di&T)PQVR38ck<^c
zW(gT(R_49V^t-V8;MJ#4|7>@peiJ5sl7{pAHcmzG|GtYqCkoxz6Zn@h^8|wxo<@>P
zzc=ASw8JU*DhBmsSbmVydePQOm3}6r9rKP5RL7{yPUha@U#tZGoxIiph(FZT*EJ<l
zIV|NE5b4HBkR2&cny!wb-%!}+EAmE!qqyL|`PT%S4}z9i+#Slz>0Dx)r=y1tVD>(|
zL*O&Vl9s|Rj@$lP=%t+_kIvYbA21dBN1gxol4EU(2x<sg9~L^JN&ZOb92!RcDQfez
zQ-ApATMg-4TAGv2DHEa_Jwk!cw&z)qWjp^G!;gYK_^uJC5PdasttaY0p`rQei(q>d
zpu^9BjC5-X`^rGLPWJ?;t_1EbdvC14J+*CMZzR9+11t^o;XBm43Qo^ectHY$tXYrK
z#EKrgyaHk9_nxbuQ7FIw7PI=1z+8Sw)F#6<h-0ks1Iu;ojSsrn?Ux&za8YOB>|GI1
zZ`cN>6UX!NDzxHH`u0`b_M?UaM?m{nlXdx-S-@jkm*T$b(?v)7=NvA06>aAw@Lg~H
z#6z}j4^KdiuZPD5d@+8Lcg1)Er>2?L7@jn{S|qpcfxUN(H*J77nV_SAXam6Ne^wp-
zbn(hzCheTP9{C9F4)j>@JB?J&qX$WXC2HYpMtfpdahq{%7d8@t^Van1-bL~UW$@Id
z3*aO+8h%$3`e31XPG!UtZQ}gOZ@}|@G>-S~o2bJ3BU6*p(*g>jkura*bt{?V>N1J9
zuCv1_4?fA24A8m|dTNG*T>#p#?L*>MZ9rF<RS!P@=5*;}&WoA$YYTV|A*IiD)d^^i
z&H=0Tg5{a*5l&r4D9eSjU0E3b#!nZjX7v~uod{#IydxgNAYz&YNuYy96$v=>TtHIq
z0|cX`&DJVw0U+mo4$ex@Zi_<cgzSMhQW6o1XYxuJY|o`agKOV3EI+sV><bKgQ&<^1
zJD_00N4^gdsV7SY-x-Ch{NOtkgKxs>L0xHHLy5yeaM3w9=hhB@CXA~Eu9A0{1WwFo
zAU)j}*j`w;cj>#|eftC?THfXtf(v){?_{|5dm@uBlnWl~UEV_*ZkTFtGG6y*#TaGk
zsk2Qwez-quvw3)D!c$_D%|U`nV@fe|3XYQywR#m_``&Ko_`Ua|C++R3XZL!GXm_t%
z_xU!`XFiaxSU-H)tOLf@9b?ZOZ#t<+-ci`ZdmT>(rF{zBB|%;ZQ<Dcok?haXDu0q9
z@B^W3YqauTmqDGiaaf7SybILAocMCPLyD=QORhljWK8lUSebN@8a`784E14<baGVz
z0$_@>Te8OrGVmspNlfZL#Y+%}!P6)AruXFh`;g8yEL5(Iyf;X?)F#HhF&T*X{&e;M
zAAiteO>-k8J{FkIhnQ3@M=nA|g++AVon?Q**?ovP4YXkthc9v>ROFk4zJ1Nh&i8)N
zucPl^0Ytziygd0`h(5E>mluyh4;b1<K}3TVbi&QvO>Fbv+vhHl1qE+YE%I)5l7V`S
zHkhFOEEk1@zwb~@uay5`p8e!)VcX)whiM?197u+-2AEt5F%1}*GF5~lkAa)IXS3@}
zLm@Kh{><K;B~W}4upENKmh5evW{Bg3CYa_;*2IO~t-AvJk6FLdC9BKkIAgB~YFY`K
zOqN2pow%_9P_b}dJAJ>uk=&zwcV*HqQ)=@ud+QOz;sk7cdIUOR6Y3>`{iA*3Mm3}t
zYC+9bL56kVT|Nlmst56=`kNyeSW<m#4ruNzZ*OZg2`e&m|LCAUZDgxcN?eFw&V-0b
ztB9XH)i(_#u?Op`T6oX{uJBiy4{MQZ51-e>TMc-A9m_fH)Vhe~uN}Hv{>hkC>#}If
z3J>Id-}EIlR3?%6j^?V~sKjo1;d001+<yAI;|RNn%}BT6{jiIij9@GWi+2JmhetrS
zIt#DowD2BElaGpDl!<{%kmF?xs`7bHnfY=zhj(5Wn&0)<wSO3BDqAN+9^V#a$1aws
z{pNkw!x7ZTUhWq2*^A#fRiKE3zVy^J+9S*z(#UDc-<^Ay{&0VE21T_iYfeMndt%)P
zUYX}yJ$ssUG8)?0Z$9uJw$3^%%4lu(BHhv>DI#5ibPGr$Eul0bAksB-2?z|OLkSFB
z(ka~~C@tM7T~bnKvCsGIz0cm~y7aoxKW3PB-nHImJ<t8S?*Q{gs;jwu(~F$wjzw9X
z<`nLpcYO%f^8K+GcfaOh_O8Gxt)&akqwmb-;(2o?XDa+_&&6{30-eXCwjgIq_0G+{
z8^=FgbGGVR8aCB5Ev+yk4u4K4FLN;FOkallaUVG?&=x6nOevsKxDsQHdF7oNZvBH~
z-(*U6w8-#`z*GxKU5@rA4T~@EUfLs0W|(@>@h;sAm&agu<=z)V#ly1fVa+toCSYNa
z)#h*ga319iDXtA4gCpn!mT)#6w3jpVMuZR$Fa72_aO$c)2dD3(;<-$%kESa?RdzJP
zas>);PF2i{mfK6oEMA|jf;_oW+!~L~_n>>oW8{AJ_A8cMG)VW*^%kaqEd~ex^k1GK
z%**C34}P8EY$=%h6^omvh60GQu>3ab6mhaMRT<-3fDgw9<hk*mXTO2Yxv>WbN4VTF
zk0%!Qt|N@E+6CreE9cT{U5fJnBXD~CHpwEhqMgMFxYU^E-4A{+h=B+OPo!QD_X{cQ
z*!2S4xPE!Mv!%9vaF3Q&0b`5T(X`@b`Z<o7EW1FIafl9=mflDd@;fOs?h^97=r``>
zJ2VjnmgZSf9|`WA^@#r?sPkzi>QTeOHCH^hg(~w7=+@SNy;ZzB_>=R9B6HW}vx3%h
z?Z_d=X+R@q(pv!9B(iT6%ql3h$tQICC_-WvK(veoYjy`O>|n8%A_zx`H|xF24TYXb
zKqAc+H4f+rrx1zSu8rg}_!EZ`8|vy(%&lq&ILd?c$j&ECez4etwCf$q@+_G=tQG3f
zR1m$>9jJK;wl40cPsCimIE>-L8OJ1#A{-V{dS-|jt&6M2l|Hjya*W~Xy$SUU7locY
z=nCHeDvA}_UQ{FXF{#E(uG+;wJ);kyzX1P0IS2+65;gcaTaOt2vRJsd+#E*xO)lJ=
zeyh01Eur>4XmbN!$;{&j4r0-51p5U$BLo9B4vEdS+Xos39vb8Zcw}%<){3}b`J_Io
z;;%Bki_(dZa|bcUvVty+M6eL6W7zzWbW;Yc8TIpC!M*b;4;BqE;{*dI#Ui!1Ey;<5
zddva-Y{N{B3sJB@>#C3rl92GtR;>-qHmq6@DIm9AWzHhAk>adc)bLBp9G|n2&$h<n
zw3jL*?4^!ABQke)rLKE%S4r~Z0s2RQVe}xPv+l}IIJSa^87YSnEBZHWguV|V`JqCf
zgn+vf*;2M&!t2%a)z7SOt@H9bsy@RV5^Ro_+(58z&)=q5r~avrL<~Ejl2;jrQELx#
zn*w=k@9#4mwN^21ak}Qx?}t<wa#Ps%WldJ<mCTOX_%s;!1-LJQ$06OeM7Z!th$Zs0
zbXFK%1zNI3-rVsx^0%G+*rh5!nlo51WWSWOVz@2+P?P%r%GOgreCutvc#&y*zXhGb
z07^OeJ7LH-FHl1MI-6!1w5QEd7ZWztqW!MScRH^A<VjWoJ*@;KG)3lSPVE+RN#7(U
z;1nUI<#%Mua3VAqZlh6AF!(3cig~j?mR565JfX(5F)zIQW9*aLLvJ%^j#|6(4==hP
z<{tJqt(=O*ITi6Y_b@t`1}DLhg*<Kak0GkDeb#sPy869+yIfZD117>T*^$TlIa`db
zqTF%Qm+$_HuFYRw{CQ>G0(}HA`eE9z_GY;$+F~@+FzH2uY32KAhK>sRQ!i-p>1rrv
zLb@4wfN<ioGJio~cfu9{iS34k&y2UUek=W7M<2bft5qoEIm(l~X2s=>&rHBzcOn<j
z*8lyUVjwi(Ejej?Egk6<hu%dcNIK%&!$fD_!?a+)O|9T)JYV*Oz9KC-i%d_nQ08uO
zk)!Nd1r2(TTC?p*Zd9Y62tFdZ1t;#dey2D38V7FbkJ=ZnfT?J^GQ)cGpAKAlT&|x}
zD45g_N>8prs!5i8%ixw7qshS(=H(ne+&EmGS3;vJ9mE=~D$~ozPDdjT0^t{geMU<T
zzdyW{QVhSmi~ka%8^;X0SbyY*iO!A7-33_(=~caf(uiPHn_2GD1uzCmyJ*PJOOaw7
zl+LSe6?XYsVWP*f6G{LI0{RS+)L;T*a?+$)LW({?mRm>3AJ)+vGR(Ytm@=9*10vhc
z2c!ai#v8g#!JUG|J(yBW-h`PR-^NZH5J!i~VAA7ejRm{Z`Yn5cLU{SY=>jJ;8SaIJ
zQ3(-n@vKM}vdnNMKl6yH3r+X#_PN1LZRaTBeQ?H}LxTu{5sqnXQLf2)n`Sc^8AmDN
z#avN{tRKD_VO}uh<Jb#T1>b>4xk_L;{kS_9L$p*I8-mO=+%m-S9*9kjmJl(b5{ohu
z#*}487XIPLzFI;5?w9eIaugfKL5xzQW(wG6k*7JIJKc^Iq`UMSR}oq_D<pe<caG5h
z8Z^5BxFwPfojyU2<s?^(G0P(ok=(<-SAM2;UPZ4nvS`%qM(H7h49yQ+-9TkCXl3)D
zFR`X8Ee{60h^{Aw!ygt|ziwCXB_~~x{)i|@;J4VZZ3DJD6NwmuTF_UWo_$?$TPAg0
zi+@9^lue&V&P$#dsWzqr4YQ8_8p_}nGdG~X6F$5t_!fsO4~f^8FqYEq3k*y~N2kZt
zx@UGNooJFj5cnw}m{q7;)#1nXV~Y<5DI*~mE3&g{x43fS94t!u5TB^ff(_uuVoHt&
zb(Ca@5BB_yvc=@e39(+jSj30SNcu^73Maffwx$XiL9~spWZ~oWInNR*y(dQ?YF}LA
z^t~e|{Z_j$bXR{QL<q_uuM#98sx;R6#OpZhbhfw+Tz|dPhpv)x;fCzubt}|4H-7sr
zpW}eQU0c~7gh?G4Lscx=CgZ5TSD3)U_c;jSSG2?Ynz;@L@a1ME1xN&U$@bk6*Mo1c
zcZJ%WWvNK<8XP4dG|SH2qWo*E-~Y_*@4f)M<DZDY$22ome_6Vo42HXN?5q6Mz#2s3
z*z}`cn|DSE*wTEmBqC(G9VS0+K5&aa%A{NJ307LuF5y_D8lPePqi?+tNK}5%tg!9=
zWnam4u7ef?td-*v(sGwyO91V{a%x;*%lG1*pGvzvbvFb=2(SH((RV+uxeV*yR$j5a
z>g9X7zDBqciA}T9f$nR<%~csR)yi0OZLeE4ZLw~jK}uGP_2U{1^ah%DUgXk}TA+q}
zj%(LZD%8B{8n|RpQ`gMQNfVx`UCSBeC~IC>^8cXfcV*!c7#n!-^r;-%L!W-!EWH%=
z>Qe$8%MY<tLyBSZxNsLUBFhgbr5}fQ;5rU9in#7Q2kl`D{cr_zRK=8;K1Yi7r<svZ
zr!K5lzpZ+%m2M3^H*;#h^rvSSW4UwXk%h*Nr`#t)$af30q5VjWMsTj=h%$K)68mSU
z4cwW-CVcjQ!ihNR8lxCFlRS-3lu#AJZ&&84KY2=nq1!*SR3hj~ABjo$An{Q%l))Q>
ztBChNc$ocQnhq&MuMB*?b4N^ToMwDB&lpXUGjvM+8yxxqRv<S4lhZaqRB*;|_ubP~
zkt-w;vpOIs&|%B@`I{=M9IR!VSID?TL?5c7dg;Ti!wt+qijh`^wls>_j)%XFEI+Vf
zI^c(Eq_7d;={u4p*c@Uh?Kga}%+S7p@U)|b4fCVf)5!gqbq+Cy%Pqb1FMErcrL-F4
zDRteR+@01CGS;Sa(LM9=Vhf)BI75qCK4nEU?AA&W7WDwhEq4ebcv#+jj5>fdh=F9K
zW@mzFL8ZH0rC1}ZkALW}i`^pDz(I^+=8>3l{zlx^qr?As%r8&9sUnMxddCRCTlx6z
zRSP)wHvHD;VtLPKt&&6*L2@c}_|X=9<1l2>sh@Kjy{qt}fCMCM*|AT6MXFq40{48E
z07*2jsxjy>4~Z?&IbeExqdg+<*!K84?jWfxX?vxbPbUM0J~*OgS(44aglqDq%{OiK
zHBl{hS=_Kw*eCTDWvr>rb+cz^`vrIp4XntviJ}rB(p|ba5TXg|<<kzE{J-oHR<!YN
ztGE`|x-OS%7g?oV%QUE_X3q`c?hBMUUo977F#mm8buvbToO$=5K9qv$`kq+yZ`7CU
zV=us3ir9W^u#k9W(Dzslan&PAwy);rb|`e%EJs|l`nImZpPSYW#<+N>eA(x`u^*us
ztMhtd?sJCCL`iwtrcY1ESpU1}OU-K<F}ePxGvzsBWjex;s>J6sskQMj<!OG_d16gv
zFJ9+=;}kt5Z`dtda=UJ&DITP3di_|qi}n67UciRDpWq<WZ!`{%@Zw;n(oMF2_0if0
zaL}plu{zMuw7N>Fh)H|Al*+YyoWNT0wSd&7!D`YmElZ}GFR*d(@rzKB9Dm6XIgNE$
zRpy7XC|y)Rn5nQQdQDjsR2(CY3%4?gAgwG=B{-p;ieO}=tES_lwKvMhFd@TDcYnAS
z3!}@dCVAOo&Xy1gzO!}d8;?4tG%gT{Lk9V%ne&lClxD7Rb)~cE97Lo=_lfOwLoEBS
zl@Jl`Uwe5yWD>X9t{a9>4l16-o{F@3;OW*X>Jsm9!t;9wL=7BY{$$t8IU<uY&kT6N
zsk>L1qHbx>m-AE1)IdaQ!WZEzlCA)b!g4o)oPv6}t{=+AULMI#dz@Jyu|?R&h>qHv
zmzG1MPYXTBuj;S3kC8kdvzNQs;SWBt-@N}!P9tD2s^yrl@_+C9M1LC>wz$4z&m^3)
zkW1b`c2CGKTnQyauX$aHS(3Z<YZgR{SzSa^O1M8S7HOGWb00Mf*JH6x`Y`viZo$pQ
zirRh#{VwrI!k@&7Px15@%kvJ{@)}BMf_)#ZM&C9Z(5CyentTa4Io{+QPked|8!?`K
zho^-=-PMC6!L_1BPCspg{S9ymtazTZKDRq6#G{=Z7?_lHy1X&!b!6@lvNr9FEWFB$
z5gU}S4ffVNOLQZZvopW^KBlyVZ=t?5x9Guo@|tU2bHbrfvyP&n#=s9nh9sie?0|v#
zEb8%~%NM7O5tpy{2}W9WqMV~nDPNb;#?j|b5Gxj@eRp^SQDtj_a^grV1)hazwj||E
z;s7Q?ZvWE<9ryf=(^^U<o7L=Bslj?!e;3>wq%1Rk?fc?ya)m;4<xl6BeRe2%!X{(R
z6V5y(i-5xj>#(YVHZN96&&0jW{arI_?XTNoFQ3?Mo2+_MX>#|U2#eWYxCjkgW{!9*
zl-frazqcO7lgDJ*#S-A>&6116&Jt<bfzM69CMPZ^o*Ott*5$a`-x_Yz6<8x0kbOPZ
zh{9)UB@@C#iJ!3>uQ!X(KOK3z$@tNjVb<d;-&xIe6+s7if}}o)qoIbA(8fC#SxQYd
zB9z$aO6V^+o<9##vm7KNqgy(Jg;&elksd(1d>;nn@Vt#mV;5pMXp7@25o|T+`t$jX
zUgGA#Q<1ia6bdv9(vr4*l(t1F-``js$<p$ajD5$OEnP?2dk}`=ReVCMb;RQzL2v%l
zAr8#ia665iT%><1n0T`=!OeJkE(rb3WtLnV9!4_kcM|1Jl1Aw^w23*1oWMsM_g(fj
z(fGAz6FVC<B^V<d{ANj9QM=HC`N%kKe_^f38g?8!mrsQi{$wyvFFTNSV8EN_<1(6`
z&sY?qc`PV_P)>GgSN0z!7lbUnkT!hA#uFA0ezoCoq}7F_z~hG496%0-AGNn(M?Z$s
zjQPkls=tawxbqJN=B3>RvxXb7iRD3A#!+(SAB$CTLEYBz3xeW~QcEqN88Z8>Bcp15
zb244grg{#+u>?#so?^m@xPz3KT_2opu3$6LLXDNsN9*|57eY{lA@aJ|a544ntBfJ-
zueUjS85z68-53a#Y1H+hyg*C5vv%rRZJu<MUcbNaLlyOAmcK@6O^so^KHZdBZ>^h0
zY{h7y&$S4XypU{fX$fQmx^bpS8Y`d@ai7L)BA|`NK-2Lc$ox+_rxR<Qf=8m0tpxQ_
zJkG8tUO~@$-j=kphkexH<RLgWVB;S-KbnbK{u!!v#vbQI8NaJ^jXqBZ!(4P!O#Vr!
z4e35GF<aW!1goL1D>j6^=7mSDE21J(T%OJG9gE-cny`!%6AfGi!EU6u7q;$^{h~Er
z`4ZcCi*FwP4`=NHw5uaX=jz0=+^iJ??U9;7fqM&8X<_82GhB>B?GejD17XJ(brr4m
zUZh1d9)%J;=wMG%>S-uIXuqCNKIGKp<}u3EEE&9eW5dlR<DD<#LKq1{AN295avt#u
zFfc5@Bx_wmi24`NC;9P+UBB*{h)=s$Tc$mHC}-PDh2MSOuOpIhYIJbS{>_5NhWX_T
zt8Qp)+A@xQf%ovz`kE9bT;mbP*S)Vj{4O{SxHhU8G8^$u<cc`X$J?@!APKo$T5%J*
zsOW>`YC=dAqMsjM<Evhdqm|eE6R6$t&iH#cfgQ|&O${vw&9A^DyO(aoyL?;Nh=Vgq
zP!>E(#tews)cwu2?2KN7Q8C6?;tHzEZF;n&-+LgqixTPeR}7z4OsGEbGlj@K7Rp-H
z73nRz@V)ka+%y90RCV|x6`y=L2lL!xgxkoq2trz})<-**NYThQPH!>(1@p%!<wWy$
zl7EMz#rmdvtw}V<Vb&zvT91B@c{K3PpfBC~Q8tu7EJyl#?09dH7Ai&$?$l_)F602h
zkL(_KEfX(sXYYN6)G-Rn=#i9t`0C0ZpQDeuDB;3Iy$lSK?{$ggzCDc0m|c8cXY$O6
zegPtRE{#efXJB2>!4)^s{VYTZzRBoPa(x_WU>p{fH=JnP7tw{Pe-K?o1jih+*}@Lz
zIs17W6p9{>f6|}BI(UDO&LXTF>n-FP4AXP&jPEMpYH@RQuis@_???1@jFKy~xFhc9
z#jDyrt#A2sEVG@)s=w_`idK!d2yp|C8clYjtSl4jyO&+YK3@f9({iUO3qDvfT=ZiZ
z=v14H`{1c4l-r}8cd-79?Uz(LqCPaFMj2uOtvzZS;xhA3SIr<Thq1|N?s1agX^***
zKXy|iB{#|@$aHz>+07RB(5F&!*X|2pjmDxwSWi0IrI~c{v*sHh{pfLHJ$cn1%Df9;
z`_7Ir-Dynwtgs*=6=X}*?vI|>1@2$#$6}*{E`$%JJ&+H#PzFVfFsjnVh^A%mAV_zJ
zz@NEi&1_xCgI<3*blA?Ws^k9R{@E_@8WWzsg-H*uXC=mqCgf^yQG3WMH4(C^!EGUB
zCMrIs8#TmvAxF$Kx!6NoqumEZF_P1XX41DI?uBX$naD~#p$Q(wg2Zf#mpk5d=5cyC
z69Q*m1S`-WY>Bn74gcmS<vORwDs>g<Tp6NIT`@8^{nI4na}xQhN`PJ2ZQrl{Cwj9*
zxlMz{E0=Nem$W6tzBUTAU!q=DKTHwx_}cWhFW=;Q$}jBYdN8+~4w6BBD`oaJ7rZ_r
zx?COAKTfCfKDdCImBS-1mu<W*;@r(7nADOeYZhwk3`Ikg)UTG<<0*{Bi$n$u-oi;-
z_@MVpPMplqQ%%-o`Sa90d<Hle?0<Ydisc!hx1IedPDq_q`9p%nhmwynO_Rpkh(kiD
zqnenAMJ_#2<NiuVC`A!Xp4&P9O~J@JIHm6k=i5v^sAiaKnj{_$ghEg8%OEfROIU1W
zpJWyROb=R06HFYOH~{zi737jgr)Jr1yb1>rIi9cU+<ryNwb#R8T`(!+=94mFH~zqr
z)R(s&d&hxin9jQ$%PHjy%3jjRvhv@?SU4`aa$*KIh7}nJ<i0Cm7X~`3scbJwU`GTd
z*26bSWj)MR{iA$&G8!THc?{1zo_fk+CjMHZdORO%{yavN^dc)rZK^Gil?vYZR63-h
zC*i5pN+HquucyI5rzAR!y-6*7UYXi?qboUC{i4AGlCCHn1S&#NF@gy0<^w4jnTHA+
z)4EE@*1Rq*ERyHLhxDq;rJbF}lat1MY3>pyC_&#f<Y~xSs{Ave{v2vQYs+4dzrk7=
zL0AU-4Ur0|_`rJdslvhjo?3^W#!kLkS+-F+OvAT!o&lURCMu&)26b}0dD-OrPzJfC
zakm6Q;+&-C^0<g;EmFuX=Fa<E;jPgGA$VH^pcXyAGtXu;Fj9|ys8Ph%6?PgfqAJ==
z@mPIq_H&UY&6A&+XG4i@VHHwgp{O**BAf8jioK6sc{yi_8}r+gwrqo}IN~8n*(1C<
z1wRfbGv~S>>WT`uvgkqB)XHHAthDde(Cnc?>h}7>bc7EDA00*zg$jHYQMxX80xCGM
zLs<Mpj@Wm}ZkV5)b>0EepL@fD?oj1Xq=z8PsK0C5^h(f&oIS3=c%=m_tXV<i^QyyH
z(G$#lNMfAm#^Ld6E^1rMecG*W>|Zyl$6Sv-62*xPEm$_)OK?h|>`S}B+}EFeJ1<`)
ziC|Rn<H;Z}!8((o@Es0nv?FcE9cgHp<o7KiW+&{icW&9RvbXa4%`k*K_;HAIEYMb6
z>kD)v8))=`jW0&u$fZ6T`MbM$I5Sj_H0pP&^GqUq{lY7)rTdJ%=}g=p`5MFK-S0}i
zG_>fjoss@Myux}_mgk-uhH4gV4n#Ut$cH*nsmSXyzv#DW5-0CY$3_|2mHPF?Zia>^
zDu4|R$lnd2pE~DeCf70Hdan7F0q)lIYqrCx{e6aXo+K^<)uB+~Oh}ZjfqwEYCmCk?
zlA+WV7P!hA(>IK`gs>*9j8UTK-~@ex-MH(6Mav9cI$eXelC}MB+kTch7{W}J+4?g`
zw1vnyN_h;*&Mh)3iN6K?62c`v<<RTiE`CBsS_lb==;$>v5KfEp8*Mpw%+*;ODV%)I
zHM^i<nP@QXO0y@)ec+Yw?5Ii0WLnyWd#JM!=R-Q{YQ(`T##;FUp98LNc4Z0zK1T)!
zN@e<irI@{#C03zY<+PXihYh$}7LNr)46U!mTFP<2iqOEy95#R4j&mTj6cGwikwlNA
zl=eDAVNXbHkHZb0(*_P#PZq%7WX0B@(s`nLB=K=IR1BR`1{owYGaKI2Z7UolRmNPB
z7dGB$r3xPglJ>hx%}Cvp-mAN}=f7+ev^NggkTN(FYx>~+yzVJWoIpyi7SyQAlL#?#
zzJ{4tuWh!xM0reww{ke;@6MCE8c}ZqCVoa*$lyhN?a~t6K1mC@#+2~!VkOrY?;`@&
z0>u7e25F1P{j_(T{a8jG8AfF|;)90DxF=u;m9v$;Q7|j64TehwSDs1Pwlba)EibOK
zXh%wpX4i5?c*lpH_V+BrfMCo|=!~WBUk~U?o_pdSslslvPX<RbeS=ZHO3!TeL|p64
ztRG9H`*5HB7>Pf|i+fi{`Pc5iTPJ*?<1pC|tN|}i&Y9J6aA+4`gc)?XE8NtB6HHlL
z`><Ss4aK4{T-;iFc})Gr`#RjSt#XD~b92s^^`}zN$ad2;>&c#4hfd{-hp-tE3@;qx
z>jRtqI1<yoI9bT=C}S<QQ<aVFZ+SiTGTWY>wmF_jAr=jqUTK7Bd%B+cd8V&z8kEns
z<V7XcH2Z!P^NfE6W;}hgkf%S~{$3PmK*TuYqHlz1U!LLaDJ7lkzqXw7Q~{EDzYZNk
z4`DCc&MGL*aGU2@lIfW^^oMWl-=~f~5h2-;GmPZs2KMFfJYqIA7t=1@0F9SLvp+1_
zi^=wJ8Xq}Szg1<v)XR~Ujn0Z(Y71kKC>n@@wzub}`7L~LfKNihk%~Nz|JMtk{Wrll
zH;2auOKnoYCncuZXc6qALJ-hs8Iq57Tzag^(N??7b0m!v9>juroZ3@6i<8Sxv<G7{
z)$bAMJl!B^rHK?7BAq(j(cPW;w(S=!5lP66li=&;-6yzxtwR!m>s$NAz2Rh$Y|F4P
zHH4^@k*`tAtYN5(-IDNUFA;-Nt%vff_<Jc2h1+C8&(Ik<sy3=lUXY2slD1^?q=4dw
z6M5twYKx}k7i@0-jc05<R&Dvfn!1U|h=1|2{2M8XTt?7+k_qB=neNLET_YX1_}s4>
zoxaG7tqWqxcJXi%r|-&^nr(evy;MxMnXnt*F}^lo>*(ihvWqx1hSq*5CY{X_Mf*11
z6-Z>_34H4bD$y+(n~LkY!-4KvYS_B(Qir$B*+JN_vu6HC6uppMA&60elKMyvXE~ju
zHw`xgW%h+WDRzRQ!E22tiMWv({%Q?8K0&qTT~PmsjGmt<%<Cd6BcVgFj1q#Ui$)vH
zRv!9GpTc6%blvgDYvaw-=?&P5;K~w<q1(g}YHN{%wKzwiivz(k6kHt_4%Us+$V)6d
z%Aw+-jK@tYV~=8KOWl&Ip1ff2Z^&sd65!0$FZu9---Vx_@VM_pMZ-i1GvrOK>>_0p
zmAx~T7NuSitvQyh1lQM`+`oMCp5a-p*e0{fsc8fpRdxi3SI)#H;@Eu%S9#z8mRF&{
z`#Vk*g^j8<{Bvz|;m^|hh`^7}qV8!;4sAYJu)lv;NaunuAhO@uh3;Dw<WLaezT(oC
z{0e0*ofBL-wjC9jYRJ<6UO7Ns;?)!HdHkR-X>8*ClrqlJf~Sqrfy3_yVswEPSvYOD
zZ4~?kq$zQk*Sv3FI%Ta&4ucU1Jh~|@i?kFJNb?((<L5y(ngMEc`{%^isjt@EFux@V
zEzqjrd@#l%(_2p3kYg4i6BE{p372fv`f=5#Njy8aoS7;?tjm@XHJFMfVAPyvD7KoV
zQzty~>4z{HRORnuTW8gh^?{T!mP&4u9<O3ybc+yIwI|NZ0nlLQy~c8nKP6V~KC#V8
zSO-OGrFGA3eVt>q#f~WhoRDhAlo9*K*W<$|HUp}Y99dF%CRT~n?Z>^bTE#XAr#fe2
z=HrL6?8O}dRQfg7cCiopyrKFZb{F3s7Jra2&8XcJF!#Lticbci8u?`?&gFa23DM%8
zg~r_Okh1ri=S%6mOpzTZLsmMK`NeY~uTCY&)mfQguNL>dFFVvyUz|nqXqSBw8C7h*
zDh-qm>4{s%HAnA`)eM}09<I19MKr|W6s|ba1>j>2SSp|G0sWe$cPvyws&51Idz<fT
zDk%h2J$Ve}Cb1egTWS2EarSRgIDGmC;%wo?3Ue_EBW2aq{HMP=2K5YWMQ4^QgKT>@
z)btb5o$aCKPL%I!Y~Q1s8YV8*4Gl;nTj@}waDOG!G3>z&REt;|j_G4eFd)|LJ@ew2
z*nHpXJ~hfWVyn|+(Pb&2@gV_|efaT}nYPKz^3#3}bCnZ?9E0W&hoZbTv9}U3<0*T=
z)|Au8W9%K_+GrZrYYw$^Z#y1szR;NeW+YyHzBf?B598;{D`V=Sv?(!r{l3`^ei}8n
zUp>P#XSeWXf%Mab2!y`-1#acDX6NiOHOW*v`xgGuZeQe-tlHRA@cxggq?d2;8SbTF
zw0i{%QiZ(CTY3B$g1cA0&4tUpM=`?nt!-obAhFe|RXVOnHURo769M&u-WG^9vh6h<
z57hbwQ$2zr%7&PFj=K?>jvLXu7OTK2zJ?)M?5S@i)*${(t?~Cp*+oIBKT)`bHDiXA
zADOKG3+zp=#;V;j40^mP`ZHE2BpjVQksC(h!uD{^wsd0hqK$<|1g2VBb$PD5&9`G%
zNW(i%7;H`d3wI&VQuY*xz!{37%gqcn0^*Dg^Yh*48<Z9-xZ{(}7O3B5sNg;GP7o(M
z6`t3V=_1oLFkRvmbo9iDaQSOoV9jkkeYcsURIS`AwC<JBWW2xp#O}YO^i@nKbieIS
z2R}QJ5K4;u2x&Qwr#a6vo>a3JofbJsea8%cH7a5RYv80F&p*G^Y^nJ+{jE}x^E9OR
zkF=gjr61kpyPW_X_bFwa<KsBnP#)Cc!L4eyUp21yPjzAh(qfk@(}A+81*FuJwr$&&
z37|#TaMi7TazuI2NOq9etM=;=CxwL8G=MW}ALP=FmST}I3{j^szgTH<o!qF|x5yfi
zc`<*}vnN?*t81M8{gCDUe@a)aSOU&HG#gpZkNK%7DHY2PK$eN;d0$sL>|F!n_%}E4
z+*kWt{ZnJbOnN<SHj|#I(^Jd59SfOlF;G+7!p+J=SHtYm7YpwyTn#FtZ5LVw#$Q$E
zw#nfTzcIuTW20o}DEUrF!o~4ke?UR176?PU9InHk6%soHwfiPSfA##TU4XZ&=(uEW
zk<HR2-}4{X+N*f~!PESu%IrO(;S@#Blz#8wiBlu**RNs07CYCGepWR{Pfu4~ZWSF<
z5x!0+t9_G)fAi*B(@4Jv_qUi6Arnq7>uI4G`~Fw2v;1(+s{}Xj*|>-jWw1<&YPZYc
zzEr(Mx6ynMN+q!#^SY3Ys^xmuUfH+e_@A;$*ipbi2_^qK?WMwJz!k0ZPI@_jnVfY>
z2U|p$0h%sck9JYKXzo>zCKNe3tT&O%h&ITZyHH-{_!`IfWxI0$0#V3)Ve`@Q&TR5d
zTXLagTagxT*<3X9L`Lb~Tv@*)-E%`DA1#VV!?Gw0&erOA)o?w)+<}097ucywkm>P*
zyY7q)+g<NBE%Bz36j=`Lxt$pjPK~jS7QH^>8n-m{At(<HmmVJILIa}N!a2_a9Jj8l
zv`I!8Nv?~{5wZJVkDCy09>le*U{Xnw=xR}KA1gjv@RRhLdASQ@eLWh7zUxVrnYv`7
zeL@1v$_vdt__SOQohYGYth=P9%r<m#yPQ+#&y#*jB+m}wvdYOh=Oq^sB)|`H0bjWW
zFusexVAnN1qBy{|f}`F+bT`_`J9%qK+}i@*V~GDH-Vb=o<nI%>@6$Q>xhA{Z3<#IP
z^?_q!xNXgMN&#_~x0VBm*4w2GntG_2OgG>^x5n$7d(J0*oE7|jZi0O5-xkm!FXwAb
z7zwc-j7FN+`-x0-zrb6-B6#XIA@bU3Nman=ncxiU0$H=vx-N)UvB;ja6~R?+rF{hA
zpilwF^Q#Dqe|QK<m{iJuCEjCS(+xnURe--Ds#DT!7Pmkc8<BQw_$F4?3<gI{IrbrV
z`cAbrC;k;1+Y&H9gPUFu2DJl#oP3m<T17zNHcr<lY<u#cz~t;kDe!p?NHA$*?>HWi
z2)_Z^7C1}?C>j&pqZ%F{#Y(G2l*Y5<0mgbqvS1KS&j7d2YKL8*z%ut;0=x?a-o2s*
zRJHMTdY_R;??C{RnS<Poeu5=X$dws2d6Gr7?E+~)c;hIHNACgi=qkBh`nl&5m`Q8M
zc?jSUZHmg};P+Puy;&{y(zxm3K53eoiUR9fvZKBeXiy|?I<;bg&p4h_o6MW5^Fv4c
z$45Ml%bmSnto>55_F@I$Oq+ZXEwovY6JSC+7j0AEg*XO-L5d0H_Tvxr5kz=<T-k>J
zK<gBdZd#Xkz|Fk18cOF2iRN*Qv5rIF8{1}jlfSac(31xaP+hRwey)c1c-yx`gdR&G
z%~rBE5Bh{S2dj#%UqPHWJwQT_y6IfD(~qlH*Z-2jx28O6O~}sA8hu@qH9wn#pwFxe
zW0L@a`+KO*l_B&>dFOLUu?+Il+`fmncMx`#bY#1ts56i-P=y2lZ?w(<$y@L3g%&?O
z*qNz08g;N2FmDYHX9{1sv-0r{2EwsZo?L?zAS(&6MAiBg!#g0vz!v2FD^!hy&Sgld
z1|)V&1C=es3O#k-)+?Lh6T|NIalm};wxSZk!x@zLl!Vgg!7g@_r^oXl1;hX!PMb%I
zj}HJV(%MMPAAI*nEfCUhOaO*C^C=uCnjakkv%sm=0MwPHm7ir`{Mu!c<W$zjR@mt!
zR~OoUhm8uo8Wa&?>6#r3p|XQ?T>4cFitaa7(f|!+4X}cK&Vb$G9hJ0QN7yXka(yx(
zzecUIy0rRPO+cdV$3(QAd{2w?pM;jHE+hco^RYf}fE!bQ?Jp8}yDZ!4LZI762Q<(5
z9JhP!Exd4cU{>J3N50h5O7Zb1(9Do+2gsyp$u4h!#*N(ogL&&Gz@%&`j9{ik3=mBP
z+@)<f2wvh*YhIqlIS<U#!E|Z$&Use-rWA-nVGE(uP9N{0nu5=L7>c<O>=@X1k~AIK
z&$sq~k*yttp-b#tcG^Frto2^)*vylXH;06G4wSn<vO8=gm)gAuj3_rc)if^0D7H9U
zac;)s@nr3rFWwe4K%n^(V-L4lfuZrv-3X^haFwt-W#i!^Nr(%`ajLf}>rG(ZXez2Z
z1tRpCQB_gSc*e~Kw_p`hrd2xqn6;9j{<nY>E1Ua&$}>Mi89+Ke0obAnBLMn!p7MK@
zHKmmPk9I42a>TH-M4(f`F3{OI-U7#O_y%A=&pBAW98Q9yt}oYHx-EU}A020zqZUnL
z(1T?0NaVUJfrgh4$)KVRuLPe*6zHbJaJl|EdI2w}A5jv2e{(=kD$@PmO0oW|C8sZb
zscXoOi}9I*&tD%>HxQ_qLgUbia_D{2lK!FF8)GmM#>Ud_cnfm$A}`xk9^r<BazHef
zZ|)S0?}5DUr<k|;K_#>vi7qRGWKL`AjYVgW7XVBcN6|)1FwrpwL~QxO#Dyh^;;7e$
z{!SKH34MjUlV0A5QY!c-40z{BJg5N!EH>Z=gl)ceO2eM(^v3QhOc_~nxR5?n^SJ~_
z>@uVGu9vD^{2qfIES~(-LP@L|T-z?OPkv7zlohVy`pgx0a<LFU^=9@E{O$q{h;zka
z9B~H*VVvGPG{-wgSLU>nM6J{LiUN<Pe0K8G39C<{VG3xYDf;OlPnRVwa;TLQUm1gt
zwF3@_OoiY)i~)n0V2jJ*Lu*KV7+R3}8?U{(4Irh;;xJM3IljyrK<{{tCv(-d{RB58
zrj|}3i)Mvz6kM1)CV|6SLe%cqIB_~w1LO}$LL|Ju8F}Pd(BM(V(z&8!*kLkg6fNxN
zn#n=_t#13lidOHk`Q=wth@kB2*A|Fo5CpnSf)(yUKWvg+1~v$Rs7&XW*uy*3iKjpr
z9h|@sC)7&?nsaaBG`*-BDs>TMiq&5}^l_j@fysyfe#0Bx0t_^Uo9MW4DH;V2BwG6e
zHDGdu`lbFWzi_e!VZ4vvzgO1P#IUv>qA?12(nF=A6M6x$uETu;b{nqxHD1brYM5HB
zAg0|7yo`dRQR^V^*}26SvH)$CP)y<5bWMtrsnUH5|IpBl7QK3vGpz13A(3cIY$Hw%
zRV9f!c`;TYTGDIJ1YMl|Yv`O=Zw&omJ)lJy=22A&P*sdgUZHEf2Q_<1FP~xdXNTri
zMk7v@LoB&gPmg@J(8hC8B4b#!o`DK)oAQ%lEd;YxOyb++zyw^2ZDP1=Z~?mtyXn`T
z(Y}AOV4h%~jn;a}B9BIhMZW)m^Msf%`cJcY`s3SjT1=I|;U~y0i%*_ggE*MUpY>xo
ze#iXF$A=FW<?n?8&9N!t9S<~=f~GFuQ;f1~5sq$)uZ900S0p|EaqSOY{QI)vWTfnH
z!d_rzVRFY^2NS);rM<6#Ei<Kx&PeI*o|{mcj#a-%pw>YlS9h&`)s@(K_>T1Y%9Ego
zZqb(IaK%hb!T_pcf^aY`zE6Qr6x2NDu}}0_@Z+)i5PO|Z%A2}~&{7T4qE6g80HTN)
zFnwQ=V!z2fyC*X)&cX<y{a{O^XQ9wv9UBA{gMZ-O)N$?Y__CA?onUF&w)J-henT0S
zHC4jU(odv)?y;W7oNeRhfO59924xS~x;^7(s%@VLVj-tE>!c)SB{}NiSD`!P*Uncf
zIR8RVef(7I!g02rhG157L%$*L&s7q=0jsH}V);hs1{<uSv;WIyFiiYi`)?O6&j0ND
z_GEs|=lQYcu7EyjZIrqv8(obK6?nul!P47&Zmxuaj$?rwHb)qJ5C}u(*7rg&Mf)P8
z(WgHOE@{uorXK`Fee2*sD-~*6M|&_onbp1>a8kA!S`@-z%G#KJ<T<I?ves_uViJiy
zP7N+w<e!Kq7u$wXCkHvcb%Nv@Z<?_8P~*3YzZn_Gpp>G@?H0y)(|&D=av_4ta*Tac
zXF_n&VizqeX|i%G9egy|jbu*qep>Qk*$4w6Y9nUS>7a&bywR~@zaxHr5_z$Ptd$?n
zX^lW_>%Y$sNyYj#?3;E{WiAdNr>)T_K2(e7F=u^>5ky94=X*iWeCUU2Oybw&|1AMV
z9Uo<%y{mw3t5rKl#T0;sl+yPE-6$z@u|EhOp}U`XQ&&kQ+t%nC@Ii|NAE@z?p`klO
zaMpahgeM+XV~`4ytGWcqQBsV`3iV`$!pxw3D)n5=3XFXcjw_mj%L%%Mu5p+JXA$lg
zfj#p4(ncMB$s9fJMcgYtXBcHVUzT>p8Z|DdUB<z+k?#Br)ix<xYS!ndOmrapwcav$
zvdPm(1&xovJPQ=wE~?DT3-x*oJAc<sOo1bTe5#V?K==^PKxNL+o&@h9L<R?!-QzK%
zFOTP;Z2Y^9gpY4)I$#_Q#vH5P%?f(~5B=aGPfPr5Ls=gx1bFZ{MB|g|S`7dEBcT+>
ztfiAb$k7;f$Wla4yuA$c(8ezT%%C?p*2Mj_ULoLL_+>geR;_JjF8Z<#0<64aArwl8
z!CDe;G|~MtPtp<1c40Uri$T%DR=#`9xiR%WdGAL{2Ok-$sH@k75dFp%n0%D0Y`_H<
z2@S?s(G_UFA2N&^z{=*0o|X6jdBOpL{`zZapO-^7d77C5KYbTBQCUQu<H-EA{>kSp
z^R148)Zr-VAi^wp-W+K3G!Oh0T1sLGwRR;e`l`?xv7nzEqKkOiD4u%T5=9qIm$8f>
zShc(ipe#$}0SQ=sD*Q{z5bx9{9Qj*qN;efH7@L(ha?Ut%_e+geBTioEq24!t;fyud
zyARCs&wr6LD(l$<S1T-bQ0T>Ig2Cl?kTy!!f+sT%+skh$a@UAl{OJPV2_62Q*<a2{
z<^BavQYyEKvrU&j7Nc<#aRWs|0BD<<c}tj0SFlza?r?ngc)u^upMy`qJZMB)5et(J
zVNc3UXIkoFcq5k8&S58H((0e7^#WqM?i>rF*VZCeAvEO-d^e+j$2Ti@wz%!EdOZ2%
z66Ugav!I8(XnblmXqL@!@4Kbm@iu4n5*4vPQ<SaHCwoDiHiT3Dy2OEW>o$WS$rCz1
z^RqhpEsAY<D0=qnwICCIBmV)`Q8gEf<Q7sbnN1f7setY2(dB-zEaABr<^LCFIrItb
zcMlJLqoJOyI3?Swr#xK%CWS_{HonbQulrBP_n8cq%kK2gcSnWQf=})T-yPEe#83=Y
z3lFt>jq`l|vs>W*?1isgdD$JX`b-N8O5<OR`(IG>(1ZKUF|bH`zE!h-yxxCc+jsA<
z{^Y^L?N@8d!{hAcinq>8>9zm5WB&oM{?9+tU)`T%@=Ph4=a7-DE}YV(s%!uMx|n?g
zAHyWsYNCAn9q^y24l&3p``7jOCwhAK<k>;f`?8$eZ&Xf6-u(HW-0lDK!?V{Ui4sT7
zh4dt^vNDS!q&NTbnt>1B+W5l1fX*}tr&xo>UKe%lA6V%B^C|$H)<;{_;IWJgb^7=C
z>Hqz0j`;#8$qR>cCD%7a(v$BJnEvBWfB^GiP1u)5w#bJT|9(yW?dNI29Shgu>X`Lk
z69$$b-ZmPa?k3RZ&mpq_@IxysEUpFyV3X-mg;VRvx1Da+YXfX#|MfO^Uxx?cS%SDu
zg~*-{NIce|f@5&f6H1DV*)^`oQC(h4mbv6jg%@($u+LPGlOJ*P@?Cb@HEfW39ZiMq
zZb;627nnA2SV|H2|9*w*ME6H|3(W~W4x(D`&D>1TOiZRmOIqpoJaBHYtAvy6{+Kq+
z!D?B+7UkV-djB=mXX54Q-&(?5_nE7shSBM}6ykt=Y?Sfqq}RD)bv=g4O$=Wu6@ar6
zCH@|#g^T@rqn3+xDh7MN>l#Ni*-#~a+aGlWDcb^iZu|3d(}0ca^>iN7Sl$IrXY{K7
zBIT<%14^U3-p9+!D!Y6gY`$>vx`_?7?R7ot8qg0(YR4zNl1s9vZdHl3IJ||q{LVR>
z?4k31+q37@T4eIq814C@m+T^l{;i7Bc~y|v?hA_6>9m_ad38zwcW~W~rR1f)wu&;@
zbT3Gl0bpF}?jK5<B2!$BGXExE-E<0yiGSEbO<5#VGsf$g)sz)GE&_{-GT-aJQ#kBJ
z>QC!{i!q<dcEgPCaq<EJPiybFC&=&Y*aa0z*&Xvc%UGEzqt8evdA+Ij`iH1P&GQKA
z^m#RqCCSor=it96KQH38V|5pT13dJd?kuFLUeOu@sdfI?XFHw?5SFtGqC~#BzngQN
zi0t<F#B7=KSc}u$0Xewk1F51jAfo&oE?2EdxrrO-UQuC)CIp~jP6H^5)}s+X$~u6a
zsx!H_BD9uDNp~gUdzX%M*CTt8BE;kL#xL%rP8fBa?_?Rs&S^)Z0tXLI{jObbE*>QZ
z$II>EtWa?PssRhWh_04!3bub)lk|hdS7|YxU%TF&ytCf3Un!N^Fa<AV;@gtry4^pi
z*(Oh()<jiukBN{~$%~0H16f(&sYr%s9?cKZkBI{60`3hi-kCIkTD8<FKapzh8_$`4
zU_#VY)(3IGo85U&%>b@<7eFLscb+3`&cMD)U3-~a|4nT76Mi)VUXX2m*FsRV_*VTW
zy;I8$*dvvL6KDTjtnF);VOjGd#33;AvIACRX?J-LoL?B>lB?*9zQ7BfJ82voA;_D=
zbqpN4q#<y&F0_@0IO1nLlv=ldaDERsr5d}r`d_#Mm+(t9d`!^X^`rj*8f<SNGBLnQ
zZVCWzwvcB+ND46xfS<{|cK*qqW%}V5COHdYI)?R*fQb&&Px03!qzlSonhyb{<#Ry#
zecEq)Q!($X@A?LZ<$vM*q4#LsWelp<R(85;S_3x?uEt)DvroPtmMDxp8sEuu0b@mb
zK&Ll~0~Wd5S*<4|ia5)=Kze8rFBQzU?qF!SXv+1`9A0+-mCuNuq3y>;O9~(!h`a;m
z{$6VSug3s^oxWpxL?brE?`VoU;GFrXF>u5g(W<l^Eyx*dT>YfnT_JSG`Q7&d_jh+0
zaK_0wbe}X0ol^5X`aD%qdfEzlU}W+OkPLPv(0RzXYbbQ7$_59<`Y4WK&jJrN9%53s
z@zpYgBb5a>v@S$3WP%<?4Nv<Q3Z&t9ziH<~b4-RNc(Ylj488ulf}CYW;6vu4ZGfdV
z2O2olIENYDjUb_ESnqp2JC1_UT^zjRc^e@P&MNSGgvi$)Qkzu8yI8A1ncjo4SR<A-
zfle+b?6ZbpBb{d3dFyZIuUJmV+R<UFt+l(h21xm=1|TwrXBJG{2yl__$MQAGBNbK#
z>^l;L9<nlVJ1iwVYkQvbT-Ys#7(IU255_wkwfxbNMl5Utyx~VA=}yDYTT}mKY9l(9
zq9)IiqtW06vorW1MD{^6CaKISC|d+cClNCApUQ?~E<M1-$90Vq>P7A2zA(>DX(WU|
zAF)kC2p^Ez_C;LwL<Bi8`>plW8_ccH9)5ZB^NuUN>o`i&Fo^fX3()T0!_x$sk2fl5
zPTgJ@46VRN2+|Zm>wCU5X=Jtv+B1U7*Xrb}aqd+2>9#mdQazQ$m!_ohKi}C{Z9XJI
z4ZiJ;rlZ?_$xkafMloMt#C<rPZnTb%*QuDKL&7{L2a+GfMJunJ?8m_2*B~)d%8-eM
zV)B@)>)A+y`~Eq{Qijw*h)Bd?bbWLJ1zrI+#Cq{ZI))tA7T=)i&BIf^KkWa!Uq#To
z`y7AXIdc|eA$5(NizBi7IJec`oKR$1Ev8mihJ9w5e(`Nq^H4-&=8kvWK^TBOW61L1
zaoX*yy2>DM6$+owCAnwb4tRH?7enEuza2hFiYVT7HFgwe96O2btPW;OLuoRXGR>Y8
zlP+d|R;>U`v~$fESIgB=ei^jlrJ_kFO5gxryMkz{><5B%0A~vRqtTzb1Ir}3<<V3G
zheY_(O!zfuv83$|ik|0`{5ssieqS{#$8!MS!Ij_3kt1@#0F`QqI$4aBr%fu3k_4#b
z@Jm_-j3eL**yTe?j1WOu_Yq39wLS^}FDPv)lW)u-Fk}18P$d*v@RS7Ahl+r4AQ;*l
zeLraAsL=Sj@2;(Cb^gSl?h5KO(CD$3U<q0A$CVpV(%L@2c;>xIv&P0>(ms$z6a8(H
zyN|Vxi{ZDJIZG#SYX}4VZXJz>L70KdxXihEJHXlDQ25lDW$<9pNd1w<bHl_}ZB0XR
zoK1g5+?1`7t-X#lcaR#C8dy9!^bl0&6O$`W#$WS<7NPX*kx)p|$K*}4vUEEQCYH?X
zK^F0O{13-hWxGbU;11LVcVJ@QijvqY&*N2eb8K$oJ`%>%O?s?wzTGDnBxtBK7uR6=
zx9k<TVFu1;VHYPAfrQ;6c$$z0wU&Nz&`whYww?r+kEk7^AlAcDaLz?50CVF=S`Ud$
zF+R(3>P<wThK;8+VdQ1&?Z#qHfh5`zb9JzSJ~o+c>(x}jdc8vnmCMFJhnemy04Uhp
zyX;y1_G<7Mr>&SR;R!kevD{NJwvV``Et4)qFwNV4){#||D1Vh)Xx_o58oXqkvwhFz
z&bqCnuPj7=@4ov%u3wk;Yb?ZHma*v1Ly;~STFO^{-h0Ljvxtnrw1<RchSNJLz;4i~
zLEdgg{RoeSNhFj-tqYIP1^)ZT5IrZe3tt$wg}elWQH3nd%(3>9ntT+|Yq=}PS_5z?
zG`l(KlPoFe+)jNL{h0vi?y~uZhw?+Z7<4*#B=FN`oXeCfUe(a16ezLs<XtMD5p=n0
zbU8mOD%|eJ>R@nHDsI+mm#c%^XNxj<u|!gGy{7W=pTzL7XwJ3!;!u|~ButjiFmVy6
zdtrZ+u~RiktFDZFwadm%M2wQ|DTxL??l_j4dv5xiXM5(G{hzn#vxblYMm!9Rv^>=&
z8I-I>^=ImD8hxE<lrY25Pd<u-E`O&xiI7A*M;wH3#e_27@1wYA?Qd-YxLRnH7497|
zo;cCih8s-)$H+mGfUkOqe31FRIwhkh8?fHYE?!70i38ci2I2<q!=elWGd+hK;_;N8
z2W?jTt_%G^8*!H*bQ78(AK9xQ8MOq2M5JDb*+xXYW#7=u{gRF{^&bojk)>ZQrRv<d
z@k`cdO$aczqNrqf5M@j#7$}pU=xT_jdD|Is`b3a;w`7H0DOo<<Hh66gn(uMYdk%`y
z=N^k61;BiJG0$Y0)}k97z!164EVafSMtRV@B8KC`k5Qbs`0ZAs1QHLk|CDyugO6dJ
z54aj8AMHLSc#)@ll;U-n9Q}DkEE&ds=)Kam(ta6xM(&z?4yq{ot^7P?&#_B0YH_Yx
z#{DrxAcU-^@;=yEoO)6^Cb$<@Wfh^v98|GLkx@diO#-9*A7>d*^IOr}FEO4tTy{GP
zUsw2hv0=>e{IkUZXYNa(Ub(Utc(cAdq9=*syA@h=gt+$N?-$_7?_B5J*`{WZS9jT5
zPBX|b&HPFCZ#*CAKjGr6Sz$1(Jp##aH|VI}!Aycgeyc8IfH3Q?3c9HaIeO3l#j*M3
zPR7myBoW)`!wh}<rW1JA&5^WxERilAJquZ<>yQ*?SFEAIv_|h?%%ttNxub+`AGs1Y
zP^V5A7;S!BZdNifIKUAGwVOFJoPa?ZvX>M*-J9m#ym`gzsU$>tU*tn=y%DHd%Hf->
zcT<OmjXDe_SUTcMhl&U^Jt|xJ=3((HFg)D_GmNMUsYChS=j{*U@Ak_buscL;I`08T
zRQ_Ba=+B_oDf1{{CRNv^S#0K%2ZLE<aqO6IB8NN~<(|(`;-gN#9h}l!_>v^F-i2dY
zE53@p*Nuueyi(wB9SkNiL(<EM6il$NK=2M?9G8+7^_>rgou|3rI0h?9tS2P0Xz0J@
zR<G;LTIL~61i_Kk)M6BnLG_ya*EvT)JW*c9mT18r4}Rg;qMv;_lA2;PLdY#IODMEZ
zI&vZD<kpCUE__C~&RL#rK*fg0>xUU>+D>hef_<^U(uV4Ctj6|!*RTR(QU!P`OWLfv
z$YZ0eFYop+yGA>R2yvjh@wjI_P4sru=_PGRo(jpbqDNVD*ZIS)gaQz%*?i@?VOsM<
z<>06O4^Pk-@OR^=Jb466cG8P_neV$tnHoqdFu$A~z3l$j>OAz|&@I^ps_IDCc-bpB
z{{U-qc>Qs~2F@DcOyj|ioI#qM!`V(Rlz@g(jW&t15N47=?m=2tI@2aBIOZxVHzb$m
zsYmiXH41ye$qn(K2@Kc!<~qU>DW&6&ep_$q{%?yU{Q`T40_XNEXYO}ZXT=?Dmu+H^
zt~O%^m#=R>$LJ)Gc~0VpCS4zwu>br!F=cnj^_F)p?Tv2JMfopI@s8Y|)Rv<*khR{O
z6}7jKu%F~=PX4Miqa+6kCc9{IW}Bo-IsVc}92!o8t_zEL6dcYFY&joDPLI0O29^a~
zg0s$s+QumFQ7tg2m<ASuuYWgYj13*W{g6gPz1%MTW&8NpWi#Ilnm)QG9U3u^k4vLU
zijCmKBTF!J(>Lvm^D;wLm6i?ml7<V@KDjgI;Y);G2b?hUl5ovt3qE2ogs7=|s_$%i
zn<=!Gb)=k|?QOc~9V0Ou%<%)kaEdwVe7NowbeO2bNyToj+V9C=rrI~kso&$l$vGb0
z{IMc_{}yoZd~Vu@<1D%atEmKxYavfVh&GBU2g19V;j#!>VFvUy#oETJi$TAVJdX82
zn-)hj7V|C2zC`wyEb#^Rdn%>tc*$_i+~kB<U*nmUv}TcJWY>|}RH{F9i0zpSHk0-q
z6WlT}8mU$Hd=M2YPmc9G$&!yME0?=WmqU`}Qvp$cSgmG?TIHk!lEnH_8lvY&2ogS{
z5*8f;h$<;ryBYmxx+C}ojc6g%>PPC?b20&!=1MrW#C~8b<F1_@_PNIY;8&D1iDVyi
zmuQz}%}DWU9o;mS?y0!MR)n%=lso#iu1S9Dvk1Zawt*8`CDtl)D^2pryBA%pydo+a
z4r?i5>Hed+9r2zo^ybyZcxz)Q=IO^|1eXtX)bpBX)~{pPMv=$`8yR24&<g*sZ?~)X
z40NB2D?^V~>JBy%cg?f}Oxi@pnvzC@BGw3lBB_?NI<QR(3W3kqdbeOy<s`@1UP!nm
zHB@tG+(c~SZ+{1(OS9csx%nTngn#r?Y?b{bl+G>r-vp(;CEKB0`ag7i1yqz<_qTLO
zNem5wbV^GOUD6}c2srf6B^`oDtBBGm3@zOtAR+?N-Q6YK-^0ECd*3Vgt;L$fta;|l
zIs5Fh`}}s%2pN$JmUBhK(TZIQ$K4D?H|0`N)yKuzmltWGXImhCQw_5g&Lk_T%ZpE4
zA*J^kBH*E&4;@usQPIcXV1)8!SX~23)aR+sJyLBW3`9**co|9a;~pEytV=hl?2duj
z#O_P*qa%EVpR?`$O1yMVVv>r>xH8O~&e10s^NRr{K7ixWDjtpl*y+C%7-Q=mW`C&O
z$$Ybffr3hhGRLvhKtuiwF9s`yKm2}XAR{uR*)IjTr1`BwN;-whc^~he<<w>|<clwV
z@=%)Hz29lAx+i^|JdKhel8(wAu>0gl<4s600(6;C5j_~t=<RY%R1y4^aZY{oz)}p6
z2`Aj}mlCDPK#VyS%G=ZLd$Y|JOa~Y!ZP>2ih3Q~N>~5^}`^RMnjT~2D*#xrkF@*q%
zymTu*REU#FCES%jpfRT}5<l8Joa=EE4XpY758Ti!a%zQF=E2^eE#?EN-TCuARIazG
zhMLCvaoxhSB-k@E!OAf?8r{}pa@DXkF^4K{T&Ev_CA6G|T2<YiQxA{rr#jH)Q5B7>
zkau`HCV4{HgAvD!NCaL*3*2SlAi?nRKo0L`mSQSkYArKZ@OPBKS6MgBDLFh2yJ&9B
z_O?&1Ai~LiKXX7uC%BC~CHz@hei)mmOnJZ{88@65{l)z&Tll<3IH@xJm~Xh!f<H59
z-4Whh+zGjdEmX_Z;zt`ZQz31lP9iGJ#v(_jSmsj(mWd+NW!UGt=MLgXj@@^5X-I6~
zjE@KRmqV>*LMxxqrzLAlzc7k6PlkcCv#E#^^LUBciw2ASNy~sc@MkC^26lfPsc1Sq
z80K_F7Ej!Pe%352Rhj;Ikxy-BmZEz4L&zn+JRupZgN_=pI?cQ}zm>Eo(d!xbIo^xE
z|8&1_8(&?#P{)&vM)p;pI&&T6u~gHu`^tBT!=r05=@`N%Jmi8@Fg5XaI8vRY8AE#W
zAtVMsr!ko|0EK);k`WskXh}kXs88bZ!>Id_P=<5nYMF@|m_%j?x2g1wDjFzDF;%43
z;nTYmw{m4+EyKuF3%=bRb%rQ(Dm2664W6Q5($CwHZ69&cY9r4a8WzCIoL59hb&o!3
z&AoL!ztHAuT>Rnh#3bu1Vn9;fBHE}cVfizPP|LHR`H7sL2f8_MIsUxK6qOSc<Gx0u
zsMJ8kqZ@|UHgKn~b*GJwWI*kw`aoF3RMsOCXCitM6f*i455o<zyB-5i=NPCj>!R)M
zLfxSb;m!s*Y#*qbqn{G8gmdH^A<3#nR-4Pm8-;t4+}pzxHdJK_&o>T~RJb@?PV^=&
zXLB{OoLH=wjbcPg*0oPh`t`<gi<&=%Xfv2Kn&cOkqY2Z3&yHjhUMGK|2D4jtW`w7&
z4|~-9X|Qd-tojg%OBMAGq(CA=pwFJ=3%tk@`yzxX(gkr?(U12oId#T6D&zOZ-0yy8
z+8D5$Ld!(rylXpPJ|*s+x5Gh0jlL;@N-L1~YvUR6Og-4W(A>jF^X0*7__Tcs_`4@|
z3z18htLTA;Qh!?KM=hE9S;L*TbmH=4jO!X-kS<9O6c`W4ng!>qwbXF9{9XVzeYDj+
zxNQMwzL1Y(-)aa}YwJeJDNO4LMefXYQy)-dpoLlY{Zs?BBca~E%V+D(Oq3G&Zxp&r
z1c5p+HIVW&ql>Zja!o*|yA}2MI`w|XMt2)^w9D!M-TGLyTm`r&s3dvs=m)XB{jAOG
zBB%qEy4Y+eL$BLCnd_vH-lxvi^~A;8>}=zxEi~@B(es<2$e%W|lIF}<iZEhX=aN)-
z+a_1M7CI=LL`PeWb_;DD98Tx_WzI)!sx+1Bd6Nt8)+<#@Gh@miHouMlPb=aE3iS}i
z$GhK~2_u@t$c<yzuux+>+Putx-p3uy6o%6UN90)<&(rouqEMi;Sd?RI&a_y@&0{1w
zA20EaT9}-Om!v^IgVeveM@gh{Qeeq`U<+@C8pm)XV^Mx>ezf(_J?**iK(#&FBzjT@
z+v6@KiU4CZ-jW%KH$gZSvz#REB|UNB!2AWW2!w`%)<rhCgvg^Pfk?+F;D(b{wzEQ|
zNiy{xeMuGxDrYj$zRU=3*^jEC4rkKgdO-AZQJ|TOR7Wjw@0FfQ%K1;$w?lbcB}uy*
zCwot@k$xnc62{C~1+;M`tElOA7)n(=+h-vQw$91ROi`>pw>L6|h+|JJY^DlAn?CdC
ziA*tcxu*N01vEXRi>QlcnAkf~75v%6z&?I{04t^rN6^^`hkxK*l=pc=C9<%Vlvk!%
zn9pjEAg)@EE(;V@DAV@OG~re5&HmWzS3yORt)@{HlA{WAXv`Ia3$(65FHL;q7NP`P
zQ(W($0&lAYbAUq3WLu~1uWd%!zMmvEHLH1DRQ@&JEdQ=}IA-#48kMaWnPVi@=aqDx
zEv22sUFEg+89(X7hAk2h7hl+oe$^T?exmo{;4*d>yI<p;?4JGU$buaC2TXOrpDUQQ
zN!I|@Seh)7%MUylxZ;;Gf`YI@ZMfpUG7)5iAz0VN3XZrMOQRZksk~EX$}*t|Kjy-0
z_nPjRecdm+6T4Hr?Nfh+DkB;>_1O%03Ilzs&D}ZEkhF@4XKX%0<Z<z{g-~8HmhgdD
z`eqaNt++2^IM=Y3#)EraiQ!Atc>>G!jpqAd>VmQy7r1tK6a6Qw4B=#SnR*I<ySriB
z1*h6-b$`mW8EEvf#1y%Rf?C$V0jv9}x(#EOi*|dfXM=#Bqy@9^7lo-oWGYt)GqVKE
z0h7t|m^V*E7;}k!kgFml*IKpq@1E>_Dx^z{%3W@;FHm)n?|$Ebd-S9W-Hy!Y6HGRb
zR7N$38E2I+a9>}la+hHje|KNE@1^ij0_d+D_WD>c(w5-Q%wy@P{AlUqNkXL~)Br|7
z73tALc)#vJ2&jnY=;IF8d!OAJ1yL!MAiI?pzg9M#KUwDp4B8(YNqsub6;&0!6KHZ!
zqE9g}xUZvHS#3TyKN*z$L~1PC(Q+;EUoA9`;qF@){HU&rx%Sc#q?c*e*khas&0U$`
zWQ(otenx&dDzE3#K(tXUFkRsjrd-@67hch#GSx2RRv=#AycfVCcIAaN7CG&s+#Cfu
zgXVs_t~OesQZf&eVbgJ;fD*UX#j6nY%Y2OLvRcp&Ywm1*PeSkulixO<?duDmX0)xk
zw`rWV=FJ>g7p*%9h4y}NjHG|U!@@ce%8wnLjK?3716T#u4cz7K4(sYat){;GSb<;n
zaL#I@s)%1Y<elXM=Ou?xhLo!MIhFNw(S>=s$5w!u`GxVpUUPs$l~6_<h(Kty%Cv=t
z?+ziBUJk`Gr5DX)PoIY?<ZJpz<8BcQ&uav9JjBXdykb%U5pzN72|z-{=7|on^)eeD
zhy1V_q>+ItctzT8k_z64Odre89xHsu3N|#Fr}I@gqrHQ0m$=UQKQ^T57nfPrCIT8$
zjsj|n$b18*d1cqx`K$5+)WeGVc4Dv;FKvRMH1yc8L%!0!xQG2_X60I%!YvG<SH;kN
zGui2|Z7)!>K-W|4&fvr=T=LH&Uvf*odM)%C+p=XWb(X_c;6xY??UGKK#nzfl-Z9M%
zqG$Xf5#E`B^QN!w7ULir5|QXBE`D%d4LK8W=>r=x6HU!?9EKTV&P&-(M(hQX>TuAz
z=WtPzWyqHwX|ixcI;AYs#@A@&P%wdHH-6DIyK6qvwrcNfb3D>sr7#rejEKFFkp$ij
zF#5^K0EMLml-7{rr*vy*mSa;;HzRXXvFC%AI@8>^rS&b4NLPNk^NNn<GCUQoN12ms
zGS&P{ojd_=NmYXE;|hw;<11Qg^my3`YHHe%0f5PcsxRbWw2JX6;NZ|K9?0DrsaL1J
z5Ug9FG`b5oZqp{_>kmy4JQqKyA8vh&+GtN}*%-3k#!jJ3q6#N8u2DEnN7D+oS#nMg
zbb0G7_9DGJFRyslxZeL$thTyrC^7T<V7VV<#6#UX)somz5>IchFa!)mTuI^+71pU8
zw`&wN-So4X*kzRy_6)J!ZfH@tIBMlz%Fs!nghrw@5SCsp(`8M!)7GDjyz#u4ay_x^
z7i&B;2p_xW|0v8)gk>rJmzwR3#O4wO;^Rf5g*jM04w8%#DRb4NLB$BmrGa;si|di-
z(b!(gt2R#O&svf&<${CN;bGK*id<On$x_8Sr(3cUIy2)9`uzR2K-Q0suvDSHz~K0Y
z^mQF-g>JK=Jn|A0@fZB#2PLEbUPZb7hT3cJ@YZC@D*-EO)}a0uf6D6u!6kLX#}^jE
z_r31NVE?BE?!QDUqesZ{alYCc(`q>-JWZF<BM$2Ot=s88Y3VQgy@jSbaEsMe-XPt7
zbjyE|(EycL@V|&X+>DFL&(Z)V{UN1&oy?78_|iu>J#ij9XfY<Il%aM0M`{e>U4wFq
zusqL)qkd@q?|lFLzl`vD;^J%Lt-PauK<&SN4y<?2Vz@p~gk`McPE5r=a`WF@<8>b2
z4VfWPpwmh_Uy_PwTB0}hPY(h0fnWF^&S$*VBFH?@d>Z=48Plr0^lLa(M-IjLH?sWi
zRDplWu>Dt59s;Sv3I&6l{}nv{cP?Pb)Zj-nx*4?h)BgxC?$1vL+(0T*kxAHn+Wf~k
zOy5IqAk5-pfl%IH*}vb8CEhWjmzf*DownT5XGZ$t5PJ_0jAA7LDEjufVdZ~K&i}3C
zOQH<W{Vx_J3iG=8-$Qev$Uj#%kRenm4*-zOYkAarx~uCxH!gNuPv{vA9oKqZ<}^pv
z>K=IMvj~gupJ#;b&(?VsqA6Zw<a(>t<nL;V9xY@mt2yrY(jj=XoQxh(VBi0)8~nq*
zK&aIZY#f0}$_%;xXX?a*n=&MWLn}BiKXLw(l=^%8zh7rMGzL09K9u@1xV?0$GDa1h
z3^uuKxkWz(^Pijey@&;RB91jovXQY&SUv3S>xuXSi2-I|MzA3;IMQh~^FGT^E=~XX
z2kL>5ms}9tA!X|jfsTyp4Lev%J^RC%^RJ-CgAtT(@*ZTs!X$G3_<LX)pJZoQGrs<8
zRS^FFN0K-p@=Q^f^OcvE!;<m;T#)i?ih;{%>2ZSlB6^;&)c+4lUjZnb8I4)heO$_p
zCGr1hIzT%^eF~oy{&cSJ$E}i1E%>Xdt$;h#`H!TL{(^DbN61Gf8@^-uzfe2C0{{C1
zPScl{QSpnhdOv~w2MLSP7=I*9XFu}C(>Ks2wKP7KrB#nVSL!?p1?y)30>lXt$Hemo
zCg$qC2RAOpG}3WO{*+4ohfM+`wI-r%0vw|+i&TB?4<i5^ID>4(yV;_?@^4u7zp^*A
z07Kd>^tv&Ci`aEZ^MB>aKmV`fQD1dWdEb$LV&F?5-ihPATF((6ul@xGj!q2OFi3w*
zKlDKMBH`-;t8fF;;jbg60wYAGO`-HO_wXe=-Z0d=#j;-=)pk%$;gr^v*7DS1oz=Gs
z@z@zwZ}Zf4*6}PScWmE5M5pol?FB-K@IhT7DKvL4poah%4}1sVKQFm?;0Q9a0XV#{
zNNhRcx9`#Tfr;+*<Y!vpD__l0L((pLiT?A&zsG^gA{MVIxct0(0hcWj$qv0W0HInc
zt+;rIy8iKZLT;Aa87%1!H)enbS3xA(RL`)5NQu)f^|R&@+*!Uk&K<-ja^T|E!2*;v
zZx}h(WmD7F>Nxh1|GN-iRDUbx=pqMd38(&dr)Yy30q<mgTk7=_iXgR%P8YYx;t+DA
z^w)}(H)#c|nI3~l>`kSkQ`3It`vEkZup3JP-U=c>Ap_#RoQOo{VmD|Fe18!O&L&f4
z&J(t<w4~)@w}NncL#z?HPK&pOdQnJ;2>bJg8nF^ZZa(y$BXvZ2YHT9_9F$JXdyDSi
z)DmQU8(NKwXC8e&){xs|Zmtvo`9W%UXs`g)*B)FS%9|tyr~X1Agu~T~7^K8mu0Exr
z-J(P4s>1NJ@DS~zM~^ISt?>@xdyeQ@i$ED}Zf=%(I_KLzo?8hvG)zVcITjvF2rQMm
z`GEfq!k!-7@{p`6wI)omn`=j>QPV*b<DW$&vMmHwhjDXt>*HzC|6l=J?>gs<DFMn0
zqQPXOJGTf0e~e%hPdlf{%2LWhL4Jc_fVb$mnjbshG}=v^NVlc|$pTAYcfneDF9f51
zY~Z!sVkZRT@9-J7n~Ot0&J71kx3YYP!?}ylC?#%uo~ny^JR<$TV(^~d9~d;3@k>7S
zlWo2<xtm)8(L?y4@+Kic4~8J<aC@CXi1-l*yYt{&mC6;2+e?xATL!Eh_c{H%H8Q(D
z&4*^Vx_Y@Gfk)sCeg~HmUdsU6l~=xM?DT?`w}06gFjoT7sNY{|^xUTJU&sGDT#X;#
z^>fKvoCJpcMGQK+Kpk<Gz4tRCH|It(V?t1D67NHS&T;D_KQI)10c~Dvq6e2!AJ^hf
zpJPbV7KWQiL|}5Wu&hI8s%||)<F6fo89?~QsbPKPW<iHQ4wagA@qd?^cwjJ;d5vPQ
zofc?ZYH@2-!1-WFl@1+~Gt-fFW6ILWDMCTJc?MF)u$cIZEsr|`z$h)^xfk0=cWzD&
zlIv$eFlu!19L32OV)ax|@b<R4A&8F!rcn=G2>9>a`UOmMCN=yAPqZO9MD*AfABEj)
ziB`A`z|WQmzW?|!b|R!4_1m)i74drZGbQqy(}6=zPn8^2aPPG?!mTaUpuubZ{$0Mw
zb_C_td}!2M{p;#PDjmK~GoKZX+`IK<Jf;-CU>~^p<5I6ko15z94k9xi6Ysj5LMyMP
zy@;#-4Ne5!5;FgN)MX045!|E}AbL+xyevb%2SuqUU-b$i{$X|jfU*Oap<uqvKjyQT
zD&6mj@_HXF@q2or&d+Job_bx7T~SC19dAaMZ;uq6d54rpL9+O^?8-EvNjD*S4#}jB
zr@O@%;9fwk;bZ9bTJPSyJ*b*LVs8m?pMD9$xNNt+xzh)`io}W3F%)cnD<-@yxUo*x
zy7tv1xptmxd2ZUB?C{^{lc`0MJGr>Dq$?{c+vlkjZ89?4Ve{-r*3~8@ON*7PlUh<L
zl??Ow^1}E+3V&7OtF#MUynJ|YBT^#we`f*=lm3v#heE!jR*NAhfY8$%dM{I+IO4!n
z0Rd%o-z~Kf?ZTkvhCcbhID-j^sZa?D_T0C5+UO-`W{vE6AK^lDWji4Fw^?2@2q0@{
zp*iYl@q~Aen1n_2wmc9|JyW$h3Xf_WW&gXYY7U6;?;%~-7dyBtTRRjOx4CJA1Mmo9
zELYkNC+%@>f6UbAhe&kNl$nkX)r?kG_fb2%z2Q*MPVwvSKo>Yg(RH~|+>Y4)&fxFI
zzeFOUl)gnJB@*@6r%@};z*V}jemrn0A`0*5EArDc(^%+I6y^r&E6E#T|Bk<bKFvJ`
zC@*{NLz;$?B@UmT3Mo@?Qfrv=PR3B9wUnD@Pleu*-_>oVQAF{I2xXE8-7Gw6sQj}3
z4$iE$JN90bK(v+nmNaI{2D4=VMnfDolZvl>3EjnH@usqP!^s9F3fGw7WjU5sCU>n#
z@0v}2x0p_xgjtw)?r7+N9&B{1V5lBezlqgvuR8C`&^i4~99f(%gU@DKC9c9Vucnxe
zUFRK)RbW9oiuZ`l6})w0nh+&G3(&p=)Dt^GGh+cwPyjC0Rd116wB)))H6qAE<;WXM
zSLgj=OZ;r{p73Qd^+v0@64s{K*OyNYeK|W>%Gd^Rhip2F_ox%h%*91o#ZHaii=K>{
z2yawixSs92D3+=}x?rij*xZaVRej)KKAUS(J6rxpA-|pF#)b_Vd|}j(c5ahn&!r2+
z715{sksciwd$wE`Mt!P2u!GlVXlX}27&Zoz;CeP%Q}AiBOn?1qb&=Yj;_Fj^4OqAS
zSeMwjCa34wn&@T<HG5eULm|s>LwRwDWUzOA{=}K_O=GFH!7oa=3LF%ryK$ObKTm39
z@d^>I9cNk1RVEjS2&sn8SxVg2%X=%5a-!n-3%svYr>&!|3zP&KCB9vsbFc(z%o|cF
zn>c(NJ#1=yed>A&y%*a?=7Cb>cCnA2xerIC<4SExv8gMYZACNQ@#O#&V3R#j!mnH_
z^dm4vhn$bn@Wn@?YZ=Dkd{az>vh4B#^TWxfKU&LO!P1jJ&&}(&vuL=ASx7h>H(8x*
zG+hm&iysa;?p17e+jX%2_vl~msNt732F#_)9i_a{f&jwVthUQG&ZDS{8Xsc3tC6Co
zQ{%#~ww4evjUF46wiH$@EsZnd5)SlKZ6|UJRVpDJxjU$hr#p2B9U4bp?3m)Yt9de$
zNdD@BLn|Jl<H1GG7ERVi@*``hFS}!CdepPczMeYgQyXq<U7gRwx<1~{DqdXc?@KlO
z)|Ks6LX2%S_N2QzT=Zz*duw6rH>u?<TM)Jt%=d*$Bs2P39mW<8!Ls**IBSOIt1oe4
z@iB;ILSS8#H%|m6vX^X7!hsa7*Fw4w!U?myH-D?QL{sPSov(1141f7giL_2E*m|W>
zkWQOf`Q}lZ%V%-yvtF^<Lbo)7hN}xjJ@V%q=j`Za1D$Z=`oNjyGYM=gsI<PLJGpSG
z6OurZRlP20ECDhfp%;m;byB&dMhC5gU#fX6C6*%#LAnFi!h^Wj!Su+Ex}F;4z>P2o
z2}&#!)d3LYSu+hd&AZ%2yI+?-7dqW(Xl{-=?hG>+rZl?vbpM8+QcDC&*fe*du;iLX
zOA5|zprcSivgg)dR+zf**5Se(|GSNw6@!|NPVL48n_a~noBp^yB{&i@&6T8K0;BQD
z)vhzx(<d?&u9}gX)$Dg1j*}xc*W;`Ud^Yb2TSUnYaiFWgQwqoi%UV47BVhy$?*{84
z6JXDqey|TUtR9+LCT%YjRz~Rk+L#d~t5Ftunfx^CWw3+IR6Gcog<D_i+aPCWg`Kay
zxiU`%N9sK>oTJ|?3qUf<%Yysg<?e%d85tSl4&2&ZykuW?NA5(qlpMi?=XXlDB-J}w
z)?*GEg5@ThT+M|~E)`t2{IrU@$cMV@M=_{TS~<KmWu=|R?L+AfZA`koioeFFr_BT)
z;#M~Bb;k>YjOkqH9xG!`x>{=vL#4gAEz6TYLa|z>-fCF$p&8??L)}a!e$gc?99||h
z2BMisqOQhID;rI>FYi}Sy4{rLOa<TvbjMnCLX~}lZIIXiGeiZs=;lULGKRD-P5mjH
zhhZB%TM;l_HBA#6u1rZ~J{r`?)A|TpZt4L-XSIRV$z9gX85*AFfbh&>yIUZhsz+C;
za_$=s9dd38c@;=1=H<}2ktlLDF1)8K5j}r6YM4Rmqj#l^B38Z?Ev9S`Z8DK~z;D@v
zIt(fxzzz;(`j|$2%hYJaSXf-tdDrM#4Bvt*FCh_Of{$0_7V#Ulz0d8VrMpjDG#t)e
z%?nqh22OuK#IHmybxPdriJ{R;k0md0IGJ&Em1jbCkmfp{@36GacbV6<ExmB<a7IAH
zMq|!pwl-15vk;t3rq1`_$~2vi)gKpyv+kZ3)wGrHg^p=;j3c*c%yu=osW=}nkD*Gb
z>>qErEsq;FMH39ddp^IpD5N%@w;dPA@g{Z?NtXIu8IHK1@b0$+ydbf<OD!gH1zZB=
zeDY9PxjP5z+~Cv6V~nJzpGpUe%{l}^M&k6AmRa1&<=r)1)ra$aU4=d}?uxy?sN{HF
zo>w`)E4R?@K%r2qZG=jg1<9r{DM=~wytHtQCL3osWm2B~*+*5&QjpR)-8xb2#Lmi^
z$KsOE@Vn-EA_;Eg6`m+{I{<>9Mi?mc#FrT<<U_Ma_bwm#=G~EnqM4H+>)@__l*lkF
z2-zHM*x+$uV#2qLzo46Vn`H2y4*Mpr=YH@@SfM*^7Op;F&U+nELLXz0wv^2g(On2<
zAWUSqDRPNeW|TCg-|I?@bIiQ*Iv(Hb{(~vg$DEpvDX{yXDb$&})b6H?!(&naOJKG#
z($>s>^N%S*>Hd>pOH7kN+x2CG>Xw=G78C;42Hdmuz~WnzL(ja{2(%JP7gM8jH)js`
z>8SqbLA)KQ-xzKvVRV{k;=kS1gxI7~&07-&r}82~;}7WK)muuOeknOo49PtEK-@DO
zc*$|ok6Xk;m&E4CNH23?DTyC0ZWo6!wY?c7^fyof`{JI~rrr>hF$Sr!nZfUKWMu$T
zd1P60c;vWxy*;0)R$Olj5%EW6&$Ry~)xMj=4VGj|@H3+~I2ev29^9w)P>atG)rznh
z?eSr^+3$4OLS$$BU`zw`BptCb2ld$FLN!*lC450Q;xhgv7{{v$8Dn+45}3Y%1~Ex>
zMm$&1dVg4aCn6?fAx}1_gn3`;#zd|iO%|nVqLY%60^u;0JRS<rtv$=F1YE<WE38n<
zdvN$v<K0Bjo162VJ(@cF%w9@-0AKVbjjm6?dwQT(Y7H6SsX&H0zBt^J*I+PWF&Pmu
z^KsBk&-af158@Cg1P>11_z*CEi_?JCvG`qGUF`3^z2zI__gE52sP!scT+o<Le;i^{
z){iC4W2LRNCp6@HggTU~UXXO@CHVX5fXJ2?tqjDCuzUyW?P_!YVM~Ld8B(o4iRl?{
zxo+>XOFS~fK{Xm-#%YGDvZf2syPLxS&t&+{DQ9B-y9gRSM6nFo^gA+^0fa(z+{}cT
zBf_ljXk@GmaSu!0VKT{QHzNJfLE%TBP6&yCI$<BJj28On@I%Rw0pI7(kNQiJ5?xA^
z)M_YW275lpYxNkE0GM*XDhH>CcRA$0p3mw%CMG3gt*kWa)iuJiTj4tYHD(~<7I-h7
zxV^nSCmAu3@8*7@Lzw+LjW%I#!o$N^2APF!#%b;#4yw{{a&~hI@s)*a-Sp4^1@~9X
zEs8zmCo2%?88eB0Kk5*9+XJsn1{f<rt~2f9QsGhG@BY}eO|s#I$Y(WRpA@;_Wsu!=
z>(qbFyN>$f2YWv_>Whpo9@_G@lW=4$CBC(q7+tUe(HmyXEabfyRD$<?ia?-P5+SUw
zOeU`s1}HyUj*%T#)*-ucz(5WLeLBCKn;Gc`*(sj*jNZRFSPn4|OblX72aut7#c>`C
zqK)btK80jSUln3cGKb@!Fm7Q55M=}|dTgb_x<PKq-9FV{smONUO&*l~JlqS^`=&+t
z5b!px2Jd-Z#Tynwa~k%xdpkBtne$-BgPvI)!y7k!OaB<G0XS(f{4h5>bd4-u@S>?*
z#!P_;FU?O{Fgh(9^WuDK<WK>HWnmm{IAH7PnM^rZ`?}mhO*8DKbVH}XW9-?9m14^^
zAsXb9$6tQ4lZHrCWH8z<nw=WF#rRGEe`?gv78`c4BvQM3P<^;_Qu`_;baFaAVVj#%
z?9%u>Uyf0~kAu7td0%!8Y&6~+B=&I9R@h0P!^&`67M1j#s#nEGa+L*c-cweSADtif
z`%!B><j+PLLTj8x8_h;6(fBKe8+B~MhM$k0AnEF~(1iTjk;7sa;G8ZLsY#+7DlH!O
zI`~H6ITM)jc=SO5`Ebenp{<qqAq;=~0F6LvtWlPuqEkp+*bS^iPW;^NoKCRPA~TrC
zg=0)mFkJL<mDcm>?7eM$KaPbh2*-+Yob#r&m7DEHep<{YP*oVtwJWFIh{)kdi>?Ac
zc_yR29$R+)Gp%;ixYFAW@HtFhx!RSrtoc$LW^@_Wv=<6L>Of&E^f8WIigeK-!6ftI
zgDK;|EiAVqj4V^onnH_9hep3pMQn6ku~%LQ3yc{1z9#nK^Nz^V*?l!XRy)p`oB;K#
zC^GjIYzQ2mUhMu^rr<k14LgP4z0|I7%@cLr+NyAdRTvN=E8*OY?9Y**Jlozc&w^bM
zCu$a0Joru=XZMcS=5u4pQ@oeVTl%ud2sjrLo+{>N4y$IhhwmR1;$FCNl9;`NPqW>S
z@^C7|^=%T<&QtZ!;TpD4LZ2hbgu#kw>fxqKLgWWA^!T<)fqq{)j5y1M1M*)>9a>n(
zZH$g^kc^C7ihAVeDeK^5m=hE3QiwVwC6)L(37kvI$Pzy8J#FWQDl=)$56e|xmyrM3
zoNE~ynQgk{6itsP7>hRT7=pRf3elh|PPm#et`B7uZVomyl-oc$8sh4Iie}S%laU~P
zd7Ab(EHBa$B<!WI%q@(rl0TWajz|&c$yYpFv}T#4HxvQuzTsv0udzmhywta?AVALJ
zIskR>UVg5VZ$qj;q$yMh#~NlAX|NRxaYjc3HFW8gv_Ih&JxkHNpdF_`<{_L=)1;Y8
zXUs;6!`5SG6zKMGRa2@pJ@!hdu`uP@r)_b?Dxr7_yR72lv8oD>s23V=OR)MLtm~>G
zf%i#8?aRU%$ZWh)ys$JYPF;`uyyTeQ{KQPyVLIzF?O@#7Q&vu4Io+6wVA<}ol-<eH
zm_PxvZQpin&HJnCx0|c5V#gaK!Lx!uI=8{Hcz3IoH-5VQx_B2*gHvFF2GbU3*`F{U
zKB)L6(S=?fG5Vt7(Xsk^|3e;hnuT#zBTlR}Q{Ivbw~n$^iD=0K=14Xf{-DEhcB-^m
z8UDeKY6jtXugXf>I5w;>ttdQ?aElMfk(=J2u$G!eeaL72-rN)L_9xUkT6wpp+8`jF
zWGOg$;_y)4dh~OafunoE$Ys?Hfv@I`qVJEn26=FaqIUSw>_{HEK3Uw51VUy`zVvdi
zsWi|VE+1;@2?aIiu7xTWVw8Y<PL6p!9T#XTRq&J?WjLrWoYN>N?qaJOgm?=<QDyi*
zD5J#6CT9wRNsCQ8xPz@dc=#yH-@0_Rt<)^wuj5a5e!8*RD5yniN<=jJ9&0ucH2EqC
zeW;x_c!rDGU(RAW|Gl29_LNMB82fjHeh0zeN|uk0xd06I$LMlQTa~}q&xoIu>VRO;
zK2dIEoyHC|InDagBF;H7$??Lf1_%?})2lYNj%M!tT8O@;aGW(uT@<Oa6o9PD4>(e1
zMru6izQda>9OpHQ^)Q0YU%P+|ADa<otg(4jp^Qm2eX->Q;;KG}yT%eco_3fJ6|WkV
zgycy|$;A}Bd82+_ea;Q9Pc!BP#@xz+4R+EuidRUzsO>zwq0NM=0h91a-Y$Sewr~yM
zrWK!$>3hHN9eLH(db*ATItqi=;Y+Gl*))UmkO4STyV58I53!wN3*(r;q+v^X=4RhP
z9i}zQaSvN*mhelf=VcaZ{auLZX)F=za_n^IZpv7}Y3FOJq)k2V#fl3F-8d2g?z8g*
z)=(4#u-(Hx8+oG3?F#~Mt;+NB^9>eb9^w9GNYX$N6*Db*QY9oFcJ(1MYYYXllw@2=
ze0$j)+Y^*!_ahx$0EOe+V|Fp8uE>~JbbL^0k)xxW6NSFH3yp{Yxs}V#*E4z2<C`r9
z+!2VcHE~5YOR0qlf2fflmMMbCh_sw7i~X)>!3RWY7mu+|Ls-fs#RvJc)4)O0Q|f(1
zfz&t}eIB)^dx3$eFGDTGPTM8N?-8C*^c19BnC%=Iv(%oRIQiTlZVqTiN<6(kOSzOl
zMezQC+=#*<oTgPm0*0x(ihLc|S$%aQa_k3YLB=$r$2QB`=*>Xuf0rd0<NdoU2mAy$
z4h51SDJ4F!pV@h?ZYIYs{k!K0m_dZ-$8QONT$#ED$}L7k#)GpV7-i5(MyHn;B1YcM
z{TkB5s!OCczq7yn5nxbvXh=IcIkD#9{=s6$vquzr(+tG2)v;`Dh8wPpGrXN*3=n)r
zJ?zH{dfTm8BOrU(G%Ks>>PA|~Vt4$+U=RR8M1BN+beNz7Ofl-S)DLR&@|Rp}eyNhb
zHAp(Z8(BozKT2)Hx)DYIk0KK$!12AV^Z?WJ!p-hkimHL>{Bj{<X}Zm&O?enP(>qCD
zv{TQX>6_F_wLy$e<_&qG4TN;E2RtnX;j!48!_7eEVwt1I(UBBY!%CWegdUl9LMo2%
zj{|ri_5#K%_of60%D6q8|9HFv|96hNHlXo{zjt&v0nOG_jup0Uc^h{SiI`K<sI3ZR
zWh}!iwVum8x@~H1oB~M~^(>S4S}|Pn-;DCVc#?=&O-j=Txqzl9oi?ho_z!y{_<t$n
zx#Z<rwkO~Nry(ll+LIC?v$6~%1>W#R0gg-r5?%|-cC1;eZT?>iTBLqE#eZ>Usw4`K
zD^|0`xykW&5L+>%A^8E}p>rYbI5(v#avwX84SSRN=}dcr`qqbd@``>s;%`k%=x_ZX
z9R2??$@pz^Bsb3G^%*Muzf^Ll!8^wPx>SE3C4XM5s&GK@Wa`9C-r5iFYeWf-AoYxN
zX$Gy^j-xY{g_Z`Nz<!Ik{E@_{`0dS(mjCkM)3X&hTFThlgbc!DQhSp^{T#xS08j+8
zeEHd}x#KZjQzSh6uGvLM%k1sVg5-mn@-xRnEl(Y2R=1k-bxJn?FjvJR<B{8w*?5k4
z(o}_ueG!s7?Ge583`mAWi5`A5)%ZNur^HzfwD;VA*yvT*IH;6c4UXlUDx2S=6?_fx
zO$cj-j#>t-fdpoXMB10H0NRKCcj>5d5h7Az0I7g_^BRo1H$x626igLP@u*Mqx{>te
zj(!Q&HJGea@ZIA2!?6yJ!;RI$51~G1^C`ZUCx@%qDK)RI8%p;vgn>9KJ}G@ToxCNG
zzNoOySVN@yi87<ZyHn*eGiic-2Aq3+hYj55b=h;ESj23fM@!Ae6YLr+FV2oQ%OYY|
zs{!PXf}UT`sYT9rS`Gmyg%+Qq+Ue`N8<u%m1tkDj@ia&62Dj&auN-V=rm1}^_xr(h
zGkfdFnsQH{t%>Ri*Ud57VQg`S?fN6#Bq5iLSUp<|&ZQfQ<PM^65|E{$HSouzekre&
zRkq%?U1>MnaCnVoGE|^vstTK`8wHA*350jPAWfD`Oz0;(G!2GLR6VSS++vC@HtUL)
z?AU)c+Z=Rw)Oa-+6XDP+1NsZh2LP8XzJ{-e6k20C(s$2T?a!{I`If2ht~m@gS_0)b
z{%qOLa0Xl^T|dP$oCN}pZf7{0dq+-=jy4lj4*US_j3)S-091o1wb<ieO|rwq_6O|=
zFs+YWt)>n)WWL%W3M5vNJw5CQB7j2aylWJ%HFhw6G?}eRooCe8;Jw=lD$aIpn#xip
zUmq$+(90rKxyEVs1VElm*4cE+zC&d?Q^dt9I;YiVG5|!H>y`#5GR5NnpfhLe!}R@_
z>$?E1hok1>!1dPW*S+dHs&*>K;vE5yoAFeMz>Q?jt%oQK%{q8v9KCAyPz0TAHqS=Q
zQ(Rh9V_MS=fiCbP0N9Ty&{44D8kd*d6PS>}P}_WzxGjJW6MOONL!<M7+{C+cv>U?1
zpM`CPfEfrTW)SDB6$N{}<gDWpk(3f{ZsnN|v$VRH3l5DL5J+kPfMLw9fIGD&dBCmU
zS`MZeBvg+%0MNrx2iJ!ldwyl2x-?IG_QT2eBc~;803_%!LgaDQo!|f(E4#YgV614S
z&%5V)-L)PR09cf36G|fh(&TNvUAGrWp8N}FDLoEA<vs(-b$3-6>)z|M1Y;+CLZrcz
zwy1hlLJxq2ID%pX4@XRaGHqKPsG&tjX!3B4X<KADy;7{Um#bVeQZe4mbtw}6qhulb
z%)NLxD2M~+1&G9_yHOVo<*@Y4i#_^D7EK8mAwJ<(!8&m8Cys@d>r3*kpzXb-E~l_*
z&u!8E5^3dm)3w384=Xv69fTW#$1{Nimi<|_FWxaI+su6NKLqfDT8D(^Lg@0L9kE-*
zp^k@ZgB=Y3=+VgD>n)2$Ax3JZ)ydk*yz(@*&|~5V*#ZF1ChIXSDU)EvrVHB*{R~vT
z8C(YgbGG2Pk}r?)9>2Da4GO>?)^}1)%g1W;5nONPR65iG{pyP6bK)Z-%v9r-9xgP%
zf)%F6>#Blw<M~VhoN11Z^d7}=DmbTDD*n|uaE|Q&F_4splr~GZi{MYpu3L4A?<0Ib
zKS4O4U1@9JuAX+58<*xm03gAdr!DTDVT->20I2k$s6;n_jj04+*M|oOzyJJ+Q`GEz
zQ@!M7`f;;x3-Nv~yL-{|Ir4avD@HU8I-6pzCfQML@FIbmiFZLtoDB0VoH<Z3ju2C8
z1Heic0$|dl^F{&e<IP}I_#HDZPXH&-W~|IID<2E0_&ARHQx6LPqY7J@5q8Ut^6|9K
z8LXJ+jm3Al&9QRW+CYvEkASpXi&)Gf{Aq}`)5)(zR{)Ky_HhJo-Mr&KwdL`xunWWm
z!GP7=u-XW)=CYq=mh{gWQ)0@$L?XQOId<0-r>H^~e;R+rm}no6uqqYA%V$HY-Y=AU
zKh5J_cA}$V`jZK6C=a~n6Q;2bfO2Ik`v#kwzsgd9XhrRf5?@kOWcFOFRlErVNMf8_
z&IIC4Y*4V&<&fR`5!++`COzJeVABnN<tom{LD7PQUBkuNmg<&UwVJW2f033E;gbr{
zJ=&TqkO)Loz&3Co-=V%qV;1!<%Bt}RcIpPlS+yr=RI6f<hec_)ERNSgkd}v-SLFE@
zKLn1?YLKCz?R5YX%3QMt%wvJBTuvP$kro~bK%7+%2IEj#0SN3|ldc;hy-;I)$98&G
z02S(FvMQeN$3l<Teuj>?5K4a%@i6bp`KOJi?{gZ0O2o7Z^(}ElcEI_>-vGI2dyUnZ
z(7y1RG1<Nnxc3u0US#EL5u&89{B&aX#Z8mNKa?1b-zojZ2(l#cLMUTK+R|*d=Prn7
zln`01XBNOkl3)A$!>@-hmnCMj0;UJ53z=5yf6bv^)dLNFZf5o^Su0wqMgAI%t;(Cp
z>8nhri8Z0OTn^`to}S$&b{T+L2-2FWdr_MAZZ^!vDx@92Z(HDIIWLhU-$~U#0q%(1
zFz#Fl)!u%&#7%~&W6Q|P?X`$HI~ZwT;Sw-gPW}=r62jSA?sn4*Y5<_C6t-1B7rQ7t
z^8#9FN*9EKyq<Di4&CWP2OS5JE-Vatl5upiL%B~_`*91_FrP!APbPo%^8B`IsrOL0
z$A&8594`+F>TNYAA*N}$<@j{6Rbzwzo=(ALaT^s;pC}3rnSibS{kA!po3_nHI3fqX
zy0Dcc5G&(J?=c6gKfv$>>WuW_F8*tVefi1Kb8hab_uPC_<l<JvqQ8M0_!Bcfc8aC?
zC#~B-;?z_0{OLq%I)=iMUY?;bTrB>Pb0R&Pu5ST45<ty_?klr$Skd7@f$wmzt8)=U
ztPW#_q&?(4Z7$uXJXx8bL=?1})sA=kGm*16CM;AV^=(>YIm_#4e-UfJzCXNp{IRmh
zkgR-wR$}Lw#Z|0pZ|cx>0ZL}1X6$=RD~ouUES04ASjl+kD&hETH_rpv*2k%k(&r2r
z<i*4y|7PX8?o$LTSe|!gt&GS1$}BfapEu26)PE!Je-V_3lZ*a)y5Lgb>%$esupi#`
zn^I?eV*P`(ELv|Oa}@dqjSp{Vc_8TBju9SL{!_)%zJ&bSn+an2qEGklk7XYw{a7+3
z=#_u@T3iF8qX7^6Wdl&HuHrH}`G)ml6*i+L*FbBV^+!`O1>b%pY0tFaikDr(0`BVy
zSoVDd(3QD_0o*s%#qeuOCxOd2!29xKdFvPn4X13X-g6vZjzXRJVm9?3MgYrTFs;u9
zv}KR3rA|rbCLHE?H~K(T*Wb+55b*)lVzMuQ@19xHeI2a6hu)baJX}&za!;gmoz3Ig
zUIS!l1pt$z4JZeK<dJu(VwONhlS-XZvr!~m5w*0YP~VGnqeH;t5HN03)OFu!LL2Aw
zJ?VI>#k#lGEqauw9LL=XoPE-9xmwrF$DpCpQJpaWr_d5mxh{=J9!UbW6DvN9Le48Q
zhTEY+Q2?~vw4v9oO#gb8Pu<1g_*M^NlJi^G$mgaDszd<Q<Iwl&$d_o4KJwqN76k4W
zY{7JPKdHd2?ewsTuU^A7<n(|C%k1KNS66v>cxar}18BXu96ChP|GZ9ryawoMrn4Wh
z2-CGC7U8fssdyyZO*=oVmlU4LR<v}W-Vvf3@r|9WW>|uF(ld2XesB78f3^QwopT&E
z>ym;1n<#T}VPOP7g@0n)gb9SYqNwej>O08fysEQw&CE{r_)!++jLaJ2y>l>Zq<3|B
zQDEMkj8bH<V+2LKhF`3(pOrit?e-zoGkmf=0pPgtn|`}HynHNnIR|RAmq0+l>l<ZI
zNwffTbp$pU@AnwxG{R;;7B3$Hc4uwN<))o)DFC<EG-$5z3<l@`S3oE06dC4t2C{FR
z0~VF=wWavjzXO0r>-RaxGtxOb+zcCkx%`h1^Vh(FuRv=83D;sG(@ZDr71tV~Bi4`-
zsnImnc+8Q2Scbj-21<s_BrfOpPH!HpDbyxRTLMg56<OgmIT=sQhCx+DJb{(Gf~WJG
zu`9ti?&O7*^%Y&E=!fKl6ra=f{jL|>n;%Uh9rB()K3{8U4S;@(aa)_8e*(yj7T1`K
zx`;%W8qTYIt<DdrZ2@G!lue*>M^>0M^eKhMO4@98-helX18=6B&fV8z0M4Rac8X6;
z{lSnP$H(^;NxwKWqvry!IJlrLOe9&?Jql{_F`-&;N}vk_hg#}%&^6o!gDGrpzh5<5
zR6C8P6+rv60ZiIba-Z~BCQLBOXoPJ@_&Uwize48+b1JjE5=-J}xr;$UvAgD@D9GpP
zNEfqdV&;Sz-rPxzY+CvvY+;F1N#qhxL@`L*z><-AVkDl=-nW^a%B^*b!t=5o>e~DA
zDoa#N-Nd}2Ak}Wt<-SgDQ>e7Rj)6XKcxt~EGLBVzjd-hnUs$;I`<>7=cYOena?3=E
z6boo-qFnW~Alq(*)tX6)JC0$p)~ym~mXXD-mi9Q*KH8);l!)JEgv%4atu!?QJh<1_
zJthF-46q-!j?~62#;^OqR2T|v0Z|u;(CfAqn}$-VS_Qg`C87gGZ{ydz|CQPPZ;_KJ
zs;fqxxY|7#PHxCdsNb8!^t3xyOb~25Z;^8D^!&M{zv1xig~sbyb?<RSsXP8jQsC14
zeC?V6vVpJ%l$kwoeAXo8s4(mCP<o|&+s{!ya8y{pX;^aJ3HcjXgQYz|863ne>N@JM
zuOawb>FQTFhnwTWeWDN2M3z4_N3|3Bo=<N3EZZ#V5a|IRiZ+1ewOoxi6vsZ=i6a#H
z4!|Hjm!ouvVWyc)*s_kp^ueJN8ekvd2W+>3GfH{$RJj&W$akIzLj6+!`9R$ULAPKU
zQ2L&L!_$)B_*Xz96%!La1OfcW$J;MvE4)q|KZrhk5<FoCc!vi(6K#;mVe_G1K2rnB
zJezF-n?-C!WCePaKdlCH%UeEZ_)ITuW^Ws*S88UfxTvmn#D`j~3oMU)?o|pCo#>=b
z*chiC9-SK;b)Ee(RAFTriKQK$WN@e>;@nBD+Evmi1m$F%H3A9j(-Aewx3cU!Kt#`!
z2K(kc(sRo9*_5~O)pOe0Jm7pfy5<tZdNPDF^eD~F)Ord|vn~njWA4sTVOVn<k9o~p
zFd0jFh0le@(-|&T6C!)LX`8&y=GT^Vk?%#GB>;2R6Nb4WtB9KxHUk&}T_`>pHS@Ht
zSweKVlf9`DNCM6>2q|;%q1sujtY9e>$UE8z*(fR)AfBw;-_-gZ&%PQbx2wa)f>_K#
zKNu_pNUYw4FfpawN#bVq>W_Ya68pAYes}!u@PL{N3e}4R{G%7?fYj!&Rw>VNF3!bT
zis!Sg;j|#+D*BE!?9Pt;-fN?{O+QuSvU<mqNc3q^zJ2X}pVFkKk9%BWQMXf3!)b0_
z@u$=PvkMm6xnQ7=OIySFFQvxnT1pZ3&#Tu6oA%p-m+cn3Rt37{j@yGssCRe52&QsT
zGY&;<Cj|BGd8ubVds%l76ikf>0P%9xcBhcN)rrkQToG!UGn6Cx_|!E!e#;H;nb}^k
z9PnQoBXtjc;WuDp5f55Dt>@~%*_`^WBAQx#_5#Q(9<~nfeG)5-%rQ+N-pJ1HLdzgI
zRo9ZJkV?IWjLDr^ag|p}50~3r39%7g4adqiZt0X1{V`QCIQ3$ij=azNb-Ar>-b^)3
zL~ibL_0@E)3A65G*mY-%mask#qZZNUX*5CcQ_qRnw4;Yii7WR2SGG!^e{M)&=}|qY
z-B?U~aWFllDro=IRbDfi-*#ez61dr2v*mIZgp9o{*Q)gdmv&GY0dp|b0stvZGguEC
z0q|1|E#j!Iy&hK}*h8dS2rI|kWR2T+FG<dL0uJJN@=mfvl&}mao%Oy}Gw&vl^8N~j
zL7)f*@bzhTX!s?dKn{0WaBFonJ+?JbbCNYtrvc6FCcIhJ|JZ*o)J7?=b3#2sb`-#M
zeZr)7U!8g%`Vx`NW7=vcU&rP>5MpWDdbPdM!39MJ?36y+s##Pw|3XfD!o*!E@0RuT
z2984_!JQ@~_Wr|$)vEZPhRP{+`;X*CE6GZ(A!JVnF(<7m9-dsI=>8O1X9Gccmw`&j
zZQm@~vD3R`VuooEO1t3YrB{v&V~_nY>ZdN1C@34#fgHT~11biJ>F$RTsdJTb<>en_
z*<JiGP#AGGCcXr3Ob)0_HdfbzklDoUBI16s6mormL`1faKgbDravWUF%h+85L|bV-
z+iDh;ub0)jZ1gbPZ@-UpI$q|$3B!fhL^(XrZxmu5AWxhUj8OpgZK`MAn06wTUC&H0
z>~V#lh5LBl)KMJ$Y>t9bEp9=P->d1TIu)v}<V3_z$QA+UXhyfD%}Pyd>_HE;EX8xQ
zI6#+;duy|9DNk-^msQ47%E&xyf$h$<+RCyjE0ax^J<h4rWt>n2Oi0D2sgk9haQiGX
zN_Ek@7hCw5A-*o|*9H19hG5Xk8o$AyRBlq<upuB4rN1-**o4-Nmj^`!GGWBFZ9vqc
z(o_7G6bc_91k@B?Zqu7Ca|nbOtB*7d9;CR>y{_19IIG#*->zsFd>U=oZ_g@t-7c)w
z^n^+^S!A?p>XTg%U&e<lD_ry5Ra*U0W#(G7{<qer4p5wxV-~@J!!Cj8DyT=)pl5+t
zn1yRD0H|8I6^4MF@+4KS<Dk{=u*jI920ZNH(dZ3;Pd}Ex@DB8yda<lyX4VAK{jt^K
z`G#Bmy}G)7KS&Uho5@q+qW|G}<>c#%{vBEG-Atb~Z>?qcogl*x(*Bs<#+kFJ*KQ#B
z6g(e|l5=8VGOO#byE;kO&DDtMm@R0h=CWa`?SORay2}nWtXGYqzH;4-M&yB9(?_6(
z!1T{L<Cb8KmR>aQ0;?Q~CZS&+-s1xoKwVav2gGZx1!BHj=NGg7ipIR(8uC*@`G}Q8
zd$%QEVNKcM_*MMcljE~#WGV6e{yZsfVJ(C(8evI3Ho~&+7~IuLR_#=^@CzpXG~z+D
z@;RT`&@qG#d~j+g`T!FND!0>+R~T~tTmJ9)b_5J6m2^1k>t+a}_a5u$62)J>85Tf4
z6_B$#ea%6|T9cA%nL115L3cRqek?WtY~EIa?SUq!WVPYrfWXP=mj!X&6Q7tvEzQO?
z#-vTah7RMY27*+sg5iinr_YERj)xVmgD+>Y^JCUUlg0@UHnn;TgZ*`>AiL8c8GmYV
z_8g-vyMqY=Rgu{~`3vrg<hAh(XPm1ZGy(6BjK3s7rYzX<@-#~ylyQ3Gd3k<fi^|d!
z`w7e0;CN-))gW`NUSibS>QeNn1e(FuHA$mV8|HcC>ACfQr!C|MI$+TG4;qLc*dL1s
zeAutdDy$h7WCb(>l4A2K3de*hKd_2lRhm9t=LresSqT_HV`;d$^mN0iSsC_B;P5yA
z`n2F;oA=-~zf%!vr`!XiS;e)uJOt|1r;@T8@_Pg>gs7?S_6mt<r~9mzeiTu(I{hV;
zby}AxwxUEe==!VFqSdZw#xFo%w%ffcLBLJQlfe67AtzSMYAQHlf{?eTC!D8Sr2jzu
z>}jzBHc0E8|7pQ}-iy-%r;d9Ua$A_+;M=?G4Jt8)Qb|$VRDAjno{#PN5?J1{1KVMU
zqE@F~8Pl(T-a9RWH5zJ)Jg@23!Vn=s=G2)zhc!jdWNNHUR<!q?+Vm=GDC-b;*Ybv-
zu$;@X6y{KO-E{=6${a4pcvd}YJ(K7$F;GLwfNRB@GLF6ax7JQx`YSiG>pg@;S(Jh&
zd0DX_=||RsnBT-)Hy2``yuS*k78i@fgyRx;yz33hYoLd3#KIYZ(icwor9hJ&rG3$a
zC@lNmbS4u52tDQ_a5YxC#?2Lv_3S<k>)QPQAmYP}AonZV>niC>Rf3#j1OM`SV}KnS
zsF`U50>BeNj#^r=SWGJyiZGz7nq!J+3~4G&P{aG-)_k#dOqyVS?1GFtep4U_k34Aa
zbV;8F#ysCVOx)Aj80=snioHnk$T3s60+HwkUQcUYgUhh1^-#V;Q-CyM7M8m~Rqk|r
zu>Lv=k|ZgpAqtQP%XpimPm2r-8`r|P#l0d>QA~LUEAE!5@(qgq(m{wH(wDe1?QGc2
zU%iqTgOJXKjU53|H-`#-=W1Y%#>3HAd4a-FhC2w?5Y4mizdSer>)hw=2kH9M*rxcW
zJtjqoYF2IvKTb=YUH0B#tjmX=VHzd@0mrQah`m&cNz9WBa8QG@Iy?S_Sk9`*zD%r-
z9Z*QyUF=csm8Eh_B2*-e@Y;Tcw$3May9fi*lwlkwh;MKbN?4mB8YD(R5vc6cw|;eC
zVbe%CF|@=sZPMuez~OTqZ<~s<$Ro5Xfe)|J(Y&;kz5@H1TLH$ixqDg6=1u_Id9tG%
zt8{eR`!$!5By)wdP|3axI}d6MAiR!r)sBdtu4GJZ9l%~8A^;fd@-J{d{MsbSRC{jJ
zn&GA8N4ty(v6z6m*ybK^Sr4&&xJT~VBS3q~--hOP?xa}#KCS_~R{(F-=9DIl(7=0S
zNBN@f)z9>-3rI1i^4Xe^IV_u3|I^*4K>pr^aG<{@<Jw!4@fj(=^!|hk!~uZYk}J&+
zP*@Gqp|U>;v^|FzJ<V5haDO|u0p)3|KgZVliXtp^18G)riRor*_hh?MS%WyjhE>{0
zBY{;(2x!S8MN?Cp@N-WC;e+0we2yLhKIlEBKrksaS!gPj?}4)Nuo+oRy4~3zA-v}U
z{aRi{KjHSQak5Y(N1=Brtq4TYyO$qo>9MUIfp*pUwuF1XdJE`e=IX758esQB@=a2S
zbhC2QB9Ra5d=E1VuJtm7)-Z+OAl{-;Of7BriP2m5st9C6GY-e2Q4D~uy>=GE>cu=n
zV=U9Vk!FWGsX2QK5OFRK2G&#W1ab2Z@Fq&N=)~mY`Y^Z1C@(|e{i4R<xmR+`cRyKt
z(yJvD#?d-Jpn96o+$i{I9L1W>4=jU4cwS(8m7S)3aaWJqu7uslL7vOd@ja}4>T)TX
za^lKyVVNJE7bZvSTpn|U{(kYCSF68LS^`rvTVQ|Z7z_kdrWr6bj>RU)!kq?CiZrP6
zOf|o~6ysW*6KhzNG%__I>QNud6$?K`OgQbyTw7kXRa_jX<eCKsoqn<t-M|0vlAMaY
z-)WX6=oD_}#LJsgk|0L1HqPT6_Q@~mH1lEEX~o}l4Qkq8(C1yycc1^))|tmc*|vQ=
zYQhLDBSoT8_9fXO#+Ynn7z{!a6|yg7XY9M8qHNih7+cwm5VC|U*|%)TzHeiH&$*xb
zex7c<^^ecznz^>QuJb&P<M{rLABSHz=9jl1JIuCCwt`Q(P-&CCv%9j`v_DiT{)>tU
z^Zwae6@D^A@jFq}(4h3`M|VA~u=nbF(BD^ea(;P3`<3Ib7r@t1a6EgW^EpO*dNUMq
zrL(hgX_5omX+{jNTE?w4-F3;VAhP-vbv>prL6;vdZ=HP>XXRX}W$)?N>Ju|a&qKxJ
z7r%*sRw|KQgA2(w{hac?K<JvqZ_42=wnsb`T;+pa<Ul8GHoiin-Azhs6@+qZwPud4
zc5ILKsFR(77}~bXM7Y6N71KD;sqw^BP3t?8Kl$sz`n0sWO)&hXnIdcv8aDa@bK?{G
zI_+9@Ja-*A;A@ZLm7^@D>V*&Duya7cTXyT)6PeO!#isl#MY2acgXkN+4aCu(qA^ul
zJCUQizqe9WWHicV)^0rjKY`%6!f3FuZhrB^(djm}?y7gt<~S}cg~T<<@`qd1n2#+Q
zE3so<unMyXJ-1RxP@&m>SV+*oXGjUrcZC;ah^~P)FeO>kIHp9em}RRrSqr@%6O6%`
zom#0aejSMQQFY%;Ocu{zL9@HSdQ)L`-9@bpvn;E<PEkDuS@kl`u6tzh#7m+Ti-VUz
zdaw%&&<%_ti4V!QH`P!G%3)iwOlsU7)1r4LVG5&<sG-9ctD_hO2mv$<a-feaK|m$V
z#GUc&Xv`0$^%s?C{g@(8a$2qm$41WgB|2xy=8JUAdx3CKM+?`rlTCgODn@+BPFTEg
zE!^aN)=6P(=XAN2_OT30XT2V`8l?Ce?F@a7TjNh!)s|$)u0UvAkH{g-T`R|T-kT^2
zufEyrS?#aPyAfp8DAw-8oqiG?{I00OEHk5DSlEQPnpULhf!w2_U^~rxw~rf`hWcji
zCGKUIxSNW*DWWRfw{a&JIxsI~;^Au&Gn?Aq-5R%DK@vEO7LzVjI}GQceCHcF8Emr9
zofN{IwzX7G9mbWG@i^lB7OQef3PZ*%iiZGySIG9*e-MAZtVP89Yw$eLLvltt=DD{0
z#wenH=X&<sr%P2T)-Ek0nj&K9-v>UpA(mtYZV}QS1x<1p^1GGzi)VqQ{3nu~^}U14
z>R1CWm_}m!n?8#2zPcw@lWeCqj~wB4QoN18u+4-TskMt~e*5@96#*TlOHIK?>XdNW
zZ2)gz8vdu7g-WfyF-7aOb=6JkIK948ZXv|m#iV@FT}c`iEzh%te`mz)Vc=EFI}yJ3
zUYv^1+hrYSz3O>{#kR*csatiVx`(xG$BPfG5sYAX1J%#$Ejp-^`cz5W5zonE!?1OT
zb_KOn2sZ`z(M;h~8CJM>vfVq@<HmDq!*Pk!`nd62DbrF*;TP%rM>2SzAj#qq8InqE
z1rhuKJVbhzsNCoB24`H~1djM;HUKt2>M4TN$(YiodwDMq?w7|b6pqY)J#`=R9$7_M
z-m{e!><%}V%?*V5a~(-oH%zJr{e+A4hRSK77pH+jW=cj6BHKmbj$qPt8eop%?oFAa
z$j;@VgD9;zsZ=FdvvQF{M^P7@%hw3_ueT>tuTcv_LSd|Tg$m^Cp$bz(9X&WbnB9gq
zOe=8;B^MdGga-Vh<Cl?}!jjW^AWK3`QB<_}E33F^U%19ERQDBlQU=&v%(G+Cx1`Y+
z_jf=b(R=gQ8r{<$AF<}m5@GWJb~n4T5S@$=&w!5OMIRJi%8m}tjkOxdepq;7#;DzL
zT^_a->bxs5;gm%O#lM_0Q#00+Qb_El)5y?BW%W&3tRQ#Net~h!Ods~nTTmaEKC163
z{={h`BE&*t=k|2Mosa7w+tw*3s5GoLGd@8HQ{F?sRs7VfpOou#O;lRkT?h3`d1KK=
zoPh^z$&IV~-nKRaD;EHWf@X%;A~LKdgon~9c-kQ;rcypPF4?MP^$EBp$P5$BI6U9(
zY@#64Ep#&%jgQkBN*TimOHu%nxND$+qneih4fS`n>-2`l%-(WB5aHU1&&jY~fTKl|
z<yjhLEnM4ELqnqZG3=bFLelnBj2DwLOX+eQ)6f!~VOV-=zZKDSZ#%WLOW@3TlXUNj
zcW4n0!8@1~3{vdpr6-1UXS;-KRqZm@;<8qI7|!*FT19VbtczfdVHj5M-pgQ-P#;I-
zMM>c65;zNa>>3u;I*2X`%)7S!DNilPjIlp4;iVU~vtCziZdRvztezsO5V=<Cl|^5G
z9u8MbdKd{U;7Gn5FA5V<J#uw7s(Mj3H{LIeV_X&$bwNk-6sg#=@jX5D>cu-XQbM!-
z{fR?NeJ}Ox=?XW!GZZQ#33WsK^X|5DD?$gG_pWfTh2^Hd)<eg|<^gdjj6cDBuF2)&
z@<svOd@ZMycJgvxx4mHqBpF^*$hg2Vy1VPeiQE1DZe)3_`K?I48AI9A;k~)Ra_V2?
zo2~D+HHVL-U(Wju!QH*4kZ8pyROa`iprcC&hOlDWZc9uPttD1R)iUd<?t><k9K61l
z>=Ls?)l;8yrRMXXrZczoQ?0CbeVw&8!i<^bwQ6g_?`UH>To;{>Y6`D4n%=q8wfv@V
zoCd6QL@zTkCZ!F_;}X=DWKbJ3J7B~pudzN^ECV@^_k`iZzWeI}C`7@ghDNl6u5^^n
zihhun)}N$@fRQu0C3poi2DORyZkwz2rv>ZinQ``+u|cQ`ur>_KjdJMW0+sB{%bks{
z16YD0mE3VyS}gi~Sw`-ROUZ(~VtwcKOpF)xSD|eFGV28PsQK60@_i>8r8pM~IZfgH
z%81mY7HrkY_0p2nHCZ+K!SwVZsYt1U9hN#B<1dcYNH{T=PlT@_x|f~1Llbht_Y;GX
zq`193V&wAZ@vA(Y4DZz!r9KPJvTYLB`(xdP1p#4tZ5ye$K_}22at{z^^xW3XmPdI-
z6<BrzSKT+pySvVY&u~sj3*6_kGK>3$?W$ifGcA!9h*4Rpd_H3JNn>7oBSyKbFG{jl
z{%1#*87^#8eMaNG^!VJmm6Bo<jL@KID;bMgH89(tg79D*RUc~ruVTiCqW7KUW6}HV
zokg<Wm>&!leZBQQ*whf24lPv)R5B`C5?@hI_^g-UAJ4srgP?`H{h(UD-e|W<#)U+y
z*IYLg5-X-^;>c;8vFp6yd>dWtxW~yox~O9Cjw4_Bxp0If;g4~4!f`bzR_2&6nc-^A
zk_@XcN;QSQ)>|-sbSK1cS(n~TGhTPi%Em-Tkj&ef<|;F?@3^7G_FH(xNki>Tjqmm|
zW+vF0NuBTe>#im}Dn{{cu?BuQ+jiqt^gbL5gKrGg)G`~6_<~3ig4`+Q5y_OPk=hu@
z_T)X0b`dwTS}S7XHg?{0S1PQu>w43fl(y?@JHITw>1O$ot0l+aKozIyi7~(sX}P>I
ztpe$%d2^;&?%`bCHN#VC=h^!v*LVw)8l(G=9bVJqnyasN+-=w9?LZorLc_6J);=jo
zVR<%U@*|XfMn+>CwO%*Qt;n9Q0^zjf>nhFI2=Kb&oV~{TvLdz3%;7T`MM;(q-ryPF
zHp*a{<(AtolUQFytBH15?Oo*X)tt`wOT0!>(e**MFC-<V3mwBJf9~{UnqL}Vhq=r|
zw?D2ML)GS}N3+Ari;C^6baRDb=04=Krl+5Jp7~WP`a@+v@565}KJ-JT;c8!_T|vuJ
zy<HHs^Xch$%{%2Rz+;;GT}n{ra)%Tr4O~@~%aAPP%9#Yb_<Zx8nn(~=m|1|Amn8nU
zTc@hLMxVOccCMca$CcZt8cvMQ-5b9Dt8-vAMt*_3eR4cZ$t-5!*{8Vx5&IfW?Fp&p
z6+U*z6tA(Xd}!4L$+sVlLO3xab)p(RD)Jv>#tXT)Xd2_Giz(T-(ahxZUv)lQ{GB&U
z(He;ant30m36^fv`}{5rSyn9fJ2Fc&?yTS6+m1TB+>se>+Qg<s`vjeiejpxGr!+e-
za8c5^#Hwi@fKw&-(ytevk#d3W2zu~cN5Ga@ZjftK{~_G|aD#I2V3n_1Eb^)V7PZrT
zU2Q0-R)d3gvC8$huONFhf_h%7b?Z4)(g7re-fUS%fByxnL><PHN#!+B-?+3y)pk*o
za1X(5_VgwWV08qWT~eYzS9JH@_|BWlS-O7!LlWN7p$SG`IwFqc=SfO^)3j<(G>M>3
zX{)e%juF;#=O0^4F|Bulv*6ZVRhA)NR>KpI_|oYU6a3tBgo?ot;$og@)jkCtV4|WF
zAJgL1ivr?{yBAgJ)yafWH^yV|d$S+YF6n&G_iW0dglkrnBqIImf)>6--Kd8kNpy&w
z+g56fUhiVlFc<Y>K-J|WB>ZCTuBbuP9@Q{;@a$;EKLyNx@GJ#?>0v&axpi)rXg}i=
zyoug_itF#w?SN!F&j=rE;&+t3V!VRSH!j%y2L;bAA+=N^&D)Fa?pvOZpg2~FDpcxn
zOK$fPVt`O%`mm4@A=&34o1m)HZixM~(#UOzO*9rS5wYlpIlBT}hXl`&Jj3`T#sPok
z(7}%vh=D>{Vnkc_fd@(*9tsDBRQAAaR|iyFv2DqEm2Q@9SVJd(2(~NVoPcS`BX5ZC
z04jy~8K7)ZZyI(V*7LD)k{L>-hur3Zny2BdjlkkqB=HwHeFm+XaXs{oF{2EN$2s7~
zXP)lA;IJ@wQ}ez$Qo2!n{y?;H>%|LZiEi4PKTk%W5=~ZYM|10?E+;>yiAS}6a(cG2
zzq1H({L0T}f!6G@Kh%<#$TC_VXv7gIWb&Fb3`wsjJoj@VLeJh4+BMcT4t(&sAveNr
z+JHhbA!Fy~N*$9`3D=g69tuIjdj&lzMx^`wod5}j=wm`R>Z5SFy<t}v20*EdH<y(U
zJ=T6%xY=*R$^^7uz%Fnq1WQDQqEfQ)eqMA0V>$}1YUY)7&H^Pw@Y48_^Vh+iB2paD
z<b|&LLUQ>7-aL6(Sv)S&sS)@6zUW$&Pk3DdX{YOZfauYw4`Cj%wPWN{>$mULep2e;
zT_iF0p=Qv=_5jSlc9Y*L-Q6V%K+%<;A7FGvRXtva?RFFs-o*x(JraP`!v8A2e?L>K
zFUW_y=Yl}((_Azz+VKAYS;Wu2n32s!=JywA?QE0!u1FBH&NO9(y{daaKi40T7O>qJ
zgke!73tCcQalSw+=i~22^pGQN8SI3`#LRkKf*x4|RnR?SUFOB-H(EaUv$*xr)U=(X
zHgq%=3$TJ}hTCy<$h}|$6xHZew+-00v){q#_dX+Z<UdgXl;k1+$COEydK)17+Xq0p
zC%ifZ)-`e@w|bd@r9adPwp1KT*8ODPhExb4s&DtYDf2`x_X{vrLE)X%4oaaoYZ=5b
zcfHnG8|`2dF5#afSTWy)_;^|q5emE_qvO>uh1^2N9ut>FKgJJOmSs01m0j=LAx08%
zKiB;H8b;0Ay|tA#*_jK{?xiEOfGl3{i{TiNIV4w;P9Q+1#B~k1E)&!{WgVQXPaDc}
zh}nD-?qNG|C*4w3I~r(&bZJuC%r8`MdXHx2R^$Pyq>YzR&>)~3&>uOVqpcz^O*pFl
zQh$hGx8Ouy+xhb3@EFU^#ML4ER9cWTUi!Tk9i!h0xI=X!OxGXz4B2*|iXPS+7u`*f
z5535jS<~}9AiLp^WDB%fOO);x<iaSaqsW49Bd8DF>2eZPw2#vF?*pem`+703LdWVq
zB4NScr1}lf#(uPgnK^{UE`KzZvMaO%6xdMek$5S;=pqeVFmU!18+}|X5O`oa+x?AZ
zzOBM#ea5h{Uu@Lp%p;_d(6?zHsx$ZDp*Me>D+4GGcIg^(RT3Ma>2MDkl314!@fNWU
zxVXp-<yyK$w0<=O``Ufgs^{Nr%}FHkW0?*w;6o`snuga%T*v&(dr<D|+ud%P*jTjG
zG|s}HQyM_gFQ?7ONS?G4t@snXxdmycn0^q=j21PvwAj~Rh3xR#h)gN+Xq4PK<}lzW
z0qx9<&*+oDs?~<Hra1++8niuBJC)Mr224xb5B7pjs2Rr=Sq$jJOW__>QSyQ|6cCUi
z&m-2mm5*5pry$j{O(TQz*n})*fDPApp4hHEqh``2mSdcsD2x9glK!EqV3eJdL3e+d
z8Oz8PSgU@;K-jsGhEpZ|p!QN=Ak9fnOOq;}N(!C}S6Akox4h@h0Ao#l1oVP8|0PXO
zhyvVbQh!X4l#xM-yK*P?rr0Sr4WV#3cr?nl|IEYlf2cpupQQVZ_Bi%Gbd76!!Meun
ze(@Ya@YP6-sW6(cL7lP3UH<II6pLl$ST{aJqw@a><T(?x#k!J!3**P}5DDcDcZ`v{
zm<Tx~8|M-LQU(B9i22!1vdb(4^hU#^Q<6D3ej?v?TFtBr|7K@XEq`lj7`3+()wr>@
zIXu9i=lZa6Z{AA1RCmMopBo1T+&2tM6K6=uWi|!X2|YgXfY0`x-n8NkLNq!3;8`1-
z6GZyczQ}G%S55B4Eu<*xug`Rmrl!BxD?k-}08~Ya<z%8Hz}stW|3wdXp`<;bf6KLi
z%D-5Tti|C8{S>JFX3aK5@E3ztrM&<%nte;6?ZGr^XgAya;+t4lSlHvHx4ij)3hu3Y
z!ITZCO3SzLKq?U9#kkzZ&|km1wVDk8(uJEWUC)_?O2$Jwz~aQGK2R>%Qsfe<o?t((
z<Dfd6rG2BAdYC0XD#4djWXS(11d8MHE})Ln4JNXV4RJYu?hX}=9!x!Q`}+E78m9*+
zoSPCpTlE)YNXSE;+E!G2Rh+!SAiR#y<|KS;Y!qA<9qfF<tcwG$PwI}SS|7|5s2}Y2
zNP}oi49uxQM{%H0XD>Xvg?F%0MxuX1x@HBG?MH5P)|1#;O>X?bcJcjdg1V(oQ+0>S
z%u3xv3-}jL4qW<OkDN|U{xOjy`mIpAuLAwl6)aF@sX;kT+5l(BzkFdyg-qR0Ceaq)
zaV=a1MmCa(t+o4KcsRp4;p9aDeUDhT?P<#);3OO6_ZG}?1Zu0H2f)2;;j+Zwo7W-9
z)O#cvA8Rm6j%AnxkW2xyU8m~8qnq!d681vQU9W~Px-AFmm7I7*l3T1>t^EAD5mC8Y
z3!$#A2RZZBd4QMOc^-oZi`&io^rB_tyY9B@xC6%hL3_6t0QfbBh>cOs_T<J>_fIW@
z9|jN)z$@@6n0@O$#o;!z)lbT6pMh!`8~Z;uNZ$bX#emaf?2{Sq{rOvy@16}x1&Qlf
ztOB-R;G)aiXbTE)3ZmR1HhzK$*xbhbNaUP)3W~91&F3KoFmobs!W|($0Trk3axdr0
zd$S7EE#_d&Q3Q&DZX3-vS|c9}fH8(3-Sm|`-W+g^gQF!pzo~)}1R-l%;>1eX^=xL(
zphj0t@OovOLCYZ`_^@+jixt6G$Jq)&KG*Kgq40fUQqh!JibMY|Z3!5*24%DOjKKzC
zuPh0?w6v<&N{a>Z7+-Pi?>0XGAfBm}8&_7MS@f2VxL7)QaTY+8YQw+y!MY9GI}B!E
zKI79;C44LNLM6Zma!|H}oR%>pk;ls*+DmwTpxA-zxM9SU*FIRjJY^s@zI_RfKQtkD
z?&p=TDsPGb0PmQUjruXo0hxs@;`!3YAc^4+W(k4@J&XXR_Shx><vaw^3ob!)VzWP~
zR!S>2a)jYn>DI3p3jiW6*m30?RH&?wbOBh_Ng#c&tD=Gkz+3?{6ym}Q7}k%-BMnxq
zzjx?*b18x7<L6cajRxAr^ZaD>w^=302_+hup8Gk%w~^XZ6c-)!=k&{6HbV>*rY`Fg
zo)vPvJzSEhZveQpAvA<Wt4-hxuS#c-L<rx;I;w(2Ep7BTqfBD(yg@WMCGcn+qeVb1
zG9QI85=Q*XrpC%Z@$c(gcb8k_&1Y%4ddMq67i2t{4S6}ll5m^}$yrp{V80R!@6f-r
zZFr+rH7rhnKu_Nh(4w|=vh(V*U$s!$EYRwybu>J9wsJT=PfN&Lb{+_hZ0gmEd|R~a
z8SRsX|0PJ&Q2eY1FZrt}Nos^&1uI&L4Ex#ao==5Fj{q4>IhvVb*!3Iv!99k_7!ix7
zNI}?Oo9M=9nln`A;=$r=)%teGM?bzV3^ARMVt#VQAC(K4_Q(>Gq1$$x1tGclCl^$J
zMq{wlZxi%L+FYC!aRv0$N7kTj_0Mt$MtJ80s7F0RYOTHVd-Be@nu-wf;i^kTqrfuC
zlMcS$!cRSnXBqv~!=G{B7Gu3f?UXTvC%;h9m7&i5_ThNM@9H3FLuz7cL;I5dUgH9+
zUjB&Z3iXuNz2V+jT{j5V_Qt#}M?-?u1Wx^k%=$T@ozT2<Yl~HjKx)-1n>7PBW(nMn
z<(LuMu6wZa9ZkWK)n<cvFH=QR$$t>~ay#kq7Yej13&=-&i4?KWNvvh09gEpu`BA)(
zd+%elWOl-fe(fi*^h}J&lTW@yPeA=mB_Wn1*->$5;2Czp!%K|{%g85#v@!>r)2@5?
z{ZD)2W0t`>#VPyT(y-xz7kM|s4M$`A3ev4Pe^bYL;@L)Sa9x(gvF6-~P2~saQgJfu
zJ$FES@|6$MU0QN!`*0HblG||!3{ItU6g11|Z{))Cff##FqcO*8>8(qE+$5qLN>H{J
z_F|Goui~plj#5ISjpKnWbtw1i4C%Va>yPgXNFyj9cVAn~y!R7OiWTp&NMiNhSd8(z
zHC4jclEmth$L=~JQz#rRdHv~61yKnFd;6mD)fR~jVCh>Lg)WE<dc;MII8ZRfLO440
zSklqQWlP@JR*c#;xm2d?v-ejvgJ@&c3*r22eLIscFweLXfOJ@nr890>O0ce_r5kZ<
z{qUyWf>VVz9#Xk@S-WLv08e7?>XS<DNHJH7fTh0aG2PnBcAnY6Hiiu8Za&dLMl(rR
zhD`#iR+?}8DYj2^?v?4|?|`Cf<I5S9UX<w2Pr<9<QHf&_ZVENm>n}X6@uzdh#~EJ>
zBI*YXyC>-yn!IzK$>2*!0DT&ngf!Awek4BAtYmQ<A=5e|v$@yC5S!nkDl4Ob#vr+b
z%x|BE<+U|mXq;<Px-t{thc_-d38C!7R3h`=lT5&U37X%x&gzt2pu02Uo`f~)J`H)c
zro*9o8^QDqGiG+r*bfH5?-mq~);G4HuWQg8ELUC$45|9PnWWmKgw`@sVK3A5Ek^fw
zhLlH>b4LMIPMvP)!<WLHWReze3F!xelJ5fJ=K|#_OdJ%(!Htk*96#8wtEx0^PrBD$
z`+7TiN~~Y59gSt>ewi>%e15DFPQTsh`+=opB!b-~bN<a%0<|SX6DU%q6>%M~44|VF
z?0OtvMYz|q#f{GNidsJ2$cnD>^tvpy*Sv^CFzCTL_&Y2VCz&1;f7-kYu5B-~!dD6A
z@rwFi&+4^=*3PIXgr^HmI`rV>gD&yA?kA;Loycfr+vXUd<Q(&G)s9*RFoK+xobbEJ
zF`Ja4`Q2u1@s7=KHMhr0jsWy`o4wWkqV#8N;*CWdczTEZ{<IReovfEcT!d`}DFtVv
zxTjKJW#~(627T7@PyCa}AnCY)#4OO*(7^|EMv^v#V4fj>o+4e=^{jUuLpaULAk9G=
zwT}ni=a9aVoV41E*MCnPB+O6|8R><+f?v44c)0N@7~iAe?DIM23i=fiZqF>-@~?j9
zcyA9sG431v-?kAilf*y$eD_CtE)6Yd<U8SIc{ZTWp4oUE_ot$^@N|H&v(z66B=CAi
zkuz>5o?UkM|GQ>`?o*(NZz&^vMV`_6wb8jlt8UN^74&d2_X0hJ)}hw-|0RPV1-JoJ
z#6T(N3fH6H(*M%`|C4xNK6&t?PAzB9(+@*J{*-G|nlq%U*6`r{p_)Wk@Vv_VjUPb9
zJ4g%I{CP_WhXr#i!B%k|(aZGj%myh{A5I>0_t+>^@Qkv!Hw=n)1rQynYo4;tB8$_{
zSI2nl8}%-UA8v^xJp=h3t-9PU&l2SZdshNTSZWAc!TmmZk{Fog;;r7j@XfWSPoK_#
zp|8-7hN&N{EVPUrpl=H-hx$oDzD$$)vh=vIX6^$ERJ0H$Y%L1Rro3PkLMyq}CgXoz
z(z$@NUeW{#TbZUalJ_dz%28nO+Zc8~kWsM$h^0|;<U`Ve94zK^z#2IVfStbGRPcLc
z_SvhN@WQwYfa){>Pjep08O$D-)icbvIO_fxEvb^9!Wz84k}Lz(e{vj@r$D^-b!&pq
z<t){dbc;Rbb3I-oQ;Ccm`_g{^T!%S0<ftrXS+0IHAomyfw)d3jg|=ogbMH%6^LNaH
zhPiWKCch40ykqKYQ5V8&2Buc70{q4vh`aksY{r#Vn;RFvuwNi-)(z8Xg}?mT#9wLt
z>{qi*ZebA<$PT;cAZQ`hKy<OFHF@@bZ_r<Vc|u8Dc}K)WCC|8Xcq4%J;5IRhdd4iL
zG!2cGX*H9~*83siv|=#Z@jkT49DP<MsmNwrZfCik#R4Gq61QSwV=YLEO@_761V8fQ
z+*&!dg|~L)pspO!iQ5;YIFdX(yeLWHH)}GF?e*ER`bN+jxPgMjb>w2i8VlqmiIOgk
zC)zQ9_#wmzWTyH&$d1lEf$u~$U2flEH-*|30B#oeE*UV1Stsb~;o{)#6}ng>XaKQ-
zy`SRuN#w8fZaSrBLGyN^hmRXZ;Ktx-8nX6Py!vP{Rjyw24wR9jp)FaSZUEr^gVuq>
z`N@`8v({Uy&zo!=M|~OQKqBl#cAjzjWfB>Wsu2V$Ml%P!9d+Ge%h;yKUJy)~<FLJE
zScni{YMvGEk`^)NnVl1|LO|b;-fa+NJ@fP;xi}YPl}Io~Cyt&YrJ-muGvGjXYKIiv
z4FeROXe=@*P0AEE41}#uwwGtk(x3Zz5@p`INm?F$xzmlww3082iuQo!|7!N;?o~`J
zX&jc5Q2p>?l150U!1y65M#RoDh{RY>FN3V>7yEJ$7E6He;y!@Lcz-z0@;Z>^vQ~rK
znK4+b76I)iVZ9OvUW(^HfD>vFKc!64jsqoe9uSQ51A|oz!;v=U#$IEPO*TKnazUZH
z&uZ42>LWA60jRX;-KO#+VN=t?mF|fX`&B?UHM&U9HGIHvB?VyaA1Cm+mw-LM;RFdK
z=B+dvHs6g6DmC>;r-sFrX}F+*&iV^HqWLk_H8UZ_i;wGUABbYrmo5*2SPRB2mSIkT
zeV5rgu`<y#gbrF5Dy!G*!C{-(884sK%?Oa-x}Wiot(Lx+=TV0mZ#O{wFc>SDs$kqk
z-}~PAH>XxW5L9yFB;*w)rdm`RrZHZfTl4$s{;#acG^}B&?el#(S^O-<xWON4@HUOp
z@e~}x);IsgE+Lwllw03f9^h;fFm7YjvQ}#Xq3uNc(_(^H&j(77e>-tu^s|@X)t^bh
zE<>SK&;VFhCj-O-lP-uwk%f~2N@n@<%#Bda921TpFPM&s_EpA(Q<nJDkB-Y@OPBu~
zGZM+8v=*MI(t9gusV`kpHIm(3c10&=c|r}<IgpocUCl@v!hEBmZ&||yw4S?{XAo#N
z)mCNuD(3{Hp$w7Q5w(-?9CC0E*Zp`H_M8$v88NGgper?XA03f*j9nSjk_;h99#Gev
zf#>-fF|*(km@m(O66$&|ah&^J^1~a48Z3g&h{(@+&&m>6_7QmTq|Y91uVcR=ky5)N
zsq@}O_(&-nfjcR~>*c;Y;+P?w&y$0;&IG6cM?k`~*c;x&%VBtn#PtKvF`zb0piAj|
z<7ad?s3?H61xH{}m-%@{!LgWJiP0y}_Wc5-d=It(nE7(Pb$G#x7R4%h`az7qZL)KF
z9NxE4lSD9J6CMgUXPs9N3YUe5?hy#<dtKtrS(ASlieUUaV&a5KeknJ#(Z#+rT0u)f
z4et_@qM>qwc0E`S1hsOnlKM&T7ToHiVEmpif=DtyLGO0~fSS|_#_o94We{MNtkaK(
z&7>y}LMr1r%r5{OJclzf@i`^rma^FBG06$Rv!vjXN!T<zrcQmGzj~bqCS*KZQC?0Q
z3nq0Hh=MwTIJ_IeW!r2(8k_Ii`wIdt7y8<Gs{TgRiEE>2pPw5+Rlm`otOx)zC5&?G
z=$*d;t?-F~`ftqkwDPK1KL!q>)bMYAsJ*$Aq&<TM`^>WHfYVzniA%4a5lhLVfXYnC
zlR+V;T|djzqpbl^O6XcydX_PV+^v9hqSL(n42VjUl_7$6VMjpYKW!La^mzOUOEA67
z@Db@F6*|E+gikC3$z(~C^yzHfH*ZZu!b##u(2VI5b4w}L`ZKMmU?WW`72PuKcV{L6
zhIKIfV`x`S)sO6myS@G0K;DM>DsTB@MU6H0kvjK;>!ZKE=2wkX9gUM7*En;g_2OE!
zh9qTR;CFIpASYYGrP~!j?5Dn4#6D>>JNw8x_Pmq~ux_z8vX6V>;EuJQs@Xw!93dk=
zMtPD|I)Tn}H+FYRWuunE<z#r=Q5;)b^Q&5a9<%}CQJ(Ru+CX#d&kb>~tv%I39w~Dn
z2BdOaRE>y;so}k^a+@m3gec^lr?Me)LrW=i84Z(L?!O4VQ+5){|K0yze-NNQ7iYbn
zq&*T672QN1Fh~ZU+<H?Rn73<8OZ|0&gBpgd5@Cw}?6SFF@nAFTetN?LR_%nZ4+R<j
zKFPoL=6Ij{Ciz&)X2c`wwW;>P`@G}(4{1YZ1D)=ZtK@qmvZ$=8^q5_d{_n99GCwyr
zn`3Sszx^tSJJs<&7yQ4i!P45V3bf-2?q2@**RA;P7LOyIIpjBa5hA`pIj_g4z+L)%
zQw#Y`dD$Y<TNfRauaW)x1i|eLmX3OxG_9(NKZ`vbboKWyl0I5M&rukdh6Y<L!UBIg
z)Bo(>_7vE<9>qm4IDPlGBmQ-aDGqCu(4f4I>+h`(U5AG>w`UgW#Bm3$J&qx69mCVN
z|NQRDrm$btEM1L_cj__Khc1YWe2)@SGx{N3DevD`3XZD-&C1CUd8N^393_A5k891B
zrrm4k=20;f{MHh8`tX;TkKM6I;>1KM<$I@~51n&DzH|mk$Tz5^kL_PKmvji*lMNZ1
z(G!YydxB_7eNG?V?tIGF2#?O1s#QCEc&DkKC6Vw(<)-`9q$m4dccGkeO0}IjneEUI
zEzLsSwQWG}E%o&4|6Yl|zi50FE$4!<GkYU_@{cRG@@%{vjSFj(|JOlCzi)b;S*_zO
zOD6u1f8MZvKGGH=t)9*?F74dJb?T2D`bytG_&RavG*Dgo_lX~KW)P5<T}(NB_(sIg
zH)ts43xf-8F$xol|Kn)>qz91`b8fqxBICm0%hvUDr>5_VkqHeddOmjOW_d~-%M-a?
zZY46)0@Db`%d!Mc9J-muD9trl&CZMuYbH6*&Wk?U`n6&-9;@=th5mB^Q>c-d7iOp&
zQ)hdwocnvp#a~XJI=m+lZfo3@W#XgR=C{PX@3r@IbqCC8C(j)Im^ifo>d|y{sk6oR
z?bf-FX)!1JkI&So4xKp}xy7-kZb9mmahAW@vW)C4Uijw2MI@Xx3PxebLuXe&-=K5b
zjakCx*6|tyrbAcWW`Cvc-tL4?7rY-IbokZOp)#-v^1Tsk^K`m%yDfA&DkE~JR2XQZ
z(V0G8f1U*-Pqfza%Ic|Paik>9Ncde)<PVXcV9|)NrT6~P3uiMkGc8tw4<Cc_7MhhB
zrtKaHe=2Y`;%v-AmUVRKxjnmC<>y+fErrDG82-lsaX}8lPK%yYvH#rU|K2HM?w3fZ
zUvOu*)XvQ6IrEH&od%I~3C%$Qj$N~UU9-H{!suGX&gekN(=F#Y_h;^NPKGKSHA(n|
z<DE|o3m-p)uNohEN{)E$KpJmHIo&d&GISqpmboByi-o;4UWZ@JKs(9OZvL{I*|;jk
z`(ajBZ4hrwUvK$dDRF1x&V}72@80FP4M)3$2}fM3+46U4{<;=siN`%5L$mGc7E;oh
z(s?LLQHq(EWycF(;OX1T-C+-XGynW6yWWbCb!o1mkj)Jz*QaIg#+J9>CX1CTt}Bw_
zTXDPtKMwZycXn5|7PlQX^*A?i%5Tkf<l^JQHp}+Q_9JF3N-LBr;MYRmSoG-q{eRfs
zVGlLH<jz;WK4JFJ_93U+w$r5$-V31}lgjd)+^#3&?CJx4jn2;RK4?{4rYnXRUcV-O
SLFWkgrzop@J4Z&}>;C|8I%nhn

literal 0
HcmV?d00001

diff --git a/docs/source/assets/deployment/chatbox-settings.png b/docs/source/assets/deployment/chatbox-settings.png
new file mode 100644
index 0000000000000000000000000000000000000000..a8e3d7b2894c720fdbcf7b6615ea0b1c892db409
GIT binary patch
literal 97161
zcmZ_01zc2J`vnRkqcBL9bSp?oBhny<fI~|w-6*Mamr5v#fWQn0(p{1wB1jJ1DH2kH
zbl*Mx@ArN1zW4h3p~!H~*=L`<pJ%Q0tmj0+)s+ZfG%zeIEP{K=3Yu70IP6$hm!xnn
zgP-s;)GA<MVH?=W%fs)<%QL}UoULpfEU~aS;@o4U?+0m+fA@c9<^Pf<o%8EECVmnw
z8)4S_bl+fk>?Wpamnu5)NP7Ej*hDRnDHvwlSMUpF%C^ZZu(824Qkm+`du!k}i#~oP
zwm7xOVB>15V!0;6Ybs=hq~2@)oiu*%GFbigQpWv${F}tD?tTn)c9eWe>+sGb#?Vtd
zcxnob%U8r~&RXTEdpbVtQu8J!i1(2B*YH~noa6^$HCoz~8~8-mNLBVxb8aaQc+>|D
z>W0e5@nNQTdn?pDoX1S7_k<3XuXkHk?G#<r_0qf9SjTajLs%h%*l8h={W^_x;rC-f
zLH%UB(oi$1V6{FAj&=(fI>mSKXvlN7x@RFL`yaFNjnAeYH*3ANJbaky<?w996HXJ>
z5F93Y$Tp29e;{WYwp*re*kUsB9zFc|6HYX1zt4+c*Q>czSqCNpUBB_lr<*N*ksT(R
z`JJ{M41&oPvwV2ZN=*&xCior~3p?Bv3kQ6M4Zdi=7Zw%-0r}5QaM%%-{`37MDa?nQ
zSD6U0uw=0ADadL+!(N@d@}690D11|pfBr-8JO@)cON1FtF9j<k3a=?dpTrf?pIeP!
zSr{aG(iK5181))Q@du1F>?(^m(d^1usNweZ_I&E&uik0&H8o!ga!q5n-47>Rf1aKm
zZPeQj7gl`xrtl&rrb@uF{o!b-Wr0m^`g*IJV^6B2ZZ;e_qqDNRKDpvoKGhiW;)QF+
ztiO$P1=`Vo>U3(OXv@ZTUZgw5-{knju*~X}POf(3wEyYRgFl`${%4ze{_|(8%Y1mJ
zXEA4Ii__A_M|^)aE}x!sH2QDNHTv(I+1@$ZJg#*d7a6axPjDP5ZW<~w-7vwY;$5A)
z+VX<RvjlpQvUryI;%KdEdUvS6aQLQnHe#B2@BX}J#IAp=(~VOZtUw_sDJiMynPV@p
z3>G%dfBp&#Vwq_S*($2pfD43lB?`7iQE)Ao5h+HI<B>AX$w{o^{~{-6UMCBrBW2=<
zlSh5H{J&$dasGsSDYxx+SQ#qNEiqFR)s&AU4vn}sAK4TALgCy+Fo!Tbz^C)upVduQ
zz#A{O)#4xc6w5*;^xtv(_pD43(0KBv-$<0+|5kUHs(Wsl(!P3!*_Sl{3xdmZ;V)7&
znPs_6?^hA0iRz*ecA<ZK4E`&lj%zbSFc^=@ezi7UHQsP=$91mr!=?XT>pw$;l?U{^
z<Iu`_xi(S~j8F(Xb(~osIX_F_2r*m;#ZB#Eum*xiuQa7<v0NAnE)yI9jpvkwr^}qd
zo^1VdD0Fmzb1g5%gP{0r@nT}fA1MAYguoz9M2_tJcigt^?+_@<repe<!ha2b1CsPy
zUQLk?PlYZ%Cg9D#22c!*zXb;H=#22m-oFMwj%}$*952SP{ek>n*XAm=?qTrU!eNK4
zZ(w;w|6`)R$dbU{;WUd9!X$4f{%6Mi-{pgNgwMf&bco#F=I8J#vG_r1SYh|pakR9B
zUNcvlGf%f5X|T|E+~-&4_I9SPi?{!BJ<+Z_c*3XqKZ%n09|!RmR(7^0@HuxSi&kl=
zi?`@xcNK2^_Q6cFRacVbFy|80h0#92#%sAeC+EMa)@9xrO}~4z(P-%7Q<p4X{%mv3
zX%F*|v(%Cuh6{~7zzTX;V%DO$a((38_z^yDJQSytBQ`enk^9O}mo{IF^l5ed?wGx9
zxs67iW@c1@N&VRNw0gbQj>AatW8F{cDOY!nhE4rPtET<zsf?Zk>f}G{r9bL_AU%3~
zuvMT}WFl+Y%HW+(?>X^Q#0G_UM2~-A&SmnU<Wbjz?X-V~@>aZokix{Y3k(KT;yGqZ
zS>maYmIeJHYd>FTfAm0pu5TPDOmW1WkN=Wj>StTjaF}cCckoNZaZHF-!Xv*cNw_17
zklxP!?4-)rwM&?~Azs{dVdP8TrOD0H8SvZfVOOc=rfY^J)~lOqJl2vd=$-$wx&O{x
z;6r>4DTJ6@ZYXa8ukmjIwwpS+@pA_iYWn0Vw;tsE+CA;7@vCHwC4;ovpwQXlPPJW8
z<eYQr`q^;im5I+~?#q2G3*9O9T)O$n9-NVpk-Ql!qhVL`#m<hmjI$KV<+rK6x4-3@
zMCaLzS2%4gbmce=OC5GtZ_c$;x-P2MXELALDKgmPD8X*94>XBXmaspnCJNa8v0+?G
z*6mn3$#g$)P-41)v;C-ORs%MtSh-TvIA!9s%)Zr}U4D}0fBJNkES%oseTDsSceM2B
zGw+j~;b8eRpFj6%Pj<&Ak6e2shZ&yDU?&i4uGemi9qz0c7eqafJ{fR48*V)PRe2Qr
zK<dEasK@{Gr@&2v3cFtrO0U6^S;vLWM303;>!ivG$MK=Vy$$Cc>9aao-nl))DyI~~
z=>}hKtwtV$@?t~hdf{xXpL;(q?A||(0S(*QYjxU!?An5I%|d;4V@gL^gJ7}S8cUCp
zwBcb>luguoSM4nKx0*cvMIq|eOcaxAQeTteF=ktMEwfP3{kqVE+4q;!LsibEwBjxw
zInn5)jF`*vg4#-7i4LyuKMJ6wO#kxj-i?%b0RbUxg{G?&1hgU}AkI&gp2E*q@4n<G
z;Cv45V8Z3(aA$4GdxM}<;2oc-6P3v`Bn7Y0$YA=jxyTz1yQ`y4)say@53^jk_L26q
zl3wNb$}gz}zneUpg*M_BonOCj8Ju`dBtoIaYFfENVR_^?zb;SJ9#!7aM@F1<yd`W?
zeJD&B{8Qkz+~={~t7N#hK3SmkN!_U}eu#)sYJwp2+0R#^s?@l4O7!mW9Y&h6o%Tib
zL*xoJeIFyoJ?7(-3^MM%nka?P(J;)#xN>D2Bh8XG8qXT=AK8?h9%<L(cM+!72=qwq
zeZW`ds76vhAJFFC`bPG^t>ZL?Q!A_5)pH5eRB(G6C9l@psC^?i?0nRM-k0g2u*<p3
zF2rp<Ug>CSb)RF<$b6>X4(zq^!n8H8*8+m@^h|v#xZK2_|FK9GvVCn^`I6CZzlk93
z*<y;PQJlWoY|fGyNb_p)96tT|j5JBeQQ^|t_14KEj<1jR3aDiUj?u4kv_2(;MehfM
zRKDfb@3S;J{?ozdwUT7DtnocG4DrEtca&EmLn(&APw?XG2H*$<h8g6_;z?R88FrS3
zJ+XOscmL8om1r=)_`>8JT)L~+1mW<ZU_bJY4*_7X#SICQvU&fVJ;7+Ml#Sd675mCY
zt@&2z7&#i(xrSGmaa23b(DIQ&C5+-Gn||gPIanZW{ihsa$km&Z<HnwomIa1Y>ZN=a
zA_J2@{?c=~<{>S5SB*Sf9t^hN`j|i(9<^$FVMo?NhYF2X1ZXc4(8RB5zva@a^gB8H
zyaRT+YY_#PZuxEZ-_^Mlxkj`HKkXISR=6*5`QQj<%9HyjgFlt}!=zL3lE@WCQKt_b
z@8O$WiZ3YjH>T>1*P_tA`ghMIl)z&i#Nt(7jYK=RoCL=&gO+vOB9pZ+7mg$(Bf$#l
zwqw84at>$Q_)*6+qqt`R6%M%t{3N2N@pKG&#8NbBEtRbvV$h$ZW?UH(W*Z{f)$nxc
z`Qm5&J70&bTU~-L6R66IZF>ee!wQdg$DL0LxKeXg4i=J~Rs9dLzlWAe7uK%d7JX$?
z&Z!<8tbacF2m0KYF~<k1$!)kLio#XvSSLr5{aQxh6{gIW_9<CsU|5dexouBfIbx1A
zhImdr|HMf)*LR=KT_2j%B&UA`taO*1Yvk2SBPAIU^$fp-C6~-&B&|TYza=?A#BgWi
z#HL+M+C96Jd!XU$)O$<NEW7Pvm`RRq%lB8ble?YAPn!uuADWq^bNS^YQ6*`}@9=Be
ze;2j9H;}E-OwqEfPXVBy+up}UCA;CmHP2rc;u9<&Ac&NPCe=<2Zv){h@|LAA?P2-E
zlqvUmoD^|eet^};$Y<A2_}ts8qk{KDlLqGi+9e9RZ>t<{RgZ$>s%_?EjS6Tx&qYhD
z<3{UrT^@A4CiVnDD}dCORF^(+I|8A~h+j7Fs-=KM7AL>B+Y($<tBpd>Xg10zmv1lz
zm#-mbCbX1Q=vR)_37o0<%1xh?sLl^*=I3)1(*~XmTd0ccx6pL5qlMWv@4YV+tg(5}
zcoKv@zrc9BE#fMkrHsu24Z$c%-lsh4%CYp>ala+MtxZVQ@0UZ`)w;e1S79fMjV`}b
zs{FYjmy$)DJp|o3&?BE7FjnOUggeu$3wy3l%zQ|q6k<)(ZD2GxkFJ<D@asSZ!D0V%
z+S*1xuN#<uncZc@SJ5QFY7q6331pbayl~_i?BfUbA$<=J*J_Y-ajj^E^UwrV`6X4-
zd-Z3G^mPu6Vt<0_qg8Sa4%x`%{!fN643er9ykMKmYZf=0>>4Hv-ZJ|Z!32*>8QOkz
zK5jjKAfrEVb-K+vjaKi25)MoSF2~rKjv7e4nJ)hLD~^^%hi-vEqMi8?A2rPdG)&Bi
zK+aosykqAe!E5%$F=L0v29cHsWH6q`*BoMyLsG#mPFZ}yE1ps3ulqOhi!&pVNbPXg
zUF4EoF9L1wv5WwA5a|!)hk^e(Y?PCjifXau21i^<`^CHYdsa>ualCR|7{U4E@)r-p
zra*AmOSKXj&OeF2(SRutt6B7QTruSQ{Qg}oE}8+Vksk&YjQ({tVqD^QT#kq5x9$Id
zpAY1Kw!9hpfd8+PLBJhhLocE>%-zMl0RwZ<Om;nwTmIg5z}je8E9W<JFbShK0F;dN
zP3afB@El^5pfHND1Xfu%ON?KDk;fEqHUJT-d~TcXCU339be~`JSb@rcw=-c%h3%Dl
z;F*gU+`h}S3wc_y@tWbnlmyB!eM%KSMiYSHO5)?r`vsD2itp$ttXIvz&i^7fSbV3G
zgsN&|Gz_7zDlPA&z%-82P8liqm2~v`{nm4HMs9;GX}^@ndSh&=-h0v(S7km#WKo9c
zE<_Q(MZbbHG~a^5oW=SyH=;MRpWyrr&KqD$8ZJ@G_t1DPv_;-Uc6@*@(BWDH2b{jn
zHsao<QY>*;`oMdBR9Jy@#E2{fLMB((`L+1>K`HYRm#Ich8V*04Yd3Y+Sol@xIoyp(
z+{LjTZ*Z-mNU9o)Y6;IG(;#_)dLLI^jf#k4QRFGKb9~|4+YQspr(ErUoFClZMLX}0
zZK}m0#Z^_awV_|>yDL%oc+z0J!rL@13Vm9+F=77H-=Snq!|E!B*_(oifsKNPizd1s
zH%Vs0Ep46ytRUih=w?`I5qYxJBkj?~9R3h6f_#wgbaS<H*nAx)YX<$!PCTm$y>@;N
zA!LKu#>=+4oEuN9Xhofb6ob{pW<yr*=mf5MFLtL?f(<z{HC$xs{Hr5@XiCWtwV~9T
zu9)FyMt^bGG9s}3QBeW<_>qd|6^<!8m1=2aeWz2gHZ3o*;DTj79QRr7Y4yIWuk`)t
zlviU>QE_;D*2!Bx9;ICvXHm3Wr@=q>R?nma;Nt7!^$L-s9{p;fqa;dnxX<$S%f18h
z@OxKsXF$uG0bIa7;T4T=`%ck}^3m>E@CpsUn><F<C>Ry5Dx3u#+4Z&h>CaWbatPSx
zR`FjtPB%>YogP?AEW9_*2Na7lRpE>T18Y2vH(Nhd6VYB+(AYR;e27I+$*-2TIZDhA
zEDRajRUcMJ^{U(IT>phofDIRNM{V42F1~F)tbhCxPj^1PkaLyVcPE}xYjyckntG`Q
z5yFc}N9%Hn)&ogPN$=fqFc8Tfexo~gr-%Fj$}Btrp!Wuzip8)vzE`7wo=p1v1l}Q_
zCbS~C@lKq!*TzK$9U?KgLFyPSZ$DniLrn%fp^7|GIuA4GC{PLCkY|>>9LR|8sXSZ`
zEj0>xCMC*Ymq=^0EOoVuG&*&;C#>G;@jab(Iof_z&gQW?^0+yih{!|YcXq}qz<5=F
zLsgTX0zSdEzi|9Ybn3|{>0qu#EelqM5<X2Sa#{(>1~eGriA0DtO#?{-??|=3Z0pj)
zohJThW%{X$V#eqVg!QcoRZErXV0lFzc~eb8JT<lI#x=a1&o+aEhMz?=ScP6!lxE@^
zzDa5+u!-|+CC4938llWpED?RG6c$8!Xf;7J3SW!BP`5!l6rRqFne-RDr3YJ!<Ex`(
zYW**d_kYF=)qC$*441hrYl=?DHQ(IE8qd|?l34uU8q{!%ovVYCX)U$vn0UT2kYoOe
zR<!aRk73fgL2W^^v2xo}V!fYpU82+FfRjFab6qWH$3R(CwY)b&X}mL0(AX;6&Ty&j
z?M)q((zGe?gVu(F1=`{18uyiaK;jEc?gBbq;4oU+bZY+nWyxpP#hSe_rIVbT=rD-j
zVJG?aGI*#1Th%EC{}g6G=oq1jkLWOhn@#Vmse2@9olcnfJKp)0RCT8lX8Z0Hn`04=
zQE4ZsU)tkOj5>XD_>8z#96_@gZ1)K7&A#ee_m%khQt&mDq`bg$V`{gR(Z709dqAL+
zosDgznMm3JgA$TKMz#E{N3;uIn|1L~-Se&0$Q!9onq`jxr_~#q|M6z>xpV!FuEgO|
zhB4MWprpICBfkgp)<Asl9HpI=#hY9NT-<ReU%#mVhEPos`mx?{<V5uZO-t_cd~edz
z_)$yI5jad$nx-NBkt&AuWHl2?bV3>971O~{f>dI?=#Ucg)*AQR6k;CqtjM1$7sCS<
zM4YYISp`*3NiD8Cyqp0g)@C&ud{^q>wJ0b@eI;DKqd8gWxV$);{y}M1=t_tHr;z*7
zDJ4TPdZq7~G0^3TmG&?B7Ymdl<lfLrc(_ReGK)Js|Bk`|P8k|RGdnIU5zcVvtMxAE
zw^la2_iBm9ueW+*KW?P0POUtHG7ONvU+T>WHymQDup2Dx;H~A(cAXJjx&~z<l-!2v
zJt{H!?BWDqck=4l>BiZyQz6H~xO3xL;VmhtsqQ;lsw;zedhlv3cQO;7%@(Fd8sIE!
zi;TC-LO4->ekGXJND04`l{bR9^jlLiJh|CMIU#Z3_G4*r1cZH9$3i!z%yqMsp8^H;
zgX7OHQ(o24FZitT<YXfabfVVAi7nr^2C}~9<0Sh+G>IAlD(3ZRPI`Nx_{S)O>_RXE
z!z9%{i1pIvgg>`r;@D4jwT*}fv)u-)+);Y-8=0|HaFm@LZbZ^=vH>7j0p>uzXCll^
zj*b}8j_)P9p>ft83;!M##0-09V-sPuf>vvaAf&%tUG*u&BT4d48>`d9@F2mTtuaJa
zTPTsP+sLaVmZo=hN6ag|_ZnWl%PVTQJxZR_a2ABl4G8f&wth&wp6Gp1BX!9OXeid}
z(9Tkb68%-mFy~;MZT0m=+Swy6-GUOZC&#m68q3s@E32EygO#;$Sl_5=*@aPk+a{W%
zUQ-Xe%ovL*$z7RAPHU21{CswLG}(O8LS?$jurK`U6T|L_RMKUk47H|9)8yK{t3(Yv
zrVSH3H^pWR_sg?@MlE$GPkuNr+{v_DLkp3c;?{TXUi4Egd=%p>c4Qa<EhR!?QTJk6
zpWrNZ-oJYt-<YAAJ@newR@0@EDR_Ov*P-<1tXzg!<rH|9>g9H$15p%wUNgnq+??Zb
z?j*;Tsssq^2D0O38Njkgn19cr7=^Rp`|U1QJl-aVs~CkesD{dGU+)Q<Aa)!ny9yg#
z*b?2WFrT)zRtu+Z0X{)TMCavR6w$QyG)o<)ygV2!Luite4OH9a9KiWMC_ssAO38ws
zNIKgTaZ**`&k@EDLOWDsnW++HHO67^jYcG!BI&95nf%$Qt#m1b<dm3E>ZjtfG%t?E
z^_rE59uP0+8h-E`WviAFJm%8AFQ-pJ14CxX#Q|Bco`70_?H&{JYOD~|+sDX5l35-f
zv8Yl}@@hC*QBBavrZO6x#gf$Ume+WUuSQSJSsaMekBpy9zIbGbZMZa$^JZD8iTzBU
zk{{x9QQ~aVf%xGlPzI6S+xTQ-<JI%ck=CJO$XAj1jnm|w)A%lZC2u?)u_=d&4C@#+
zXFjM)7#Axxg#*Hmvr&O~6a<6Y)%$(L*S|h`>y;>t-0YDqJsy<p_$uXWV2Du7y;A*N
zCN&+JDXY%+By~Dp6d9v?PT?{vK9wYE**OZnTCzQ85ug1hRBfo+maf?#(_8cQH`j9_
z{6nr>hjCz6UEnLY^EBAfa?DzxyuJ#oK1+Aw;P7;(Oob!&c5VBibp33b`Jzg$O__Qq
zyT%gjX`i>Q!A|qnC@m`%DdZ?$!{Ki(4ASz(YTRfzTK(YK{WSEtJE7%Whl%Rm$M)Is
zRx7ysQUh^C{Y+vh<2`M&>ZHGjpgiPoTt><{Pc4!Tkb~ccSz&TprNgK|)xBoTW7O3y
zIsu0f{;JcHz3D0t!D|_Tj%4=E?zdqR=`>JP6PWJHg^Hi;6#0*G71hmIEumEDffW2K
zHgGnEQ@KcrUn3Um%ZoC%OPNeo5NQo^$8dLKH>I{fq2!XWHiz*@!<l<vSE|&Y-P>u~
z!Hy8Caa`Y(4a1Y$Pm%hf?S>UmN7hrgjw2*VbY_#$^|}HM(vAKqMKoT>Q8pp(Fac_E
zEHn{%w$+B?8%V7m=4rlGeX7XU=Xc|UvS@Q_<eb60vZsQB$R#}2g(zwUJk~xvrpi4-
ztms!iLGHl1l6q@Boh1OO3)bTFmi5gJu(DVgtFVuqL?FJszh&+K)K{mw(Et(fxOhq&
zt(F-h<Y<N1<|~Fx@OPI-%RUL)4|V?KqU^{o;X%x^{qHVIl${f5{}LV<LfHO8*{pD9
zAAb8<Uw+rJwULU(ScRoIdmUaoM|<aT)|J&t!7<%pt(d|`^oET4;<M;KL)p4H@XZe2
zPm^)g!&3&vZBs^`Ov-U4m()hZpUlYEPu92(AcDj6?|`VQ+u(Ds?UCppP4P+_-ei3*
zdn7Z-PKOR?>Q4GCyf;+e&%6uGU6y)5G43f%lRK-WIYEe&Ca<pE88UoBUNms3XYBqq
zg{~cIQ?2PmID;3*`}O{!;k@0(g(UlYK)jmlpq9sQvaW^Ry63KoF5vNBIkLHSMVJCY
zNcj)sN?0mmwA6GUqs@GYYO9f&aqLD}L%9~!dij>&+tNA3Jt)oYDxPFSxYtWQA0~Mg
zgQ{`Q^^!fm`{lC~hGU9Km6e9$^t6suZUy5d=HavuP<epu6`KNCjY}&_wI*7vN4;GR
z$YI3*WYsXUNTt8&D}gE4EQJej#uv;6lgAx#naefHVDuXS9+s*jfRM@p@=Y7329vV&
z%dB#bj()<v=DlPD@;22~yRq_|T1#=slkI+>8Bc2mYvvAa&W1CNvBumX#Yr`@&6-XG
z=<9pw{X@BPz!#M3LIdPTyuNq4!OdoqT6UM>k(KsMx9#gKiw3!L+g@iGhXj%GPQ~33
zBcUmIyj4k2;fz06{0(*K0H0n$zu#_f3(74Tw*^UZRDeG4^-&Z2kiGu>Rx6!3s6js1
z3?et`Bfe%iXraW)5l5f99eG|VI8c=Nfs;rGH2){7reu!aOc}#|Q#(}d!@U&XlxF_x
zEmJ7;%S_s&(J2;W4Vgiev=s7TOSfETf$Fm6P|=`<$K5STT@Ep^Mzjl~I49yIo?7_t
z<WlxNni?%Y%p88iqK9SRU+<$Y${K7`9AxeBV(?6XgI(?6CBp?W+R8GTOgTYi?i7cP
z%A(S5^|f*(R}>lLqz_HArxZ#w!$+p};Z65<C=ca}TI6>~f4}2)v=*_k;E|K(!Bxf$
ze@B5mc!I8w9(WK6qbTj8Z~aFV&Z10a_B(|DV?3(D_IqTOFs*)u-OeO8d3!3FbDPt+
zHi-H#k_dWJyEE>BVEs3BK_4K#=@XPu#-lA@yu^>tG<E+tIgnutAe*l`lm@a?S8yvY
zvWUN@C?Upu)u4R)@m=oQnMD8M+cHcPfq+$27vQjK%9@cu4%B4&Gu7YoHvxV_GLiJI
zqWcWcI>v>wAe1`U4RuvrF019fOcC3@j}|Nb2fwHctDihZc^cqvE%sCavYAyuJANJ$
zFs0#T56yq~_G8mxN%Jk7AcW+=R8#MaPWf!9CEs?pE1q8HN?rqjSyU|}ml4VgN-c~y
z*TaYyQ@Qu~G1V>+hxeS>Gvi6Z_N$F&Cq*a6TRna{Nkw1-l>jQ8`I%ATye=hkN(zUY
z^^7?J-EO$GeUd4*CICWcT;ujspK#Xu9f!u(+n(#IeqMX)j_mi}l>=5N=#ya40qC!Q
z<=y?PUjWt|R`JFn5zU^{zSe-hUmbD=l}jMGTK9i?Ks014dvuI$Cd&G9&&<s1wPT&^
zxvdm<%sx|AM%@tCD5bZ4IglKxTWDlk>$y>hfrP6epv0&+sYgvjqp49~P?0@;(hi8w
zDBxnj+)>khM_tikbGVJ8ccbZ+gD8^{7Xj2R4++7k+L&nyc0Bm=OT>Aqjw#O!NC;Uw
zu)Cd@0^n6@((UF8YR9}ZwxvpT%VMM9&uCCxPYSTR3rg|dp_eh0Edf%DHd~b!=4jLQ
z9cVll`UO~)XdWnumOBNxZ*FetHv0J{OL!LQWW$@{9W`p)Y>yVx{Eegqt-H&yFI|3r
zTABmOqWCg4`X{DOnxKVgP<+bjVQN9EhXCsrfID1Y1n|=BL>m-(#TYNhXtDk{+pEaC
zaF#QltO+~_CyYZ_MV^zK7{!losmj4L6HE#Okt$5QZuzM-_5=|7+Eem)_?Ko;O9OH~
zlL;tWd7*ZWW~JAT9R?r_=Ii%wP+FKT8E6}tZ7=mY8G;m20JrgCx*&qiKfpfQ@C_n8
z*xLG4_@^WQruBQ)WR$><PIrH;(s^3yxWF(~&^me$Xy#6Up*|Y--J4uI)HsRgtOV<_
zmL(AsCMp_yk1o5j#Lps_seu^eN=<&-{{<zFs=Son;qr}ydq`J1+}1cH23t%WGMQu^
zBl3?=d9CnJwMBRs1N0wLndE*RhsNH+hT?83TCR;%81K4Xul<2~e5w!Rxv-HD>cC(w
zL_kQ`?SVYKo+Ke#v)tj>)GQ=zE1j$AYhz(;xqh$Q?+RAQ-9<qOU~4E-Du``$3a$a6
z#6uR3qC^`dmq>$Q>Pn2h14760{+l_rOJPw@q`)unj`USJ8fqa}4PH>XMOHGdoKJR4
zzL55hx>jYW!UmNNiL8NmX`CcfG_57hOiG7^Z|lKYN`c&5&3=qq;?ORJ3a%?<_#>ya
zttBrWFFuPux>Q49q=8}<Ko{HgU$08D(?VT1w>4BZ|KV%{n|7G1hp1^!wCwmOkJ=gT
zH@J+vNUm-HO*2DT6_=tkmtNrqHYTLt%_U;$SkxhK)XXbu>n^6Bmt18u|6h?Z>8$TH
zLP6cel@P~_4bd6AO*k6S%ej2PhysfUNEP-e2w!cmv{bQ~xGWpF`Yy}=UlCB51)&;=
zI>S|A)0n*=Z2k=_7PSF<&iAquDz#i8|2h<x3Zq4^YO&CTTK?<9Horh$t)O*wj<}P7
z57_^bn$z+4eOQxV7aqg^N!{Z($J~rS2Y>ZGnxw5BLep3QcGiS<;AeC@Msxz;uQOEd
zJNvnLiQU85C76D+`>Jm5$I}*E3)vY^t}gH3Yn+I_{hLE#wYYgTgiO5{NS31@!j+=z
z7YI{C9FtPO0^SA7m3?IfC>K@WOM3LMjRLqEYEzzmr>?Z^&tgjkPMW1d-LuohulRiB
zkDJ3r0iq1{W%NIOO3VL91}!xP=%~+JH**nY!<>Rmlx$PWu<c&!u~zzgYhiSKvUak<
z2bhqC05+|{RM{}4$G3CBASw=Es)utPBIhDF@qKKo>4?nhzRa;#a4;(4%2a*rTM)OQ
z5MUI#;*D;);&`~d?6LlNaSZTzmu+59+Lkl~i?)9AJMDs2)iIPqS-}6)=S<}H3c&hn
zp!iY=Lj4GkE8eVTgu6(7NCN~W>r1F#xA-Dmzc^pb5=(z`ZPKCgS_7~XJl|uQuCUkB
zVw%H{g*WQAe-zg58th5^xaZnLI~fzi4{S}YdRiHG34pcYC#Y460uP2~l-_4dT&l3s
zi5ee02bg8Jp>uO{MxL7`tMLtB6M4coU<Y3=5j_Mt>l%oZS9wd-Q*L{#mb4lG=gQjW
z#ndwYv!m%O?n?wZ*$+$7@gFXY04+*?_G@VH&vFDJkRb@%sx3%-1eHLrX#=~*ZoJC5
z3ZTKnZjCCZ$w#%6<!fa<Qm(Rb-s_)R$@zQTEk640&xU(|uW@8JgPnoybp;EIa8+Pj
z>(TU^HCpT|^ycZ|3ZJJ@F?0LZKfgLseqeMkjJ;(%!=&B|Q<txiiKqjmDsnnbeCRVU
ztBV2}7&}NM=QRXVAl<x1{=-}LfWUWHp}e8W7E612v6&#_@E(~18^!wV9jQ9orN4qW
z?6!~%>WiZ$lNGolC;c=vkWMf{`nv1OJ08CWa(KnqW7>LzeN3U87<UQaujL@|hdG;3
z|8M&Qa^vmuT?cw^WLz*w8!f~OcQAM#+;Z}25D<RX!rbcqv~%%tY<5d*R0jk?$N&zl
z0*TaqqPm0tm=IKep9)0rG7!|q_NM(e7~bz-<v+$wF!o4XsRa%m-Y@(fs}H#h%CmV)
z>P7$@+322qaJn;WS{rU=$@CKF<WLF$n)qu#Bd1M5Tv@o!S3h8BOy|<Zd`hli`j!(B
zj#hblQ*n}^LExCCdD#9rdZr0e8-KKu?A%}r#Nm(lyd3Y5M}EMlqBfktOzxtGxEqLX
z8IGwVR$6t@P$|HPm1QHVro1}Hc}{^z#qv|CSFResOh7z-1pAZiZ0VcL=`D{<LU2Qa
z(azNGAoIwG;rTqto(VO7&0Q!t#`+`0<%s$`*a%@dG%_f+nHA7!kLUaujejQJEbcZ5
zJLER588Chmq$~A|w1KbVTyC<^4L~SZ{SqS#yu*fYM(HTuZ3?w1xcBBdue=;lo895%
zGmM_Mit$`bkE}2s4(gd!7&?7!G4VUFOkls|cl<2R=yPd~NJtPqP)h2Ktfm-?m?_#3
zsNmJwjfP}44rD-3m==c&BHU5Zjf+)QHg;PGs=tlMU+EKfqi6Kpj+=baOmL5IxPr4f
zJ!>Ws!b{T)&s2HKcBJT?@kj<_%nU118{C(E1LbMIH97cuK}r)P|5dY6SO%a&8~Kuk
z7M4tfgj*4fOFE)kN6*+2Y^SpccZ{!wcRxe*sxSd3H834WR0YYlyNDmmzcGd@%i{Tp
zNJY2;v&`iNSjduKe?^;uY$Q61nWsIzmzd~8o#TB*&rapI6aIA9b@dNR5Yl!T4YYhB
z!(pA&{>-Hnpn1RceIEQ@YV!n*v%O&`EhIjs^R2aYam>H*V3xMCfn@ECIX&b+RfcGR
zMg-9qpDuj%s&?80(80YYdA>V5H4LZ1-{jPY&T{i+R-`!k<>blYsb`bJG~@Y9r=W7`
z;=joEX4b2g1HHe7;AMr|c3Jfz<*)4V_}`6Ex|xk+Nok)znSS-k9(Gq08O(bI5Y%K0
zL$R>YY|f|Ds0p6m-q5E5{swBp1x(=(QoGygMCckN(>f(;BB_4a7J)%P4i^Mih2rHC
zDQGHZlNpXriedUrQ+1<OJ*jI$7-2MasU9MINY`hG4_K*1W)_nE&;iINRQ_W#I)P;R
zoappN(NV#69IE@)bgP~J1EybO$xw~7JI*2}w732!t!#azQt3^D_ub14$My}*D(RR#
zd$wmTe@xD}yc#`89Fg-yc-ZJ?1Bq_CmsgVJTI1pGyqWQ}ZMrvlyS<`l8V_XnaN8kH
zO?aB$;ST~n^cg)D2g#JsL{rZb<SZV|Ys4(Hfs-GJ2zLham<*wx?KLDAMop6d60liY
ztp_DI4)%UcK;rBp36spWw~>9;Z~84)aCY4PbSsTbnEm*0yUy-mM3|z2eft-9uPQ+T
zJXW!p>1%QjdG66nnUHo`vnV5pu4Dvy;nFpOPge=1<0aD@&FdS(EIGCm8jISWXrOP@
ztLYP+9^bwjh&PxO;c)npDpWuwz88$LGvt31FSZsZz9OHwvb}sqO~3Onotv**70SL%
zw8q!4|CN&a;Y?J`vY{?TY5%3r)6F}!eQbMOsb_b2>xsRd4K%ClOSkoVb00B-DnGgV
z$rTkry=+aQq9n>cLx#?3a_IqqeLKwsERE081T3QtkWiRiHu@)sVvO5@=HIX8fw+#A
zI&Knu_}O1p9&5YUyM;mzCz*U6b(I=8_#PzfFp!IBo;98x=5_F+Q*2-wmiI%hupd`;
z*4@;SA*9JlhahLyfNmrxS<QvcH6Y2ACYhQ?&XW0wsR+fOnH2U*40PA<riEVRK}i4T
z&E6-df`^4LM*XyZzJH?SP0;fl<p-NnI64}-Qh4{}H4?W^V=S{xnU5}=qYPJ!Ww3F5
zsrTh=!s_41H~RtD<AW;VEWk&f-R&Mg6ZmH2cx-ivj)N-a@^{u1L(R-%tIQl?)A?&l
z`P;1}P(vBpMH-jbI7a$6jL8DjPIa4iy=OzIREY*u4)prva|Kkk(fPK#zFPHxx6Hp+
zS9$FZ!*K}8;F$8zg#U_{vJSDvC=N~3OydtviA;3(Vc*j+Q*70<46N6uga_OG546Po
ze6b^#M46V-kj};o=Y_rZ`Sat3lkSU4-qwEiMv16QeM*jw)Dqc%Jrb0CDMeFqgCMZ<
zY}*A=D4$U31HnfeZ{+={?pg&|%&Q2kDm0m<JV;Bh8iDHuL%ygqZ^>SQz7ab9YW>Of
zT13*B4{J|O5-E%$Z#k7*Eyg3|@a2iW=$M|oq6M-i=G>x^fNncmbP*;{K}ctVsJr7)
zqR(!QWnH0@J~hf=X^%oxIh~G6p9C9B8~nyrux$svw$vkCtuvcp(UkU5c;M|<uXI(4
z87^Z`jc48W;-k&cS*i{J2sH_+`5g@M`|)5*&x7S>Cnk1L?SMmmD!-p<TGWYiBKnE>
zN{r<0ds>&wD>iD0IpGIrYR+w*x-h8;z@&LcP@vK{GpmzGsj@cQTpb;k0@FFn;nWKD
zIy>20dv6~7)c;1v#wSF?q1G3zGS80#@hONaPbpkpIvjog``q>jND#)7A#H1k&x@8-
zD4O1;l(M)LwZDWTzB~}VnFqLOHT7K~!%zs`;n7M~vQv8}=j5&1;fJWtZv)eh`ZkKA
z9x}KOXcT5=OWhyLfIod;`G6x?-d$uq&x<~(i?wt)N!Ya&AifPNqTUVf@|Pk|gm(Vc
z>-)S<cLcPx=0Fuf^n~FYt8pok*^l4(ym#}BiM|m>M6u{{?!YuBk3JFf&_g&g%UNfK
z=fi19p7Zv0*9QpEp;BdE%-d*gZk@y7YKP3g6~^NvGx&1T;gymGf{)CxI@pr=%T4XW
zD#|(1ug->p*FjoM>Eop~DGK-yCfri0NUIXtd%9Cl19{<v(pC#ortP|h3<~=LN6Qkm
z#T_kufDzk7sY%8wji>gmw09k??8ygeTUrkQjts?TDbf?>B{$L`*0oA>Y)8TQ)pi*F
zdgvS#cG<n5E<Ob?UqYJHpPyE=3mEJ7IG@I~u59T|#-PU-!Kv%BBnLMF>|WZ4!3h3~
z!I;kQzs)7G)~l!}w>`-U5nwtNTOLsVsBLa3o4wrBs<$^RJyfB#JQNkaG%o#$Rj*fM
zCl7&x9XVhz`i=yf01tJQ=oG0>^y)NFgUIKmRd&|&3R><JwYZYWxE}TwFXSQ4;k~@f
z${2?39WCM{KYwyI<pSFXRbU<09A}pwck7NnW}RgHB&LIAtH>JF?CU2VfjbhMC;p@C
zv9pMf)3{t_Iu&!m2a&^7MKpf1FFH9ZMnrwR7x6zXCrc1aqpF+_->ILVh}(FvUzO;6
zX%h7fUVT9dc+dADkH8l}r17{;w?m;PRV((CAB*wx$~0uKgST<~$~H-tX#P7Jz|BI|
z_5^u96Mgdwv3OT{5#H>I>eBd#jT%u1O}JkNPgONb;$f?&3g`FUXlr_~l_IXH2sw@o
zP<UzwD)AfvF2YB;G)ys|*JYV+d&BmMl1%fY&y&3wBW&w)MF*xMs87l6Qe3chcabVy
zCWn14$*VG5Ek^)<ZGiT1Q)zwtBa-H3cNX`H%=-y7w>lc~Lxae2pFEIf(uKghZ1=;Q
zbKTQ(Sa&ikr^|^FNlk+FE>Kn`Z>W!pTv)jCQmJ-?rq-M!&<wJ^k~fUiMd@b^YM&Tu
z9darfnHTFg&jBb`28?Y<eeaZB(fq2!*xha2TRd?3$l<&4&)_VX%TF;^uyrZDbfIiZ
zOcuxuW!H`<1qG@~(77UNjJWyb=rL_gO<RE6{&uQ?u3f37u+OG!+EZk@ljyXMV6(W{
zACmq^9Budx@N|{}iunna?(2iysqJaOdg0swGVh?r=vTlov0ug|7MGYP!1AK{U?${{
zfXHco3mqk61wDpm0RH;<@!j4-jiG1=>C2xnS<SaEPQorkzdb(U<QIw+GRlew&{L5Y
zDP4TIeNjSYihUPQ#FIEHmtgDO>2cu%|Ht5kv8By#$VLvtkA%talA-*ofehGfsn_!B
z9McVu@gqi+g%MF&?49f<kpjMNm~=`Kfegr+H?H?`zv}&w>%y5Ir2#c#yEBfg>x%UM
z%vnHktppm?DB!|v?<3+kC(m60j)KNBBdxFgpRFsY2uL~xBgtep=IL<Bg#rO5$^+$)
zPG@gm+O5R2X*BxPCmV<^+(5{mzc2?J(ry5<H-r={tL_qSKF|_lX{&;wtJPEw!GZ(=
zo0ko+ETB`N=Z}(MD#GKCmg6J^E;jo#y5Sf9MaTa~k7XFBB3`^G!^kf4n>}$I=gl~n
zoyF9Hx35BKp)&tDCK~^|A^7iy&iJeND&OKb<Eo_Z7GAJi0^upJ?gnBm>DQ^NfNW&l
zUN6u?&dmwt>hr#V)tZXn!Y46t6904uGCAV`O}15pC`AR%;_T~S#B*_(VL_go$~235
zbQ#FQSvLIRC$RtZ`Tc-V(LY0rErb7*>SLX8fE+MU&(ChtaG?B|<ido3mGdVoz)mHb
zB)*L{jY{uAsRZ1DOamEkEpA9@I^q5=^!)uUaDoRhOB<S-a9xYV(_hu-A5JnX$blAO
zHQ*<>;hvaxwQ@{3U%)<cock8}?*02~4i7;?18BA3d-f0GTx<rUc9%H5P2-7r*cVyS
zeb80|y38K$0@(sbulU)f*%443gZ8*DPOdmR7|P1gi42_O(-(0f$Q46`(_{@O7qA(A
zcCjqIKMKrdYH3oF4M*z|_m!2OjK9@Ex&za53C3rSv6NSG#+JA)b|Yedj9Ihx=Eei{
z*O4TvU;f7?Fbj!T?NKXl5NWT`Lp^?+>z(5d`JLR(j4|>)Xm+u4ZaBzVo2(W6Q6B>u
z89-6{F{XD&bn00%&><gV^par{@2+x3pjq#NLUFAsK9v9R)oYKEzA80EHU(d)ee?}@
z<Q&>!neQF`x~K@oCSjF1f6QvG^x@%uw%zCB>)-2C2-G><x@S-IOj&%6FcJ%38YLJn
z*q3jn{wKdgfUkX=7pP2_imM}#c{~6L9pn7;!3^+Pmqap{1tu2^Yyk0R1@aetKO5%0
zSjORmefw0+o<h6OljaOc1qI_r16mK<i-0_$>QTOHSo|o^@C?+8AA$y@i3g?hTgxy>
zlx?Rf@D*+?(=QZ^(~!fIIke=YTZMU(t9Yee=y`9pP>o~!bSV;^gkF98uQ2vFU|_Ni
zh0#ao=mJW*pTeX0F#_mMOlujccqgLupqh?p4q3S`ukba7Nd2D=M3JcjG%mz*%pev_
zGd|p~%9A=fc1_Tf0=|y-JBcauz5p8U&b{DEYIv^OUI!5Y8l!jRWeZAPBO6Tf01$h>
zZ4bqlVj62a*L)AROF&RlTss5eUIh^0IDc18RBDcrwodllsWR5h9nMG;(q4QFI$L=8
zi9eS~Weg;R*>D8xk6Nec1238pBTf1(P*$db@9#C9rHswqtEBfBdCVL9*MQ$R4ZK_L
zI?|O(`%gvxKjir*vC!=nGf;9V@K_tut#MnXt54#-!tSzdCx2tS__2I6j<nfRQ%pY)
z0gy03N6{h!L>QW3C0z|#$JR0vOxi2ID1ZjgHPAdzTGoA=i?V9=@V%sW<q3e1Lyi9a
zdnVYCprT|LPDuYch1DQSwKRqB4-6D;epNUCTZWK@95n%qgPhk$OzSmG&?b;&Yt474
zP@tIW#8-z7@;3dXP7g{`ALv0xr0s42k~Yb1JJCAzsqAZzR4*q|#9jGB!5uk~cA?=f
zRuDo{34E(|d-=Vf-b{z5%CTj@(*tE^ktUU-<KmLh$GutpDLn5r`~5MXxjA%y5Fg6c
zV9nFWxcj=fT#aZH^qjexFExw)ZbpePviE669a@P?`7yq=VuLr{M1OM46rwW+leRnI
z+B5ne0Z}59fi33FALTuss!Chj7u}y6$RyiVu2leW@Uxy}s!bNoiDo=cvRg!8v{rjP
z1BYR`4T({jl{%bRj^gHk10Lukar4b#Tr({+635sqRde?3yxIo+yod)qp8w!0&3TV(
zAQ&blpWfy<I9N>En7;meveGe`2gqA?L;2J`u7!w~K`Jh7KPXL5E@n2>VSZl?_iN1e
zh<>#d$ls1<W^QboUPd29RvLlA*9wRX#rM*FO72aN)olPLk}V~HqT-GOP~Ua;ywO0m
z#W}i4BgFBLP<l6ttMExE|Dd(Hl1?zb*#&W5fCs@RaUvL&D!!fnVX{lw(8?PwM>IYv
zo-a?N1uB1~7+W7!AVU_0ktQG!k3zrK+FuSNdvK>0iWQ&94?O*QJjLHpE92wVX}&|x
zxdhyR^{yt|7RtPhIsq=a&!e#InW8JF_JyCnL+@ZDVA#Vt&}3BDW;%am7jXRKv^6G|
zWCrwGucEAQKvbnCEg#eY6(wunxuw_=_8$<*MJbr#(*ziKYgYw4UpBNf%!bkC1NSnB
zkGJ}tyaKkzR_G14Iv7FpwOd~arZHB(+EXC&_d!L;_u)*xz(uO$3B|wp9d9a8-RUj8
z>OSceK;WDdIvb9Pk0k;Y!2RFa3BNp73aV-lA?x>L=_u|Eh%U!S9opo!e)q}<vjNT_
zmZLp=GQWBV>1TK4a6jjG<~VwuJ7@|X{<mY|=91bR6|N=!qZ}YRmMY2gd_J6$zF|;#
znf>b}5}Mj6gzP1)ryZ+yhj&eg29k7S1hH(|zF{i2H~Tz+-#PL30}hT`po*M)=Xoi<
z3WvE2H5o>hJOONSefA9F>C`8|h>oDa45qNNk_@>Nb!{2jv<XYnA<rL*x4q`_tp7^R
zrdV&^3PnEZ!L$AfU*H$vHJ8gl1Ea>(1_;+!Rt}we0qojR9U!<KL?^$0f=b}iz5Fo>
z*y|5ZzT!2Z35;6<urC=slEcQ%Y%}tlbm#qoZs#hhz7Kzr1tj?HyZX#=YCHVo7U(#^
zMq^<-H-~5a!39B7?cY$MD~ETaPPVlYjMJ|Y4kouPiwI~7rjM7EX%VRI+iS|m9W4%J
z_3({tXgk%L6kh0N_!AA#;&E}*YJ;7B>U(RIeSKjcVmWNsN%nzzNyF!@Ziya(`|!rw
z2|-LS<!sL8rXIp{BpGPdbI)054?sO3A_#s6+IGRD-Ivk7ddRfx`hz`T1U=hqEKPHY
z2nZ{^Nsgn@FBAbY>P(Rsrr*$AKa-b@dg(Ksze>3A5fKq2-ky$%(VP>mlfx#3vd8~I
z0Gd;%C`&<*5HVy?Xv;tm3-5PNaqSl8wLvoT*})bjp0?6+niL)C1+WXC)3NSa=qf%t
zY$&}GzqvUROjNU?C8Bg!b)uzZi3my)PePJNK{Dm*M5G*I%5`4A1~|!tvhAHJo}@Mx
z2XdikXA$|IcLA76zV=U}4~#@R@9oU2ULrl6IGr^l+6P5|#tsK~An<I#zXvDTaRCEP
z*scAnqfKE}pZY77EFsb#>?6Vjuvn6#br$5yvpU1~ro4MB#rD@=xA(JLIb+kABAmTO
z_J(t*mC5h)x-UtA0>E1{xLgH0`FlKPnC6m+uv$)1=`BrsN{;b#%}kY9<7!I+-`*$h
z2a+In+ux(y?cR4aIh@=ccG+P|C-}w0^pszky8D8w4yyJ=`ctcr7K_jOuqe?mQOAzL
z1y=3`e}C80dVhLQjOh9x-hW*!X}<JQJUf!}>fkmC2=6z|mKo>Xh9V4b?Pv@$vcA5(
zNuHDSQ<yc>3K`*$^jU`b8ch(1_)37C5eJ%>VFFj$M3#c0wGNbnf(MhH$_lf&NzyPN
zJ1-BufcJAV(iD;wEZ4lnCY>5cfRMDuDnEGhDk{Yy%eMM1Xn-`*jVe|53bhNM>!jpi
zLayAiJ!z`by?7V6^Lp54cRrL8%TaFV>Jy(T$>V?ZKR)D6Ww{@ohxPF{3&&5HK>R@~
zIEfPDH<VB$@BkKK$}pDdHa20-?FhJ4C`10+r%2UHmRJ*hM{7-;RDP!QH;bQQ@Qh>C
zq?Po^_8Z%wXwX7log)K!EZ3s(r=@)kUJ7;>14rKo#n6Blt)-D0==LU%=;bF!sRiJ4
zotWa!F<4@+Umj_AgcoWQfG%=gF|Zq8=}Ufto}fQ^Vt4x(iS;6^NP&<<LoFJVHQA4P
zxoPcgFM=+G4{rptFB8%&S<!4R(gC*$t@_XDJift}*tgCA(;~S_m#3|N2^V~kHyAH-
zaf&|2=rLSTjA_PR<(m-4Q^e84=Z`cbNw<Dh|BQAOrX>G}sq7p3LM6ZDF@3ZmLBYu=
zzH6)D48DUC%a2~85kRWKET!mxGh4)}^BP9k)a1UCZA&Ix7M7(tz)wVAipsy%9uI%~
zBR<Kh0FIKyhNdVHZQm@+aUi2uTJ8T7W9+*#I0PyPE5P|jD~F^O)1J{P0MMH^Lq3%I
zZ42_~_jF?;SA5PGX?rR>uzOo%a4t5mn`BCRTyBr*AVVfdfJ><3dy41OGDLQ=*3)wV
zz%kb*lAVmJM3x2nSz{CrBzLr9Q_^=Zc-$8}A-@Ff`mhJkTqIpbc%@){-+7Y&m<t!(
zFV-sGLQ8RWbtF3H4}33&6j39uSeq8#s=IHgmYt&;^ls-7y<;QVywqNQu?W;W`7ec)
zVhIV!O&{k;1wV;*L@ZNL+=0ugc1a<#94-;4^;R9g44$<O6zU`r+`e1E=Qh<gd!3U$
zkC_3M&QVOPzxDX%_gCwOK0Hxs$s(Wqe3AF+htXHNf{<BB)HTkQQTs>^&J@wH!=v@u
z9{RkX56>%d+A<+zRiO})T;|ziz5wc#8qy@WA?xyeSIZsYu_uW9-5;A5=w<*_TaGnh
zC`<cbft@~~%07M%QBnI{lqyY<nbr=w(1eUT`xNMkK7Qh@Uvp)!wR*enzFL34VNkOE
zZ!{BK{wy`{DYxBMw)dVtwXFyJbnl2S+N-MY=C$E+d&Wmyg}R6^=Z`y&O+kv$t#r`W
zbCykHY>!9Fv-I5-X>``xR3o4Ur7xq@`oRGRX-!Uf<>Dyq;@9(LEv!JJ>%a?9U%NNf
za0~DA>Kx(FFAk<n03jIj`xg(l?Cuhu7uo*as6GW;Ke+nqQwtRfiq}6cob4}FH;1&x
zj~sUv;jjyQ|2}nLZZJ#^XrEAakCT#j2nAhc@qbczY#f2>#m?6|>i>U^Cg#Gp1>Ulq
zTqL0wwp@b)THDQaSyELa-E2$9{z=ktzo`Ni-%j)!5LK&mHy~tO7}^)VKsddU;h!GD
zelDKR0Wf2O5BffT)bh{!y)d_jn8DljI(Ts8x9i2FDYjisXSW%O5A1y{YpJfkA0Az|
zoUD0~nr3dk=<o!*{KaUzBusK7vygp#%AUyo{iEqFBj-^06NjmW4t2@=Ajz?UR0=N5
zHb3L)AKeT>T*s(K&!-R~BG0xpLHjM&WX+`auA&f(YRprT$i2Y2ULAD1r6o|!&B^U4
zz*+eGLyROKB_x2O2O9%(mWbImT%edH8H4vjfIc5j(8QzVpf1CA?mp+410}li9Ys@h
z`;AM2AP;<Mz7_ho7j`i`D_@Ht7-{6oPBVKlbN0Qkocey{$onJ0syQT+!q+5vkLKd%
zyI-rg@;9i%tNpkVIL-PQo#}Oc1;QW6OWO^fOy9}Vx+fbqrm@%6!KI^R*1^>ed~pfV
z3WfB64{=ukAqEPBHL!@dOk(<O02wmx74|*%5Mw_<<B_NeHOqvxV)xed8Ix^xe-$2P
zA&U&3AJ3>_QBv+)RAsGv`Oc0s@#@R5kXosyzg5DV$wwZf(el9|p!K=j<yX5tXw42j
zG6BMajnB9Vcvr>4VqTZWfEMe5A5~2QlD`Vfd{zG+lxO~N-8n^ysRy<?QQum*ezof=
ziCv!PdU-;F;p0{jUi-`!RD|ocV{<&an?+~9YmY)IKIbAETYRZYv6hZ>T`i?Ld(teT
zZe!4GFvR=TVwyhE`!&74a%j4TTd=^r-HsmT3G^!zfu<IVw14{qE#wFaQi)A_#4`Z-
zA#XrmO(((l5-{9=aU+2_VF<KmVc!2i!DBE`=`?8vG>r@l359Zj)-0={`rV`y@K%So
z@IU7^Qs5m<bXreBlAn*3?zbCN6=>(lmH7i&c}4E38~VdFezsKcVp7`Pb1St5W8-9c
z;~nO@Ba$1uS1s?wmoy~^6^9L~RGU|Z2a%r9Hs1WP3G*TUhzMzX9z<#qq=)mT<O|?k
z&OoXy!@S`I0H0r_bn#G3lYQp%Vc^GbmyN`{<mRuqK|1Zbmy##_6w`^At&xGN@-e54
z@PEtkx#G-vnf>@q%I;wNNVR*_j<<b-q?kaHRO8R$8OlPb%rIj=xpwG{WO~g$211HT
zpX%h%RZGLQ(><!uN#xA8BT-RL-*|k24RnX>C#V||j$QBUL>mZUf6~tRsroS$Xf%7e
zcLF4WQSjCb3-G$7d;PM3_yi{?{up42s=*3@ndMf1R|k=oBhFi^OmSeLnyhp36>QsD
zC2n=b!zEcKC1&<D&KvQqS)-zYL(n5pA}B|pbVXK|X^K!8%Lp=ncYl@^yg6ry539<!
z7-#P1&o$7=Py&1cwX~qT+B12Tc3A_w9!jp*5GfZ58sdC4%p3c<_*SRSdzEFR$WW@(
zG)}Xh76;aH7QP)8)V@A;7&XP+dLL%FHi(K(9p4?!MCGSWcN$sq$Ti_j?}pgbDl!!9
z9a&@T)KWy~fejH6lbEdV1-#|JYkTQ2@b8v`Os5ZohrX6M*7ttaLByD+_@6`^7{r7~
z6q37zlYGbj4cD_AZ@>9woINtXv!u+QpF3#5EH6tG`TC|-)a>cm!z-#!%4`z`iRyE+
zLY(bIH%b>gPv@pD7m;12d%Sa#ifD=|1R6vNoz+@kAi>2ecNp!n8_c!D!0kK&jgQJC
zM*q3&-#nrE=wVvc<BeS&V5a<oTnpN9o<?y$jIKm5eU}gwDSNx(8D_PiTrO|_t~h=3
z%4N>-LeuN_{Cf}4D<-RxBYX?v!<T@eoAUE59AY#CC~&vbh?2%$()yX2oX<&2TadvH
zs*2{7coovvHXrAMy|!xjO%D!|P*6fGp~RT+F(&!)@y(yDhQOp{K6WGJ++qOgu?f?S
zG;!djF}F~8_WZ)RF>p?XNePp8es%+KSgBeZ?_yQ~N#@!A!`E9tRh4)D!-6!@Aktk@
zf`D{+X`~etkq}T)Iuwu+E*&D>A|Z%`G$JV=1_;uP3P?*zzWdBP^UOHE=l`z7n#F{3
z?>+aN{oVUh8^csbj`NYgJV1GbXZhBB3zn*2>RKF)$p98A0Dn_#)H$lh+HiO4Ux;~Z
zp#1wl@+qIqsKo+cF?iC?|FXpvq7}Itn{zvUx0M#Fg0pvJWMr}Qep=N<XOZ7uSiaVu
zsfp~dCZJ0oo}-w2_#Cu>hZQ{~U8>A%UqCu3kAn?kgV^0Iy``bLYdA61p8vfmkWY0g
zpahRwKUb%N+`FOo8{&tAo}dOie0Mrp8H#PlFFA}R%=jVZ9cU)+gv4y(mfWlp<{Vl(
zm=pEI47%KcR~2>;M6oCp4pP!TuG3$Cv0%v#lkYh`2yO(YGq@ypE|dc~#Fxfh1~RPS
zGrN@lzUZ5=R62lT4}q4fcATPng8eJlee#2EJ>duO!XNMNufKFj1Smct7@1sY;Nxt&
z<g!|!FZZ~D0o(u<KwfxAA#xT-Zo5}(`o_;Gdr}*K=r5IphA%UXvtnbXG3nrlC<8|2
z26Ap3wNWE+Q=<hAW7W`4eZ~x<CAs)u$G%^JMDEau_j-lpUXEjJcpx=`>A+A|=kRWQ
zxYqe8VvkM~FtM$&6^dlWzj0=gdtthg<*=AUb#Ij_VSVh?>afm+Mu?ji!|!)bz%bzg
z&Hc+$YnvYVDE1ymb%|#mGas*YRtvedwKVjp-gC_nlp(n`J29Zio^;<>dw4Q-{A-?x
z4s4UYpeBo(7zMHAN}{o2d4yooFayBbbp1k2NL~IYcjD6k`bZ?A3Xx9Mn*~+#lJ=F~
zRsr!+DA?B8;f%TShg2$O?e%UZqBi3MqfKe|Zl~Qc*5NWOfi(9yGMd=+J3q(tMpyq8
zcLcZn60~_`7LPU!^HH{ZwBLp9Z`}oX|8qpSY5g(X#`j>y9b59M*CrxEZCI`E`6#(m
zVmaXha!xT2ja}+d{qp>(13XrLfa9Rs`nGd*CpcOLtjIU5LogWu)UD{(lKOyHxIw&9
zPv`;g=<sWRhhKa2DN)xkhg67!QwusGU}ME*1*;gQ>=KJio5-t|Q*vT=3aI~eH>+ZN
zN#NdXSNp}Q&-#<IZOZVuL3j9Be%qsiT~CEamq}y>uxV!J`WaimCI+xq1rKvhzGhe)
zn@at3$Yc^C$6|j~GQ*a76?Iu{K!mrO?q1_e`1SKTLe8_OODOiU?ia@K_t;D@2}B|r
zpLst&u$96HGYA_-|JG%;qvR{^wNnYE*FYAFMb0SUqQm*%#k3!&LjbMaMVU%#X9=Xh
zMCt$vLO<8%FW&{@z0}Cbhyg_}_=h5;v@l}U^W{TBd<u&`wqsM@oDOljJFE)6guPO}
zd4OnK_Gak&w9-ba?;cbV|Mh_U`SdZnB3-$Vhnjupy}Rd7_eYWVGKC<V#SzhN+2<YE
zl4MBilJOgmBle3^TAeTC`8*qhasSQTKGxT@`DP)Q6bKMKHV<fIRhnacH#T9yNbC*$
zowo5h*C3OGZ|hJV{t)I2E;jO1-O2QRi<p>7uOA%kFTLCWh0?QEQcIQB{Zq+C&S?Gy
zQ~S$HVr}^}uB=Fu_avy^lUE$dXZHUgVEO6`Bp7~3F9+TUF!&%}P`Bl~`{fgE9{?XU
z3`XOd0cuQ*z21p@*Jo|zxtA2G7(_0Igt!)F27zV$&MPF$tKJM9uJ>GV0Yay~hnVMy
zXsCEGy<08RFNh{gwjZnhaLaf5YR&bd!e<`0YED0F*JPGv&MCno`hxc<T2=c)ShC3(
zhTqQuY$N#;a$6f}16AC3VJ1q;F3oHfh6&sTx7G0xg#YklB#P6q{05W&LA5Eg;T|BF
zs;3b!xcPIr@>BIE*@O2ELnYLyF8bK~kTzwpH1x6tJi(*H5?@JcOnl|QX_B8JGNA1R
zCcfei$wF;Z1$>~9Uz%^hWjZs((eaJWv9<*<mLC9%WioXhUBtpLWa60tywH0|w*@nh
zkQO(bWhzrGzbIy@X6AGkhgcMwt<_G2`<#M2tHvw($lvZqOVwuT`ba|lWkPMsh4s@?
z4?$hEdc^~mojASkrn~|T3Akh`z?&O<PnhUMuShz9Jj(98e32$RI5%n|!`6LY-AbW|
z^WFCa#rR!dmfb6D_S_e}zlbh2(pKd15q){0b4~f%yC)Mf0JMA3oRghnlku(4ehU$a
zWSKN%BSDxHGcDm=D>S|@Q?4d-Q}pCtHyf?F$J8UR_#3oIiihR$Gv(>d`X+ymLfG^>
z$Yly(#~dL`=w0TAT7BiLj)sfH<UfW9IJHwqb)uA?@QZ`@`l7SjTN0kBSJun6>XwIF
z^bp)aL#3lTgq&tu7k2*9_QTQgnGz`aELGMI8I`p`KloN}HHBrP&N4{Q2S8wira<ad
z<+h~OJE`4$5!04`cd{_nzQo$H|C@TZ{%jDT2Eiz`W*_0@tl=y|vJ~n^EVrmbvO2Ko
zek)JRm6!yi+?N&q%v1T^V@#gVh41h&K>iH&RuZbx`h&$Vo5}Atq6BaDh{%_nZyH~h
z>m=xYKl|Z3rZmII+P<Qbd+LPTY3ZMD6Jf*YH6il`S3k@3cg_*QD^FpcYtlU>=jQki
z_4S|Kz&N{nKFV=lr1tD@?;I`|LF_4oFw8A;*W!P_&Q~0akb7T4v;*vZ?*L$kK1CSI
zqw6o{<H+!PnK~5^#3QdWYxcv{@&CL|8S*-ZGp<Y6+GfzGi2-c_E=v`s%^QP~C!2us
z4}(G_a0O|30hz~Ht11KcCGbnS@$S%fm0c~q#&Ny#Ul(2!u0+vd8Bu@_=LPSdmJi?o
zZ~#?$ONImV4U-Q~d=ZJnfi7w8!;@nLGmE|TneISx_(CecI3TfbnNU&-BPy~QVNWP~
z|2aeW%eMe`ue&bmx>|dRklU&EnFcjH@OtErz|3w0maYkHAc<dCcE|6)(at%-#dZ&v
zJZmTbK~maK(47{bDYai7F0Xc)QLJ&?{_(}}7xd92fy^x*f8*cfo2b@DM!@^FqVhh9
zCDy<U9yiDua9rxm2?9*?JtZ@G5VRV%p~Zs4h386R^d<W6WK$o{L%k=iMjC;Em_ed*
z7n*_kv?9=I+?$QKmaj>ZWR-IU|H^3tNPpa=p#O)o7w(_04>067?)o&n(RU=pz)Js*
z<&3D~?w99JY`8l?B(PcyCZrJiLJt&@kPDRoa$!3RzKPin$65||K<yqsCh$uDQ~Y)g
z6@lvAS{0BpUAe3Tb>&BeC{j#dR&$=W0YWbz%%E!IAEzkT{Xi4(MphgAb_Uo9w4zq;
zD5;(HAVK2h+u$GKd)X*pBv*iwSFeiciULIeF(%1q{tYTy+EiW8*wmEBArmWs*?H33
z92SD;MgaPd5F6Zi5)bR&NIimJXrLAHQ2~3kb=`;T+4e!;DXGm(IF|dmeqaZz^`3E!
z^qr6NK$nJ0_-uY?sYWov?Wg-><@O*<F9cVvwt}<fmwXuJi=~o6d~Skp+Hr>jTY-{N
zH(12QBW8VxM$XS?&p7e7apf&0t=<d4^YDGGRAk;B_Z?X6N<hDBRmXCv@y8^;X#Ktn
zSUZIBE^(S^U92~=;-YtbFQm2unM75*s3Ka5a(mD|I1TN5eXKqDF+<A4AsoovdUN_e
zy1X>84^&msi+PX7ZQ$%#vp%T>X5;Ck_A6!$zL!a0Sov>r&Aov6T&6&fbo(#z7%Uib
zii8gc_i>w#*kTzl@$vCXqZRoMuDuOnO@4R3YsCQ`N(j@TrJA`?#hs7=17Dokb~J-j
z3Ahbg9{lFCW}g4UASPUKb(5bfHGKNwfwGqBpT@4h1b9%RbnlIfT><mD2~k8>Wdg6E
zfSSDG7``g%{Kh|Vj&y3M)tM45xxaE2go=2C9v&aEU)}3>J)I%xuKvk!IY_=5Uo*L;
zFWN4B%lOb<>UyN);KSNQh6=K$`k#N3c~Fvq%WTg~!DFi8hf$%G1osB0E0X<a0o`A<
zyGHsHIwcxO&WVglHq1rJg`H)4W7$_GlDpQIey>siMu>(9P~U|>%Gd?)kJi6jfm_of
zg^C8>GOxka1I5gM`7U0EPUL>k_R>vW29+|x-)pyg3H07{-lh5N;F<cCPnIt3Y#|(h
zNM#)Q4T4e}l5V<$K}g-bMai2qOc3LuIn*Rk-rp6+hD6VFYdu?J0|kovgY7SdP{F*r
ztL-`vOBD1Y;r0A3-w;~TBXSV5ADbU<>PsmfpMm^}pS?FX{hYYZ<%l^ybYdO4d5${p
zw=RM56j)5}jz&pSCm7Yc74=l?0fhG0SMx@VSqr9qNALUUM}*X)P`*C9dqFzkVu0Kw
z5o|g}zddvPZ1z8x*Zh43xE3{#`7?@OM{yVo6P<*Djb^E(LNCN%z&e0yw2TN`8f-_;
zMPcjZYkvKN&y^l~%@fzE;r~7O!P^QxPTEc-m+<Vy{pj{ysB;)HIUGQgY^2j++E3yK
zxjTdKzD`T6n%;o;%tiAX{i)z6<rpr-wN)^HBws5Pdgv=##NL#F*rh-Hh5L^I=VAnA
zOHC|?dgzzL{_>r;&MEneXXrsoyt?n!7|0>1e387+2_1-=I#>>|r>kC9n6Bq2VtdLw
z_kb6<;+ct1QQj7!k1SqQL+{#v;QKA9cUK^cwi@y0!7#>H^DFi;aryDlft1_}FDO3_
z?P#)m9vTQkncq=ci9r-eo4*X`R*YZV5T#y5d!%DZ*NaVPgLi6N0PJWNuMnnWZYnKZ
zWLu(iTOT1k{({TyBS)aV=WxT*zHpD@vScIiZ%L#6^2^vhSHh%|cv!;0T~>!X4sJf7
z*uGvOnXfR(ix?G{HG=}#fh)r;z9_nb=1#hK&A5w3neRex&JIL7-T?e)8Jc*a!GlL2
zgBb@)wLO7mA<yM$psp$rSpw169+If*>HZSoeh~8wk{_afVY;O9qf6%xj3%Jw6qw~P
z$cfy~!9yjbl|mpHgLwwgHkr78xhfFr1iJKk!|lhPU-1!CNbioj=JS!A^sWi2V+4TP
zc-VVBW8UyOkdDis3MB|UM{VL3_Zm2DB%}!EAn#Rnb4>chcnmTorZxN5Yf$%A5cA^6
z@$MU*49@(eqrc}_uFe0~JbMsG?(BVUFT~M=`XLMtqaemOtIF-49qNhA>H{yG`kx`$
zjNqIPhyr%tilu~z?B&Zk)-Q6>U9^rg{dP<4*H;P<%N~rkZI*X3E)B|n;b@f}NT*5=
zwexgehyj&TiY@<wx$(T-V2Ch=!IWYf-4^ppJKY0#G)%6w=czp&fAFPD=Pe2x$Kwx(
zI(jceATZ)65gZBbowZS94-*h`qzz@E?kVQR#Z=30mC~<XfZxn92`Xoup~=(et2jzG
zuC$!VxZIMp&iM&^Z=46eKmuZt-vwE9nizRV8gi!hcN!$?bpi(J857H;iVDWhX}@CQ
zd@Hwe7wLcN%DOr+5Av}l(k=y&@86{K*SQuD!obZYuYheu7hD5j6QA?7GJY_=-=2P%
z9UOS}IN;`iZI?1w6H6c(za{4ni<ifkgJW`#FyTN#(K@^nV-QPS3GfH&A%YXr(Lc4(
zeNr_Y8iTio<iB8$VdH@JDS^2RQcS>dvQ&EIIypfqcUl`sm=4_Lg*II(a7C|RghYxx
z%%T;ZH3nVXp+$%(l~3>X^1(L=r&?*sW%MBr=-I{=doPo?V?^LG`Sena50J(tggm8R
z5UtiA5c^|L&#--PKZv@>qh0x5mD~-V{m53vB=l=^1~H&N{imx#C>GK@Pu3az+@Bje
zfr%kam`<eRDL6BMWhh@aDFI?xZE`6pkbywp5Re+z09=`1-X4X32q5XP4ldpEn`SZW
z5cSOuno?-N{*tXT{S{1guVA2_NRY`kXMX-|9iFh13W>KdO!o|LIzN(o|1OcAj?Yek
zWOs&!Sxqeer?NZ$fWdt09mOsb|Do)7xZ7b)v+AqtkTdYieK&Z}OG<8~x!|f}{kG*U
z?Yo?;gpj*?IgGe-qvBk@9WpwxSO#{w{P_y_UmR4m_2W9hl$&>F$Y593Iyl4ulH6zL
z<F4pif*!12L{o7D^M08jGxLjl|A24<+YtOOp$iiYHFS<Sk!L=9oC%fZc5SVBezh1!
zl<iRRi)$g60i|j_zRX64tJ|8&j6*QVB+;f$R2aB&Cz;M#YGUyU*JbC>z>(o`{j4lE
zkkGGg=4+;$*?rE!nUdjvY7<Rx&*jmu8Z9<_c_vHlEN&iUELv%5>tB(hv9cIh0Zf&O
zNsC0P3qRqUUdS)foO+huI0SJ23geF_{K%(RLE^%<NfH=xSSXQ1^&+FEiTZZ;%?uOU
zK*B!LG%>VH_U?V}8FB<>qkEV09u49*><PE!;XWcl-9A-pIk!wiMF5gO@?}>LG&bP6
zm_Aihz_+?xxb_|kKQLO~sMnrRvLOFpV4M5)<)N4EDK;wf&cQwPI!>I8HX)>6TF{5r
zn|$iVu5dztg>&M&n>3J{n-<l+n-iEtYdx2?-{)?7H{#y;uSK6Ec=`XvAIxlfOBP)C
ze*5BL{V+~$G6JY;CF}NMfQK_6WNRw0jz{*Yo9=Zy*#|6#dl~|D?Ns3dku>k}dr2{^
z494AuOu8#*TVpnR5Ob0*pl_wq&zdF-<KD{p?hnI1o57?5gK$Xd581-rXZd435cPD0
z<OeNgF2q(9l?LzM9V*Q*er8Ct*1NxKOK_^IMcebaJrULVdrkc)Vr;JjesWp2Z*c6o
zSB9Z>iZmbNGI}+CaAI}!y@n_RM)*M@aM7xQ`|%u<H_s97cUrpoE8*a8efMQ;-JQok
z+MuQ6J&wV^+H~(3dfT`TKB`D&=9#;DzlQ*JkwKiNkN{<ds*D43RF7_eiYPXRi=BQi
z>N@fHuEKm;LYU=04SYL4CO`Gn?rw0%MN~B?oYOuQ;5rfYcky4@W~OZHUiLjWfCPeF
zB)fP2s`vM+kO`JT7Drv$jN&6S;bdn=y|_;9JsH_(ctmD3{15LB0*5b?BDDUO1RaKU
zkcL*A4v=+y>2JM-(DxH=C2>lZUDvKMrSr0JJ3Ea_@c#2_v%JMz5JWCi%oF#^_<L6)
zyAB-c4Is{&h~)HMtgpNFufj9Vwtljlfon!}b+A*L0RQ#wBo(QGt^!7b83vWoP<U?X
zcK=nwp{g2_2QP;o7&i<nH7h=0eXX`8vnA4c=}pA0gm<Gzygc4X<-yPI9{`<OyLXFq
zUT!{pssB=VUOuWjB~iJ87cU)>;u~g#>qGERcsdU_WMpK1N;E3mNX+$UMZMz3WM%&A
zM~56whugd_Rm9FnM#9LvoISG8GFl-Q)!isa`vh-!8_UQqQL&Oz&#EeI+#VqNI)*_Z
zGE$7cf4Zmx2u+jCFX!hQr39~>SF})UtSZqTbd;?tcXu!u*>>Kk>|ZXhS@Kv|`+57v
z2!n5`(c3`>k52`gE1lgu3g#!`W67yDovVf)j{9qhIFiC@%3UuRt*I0&JIP8}%iJ&H
z?LGO~Yqh#JShB*wOfg#%Gr!uOHu@-ZD9n2`vtB>9J@fv&h$9*IsQ?g{);`geJy^bY
zyJ-0CZFkyhS8XO6>x{`b_Fdf$4*jg3Jb`l*A<M>j`m#oT4d0F#fz~<oh0`*eA7;R|
z-pK6P{q9NcUG-o(0N1`Pgve1e9jL@nM5(K$rWV&<h${`^9K*)Ms}|fYJ@xNO7~2S+
zzBaW>`BWl+!1Hj3GcdWn0?L6l_Z{%_4v<aYyxYCot%l$hESE#h73uTIym#r4py>!y
z2CvQMVkEyNJU8Uv2FUh_ASS%fv-O93i6*63FmpI{Wr+~)MA>tl;h(fUdmD36Ph7wl
z9=C2I;aF*~4rLihf#@oaB1Ze;{pY8-l+$TWEo%AX{(xta5~Y{fv|_{FvlOxIoS<cG
zhvrqO%Indy&31D9m1=~SMy8E-YbpZpgdSc^HQC<hd*Ils*RUFlQ#zIU<lS)lfmBEO
z=t@9Y3t_`-)%C$zoLtqX$qu_;Gt{SsAFpM;6~M%1_kSGL7S>POV-%Nv=ToK_&;-TT
zEAx$WI1eQTCA?QO)YQszE{D<*%bh)<QF%Ds9I*5L;-^|GyCYjM*lAD(@%*AMS0lFe
zAl8QU=mjL%;$y@yw7k83C&P+}*8YT~3p%FO(D5CZfhHcn{81jsKZ~VgemyMo*G-ph
z4yp7u;&vuh1*4+SC(cN`!~;mCSP3K)a9VL*zs^_#k)QxLh(7>cg{XzI;HsMzY=`LS
z>T>EKo&tTMV@D1&oRWCdk*<L~AmN|=sC2m3DR*p+G@vHV9aO6~_&Rzjx)G6SS{ov;
zM~)JP`wKb07zu~M&kB!s3;7`lUi{RNciD7VahO-g|9UvM$*|Bm;z!e|JBQgE)e;WH
zSNR%_0t_4%&utnOT>tVjOe@xm{E98-*wI5f>m{)}iD-!@uN1iTa`Pt0qExWLQ%=pc
zr%Slnzd72eq!qQTEto~AnThxDG0+{~go$K+p@JSkjxyS!v*oug@9{`$ANC{(G8L_@
z!(n^_RyAY<X-v(05`S4U;gLphUi@q|;K#g&&M~9PmeY?|Ds%{g47Ebg&Jb2n|3IFO
zsm>oA>_3pFMsWa)Hk(FICd6v&0Iod>HEOBe65j%gv=-U=fUk|GF)+;h^Rxnn`9k5-
zXkir2>Lo?oU80Q{_=7cwJUNUNY0Wdvxd7nS&_rgw+PJB80Fm<!@P0j@w;F^0Xk|ZF
zVasS(WeoPAjPR#vwuhO9q}=u?Kz}Z}QT2R#Wo!t^V7}DZ$f_o8$oW^jV#aKUm){@c
z8%u9GGM^0JUKE?|eCBbt_#K%-V7aDIS+^`xgXCCQw4>pd^Vqo^_zcg-Mm}j)Zf0ez
zeio}=)9)C)^gQ;3!wuy@;`vL3iI%vcFB4u&Os*^Bwof`GiK>w8J#L2mN~^60&XzUy
zBNhm(G9!JTE2&@!WLSpPpYjaL_<E5QE_f8^v%x2us6T>%iG?N}3&@{{*PkOkuRZzt
zk=$cR`TICWHy^B2HHAIc4OFepcrb&z8W*Ft-Y>V19TZ7Pf6wri_cH*(y78${s?65R
zfz0Z8`T6y;+4P;NOU&`DglZX*4kXm<l5=^FwS-yaNf{d%fL_z;GJ1744iP+;enPT7
zn5q}bWBpn^gDA5FOzLa#&aety_#6s3{^AD!QDtzqct(~(s6kNN@hg_UFCxdIW;RoP
z;aijF@V(jnWuCgHcV5;!D%SU<*qto8uEeG8Mrf<;^HBf6gL~}+56su~8h!=Uc{nkP
zNqacD+UXXg+ojQ>$?uUEXRi1JlZ26v#4ZHkq2+DZ<ZW?^aKwX=Zp77zj9fJ-I~r5F
z&xYcNM%Mz^KrPj52JM*#+dr%XUvI^0oc8aBe5N}{UTqhtbRqRR@E)Cq??t^jZit>P
zkSGwL7#g{C_!P*-9hmoOZ_wpg#-3HI$5S>?heXT?Uxf?PnJid3r%zvAwt+a1vG2H|
z7tkThA1nbJDgCs*0eo*=HU0d}QPu>nIq^<(syQE8EAP<hM3sVt_H6{YsqglaD$p^U
zlT%J0zV=L=YPXc>A7^7c-eH3$Tf@)V6;Y1Cdy}>&KAzPR8+|?pKi;mKgqW8+lzX0O
z(kn9`_!v}6H4g$?6L+^n)9Sq{Cw69}4?LN*e7vq0U;1)h;eP0pfST(R!|h*7rpXO+
zKkD=G(9HrIP5>52awT$&=9yBmpKqb|w``X7RY{m$Y`CQO(^*<5vuW<!<7=c#m18Mw
zB!c!|oxEO7f*rz`>kKoN86HYD)uKC|L)qYTbQ85N+RyA8If~U*eD7d}CH`Xoi-4Jr
zVB@dbKHt5>se*jzRr1zv{{oOAox7zRdc$){g1&Fi<UVqie}CRGE>biJV=X&Q6}#8f
zm&tbx>Gh}b1wTk|T)MBNa^x9!biu~K(sN8cyY}bszSsk$ovv`zpw~WZ&VpHQ@&z#;
zPz97d?WXWBJz<t3CFN*UHbrT+3)2rU%G^g0D?N;+N0&Pz-r2%4Ys;U5E#m4%9&5{{
zjLoQusAxs`2z^YCR*~B5TOlwm>?<%p?b02kbdi6yZY3jZBGTnuTwHYAKC{yj^F<P&
zjFVW~>hP$|Z;KL#-`YoG6J+iOX41F85xSClD>unX>FfIK>)@i&ooXElozB=qGB6D<
z23?f`R~Tv2t7;{AEYzPrW-%<y>NI)AW#plzsgF}Bcyu4}URQpl=o0Aes5^3tAaQH?
z>_9ws66L)Xo1M0=Rf7VgT#Z)PC)Xlmvu;1>;ZVM|x9*^^)DRO5X0;n@W#2h4h4A*Q
zJT2(oxh6gQu|gN0*$2_(Cqh4?dpDr!)$NlnM;_DLB)8#w6xb#`Z&<o)YZRQuLL7TP
zur2a2gP$Igqv4Gj9?p6|8Q!K(B9b=$)5K`{xm)_w7LXI-XbQlA{jJ#i8N}|Um6t6S
zp28aGG#)_?nQm@ls17HAT&&zs)AR1IY$&cg_$j;336fsyi;#b}^dbTmh*JLQ75wp*
z!?29hg5<ySRR$@}Doo%mPioIM7<$Q;eBRi?=3kj=`I(XQMzTk8TzD{bNWiZ6lI4xc
z>5NqJ$wB+~uc}XI=j4<pL#Mv<r4AnQ-WPSrrgZe0Lgk`(8tYQy@hB7gJw=>%oEe|W
z^)nSQ2H}!aKaG(c<-gr+OG3%F_4YYo9(h?FXS4t>zZps*Sngm);`JQ8euRJh**urn
zK!4Ys#~vus$xw*DvE^mf(eZg)c<Sx@y1WZW-XIVt)+LT)(Y4GKK_XZ?YhiC)vh(b{
zo;sf1w8kbedJWmgj;jOq%=ZH%NsufcJ1uo=jqv!^w)k8mC0f*WpbMYm5O=1FEynGD
z+rRtHXa&h-1Lo8~D(TWU$M?CceSnenK>RLqX!4W&p*Q2zCkiHEDvaLk{DMn{TkD-$
z0{^I|PnwsKRw~<iRcDNTY9@6Z@0Qw9j6_!jpf`?Bs>-c+7OO3MLspF6q;qf_UzNzw
zuT&q|kN6Tgwd-?o&98FcwMGKBdyN4Fc|Zo2PJ@R-&3&BW3kZ8rD$ZJLv-fFBvrtxx
zGn)J35rB6ywzzx6val3MKr)bPd1io!es2BFlx)E+;=*zxOgzIuYXRzuQd2B^`}fI0
zZ$*v13)`cxr(YrR7zDVjvE=B{4j~FXhI-&pth0B-!^5L>N@1K?-QP-kF+!E-%zP$?
zP}rXQbhfr01?g#0B}hJ8WF-nWUN{FfH3}1mTU-fUMd7j1kaCpPeW&HZ+Xg{Pn1GWM
z60)tJueAV5a|%9gboY26Q_IidV>z60IV?ik05i&GTe+uQmE3YkuGyPEA{iAvdu`A^
zPVQ3%{o%A!2YErBW2`bO#a}HHX~63!`HAOhZ#B-Q`D;(136JAmzqYus>@muV$y)Xp
z%V@O%qKu@xJ(l~8bOWf)hWDtFG%xN%KR?lYjj1PWlo3Swkp5%i4?aqdNby573Ert+
zFY0uX?F3*M!ZX^kJgbr=p|d+|(e0AAlI_}P2rEf;Rj>$iac$0e(~P4jXBc7bychZ%
zj}KMJEZiZyDj0~}N7?s%4WH~R3>%TMC7=GTp3Iof{N<ew=o!iMut<7#-k-CUBYYj<
zk4MRak>xTY6?OdHkEwimjB-dS`XPwZL*G(;t8#wjda*rjw!$dAZRqDC?zRJ$(GWV`
z;;)vJ+(gvUQI1JtM-yLm+3(x$^Zk9VvFhB%+uOqnBY!rZY0Jr~V~?eCVQHY-o8h}f
zLz(2+|6aR4e&MFV;(osxF+XR#*JT2KWOm1voK>e03*<U{a~ywP=s*8dKp?q%tPxmW
zzlu~J3GY69aw>{`Fy!xY@%NYkpNj~CiG^(S!_d{o++_K=4u6k?e~*U&tQ^hi9(`|r
zcqXI5?h60*DgGWoORy4}bW6Ox)cvm)lGnmA@@3n5!^+`;nRoQh%l+TqJ1+Zw`#v}8
zQO;fNcXU5Z!Zja!%{gAy&u;x)=l@&q<+0SI1Aw!v7g~+yP=G{jYeZFHWtC@KwXI?Q
zWe_E`oF}^jf}IICO-yFZZT$cHI{*AdNyUGQsIqoed&&r+>SVUE8eUu()hmAET_pNK
z@8eDp>758%Uwi5dr(lH6QM$yt&Hj&X@bAw)iyzx$Uj1TEDGb?+_>Mo#K@ESS+T!-}
z7sCnGj}1#IX}>)#@m+c6(evoeXzL?F4e1L+Wm{zDWbJ$x(-N%z&;RtnsQ_^Tb*yU(
zTTvsf-$!3-6LmSiyO>x~5gbgkGZwFDXYi)_s>5LOsAyN2pt5#FYIoSR>YEbAjb7zY
z61h8NT_ojeRg{%OI5;@I4WJH`m{l-+v(jxfG8g0LoEiT9YX7>;xEV21Qc_Ci_F6qo
zvJ@UW*ehS9dqRGv{|CLL>)1{;Hf{!m_mkqW_OtgsmTh0(NW5MhzAbgE!)q)yGRowW
zeC2xiWIXTH3h)b4f^g~DO;{fQq>k|z<kh?YQQyvw;+Ls{32|8;k$_n#kbA5E{(jL6
z@=}ZC=jZ2XA2|dW^;h2cWd9NY$B-p=m%g{|WMyqagQ<4_gZs~Zw;0>Gr|gVJ_xl({
z9f_{}b@cyrOQ@d?SXrcd6q$hd<E~ukenk*vJT^G+;aat|FRy-4eMb^LEA?#65<^<z
z`^wc9bi?n2MIBBc?=PUHsp5mP)ylp3-I^&_deKj8V-5hohfDgwxb&OgBbJ(P1U>+n
zKO2@x8|;C*N0zpH8=>x_IyqW<xB^{z87Tbd+y$MEfk1IU;<`5vO}_X$vnGxMrY;bV
zwSnNYTK+WBUS%vL>|9*bOHPPsyd+g`bh%uv15Ktr!|hOWZIkS;@8i#JX!taqrIl5k
z?%DHtm}IAl$M@xns~=v{;5O`=4YZ&t?j)(Y`n0L?)fWwi6JyizEU~LqJu$X+4n6lO
zNLK5{SJyn#KQM`1P@OBZej>T+-0Hu?%_N7!hS9sD(BK6g2broFs4%J{1nRq>xf-*V
zVHWd&!A=bBp``CE3Y;G+^2858n(W?31`Z_m`MzE71elx@6%{!$t&rgiuknxSs-z<x
z-wf{AvGpd<a@3HpSZOjhd(DjkR^oQ>xxfEtm3|6RqU<{vJkvA4d+G7zs^JI-Djbop
zU~q+A8k2yDw+0gPIzT2yKJvzKLh{maSF~AM1jCHoMbB$$-5UP#=M=D5TP^!?mvwPa
zWxeyrT91M(KjF9f<Wb!COgt?Oxg6@VCZCi4(-HpnwzvqOWUfvw7V*oP4}^C{x9*%+
z+1MEl@6*hcDE5nqEmfTujlS!+wl-X8zn3sF`0R>)!%Bzt%C6kmQL0WR`vazd4uRUT
zhXI*8N&LoxCO?rBN6aADQJG}whzuSlch?#>qqi6O+Q2YGbO0sC0qoo^RlE>%Z*g)s
zFK5yKxB3|53K}*5jX!aRl?yRh+{tiHq_{XN;r_#bT4@91cMW3VTU?o5x%@_D&G@u@
zcK2Z^YHcAAD(K<i98)QS96|*l`!H`qhU_a7m`EMv0&#9H!U;VAjytf?hmL?ymu>#*
zou|NYl*RzU!TLGf4nhz<Fy3Eakpelv@>{xlZnHr#m<sLdA=&FSZ;n3r2IDR#Q_Krz
zLiy~u^kF9&&wYQfV2tR}_;juC6vpY}=Ugs8eKsr!zd^_uB({`J+{vt3)?*u2P?A|%
z=W^?t);YB7wRolQJ!Z@zW*hYxZ(HMkKb$UX{x1VQmGefP^50ASMrgP|9y)0JYyX2u
z0%||iDlxI*b44K6_Y}Ip8;_J<1iD36?2OdrRIe19uE<emS?F5}mOWne?z!c+<oob`
z(-fHOmw%{D2hT}UC^_{i;7X`80uNlu6pYQvL&}NB^tf)_1k@)4Zv&zYMghc-TY`0d
z8bNpAK&c}6td6eFmRY3BbBlfFjL-$#5g@u50cdIkNl~;v+}l7lBts3z7|WjkZ|w_E
zqbRpywKl^B5(h9#xPzg-M=&Eu%k<nLhr{SA=L6N(UW?C?mZ8dd%&ICl`t>C8vsE!d
zgqk^$Ea?lEv>Hg%I=6GByD;)g1w0z1LnPyL7jK(s(ig}tfXm!mRz0vz8v?%ZN!~vN
z6P-xRxm+cvH7hV);fE)2*4`yS5sbQ+*h9>>qX4}MsiKzzs8C<%=}1|64x7I?Psc;+
zjZY-&5-7w-o35|-0zQ)fW&tG1ak!&tlYT#xn;F&p?>_X2HnDngGWOa@BXFOd^wM-N
z%FcEBsRDrtNAZ_$SQ@3bxb_Z{JGh=ymb^&0wwwHBB>o%k$|6Zqb)Wum**BiFGk2y6
z)F>@KBS$X<KC+W>o_@~Ab7k~P=KUW$Lqv~g?7lqzhK27jy*wAp##m;da_cRHpPuZ6
z$uM?is{n5NeP-c6oyVt%#hX_OwA%?jtLP-Q+7RM#BC=%6Q@Vuca}cl`so^Vs2HC<<
zY@?vArciRT%r?w(OKo1>(wxb+6oDE=^K{H$IJ&`J^++TEV9I(S=SVcg_sau>^Q^VZ
zhkLFzb42Dr+<2z3!K_d5s4r|NCxppqiQo*ejaqt+%4yr*ZTxu~+a@jRIJ};yc!0T{
z<(S(dw{Q{C^Zt2K4ol%r8&BV!wp)JxE?Md_QP%yjkgZlF^;)h2g|3e3k{6C=oHy{b
zB2}MX8(SF@zZcGbGGn4~a67Q-ih7yLO6myFe3r%K&QE2}i{x&+xhyqSawYA>^|b1p
zfyz(HsNiwVV3*4#rwL3lAtHA5Nn)ZksHV{me#GdX(PX7*4N)!k-n4$|a7%dri-#bO
zSBDVU{^+?)hi1)Q#oXq-K<^!{6OUN|^3_^&#6s)iE2$!3H$M*DH`|VMGQiTsd0)gF
z@^lJ}rJe*wKffvD;nR^Zp9?(W3L7Xwij@Llr`hPlJ%Jn0;@g;K)kJ*?s%sTIJCu+>
z`Ovmn@IsLo64n9|R#fy_DN#EPE3@iUSGVlGiZNS7E<4?B$btG1@v66&c^Ny&&D;O#
zNV&_g*0sZ8n}?d`hp$$zhOj)M;P4V=I_Wn~yzuQ4=3|9+`NOO@y#9huWwL38MpHMg
zzUW|CDe)owc(R%5?lE5#L+3a(gj-dkuJBylmejY5n}6a~;~{zR=At~I)JC~{tmHae
zjD~`vV{zgwP$ArT+4wV@w?dT`7h9kWNx4Z%4R}f~uzt>Qt|n}H+PbVB+ZPEJSF%7>
zlB^cVEfNevUA2T<8xLK&t%!O`6Q9q!-3{7;z<fVghKvcfP;uOur@-CM<kvZ}k?P2`
zMUWywlogtnmuwBaa)Mr+2|mlpz+I;HHRRGqB&2Hv(gd~|&RiRKfk$UU=fo-6K}d^2
zUwHUK*Ncs|osJbR5DQyLBalUWouI%rxbx~~Y<#(E$EvZI?EkuYqyaJ+^2~(Gjby$~
zib<!Jo9qN9j_X&28&3Ak+@q$Sl)FVwjOS%my)<aSC%^e^{m0ei?;-9h&!?|)uuKXI
z2eHyBbSckObbGicCO)z=_$qQ<j~5-B-JDBe%7q;~dIpUzzMH2Ks~F&=Ko|XZwzoh#
zD|tfC7^7`uSD69JmX#iGa!2Y#7FeBE9ak~k&uL^8IPRD3PVe@%xynVI%={T?JMsQ@
z94_QY6h^#*bz@selQRq|S*@uh<cdE!5I{a%k5%acfmXcrtiBdHR~-BU6;!=>JEujt
z3Jb9my#LAqh;sf>RG?hiQdg$XK3ycm!;L=M*GCjQScZwGNkbUY6|k<rG+DT*Ao336
ziRr2XV0lq>Aiz44i)!5g(*cdBP$L<}I^frLj91#3c*A$ovBGi}jD7z(@%;HaWu$x#
z3jgz|QCzM4g{im7x9(*4mdflNo-(vAw`Z32sdI_?FuY}`pc#@xCBANxLQ~DZH#JnO
zXYYMKgab!QP<v}r_%k~r#BCeq#bZXJ_;ucstI*tGnrAc*R7^q^lzkP~C7?`*w4#4%
z##ww#M+)=uVK$>8Vq3p6sb*^S<`N1+Pui$FP>5Nt7q^424Kws!%<U6|%>okT=2z^%
zPFOL3WKTy7n6Eput(B|?sJZ~kKYE%(dKyJd?<r_mR*(Bgnuf%ewdq3i#gF1_pNSNS
zZU<7wF-;m#1usxWy9z9Fm!t<IlRD5}cFN(Whb(>TBw>B%PgM1dS~1B&3(u@Rc`2l@
zPspk{jAR9OHm|X9%s{(6sX)2WNw~>)mK`0={EUsBA<j_fed|r*`SAZzRDb<)sC4S&
zTm)hI`$k^5WA|Ip#?nGuH?s`<rPdl{j9BK@JaixLi#a-ko7{L4oncU1&w)k#&8Crp
zJ+Q}dGS#Z)({;;@u#G{l6Jn340@Lrq54SM%E;yNavuaB!qzGH(ritqY%toOu?hS-7
z&_41gF=-h5*5@UjbGgpZg~;}1?8iW|5z>rf(pCS3C|I^$+nQ4HnXFWh%+avd!B(m{
zm`dp<+j{UpK{Xa8VW1Z1PTN8&95&rqo?`}tRGY63q<Mk*fBYzWN2Q-UzIujBUIsrn
zY{4QCP1cyZd$8%T!=UB;jBUk!N>cmZUCj<9ChAayjs{oe{uZ~SZXhl08jgl7qni$w
z=Zi7NH*J1?`^v`U9zjIE+#5eI$@M?Sap!o~*?Ijwvt|jQt=fAMTQw1z{;ue?fzQ#k
zU&ZVO@^5d6Z+nxlPAlQFa;WFBs0OpK<#sMS3R^gmI=G(O{xQDa`=8@0{QfLV-Z2;T
z@zEIqRsU~7YW&Hh!OOP?s8rQ8%dQdGjR~EIOBpHl+pEPsFTZOQ{=k&h{t^L!seoza
z<U98t{0h1LjT#oNiR90w@2FLcW8uHm%nR21_vb`q@8R#|MX^$FsG1@oURJgOyzeDN
zkL?#;b%=RxbMhvoTRNnQm3?$b8!68iHF^?0rq3{&%3$wIv>TIN5G9jz>XD$;zuq|V
zx3Sb1?>G(W>ojH(u|BM@4kQ{inU`ny4mXLpb|}*cc|P$yTC$`&8RL7vSE%9Cr8}{*
zW_X+>YFBIOII)oYdrR}@?I_Q~CjYuSIR9$6cETTv)Pb!~-sq^NIzJp&WqTtko7B>~
z^&rU5$EBNSQ_yPnM*qJ?F66)uAXoBN4I|o(;+EA7yh<bKVKDQK+<i#&+;8o`pREBm
zh_E=SKbo5Q<f8DCpN7DvB2{7*75xH((j8E^3MWptaH~s!X->5VW)@=*2C`{<LGpVL
zxe8_RL{szyqU*9AAPill-?;>MCchHhB6|!`=@1;%8k&3+6=L2ubwmG!fvA&Xe7;n+
z7cascrG$mb_QH>3lo_4GPh3?>UaxkZQ$7Ior^$1w#cOC%s6_?8<jC(eZiM`LS9_c;
zcf8kzL&CWH@%rogRfyI^xnX=6N!3T59?sLa#ILrtw#HMJ{&jujc{rz;?yDzocU-!z
zPZ4kz6OS0l0|WDwwUmKC;jRm;t*<vcIX-&f^XsP=n0oCUa^*zqhkL7#%qA1iRU?iv
zYIg;x_D~S&*3}E6|M2x8dQ(ujGunV)pO(wMO#2@sA##tDd6KP@$a1JJo9voYPDJ4I
zfnFXFe<EWLl0gFDbaap30*QX6B^yHfg<@3JzQ%OJ!BAq+5iY=Cd3^W_)G}E#Hq1zD
zGUCB`<_GcL4GE+#(S8693;51~Ezik9$?eU*fi0c;_|r^g>I(v|ca1Jm1lVK2{u@Ua
zgUU2IvNKN?(ZhZoHwV=*W~<WyIbdst{Z6J_=Pj3*f1HjZL&=fiD_jXfChMv~(vs>n
zv2ETTAm(Nj0K?$wzFmKQ6ks!T9yilIrN_kPwASkSZ|nZ{;He8?WC;l9=2A{sUb%uL
zjo~-*@L=T<mv|(E=P7B%TFfYg!KWUb@SIvnn_oHtdZ7&Dx=x|hDDyw|I>2(+n}pY)
z`DxFHP=(;ly32B-|KJXhYYQK6FLxKr4r?-l@6~xQ2=oz1l`3WHhlSU32tgux=r#uQ
zL?wvXM<D#0LgEi3-LH^IH$lv@i&P5a^DjVJr|hh8FVA7GQRq#~uF*kjr`kzu*k7l^
ze@<H_3_Tt%9W^Wwn~{dr!yvUV@`k|bQWi`l)F}mv&v|OdV%Qq{JBo^mP4_w7p90u0
zGFrjMjV)Ltq?@4prsTWA75w9DWHwF|G<8HW&kjK7F^Xv-kl3Y{O*~-q+oeM>8)6P*
zJ{6Z~QU<xZXV`@q2y?;K=BfE6Dak;IK{m{TIiR-ALm>4<A@VWWOTLBuM-DrZeL&R0
zE+H}UC6QSvNKVqm#>UZ9jj`eF?|0+_-T*KP)uZig-%vdRm%m%+>N*+NxNUCu-o_Py
zOU#jU3Y!O}M-vy^z4<Oxe1+I%&<HMJ;a4BYR{y&UazvbJ!jbJPy})RJLo-Rv;el;$
zav3W;{FEsB&$J3%gCPUCe-+LLxEMZBM(#`Dw|DX)+pprWK96|ny3O;ya7kuN39{^X
zl*<qf`TsBOT6iWHUrC*k#B}@o|N7s=p8f-k<kV%wl^^}5><Dh5KYw(jv4k&PH0dPg
z2oHUEpXzrM>(4^j6>w^i?wgj~3)L|Cy}LF4vv>=Utrz=%bRzjwvGM<?wWI;VScN?0
z-yWxgC!nKL9{j5&{)zmANBGAisPaV<+Qa_m!w3%9#+=~TOS7haZzlief4?J)*@8*0
zbY7hqWoc=dY$%=U%&Mbf{@BpRr|}7o{#$&?zLl-(zu#Vef=k(3<S;qo)XT?(kr&y}
zR6FY5*R<f1yCKVC^l<BwyQ)pFQ(R)=_h9^X{C{wDf48E|lb4xuuGQs|agef?`rghs
zDi`tJHLO++wj7a<t!?t8S^8|DvJuclpxKJTN)r1Qu!a0>_5g+Ic+LG8LX-Fkg<!0}
z_K*)Pb`c|Q2OJVp>pnPadViCw?2f2#!3w{iASe7kujuO_d7mg&bi#TZF-n#F$%yrf
zADy^Gw9bP$HjPo4Ppo){?o~ds!^{?9<!()048=_Lz7DcrS9?8({)6DmPcG8825@0r
z)g5q?=D&t5GuI&P@@7Lp^jlE1y?{ujU#WLWGaeDMe!ma`ao|Sa%3g-Ww3YC09^E*s
z@&+n-7}j5J3`I{gx&wwXipbglDZE+AMk8#AM)rz%fav`Ds21-3{rYy!U_zE}V&>J_
zEh73^C*7Ws67gbP9(1Cr=z+IwVwD5solV2<Im(CK5q=ATg66ZScBNsYpf8$#0e1Ak
zm!@(xf<on8>XxX|xG|i$3{ks8-tiP;DI}=sJ*k26f56;g@1_`#?~DyX3MQAT6L}yC
z0$i3saX*<8118JmvU{GZ$#M^y0O^+f#DbU*{_yp{K4J&>V?C9xY5)Gx|Eh}#KA20#
z8@Hi|uZvs^Iulv`(7y7qROd)|f`gc|-?i9LGK0GJ1>aN>!~wWteT^7v!4n`#xHbk}
zc0^!Bd&$urQKNxj@dk9Y6L5OJcb=68SzLPZj8tpfOOuA`XZiV~5QQ~f2Ux&H=)?iI
zOiUh%?*O3t!GrJ690G=sGZ{3znGxaB=Qdf@G1DLqvq4OkVHkEpPsqL<D>ad-iD3f&
z{e^_5(7rSr6H6{+cL}|LC2waRz`42-L?XN1FfJ8+U{jEh=#X`CDh<dsx=k}|N_$W>
zIQ|jjb#d+yLnqB+>IbcTjDYmUl%Z5D{I-JR^&swLh~$0z<HshiW1Z*TO1#D6l%VMo
zMvk1VEjNTb;OF7tR{mK4X;$7l!0`^la^_XfMU(&YIGSm5l9u#dFYLukAG%v?%x`o@
zWE~<3B1nYAsz-h%@QuCVc-V?6InF)!v~<z@7_{}TL}BF(vMCHvG!bD;Lx@2YbO+)&
zr)Fj#sa}}gWEn9hAg1%GPO@7dL(rhAoem@%-#|7}h`}-%>KP;yvH?jKeO_GZ(%C9U
zidQR^+YG1jcn%E9gQO&@uXk_l{z3?XPR0lCVLkV4goCyR!-nGna4>p6_azmF!F2*L
zp+cW8BT6YQ+d}|@XEf?oVEcg)V$1_9P>R0C1~(V-d3~3Wl`2S#0I4mhJA&&jfy~>P
z;d_XDK(_xd0)j|6W5xyCCBce8@bnFPSpVa`HaUT)Ejm+{;uYI|T~HoQ7O{!{^3rrF
zne9Ei&mD#kl>w|pdZ)|Gvo{a}Ip7-IRV$yLMJ$n&hs;%Eur-HY`U9`7XwB8Gy#!*G
zHeb{hZz0)Hg~tl4E!)|XVSSFTTgGnW*B^S0H%`kZ>BuwY4b6LwYbZUn<g~Z{JtzM7
zg(IW6T0XY9TJHQ*ci+C&;Ud*LtLtsd7iW%4t4A6xR|d`|jV=2#-=6MGOe?W@vYl8V
z#&N*Q(Shb$Kic!0n)=xE2~5{ciE2-p%})?@)MIJLRGK%FgY8K>pw_qKEe+GzfGo^0
zWPpb4>ftD+*vyt=(BHpBzt0v-7tO_K4apAV-WaueS?7T!%1b2e@V~ta=xzOX1k86`
zM+_o{To`>{U(`%iK({JUa0H9v(Qb$bY7`tLD{m=BXhzL4`=XgbB}n>M4u5W+Lw99Y
zW3}RuvEs4e5#f;!!v-Qt2rj4r1<1#yy;(xTmzV+U_CPoz+q&wUTX1u%zjnm|kCNPQ
zDOVYZs;l({s9m|f8$x&vXS$>?aTGrQ`pjTwd;5ZC7GrQ>00o0adYD^olr(;G%-U_O
zKrDuJlUuOpG1xaVLs@iM$``^QEyvQx4@);+--T^T)kh7Rmyz#;?cqgI`qxO<?&`hp
zlM>J0kAi?eGUkh?coVp11l3IW4(cRCKZ@nut9<?h9e2UFjMd3W@6y;*gJVVF7qRQ_
z>g5yg-e9UcG6>8iXFK#lGuA?Y1)H|Fvy=0oH)iB!q__g@Wh0}#v8iKgfXm#qFBh5n
zxBaooPr^xj8*aBWg!|h8{t2Z=d-LfuZXZ#eG`&+ZhSp8_F6PexBB4ehU45|ZD=D+Z
znO-SeCnUpBPi%i@CGF|yFm90H^fS~K2(~A$^YYySBZ`Da7fWbu6W}Vg;78KVBWb5-
zKlND?Es_HIC}LOUAHfO4xh%D319AGeFZh!Xzo@w#Ey4NIEd`JKvs5jv`5cc3Cb<JO
z|BbJuSAww))b6!-seicX%x)#6eX6_&_`Epcvx2vlbHlu1tj0B(a1S$;>2&!~oMc~S
zqwcadZRSlg8+re+2Llylx}P*fM3Ah<#lF9rC5vuXXwS~L<Y&4_(HCsMq8I4nMnxur
zXEj615gG9bb>5jznsMsRmekb2g5O?)f*c;Nk6bz6^;QQHx9uZwo0_85(%x{OUmkui
zzg6DU7D=UiycR8Ixb|B=sB;5<54ZP``qaA9JKVtb?bj6c!|8m*CZdx!M7t_Vw!}5m
z(S)q*?=e5HT1;KhsMd<=FR^~K(vZs#uiB<)ucP{TC@!1sGY)Lg7D!5L>G#Uz&IP{1
zEc+oXaSb(J;o>?_9SwMRtlSq^@j+6vFK2wRt-OU1N0t};%5h>ejQ%0Rho(p8n)?UK
z%J1Wl(M`5022N4?b&|oPYwVRYro3DWA-JBy04WjReB?A=Xu`qjgyliJ)Jg$(We8e*
zmn6Nuj0NTOlwtc~>)ED)zLJ@+ei|`)%}6(*{ml^c%-ZP#qZzC_hSjcEPSa$VX!VxD
zPYR>NisZ8-fx5NUxHe*_Dktqd;zr=tN{Novk652SgRsaD@wcAQ7J1^|k+@0<A=M$~
zQ5?4WvxtRp3{M9!?=)ng84jDAiKje2=ZOzOhBS3i0Jow61&^ZmYR41V_CqvZAc-_7
z*R&h73}Xn7#Fg3-Fk6q%zC`9RI|b=3;dIn-EIu#EeyAF<V!t~f{wZ~ha?zYP)9<$<
zU!I3$nvH{iL%kQD_^!|T<TE9gb>V}lwM7rrO7^h=>%hxTDylU}82~*={oq{9%rQCm
zjB|_zH_wWK_wEdC)ob^@qxPZ}iTqWJq2`Sid;(*wq3=ap(Oa&cWacy9#ak<|V|-K{
zmY5F{EFwXv?pZ{Oi%8JaEmFFlq5F8|qmkbWNWvM(CI9(=Q9BE!ZNC~yu0={bO1x9z
zhrqzrL<r}so>EpP&~|D&`{6vFV(?fwLo{U$!}8N4j&1LKls&!IbU-N~y{WCWSK>0N
zaovWqG|rC_?XP`@bwBh5tN0L_6puiBV4S-Bw5b7=b4=mcRqSmQRb$0kW|Pn+QV!Bh
zbh11>+w%}vr$MshM&^Jv?SwuMIIp5O^+M3q3d2wDp_)K$+UL9LSUZDb=-K|VViN%L
za|h_u_3!<mwF0e-xwLca9FOXH2OmCEV`4oYws!8#Q=owBBPbWg>nhhizP@;iiKC@4
zh0P&l=;UbXq;3I+wamvMdA%D?Dl#B}k4fm;r*FFin~UbJ5c6NUm)Zx~+)I0D0m+wN
zk=+hv>N9C-w%@xk`kVG9;Im@$!IOtFiIZU|8zk$Ed@@Eq`o|7MHwIsLr&?h(40dq)
zrDPq$YCP|G8@?*aWD#QWS&Z*(N-j$gTvgK892Ef@zpk=4>9mFf1?#u;`$STbrQ1Fv
z%4%C{>x%(>@4WQPxOuSKra>xe!Y|QGy}6spbhleZ!u)i7NZF{cI|*~Jxw5!MDdmHS
z%)iSj2F3dQkl&L)nR3Zx@oa^aU1q{l*ov7uC&sGb<WW?B!897%7IX0j!$mBjRc!5Y
zD=C#zEi=Gzcyh6cY?y5CVg^KTGnpDCDC6Pg8LyiZh;zhAoa0d!?;EE`_gfX3RW$N<
zAv!r!2**{#?bE<>ri_0U%lUSVQcDJtv2#yGetlEf4V#R7W*{P0i)r=-o&er?pA%9p
zQrW#U1rgm_AqxtUp(h6&Q+Rp>qz;W#VlwY{pZ<Q_aPwm|W?e5-#XlxvBz}qe@%sQ@
zTJ>Gy^{?&^I6e%8vKzfTBDc@FVZ0La#HvIy`?jThROK%_iW1wp<qp;(xgQabu{wYV
z(^rt?n9$4CmD%e_;!(`2IXk|6PJ$97mDN(m@&1NvY%~eSk(ixCtbw};SzN`^L{>a{
zr4gqB=Q@8$XIMQWOn1%vsuvXKna)HndF^y|rjlP&tdptyMIYh=i<LJk)nhlkBzS1c
z{4W&;=-l>)Wxubtuk8jW{@SplAqypS%PiDijxTtFE!vJluc0{Qy^&W3yE#YdXC(8Q
zoaD?pYGL>n*_gsdu{7B^Jz1g0K;d80Yncw4qZea((kc{*Cb);DIQC@d%vdAe)>hq^
zVXV~C&^lXsTj3R<qP{qcWw^IqJrysZ?pTPC6nv$k!}c1VP=$LV<GlSosjsj=Zg!(;
zmuzs@_;)2b!Q4kln^tnSzukLOldDRy>HDuPS^YEy6OZm)UCe@JUV49<>oSv!49Vs^
zbTyJ%&ez_O&%L{TbotWg_egQ6oU5r3@q4$g2D%rXP^<565HFZMaGkPv7I7ER1x6VT
zM}v2pdh)~LNkB{*mexhihGMdfOWC7wo0?g(x#PR*f@|k|_MGDf$)XM9r<?0$x`jJ0
zoCGI0xcqc3b$Ye13qd(<eW%j<bCn3^vHFM!sk6qL?sR7Hv4nfcqe4jPI?H={T78@n
zTZ_%h#(AnPIu(*?lu>Ajw?t8M@k^UVlO-}$-;E0`_%ZNxTKapJ@6K69-cGMs&4$Rx
zGt^{cjy>f-noDSN_3ggcUB*%+YE9V{m32xrrxkl692v8-@sPdMVc43A_VXFll<5Yo
z1eBX(f*dYO(B0E-&hQOcF<~>j=2m3KeiMO5g$_Zr?>UppC>)fb$z)1f^GSrRefL3(
z$H;=S&{f;Z%!yyE@nZ3)^Gf#&h~A#gT3@@qmF$~U_bhZnisd&dFW|F!^NG~4Ac-^A
zogc-E2mK9IS{1t|x*wYwy$_0w8_p~Zc|Uz3Soz_jq*LXW(qt=sJL}Q70CBSF1;5tL
zaEr8p7t;7UftW*Vk67M>oK`ZbmXj;kG^+nhNdBq?pYRh==Y{2Lr}SPg`r|;_qjAW)
zP@eSFrHxLcW?x9^J<g!XVxo9&#&nkEuzbDYUS~zzOttvyytB;7T^`Y=c+SpTy~KS^
zEtSLq)2C=VK=o|2Ue}^}-es~3|BD})$a4eq^!3?_@0L9TSFctHdsJ8g9n(bf8tD|j
zt!i(`6Mj;@y^kz=aqljgHT!p+r=?8!nx5g_yZKnQU7BnX&B*GD758M*=+|3nD~_Xg
z5y|EPhs5#WN>~IoJm)M(6bXF4Tm8C1(o@XDK>bhnC_pC4fA<#w6;Df^GrM!Wcl`>#
zgwUkVh21DFtVaSv>?r!PQ~9k~-?-x+$7i@cPO4n{)c?Q(6G4X`kbn4@;w|&#gP--r
z!`a1)x-5@GStV3mH?%(yj!jK^$rjP&O?$Cfpe+jUF!NSp#ae7B(73X`Z8cGT1^K6Y
zX7wz|=hL?6KgWwtLG1f=75h0OqcaNhKEP4lyg_P%I$UY?-tExlQP&vlZw@$}L8{C^
z5U#UY@{P+E-9*;-9lMW?PeWsrK#_=*DE)%pr@NPJAHP(aBgT?bwPM*uyM`?=zliV-
z?ogW&+n1@?DqE=j7Xtk(%>Pp@nlRJNQSex&>;I$cyW^?+`~Q)>XJ#BEWMz}GWtE-1
zB70_Lb8NB-k-b8;P)7C&8D(#>va<L1y{|s^{k>J6-#<N0k8_-J&G+?sJzvi;Mk^N(
zh%s|xYS{%N^<5A>#+jQtDVPl-C{FDXxhX}v;ZpLksw9`gmKO)(Ni^^)nqxQxD<h^A
z#boIGnYO|L1351m@wH~@Z)Wx_3MeB<K7gqOL^RM7S4lF7h3sHjethIzB`c9h#!4q$
zxR;^n6)h+A<Pn`mb2sL<cys*r8=umQ&mz8it7gYJVx91_sk@V%cm0M+8EOzQS*H1K
zOTT_-NaKy1bG_W-8r7KWcbYi?JON_;?R1vZgq<+Hafe8{o0*?i-lMPIMapJae*tSk
z&r-eJ9CP=~d-<k}J$r{Eq4iO%D5j!vq9Rt8qE85GosrgFn9v;GS%ekE<3?W3dnGmo
z2J|H^cdxLwL0y~^h@d>83Gg_lc99D=f|GTFIVOyYxy^|!cIZy@o2OG!`ytWBE4&Yw
z$5*;i4{k(iH6s85K2O(wzLmEB>sxEzAn<Zu5mx-uyuNBYP{9);cK%G2`helLFZnMP
zs*Qo)qx7T3|E65*FlC|JA5b_{7mCU<h<*-k^?C>R;`#hC-~Uf+_CLA_SSx(@A}Z3Z
zgNaKKzvk}0edHzd5w@R-ub7lo?4sNMZEJGk5DFZPZaZoHBWk$1&;Pt;h!r(8eM^}r
z8A|Bx&%^qAWBBVvWGX_InQ4S}M(E#n27@6wE^hI`E#=IBX&8?DU)T)b>asw_enqb8
z|GFE53ZgND3}>ho&;Q;$I;C+8Ca<iDnI~WV8oz=|PmT;R$1b*%GIQ>?a{C{Ut#SGR
z_+pQV8zY{7Lx+;-0r=5O%Hp;GL9|H6wD>eMcEADYi=t}fp94WZB!XYWmAERak}4Ln
zw^pH|%r})lrnC+qi7_W9zWsx}TUv`TYc=b*j;Z=6R8LH61mBPDRzHYrN#eIl1qmo>
z1VmCj>Qld66^+w!zUUa9*q%6ml4TKEyJJ)n53Z6qbjbb$c&*t1<76kFJ7?qdfoqS=
z02}@4-mZT^mKlSIBN<#vGuC(`8LB6%GeYP`2WzAW<+B+l7E@dm|MQf%;Q0YZwrZ?`
zx2>CVB?W)a^g|l;<r_z0nc`(a<MOo**1C93EeEbse!BaG@2T~BIg|PIXbM>um6o01
zBK7j2+bs8=mYg40%>RA<Ja`e)!t}E<TgUfUYmEjeC~I%EaFtgD8$It@yY|GWzntgr
zHW7_k%DdNP%R(9-EM*B9@6khi`>T5hy>6TqZIqTHPNciT8uDW0V#<NC`nDIE7##%@
z9A(42&+Y$%ZU>9Tgb~tf<Y+ZKDX=j%Jy;2;v;Ug9D`4>ZOy@rvUh0a!1vtc!v6|&>
z1$qLW5jJcI)C3tlZpn%wD7^2S-{$6$?(tOq_JI2D!)i1FIgC|hKIoYh8*jFZn*6l#
zvJAG%4K4mL+p&i7l%c|8-uwh}HkQlBz3^Q-vez%|s31FR2+ISuJXXMOqXAN1KxT&%
zHI=i?5B8+ca3~-IDQf!0E+};`*Nbng%>q!l2q<)2Krn3UU2Di_NJ!YMH#wnWcl;Po
z3x6>;-;g}*DLc8pR``A$)Ip)n=D}WovFic^Go!S@R7PMlRSCsogW&ey8{-zie;sRI
z^aaUA4vdr6T+yoCx(6H+<wFlpDruV!I{hAR_+ar(xQ46J*Lt9^*xsX9R}A5%Pd9oz
zuI^z!?ygf|VI|p5Mv`scZ!qP65wmM#1G_idKLW5uh|_H~kQoTvzIq|B0pyP5OgVjf
zRHo2<SPu;tp9J5CFF63*&I&LaXtS;b2y+qu<Z17+f<$%T9YJQ%Q4eJchca1M2)(W;
zf6{^q?!dsc_b}r~Y`O|g*G*k{+0SWAd*Dz`fCg_(A4;$~-d&ym9BzqE7OH>V1z`Pf
zV8o|s0KOg_r9qQ@-7b5lIr&1_HcwI5@Nd~#8H|mqu^Ic}&Z&<Bxbk^8o;UmC(Q8<f
zH=GR&6CkAA@qmC9YA&q$)BW~0r+&qWodTi2`;>ZMRrE_LJD8^&9}^R^K}G}oGmIq3
z15#FjoKdSp|5JJ8RGr&<XdsP&J%+pRT>==+Z2+IiuHlz`k`$7Z#=uo7GlHD^mZ^3Z
zfZnIdK&xXSRLRuwVpQxV<~-g2b*b?MnK;%NK<CW?=bVSe_B+}&JC4}WC}Dh4Fpl#g
za-}i)62n&^#ij$`YbfTb-7|}A`2Ma97@}_W>XbhXomreFCxVlF_bd9F^<j8OnEqBW
zPCBw&TuRQf+PoY0{d4c72SVj8IJMa(QitOSiIx8LoK~tq5!#9Oo8gfwB?h~gLVM)X
z${^?9a2qhC-$TBcbu|vah{sI6_Bj~jtb^LW;$UNfQo&M1<)!?#XltY3ClG9612FO7
zIycAK)prH!K=@q>#g{{AbRMAEf->JW?*go-@IDwhLsZ%^2xJ#-#S@9#8a1*>1FZ4`
z@WrDhul24AzF>L=!8IWS^mL~o0x%M|)nKvSgy4WA9Qbj3u5<&&66;Wa8PJ|Vky`8N
z{<vYuI<dwNvdQll`U1&Sw_b1_Zl;RN&jdc3H{l9mt+Z^5Ks_D)!Vl*;z2+T-7cSYQ
z(M#glGPaJAJn3wQb3j+_goJK{eh4z8BCDsli}!&#eiYn$7C`$|68=yS5<GyNc@Ojv
zAB`bzsLXpG4*{6QlH2)P0rhLJ=tAVz+A0}dpmYmen<?OtX07pF(~n18)x<b6Hf`zY
zl5t#P9PeQvFGEbqPQq<RK0Y(nP()&kHNS=&2nFcff6QS}Uk3^0Vu&F(X-CUv4!{@5
z62f_e6z-$a(c}eg0sFskU~0259+bB84Ik~gGW-I-=k$z5z)P?x6uUUf^Q=)YRoJV>
zvC~3<2O$O>DCVA4y_XdN{cQvekdFf|8%jnaSWP<hT=EPU)Eoeg<VP6<$%uT_TvMSL
zAEq!)?smu;xc=hAsso)MAS4tTrP$VP@D%`O*YFFNR~9UOg33!|uuv3V{0=apO@YEl
zHkE7-v7e!d!94^)QXC}^Ohix#eii6|^yNP!StCFH%kkns%v|Ib=B~HTlq_VvcgOA1
zBfYekM+xX3x-q}<JRo(z=-09PG$fb;nXp2+1`yjCup68SaCNcD{20%LrQqga;B1Wv
zo@JxqYxy#XN+SIl%?xDdRy%CIzZ9Fvruc<WBR9$}hYDFB9an<u4=9VKuye_>qOv0I
zcGdYd3xB1CCWa7Y*`rG_44Hs%Jq@Ush?GJ^1;Ayi*M<CpBD=V?Jd=!j9iO2T_(o`f
zIif>h3V{`N*})>Ov=8pSc*3=LynK#&Q)%17b+G8W4iHa@j2_DnuDU#@FVD7{sb@E8
z|M{)<uQj`Ilh!vaRnWv_?koRYH5TJ64Ku}-(dhaw7o*V@HwtdGC65KcQjE9CN84`v
z;NYNtgD4dk3kUGw$S0=j$6&N3@C+Vz6BuN#rj`evHV@pI_pPE50qJTj!LCQ^c*5Wc
zX6J%eL;+Bjl1@S_f`SB+euuBZy8H%XN{=bfv#pMth$CNdHS4;q_T8qRqrfe^C$25Y
z%Cer2MGuqlgCS+5UuU0B9HH`>0eboEqz3|cyB!X-W_uCO{bWe^R9x$L0awLt^<Rd2
z{6sKA*pbhiWT-w)_XbSvPDw|uZD|C#mW#_b%y=qAi|&o8+icy%WS`oHk$;xGxY*&c
zq^twlQTDo-504ZSs(=SspT657$?JA8WaR%)f;Ez3wDHl2C1KB7wxPj`o_5Gg2S~;v
zAPTXCX(MD^mlP`k@PDyB%K5A)QI6PvjGeHNe-7U#O*p!!@`K`Ve8QAsF|Pnkbz)=O
zaGJ8>m~X<!ai!12a4_uLzQnAcvgTSXyY$I0HbI)F!(P1N4U~vZ1)D!B8(;KTbR@~n
z4ipD5&nFMQW$9~u=*j)*Pr|nv8~#DUl3@a4zgr3!LxoQrO}ur;czD!KSw1AFFQ=jI
z#UNVh8`T#BLXCs8qWAJZsEFgdtUs&`X&cT*#n{>agrdc#Ag1v%iO@|G_#2!M@<E0?
zFkq<aR&{zAi|}*rD{6+XBc@TdK1>pdZDN<AuaUW>Om=T5H-X^?t)$aEFi~@9!QuaC
zjwp%K4*wRB6#)}_^g>fz%{X$%RsU2omE>(<s^3cU{q1;gUTc%59c#^qiE@@uIIs}`
z$G5i(EQm{kQ@E#q4PymGGs-7!qsd;T$A|FO%U57vX<sD#3oBzsvGH^_P}?iZwi<a&
zmwPOzWHL39z#LCqn0ERl(zE$oLxZ+f0iD!0CRzR)%6?=qssYF?Z)r}tyTL@7hIB}j
zRz8#RIlT8aUSYqls$!?e018zDxCHbNCFA?E>yZQLIW4*I1)qUWQ~p3I#0Cx`uIu&|
zt9<y?qL0v3D734re*g|@RsIuY{FeM%?)2`}$|tb9zOh*973l`VSx~hC0q<3b+~18K
zV`1Jk>Y<HyOdd%9al)Iu9Fa63!jNbCi}_R_#<OR!IBI_B_Jy-#d%>kI5=8BFL^@H|
z<4Nk3hIIh4LyX3UnD4A2CtEFewRf)<+QXkU9HlCSBT2l-#OaV-jQOom_*ECLQvvQD
zlHKS$9H+`<Jl=ZDQu?yAS>?l~C%=h5et1*IP}RvXKEs*lw{PF{fORjLC5O@>Y#a#K
zRxoMiXHWP1>?vEZGYRX6D1@(1-&%yPpwh@T?ZjoPwbqy()xmAEh|7@8fOt@6oJ-dL
zUaz8}VhvnAdue;u#%nEm1{@dGTFIV7ek8O3dsXALw>-H??wQBt*Qo|5d@HK1$7U)r
zYTZV!jYm-a=(|9>rmpdV&vQL>`H;DeNvwn3e~72|+_`e&1-n>RhtQOz=4+UW_$|O{
z^_2|$>cr1W`g=p_m%@NAADgZwKBI+4Qv5c61|Qy>q-Uj>!-c}4Ear~3EE~Ob6Ljw=
zjG|7M`3z<Hf!G1Jj|`pu62C6^`|2dXG*jLy@iH`z{GcHIa8@mC^M4&mo^7Ik9ESSB
zirS|aI4inS?{1Mi?Ci{t-?;AgDG~wh@5AZ#)$44PK|gOc#p|MSMC@yT6pR#!_#?vx
z)^7KG)jL{O`wOKrWSK+7>L=y{p@i7g+ORuyGoRiTVTb8lK)>t09iQH4^2Vlf^tz;S
z>liKX%Z+Tqu|C_%mxbzMH`Z{7FDsl;2$*gl*R3>K8x3uW25g<?e+PJ^x$<2m^Xmi1
zN=aHxxq#17jH|G>{c<ny=gp<S3O&Ipz^tSw(F_updu<x&tb2O(!5J3ht24yK_TF3y
zL!?66<a?1~mc!=aAp{wxo1@S6(DJ~zBuOPAoKadayypaiH|Fh;X55x<2tlSNaYhF`
zP-PB<8?=8dpL_fmSkpa?yZzXKrF?-e7vh(ad^HJ7&8&i4*@~z@37n-{`*w?iWlE_d
z;92P#>}4ttO|D+=d92&Vw&@SVQjRkXph&M}h+|go4ijuR+X<(noJlf=2u6jVQ{D6~
z#r_FIhIW*E)}@fmD)_J&G3VO^yCZL@LxMH#7y=L&>lzHIIn%nj<2;O3OigMqQMOIA
z@X`HkUMeNuc*-CZU$0!zqG|`azB2Rx`kOoSGDpJZLdNabAhSU-HJ=Kdv``=3*bmCl
z8L514MFj;H1ug|keU=GH|HjX4W$d`hbSK(^UJukV+(F4=upTdU%LobW0yG`m@vBoQ
zL9hCr<1>K1{b#1j4uxVA^?jF*c!lXs;}*Hqss#A$kvDV<mEj&FkpWu+gnP?UnA05*
zl*_GHtwdLOVxrsl_A!KFBN(nI>i1qNl>jCz5$whEay}^u28SH+;IpL@U>02tq^Z>=
z_MdK(Tj}ch=eW47_U=^RQ1FBdu};(jRlQ&?5vMU!KFb~eF2U5RXYW?$&*or6j~lu2
zffrV<g@U|1_wDUS3f?Zk0#=4_h;UT}TCY>UpU`uX24{60RJS~tq_-4P*QxA_17CgS
zssTNm%knny1!!JN0mksLk6t>`X&K6oCJQzg9=UP0+W}66Zr3$Wz*!>s5$;XEqG@#f
zR@sTsWKU@B!QMHPiVRMB%ALkD(9GIE3R4a6tcfZFdt)m!tScZ&*&f;{s&f(~vYX5C
z97cRRNY$$ax;;utTp?XfNv2+UIMUn6pD0+@M*;E*1z>MdEwvq*15!=o9H0m!-)Z6c
zEI9-@fI=4J{2axXP+RylM?R&c_uP+ivika^*j)WC-A;hl*3(dZvZgpMNrBR*caTtK
zI5tIq_>4%>wV%dO;-0a!t}C!#fD-u*Qx>T0H-Xoc$)r_#^qV)U$ovgw><z9xuVliv
z4wKjV<9`NSD(rm9ev1spHEzpeM&#zu%xe#5$-HVu!-RA(qdlhpm@J?G*W)R$3lJKv
z0%*@R{uW&FiF?OD4vqeC8MEqJfnZ({8!yUaajHf@Y!>Xm=Y-OahYK_~mU&LM+^8N?
z^+J_rj=~veITfhVX-*p5+67yy+byJEv`!7+z$#S0*nD%BUkvo2b)>js3N-FT&?{&|
zuAj*Qe%I1o4WKsp=PnJzs~SM?gQHPsY@?PbmB1z$90~VsP)o%7pY&WtUjkiNG>V;&
zBtS;?`=J2MkM<dkN94v8FsT`Vp8~^A=xzL;%_Y#I!knl8q5uUcFUJze`f;)^bsSZb
zPSPO90m4N)1}i!(86Cpuvjf1$T|-99v@1>IHoHsk1ImB|>gn23|JlY*--V?25RDMN
z&rZ8b;E#chWy;mRn%>Yb1Sdr0iG<<Y1uYX4;vn_b35X2Ax&B^%P2XZ!sBy9dj(iRi
z4p8O#*as#y5=s(qPIp@P!9dy=<JA!i(_L`zt+Y=vR}$Va5-_PF=|60oo7Mu9AF<xU
zNHekCCavXsR}g?Usk#RR>E0J)3~MZL5%m%9m%IlPUI+2mW690nq83~xVkDkJjPbV_
zcfgiTI8HC6Q!*6Dt}kwD4JDd77ATTLQSw2^fH4+mmSxtW#!x~B`2`~<=Kuz69k-bz
z29;%dpyP{O`I{&mAA<$Iv>6ZuQ`#m+aq?$g$9Fc8a-S`vcUdr%6l;v&gy{nZ<2ET&
zd-kQDBm<}dtLW$z(!S_392|H0gFIGA>^5oPsJsHRoui5TNSGtWo&%W}Ba8L+IGgl`
zuUBI0UR*w>z4r{KSV|Jri^$J!0Bt6!w2ko1(Pki)wtGx-+HzL1QOerH%GJU<eG6Gl
zHFFDl$RB;33rV1IT5BpXT;<SL7}H3Shj`HbI;Y4m<Yv|<5PK2ICsg;ngU^_r&X)-h
zn-h^fE`am9r#n5DFXP%?@U<{{IRi-?9-OZXc~2Tuj{*B&I&EHsFf(PSvq^;CUWEY1
zGvHb+)>qQra}a1;1jNg|1E!uK!~#7bbk$$lq5@Z<N(scowNVLB_b6>jVem#$uKkX=
z9$ovBPzUt1a80=3Y!<=U`MmC?miH#<$i6s&IJpt-Vbm%5`!li_;^_qbA0$G?lNy;+
zN0E(irr=VyCk(l2*lFzq!hIhWbsKJMs!m)*E~O+yGbIP?)i~%%<<SFfoHXm=GtvZC
ze`Ia&I%V8{ac$e5adx0xIJM%H>1>Kws{ZaxnwGKLVdO~TkJCuKyi(Mk62!VB_2JmP
z`+(Uxr*glp1%NBwr}LpA&FH;%ms|YCG0=&!F<{6Ge6LrkccJdfDHB;iWH(%42Ih_=
z2Did@n~hkblT*@t$@ik05{`2YV>Jx?Wbh*5RLl~mP#>6wkJ#yp)G>+IZr%T~R<{Do
zZL)J=)-Y@-?wxtkk&x?TqrpsmFoNq0qfy6>Sta?uIh;sI7%qQr3|~4~g|s8S$o9pq
z!_CKM#~c3rXY*VtckUpgC7UOon72H+RfK>>sqA;WD@nafM33a_H7LH7Pr2S9mfOg%
ztTZzVn&!{()Z$5+!#p7sjnz2P@(aVH;z3c^jkMCpw0iJr*hBm_zf$oE34O;<UTPIO
z84o~WL3mn0kSNN7+)?)`YDJU{9T@|g)Bl8mwIFmZV7am<&x&l{e>Z`JE<`ac0|WOS
z?)_b9Dh!{#X3xwT#~*x?Li&>hXOS3@se)c7D}?F`AtX581JP+X3GPRli_v*brcqAk
zUiC5YYbKhVaY~?L!0c1G4-C8Lef_1K#P(jzp5Y>xQSbU7>^SO=4)iIW!Yi6Wy@A0}
z3U|bJs_u+z5tX}|kNr=s3zQD>p^G#v-3#z7Rh4hOwyb0ZUz;5zdK^QO1-nTX`eE`!
z{0`*pP~htKyot>ItCt$uK5m__xQ`pSvAIuDIH5qL;)4fHHW&t-yTGi{VT9pPKxU*j
z2_YRFSql_XMD;upc>M{T5W0Ea+V~D=hYrjFJyAvpWELEQpA2a@HqqK-nLR`Av{;gd
zunYvX^qn&zg?uOe)DuN}w&l@yo6?(F_Z6_>h%zE?_Kyldr-@=vv%kczZk{RI68w$Q
z0@lE1O{%SMh6K{7%Ar^2v6kTe_D*chOkj$nRLpx;>UOuD`v73cwatMcl*a_Om_9xS
zoBy*XXXoBBfWaIK#Ewo-$}nkzgq~aogiGF77#dFNNaOFNm1_z|zR(n#aa`-hk~)6U
z<?L$8eoW56OO8)v|29-RgfEhS7fu#EQ+6V(i5fddq`o&RME2#CcOq$<2<P~bO(w-h
z{X)*|6jNQ4a|K6{l@Tnb!XxnjR1|(ku2%Zd04!ZPHN%kW(<@kI@L0;<YNa`h=uJwS
zvx#!hu>)}cYE~bek_yJ`pj$^I15s95{4%et_(VR7Xhgsyc1KJs4&6-$_toTyW0d>x
z27ZXNZCGT-pHS;CK_X$j;~LgL7OaZf@w4J(X-@<r9Ji#IY$nQF41RGGB{y0JYpS2D
zcihuZ5`zm@)1VWg(`Fw$1iF0%5UY#3Xf7FrkLV}hhwdjzaGf5XsZK^r=eI50CYYsF
z)eXEEO4t^xc|TlqfUpsxC9#d*JF}Bm0LD0BrC0<amE_6TR6Ak1(DxUco6mk0jVzzO
zO8Qt@`*Dkg+tQ@;sipotjex@5wHSPT&k$;UIw{S(5aHrK?s0_6TlrRAp@dTYs-Hp{
zi)kA<ihWcb4PN7=Yj!3!ih%Q7e7?8*Ra*9rK>+ZJl``&35><Xnx9C-Q_5m<SfuF?U
zWk5Ouuu0fAtbdEFOym|yv59>CzX>HG0TUsTWSvoU$1~E;IfJ2~gi$6CRT4Fv4du<p
zUg%c@_Fhb)GTS0F>V2zNPzh0>U798yEG(Xx9YQG8CV3vx*b71d1AJx@g`Fa=AX<&R
zL|fjWlA$SPdE8QlAMj^ik4WE}Ric%_ukU>s#aa|v7G;c1xN!1~nzQ9{{%5@3TISXD
z8+yIPi1;%}CbnNg9Qi;L=?uvu#?Lj3QYHCi9QGX!?SP46gOmIAH5BDneiiiAKs`9C
zZoBqP?gwQKNNB(7L4YWUdYL&&b6qc_pJpb!)coBaKjeXcc-YTFEAwdPTKhX%Fi2Yv
z7j2ecw|A2HecF&NNjTfI8joi-x@kaKDmg!pezhI@zt>^m2o@{AWNDtR(EE?x`Jc}i
z5pK!D<zhoZrG@_WeV~3R2qvW=-r^|6$}{-AdH(ODDnts#&Hatg^7U&b0<6e`zX1k-
zP!ZE0TFTw5%2%!{u(Ot(u*A~H9)GikEie0}G`sbA!5iK7RW+H?lgIp8lf%5GvJw7W
z*B8U>-md<;P)3r#a6jVX?aytDat{;AruEaxNBQ_e-&cHO)lhNNsnKd~7mz=5OWH_^
zesZp8X*=|CzNe}f4_A#{*_Y?vM3-QYPa7Q_jc<-P5hm<K&tjGIiQ6;ueucSTksYa7
zBFVK+8RB&e06yCr(qXf)2a`9YnJ#{FGY;>Dwp)E;h7(oAY^hrDrTVI>s`8^DJXHU3
zphowRA(<g0(io7IyLUKtkMf&&cwAA;$Ckn_UM6Fm0@Ja13ug6N7ls1$4>dT6H9cJn
z8Wq<gT+FE*rGZAqc+<?R+F=p2u)^Kj&y{I3firLlFmygxO0v@i%1|ShhNqtie_0Cc
ztqee-O)HQN1DVqPg50*-?=f308%NzYU6_CjNR_3leCmJ*1@a;;17H@%(srH8j)@`l
zHB{_U?MllrF#9kCijHu%akdYWM!?@(vd6gAco{rxEX|Ui1pzDdXVv=Nkaa7V9gc!P
z0W*b|?#fEszo);%i~wL_J-UqSYEsa3o;q<#;x>uN$<7{MpV813ue@y<*Zsh~YckeE
zN5f1@cTqt8-5bNCu53yIk~LL6?Fl*6jU-N+^&R&iHcn2N#m*MsE%!zy97;#Lt(Ip9
z#gU&*zNCxEYHRT07O@&;&9XFSO#=Fv6bHsYwyOVn0dz4B=c_V$08LOK*gb{h=b+WL
z0oI8JK%TCxt2^yz3mERj8=x3B0Xr4W8{oMCxds;j^ALsTS!Co;@XpwPG|i`$V>a!I
z(I+#TlZfB<*ZlX=?iB*;9ct)2pivMI2y|st;{H8zCT8^8zzhFC62VmFG%a_!aw=8T
zetYyS%)mH}oW<H@s{J}CtH7Hw&ThW*Xp?1^0;@y|t%LJf5_K0VlvCpthk}<0rVXri
zHjk||%4noZ%2R`fx*U5!dWTB(7r;+ipgP|Y&Ln_xpFlrd6-vaY4O(KLp4|xKS?)<R
zhG3CiW+T*gGs!^UUj5*t?Xw=3nYy9fqo;2H_6MfGOtT7L+&TcC%eJwl1mx!uTBbTc
zwkA;a+wT7<xSVVZvF&d-bkaU(m6DSS1Ni#QuTyXotU}-o17$6b+;W)h!%2SDI|gJR
znRwNGz=6xfQNlVsD%l$R{4d*Jpm&Wf!Z=R_VIgA&$9P)|JHBrCO@0If%`PAhYRU|m
z^5{L#8oBt*R_I;A_y42%ssbY5&huHU&)z2(QHiI~$;s9xU9n|A<by)MSD9is&;GI{
zDtRgLxic8=jRSpd%1@>^D)x-2Kh{_9-$2+bO+Tq@c58e#=I}|QDW92_R)KD19S%9?
z)VscM(}`6uX(0z@D!X_2ES}XpR_v+>j{@RMMa8n=M=YZ+ADdWT)NmbioRGx7tR9N|
z^3DQd+f5pGf$t~C9T-dXKCyttw@?z)0Z>5;q3!)w31s#hh{qwTuWF}Yz!&a?Ol?S;
zW?N1G0`+8>s$r*#C1_VM3}FCWpjF^AB%BHN?zEwT#_Lcv4C5|!mEBCWqZxk{@DHli
z15?YQXKd}O5mx%Z@fs2fdw{Yk#Ssk84k>#t0N!E;#Me&Zm<qzm2m(7~bS)qjz)T_t
zy9}7?j@b7nt^ow>XKn9+Fz_yC(Wxo~Ghfz;i%DVF8So|Q&|3yxM|`c+0U%b(y%ShF
z+CX||D7Hl*9Xyq-pM#%C5kM4CvB$p$#Mq>+ilBdc3fce1&}YvYX3xRw@3;g+0LVxS
z+@Vmu+Gc%BIfU`1tihB3qSP6|ed6i$8#(&d6J?Ya*|S|NLn@S0RmHlqBa4;({<oK`
znill<B)GW9LA>v^HJjhPtMW{%jIUz*_GYkTQ-yCDm+p4tn%Y3u&DM#$&uc|`9k=*|
zY;$bhRej;J?y7hf*G2rM5eS_NK~%MZIm`skgGZ&C>>YqMogdLiv<uDZE&#$l4raWC
zfVR{7;}R^Y>mrxOQIu#3&%m@Z`HrvuBZ_uNszdd25;crIl7M{9W~nDpVR9=ie?}=s
zE_zi3fl|;Rn}`Pz=a4cq>9RMRIS9=K5b1KD-$Ew<w(;))h*iTA16g5zVT<2FD6kI*
zqUi#INDC?~N&?bf#CdT)n#oAPC9=~IU<nq03R;;55M^Vq5oWXiR9(*wn+`PqPl*3P
zYibLwP>+=39sW$E8kY@AiD2By_q}(!d1*wv>z*m%2Lgc2x+fRZuR$M)s?K^+&~aMv
zMTWPIe=FYqDZijYt|ST$d9|au))yN}w)!5v35o@)Y*Pkg#Vl?%+jF{tf$fm=yhUvt
zl7^<+?2m9UwQp$$FMZzpe3%~7M6}C3WHUeiDE=d}CT4aMpZp`dcw9E5@1HM$%85*N
zBHf;z<10#tr>HLs1<?d`U>@pF6*w|m0fZO<rxcjTc2P<P&RJ;{5c(LSOal)=K}Jnp
zNbVUCgq1f@G80NV7($`F5I&Xqd>+F`z~HB(D98e@z)9Y<zmGwO4RMHH6N+o2_lo4R
zN=7W)l;g1(cM7&@VW_$9<wk$L5KQB3A43(w3nhYx5RW~e@|yscxgN4~wpgjy0w(i~
z5Gh@(m_}(?{JAm^vL@rW8EE#UE)-L&G2}YK4!5f$Mkd>z<UO#O)JBP_54&78^aDq@
zv+*9_^|W$_owMmHThmu~P1FP&DN<GzW4K6Gp0dvK&3S6|=W*LSaF-0f|Jh+zmEA~C
zq{QCDhh~9m!fX?hsJt?W6ZHxm(LfsRC6H0*E0%(qNsay;k5X~k4h*_$fp?IuHu3<`
z;GOh(#CD?R210&)0`0<s0exjXLVF=ph1Pz7s<<+JonO9w{c1%0K<SC+6Jv#GGVUK3
zA<WbGMEJNy<ODZDI0qh7AQ6yNlQWZr+#uC|{-mmg1hSqxCXoO>FDEy$)dO&7n<=eZ
znlVrH7=}eCC1*+?v1SFHPrXlH-=r49B8VkC%>51F`A5TS$dA8ef{V!}x4?Js*otqg
zH2_7ORui*ga@0n>;0d{h!-Dn12Zw6~kF&}n66(9g`B>}>9_iW)UAKGR6-?Y`AM&8F
zY`;M7#SNk1X|POn_G_8ILr_(yWr7WPF?&Q(qzeVW40%d;Tshcph#6qT3kPi{Vsj6_
za_5x*my?;uT^ZTN?GF2{7CN+%tr+qPs!N6K?yXne$*$@<Ti;uLEV)Al>mqGK##<;%
z^g@@D>BUk4w`otFE2M=s!;AuQ1m*%o{WK*wl~nG9sBQlsCH@L#xis&c7aM%N%{0NR
z<V=WwecHU^JiL<C!h5Oy`S$!hERz$fKj`sLd7b_o{YWNsL!ObikJno7<T}d?-2erz
zOywhzZ`Mn1BI5NKx|ec_s|p*d3m-SUeWd&G3$93Mj<Za$^=H{OZYuRKSRkTw0^`Bp
zy~caUnRH-GxR`7a#(Xk}9%l0Lb|cqIfjK||tOC#eK_GGo>a-*j%%B$uTEPm_1ayj|
z%^Gw(fn`bA0D3gdHl!!Mv7m+llIf3!nqI0xNEz1<QP6H=1RlG6KLVxH=2x`@nvq=1
zTT;TtS^$~V%jjA$9&|UX{<cDja<2@S?|d67d=8w+bywTKx~NEB<L}n=c_d#H`3R^%
z=nJz-UZwT*AjSk8!)^^UkUBLlFPm*jc1Kh1T&_={B@;`HcWj$oD{Xw~7)ht~5;Kn}
z6KRRttS?#ry{l;-(YJiF=JmuDawTj=R5ej4W#TxPa`{5?lW!B3a0)Xsvuo??rM0^S
zeQey{GHOmI-cJvIQ+%v^CAbiZFm!1U{hWPk{bMnvtky82bA6HQJL`gzkt!Uko_CM)
z$ecDhE1tbF(<upJ^Y??Tjn4<NY`hdZj_Om=z4Zn888nt|uPG<yd7e{_!(P2W=mF|O
zy?ytuC5#uCH;*!5K{d4ILcDMib0z+3yshWyRNfQjB@~QeO)sGI8)uvWO;Su>rdMKG
z$ig0?-(DO5^4%k%ceXh0Gr$tl{Bcc_ATRG*({KG%U7h{b*Xwn`lavo|%=m8wnJy|t
zOT2eAXALyZ0W<atPFVAZ)r*j=XLM(GkD1oQ^>~QSqFZb}Of8|N4myMB{}<b{NG$e`
zV9M92G$qQz^cJ;NO(QXd4HMhqwxUVwiu5(Jsux_i50s1b_$Ukleoyv;m7XGd9(by3
zRou@N$lY!m!CD{b^X}z+E7_KeJrNyidOy;V1lvJi;_aUK6Io^-h5f`&Y#n@2U#c!P
zCdT3o5yE<%KaBgP@`gK71a20vqC}*nw^vhqB_}6mH%#AV#ALA?wHlY-$jV)}B>VYr
z`_xM0#>{u=;fx<#yrafPzAs}yYFwA-Xt{}e{l0}K%22NDt-0@3N9X4SwhgG=Y8o#9
zrQo=&&3i~R&1$&t8TsvZ4-+YBHZyf~j+y}HP*;^N7)ibct?M>(k4S^nNY9OT(yEo$
z8S;p|scU!i{okFuh|wEM^ZM=T@Y{i<kCD)ao9Yi<J1{bnbFww)@IK~YOu!y&V|eKJ
zh^Z?kIoaeJsYYqq8=lIpCy1fRg;erMZ%n6j_{%HTsx-fK=@i;6kH;*N?)JU;A%^2*
z5L>1c>l;v|agEQ@z(88rAiSobJ)Ox?dE_NLtR`b6w=`3<2|WJHp-q11PxwYyO{Cs@
zJ#0QUlVX+ZSg*ENS<h~sAeyPSvYg{;au6(<38@WNjwer}O+na2QRm=XQi_h1Ug&d`
z?dMWu9m|OxXD#(IsXJ3<O0hR$j*VYF9#b2m;Lm%a)pT?%W%cPO!70fn+EgZfhUt-f
zKVjbRptqu5>_mH>r@azMMJ*YeO>JYNz>@G|cFxcEJv|vc7T3?nb!O{znc?Rp!!!8C
z?hE0=i+i=}3w%{ZEqteL+wP|}$EZ3yuJ0=g)h8&1ip_86s8<c+uxP(>2WE;5C4L&n
zU9S<Q_`62V7c8%y0K*aFOy`+AwfvWqa_OUqgcq@IcnjBO#-rthY7TMM)XIC=!d_R=
zyo=@kGfx<%RE+Fm+uH8n{6iP}x8nq*8m}w(C78&q_lD1oqThVk2>Kf9COC?%%d7SE
z4ZXL7KTdv6S_&!hH5C}t^ah466F<m_T=yTINv0z+xIB(N#~;N(!jyUVhUYV&YglZI
zR~p}nnX<<dxOwF_7aze`SU@AAvoubjSK|~aZz#?!_O9P6tIjLwW2ysNIyMH%O;83)
zie~E0Sg>D7WA{74$j;9G$QLwDVd>bKbyR2vC*1B|B13PLF$5c<-r#*sHuQk^x1DcH
zL$b8W`$7;U{#No{tRN~9=XE6>W#xyMSGEWphHr&f$?J(KQMeXa7?m!Wjh=QjS@u`5
zD~ugU_(<$9;-kGI{_nX{z-(#@M8wNjX!-lG-$(yFJ`&0U#iv1hgrU6=<b@&E8l05%
z$Mpj9^(B>2z`bjW?1xcf_nbig-+p?cBUXlviGb7w_m6c5oIhH>!9lg|<jObck}?5*
zpL%>!zn-3l@)qh5>5{q?g6O~PICT00ka^xps%YO93yns%yL!F-cfa3w8LutxqRX{P
zCHeog@uD&?28K31yd(uBx|_|vheShP5E3q`t{yLhs|s%q{FguXB~?1a;eLy}PhCd`
zZOqm07fnVU^lD)Z-lTlCvvlXTx1dj!O2C+zKYz+PMK!?q^Nh%aHiDU!zFcqiQ$>0J
ztlfZBKE;#R072d3$V<H`R#4Q?K4{Q@!arec5AuWs0n!rYiJ7l~e|Z&1=jk{Ay7dp9
z!0VOIX+^0PWIGoDhky*5^CZYb0!l-w1(qpibl+fn5TCP1v#hyS<kGVMsO!ydTs?|1
zPZ3dQp@94F>o3d!PxI8{4CE@Zxk^sd+9kw2RH8FhMNl7b7&g&VsSIn<*(U+(iKqqs
z5$K()0qqrXeHL0TZRyE<^kWj(YOM*=c&wLgs&R91Sp)m(1MppAz>aVYP84R&4xG0t
z*tN$>pFjcDtQB&Ip&*EJ7*Lx{H1wQF5JRJ}uWT8i7OcTA0Es|YG(+S31>kcMCom~C
zg|4q#yPg_T#E$NbX%?utRxO@gglV;Suzml+t3LMvH-5ZUna*eAqYJWJgf9{X;FV;h
zc<y{Y0J7jw&>M=A<6qna6ek;C1hqp`q*0;|KnI7UJ5S(PasleZa}jtlD<au|5nIG-
z8GG7*0-jA}P`mOXe7w@CmIA~A&BJev52HOKMpsVH0>}iYE0eBV6G}BG#83MbpI5JB
zhCf8aFrfReJ@NW=W5A`3h^et0Yw}+3mr<pG>qBEL-ZrjvTBqvjb0sOPIX5iEFXY=;
zkZN^Ar*7X?FI=gyt+1IG26k{7*{Uk2QV|rqVHHI)ooF`)^%m@WPIXd!18Tx1pMQ@y
z067lh(X<k}uL)6T09(r(Aa=oDQtwY_n24P3y}Azy>5RTQv0t~!uYb}DF(pwcoo;{x
z-83wjqaJiN)h#i<uq{HHnXP@3A6^f+8Pp4Ptqwg6X1G>)OYdvcS<w`pj!j$pz<Jk)
z(peMji_v2}5F-xLw`qY1iw#IgazXTiNV@>1!>@5cK>?igd0{(Xqy*tjn5;~-nR#t!
zH;IvdjJ?kV1|lLO#ZY80p2%503d0+IJKNQrXJBI{Kxb@*MrH5IY?#@DO~b6NB)+e7
z<!)!{MjC))3h&Z7q{N@n6zxj=<lRiV)EVR8C@5*`jZF}A%y|4xvuRW0J^Vh8z!3YI
zOQF}t%Z4JcoQ?cZ2Ar%1-#}il+{vB6DA7bxP2ggObtg|Kh>H-k)vMmF0Ni-3JMz|+
z5Quf-Pu&3QVFN6aU3vwVKVEJvj+gr4t!`%6l0$w)-3}o=okzelr3l<h>{iCWu?A#g
ziw58YtphF(J5$W7SH`Qo8H=DGWS<Qw6u)xl_pk!YuARPr>?_7_Z!5jeTc<(4+jF2X
z!Q|7?CS@D7s?qohl&TKuM=kemYirB386scigIkKbK#O~-NY%2v)U{nR{5lSBlfD~J
zmBwur`st#b)MY=eLnrRGMaE*_r{h_FymioFJNYl?&t)<V04#`<;^;fTB0$!v$CrpB
z15G_Cy%NOB)!`!Gvi$hH&-t3c0if!Pf^Zg!aW4QV{}Oxvrj0egbFkP(SdrZ+3WKIX
z8B@){iPj%%y4Y*`D%h~qjFsW#<_{vRV*}G?NW7$5!jVwB-fT%VAw^s&C1*Zk-a7@y
z*!h=)0JxhwH)H|0)p5u&{Sk^ts?Wu-Zt%d*(6Dkk$o?GCI879TRX~V@`150CnyV-M
z8j|I=cc(!db3f0^caF3RABKXJV=VSFx6R4kF>O*|q4nu}H%66r%PmU2GZvj1>q?!&
zHd3NO=_r>f_aXNr9=Av<Dx0wyw&x-fUklWy^L<-^fq*SYwfuC$=WLt(%^sk^O!%Qu
zue@d28^{5iqQun3_VQ%sVJ$u=?au_T6Mup6aXA^rRzZk9xZ_HSZu?phY&jJLeoLpl
zlBr3k2Wt}_>=ulK>G6pWQ5Yb$rpH2zw7AF{<?n#|@g692Iu^+42~ik`qm>4J=C@}-
zEtdF<7Yg|sK(Xhaa#CH9Rt=;EkgILlZEz6-TN2&)z#3a7`DSUADbzFn|2=m^$%(go
zeg>tvdy^B?>jWFn)GJo3hyJ>8%eWY-Y`>JE;;f=x8y&*X+s#dj_)uj-f#%hmq}>1$
z-5v<}36I&g(%GkYT=Zz|)^N>Z<I~l(&?fT>E9<=k1MAsFuZ=u<mf!=9^$3+_;0d*g
z+6+0sPcDIDUIEc<P#cDilXBxQ5%LCdgxBOWG>jSRR!~`<XN;k~Q!k>>&S9+R3hTdc
zFIh(yA<0bL*#x`K4&!__FUc?D=W+(TavrKO15^8v40p)d{zF<79tWnv%4mv^Yt>!n
zs?#4Bm1%yW%LNvs^x<$?3k#_}rqIc>zEI|Lrh*zZrWKNl^B)6Q!QH*&0RDm!(HP)a
ze!L`SN-i<&F#<~o#&84^JP%-;KDAB*iaW=KT1-A_;H+hP3pXXC#=Z{fmt8gdaIO|t
zCVHY{_?9I>BAvq?DCB2H1i}){QQ+Vf70=jd46~gbld>=YBSe$OaMs|}p%45^ae@Oi
zkF(OdAJ8Z9Fn@c)BUdSQ?XZl7v8U8lPiQpi`v+vP7lsR$(>FHW_xY52qph3pzFWp6
zJR<7;`FIQi$ctPQ4d_3(0T}m@D)vbx;wf-?68P}Y4~=&PVoM$(Yor0EDW}5#O#_5|
zEsX;xvwO}3y5;m{#k|&lzH6Zh(m}1^W+MEuNq);XxEHpX_0ykHPD^712Zc+!!h9}u
z4>EBykvoF50A7IQs%l9SD!<+Iy2`}9nx>w@;Ekt%VQH(5d|&E7YT}3cV28nk3jQd$
zAK+f2P8A+>ezTFerh8j6mz|1%B(~q}w*7N(N!O%H0@PrNbKfIpM$1H*34Nr&=TbLO
z{3I2yFS~7LI{mnS>Dt(JP*y>`I{3%$>&;o3%wROiy~bWNO3ypuO&Dx=9NtM=CMNrz
z`U2R&DnCVV>rparXB@<#Aku>~mXd&B%#zrWm}#_S5i1H7#Waa^ntqDS+FQ2xDrY|i
zyL{`o+q{)ok)xGjYdl!Ka4e8u<hD*y*dN7#iNw^O9_xIcVHij4`&wxW?)$lx;9ACV
zOou%7Pq)$S!Pp>Z^<v?b;yM@}IDcb&r|<<c{bcZ?%7Cg_PJBV0PVh-n0aj2d5{s3%
z{~5D6!5D)CIoVyjW5`O(_5~mp`hRuzw2Y##c2}7MzHUf_3Q0aL>Y{p4J1nbwbK&)u
zfpLJ=x^Nt2d?b8w{#Eg*;Cu-ELy>wW7I8oP2(}Ds+L@`A62(W4oV)itq^~}e?_o${
zJ!F!}Nb4+PaGKJ7dys*r8Os=M6v3R)`5>u^4bF~U<d}p^f69nrd{?ubFNvSOWvTab
zRbiZC;g>>|qRl#=h4BMm$cl>SpRC)Bd6K>k?_?)Cwkh#m!<5N0_q{(Qild&Nd8}^$
zBn=}l6<^WwjUhG(Js!`2^jKiZx=piN_f9_OE!*I%-)i|B+K0gcIH7j&J|Ow|6nn*G
zWH1iOWodjM@KLDd8{Zb2k}m!@k4b7hFj+~A-1W-0=3)MX%2QEsE!nQk{`I>LQM6Mx
z1xEhY49ubsCn!-WmdrJw&Ui^oSX7S}pJ2?ik0?{?hsQCO-4~6%&cjsYIs?>GNso(E
znp8TxjN_=?#%@!4r7xZ>K3vX5b$`ixgrBXr&eW7?INtcMyQ>f%83#TXMn^n_ZgNMG
zg`z=hiY*8vhN+*HQJht|@4Q<_CW+vF2IhMcXUDrm06b?uZMIuBIDd$6;kZzMbp4I#
zGcd9!7HS7RrQi9KmBhLI^W-~$#A^qcuendYDRfIzW`T1MSX^4QM}m2bRPhow(xQs!
zR4i2Ka)s`B$X`8&b(lwm7(QN@a<L-_0Sym6-F}d+QrK{ys`7GUjZ;L^QtssqpGmQU
z#ja=S3^F_dFstx_dksFsq@6uI7&Wpt$95u`WUas0b=P&*f`l_L#c)<srbmk!T)Ch?
zS8XCBnUQ9&V>1PXQz@3D`4X;8t}PizFm<nZw5#{ldvi7S61WsquSWphXSL1#JA`KL
zzI#Lu!^eAZ63F#s#g<9xQ`#Gp_<~VSRlDw?_(>A<HzpAO-<^txOsEVaKq9Ousn^pj
z+@z$C$Q%*&7@HNF=m<WV=~CSA|3WkVHaUH*J+fRFU7)ZR-QD3V5k}yY*jX{wU^WpJ
zCwS2MA^+fc|0jA6kLcE)@jnYF&Y<`?W)?BMTU=aRlL*n6*e`&IF;D+f<*=_UaTv7d
zICS}C^lCdv#j0yO;l8QUL8K<~Q2Lr}T_`ZCBUXNm!xn{|9Pm@8-^2OzBUryTf+%h6
zRT*#7ONi9yUtPz4wO=M$jUPUR--yjq&3zEf5PeA;NApmzDnksx$Tpf_PX6o5%J_qC
z_vE#XmLHN!t<{x%3Ia4L&ICE9^dwUyRZB}<)QGPo4@0Lvh4c9?f!X-dTk(5<y*{al
zPr;K7RBSH5EA8l8&#pUA!Pe%>#39awqn4?Se})PO(rOK_;T=63xjGOWZQG^n%&DB_
ze)-B^Bu*D?`P%QDBLY&6W~0cUA|^$zRF86qH?MK~*;A3rlUhCJHd&V=G=3fJESrPA
z#8b_j4v~tJrUXK~O2KaLlIW)zJZVq#ysL*_Ch=4_vlN#PlHStZ3Dw&;3fw4q(nsvE
zm@sJA6Pm)31aIQuB{2ienUj0T7nxz&;q4Cnuvc#g)wu1Mu*4Ga-`t>YC<mEY{GvJS
z@N}3`v~Sw=s&pF{mlRZ=$sy5^Uh43TtDQb<8(A*%3n%cby%$ZfBl`Y;#Ofi&ko&CP
zegB94)SCz$RpT=+-`TxKeSCMcik@FH$KQR-+d_7jPUy&Dc=RP7cGW`Amm<q=58~Yx
zt`}4&N}S5SQk(dov!j4^(@FG8bH>9^JvItaMPu=!Oi>9jL<}1ZU|rcD_%~cpiiO1a
zqkb-GjhlG9$nq&^g#ZW{voymx`Drs;nR25_<K5#_&h~f6%Fz|qic9fsjZ}5rSk>BR
zIjjsNFW4xjS1HtZmGUKKOL~dqe-Envyy|-68%0knq)K<z{OxwmXfTbJ85j(frFkbm
z<u+rlkh6$eKc7oORW-IP1u0Zx9rO>zs*1?t^^3xI3k~Q!U8m{)0tt}Nk78~bQN*rH
z)rMzH)VUShxSRgk1l7^U)XZe!!mAe9nD1t7ngrTj1#sG|PD8d|BD{Lse?3QG;xNI4
zN)?8;Vi-Qya9n-3#+Cc_pJ#0dambGZLg1D{{?|_7cPfe!Ddt)Cz3#MQiT`U05dh`{
zmLMly!q^Z_)*;%z_Mi#L`ymFL5Jjl$%9H&+zhcCiKE@Bf9PpxVFIEfwU!nS+SApmN
z5z|y56bltk(2V%&?Xv5gU0n{3zk1ORmk$PuVqoUY#9c13HMJ=5UcF&%ru&Xlcozo0
ztoL-Dxg(!>`ao7fRRpPwI1l7aLr_BeV-?b?e*l|B9voImqNkRc;_q<)$k4SUV;DY*
zA80bh0NKC>D3hK(Y{iUo|8JcF_D04Y(L^RMBBLs3oNAj%mO_b+DSumltOFD=qv+YW
zxjLXMhj7PD5wfwdv9kOG?JIvQ3VVVwXd*#Q_z#%(GBNQ7u7naD^*GfvKQhb}5kg@3
z9P%VWE%3KP(5hkRafo9&6H;<lTH=3w;(uPL4!cI6odE1<2IcRwUE<pwD<fATszg`6
zPKEQ=DUW3?d$NKIC-fw_x{?1}OBYCqs_OW$AtFN3l7IXttPJHWHvMzxm&T#LE|bPh
zLKst7?SdftZ$}zjEg0-zGnyI@bcO$Xr&iuKy>;{D^2a~Hv733&_S+`d<}*AyFZpy4
z1jLk#2fKX@qw@^%Yyc2bQB^5a&I%gNl6Ix!F;7qN9%p8FX1@C81|#@!!IaJq>dSEC
zUL3nud^+Eps4`l_{8mSu;<0I=XQSAS(b8G^=%9)5=eX<lj?vJL6l*kUd!<qB>A&GT
zarCFA9qdfo>zDc;qT0Qm2*x4RwEvj6Mj&e{8zzHX;&a`rv+7uIV!er=WOQ#Re7!kK
z@zjy`=U<07T^DO%VPW)*m2}4~rtMiFj`4t!_R-gNo~Em$FSDWp@E)uT#cdE^2HtdV
zm~629v9c^u#^A&HVS>Hd;negj{I`n)LYEe`Ma!;DP+;#XO%`~bZ#+5Z9qlWWUUcf#
z{_y1WJCA2aNiHX|5`~Yt6@)4q=vcs%282<yrHtFT+SUPGj=a45L`rUB*`MpmXb}>)
zlsAvsQoX*XqS2IZgyLnyhUnFl8Zbt&?RaBdXDx+9uy<Y7%>h~G7xMr#?{3{)UAG->
zpx7Lh_?&m^yZ^|6^Nr;@V@gf}O(aB7aqR`*!F!gHy00Lwu0eG_cCQ@-*OmhXHD})w
zNKp&Yz|z6s*VS!UioHMmEl97$o(hMe!azdlT)!y<SV9D(10XmLir?r;0(oR(z?^?)
zY9CB#U6%`YBhTDGk+3@zMe@gm#lSJk#Q<+1W>KB59J#c@@(;4^NWLy+hvWQtbm-+%
zN`AYFCqL`07^z%!{o<Im?1AQA2Ut^WfM2QtgXYly45D>_2z*%Vemw!mH3qX6Qd-r3
zaaW*}A+F5F=0wT+b*O))!r~Ry!wRdB-dm5}JOw3K4TL59qL={!2v!jzH6=DVS1XDK
zUDQ65B?bgU8=wg*2i~HR#l8DlE|^GXK)I<7LMBNAwhj19DklL_1492kj3J^?MO!tb
zoNs{!rTSFFVWBgxmL2#?1EdW~w(opj4?rik__9CmTW_TL6wSi))(#pwpYft%m?grJ
z#!L9)M|Vdmq*RBsUDPXHgi*=k99%jKu88{+He6oRdJtX$!vO#&u}#t@@mS24<ATA;
z5}Xhd8Q3^?K=vYC@A`?HO&$*dM%@T=F+h-k+?Ri?Kf@omHFJ#AY~cYDXg-?)gpdY>
zlwgWkFf1tp41!?0)U{6(d*Fx!djV8U{k`d<55>TpgWYN#fWgi<=Pbn^=_;b&q#^)x
zzT;&{4;YNj=Ep#t_h>o8D;F4EK&rrzTv&wg+8bx~xh7&1#J375mVmhDNX~%b?5Ldn
zbiOqdXv?DlBlGz&kC^=D<8^Gy0Qfe6qVY~Gf4*v<4Ct6PbSol+PuKB|)rz!-AdT;b
zA{9r|o`kuYi3*VW&9-|<>_p>)v(sO&`gQ-axEP_{>vAset#}5Hi$_2gH~K6Px!Pf)
z5$*TI*Y6`b1lC~!QtFoc%2P*&szWpkwk<ojuheM+&j$}X!9M+uu7$vWpq;O1+BE+M
z^YC)J=`dYRjMx6+^=@p6iUx(`g~P7Hp{R~6;3zQ$+<~bv38C=IUvT4jEN4dUKETDR
zAZLRr5Z^VD;0@AdAj(qlcHstK=jj}}o$USi<!C`4bq}nrmV2qs+R0r2s#McnvRZSp
zT3`dZd&qfQ^}Eg(gj$-WdR2=0y;N1a&r2M=MG5&;2p=!JQsPHr(|GL<;?J~!k%%6?
zWOqeG@iAl}u&mMG?L~^Moc<l6@k}ryWNl(&$}wG&AYeo>Vz1j0|Db=`DVfLs;w;oE
z-NGX2{bOTeb=RCOAZBU9*&+wPL^nJod;kp7s}&Eqa7=-b_U6$$fVQmGWNcDkE->Xi
z1N&7|b9vn7Q?uVy!?YsIv;{i^3^h%6_ZqCoJgW%!jhbG7nAF@A0WtQv%RRw$NGIM<
z1hm(OW`FY&Zx;M20BkN!F?SK7L=zKtaZEe~ySC{ah&Gt1)<Spn%*ojMB|Md51tSR7
zPhlozXk&Oy>95@6`UQ%==GQpi9b3;Q;6VF9nD4U0@P*B4!PLWKm{8s($%K5YfQ?(L
zEQU&_+(|a|HXSLGs_1vwmC*Y3yQ2WIhDHc3AayZ;VrEXtSdi&?x&{jC;Pb~y^8jOX
zp28xI1wz&!tB+vXa{(3@9#Zoy=atVFV7;-0e0Z#=tg0yvFeM=_jI*MW-fB?BIX$Ii
z*cp>R`U@O`SiOvOB!k#b>5L~`TuMswfu#EA&N2PGkY_&o$IOkm!1SPVW$7Cx;Opzb
z5o75F-YKiSKLGUM*r9q0j>OP~piHl?MS@Ae6aqvlGXY3~7gT%i8Xp4PNDHap2gsDx
z_9427G!;P8_&krcl$4t7Sg)b5#L8xF)A5)FA&IWm&xIpltX|OiL|j67=C1=YY^jf@
z&{AqC`fKbk<CzS1fBIZbpu8a_`}&EA36^o1zd_gih<{4W(DdQL!Q$L|q<fh7H-H(v
z3)D5qe-$k|ssC}RJeVH96}5LBaaQa>U!<|+pB_Lu_gg`piII0dQ>E}BhK58mM#kLD
z%n0Tf?cDNxkq@Egdq*l0Lhs)dVNgteUt+~`=`1V!B6zU7J5ea!zX21Jp1SR#ws4#6
zh~|FG2$2hK066*{Bj)NONW3*Iwc>eA#qEU@t(f|GN&aCJGpq6GjP<J&>5G_{d2?^q
z(MZ4|U#d>8qqyd!926AKEH5hJ4lfb?3_|aAcm^SY_lfdUeI7w^du3M;&V(7u0K&_=
ziq2_D{MgRSi9)W$1qRCt;pHp<?p1arj)OcXO&&09WgrAo1a=knKZ`vE<TLRPDO@+f
z9ZNkD*lducQ}&%k?`K&DHD!G#kF9@={2p)ya*k8#mx%C8d4<GWe>QV@4$W)&q`cVH
zg;$O!SX#~On8<P*nJx2y-$<%QrdLbtN8-xjozfH}jFah8aCEKrQdHgsaA3AtRF~WG
z*oKF}t;Q8+9;F%OES{VJ7`*0Z5S#*Y>vxKcUncrd20<7}tU1*Sk5coNaaeNnQ;Yn8
zcU@(1Nh4a?ImDC)8#L^Rbd0-ws3)t6AIu)`2&B8<=XO>F;W(Jxm8`|bG0ba^rg+$8
z)E`B0fp>4q7fT`8p^G_Vs+m$Yzv<XQgan0XFhx}B8ptfnwetO8@$9)Wm<P$XLUA#c
z0aokC&N)h1Go&cD=nhBj@`mw-<ZvMp-%}cRWqF>*WGqUKU7uI$&qdGkAPBW}&sgbb
zztRd#K`2bod0>=iPHNy*N>&&b##zL$nKRZl>dAU|yOok_bSEeOwD+kEe`MeR7Dv}t
zr4f7s;@Gh`m42`OyS(u&X`L)O#$d+5zLUYTB=bD_U8hj|H=M;>gha07y-&yBh6O_f
z>diyZ*M%=gaq8SbglKgkX2e{^dIJCS^A_jNO0)7!{2N)BKVQRDPd3*Me*)Ki$L?da
z-)i&!N7r}9Q`!Ij=WxtqCtFG#Te8YJ$I2>XkAsqu8ChlT9n~=+ImnhhkIV{@RW>Ip
zk*zW^fA6btf82N9-#^vkq2pZReO>R@>-l;Pghr#>YSeL6gxz@0_Oc9aIK8Nah;saN
zKD~6N0oi>!L*p5>__)VbxhBqbU+=OMOlwmL{ODjn1xj8Y3omBp7)DuS*si)%7JqdR
zRtRNQ&A1eE%sx-~VT(63Qy7yZtUtHHvYbZg{<2q+Ozj*8h-~lR)l#@@Ngu>``TTt-
z)83+4Zhwsma!4Ap5o^A3@yqF209Ys_+s3x--t5sLyn>cVXMiht_5MI0&s~2V*3%gM
za9UTfmOb_B)Ix9mN=y1}6>q|;gE`qFy~M$~pZ$({>j%$kz0zZ1b?()<YYxR1=v1nB
zXf+p&4i5$_2jcAKo__!IF(xprP}oM4?|fjXEsT7A&J(+)f;suTP<7uk2bo-dm;5t$
zcOU~{^z9Qhpz6E~OgwYb8{=DYv?f%hGjk9Nmy9m8zr-FIwt~Vqm@LOT?UCtF2>b<y
zw8z8-LXlc)6)*9AWUy3+eeM?eV7O1v*WJ(cLVdF9((r5NN6lQ+595e6H(j|1k1cc5
zoavt3-`lArE(;*4HwkKq(h4-AOt+3+Zc`IQraz<4@6A`P+t6d1r1Y|qLy%&5_~XRV
zEd1L+MgZR9m<=aiX@=nG_5dw|SnC<^60Egtyd6c-`7AB{?ECgU((cNhBLVFNt9UMY
zYOU$sOEKyFDdQqm#)#O}_v%75AsHgaM2`nPyRpN<QB%}%pOj-kz9|*7s5Q&9^ZQf2
zn3=Q^=I?YbwwPr5ECdQbwQ@tq7A`0nA5w@Spc(H+ZeF3B4Df<1I&RMPSUi}NlYOi>
zyLnw$Dgt+AD}Cvi*H=}E(NOa&C(-6W3!i&NUU~^ka4MIgxJlZ5??e_Crmsz6@H`i)
z^|}Hed$5*jFdOAXrj1kV&AFeGew@uea;NKXc}*=xkov|PjNm?KO7$<ZZC5YErxh#C
zv@{{(898pq@gMZw7hANE>q@eZP97{TX%HxDz<Za<IPcsUed%QTEMIqD@ddN%QX8su
z#)z>7i5GyPC~AQ^1)rbwwNJ-HEU%xG%JGKM@`7A`M=MCy#g{(~=rJT`*1hUa7;Q;y
zCb}O${I+imxcb`yzCc_qDvODy508pIN7<G*-soeqm75$AKz)Cz$RZS{Zf&7q#fmtk
zpcJUUn~&;<<HqX#=n$-Z2iFkgYw4mFo9ky#)NI;|VkU2v1`fq(YfM}VA2d$*yrX=f
zBh2X>MJ6zaO}9zROY`YfV!W+gn9ffbJ$|ygZSk=w3o!?IEtSXzu{Pr~kR?>$(>(T+
z&_W$cCWH>RvGyiWXEUu)pTH%Z_B`u5+IaI+?R1L{AQM<wj^yx^w~Vx=*0iF;grr+U
zwH)g$INci{0{1rW3sz_%^xhQZw)g0D_XYwFNXQ~l7*ziOmzs26kANMXCAtx2)?cSW
zfWRx@N#M)h@m)favoVj&2V%{;`3|?<ug#J8{r+hrRo1$@w{!%D4JS|AF$8CD+N#by
zsC(QRnyfV6A>NoNSh4?-exu{<(Y%7#MP|PEIQ!uXJn>H-StXz4FL`>@wXa7j!8e{c
zC22H4A+<cdvx-XO$86H>cy8MB2|s3a=5LJ>oZrSztuS|{r<L$v(y-}I&h0*)cxf_g
zmY%(obW`UElg%7Mru7)Hl{%vM(fE%%GfLersTUVcY&(Cd@<z4lH7aVpW+2iI{4oCA
zdMBqg<mxt1AS`g1YnI>N6+vfrnNSWit6kefZ7NY-lPRGRvWZ=|?Q?rc1Z&6a8XRV&
zjg&_v0<IR$&!2;+yx0;!sAwd^d{iGF-v?L2pZ}Eo#I8?C74KedYJ_ONqTQp~RI)bR
zntbz`wuOp6>0Xz03ln@5<C^AKaBwGAJqBhnAMxA*4nO?PZV&MrdBEJDZEt6VZ@nl?
zBk;}CKJwKu7Hh!Y3)>2g87~fw%&LhZ6Z0xVyGK2@Fb&7*T)GmgFgeBEwDWwaPU&iZ
zeQ5x(RWa{e<wMK5i_4aQJI4fB-1AveGj9rO55@qkS1qf#)vn-+(*d+P*;ibfp0yEN
zvAm}@ub+Xs{;KQ&{m^^A(uW65SMO*I(>x4(-tyHehvM)dPMyL6nNZtuPnv=T)d>Ma
z+NUE{C5!-{^^KoBD*GnyR)5J`x?3YJgPV?oXZQm5=$%|E`;Mb9+9o@ergzK{hM#WS
z8fmdlwx5ZQj>ja~*#<blM#|?kfGTnMvw`d7UJu4M8qbD14Ycd2iVl!l{u=7@Y77>n
zfGi`~-WPsU#kwXvndtOs)ZuB!B1O)NH1SK)5vAuJ*<=}&v|vc(dijK2j?MdywJ+~=
zf2h2(wvj8#;k)#h4KLbfq(B$CZ<Hi%Z7uQC_hHJ#i8eXLuMSn@IV=$^=~#>zfvXXZ
zO+xg0Pll&Vhu1nr8BpWWqfHEGXY)cQ#g?Un-B4sHpK=3ZT;zTMOK-EqPtG|Oey37G
zUVWrfaBW(7Aj4CFMcO*{7pjEr3;zpn$uw=0v7>CkMj2%(Zmsi9AbU=l25laG8~#K|
zC*YNu5wY~i=eWHx|K^85+tZDkH%CG)`EVh$PtY&?7k@!=R>J1%A6~HMMuiWRUS&Ca
zUO)Fa`ZE(GeNk^Q*kHD(^}oIy5c7s)vw|M-OrkuL{(}e{@!uk?)(CIUCE}iX)%oud
z4_Z2$rr6J~2uam~0$14&FQuPYmYP|kD+p>niO~Mq$4c<mkJHJ7d#pqm;{Qg9!^!Qu
zZgM@L<>u9x`Rj10^*Ak?X#;4rtqjBdy5QVr8ZlUIW%W0IeN2m<pap}7pdJ19&JX?{
z@*NyNyH7FXe_dBBr~gxni&_i-wB{)R49zLQV!+j^<~ZL=m6(!Z4<LOt7ve&Wf6k2a
z0f4x}`y|;PD?lf8(%-hIZlLSp0{<xZhaKo)-GJNI5C}(vJgxNe^#v9{v^dnzRsyv~
z$VT{PG9cd>0m{T!%_sLoZuR&f(7?yrx&{(c0$PQCO?<F#TU%Q(7_N_i+5U~C(W)xQ
zDFl!`=<8MI>bTlK^t9SsneQp7I1pC#5t3Rp3_-d_i0ucty#fgCgfaV4CkW<xx&vi|
z0nsMllX~wgm><|Mn%?ox1jJJ`q$aNgM1dE+2m8Hwh&x8WrMVM;IVmwkMU8BR|6As<
z!m#_oS%7ldJmxG&@BjW(G04$mk-1-PD=LJ>^<9yiBuWM@gm?f;K{Oao5Yx#oAkg_h
zZr@`EBu%+@gfDo}BYuEAjY7H}#uFp6kqG70r=@cE?v^xq)5mJ#+sT<Oy5yh%I+#W5
zRnEmx6Es+~S<ermB7rc|s%p$Raz`6^tv6lC4gB&E06p#Ayk`c18?zs?F0*)oO7*9e
zVN+Q4v-|C!wtd#KK~B45b37O(PTo~uR(DaC;}BVpI`+sDS}!VU6)gfW`t|R|Oym$;
zL^%z9@5thC8I*@5cmkV~$vh3Hbfq9C?5vpMN9lwnEkIJ*G>V>KI)5{fxdKQkkKMMp
zXJeD6mwWZinJZ7N0ovv|OgyRC-T?GoQWJiJV>;eq?fsm-z?F3DmfrJk5C*XH@>|#4
zXm_#Z+3r+F$h~bAYyaKIpF#$2U{q=MgeM<qM9ymy%SVVbVgzf6V(*e807$d2VO{qi
z#oTtS%a^GxgPq)uAddM}-;j{n!ww)pU4p@shRvE10UG)qNKdUG0+kUL_~2bs=&1*i
zT$&6Z@X~em0OV247|k+@0=mb&?QR^ql{rGv8FVK<-lQ4e&EZNQw$%<Cq`P&E2*1n9
z^2={mY5`dzrOKSA%-nacA0k2nsq1PaK0n|%faJ<{>T{086%_Dq%6#zjPWUd9V_H)x
zd-V{;O}giOC5y<Mn21(o0)SVQU=@t-uf_OQD;GQ)8V8)jWjRt1a-){R(hRt$pP$_U
z*DmtPB|IhMdOK(_2(u#2c?LXAyZd7Ip}?mR<ryg3!Ik~qr-vKezWX1<hWZ;Rh31#B
zXXk9Hc~3ybtf4U4$x*c1uvH;S%6r?T7U))&00qxIzduKIJ||-lWb~2Q7ux;+uqytR
z*siM&P8=={N$hlr6_uC>E`9`fsy!6$fzR*Ki*{gulhY%ZWWB0wRceFbyBS!2<|$yS
zSqiM7svA`Zl1G8`X{GCOtF|^)2}K9z0S%FiZUgf^IqSVy>(Om1a%u$W^G2QWbc;tm
zT{4?v()kRr+LaLjYV~cdU=80LXK|e-rHYl_-<k#!3@XpLv`|xT@&LQx(l=1-A<$<!
z>5T!vcX`a)`|!Sj+@!20Bt4zzCvv1u#S6eC=vCA(NjtrkDzFnnML;fQ-ukbMn26_-
zu<6Q$B4<RqUO~Lc80oKJw&nRHdD;6TSDN7F<<U3-XwnX~06T#1Vyf&nV7nLqN}r!x
zHyjg`b18<~tDh{gDag+$DQYQ{lY?LWuILN2(uEHTqo|_0vG#p>6M(YiCU>z4=;_)q
zWV9c-QRwp!UCG@CGVdaQqst<mea=5u#KD$PoR0M`)J9Q@4XxA3wkUksZ@;R2M#V#W
zlY&E(%)D?j&)f{sjS_IekAOCO$uybg+ownBf=+Vtl}=DwihQ_ytvnqW5z%dPhr?|*
z!y=?qMN~Xk=%R${rq+aF>pegl!}G%9=rJCX!HgQy0Q`6!6(%w6^}*X08cI~91f1Aj
zKFk<hh1KsUmzp<%(ir1NV0AWUA$WyL3xMt{!WPK6^!~&R%DZ(oSjF)<gFsyr(O&2@
zSjoWV3Rlxo`~GX($sT}mZ@S<OvTzV8yxGg~N+O8ibkD|p+9Hd92<Fn>2<AFo&;w3j
ziT5HH_)PD}KVfMX*GhoFPk*n64CtgWm$Azn?fgBmKwjSI>NBE`B4dD)x)kp3jy0!j
zU3$<i35Dvh9LW3A5A$rLPlPjn-d-Dq&&$$13&twsKG=;QZj=VdC%#V0{iu}>C~jN7
zfr(}xTu~0}EY6#H!~8xhY@?~6U8<Yf{yDqEgWuP;2Z8*5z{<s1uBKgAiQuSfuXdy2
zIxlG^O8px}@z(a?N}*Ac%y`QZSwM}%nvz;KHW#96L$)2hq<>d5)tu7n!`1=MZ98Be
z=D-iLIzAU(&AgYy)119+ORXd}5f=>_vIqV`^N%JXyTw-th^?$yK~$VW1q^1xy1?q<
z@X!i0F%Az~gtaOInRnacwR#jOt)i9E_$jSS5Y}nw-#++G^ogB%DGFZ1eHG0yk&}ab
zbCccOLVWWJ5OZZj*Yb|3(;J4uj)+n%@E}nE_kqo^ZJ<IQhR{<06T6&`3UVX=m~%39
zoc|P1{8?>fbzDuk^~Vb!OHd#wdOF#${+weWleDP1vPZ8ExpK~EWB{C5T|vq6j<siI
z$Cuqtv}PcTM#P5RP@6bZ4R|cbC%5r>X<cz0)V>)6JB5?O$sXpJ0K|a}E3cI<%rkIG
z>k1Ku4Lc$4u|_~9pp)0YT*K@xPiY{gDE7b)M?A+<jXRsO<$t;&MJVs=%e47~OZ7G^
z(FWLMI4?-_bJ6?=^q6`Q%0c61mU@U+@@OPI{~G=%#y_p_<a`$v8$PcSXlO*{Ge(|L
z`)n>>%75NKJK-4oYPso~1{~F!ty_TnFL+mR+G%T%gd<3MBebOsFweDta7qS1(KmA*
zSSyL+sAQ4Y1CNE>y|whE46F8lo{3amS@l=mr2E=uRKaG1mY|M)Lt};^%Rol7_^)!y
z2~nQj28>r6HncnH!nb$l_Z$wtpkj-TSgL(ee??Bzp6z$DR?D4O=9+;vC(2SLh|!7#
zV!jMyYjRW>Mqd+)h<k%QyT_YUf_g$;pC1Z44sn4N<R`@u6C7~*?-*IH0z#`>Imuzf
zFLcF2BScPp|730{KX&I8Wg4@q4*-gU)0Hc5R@N^mC`X2B-5sF^oR>TaES*B4_IWKg
z6n_Lvirgb-j+LHXn_5W;b%gR!E-@~Esy9MJ+NF!UD`(CXglASlX>r~2%xQ}hR=zn1
z3-C8OGC&9l^Gr5+?H<`H4)6ubkhx3#u+D-tu<zCo$X3XfB1TbxvGbD7y?xK~%n1<a
z$Sg!>k@{s1^t@WeIY}?9+NJ?oWA~tG3mYqfLL4eugDB>%nK|QmZ>R-jtg`!m<;VIH
zJL0~akvQXDdZw=t4_2{4v^ly~ghrG)%W+~suT0juMu>SF8OWB$7ck$ONSpLlo{;~z
zzGz|a3U0Eh--8I^q<;yo3*fXlx}aK*i_dY&SFX-_p*vj##$1BxjU<;bos+e0*7vm-
ztkkT}kam)$Yfy-VG32ZcGwoN`Zs*x*F+PG&=#<ELJ$DkLxAL<YYpl)LNJ=?<F!sUo
zABQT)g?a1_R`7T|OE8Rn+v~mR*%~_%I4QkuZ{5`@`n|brz*T0>(+`Z=_E%;g?Gb%}
z8%%ON-H=|QM6U~S-bkRase2&sM{?zlHqpj#8Bo5=<!5#c*XC5lt7Bx+JadtWE!dut
zJ_Z%QH2qBv1qFDlAA5ve!(Cr>^8Ln6e<A{+>q1x!A~7vXqwg5A=(;KTXeMkFk!!eC
z2AYX#5`8YhxGJkhH-S{_0R?kTNzVFhDJy0$l3D+<D|#$|c?$qTdTDqDu9%G5JYr{p
zMWnBLb8y9EcH_n)Hh2>snY)Ls?$IyyR@m^9jnAC&^8V!M%AhTQ0T9CR+dFN0-*yTP
z&aV<0v`aTwsQK*J*0ii?X{kIp#mk(aXsHgtNwY7ym7JWUR;m7J)*2n?!jzIvef=b+
zZgNB0eVXnpULi~I^wCrr#0o5F<iqBHP*+9X!(1cD>qeLvEQk5`?`X|k_spD!1qDGK
zaVeBu)*4|cPtNEVotz}R(lU>ur{-DSMENJKrXNjOrTvIL>vdt}e=QEJ0rCfpZ6TA@
zXlSj5DM=x#f6(zBex{`Ufd8>Aq2~0p4w4DS9QtfnVk)<*gc@N51CB1rJW{8w{0ow%
zML}{m^qD8L;diQPln;;0pqr%juyJEj;PG6&cEmDS_P@UYbYSwNb{rNmp;$%vF?&JU
zfBLCk&8Yv?(-XIDX6z{Q;CP-Meuw^iT*5iAxnJ~1)lN6#KQsUD^nNW3gc4|swSP*|
zFzKGnx&Q6`VyPkKLj3!5VpMog^{DA#0pHKxo~eSgR4Zt3XGMiyb<vb$`0shq$|Il9
z8hsm}!Kj4Qb}Ids45CF2KQUKI|B?O**?&*!D?jK|XMQX@+aG%Be;yx(fIx)1z47uC
z{a>dO10&*YpGMCl9a{N6p8*6R^pl^TS%tlQ`!*h=;>dlC_*Z}YS_5fMS#e=X`-Bb`
zdppD^qUb9y`T(ujY2(~O0z`1A!h;a+=^3}|$yg6FnpSx%D}|`-z&l7&7Re}d#xk9C
z{FdM$zL38MIYL3+{%D0*-{-Jfs?oDelE-1B^qQP9GI*TJm+OE7a_69_t*cAWEO_x>
z1THcmtRPE!td@y_{R0oo)2FQNC;rGCwU7r7K{SKHQQPOd|GMy;^{^-&8gs`7A^$o-
z=;}!kc@0Qds;$QT@73`8U;fqPu{<;e4#)ofkeMGgC}HAXQ^TJZc#3xd=Xjc%2`@3#
z-qrNqYmNlBUW}a$sTEKJ`{ybCb3m^RkU9Zp^i<9uXw2RIkK+XQsB*F-l}v3_@9!hs
zBDdBEfA_Wn2q_a%GXBO#Kxe67fmN@k`0vu;q&9$5knYj}v`$vD7JvO1dyZR|RBaXg
z_g7YvTW>^9_yU+G@BcW{M&R>PAfJFE;@%Sc?=$3w^n#a`mh$hFvV%`|boKsyo$wO;
zQlVHP^Z%28hI1^a`Kk`?xz()oUk4nE!Q6;{qV)f{#E_R5TPzQ1dg1SHRq-Hj9oIUE
zc(`f~Kl0y03M)doxm8MWqQbXucSZlTw!k}w)~qp_hXz57QQ0bj9r^Duy*BXE2;aK@
z_s6Kis5y1GU_mk96G%~ifVlwn%V_!wUdE30o%OiL<kw37T)P<+zh#!0xtq>B;oQR3
zJ)9r90deJ<=@t-B*#IY=av(UEH8L23Lkgq(9l%NH(CG&brFa|^0Df;EZXM3ywdzmF
zE<JS7ec6sp%FSi)0$}-6qX(W|xSRgbHl-2xG&leo{3|70na_(Hfx4^`w2jwOGRA8-
zDH<pb(P6FB!TFTBHb|Nf*@04f1M(_{U?=rcXV13&bh-h^hdmG;*9^Rwdet0EfyVd3
z*p0KMfeushcqp%!E7YH6S-b<JDo1if$S2GVY~&-5Ikjx-v|=~FzgW)S)aX+Hm_{3z
zy0EySwU4(<Z|?)rz$kdUBb_e>JLtqJrAd_${PP?kbLlw|+PsbwXM>SVFeu6dilMI&
z-v-|z08FUBrA@Z2kwsXnE>(?>0EMH%0_4U8IAEf3jZykgZqN4{QVr?TyeHD9w@M*b
zX~3bf0|sVmk@7`=6kh=dS0nu_#?{l8fp9mPL+&FWjggE3W<p^<{Kbcm-ojP`EDj23
zXH3+V0nzcB`C|)^W_+yLNgQAYI-F-4xG2Q3;`Sh5!346;^4wg8ESr9&31z3r08j57
z;CEpUoSbU%qTbQ>TzD%37OcGlaB^_p!*P@X)uNfTZ{469`G&RkjobZsacls)a44zN
zsl#P~@Ss|pexWH-jr!c(f<nzr!&X3EEAs}LLh*ZFZ+sBTLnvGal&57gM9xfPy&T=y
zE27@FUe&&~W=Zk%SVL7d^EYo!%KYzw4%4UzNM*M_;R1NCmOD%=K8{8kB2^ip$OQ}n
z#~8)JAiYq+{y5IncF<zr@xf0RN%Ek>eE&M|ovwhyD}`ykfTS`6NO!j`vAJT3xCR%@
zJeRE0(hfj}Z`bHY;E;lIm<!)~=DGZYZ)+8BtA+u!=sEx@CB($3E_|Y{1$XiV<QI>+
z4><6KKo&RVln=O8rP8`F%=tfF@Xg(K5wZDX=F+PKnS|ZC3(d#x>ZR~r9Lz7owS%s0
z2F6!mJ6H)RewjtBCk8?fGA1JDwc{0UKw2pDo^c_zYy4o}-M}5-sE}!L8So7q#RSJb
zdUX9@d$55Y>`0KhBTxGj8f|xD2;A_W=qJ#wI1N)n4OR44-`!~rH^B9h5)#`2QTA2<
z(@9DJ)PtHUGe86><~qy-WW5yiIc7`QoDTzt$a`LHjMxH1rpk2ZivqY;#{r|wZCDBr
z&`JT@zh+rUQ+h3^ZhgQ+a1QKncABz3o<o?Z;G8qSAVxsbU*NO1z5Eg+Ox<1p>Q*Q%
zX?bU>OKQasWLGTV-N!3N9cnw_6W{SXZCu^((qDBER8e4cDTK2WbL(ZEvcljLIp^|Q
z>X|cnZB8uk)CG|5^Hjv=n<xP?;pJ)MOAwWwrMnHRjfU($0C)M#KJ#cbnHL7HjH5?(
zVYGRgnv<?k5RYejE+XLMePa$EQ#MTkGPVN{mR=5lhXDB~$^8n23z40DI?<(SL}3$a
z;}z6Az~Ca&PG1dreAA3w&?Y-Y@2{2|?YpCYL|N`42ONF_#8qroPb=@AqJv+iHw@z^
z*GKrJr-ziyUp;jIf=rzT(;8ocOfdQylls&+G~f!5x|;z!ybxk1IhcqIFbHdN@`!Lg
zG`DIu)sB@XNCe81CoNH7`q%Gy<Hj{*)-koja1Ovjqcf>>djZ0i0mDU^4Lr?)oN3>B
zDi9tS@7TO=F(~2yUWs=%96x2BzcK|7=1JHE2tTf{?rnB^!!_bscJ!Yb4eLS%oElv4
zR9(dWTogG3vw?*3ur%7?V0lVeF-*Ut!L)hwC0D{#G~kOYiB^HKY@X{5!1n3yd$Ac1
z5Ooe<v)61U@=r3Eee^x>-gGgGc8~T=v)q{P=MxnVV1B}!ijuo10ax#m{-$A|gjyiS
zvCE_x%r}To>0;nc@6NSWZ*E_j7Red)!(nsO{X}F%*%f@I#pb@$i%0^`6vGv;u9rPV
z^o>pcq`?1SdOYMxX7zF|5%_<(qtertS!z;nNr>31AS%%P1-YyuU&%|^lyB^wi<8Hu
z&s(Rn89Wi(F0^5>>Yl4j^TWjF??gt3_|f<D)O~Qz%4s@Lb^hR=t%?+LfdJ=-sWE9G
zJ5`KEGEo3fv%z+Cr;x?QI)qWC1OSzzXiKza_WCEeQYc)Z@LFMu7l4^h8O;7DDBr&5
zI$wQujocvz7)-CT*uI2`sl~-nn}MouO4bZOvGMWoHzDrcA|%NvGe(rjqczBl4SLpd
zuH`$>P7Y#iH<V_dYf#AqQwg=7=ygt&{XAH4`$LP&+Ggr206ni842q%9BJ}UVS?x-J
z9n8I!_|+Z0L^>mzz8o53Oi~gvIdkyw<=4sS0}LGtk<wXLB&6@Qq}DI{N0hQRH{>S`
zzb0w#V^c*%g3T6h^<m5V-v6dx2y@sri*${?)hUE_{W71yV<hZylBm<(a-2Y#%f0o<
z82<UZG_1b}ZQtC02c6C04?x+NufGF;+7UpZvmw{Y@i#Pt0HBjLD!h`kM!P2{nJJnW
z<+RfFr_TdR#1GXlwNZl%GoEd7wK=bECbNUH?lR;=)=#4Vh8z?i)E>5~G|kv%0YV0{
zN?3IJG8LL0xA_GP+-4=FoRV}~G)y2%v#OWg9J}kVdsM7IZw0Vy_jos<R-J{xp6(-(
zilgnlJ@qc#(v}attNwUJp&@#_>uG9%F6Q9}04Z;pi8E8YCaFB5kvLIbM6NM*Z#JdN
ztm(}E+AQP`+Me+j{VPkiYB=)ai)?{c3t|&Cua?$=BaYF{^Ssg9=+{ovBlHqyY^`;P
zL2f#PSQn5?3n{Fv`NN_4mup8@!P&26mHieG%vH!)Y9rB!teb$-6(Pdfr>BUbNr`MJ
z(Q1^Zyc*q!C4Pxhqc6X*PVXYaYzg@yIJ}Giy64(+WTHdQg`lB@qpK-ghyIS%nNVC6
z(CWpYX1zMa2CJX&_pK|GC2W<@iTVUbz%DwkqOIv&dR%R(wHd5VTc_aSgT@J~N=XmE
zt7k&HK)s-_sQ4SXoG<)6Mj&HN+~qQJm=4<gM($CXA9HoY*Zbd{9g%pcuI+&iW=l9U
zG0ikV+CO^w!ib1lZPR{gks4tLo(G$;FM5>QZRv&7N#2tn&`m_FU5qdUb|eWePsqnR
zItkdhu9no+@r0e9*FaL4qW<IAGMo}35xaamDPE)$qD(HINcy30UOmUZFe(D@+k5T7
zyek1`5rLDL8x!rBhBKOK&EWzHFP#VMp|m4@Hye5+nVfr_8Duhj!BW#G3xIfj8{@vd
z?)a*Y_w!9SmQsNtt(S5?x9MygDt-78eV<lV(7aY}BFX){A_H^>78SS%GLoDu6|CzD
z(J1QS4sPRBmC+dk7fPE%+dDmm35KTT*JhvF4m2j?8f535zoU(Qm9`Sna#}k+rlm=1
z;6Z>K`GZ`~n41B;$aEj-zDMPV#fye9f7%~TY7>Gz`|6E$A$}f}%&u_z{yxxl(e}{Y
zr5vfQjbwh!+^0=IB(~c(r^5;4F5GDPPg<L#aCxqnY&&8~mz+i7)Pa@mY^>`KbPRE2
zANI+7OPZ~2hCbdHLzdPUC6ttM9fE};I@3RL$n+W*P*Yyd{T6-vh;hAF&BFV%cVTVI
z#M|8kHy>+po*l7c-yi$x85df3iRm1-c7&&QaLVI%3}l;xp}Y#p&v2UUcgQ%*(~EIx
zBk9G{W&fLFTg<{SMyy8PS67QO0z>nOxVdg`MIr5o)YP@O#0_-BZM5~90n^?h$zPs;
z=CW$;?JIHD4s#cd_~TDe0~!U1!&%L`m}QpQ+4wuUMAQf}g3ge0poSY1L+V83d4}O4
z4$m8qVDmxjNaotWZ;m6-Rl#MbBmPsQ)?=ZdqL-bgPkob{;C&bvfQJ85FYVvKM7Xba
zr~x!Vi<u}r`iB;CSLEHpeV+dkjM>2MgKYy1W`e^1pBwd)fB^njW9UK7@xEP?;s0Ah
z<gdu6a`|$_y!+-U#KSprqC+F^-w=%l1z;!`J4dU57Lc-g?Z5q&iVHzBPs#qW6A?G<
zUS#9?e^o)$js%_c4{Pqo0Q(%4XVd@bc<Ip=poXcmXo8uP-HiUxL=#yrVRBpvX+#0g
z`*Of^GrE8OzP20BhB(l0$75~~aYqQK!vE8^adTn)UO!iTTwv7^4`jDeItuZ$p8jA!
zX#!@eWy?TZVG5(Wn5Aa3C=~h!N5Z}&NA#B>xK(3he`B-s01cxhR}lq!OQKkbCkjTs
z;bHm29iSB0PRmk<opE~Adx5l&74lnx93p>3I%_bRPDhIj0x=HR>4`v^eZ2(seY4aI
zI9IyBhsxi&*$A$m7zp<DB`hcefz#VqHLIQHfclk>SR%^&>a9OkOzlB_RMJ5W^WIyx
z&|y@vbNvle4UN_v&4b^5En0tT7_&lvAWQEJwVO{0ro|jW4@N<s$$eKS_ZPU~FCs+E
z?y(9eOKBpDp>Z2Cjth%}a2ETwBlgP|Sq5^fJ;m~ENZbn?&MxY-idw`USSl2ajQa|H
z6E^*`VCYStuDc(ll|F>g{k3?IKj;952SGg<NJHg~Yuh(Wc{m$zU|1($Sl_9vVQN3}
zdEP%-p^1zG%PIUYH2U|QIbGn_?FahvVsipP)}NJ^{~W9rMqAY&HEy<hQ|UV!S3Iw^
z6Q1Rp-Ph)5w;iWWyfKW9M#bxwc#E?M?j=DJKufl-H1YM<^AL6h+ZfaxJM_d)(E}|T
zM#GdyIv(<eZ4;Xat2epjeBDge;1B-POGF>FDmPkdSAcL1Q7qr4Pdu^likxv`b$veW
z4@4O*Fmaw6po<%ue)*SvE_Tj5KNyLT5pYnWj?5?=e-fOh;7SuU#3WYvt8CyrM+E+V
zi}z>VUq^+|<&=Jm(iHm0)F3jCjStqRFY#|l)I#T--#tN-yhii8=%iI?bRW0S2q(gQ
zF}3+YUA^5uZod`7XK!-T?MF3dAq>J$kv%Wu(R`+i4>Z(E>B}%fySc)=iSplryyrhB
z@s`u0CI3NIYgIYLeQz&jJ)SKlJ)P7DKX`I2RntfT$<^y1Js61`gS!!(y?Q-C>w?1u
zG0VoDh`MU7h3Z??cnpSh_w<{+c1cdCaYT9%@#?8m)+HHK#IL`fx{G{p^(NrTV1`Xv
z!_THSPSn|qUTP@dElb#+GqT6mn6G{1FT5r}jtSl2tp9q4EpwUKElTc-nR9?$0p}g+
z{8G2Ol~yFvYR{|RMZRZ<@>rb?UKS~08WYt|VA;H19a8;x))Tp`R4?j;Zt@P}bMFhZ
z?`*65z@B<jEI(@`tikmG?y~gpeb60k01d(raL9!`dffmnFiRex`BbtO;x_=d;9}rh
z32bB5r<{ygEklvpdUgD6zV?lO(9oGnSfZP47TAuj-_|G8z^lr?lyenKY=(2QpV<I1
zL<Q(CfBKk%t<-j|&)joKObX-~+r5ckfTAfzLHlE&9?wtqV)pV|a)hNwg||JJIv|JE
zOiv#W3ZiQ}>ys-!ett1@{fSYq!!uu{0u=Tr#q+GwMv=JN1KIXswptn2(+otwyb@#*
zE2WJty(6yQ3E}F7UIv_>VauAZ%Vf;&Fb``wAL#^QMn3^6;0cUz+~dWSz<J|0YH@)?
zM_uvQ9p$5jxnNaLBPw7e^Y!OIEeJB5_T0W)1T-2$Aa;yJ11*q)FPy!wcKPDZJYW$1
z`V*M}m<vShaj1ix0Q2RFlL{e=@7LNpuDm(d-E9HPd+zCjkj%Fa?k%hFmG6YWXdR<W
z97rmQu7#51PBZAJ8?;+J<Fh1yai1<0IN$2CW0|qzEt%<F#|1xg-J7@j*?8B9Igx?9
zJ|N@$LH6keNg%offhcjz=iNxCTQD*<Htq>N6-*%XP2tvspNmX`XjivSb^@y=<uYdh
znUsPUR|wI$9DN;r#_LOeegf#=J@-!)IZ+Soe(q}yqy=y>GTkKdyW~^aP$c#{If8T6
zm+HHxlU?`4+L;?17c-*2ghCJSYvV@E!6!gO`;4=04^LY=6Bu{y!n=L@5Axm~OcNq!
zp6mX6%(eXdU=u+4;$uy5S$*#{oo4m9Q=n_P;aLA83(5tBzui*?3i#4Y^#t6P{2vFr
zMOU4R>OUx_S*qo9D7T)`Q(xA|Ve%I_gB>T?GlTYW|F68UtS&_$#4FVO#m&n$^bI>9
z^IB+Gh4hy=C-l#qDO1M+SVBA4g+pu#z}>V3*W9To6o|KHFHS-|6KAj^|E%%b&_s%@
zM$I%7S@cO%LUiJe&NZgvJu8Hk`It$Tw%k*G$TZmYDU^RWKoLfiNObvJcACYt*z(j}
zx8;!JqoKcxS9${^S`s2ke;A?#pwW3sui*+?0|N-wgH+5l$4VUV7e~R!-`Ps@(}*9{
zIR>qb2sLnmufON${sGK0^*N<2umvIH47@`Vg8cz&F5<&1a*m^!-()jAl?+1XucllK
zIT+3)AO1D%@aG~Q1GExx(9yF1k_>pP1P9IRN6MX0;b7g>G}h=}0kLf$t1i`6N*43f
z@1QoLM<e`^6x>GncUkeC7h6CKr^Srif8#ge_SH;kJX&GL+Ppsvr+fAnyVl=>6rnD!
z;{)kO9b#tyYL<L3Txu1`GEoZN1{)yPE$P{i5TJ_z=<X(HAR=48I7J~FNx0iE6AOQ8
zpOXX!Bmu_}WvDW%IjY(Yk{c%ZBYaCUYfP2a3QbMHEnkM+20k(@wk^9t?)7O*5?&#S
zTj%6SK2!dJ*Ur)R9AyD)z)}EzT+n<$t`C`_1EBU`2r|NlKoxvtcB&7K4VVbstGtDJ
zOA6418>W9YW#^OFM*jd>US?{InYm|g-H;3Y8$U3v8{g7TCztT{$2*M3>Ujk6UKl8J
z%W`#mY8mR1=K$jOoC(O5SU$SG(t9oUtJc93Bf%Wjeq(VM&aO1Au?xUQaR5RB^SLLP
z+2^Nk_*<Ma`@(S*OhGIS^L`1%u>}-!F+|bQ%Y<~y&#$h4ObYzd<yO5S2g1M~c(K+U
z0BYf9Yyj;>&o%@`(_Y+D3cAk&!si7nPWwN<bVdP5uyu^>A|@u1$I@W()&;=!Y;j=C
z{v|#}N)vGr(#awxTc6~x6G84BrmJ9Tyl$M$0T=QT=JINxgwd{5-(@BIRRENpoM=r_
z+rqxCIzKq<-V~#jDw9_`STALUC)xi+3g$$?n+fT*U!mmgr$3j)PRdQKExa<X7$f1@
z&5!?wpXwjPp))mp>Ufe5pj>f>poh<m@c!nR#%jSHHW6{SPzM}X0`XspkdNHKe8RUs
zn**r|@=4rs|6Vfk0C9dQ=#tM}1FxmY%a`Tqfhh}|kNIF+k})yNYT)&h*r<ja-sCxn
z=7U}BPJM^A;+X}J0`KW1!tlMCGnFd=%T3}=P0GovySgfuOW6fJys!^!PYdJ+`-8sy
zyYge)UhHXvUx}gf#=av}q!8Tl7tTN{mM>-4w~G9pNT_K1oaRjW%Dz{jCV`)(w>JE4
zxME5`hOUq2Q%Q5ZzY@q;l78>YLZ;g%!pBP$jtMh)Uq6KBFU=eHc31EZa11!Kmp91D
z;IDXk<wZYzIkJD=CVaiYHXXm$wA+)Wyo(!I_BrV8PGeB=D6?J{ueBc<<Fb2u=I5QY
zGD0?mr0-&8Y(I_t?l-WX;9enC@^Egi*vX{gMN)0s8uQsN-kZ_8IFGF*w~Y$rINe%4
z>n$Pk)RMB=<F-32AD>Q_a@N<pNUrnfeYP=7iC)~Zy*NyFigCD2H9u0X%1ytrm1R1f
zv6h|paIXSwYX`6-Z-wDqG6sy+=219H#0a;75nahKHP+%=u7lpw8}6THb_7gli1-Wd
z*;leTcPrLz{dgj7-+QKNspy-;2q<}IMpnYR8HX=Bc9MDf%uUNJJ`T^9Pu)wd>8Kha
zq0=8pIa^t7tardVs*9IcmdUKJ`jT9nF}IYFx_>QjCHcl#$`qT6Swgk}c9EmwDYpm@
z#NKutD;4~>?c+&(-L+?CI;-mQ$Y=Xu)R`91j`saB*#@CQW0hZzBp5;w_7@YA(P6ZZ
zTrcO!4%RyMZZ*6}jeh03G0L#H{!z!cW}?a9!@%cU-cx+7`(IZ#&Iz$g*F`UlW+m;s
zJbfZE-E~iNhri7xk&cK-*Nh71|8jrHd6b@rP}gkxez;iC<If*M56+8`+C2YNsZp9Q
zeoQSf_h#v<aI>!Ix@{y}|Ay^sdHMZ*-XXoBcjPZT9lp~_Y`n?1RZ;Pc%Er2?US^Pf
zRYg<1<nFduv09TPg9K~;yQ`005x*l{>ioCSsl_Z2W-2u<uHvp#$+{p#+lYJq(2QC{
zbw)#xudKMx)B`Km^Kwhs-H$wkPrMTm8CqR>Kp<RkdAvA^d}(1b^3A$Lk<Qyfsq`oK
z)fQG3*SmwJdOo`gye5n{PVe%On(C^kmKLHoC#Nmmky%|d^|*6twANKjBKUS(1W!B@
zkubgWiG!W{wz~P(S7%g9A6))=EI#*WXcDUGVLImc`g>F5;K~<lH}qKPqomT1;ay6t
zvO=WFIfdK(e1?0>3`?QI3n1M#RfbvLt#$CnVe$yrunkFn&%$p)CYeg$MIGi>V8tE-
zpwy;MlltZHHqu==K`}JX*0DzdTjHv3ww`0aYK61fHj@bK)=P=UyzL0yV;Nap<6E56
z+%LX~ifvAKqAor<(rHxLZ7&D%TO96YxsK4-NmlDzW|6Q>(R+cp?mgOHd<G>fKRb+7
zhD%jjeizaNHKM~nOmKds@rMy#c6E}idmo8M%f&`FYz^>iMMgvSt&ll<E%8x{oQQ{0
zr2>WbTr2lPZ`Ji*(R6Kk+@t#Ih4RmQAglxlMl5#kpQ{!QfB~Zk>b%^WtsXMHl+xq$
zv57!p>iXq9x8Pv?p4sQqSG1aMUEC@lIWQWbTIQrOKkmc$)r7siv#Z{KF_h$rt$nMk
z=$o#KSd{hVe4LKyKvSCqr<ytDODrx!{k7kfip4iY@kt`w^eS4hlU<viP4G6kZq6(B
zeG*KIJjL@CMcC>SOIx~*NyUrf1W(jXMfhKqAI<*sA??yI?W~N{t3sx+*Uw}fsSL&^
zH#Ltfwf=kMaSp&h<V@kimjDD9wCL*k_|a8npjGwz_D{DIa+Nk|_BWaw&xD`Q%C8d|
z%vThrFA{dPY10yr`P#X<YQ;|cIHxX;7u>EWx~&k>UA2a)B6UsZNu(q<m3DJ88TIXE
z&N>oUYAU;J6^9nf3GXLs@z!#C^VH&<sy*F{KGmWL7*!0(d3zVzhs!uGyN-9_lu@~U
ztu*)pRvoU9edDYqiHarA4%Pa-4ys|XYj2KTHZ7MGoBNp77`!r{X7#(z{|$>^t6?^$
zA<Uq<zu1?D4l>QTg^5Lx!C7`OsaHvTS5_Xcyr;2G89#Hp$XBZL35D<$j^5=2?Yl=#
zQyDse{9zG=qi+t_Mqa~D?}`%!2(p@Mn%h#^>bpeVuT*nyI^z1Jtq8$#-JV)ka^C-~
zzSvxR$!**C3d$CLkC{gsY5Y;U8~tCEn@U6xpVKz4I8UpJ9>Yb?ecR&@DBed^(EzWw
zLJk?nCl++e^V-iZQe0$T_z#}bUgWnD@tFRop!URWbP{bD;tAX;xcwG#&dU|eEW{<v
zB0sp0O@M#$MZwa0Z=veO@KY<3F%P=Q4<5%iC6jV3yGlFti|#8inhp(b$CEJ8&8wy_
zQZRJ(r5Rlmjf-sWI+|DG9aH+lQQJr8b7%4`z$-^2GqxH18#OvddqU>E%d;flb88Jo
z<{D4WaliC~QAe^bEP*KTi9qvNbB2N;ynmt%N?bwp-3{%`>!q$XxP|jK5JzatL@6$L
z@XYgbOz!+wxWZXNMC+^(zG_myPil2JXX}gnsj@T8RkQyarT&3JUMnL5<Fm~B`PM|Z
zn}2v!Q64bYKlp<;{HZMg9_I|pWt%sYr9;M#p>qHBRiXuMy%Lo^7gDi`*L^9g@BiNX
z|Je`SVj4e7WYc1XWWKZh%~6@FZ*u?VdH>&MB9EZL@y%VR!$=|Y-&9Nq<hT*2@Yj3C
z?);^#S=1*8pskHd4gB|&CgqH+h6NLIU)6bJXL9q(6uHw3sUqpzCaQt)-wXSQKbo%X
z?J)Z-geamn-63gjqqPMsMecc0>lpm|4tAX4e`AH8*RZjWjQ*ZRxU7BtaN=#-rG$Gd
zZHYr-wi~=>VePR!EB-zl-#z~YsDcw167vV%%~h5**J>qlw0p07L3cy_wpfcu*<8DJ
zBGW=gwja(8kdYdww(I^Q^CewO^6SQcgG-z5KO$9mD+Mh@>-itB5t@5lgUKSa=MrhJ
z?X3Q7RYi@c^joPvjDP)E570-YP9d{icUhMR{4;p}^V8QF5KsE~IqvIjy1ep7{I8Rl
z-kXU7W)9_E3m%Ilt#+VqZ*%v)ZB_z|V$`o(sRS?VgwG#7jU9gYIEi7~qvpX_#iPQx
zFn<rSr@)lD^8UJwd-cOpmqx$<%N`8iF3qi4)u0X_I|Y#KVh0kq(-tOww<^Co1x*6E
zEFx6+*L%J-dCt5&RgU95aRP?LjSvSy3YbmGcYMDIFjt6a0KC5ALF?A#W&Q#h#rP=$
zbQ9t<=;vPLwjHf}VP$1i(+!&JflPHq;BOO<uemN^-P2f}I&V8(U$?{RQ@r~ia|Vpi
zMc8bC;mWe)!T3k-Mgt?fFY7_@QDs<AU3LH$7gyL(B_jGe(>aDOMlR;OIMC1U&#QP-
zX<eaj-#?<p)~Ee6M~_|+u0*3vPos#bdle#Fw%@(^`flCkqm<-3kG;C`2X~^rJ)OPx
zQ4=BEu-kP3(z%2R0u>U5p||XoraCao90mP{9dI74bYC$u0oKhGz#AK|-vEFtR#sjv
zYH-QkVXV3r^xmHejh0w}b5Nz*l5v%JYmVJeano@jv&D@H2mFZr^zU}-*MyYX9Hy%J
zW0DjQnAT0JnTguDg&}1LAOxV1T!0eEEa6}W1;jT60V=@o`2L2(po~1qA0XF55dR!>
zjm`u|;BcTv`26ISDW~P@FdA{YAz{WXEk8@ZnRgpRy94W$r;~*xIpAbJdTxLbk|Fq%
zT}u>`xa+)bKA5$k0bN3{trz5dF_PAN$x2=XR2N86)|GOJ#}qPp1d61teu#jefJy+-
z*SMwjW5e~{wUivPV?Ns-QgJ)A(+{K;LHxRet9h>sFPM>q6q@gNVKYsuS)=|eVCa0$
z(e(%^>8a6UhKju#I=9`jUksHGmfrn(-Hk>x2&qS_qNY)N?DB%)fx?1GWC)Lw`<M9v
zC%|>6>E=!_z0NGDEVKk@B-wZnJhpt_pwRR-L~x?ue+lx;3YQrSOs_%Xd;z1<*H<pg
z(3^nJb=SqA-hOisU&wPJHZjqf?u<q;#D##=NZWF;Q(f!8UdaR`BFLjC;VeLe^aVz5
zqv;=E;!yJjvX`m-oMbz8Pkq$e^5e^UQ2HURAPk7OYJQFa79md>qm#hbCaVr;i^PE`
zVYR23DfOX8SIh|e+ENX{d2THu+HGo*a;fiGv;a3x+L>CX6){5#U$<uhrez&__fFu8
zjK<(+Fb}bdVc=4B^;Mvh@G_VS6Okh9URkf8EN1akaOQ&N<<S=anN9;Q?xiI!^o^V|
z$6A^qdb1cfdFT|USKsAnTm@RZ5wEJ~bCxZMvh!wXjiCXg^Had}LoQTGn`a*=T5xxA
z5N*x?_N<LM3OCdRCO*?5Vx(%4$Mz3fJdcsiCFC?6M08`cLV{qlm)zS{2H7Os8-qEu
z-onV+e#nt*-*s|ZITPmvS4zEN$u~!}0VQy0YfoR?`r_7?@`_PzKoLB)yJt3+7Hl$s
zLOso!T*Ue)Y4kbmM|Z`52@NnNIYoXG@|?lE=mqSTuu6rqJlC&{*L#yJ_SgMLx4p_p
zXLTot(N*<d;UP#bvN^`bWT-BM5+Fi>-0r|G(#9y6emSqxuv}(YQuJF0j1tPU>+tA-
z=c$L9^?4s@_6;@n@}TDOs*M-h2ojoqkmeUuiU9mN{l%JHr+pK&3jHS!K*YiWlf~^^
zmWJk)nEinY8|o|OE*we>l<m1+QxA5}>Rx7IsxLCOKJ_o=<eeV)Zo~Swv%~^Z&Y~ei
zXz_?6*A1fSdQw9@SWT>Yu&8CDxlB``srfT$1^#DKy-MG8tF-beTm$5sp8ykaPTwM<
z)rCP&tKjWe$;AO*u9Z?Nm*SfaLGD5raq)L0ya?n_&Pb|#N3kg?y&aemKq$>}#{Kqp
zTa#42*5p3_ngDXv6Mgl)kYw?On0soWw1ydU!y15Wx(U4Yll|ohHQ0eGmO}wC<rSlW
zba9YrZwrO@>3HUOXBx%Ln1aZqZpewujnIlWC+*2O(dbzyi%!rHYy>}j{sHOc%Rmus
zp7(<W3y!gKWU{pxv1sP<a^xx=xLAw=r=hWTY)Nr}e`X**_lz~}iI%v07MDrVbULLg
z*=vJu^Ov@DMq38^?~0MK-td34Tcb7T50D_;?Koia4SI?VlYH|ApPDX^Y2@w+g0b)#
z$AP0<;i&TWPRxdB`-CAFymeIf9FW~E*08!{4Lbdb>~~~xl3DY7>hevIkB++vXd6(m
zO^*tEDd{`xYv?~jp^+-P=cfz+ZQEIIZ-X^UHP$<)Spa-q2p8qd%z7QAr|pNGcGn3~
zt}+_A%gxPg1Y8&8J5QfIdx_{+pP7gD-g~0cE_T2lDmnPnOSbsKRT8-PV?&OpaY~%y
z>%qH|Hq>D(1f6y?Y^TGLBd6sLZ^l?P3dG&}t@a$TJldJ5T#PYDIJtGK>c5K|EgIN-
zWlHUBi6^uS{_4rU_TOJy$IlW`tJ?48jQXCDPylT(UCF;V^*_Ih7h;&dy(9(*DAdcL
z<BP(bg~&tt_}@Tj1kI4ohoj(E^ztIoCKPYC<Lr0rm%nO6KD*(1_h!6+ac!;W<v85(
z_QY7^;0n*W6YI|}KlBIEiXvx6`QwJSm?O5MS%h=j{r1GOrh;PR>pGOhb^T)W4zX8N
zLk@}9<R0b5CXemnGKJLW8^Yw!yemJh=gVBU8(8OL8Pii~D75Q7pzOJsZ@)2Lglom!
z9yxsLAh?Tj1BSBT;@No7;utx*XMZhin2P)&VvCx+9B>q52UABX6;WjPd#~=RiZ92-
ziSOnp4;1(~?_R%S_1}xfs^}lG`AoMgfcA|MA7ZUpDCSN-ePfTas>tc)QJKkN;`kbg
z!It{!W_H|S&nh}?rr@b`g7&$kju!(6v0)z<ue&V6WhF};?G+uZLX}Q(b2r$M1}eXx
zKEK*>9~|A{!x`6MjI*L5;kItWMaq?w6?#L>njAYVT}z{VX1gAbUyRp}3reL0i;=?4
zP}NloI6Hq^On5aqq<ZOj?W?M#uF9QpQ_FVR+fSZd&t}69`P?xr)B51(Q}TvAx&Gt(
z`P0MPXGN>RQTi=`O?BM;YQ@dVN+cxNC6_)L-Ew?4IyIl-X{S@`b*DqCmjBR-0XOZ<
zPeXt_y?i^MPtIzh;VEIv0cBbyuota$TLKzufsM0>=Wl{=szlr`qdOu<VKlt5!jqeE
z8#~<@Qp2j#pNBmoD@U=fSlI7uU8YMIejg>{wlK_Q$~k4ADNtgJ8i@eDQ=ExE);Bm2
zy<=y5>)+fY@(;hD?luyRXC8U3DQ=Y7wN7PSgrz*s=;&^#vAbPfxxB-8V00ZnI#6bw
z`mw9Ry)($sz6tF;mKH-y5E?C2y10_SYQrQ2a4(d_bH_W+9(2wRkwm&DKB(iX&c-}9
zMjdbCH7UNIAam!oPh)0|=M!3@^WT3gD5cmNwV2h;)XXe1Z?h$h>t$gVZvNZj0Jwt3
zCV~)Os91pVEyKgZeHh2j(YL*QTM`v@^cEiY8>x|L08)L5@6$KPgkYK0(i^H<l_L_l
z_7YDAx_sz}I52zEW+DLz2e;(fi=_hX!lrA*i_`EQmRbQwc+k~;ryo-%yfC^;03u*(
zKPa!?p2x*nuWG=r=r%l88m4Y<+!`((Kn=)0L*Ki~$3j~!chj106vsCzzWmPlG8+pK
zXUiTogKZ$MkZoAJKS@HPBqm|mWrx1FnybyB#}#-Fj?mc4XA3Qx#S{C7v3cG#6`uaY
z9=-U+Hm10%b0OrxEyzD1rwewk>0l-PlTHd{wZyMJv7PT{k`z$GD<RWgCMvNOS;RzH
z34Ckky<qG1h)0{c66cVEIV<ecuPR{w{^{jH6UACimC24rl%8XYta7`pTn%qGi2W(x
zBD(Z0)l=h<fl<Ny9bIoLC`d%Bq|DJ)kpoM|aGIx$vpGG}p1(<zxNxq?>N@MNU_V=)
z10(NF**C&7u8(Yoi=G+VqzaDSj{fk-?o#ZF$&Rm=J(u2DGVkauxX*1qVSa;;#M!(v
zujnA&b9z=`|MdE)2R4f>v!r4zka$9i5>6kcwKm?{VLa$aoUV=<O<yQ}@U!wnUZ&GZ
zptMra;=P0g{*O?)Z~KK|_glHzglPRNyX&h{zTH$(qr;m5q%GI1X)d}3;=;4MS3cgy
zWRh4)=KwU+)-y0ht$X7(s+hC;*^afP@G~Wag%3QP$4LmtqR*Zypf{qmS*RTfJWe6N
zOea5WxNCERWoK{(tw9i_bMVzF$7hd|y7Yd>e$RHu(vM+=5v{Sh8^lJmz73yZEsj#$
z#UoqlN}H1;R4VgB%E>EQf1VGT$cvh5*Q8@|0cQXlNvq6{Ng%9EwtRkXH94xkm>O}L
zudUEV({5Y7r~30=jz+GW=i!qtvwL02+ArHL2!<mu-G&@CmFgY10g*ZOwZ3;pC8$4b
zaPm!_jq$QScvj!l-z(JJ7d)N1Qc&TK+B_CL-IH%=EIcuT<BUw#&Pg#8up`Iav1X-k
z{icPy4mJddo3Gs)=I#!zHgt=RhFBD9z=hcpac5lSr<P}gii#>5;5yHF=`4pHesPdK
zni2_>0J;(c2MKvp@^eCW*E@Cne$2NfjQGjDt5R@CT#z*$5MR<^>tAnu`=&|{A63oq
z2fg4lZ9L%0YPqQf7;D34MBzE9Uv<vgTPL?Tgz5D*J}M$1)Zb3$d?n}Om4jZNyPmwd
zPdr-6$Jgd(eWQW2#dlQ+E%_|9t`|;Jz7+I|dE{)<397wXuW{GrK>?uGx2TMcBoVKA
zd>}n;b*|h2)3Bc~XiziJCYD`ZvS`5^{bBjX`_7TH67Ie|1)~$;;Y#BjngJyueGH#}
z3@4B2<|d&&h3JgNZ9cjHF=xW~2sjjbs$fUAU#_m*taWTRHYr=*SrqZ@wXIyHs$8jh
ziz0qHZz}P!B4w~D{C1zM_jktfk*~hmJJVagN0kIbd5`_}JD)$I-hFkp;hXJA_gV81
zieYr7_yXLBfCPThOFwAfRrX%reSTm=a!lEXWV~Q}8iy>m-`z{3d&6d+y(2c438TFH
z{t=!>G)t*$`>licF;@vy&C8{)Cpg;8Nzkf=KD)`-9o6ohOnO%#&j1IWapGy~a?(<T
zKGzH!1{7e1P{RapMckOkCSZ8MNw*s0*Ov%sEzON@YrY%PMJ_c<pxwN5SUj)ngf#})
z&?O?qqGW#Vs$vQt^hdVXpO9oADmnUbZ2{@GFCVfw?zjU=6=dj`B-Uefz)9D93pJPd
zp3&-35F?z&t8R6v#8lrP{M1Naq}AgY8+C%P)hR+!b0R{$k8AB}J0E_em>!vVU|>Lu
zKF3x25FE8@;9?m2IAt-@N7)YWy+~IYgd<Y^m~2>DV^BnQ;vK%-e=4Ay5ZHc#kQj*V
z381ZyRCem_bN_-UG;<yIb*A>~K_(n{dA?YpAfAv0`~1eY#|<ksSMe*UJ5aSjPNyZ@
z?EAIW&W;?;NG_F?vqY}JI$UYi6PIyYF(l}KqBh5J_#c;XT`_`j?+j%qSLXzE6gP?|
zr7?!2LfHEk<%@(IA)H3Qx03uw&SK49Os!tYK58Bx2Ika{wdtU827F&$j^Du>iZVyt
zUXnJepV%3zG(qagG)JW$=1<FN8c_o3p25r~bnJ6GSMOpf+2;Sj*VY8Fz6&{hIU3;}
zz6ete7&lGzaxS;{m&cuza#FtKBac`W*ueU%K&~d_>~m4d-n$1<HN%@QiX}hz*73nj
zejO;rV=ZxE>*q6Mem{9(X9@O9E^&(=1Vm&@O&e3^w7?AZJxeZ|6i53hiutsR8SBw)
z2};svJY>!P+WTI^^O~Eo@RD;WH&Gb}_vufXbj<l1w}0IQ|90w}6w{9Tm6{b`v(|0-
zB6*2{KIfsOnr_qVYwlCjCxu=2^*_)Tfc{Og4K}`a&c*y5YTzohWSHJ?{n<h1z;nE`
z=+8>R2Iqed>v<8yLVSatUyQl-1k!@uvJ_BkI-(CmJ^o)^*Bwt~|NhH%$jS(Xhz=Q*
zRb-P;96MXd%$`NItU^Uul|zv&dyh&Kg|ZzpDcQ-Mzw1`d^Nr{Ad;aS6IO9I|_<XMG
zeZ9w==_D}l{1X6M67)v#AT2o*GYmy{?8c}rC^xm<XVXkM9D4Zol-6&uf!d5{sPS~e
z$Ipj<H|xU6ricd&Xf|+=%guZCZ12|AaxD%Kp8zFZs!qo3_@xBed~cYKBS~${Vy=LJ
zlEn99U$eBV3<mq3hG-qCbXtE+Pa)?4QQDhnaBrR?Auv-Wi2cN@l)7)<SsNvJ8Lj*G
z63ui@9MWYcO1*N#T=5<?9lmnH4(NI&6l@|IWU2_(KRWoB#Tt8N>=@Oa2I;t2EieF(
zP;+9#E@1MSt_8&+S{8(?Bo;~I1-3+?)!cmSm=V0uym1?HSG|!BkN5d&kbNB^+M&)k
z8NToondq_5d7=6QOQy(<Z~SP@+VKx6W8t+ll@F{39LRGRznlS!38RvFuuskbhDGu;
zA>T!yML`t2z0`VdE2{5f$srQ7V9|&PkzkuSIj=RIzcO9f>=(I<tkAT;Ju7AO;xona
zG|sZMRo|i3+s)-7|M-gBBtf9Tw<yk$TC>k5BYqd6m_UM#X<1(r01hQxyTR?ixtUqS
z7JV9>50Du%*hNZ!=0CYMS}x)xmEiu(dCp{?a60kRx*AtyPkxrNets(YMKX^7R*G`X
zWe4DmaZj(ss7Ykj6kA{3nqjt)vs)!64f<#7Y>S6FmyZ6`77Iq%D{t9rg=c~q?t>go
z@&00uo+NlQna+M7{zlIlGu~Dd34l!2Ez40Wg3SAVTj$1GcWl@&T!DB8k)`Zg(ApT0
zI<t+6-2+Z_dsU{Li<kZi?*Oxis|VmnYxe>w%+g(_`-F@5Jg<PN3jz{bdjY(nslKy#
zhzuRg>GkT{mq40L${Ytldb`qA-D?j{QICd5yJ)KbHFVA8pWo!4a02V+zm3k4;qZ)_
zQXe|MtjsMK9;wZ2)0`?8{N&k(2xqoG_pTP!tTA$CR?}^C&K$@%_H9iNnzmiKK_*Z&
zJaO3N!>O&4H771eZx4PN9(>zU^C{&@c*IQi2MZ`ftM8hBhgB`$De1?C^53|(FU!LB
z9S!#dX}treV;wmL-9D#^^2f&Pi!8qr7CObG7`6$1I+7*Q@u=_lpSD7}mk^>zuLTlQ
zmLS@vF7QcMZVuYf3jNCA+4l(~Vc>S+H*^g#2%fB<?yHl%O}diZb~TWu0<YTd$w1|`
zO$VN-aO*=mE294ynmOP56Ax&A=q70|Mr_n3mv?3Sv{-L_%xjRS=jxd3rk`u%Y+LYT
zFe@xIEiKrhe@^ev$oJ4^2H*dTWz%W!fH_o(0Go&tghw?K$CoYxhXY3ID?dk#q+b(r
z3f)))C`PtB;vVKLzg3;%LkLFWS<<jN^7{xfPhjh0eAbfnfCtzg@wm70(UZ2DS+EGc
zku*p&y;FLuH+Wzb|7%Hltfdh%1U+}%6v_6&Z+CE}z1NmMVkDZGOQQRy{=7vpKHKv?
z`gmf6<9IAF<V4&pd&#YtCZ7%X53UAWvP12%wSc{}d{8DVTrkZXS%>{?__2OLMAq~E
zqz5!I#-2Yv)-Gk+V%=63Jlkhp84%^Oo{}=1k?{ip|F-TwxBIl8v{>#>SMNVh=1SfW
zi>*(Rwztpiw242TCch!UluLsAFf0$LJTccTzt>TMpV&w)UIXlX`1Xv-da>GHgc|K1
z$NjGV(XjXzkc<zBA84QeH6{JI$Uh_+LuucPwY#K*3=8VYDL(jATc1w(_^y<etV;)N
zcZvK9U|@_07aWc?w{W7>jaW}E@1#y(%JDuS{FyfGvRc<S{EF+hem1T;)IM?ev;9b8
zE68jseZ*wKCbsUCOYNMDCOR~_Y?#=YXIvSTX@Zd``FG~hsZ_VgY-J(>uU^2EGwi&2
zg_^C0N~$&B#6Krwg>FUCSI8&t{)xR%0-R^GG$w^fQp^570{cuh_zTZD&fI?(w!fj9
zbbmai!(zvezaSc1eN}F*7ee{Y=)UeqWd%)4`UUg8f6KYwuSOS214v|k?OM$04GP{T
zKnXC8hv|#CjSK%jzxNLULqmo*`9Bgcu?JL&!z`uVCN(deoRqOy|Jy^o2Ry&7J>KQD
zh}<I&P|s6S^`clLkOb73+h;{ZOP_~m<k8|y6eN?A>NQuLRyH<%Dt<sFtf}qW;XUAo
zIZd02GuR9@x$+XfMeJ1SXA4J~ejoL}V?e6(E<DM}+ow1)7tOwX+xy2*DKHxNG8^xx
zu;;T$I!Is;DE#G=OZ48q)F(k?^Z)Z6e^hJC<$`Nr$e=+OFFNtRDH{*Sw8mqws0$l_
zaXafitE&eu?5TTl6x^$wZ)HA$y-_^7D6G;>j>3ljk<@o8VgZc4DSB08J-GEQhUzM8
zt<)O&-Ak9RsrI|JUxF&tF;V!sPW{=U(=dT4odqWmDN_?A(JFXEMV!B05TAd?F&)Yg
z={WuNOU34@K;_hFFT{UsLR;5J`)V`{w+zmo4|WLt_fGzOWud&w_G8s#=hpEU7UV$L
zsO=~7)>;Vg1vHjHD@PuulV@y)=!uo0x%9TTHaQ|ciA;m9pJx5igWPiqZE{OcSogt{
z!U5)Kg@`B|lsQ+VHh-v110wwbNtNZa%WU&R4DVqWRk3+OC;KG`x@q-AZ#9~1ujyuK
zzKGleUo`Te52yc{Ozd13ZB@tymO4xweUX&a5uG7xJ*img1^F4h@cn!zPMj#ZK08>w
z1Si4(K>2|Za93DI0(Zf+Jy}d2({>fGV`^Mc0qogcAlbgCN3Uz>v@>$?T%6c3*F#jV
z_9iPbVEW*`{|=%_b0~pfQib%JrxIRM&@ni6QyGsew5xg8g*g0b1~UyLr#|ttc{n#r
zR8AkGt?DVUGpKhTNGy=6*_c=PrOpLE<Uco6mfxVScGHm<jGv6aS}J#H4(ot>>r)9n
zVc||tPgS?^S3fSb>1?79pE_B}ck0xqT<|$W+yrIafS~xj;0Q>+>H5Ag(0)yaX&6Md
zl>2CoufsbJMBGn~-Db8gd*!q8hP4m;pv(}v{O0EvDtUzg6`#c{lU^`ko(8@0DZ-<#
z3z=OFWd>wuKeUy1E<uKeAp;Fq3nA*d9pX3ahgQfm4Yve8xY9OKk>zGRf7vkJ`g=8>
zt3FupUieEj`Fm%jdVzO}SyOgE<h4lw+~Na*uZc_UvW#mi-kF$De;jXIqXzm>FUT*D
z)dne}8^gZ2SNo^W0NdP9BrxxJ?jeY@bRSh%vD@;3S>TRr<s?T1`f{>gNE1kAzXlvd
zT|EZ@4E7s$Z<8@pNC!yG0F}59VVvgPc@K_{R>(XJ$?=`#pEIxkZoK0olskGHk(&gR
z!EDTM-xo-GD+Z-qJiGFQMapKTxMj;>97HQCSlZFvU>DizXySN}aKV^$Bkxu`4WZkc
zHkI1&Z5>Bh*4mj_gGPGSsv(p9($iEzerXo(F}kD&STbUl=A5A_uVh$60vJ9<A6FBx
zJCTl7*32`m4schn)igB&XUncKC$rLO^=IdITpS@dL~b#d;)u=1L{X1Prjv!>n7#xA
z{o6|nMOb$?HA%E{hq_{U{;8NF)J7f4kPj@9Moz(qrg}E&#{ci;^$)fUEfxqXUN_GJ
zZL#j?hQ-7E)K4Xn>)s&4uKSlpCPOSWSL`@9yHvcQxi0m`p->ml&B^dUQ-@ryQ|W9c
ztF*{lfyt=RlDvHCtd1+6<PGX-UzjGkBX)C6%pHWs*2ZdKrf6S9?E5&EvkL8(4<drO
zOVrIwqq3uNuCs#@SG`;-N5p3<XC+~8NZed1tt~c-JlhZvm=84kIUe4B+rd8%230Ix
zO{`qbyz!F?3;9;%<ZKc<vh5&Zwj!g(hoxvixSbZ%Jt70Z>?-DHa-DpVq<1!y`-Iws
zU?0)v=HE6P^Jxsu*N(+O%%x=VP%z%(Noj)gLXJLdU6e`8gL#+_(VyiAt+4BWB8Hw%
z|0|`-s9gGF@M-pxJ4Ds}5KXfQgDFSGLr98FrKB6(t`Q#6d{E8et(viO#RzD=9=dj;
zo1BpKbs)7*Z+B<uL<lkW>*a?Qt9J!k90l#I?y0zWqtnwP8*a6&P(C{!!IK`2OXDRx
zAe$k>GX(l*(Za@Dqso3QEXu}epEBJ*RLcwh<Jv+wFB<NUIIM%z!?p0573N~ZDwdbT
zZ55q;jNt4E8xP<TB-<V!R2OouM@+u2z`l{JCr5ku)4s%n47o9|a4ba_6zS_>;(q^m
zE*+@|=R+U|XCq9;?8ecW%JbxjyhYq@CT;s-+$K7>g$~LXokQ$P8RXHtiLaA}Vb!Eq
zD>?=`(}gd2t~8LtpqT>0t=vB7LZ;z4JLwIb(4e`lp<Ac6JD6UrTJ#^HX==kTuYs*f
z<SW`|3UqF7%3ve9G^&nHG=sjv9gG}88gdVvz7}c(3xNIk`yd3UoQ2Soq2jDl!X1}V
z%hpd!Y)tJfd9Vcp3o|(nsGeUW7&Us7ho(|b=oJ!bmp7-co;y+J2pig?@uDW%wxU#~
z`T|Hi;>S>XW7FmgK^ot@azRCfY`UxC@dRof*y;Vn$#<y;xs){)&@nfYe_g+I7viQu
z-z?1xOg0qH;X7w0z5|VoVOr1-z0<xE#M;uW1rUBoyvTHBN4W8)10`W|d`Z}WW2+eV
z_5kui{`;6YBasDm6GPJ333bDP`I+uAGHCUk+g&8LH-2&2s|u`q3e-E#nk|D~<jzLZ
zae5Aad_A!?9Zu`U%l=H3@#sh@M5U)u?sCsY%B4)OfqHsZZ}~t(7?p!LFi`Ay!;m>Y
zApZK?u`k$UKn0lk_)hfhQ3+tnbc8}g&y+7#IA|&C%VqQrr%w-^VMfAbI4rEgYC<3}
z>SYI`*eAOcw*xC{FQhi#=T$hE&s)v)XsVulE40G1`$*8LSnLdQg1^Qr-Kpjn^bC6s
zs9why%7z2TY~k_FO-3+{kF?J+u6Tc{%g*NkY78P*Dr2<jD86w20}=^kS2|z;CY;Fw
zkaU$VMmPQU5lbI9I0ustPMe;<@9tS8;HiNxD~kQ8AtY?KkbPpZJI_O~UdXnm4O~g%
z+Wa!a-KSnc-BiwKBoug;NM{=CBUWn+lY^hp(^iuUFx~qGnUZX1>d4o-YKIslKdgLw
z&lwW`71|r%xH}CRA?NnbHtvVq@)0glHY}+kkhhHNOopbifoYjuVMJz6Am9F>#nK}f
zsfcRZ-$FTR|Gkl8=m;S6jes-rb^8}4YP7#!g$_aupp6^HmF7*_J1utV;=rrLe#d0=
z3MAkyfj$8TLS$P2W!&K)aM0RaGSjBjLDH4nt@Q^G3zXpoC=pRvE$+L@ZEQW*T`6Bw
zP$2kXAZ>QhDnXy{m=;Jg%n{&d0E)rftl$!a-a~k-$Ph^&iiwl(D$yb18woVZRC$*g
zYitv1;&U^3v3Iu+78H$Gd8O3!5b4KcAYyN+@R((BdWh1P8mz{-^|nzEa=uo9UBa+I
zex+pGoKXC4$38%e6i7NUL(f|SEXZRbE$DCyelqoO9gjP(LnSoa!}PwqB3Hk4*5zAV
z+Uh@@_n(L8A@^`&476zR6OYOKQM8A^^O#J`N?Iji`z4T-yv82t+Cmglav>7pH3;#}
zrAYKoMTSHOIU`M9>+V_^6AvecM>EmoD8?TzK}inZ2*JWiA*p2$vV*6>w%2R7$)0Gt
zA*nHwL$$Tc%wIqX9!8=c#8dFkruqBAY6VEk8e@1y&OOHSXF87M76pYC=Ew4r_;_m&
zz~w{LrEqZ|gYk?|bTC9mTs(rh9Am-Lrd&&{y33inQ`QtXD#ZPY%F5vg<>=7({5~cT
zHcT-g(9^QPd{AMKVDtj*`!}k8U*vRCK*rKdO%oK^1_{9G#T00up{31V{tjD|#uA~v
ze*0EY$)%Y>Bzeoe+yZr%MWSzE&t^qzP-m%3%M{b|Am00B-u+)37)}DF7j$cl>B@#u
z4FB`9Mt;3ki65o%$@TN*%`TFE9}dz}*_8ce{snKdIj;YG@Be<|zId94d@ZYc+broi
z(ywD<<qoGgSN#9inf>_}0C4HrC!`JopHQRs>@G|ComJsv8i5r4-mhYF#1K4qFmHM4
z8vmQX*R4u_(-+_{mD%sX6++-us0!k@r#+P-pQ*kl?0Coy-Zy>4*DbBBtvRJ$9u_Vv
zEFAa*zH$EVlJ|TC-EmM$BWcHgOm%@$Oy%Om?6T<2;YTjc&b(m1q_+$kp9bE+okUOJ
z72+s^-{RPRTBfU<!<L%pTnQ<<Yfg(rCWvOb2%gVlof(?v_Y-<m<$r)|Vx5LZ%06*E
z#zOmv@r@q!-%Z$a5bAiV0<oU2HnyJG(~l(0dHbBrjK|aMG=BzTK*AX_vnj%BFy}<0
zf{q=FyU(r8*!TFijOY(4PnB+ghvH8U@(m$Ayy2e2nCwt{7_u8gYEAqPRM_5#2;Y9>
zW*&h{=I7v{qmQ{<V{3gO+w4V4vN`>pE0_tl#F-Vgpqj<g>#rLVr=Q#ww;jwhD)CwO
z@rdSQPP^Rdo+0uzl*rw9h$}6h;1-+gkXToqt{q)&jS$|dlpHA?BLDajrpQWa)M_4U
zVopaL*Hi0|l-iMdM2vD56$x%6x)b-dPsb-69jUZJA95OsDK4?N-nIX@NuirBaPBT`
zUCqjJ8JO!z9uA_!P{p0`%jt7?*XsBF&OjW^NIdmOGu_eEDc__5>Nlz{eX661+7-$3
z#kUu{3>G>AXp(q1%mVHD%1&uX-SYmG7U4dq#{nMjmy$R45DZA<-8<*@hvf_86ftw<
zqEE6>+ofS|PfQ&0y>;UrM}_2Mr*55PV}15cD}G+y6(hTTD=la#VzWJ|nOA)AWA}88
z*OqO!v2XMut78@HN{w9SL<SoSoiZe(ek__&#n8Vk*=!q{DeiNd=;13Jn3)L9yS|Qn
zC6}!_E%vrVZnsk$HjNY=I*gA(@t-?YxKP`+*mzgsMfK<}#)HBi3%G_H+}+)`3Zn>L
zFL<QgP6(s8uyUktW_fjA@Q`l8Y-w7RwVWD@{WIScj>)$C=p%#Ep=|G*UW{G)-gDf=
zLQyF7*T=1KIb6AmqE+STV?{OI>mmk~77@*HBqn(VrB9!@Y*}R)<mHN6jD?StcrDxG
zD%|dTTyspz(JyE3cw_=HfvVQ;eL$SDgGyfphuh>|u6BK2y7X#Y(6;%}M{1njZn{op
zxL*ME)-!B98LI=2ru6HfJiLPl-tE44DT5KuXJ0$y%LNg0o=aj?lwD6*ULOw1Gf0^2
zbF;xs>9O`T+$F!hG|+LfI50cdT2PYwy!pr4BZNfu<v%>vhpQR8#$LXGR6@?BJCi<k
z42C!It2aLXf&fgHY#muXuc@K!BET3FvQ5r@vvjv;<NW&3!=fVlPSW;*^CYe`$@}Cl
z2^A%!{LU<$zKGI|7D5HrfmX?1&o>tZJoG2K>}<`b=Ehy7oL<%Ok-87zZ@cOpma3RD
z^ymkkukGeqv3u(#WjT4&=YB!AT}zVx4QkA=wBYf6QFEhm0VQOBhQ2!2>@2E`uPrP6
z3jHvSfRok_GyIB}nTV2+ej;}y*4sU(!pX`&ubEDF^MmC2!a?Sn^K4LFRW42pG**9Q
z?e@j4%ji^!#pasN7cq7{SJGT}-ePe7q43?H7TZE6(<akPF)|?fx?40`YL2oiMS*O(
zH`cfiI)chvj%edsErgta)mbbP87Z-V*R{JXRoUhFY0;%<6@enN$RDHjv%Yy%*A6hJ
z;hr6Q>NJTmty-FZTou*8U9E()HZ@7>wYKK3cU(kbt;oZ^%&3`NOwVCmxXyA4KZMl*
zTQ=Hj;zqb37^#Gj^$(uQKb8_m;d74EX|=*Uwf$$_rJLQ~h<YhzYefenS64W^Y+jpn
z<$4o)ea%0fqi}Ea<Z7|*bbWMiU&|5k{^O9G0E@Q+tIu4`<h**HOO)6$v5aGKviQ`B
zOyKnG?^~0PhLV0px=px-l3lQRb2P-=$)EBgDkbIm+SNfzeh#y?FuAD!Y;%|-EkP59
z<AA1$?dRi(cE0XD*YeNVIr07lE^!_tsnAZpetYuueLK=eR!c@{p6??Cs=6v)(WZP~
zv{NpTACd2Lj%tlbr@K?BsT0up0OK{%tWP;xLv5tHuA=Yk;xdJEpf}Jt=`J@b={?<N
zGGL{4>DGJWwIN#3$TzjDH+zJOCEvNn{hYzMPdemMdTRvM$tx@Orcv4f-*TKL`oROk
z%m*UZY<o;|^h+tG+h1P^@gU2&&eno!h%BVEtZ`s?>ia11)Ym7aL#S!X{r;a(hO4u0
zm*!s(98;b=@BQ!2?SGl{7Q^Fox@cV`4|S95!Glb?>^i!P11-R%z7D1Nr$oIdeE+zO
zW2-YXTRufI_|z!b74zxtirJ=-$=D6?S3>9C6qOF%JtN<H5MS*OZ9+q#Ug0<QuCw2J
z+gnvp-u9aVthRGXa_o^Oek#k#`fCF<+rmU(jpypne5#7vWS{8V%E752wR3jumM!^$
ztzz9XtG|+DWg;*N^i=5Nx{g%?I}>_v!1<cO^zQ|b&L*f~_WkTVM!3y#pke%uwq7kq
zGa+Y(aW-*<mKQYhnGzsyDY@PaZceAC>!ratBJ{nQ#*JliUpoka+?;kmkxR>a%+58^
zF6UTZB}x+dz{0$()}DQ+=EL?EmvyTyVty}KT=0|AuLo~z`r1#Cqy|-OcG0f?eEZDq
zyT|?fucmcPN5pHAj&gVolp6Gx;vHpVWbPl1XBszenbH$+Yx>%DW%gpCjmN;M;_{ok
zixIgYN9?(auZJ|$kZ51q9rcpVgE!GYJ({vClGMVQm3Cb1scp5_atT;NiRfJVtV&2y
ze+-@M&#xVhD2E)?yRbnmPQUETax}loO;5F}mRt#3$A#gq_c-{v1V)H`zg0PxqN4S-
zVPlHHo;<8jP3mnh<=MfRmC@O$W#6hdVnmvundD+Wk0mmG_~0}xY=$!QU{;w+lB+yy
zQCqo5vA*uT-1D>Xh~4tmSgXjF4nf0VnUExxK}y?^*k99Mhs9c1-4Y}g>b&jgsaUCb
zUU8=fNC(w%OEBq8e~sJ7kFbjU+XGmci|Qg-X1GlE+U19j7NgBNwdBR28!K*P_3fXj
z-QEhF&aRJ@mc7@aVH$T`#lk&4PpIM!go{a1C3}zT4=;Fn4L0Et=P~8$18EUpL|0H}
z(UoU#9T5fKV*uI|O=*Gj)j)gNazL3SN+mocQk;*T5aV+Bu6muub+oM@jjMVxQtC2*
zD$|)+c}|Mclnu3Q64!adTS5-&Ur@2lZNiIaN3jUFgLy?4<g>;NG2t6EJdPpy-})SW
z&@nGUMw(rqalT-gxLWi9@6ilfvn7Qjn|kUD_wBbwvcYffQC!@iQ^RA>Dw_h=_^#x0
ztw|({8G>LtK|VoOC0>H=%oomg=Kb(&AWbcarJDQDuTyYkSXmOeWhkvAY~&E`_SsDR
z3>|R&ev$sUK>K?83v9|h*&AWTlta2b1#8D5#LUVzuk;Uym=2TLXMPqvUTd+uHO-nV
zN04LBOiOT;({bo+NE|F)|0~aURHSR0yN-*Ci?7_ClJxTF@?4+JN;Gp`8>P%Sm_QMe
zJs)>ZC+z%2A^(bQ)mRlFA<L~;3Sqh|Y5B7PC%%P<+V|JnZ%t1x)tg22d=xci*wCqp
z9&l{u>&o&-ic7ll*I7aUh(JE9(^kw!#|ibt=@CYp?Z>5gw^6J1leK(FN1a~IM*Y&Q
zk-km9>B`(GOhvsJdj6?<@Q-Kd$x#dP-B*5(CI78VDeyeMtDDL)j+m*YJJfpF8I;?r
z*roFozhBoXM`umFx*NyvOtFy_dr0Op`M=8obSL#s{02QX6!i{(f3Qe_qBrxviPR6>
znP#2AeHw{1-h(+!7xhyq7Ty@ZG)p5Y;?Dn^?2vwgBG<2giS|O<HN4tGeLei+@s}sa
zKA#fPLB3fjLk~}KMeE9ds15ybkKNhfS`PcSX)-FcECMZ>5l-bcbHeo}Ob#X6AKn)f
z$14ys=)V~2<80)@{isg3Y-3|%)esT>;lUY5r?&g?Ikj_rMC(;$^T&^Fx|c91D9LmD
zyESlUF5{ut(CB0hxW$*fEoSxIWxwZ$*uA1yx3vr48-%!R_v2;Wd=q1O-3`56S#D1c
zOb*t;xcVy|jhIN)WN_98Uz@vrl+M&K>8GL|Gw=S%O~<heN>cA?@eqFl+=B-XvfZcq
z+*JdKL~eES<LGV)xuu7fyhuw6*>N{08TSkFRpJ|>b9U9Ho@-6S%4^@eYIywbE5JrY
zjQ7c(H0K0jYG6f0zy;pNU}_MXwb}Oq(x@d5QA>^n`^rQF;zntBl)!!IA;CxM|J||3
zeKf&E#S({clwl?0T1a8s`sBU7IWp7-ThEpO4lS%$C*^UP)22o6yXyZQQsixMq${z?
zLs&{NtATC$bGMRAmUafOvk9ETF9={nTliFb&vmQU!eWO5SV;=82kEqGv7WYBgLtT`
z8B{UpgRSwEyOBj61wT`{)RVf2(JQtIDaY^Uh?F+}A$$A<3P@LxShZ<BlojNJ{<-3W
z@r?iEo|YEqM#?{1-@kVXw9*;H-Ay!zE}qp<|HSa{$&+bSnKXF?m3GNp=hII*p5SwP
zJDB=DyV&TA`SH7{lU#w0_;k@(;ytg;AVeBiu;VQSY_t4sn1*QGeoh)txa@FV(Fxuh
zD<)9)@r<&c+4EK;Ms3%;wU;vT@@4Om*h^p})^zV)@rM)7tb!i}5d_dYyz=qvu1mI`
zpb3qQ{R*Kj4}V%w+|k_+W1%*04&x-M?wz6d-)Bge4zqlq5I&`IVb$4SPfJTupW|2I
z5I0606N)=tfBWA#_@9?yE)miQVdXL4lYfczWa)oCy9$Nyl~g#;)Ol*5ld}JG+kcJ~
zn}GW2F$7Gh1W9B2|4f@#=;qohA8=FGwub&^j*itwfsJhOt?Yi<-RB#8;RK|Ce;~z?
zOZCs<^$&7k!*@@M+M^WIirrH{-Wu=#9B&$ixf!9FpSbpZ42jk$VA*k`fy$W!;4lkG
zbh5Pk%KXbKZ%9<N@>yy58TNjBI8CS?<_iSgpZ2B=Jp=~Q@^dn{hr&Ped^ej_C0DO4
zbI%^IR&57Yyg>vVf>;oJc^A}OB$Pe!-2A)H>HN#;wXuMJ=)vyzLD9Wq224}0L(Nny
z6G)`+*aFGM1fC1@J7GP>ZOV{w1_0AL0ICk=i-T^jX7w90uFUCKC-7&Gx#M-P;FNzd
z_Yg+2XB>=POuRn|Br_24nB`S3B_Q6&)ZHvTya=iBUtApdm)0Zcixxu|ksv%u)ERl=
zW3C)Nl{MO}mTEEIx#+(3RJdi45si<DS55U5H!n@&7;3mJno)<5ncfWHkZ9(<_b?1I
zntSEYzKn=Fkz6$Hbc~_;OS6{8XTcFKAT-m)3*`OC)D;nG7J31YYKM$<7dOH$KJ{MG
zGXO_KvUB5QVF!;_44|ygmw&B(Pg<Y2wRh&^*hX-bCI({>07F~XIR*a^7*n5O-<Q0Z
z`C@I1kBou82qwN2cL~iIXtmsD2kl^lQ3&%n)|Xx|^hQdU<#`sCI*g+!{NYh-EQ8p2
z845y<qL0MV3-ft?{!I)fw?>SY5QCYD0;U+cc|?o1_+{&vUjrBnPxXc6Rw6Ri7Bc>_
zI%M#I<j)zohtAYuQ?Q8QbQ;2BN)T(z&Tip6{o*F=*!Td}tv)iF!2jeYXg&9vy@{E@
z1_e;AS)FX2)4+&QOm~;jY{kv3rRwSUN$<Z653*i&u8~n}$oQyk_T?*xKXbF`4G1%y
zf=fxNtp|d`OK~S(brgSrk(zU}jhZ>!-24Zx!Z<w{Y&Ud`2n7(7x}+BTtob$NPE1sM
zg6ayh33A>tY#mS#WpUy9m}Qh(#+h$%W)$gZldus&Pd?%Sujp{4B&0KXHnEQEc<qhd
zx*iN}V{?J`);#}nRWQAHV=S7lYx{#Om1x}#qI6<P5mXuOUBT=9W%*>vA7Hjy?Fz$j
zo(@-FFCc^|`-_BxXk)OgUM|S>dj(8@>GWrj1&AuKa~sZLe+lH*^19xVA%jU*eqoDP
zGswxD#K9}Rzqw|D`yhvegoJA-CBZQ+uHX{7;^C-8|G>El3C{%*6F0rXsELKyA*rjC
zCP*xwiR(~PIwnmK?l(D{FiY@7+O|E&t2rG>>q&v@%!e7I@FcyGPv@og$J12w1mGR;
zbkboU@>XQ%Tz++T+?!Lc`%Vdw*9X`)WI}-D7l%hTk_y;k@+-E7Z?Ozc2jt7G+qt@r
ze1WkZrFM6LaX;C_H|k8ScL78XwRG>L5IyDn+NNQrQ%XaqCL|ezM+dYop7|T*o`@Yi
zf1%udjtI_?JG?07=-1sN%)6Ev^aW{u63NaXEY^~>*-jFxJ#&%N4c9jOFqIpnCGW9}
z{_(SktL+deLVW{2cUrAO=We`YCfC5}7g>#Xlsi<1W?c`gkh9{tJI5AqnoTJ5x$)QH
z!$!0l=<IQQ+Do6=9?)si^4=Vc5beJilaXv2l@eYN4H?y*P4w!q5pyZ|0$q6~tTkaf
zys>|e410P1Hv5l28Zow82KfgtM`s9bxdQ;nyLhC=P@Q3_)d24AT4_QiR8!pC`erGm
zX^b#BnU~aDGDr<SGlO6Fd=OFbLO0bDQdnV$V9|T><F;Y^fhNZ}fyo3L&3F<YqwY*M
z6WSXjL*Gj$4faz=oGE5t87Ilpd}<z%^z${DK$*1!G5MikpEKb$YD7$?E??i>KYC|;
z4fP>?l5EdFEJOOnoJ_N)<>%6E`O?uzMF-2xVbqGL^osV1G#oRT7aiXuBfXZ?Mo$6%
zy2p$&F()lSTVrdTdOu+XE?6q9tm4zUuvz_=w|DG7qDYM|Wix!<oY0D%f;Fbi^|2zW
zcM%!wheXj<a~Z3B7tCeRb#w2JC-v0%<L5vvXV0W+u7ggL9amCP$`!u=59p;rlXP4N
zrSggsJ4Ev4a|o5(F0mGgd_crWdpX0TwubD1{E*o~#f*|a?SbHox)6bi^LDy*^81et
zWaY{U`lpMB6TKm){4ieQmdDe_B6;$KL-cM+5SDE}t7%&)<@pZ=_pN;sD_SI1xZ0O2
zyth>b0wOI9Zjp5;<(lJHKJOJ!vo@Cye_k#f6mXD^F>dZvB>Z;yEJk4=pP&M^4Zm0v
zML&4yQ_uJ1F^q%WSKe0OM|cJ2IHin?9z9c$6KqEOE7&D5A~R)#gpykmzzB(m;a*|g
zk{`o=LV{)@9z&BW1~UqS_BQ?yADG<r0ZC;%t)=4z-N>jKnyL-hH^`PS4J=mS1G&9G
z<Yb6xJFB7rNiLIkG)?{JTr?Ya+^7)<h5@DjijY}I!@IVa6eMGhny*urD>RMhfB;iR
zAq>0iqwyF~WxIr`2#0Ol=!37MLCKr*QdL2w@=8CyR6Pw)b`a<v!Mk`cPqN<A&1U#%
zF+Yx&@~Ssk%|Os_2#)}L1f<<X1yG}yR)&N6bl7C$Y1g`z=DhRIcwDg?@47`4*y=dv
zMmNyjToXXk6fno;;|m!LUgf$}DOeiGt)K!?gi9pKp(x`vYMp4o8Gr6(0TK~P-0yPE
z$kMHh{-dMpd1bd75Bl-{twa0<a~3F4qkMjNy?v%KHJ}h*rzPhfO`%rkYvL0+DTB2o
zO**Ci)Ib|g##P<fkA~>#1McJoIxEac*;gTR`)-4P4t(q7UVG#@GM`wHLJ84|xCfYa
zE~dO>XY)p#7{R}qX%K4BfawaTxK!`*$?efK+wdDT#JPWE<iJ!=O?p4+cBL(A%*q_j
z=%L5{#~B)g3$}DO=HY)&J@dV9GI(cx`YkUynM|V&+5>j*gPG_XSuVeAv%-4C<}ulT
z$2nron1N(gUN^TrD{U(E+$&P^hqKL*O0T`GRn-QRY1#@q1-k@(EPn8wW9xdc{3<ez
zh;u_>Z8*pzk94T10?qS_orOGRKwZzs^2>-%IniH@HC1Si-)T-~XXmRpbk5r+eoynC
zx+&0azBc6CuBE%lwU;KDK99F0ircDe8ln=#r2F|cY*n^}kM)cMLL|(8rb{5`N`J@D
znP9<~w`{=JdWM_3b`<iLZftT7SL~^}snXN%m@aAp<5JkWt{)PG{;IC1uKPEw9PrG}
zi(hKu!hC8?IK|ntWOxSk?-Ke?b=<^_#VXE8L8j7=cO!p)!cL`zQTDH|uQ#nw51>iC
z_DpQoS0FEl(XCVCOO)z2ziBXf<L@(sl)+yvW3N;nV|JFW$muI+l{9#2eYRX?$RDri
zzMZCB<5OFM@|#Jx#0Of<k+ue{^m#*O@m?<Mkyf~}lFqzDE0dgFyGxVD4c57eIhNKR
zax!|^t<P-uAK5HP*m@#mp%4Ha?GGu^eyLptg^3`1aPZ*N2&+fFzY%j!KieTEt#vJx
z%!j5R^SRRMQ*`P}3*EIiXH7~5zcbeT=StOH-BHXt_hD;wNq@ate3E@a%C$Fn=@M0T
z*+_h<$d~l<?u~>`Y;n2xft1}6#r1>6FZsUoB-FsFU~v<82y2vh%m4HB-l=IV{aw~Y
z3eCjQdOwx66npEH^Rqdv4nK159#{P%T@iI%|IXUoA!%IEzUHb-R=}Y#-P~Dec>XO&
zM|<O|6Xgjw_0wJuEKcB_<mIA{)ZQ3iVRrw{knBc}Vz|)eM<a7Zx$SjC&tHB9NL7t_
zODHCkW0xpc2oL2H+pm$I%OX9S4!QZB+(WfAlSfuJMiY8DWJKye<azYm^iB+(*|;4g
zs-H(;-Nm2n)$l`6w4_r;_g=4xd(cEa#u<!cHts%{O_F{emHMBCMO)UiFV-OEdX}fi
z&jkCW(Srt{(45e7SIs3;wk2c!p6u{_?GXz&jjajzR=jVSY44y3v}fTV3p~XkWM9u%
zoe(s$de<zW2POmM)_j`{MPgwhMP8ou-&e3Wk}+xjjTz=^%7@W!=y%^!{x%$QKMF32
zpB>lu`L@Yu>6!mWy9tNLf~alByJVQ4p|9gxAEzIxi5lprKCM3GkR_~qsX!(~lw4cA
zq&{ATO;*83)RWjqw1}@th>WPR%3VG&wDqB!{%zeWtK$Cs{Tudz<gV|d2zK33e$vJC
zZ66p%jrD#=eq=s|Q;>1I+P`|l?o;1@$YkP?T;|3f)l9gCBYI1<la=CR2OMwC<X@T|
zxV?(6RYQAM%Bfjz`qF@ms${`^?;7^@M?{4-L9yn{%YBT#MpQLnW3mJraX@H6?Y}Cx
z=W9C|F!yBk-)^+b_7IJxCSaNIGK+Y^O73^_a#jUD+DX5S&&<W5#QG7riD!{Yabl~j
zLq_pIyY3nwD0<g=zq}Cw<wF3Cz<G0}mC+Ucc<}ZC1LX%d)%WziSQP35IUcDLOUG+{
zQDsu2&HPs@)OG<sq&idO#sYjk2C%(JGi_^nlH3}!EJ|Q>)_J<aR9eNP!)R0y-{5kq
zss5+fz+9G3oZN9fMG9}e;!C={A?mm*nU<Cp&8^<<i&y5m>l$L2$j~QJ+)fhJXXjVj
zc7F5L5kLFNedc}sQ1#3HZ~U!AORw%SZBp8qif(yW2L-Si$QC-D1GU#w==&sxe5t6J
z!>&Ji><v7|T3M)lFx`*brVE{_--wovB_<hJpqw!^408jbH1h%Tn--5iO|OH8FowZ+
zp+56$-(RD~VJyk`L-i!!{NieTYt6x)Jx_{X9Nn$)G+IPSr6lsB4KDoBx@~()_Pmhx
zbkycli7FDs0W`Waz0<VPb232%{TpCpN_pm@9VM_f-o>2p3qG)C{p`GC>SCdD(w^W|
z=nb!22xW6n3!41vAa>SZY%mExPDd#daC;fyY{mq)JgC4rXI{RHV%JH8H`>I3hZWOO
zUAfWTzkE>unoiX@(%jwie!$3>*oTkf0Tw35a;9`QuLI~gRU}`dxbK^SMg3Tq<B>hT
zgrtKCo)1G0fYNN<;eQv|jlIpIRu~U9;V2p#Yo!&WCO4LTy^9ImW+nVDDl)-29LRD_
zSu5{*)4*T56|9?dJi{hjCl-zg`CtfnMj6|^N3oJuRey_2{=p2i`26P>I{TDJwI{!n
z_tB6AN#W)!jlU3~(&J)cX!EtFzd4v;n@JAo?Aa($3~kNNCB6HOGZ=?SXzNS2c1eA|
zJa7RpdiDg3b<o4xGY^QeTV39BY0wwyYSSmo=NmUQ_&B$p6ks!Lvr_Op(>zN&8@6sX
ze$hd)`w++8UTQGpa)#Ww>td%v*y$~w9oT(MVA;aPYCf#0GEEE8FYdo%9_79`m1jAV
z|5LCOr<<tBdm?t`u=c9|@$RNV`%6o>hmE2_5(b163)$LN=^kTDWm)Mqd8@%R$vz$%
zWH!9ZVF^y10_pgemOv(e-Z~JxEM8&ey>2uxP~v134DM6$tYt6LMS2)~@wVbcAf!;g
zD1G*6&eQyobw91_JpE}Ou!YIh3!usGO8rM8`5VH*GND$mK^p6HF>Mvb#*3#D0iv9_
zT)Y2;){*_Jt{4mXX$ZEB4M)tFXPD{eV&<ec+F!IfO34Aqt)-Pr_g~N0o$Gv<c7Ju%
zgt^9$r+;UuvA(8;1}~^g>Uc@F=Wk;8<D%(#hViLK=oWbCY(E!vHb!wLixGBGN|h8f
z+c?bhx7q@rGlPL5gzound=!IExN!Oh{=uzO?Rc6R9Fa_D=BnICAO-4TdXVLX74Q5i
z!Oh1YfQU%uieA9~s>agSw3`nG=T9AhtgB7uB^hsP-PU~*NHx-&U&gtaJ?;Wr#9l?#
zkM4|zWF9v^SlJ&=C}6kywiT9R>k`Nkmdml}H&>7}D9-V#$EQ4Z=o9C$Q^&b2ZSQ>J
z%hrpwNY*;sn#vm<UWN8$si97f#KV<3lrAhROx(EMfAFtmUsZbc&aKQSnVY`Z-XhQ(
sx{P!S2iHgWEO2;1<O%y#^2}e`_Y{NE`Cb+{?t}l76jbGNWlaPA4<VvwTmS$7

literal 0
HcmV?d00001

diff --git a/docs/source/deployment/frameworks/chatbox.md b/docs/source/deployment/frameworks/chatbox.md
new file mode 100644
index 000000000..e62f46471
--- /dev/null
+++ b/docs/source/deployment/frameworks/chatbox.md
@@ -0,0 +1,36 @@
+(deployment-chatbox)=
+
+# Chatbox
+
+[Chatbox](https://github.com/chatboxai/chatbox) is a desktop client for LLMs, available on Windows, Mac, Linux.
+
+It allows you to deploy a large language model (LLM) server with vLLM as the backend, which exposes OpenAI-compatible endpoints.
+
+## Prerequisites
+
+- Setup vLLM environment
+
+## Deploy
+
+- Start the vLLM server with the supported chat completion model, e.g.
+
+```console
+vllm serve qwen/Qwen1.5-0.5B-Chat
+```
+
+- Download and install [Chatbox desktop](https://chatboxai.app/en#download).
+
+- On the bottom left of settings, Add Custom Provider
+  - API Mode: `OpenAI API Compatible`
+  - Name: vllm
+  - API Host: `http://{vllm server host}:{vllm server port}/v1`
+  - API Path: `/chat/completions`
+  - Model: `qwen/Qwen1.5-0.5B-Chat`
+
+:::{image} /assets/deployment/chatbox-settings.png
+:::
+
+- Go to `Just chat`, and start to chat:
+
+:::{image} /assets/deployment/chatbox-chat.png
+:::
diff --git a/docs/source/deployment/frameworks/index.md b/docs/source/deployment/frameworks/index.md
index d1c058eaf..aa3394c37 100644
--- a/docs/source/deployment/frameworks/index.md
+++ b/docs/source/deployment/frameworks/index.md
@@ -6,6 +6,7 @@
 anything-llm
 bentoml
 cerebrium
+chatbox
 dstack
 helm
 lws
-- 
GitLab


From e4ca6e3a99816920df80a1e0a72cd3658d9d134b Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Thu, 8 May 2025 11:42:03 +0100
Subject: [PATCH 228/461] Fix transient dependency error in docs build (#17848)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 requirements/docs.txt | 1 +
 1 file changed, 1 insertion(+)

diff --git a/requirements/docs.txt b/requirements/docs.txt
index ccc5ef0aa..9c267edac 100644
--- a/requirements/docs.txt
+++ b/requirements/docs.txt
@@ -6,6 +6,7 @@ sphinx-design==0.6.1
 sphinx-togglebutton==0.3.2
 myst-parser==3.0.1  # `myst-parser==4.0.1` breaks inline code in titles
 msgspec
+snowballstemmer<3  # https://github.com/snowballstem/snowball/issues/229
 commonmark # Required by sphinx-argparse when using :markdownhelp:
 
 # Custom autodoc2 is necessary for faster docstring processing
-- 
GitLab


From 015815fe01412a26e72e6102d3358e157015cf65 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Thu, 8 May 2025 20:39:21 +0800
Subject: [PATCH 229/461] [Bugfix] `use_fast` failing to be propagated to
 Qwen2-VL image processor (#17838)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 vllm/model_executor/models/qwen2_5_omni_thinker.py | 8 +++++---
 vllm/model_executor/models/qwen2_5_vl.py           | 8 +++++---
 vllm/model_executor/models/qwen2_vl.py             | 8 +++++---
 3 files changed, 15 insertions(+), 9 deletions(-)

diff --git a/vllm/model_executor/models/qwen2_5_omni_thinker.py b/vllm/model_executor/models/qwen2_5_omni_thinker.py
index 039f528db..d8e178f9c 100644
--- a/vllm/model_executor/models/qwen2_5_omni_thinker.py
+++ b/vllm/model_executor/models/qwen2_5_omni_thinker.py
@@ -145,9 +145,11 @@ class Qwen2_5OmniThinkerProcessingInfo(Qwen2AudioProcessingInfo,
             kwargs["fps"] = fps
         processor = self.ctx.get_hf_processor(
             Qwen2_5OmniProcessor,
-            image_processor=self.get_image_processor(min_pixels=min_pixels,
-                                                     max_pixels=max_pixels,
-                                                     size=size),
+            image_processor=self.get_image_processor(
+                min_pixels=min_pixels,
+                max_pixels=max_pixels,
+                size=size,
+                use_fast=kwargs.get("use_fast")),
             **kwargs,
         )
         if not hasattr(processor, "audio_token"):
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 5bef4129b..8728de951 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -758,9 +758,11 @@ class Qwen2_5_VLProcessingInfo(Qwen2VLProcessingInfo):
 
         return self.ctx.get_hf_processor(
             Qwen2_5_VLProcessor,
-            image_processor=self.get_image_processor(min_pixels=min_pixels,
-                                                     max_pixels=max_pixels,
-                                                     size=size),
+            image_processor=self.get_image_processor(
+                min_pixels=min_pixels,
+                max_pixels=max_pixels,
+                size=size,
+                use_fast=kwargs.get("use_fast")),
             **kwargs,
         )
 
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
index a00b756ec..ac0a6de52 100644
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -759,9 +759,11 @@ class Qwen2VLProcessingInfo(BaseProcessingInfo):
     ) -> Qwen2VLProcessor:
         return self.ctx.get_hf_processor(
             Qwen2VLProcessor,
-            image_processor=self.get_image_processor(min_pixels=min_pixels,
-                                                     max_pixels=max_pixels,
-                                                     size=size),
+            image_processor=self.get_image_processor(
+                min_pixels=min_pixels,
+                max_pixels=max_pixels,
+                size=size,
+                use_fast=kwargs.get("use_fast")),
             **kwargs,
         )
 
-- 
GitLab


From a944f8ede7361a5233e112a575ff77c4aaa268a5 Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Thu, 8 May 2025 21:02:21 +0800
Subject: [PATCH 230/461] [Misc] Delete LoRA-related redundancy code (#17841)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 vllm/lora/models.py                        | 2 +-
 vllm/model_executor/models/grok1.py        | 4 +---
 vllm/model_executor/models/nemotron_nas.py | 8 --------
 vllm/model_executor/models/phi4mm.py       | 6 +-----
 4 files changed, 3 insertions(+), 17 deletions(-)

diff --git a/vllm/lora/models.py b/vllm/lora/models.py
index 81e0741a0..9f9d80867 100644
--- a/vllm/lora/models.py
+++ b/vllm/lora/models.py
@@ -344,7 +344,7 @@ class LoRAModelManager(AdapterModelManager):
 
         self.supported_lora_modules = get_supported_lora_modules(self.model)
         assert self.supported_lora_modules, "No supported LoRA modules found in"
-        f"{self.model.__class__.__name__}."
+        f" {self.model.__class__.__name__}."
         if lora_config.long_lora_scaling_factors:
             # We need to replace rotary emb layer to do batch computation
             # for long lora.
diff --git a/vllm/model_executor/models/grok1.py b/vllm/model_executor/models/grok1.py
index c48cb1570..6f56eb2d5 100644
--- a/vllm/model_executor/models/grok1.py
+++ b/vllm/model_executor/models/grok1.py
@@ -504,9 +504,7 @@ class Grok1ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.unpadded_vocab_size,
             config.hidden_size,
             org_num_embeddings=config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE
-            # We need bigger padding if using lora for kernel compatibility
-            if not lora_config else lora_config.lora_vocab_padding_size,
+            padding_size=DEFAULT_VOCAB_PADDING_SIZE,
             quant_config=quant_config,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
diff --git a/vllm/model_executor/models/nemotron_nas.py b/vllm/model_executor/models/nemotron_nas.py
index 264999496..988b994b7 100644
--- a/vllm/model_executor/models/nemotron_nas.py
+++ b/vllm/model_executor/models/nemotron_nas.py
@@ -334,14 +334,6 @@ class DeciLMForCausalLM(nn.Module, SupportsLoRA, SupportsPP, HasNoOps):
     }
 
     # LoRA specific attributes
-    supported_lora_modules = [
-        "qkv_proj",
-        "o_proj",
-        "gate_up_proj",
-        "down_proj",
-        "embed_tokens",
-        "lm_head",
-    ]
     embedding_modules = {
         "embed_tokens": "input_embeddings",
         "lm_head": "output_embeddings",
diff --git a/vllm/model_executor/models/phi4mm.py b/vllm/model_executor/models/phi4mm.py
index 6035994f4..e5ff9cedd 100644
--- a/vllm/model_executor/models/phi4mm.py
+++ b/vllm/model_executor/models/phi4mm.py
@@ -955,11 +955,7 @@ class Phi4MMForCausalLM(nn.Module, SupportsLoRA, SupportsMultiModal):
             self.unpadded_vocab_size,
             config.hidden_size,
             org_num_embeddings=config.vocab_size,
-            padding_size=(
-                DEFAULT_VOCAB_PADDING_SIZE
-                # We need bigger padding if using lora for kernel
-                # compatibility
-                if not lora_config else lora_config.lora_vocab_padding_size),
+            padding_size=DEFAULT_VOCAB_PADDING_SIZE,
             quant_config=quant_config,
         )
         if config.tie_word_embeddings:
-- 
GitLab


From ec54d73c3105ccfdd9b036d1ca0feb62078e20f7 Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Thu, 8 May 2025 12:47:12 -0400
Subject: [PATCH 231/461] [CI] Fix test_collective_rpc (#17858)

Signed-off-by: Russell Bryant <rbryant@redhat.com>
---
 tests/entrypoints/llm/test_collective_rpc.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/tests/entrypoints/llm/test_collective_rpc.py b/tests/entrypoints/llm/test_collective_rpc.py
index d51b7c263..6470249dd 100644
--- a/tests/entrypoints/llm/test_collective_rpc.py
+++ b/tests/entrypoints/llm/test_collective_rpc.py
@@ -10,7 +10,7 @@ from ...utils import create_new_process_for_each_test
 @pytest.mark.parametrize("tp_size", [1, 2])
 @pytest.mark.parametrize("backend", ["mp", "ray"])
 @create_new_process_for_each_test()
-def test_collective_rpc(tp_size, backend):
+def test_collective_rpc(tp_size, backend, monkeypatch):
     if tp_size == 1 and backend == "ray":
         pytest.skip("Skip duplicate test case")
     if tp_size == 1:
@@ -21,6 +21,7 @@ def test_collective_rpc(tp_size, backend):
     def echo_rank(self):
         return self.rank
 
+    monkeypatch.setenv("VLLM_ALLOW_INSECURE_SERIALIZATION", "1")
     llm = LLM(model="meta-llama/Llama-3.2-1B-Instruct",
               enforce_eager=True,
               load_format="dummy",
-- 
GitLab


From 226a4272cf6d184f20c6638f29a409347c6c474b Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Thu, 8 May 2025 12:57:35 -0400
Subject: [PATCH 232/461] [V1] Improve VLLM_ALLOW_INSECURE_SERIALIZATION
 logging (#17860)

Signed-off-by: Russell Bryant <rbryant@redhat.com>
---
 vllm/v1/serial_utils.py | 17 ++++++++++-------
 1 file changed, 10 insertions(+), 7 deletions(-)

diff --git a/vllm/v1/serial_utils.py b/vllm/v1/serial_utils.py
index 6989ad9a4..0dcf02113 100644
--- a/vllm/v1/serial_utils.py
+++ b/vllm/v1/serial_utils.py
@@ -40,6 +40,11 @@ MMF_CLASS_TO_FACTORY: dict[type[BaseMultiModalField], str] = {
 bytestr = Union[bytes, bytearray, memoryview, zmq.Frame]
 
 
+def _log_insecure_serialization_warning():
+    logger.warning_once("Allowing insecure serialization using pickle due to "
+                        "VLLM_ALLOW_INSECURE_SERIALIZATION=1")
+
+
 class MsgpackEncoder:
     """Encoder with custom torch tensor and numpy array serialization.
 
@@ -60,9 +65,7 @@ class MsgpackEncoder:
         self.aux_buffers: Optional[list[bytestr]] = None
         self.size_threshold = size_threshold
         if envs.VLLM_ALLOW_INSECURE_SERIALIZATION:
-            logger.warning(
-                "Allowing insecure serialization using pickle due to "
-                "VLLM_ALLOW_INSECURE_SERIALIZATION=1")
+            _log_insecure_serialization_warning()
 
     def encode(self, obj: Any) -> Sequence[bytestr]:
         try:
@@ -119,7 +122,9 @@ class MsgpackEncoder:
                     for item in itemlist]
 
         if not envs.VLLM_ALLOW_INSECURE_SERIALIZATION:
-            raise TypeError(f"Object of type {type(obj)} is not serializable")
+            raise TypeError(f"Object of type {type(obj)} is not serializable"
+                            "Set VLLM_ALLOW_INSECURE_SERIALIZATION=1 to allow "
+                            "fallback to pickle-based serialization.")
 
         if isinstance(obj, FunctionType):
             # `pickle` is generally faster than cloudpickle, but can have
@@ -202,9 +207,7 @@ class MsgpackDecoder:
                                        dec_hook=self.dec_hook)
         self.aux_buffers: Sequence[bytestr] = ()
         if envs.VLLM_ALLOW_INSECURE_SERIALIZATION:
-            logger.warning(
-                "Allowing insecure deserialization using pickle due to "
-                "VLLM_ALLOW_INSECURE_SERIALIZATION=1")
+            _log_insecure_serialization_warning()
 
     def decode(self, bufs: Union[bytestr, Sequence[bytestr]]) -> Any:
         if isinstance(bufs, (bytes, bytearray, memoryview, zmq.Frame)):
-- 
GitLab


From a83a0f92b56b71855dc38e8e3d9809619e58bcd1 Mon Sep 17 00:00:00 2001
From: yarongmu-google <150371854+yarongmu-google@users.noreply.github.com>
Date: Thu, 8 May 2025 10:20:54 -0700
Subject: [PATCH 233/461] [Test] Attempt all TPU V1 tests, even if some of them
 fail. (#17334)

Signed-off-by: Yarong Mu <ymu@google.com>
---
 .../scripts/hardware_ci/run-tpu-v1-test.sh    | 104 +++++++++++++-----
 1 file changed, 74 insertions(+), 30 deletions(-)

diff --git a/.buildkite/scripts/hardware_ci/run-tpu-v1-test.sh b/.buildkite/scripts/hardware_ci/run-tpu-v1-test.sh
index cae1bffe6..939daddad 100755
--- a/.buildkite/scripts/hardware_ci/run-tpu-v1-test.sh
+++ b/.buildkite/scripts/hardware_ci/run-tpu-v1-test.sh
@@ -1,6 +1,6 @@
 #!/bin/bash
 
-set -xue
+set -xu
 
 # Build the docker image.
 docker build -f docker/Dockerfile.tpu -t vllm-tpu .
@@ -24,36 +24,80 @@ docker run --privileged --net host --shm-size=16G -it \
     && export VLLM_XLA_CHECK_RECOMPILATION=1 \
     && echo HARDWARE \
     && tpu-info \
-    && echo TEST_0 \
-    && pytest -v -s /workspace/vllm/tests/v1/tpu/test_perf.py \
-    && echo TEST_1 \
-    && pytest -v -s /workspace/vllm/tests/tpu/test_compilation.py \
-    && echo TEST_2 \
-    && pytest -v -s /workspace/vllm/tests/v1/tpu/test_basic.py \
-    && echo TEST_3 \
-    && pytest -v -s /workspace/vllm/tests/entrypoints/llm/test_accuracy.py::test_lm_eval_accuracy_v1_engine \
-    && echo TEST_4 \
-    && pytest -s -v /workspace/vllm/tests/tpu/test_quantization_accuracy.py \
-    && echo TEST_5 \
-    && python3 /workspace/vllm/examples/offline_inference/tpu.py \
-    && echo TEST_6 \
-    && pytest -s -v /workspace/vllm/tests/v1/tpu/worker/test_tpu_model_runner.py \
-    && echo TEST_7 \
-    && pytest -s -v /workspace/vllm/tests/v1/tpu/test_sampler.py \
-    && echo TEST_8 \
-    && pytest -s -v /workspace/vllm/tests/v1/tpu/test_topk_topp_sampler.py \
-    && echo TEST_9 \
-    && pytest -s -v /workspace/vllm/tests/v1/tpu/test_multimodal.py \
-    && echo TEST_10 \
-    && pytest -s -v /workspace/vllm/tests/v1/tpu/test_pallas.py \
-    && echo TEST_11 \
-    && pytest -s -v /workspace/vllm/tests/v1/entrypoints/llm/test_struct_output_generate.py \
-    && echo TEST_12 \
-    && pytest -s -v /workspace/vllm/tests/tpu/test_moe_pallas.py" \
+    && { \
+        echo TEST_0: Running test_perf.py; \
+        pytest -s -v /workspace/vllm/tests/tpu/test_perf.py; \
+        echo TEST_0_EXIT_CODE: \$?; \
+    } & \
+    && { \
+        echo TEST_1: Running test_compilation.py; \
+        pytest -s -v /workspace/vllm/tests/tpu/test_compilation.py; \
+        echo TEST_1_EXIT_CODE: \$?; \
+    } & \
+    { \
+        echo TEST_2: Running test_basic.py; \
+        pytest -s -v /workspace/vllm/tests/v1/tpu/test_basic.py; \
+        echo TEST_2_EXIT_CODE: \$?; \
+    } & \
+    { \
+        echo TEST_3: Running test_accuracy.py::test_lm_eval_accuracy_v1_engine; \
+        pytest -s -v /workspace/vllm/tests/entrypoints/llm/test_accuracy.py::test_lm_eval_accuracy_v1_engine; \
+        echo TEST_3_EXIT_CODE: \$?; \
+    } & \
+    { \
+        echo TEST_4: Running test_quantization_accuracy.py; \
+        pytest -s -v /workspace/vllm/tests/tpu/test_quantization_accuracy.py; \
+        echo TEST_4_EXIT_CODE: \$?; \
+    } & \
+    { \
+        echo TEST_5: Running examples/offline_inference/tpu.py; \
+        python3 /workspace/vllm/examples/offline_inference/tpu.py; \
+        echo TEST_5_EXIT_CODE: \$?; \
+    } & \
+    { \
+        echo TEST_6: Running test_tpu_model_runner.py; \
+        pytest -s -v /workspace/vllm/tests/tpu/worker/test_tpu_model_runner.py; \
+        echo TEST_6_EXIT_CODE: \$?; \
+    } & \
+    && { \
+        echo TEST_7: Running test_sampler.py; \
+        pytest -s -v /workspace/vllm/tests/v1/tpu/test_sampler.py; \
+        echo TEST_7_EXIT_CODE: \$?; \
+    } & \
+    && { \
+        echo TEST_8: Running test_topk_topp_sampler.py; \
+        pytest -s -v /workspace/vllm/tests/v1/tpu/test_topk_topp_sampler.py; \
+        echo TEST_8_EXIT_CODE: \$?; \
+    } & \
+    && { \
+        echo TEST_9: Running test_multimodal.py; \
+        pytest -s -v /workspace/vllm/tests/v1/tpu/test_multimodal.py; \
+        echo TEST_9_EXIT_CODE: \$?; \
+    } & \
+    && { \
+        echo TEST_10: Running test_pallas.py; \
+        pytest -s -v /workspace/vllm/tests/v1/tpu/test_pallas.py; \
+        echo TEST_10_EXIT_CODE: \$?; \
+    } & \
+    && { \
+        echo TEST_11: Running test_struct_output_generate.py; \
+        pytest -s -v /workspace/vllm/tests/v1/entrypoints/llm/test_struct_output_generate.py; \
+        echo TEST_11_EXIT_CODE: \$?; \
+    } & \
+    && { \
+        echo TEST_12: Running test_moe_pallas.py; \
+        pytest -s -v /workspace/vllm/tests/tpu/test_moe_pallas.py; \
+        echo TEST_12_EXIT_CODE: \$?; \
+    } & \
     # Disable the TPU LoRA tests until the feature is activated
-    # && echo TEST_13 \
-    # && pytest -s -v /workspace/vllm/tests/tpu/lora/" \
-
+    # && { \
+    #     echo TEST_13: Running test_moe_pallas.py; \
+    #     pytest -s -v /workspace/vllm/tests/tpu/lora/; \
+    #     echo TEST_13_EXIT_CODE: \$?; \
+    # } & \
+    wait \
+    && echo 'All tests have attempted to run. Check logs for individual test statuses and exit codes.' \
+"
 
 # TODO: This test fails because it uses RANDOM_SEED sampling
 # && VLLM_USE_V1=1 pytest -v -s /workspace/vllm/tests/tpu/test_custom_dispatcher.py \
-- 
GitLab


From 8342e3abd118a933bf0da28686d9ef9cfcbe9f81 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Thu, 8 May 2025 15:00:26 -0400
Subject: [PATCH 234/461] [CI] Prune down lm-eval small tests (#17012)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 ...-Llama-3.2-1B-Instruct-FP8-compressed-tensors.yaml | 11 +++++++++++
 .../configs/Qwen2.5-1.5B-Instruct.yaml                | 11 +++++++++++
 .../configs/Qwen2.5-VL-3B-Instruct-FP8-dynamic.yaml   | 11 +++++++++++
 .buildkite/lm-eval-harness/configs/models-large.txt   |  1 +
 .buildkite/lm-eval-harness/configs/models-small.txt   |  8 ++------
 5 files changed, 36 insertions(+), 6 deletions(-)
 create mode 100644 .buildkite/lm-eval-harness/configs/Meta-Llama-3.2-1B-Instruct-FP8-compressed-tensors.yaml
 create mode 100644 .buildkite/lm-eval-harness/configs/Qwen2.5-1.5B-Instruct.yaml
 create mode 100644 .buildkite/lm-eval-harness/configs/Qwen2.5-VL-3B-Instruct-FP8-dynamic.yaml

diff --git a/.buildkite/lm-eval-harness/configs/Meta-Llama-3.2-1B-Instruct-FP8-compressed-tensors.yaml b/.buildkite/lm-eval-harness/configs/Meta-Llama-3.2-1B-Instruct-FP8-compressed-tensors.yaml
new file mode 100644
index 000000000..cca58097e
--- /dev/null
+++ b/.buildkite/lm-eval-harness/configs/Meta-Llama-3.2-1B-Instruct-FP8-compressed-tensors.yaml
@@ -0,0 +1,11 @@
+# bash .buildkite/lm-eval-harness/run-lm-eval-gsm-vllm-baseline.sh -m RedHatAI/Llama-3.2-1B-Instruct-FP8 -b "auto" -l 1319 -f 5 -t 1
+model_name: "RedHatAI/Llama-3.2-1B-Instruct-FP8"
+tasks:
+- name: "gsm8k"
+  metrics:
+  - name: "exact_match,strict-match"
+    value: 0.335
+  - name: "exact_match,flexible-extract"
+    value: 0.323
+limit: 1319
+num_fewshot: 5
diff --git a/.buildkite/lm-eval-harness/configs/Qwen2.5-1.5B-Instruct.yaml b/.buildkite/lm-eval-harness/configs/Qwen2.5-1.5B-Instruct.yaml
new file mode 100644
index 000000000..54579a63a
--- /dev/null
+++ b/.buildkite/lm-eval-harness/configs/Qwen2.5-1.5B-Instruct.yaml
@@ -0,0 +1,11 @@
+# bash .buildkite/lm-eval-harness/run-lm-eval-gsm-vllm-baseline.sh -m Qwen/Qwen2.5-1.5B-Instruct -b auto -l 1319 -f 5 -t 1
+model_name: "Qwen/Qwen2.5-1.5B-Instruct"
+tasks:
+- name: "gsm8k"
+  metrics:
+  - name: "exact_match,strict-match"
+    value: 0.54
+  - name: "exact_match,flexible-extract"
+    value: 0.59
+limit: 1319
+num_fewshot: 5
diff --git a/.buildkite/lm-eval-harness/configs/Qwen2.5-VL-3B-Instruct-FP8-dynamic.yaml b/.buildkite/lm-eval-harness/configs/Qwen2.5-VL-3B-Instruct-FP8-dynamic.yaml
new file mode 100644
index 000000000..a2f235f48
--- /dev/null
+++ b/.buildkite/lm-eval-harness/configs/Qwen2.5-VL-3B-Instruct-FP8-dynamic.yaml
@@ -0,0 +1,11 @@
+# bash .buildkite/lm-eval-harness/run-lm-eval-gsm-vllm-baseline.sh -m RedHatAI/Qwen2.5-VL-3B-Instruct-FP8-Dynamic -b auto -l 1319 -f 5 -t 1
+model_name: "RedHatAI/Qwen2.5-VL-3B-Instruct-FP8-Dynamic"
+tasks:
+- name: "gsm8k"
+  metrics:
+  - name: "exact_match,strict-match"
+    value: 0.47
+  - name: "exact_match,flexible-extract"
+    value: 0.64
+limit: 1319
+num_fewshot: 5
diff --git a/.buildkite/lm-eval-harness/configs/models-large.txt b/.buildkite/lm-eval-harness/configs/models-large.txt
index 37eeac85c..27a1a9a82 100644
--- a/.buildkite/lm-eval-harness/configs/models-large.txt
+++ b/.buildkite/lm-eval-harness/configs/models-large.txt
@@ -3,3 +3,4 @@ Meta-Llama-3-70B-Instruct.yaml
 Mixtral-8x7B-Instruct-v0.1.yaml
 Qwen2-57B-A14-Instruct.yaml
 DeepSeek-V2-Lite-Chat.yaml
+Meta-Llama-3-8B-QQQ.yaml
diff --git a/.buildkite/lm-eval-harness/configs/models-small.txt b/.buildkite/lm-eval-harness/configs/models-small.txt
index 254d01edf..36e054387 100644
--- a/.buildkite/lm-eval-harness/configs/models-small.txt
+++ b/.buildkite/lm-eval-harness/configs/models-small.txt
@@ -1,10 +1,6 @@
-Meta-Llama-3-8B-Instruct.yaml
-Meta-Llama-3-8B-Instruct-FP8-compressed-tensors.yaml
+Qwen2.5-1.5B-Instruct.yaml
 Meta-Llama-3.2-1B-Instruct-INT8-compressed-tensors.yaml
 Meta-Llama-3-8B-Instruct-INT8-compressed-tensors-asym.yaml
 Meta-Llama-3-8B-Instruct-nonuniform-compressed-tensors.yaml
-Meta-Llama-3-8B-Instruct-Channelwise-compressed-tensors.yaml
+Qwen2.5-VL-3B-Instruct-FP8-dynamic.yaml
 Qwen1.5-MoE-W4A16-compressed-tensors.yaml
-Qwen2-1.5B-Instruct-INT8-compressed-tensors.yaml
-Qwen2-1.5B-Instruct-FP8W8.yaml
-Meta-Llama-3-8B-QQQ.yaml
-- 
GitLab


From 4f605a6de5940b52e9f83cd79f542b6732535252 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Thu, 8 May 2025 15:56:59 -0400
Subject: [PATCH 235/461] Fix noisy warning for uncalibrated q_scale/p_scale
 (#17414)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 vllm/model_executor/layers/quantization/kv_cache.py | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/kv_cache.py b/vllm/model_executor/layers/quantization/kv_cache.py
index 5dff8b096..67723c7c9 100644
--- a/vllm/model_executor/layers/quantization/kv_cache.py
+++ b/vllm/model_executor/layers/quantization/kv_cache.py
@@ -124,11 +124,12 @@ class BaseKVCacheMethod(QuantizeMethodBase):
         # These are used in the final Attention.forward()
         layer._q_scale.copy_(q_scale)
         layer._prob_scale.copy_(prob_scale)
-        if q_scale == 1.0 or prob_scale == 1.0:
+        if layer.kv_cache_dtype == "fp8" and (q_scale == 1.0
+                                              or prob_scale == 1.0):
             logger.warning_once(
-                f"Using Q scale {q_scale} and prob scale {prob_scale} "
-                "with fp8 attention. This may cause accuracy issues. "
-                "Please make sure Q/prob scaling factors are "
+                f"Using uncalibrated q_scale {q_scale} and/or prob_scale "
+                f"{prob_scale} with fp8 attention. This may cause accuracy "
+                "issues. Please make sure q/prob scaling factors are "
                 "available in the fp8 checkpoint.")
 
         del layer.k_scale
-- 
GitLab


From 376786fac1fc50e8d788a39a91fa28d1709ad48b Mon Sep 17 00:00:00 2001
From: Shu Wang <shuw@nvidia.com>
Date: Thu, 8 May 2025 17:09:55 -0500
Subject: [PATCH 236/461] Add cutlass support for blackwell fp8 blockwise gemm
 (#14383)

Signed-off-by: Shu Wang <shuw@nvidia.com>
---
 CMakeLists.txt                                |   1 +
 csrc/cutlass_extensions/common.hpp            |  10 +
 .../c3x/scaled_mm_blockwise_sm100_fp8.cu      |  27 +++
 ...scaled_mm_blockwise_sm100_fp8_dispatch.cuh | 205 ++++++++++++++++++
 .../cutlass_w8a8/c3x/scaled_mm_helper.hpp     |  57 +++++
 .../cutlass_w8a8/c3x/scaled_mm_kernels.hpp    |   5 +
 .../cutlass_w8a8/scaled_mm_c3x_sm100.cu       |  22 +-
 .../cutlass_w8a8/scaled_mm_c3x_sm90.cu        |  51 +----
 .../cutlass_w8a8/scaled_mm_entry.cu           |   2 +
 .../quantization/test_cutlass_scaled_mm.py    |   4 +-
 .../layers/quantization/utils/fp8_utils.py    |  12 +
 11 files changed, 332 insertions(+), 64 deletions(-)
 create mode 100644 csrc/quantization/cutlass_w8a8/c3x/scaled_mm_blockwise_sm100_fp8.cu
 create mode 100644 csrc/quantization/cutlass_w8a8/c3x/scaled_mm_blockwise_sm100_fp8_dispatch.cuh
 create mode 100644 csrc/quantization/cutlass_w8a8/c3x/scaled_mm_helper.hpp

diff --git a/CMakeLists.txt b/CMakeLists.txt
index 4b3bfe0af..cad9f4428 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -418,6 +418,7 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
     set(SRCS
       "csrc/quantization/cutlass_w8a8/scaled_mm_c3x_sm100.cu"
       "csrc/quantization/cutlass_w8a8/c3x/scaled_mm_sm100_fp8.cu"
+      "csrc/quantization/cutlass_w8a8/c3x/scaled_mm_blockwise_sm100_fp8.cu"
     )
     set_gencode_flags_for_srcs(
       SRCS "${SRCS}"
diff --git a/csrc/cutlass_extensions/common.hpp b/csrc/cutlass_extensions/common.hpp
index dbe0e30f5..0877da524 100644
--- a/csrc/cutlass_extensions/common.hpp
+++ b/csrc/cutlass_extensions/common.hpp
@@ -59,3 +59,13 @@ struct enable_sm90_only : Kernel {
 #endif
   }
 };
+
+template <typename Kernel>
+struct enable_sm100_only : Kernel {
+  template <typename... Args>
+  CUTLASS_DEVICE void operator()(Args&&... args) {
+#if defined __CUDA_ARCH__ && __CUDA_ARCH__ == 1000
+    Kernel::operator()(std::forward<Args>(args)...);
+#endif
+  }
+};
diff --git a/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_blockwise_sm100_fp8.cu b/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_blockwise_sm100_fp8.cu
new file mode 100644
index 000000000..84492553c
--- /dev/null
+++ b/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_blockwise_sm100_fp8.cu
@@ -0,0 +1,27 @@
+#include "scaled_mm_kernels.hpp"
+#include "scaled_mm_blockwise_sm100_fp8_dispatch.cuh"
+#include "cutlass_extensions/epilogue/scaled_mm_epilogues_c3x.hpp"
+
+namespace vllm {
+
+void cutlass_scaled_mm_blockwise_sm100_fp8(torch::Tensor& out,
+                                           torch::Tensor const& a,
+                                           torch::Tensor const& b,
+                                           torch::Tensor const& a_scales,
+                                           torch::Tensor const& b_scales) {
+  TORCH_CHECK(
+      a.size(0) % 4 == 0,
+      "Input tensor must have a number of rows that is a multiple of 4. ",
+      "but got: ", a.size(0), " rows.");
+  if (out.dtype() == torch::kBFloat16) {
+    cutlass_gemm_blockwise_sm100_fp8_dispatch<cutlass::bfloat16_t>(
+        out, a, b, a_scales, b_scales);
+
+  } else {
+    TORCH_CHECK(out.dtype() == torch::kFloat16);
+    cutlass_gemm_blockwise_sm100_fp8_dispatch<cutlass::half_t>(
+        out, a, b, a_scales, b_scales);
+  }
+}
+
+}  // namespace vllm
diff --git a/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_blockwise_sm100_fp8_dispatch.cuh b/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_blockwise_sm100_fp8_dispatch.cuh
new file mode 100644
index 000000000..ef324364c
--- /dev/null
+++ b/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_blockwise_sm100_fp8_dispatch.cuh
@@ -0,0 +1,205 @@
+#pragma once
+
+#include "cutlass/cutlass.h"
+#include "cutlass/numeric_types.h"
+
+#include "cute/tensor.hpp"
+#include "cutlass/tensor_ref.h"
+#include "cutlass/gemm/dispatch_policy.hpp"
+#include "cutlass/gemm/collective/collective_builder.hpp"
+#include "cutlass/gemm/device/gemm_universal_adapter.h"
+#include "cutlass/gemm/kernel/gemm_universal.hpp"
+#include "cutlass/gemm/kernel/tile_scheduler_params.h"
+#include "cutlass/epilogue/dispatch_policy.hpp"
+#include "cutlass/epilogue/collective/collective_builder.hpp"
+
+#include "cutlass_extensions/gemm/dispatch_policy.hpp"
+#include "cutlass_extensions/gemm/collective/collective_builder.hpp"
+
+#include "cutlass_gemm_caller.cuh"
+
+namespace vllm {
+
+using namespace cute;
+
+template <typename OutType, typename MmaTileShape, typename ScalesPerTile,
+          class ClusterShape, typename EpilogueScheduler,
+          typename MainloopScheduler>
+struct cutlass_3x_gemm_fp8_blockwise {
+  using ElementAB = cutlass::float_e4m3_t;
+
+  using ElementA = ElementAB;
+  using LayoutA = cutlass::layout::RowMajor;
+  static constexpr int AlignmentA = 128 / cutlass::sizeof_bits<ElementA>::value;
+
+  using ElementB = ElementAB;
+  using LayoutB = cutlass::layout::ColumnMajor;
+  static constexpr int AlignmentB = 128 / cutlass::sizeof_bits<ElementB>::value;
+
+  using ElementC = void;
+  using ElementD = OutType;
+  using LayoutD = cutlass::layout::RowMajor;
+  static constexpr int AlignmentD = 128 / cutlass::sizeof_bits<ElementD>::value;
+
+  using LayoutC = LayoutD;
+  static constexpr int AlignmentC = AlignmentD;
+
+  using ElementAccumulator = float;
+  using ElementCompute = float;
+  using ElementBlockScale = float;
+
+  // MMA and Cluster Tile Shapes
+  // Shape of the tile computed by tcgen05 MMA, could be across 2 SMs if Cluster
+  // Shape %2 == 0 using MmaTileShape_MNK = Shape<_128,_128,_128>;
+  static constexpr int ScaleMsPerTile = size<0>(ScalesPerTile{});
+  static constexpr int ScaleGranularityM =
+      size<0>(MmaTileShape{}) / ScaleMsPerTile;
+  static constexpr int ScaleGranularityN =
+      size<1>(MmaTileShape{}) / size<1>(ScalesPerTile{});
+  static constexpr int ScaleGranularityK =
+      size<2>(MmaTileShape{}) / size<2>(ScalesPerTile{});
+
+  // Shape of the threadblocks in a cluster
+  using ClusterShape_MNK = ClusterShape;
+
+  using ScaleConfig = cutlass::detail::Sm100BlockwiseScaleConfig<
+      ScaleGranularityM, ScaleGranularityN, ScaleGranularityK,
+      cute::UMMA::Major::MN, cute::UMMA::Major::K>;
+  using LayoutSFA = decltype(ScaleConfig::deduce_layoutSFA());
+  using LayoutSFB = decltype(ScaleConfig::deduce_layoutSFB());
+
+  using ArchTag = cutlass::arch::Sm100;
+  using OperatorClass = cutlass::arch::OpClassTensorOp;
+
+  static constexpr auto RoundStyle = cutlass::FloatRoundStyle::round_to_nearest;
+  using ElementScalar = float;
+  // clang-format off
+  using DefaultOperation = cutlass::epilogue::fusion::LinearCombination<ElementD, ElementCompute, ElementC, ElementScalar, RoundStyle>;
+  using CollectiveEpilogue = typename cutlass::epilogue::collective::CollectiveBuilder<
+      ArchTag,
+      OperatorClass,
+      MmaTileShape,
+      ClusterShape,
+      cutlass::epilogue::collective::EpilogueTileAuto,
+      ElementAccumulator,
+      ElementCompute,
+      ElementC,
+      LayoutC,
+      AlignmentC,
+      ElementD,
+      LayoutD,
+      AlignmentD,
+      EpilogueScheduler,
+      DefaultOperation
+  >::CollectiveOp;
+ 
+  using StageCountType = cutlass::gemm::collective::StageCountAuto; 
+  using CollectiveMainloop = typename cutlass::gemm::collective::CollectiveBuilder<
+      ArchTag,
+      OperatorClass,
+      ElementA,
+      cute::tuple<LayoutA, LayoutSFA>,
+      AlignmentA,
+      ElementB,
+      cute::tuple<LayoutB, LayoutSFB>,
+      AlignmentB,
+      ElementAccumulator,
+      MmaTileShape,
+      ClusterShape,
+
+          cutlass::gemm::collective::StageCountAutoCarveout<static_cast<int>(sizeof(typename CollectiveEpilogue::SharedStorage))>,
+      MainloopScheduler
+  >::CollectiveOp;
+  // clang-format on
+
+  using KernelType = enable_sm100_only<cutlass::gemm::kernel::GemmUniversal<
+      Shape<int, int, int, int>, CollectiveMainloop, CollectiveEpilogue>>;
+
+  struct GemmKernel : public KernelType {};
+};
+
+template <typename Gemm>
+void cutlass_gemm_caller_blockwise(torch::Tensor& out, torch::Tensor const& a,
+                                   torch::Tensor const& b,
+                                   torch::Tensor const& a_scales,
+                                   torch::Tensor const& b_scales) {
+  using GemmKernel = typename Gemm::GemmKernel;
+  using StrideA = typename Gemm::GemmKernel::StrideA;
+  using StrideB = typename Gemm::GemmKernel::StrideB;
+  using StrideD = typename Gemm::GemmKernel::StrideD;
+  using StrideC = typename Gemm::GemmKernel::StrideC;
+  using LayoutSFA = typename Gemm::LayoutSFA;
+  using LayoutSFB = typename Gemm::LayoutSFB;
+  using ScaleConfig = typename Gemm::ScaleConfig;
+
+  using ElementAB = typename Gemm::ElementAB;
+  using ElementD = typename Gemm::ElementD;
+
+  int32_t m = a.size(0), n = b.size(1), k = a.size(1);
+  auto prob_shape = cute::make_shape(m, n, k, 1);
+
+  StrideA a_stride;
+  StrideB b_stride;
+  StrideC c_stride;
+  a_stride =
+      cutlass::make_cute_packed_stride(StrideA{}, cute::make_shape(m, k, 1));
+  b_stride =
+      cutlass::make_cute_packed_stride(StrideB{}, cute::make_shape(n, k, 1));
+  c_stride =
+      cutlass::make_cute_packed_stride(StrideC{}, cute::make_shape(m, n, 1));
+
+  LayoutSFA layout_SFA =
+      ScaleConfig::tile_atom_to_shape_SFA(make_shape(m, n, k, 1));
+  LayoutSFB layout_SFB =
+      ScaleConfig::tile_atom_to_shape_SFB(make_shape(m, n, k, 1));
+
+  auto a_ptr = static_cast<ElementAB*>(a.data_ptr());
+  auto b_ptr = static_cast<ElementAB*>(b.data_ptr());
+  auto a_scales_ptr = static_cast<float*>(a_scales.data_ptr());
+  auto b_scales_ptr = static_cast<float*>(b_scales.data_ptr());
+
+  typename GemmKernel::MainloopArguments mainloop_args{
+      a_ptr,        a_stride,   b_ptr,        b_stride,
+      a_scales_ptr, layout_SFA, b_scales_ptr, layout_SFB};
+
+  auto c_ptr = static_cast<ElementD*>(out.data_ptr());
+  typename GemmKernel::EpilogueArguments epilogue_args{
+      {}, c_ptr, c_stride, c_ptr, c_stride};
+  c3x::cutlass_gemm_caller<GemmKernel>(a.device(), prob_shape, mainloop_args,
+                                       epilogue_args);
+}
+
+template <typename OutType>
+void cutlass_gemm_blockwise_sm100_fp8_dispatch(torch::Tensor& out,
+                                               torch::Tensor const& a,
+                                               torch::Tensor const& b,
+                                               torch::Tensor const& a_scales,
+                                               torch::Tensor const& b_scales) {
+  auto m = a.size(0);
+  auto k = a.size(1);
+  auto n = b.size(1);
+  int sms;
+  cudaDeviceGetAttribute(&sms, cudaDevAttrMultiProcessorCount, a.get_device());
+
+  auto should_use_2sm = [&sms](int m, int n, int tile1SM = 128) {
+    return std::ceil(static_cast<float>(m) / tile1SM) *
+               std::ceil(static_cast<float>(n) / tile1SM) >=
+           sms;
+  };
+  bool use_2sm = should_use_2sm(m, n);
+  if (use_2sm) {
+    cutlass_gemm_caller_blockwise<cutlass_3x_gemm_fp8_blockwise<
+        OutType, Shape<_256, _128, _128>, Shape<_256, _1, _1>,
+        Shape<_2, _2, _1>, cutlass::epilogue::TmaWarpSpecialized2Sm,
+        cutlass::gemm::KernelTmaWarpSpecializedBlockwise2SmSm100>>(
+        out, a, b, a_scales, b_scales);
+  } else {
+    cutlass_gemm_caller_blockwise<cutlass_3x_gemm_fp8_blockwise<
+        OutType, Shape<_128, _128, _128>, Shape<_128, _1, _1>,
+        Shape<_1, _1, _1>, cutlass::epilogue::TmaWarpSpecialized1Sm,
+        cutlass::gemm::KernelTmaWarpSpecializedBlockwise1SmSm100>>(
+        out, a, b, a_scales, b_scales);
+  }
+}
+
+}  // namespace vllm
diff --git a/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_helper.hpp b/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_helper.hpp
new file mode 100644
index 000000000..b589a4790
--- /dev/null
+++ b/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_helper.hpp
@@ -0,0 +1,57 @@
+#include <torch/all.h>
+#include "cuda_utils.h"
+
+template <typename Fp8Func, typename Int8Func, typename BlockwiseFunc>
+void dispatch_scaled_mm(torch::Tensor& c, torch::Tensor const& a,
+                        torch::Tensor const& b, torch::Tensor const& a_scales,
+                        torch::Tensor const& b_scales,
+                        std::optional<torch::Tensor> const& bias,
+                        Fp8Func fp8_func, Int8Func int8_func,
+                        BlockwiseFunc blockwise_func) {
+  TORCH_CHECK(a_scales.dtype() == torch::kFloat32);
+  TORCH_CHECK(b_scales.dtype() == torch::kFloat32);
+
+  int M = a.size(0), N = b.size(1), K = a.size(1);
+
+  if ((a_scales.numel() == 1 || a_scales.numel() == a.size(0)) &&
+      (b_scales.numel() == 1 || b_scales.numel() == b.size(1))) {
+    // Standard per-tensor/per-token/per-channel scaling
+    TORCH_CHECK(a_scales.is_contiguous() && b_scales.is_contiguous());
+    if (a.dtype() == torch::kFloat8_e4m3fn) {
+      fp8_func(c, a, b, a_scales, b_scales, bias);
+    } else {
+      TORCH_CHECK(a.dtype() == torch::kInt8);
+      if constexpr (!std::is_same_v<Int8Func, std::nullptr_t>) {
+        int8_func(c, a, b, a_scales, b_scales, bias);
+      } else {
+        TORCH_CHECK(false, "Int8 not supported for this architecture");
+      }
+    }
+  } else {
+    using GroupShape = std::array<int64_t, 2>;
+    auto make_group_shape = [](torch::Tensor const& x,
+                               torch::Tensor const& s) -> GroupShape {
+      TORCH_CHECK(s.dim() == 2, "cutlass_scaled_mm group scales must be 2D");
+      return {cuda_utils::ceil_div(x.size(0), s.size(0)),
+              cuda_utils::ceil_div(x.size(1), s.size(1))};
+    };
+
+    GroupShape a_scale_group_shape = make_group_shape(a, a_scales);
+    GroupShape b_scale_group_shape = make_group_shape(b, b_scales);
+
+    // 1x128 per-token group scales for activations
+    // 128x128 blockwise scales for weights
+    TORCH_CHECK((a_scale_group_shape == GroupShape{1, 128} &&
+                 b_scale_group_shape == GroupShape{128, 128} &&
+                 a.dtype() == torch::kFloat8_e4m3fn &&
+                 b.dtype() == torch::kFloat8_e4m3fn),
+                "cutlass_scaled_mm only supports datatype float8_e4m3fn.\n"
+                "a_scale_group_shape must be [1, 128]. Got: [",
+                a_scale_group_shape[0], ", ", a_scale_group_shape[1],
+                "]\n"
+                "b_scale_group_shape must be [128, 128]. Got: [",
+                b_scale_group_shape[0], ", ", b_scale_group_shape[1], "]");
+    TORCH_CHECK(!bias, "Bias not yet supported blockwise scaled_mm");
+    blockwise_func(c, a, b, a_scales, b_scales);
+  }
+}
diff --git a/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_kernels.hpp b/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_kernels.hpp
index 852728047..c1242fdb3 100644
--- a/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_kernels.hpp
+++ b/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_kernels.hpp
@@ -36,4 +36,9 @@ void cutlass_scaled_mm_sm100_fp8(torch::Tensor& out, torch::Tensor const& a,
                                  torch::Tensor const& b_scales,
                                  std::optional<torch::Tensor> const& bias);
 
+void cutlass_scaled_mm_blockwise_sm100_fp8(torch::Tensor& out,
+                                           torch::Tensor const& a,
+                                           torch::Tensor const& b,
+                                           torch::Tensor const& a_scales,
+                                           torch::Tensor const& b_scales);
 }  // namespace vllm
diff --git a/csrc/quantization/cutlass_w8a8/scaled_mm_c3x_sm100.cu b/csrc/quantization/cutlass_w8a8/scaled_mm_c3x_sm100.cu
index 459eb1bb7..0cbd5305e 100644
--- a/csrc/quantization/cutlass_w8a8/scaled_mm_c3x_sm100.cu
+++ b/csrc/quantization/cutlass_w8a8/scaled_mm_c3x_sm100.cu
@@ -1,8 +1,6 @@
-#include <cudaTypedefs.h>
+#include "c3x/scaled_mm_helper.hpp"
 #include "c3x/scaled_mm_kernels.hpp"
 
-#include "cuda_utils.h"
-
 /*
    This file defines quantized GEMM operations using the CUTLASS 3.x API, for
    NVIDIA GPUs with sm100 (Blackwell).
@@ -15,20 +13,10 @@ void cutlass_scaled_mm_sm100(torch::Tensor& c, torch::Tensor const& a,
                              torch::Tensor const& a_scales,
                              torch::Tensor const& b_scales,
                              std::optional<torch::Tensor> const& bias) {
-  TORCH_CHECK(a_scales.dtype() == torch::kFloat32);
-  TORCH_CHECK(b_scales.dtype() == torch::kFloat32);
-
-  int M = a.size(0), N = b.size(1), K = a.size(1);
-  TORCH_CHECK(
-      (a_scales.numel() == 1 || a_scales.numel() == a.size(0)) &&
-          (b_scales.numel() == 1 || b_scales.numel() == b.size(1)),
-      "Currently, block scaled fp8 gemm is not implemented for Blackwell");
-
-  // Standard per-tensor/per-token/per-channel scaling
-  TORCH_CHECK(a_scales.is_contiguous() && b_scales.is_contiguous());
-  TORCH_CHECK(a.dtype() == torch::kFloat8_e4m3fn,
-              "Currently, only fp8 gemm is implemented for Blackwell");
-  vllm::cutlass_scaled_mm_sm100_fp8(c, a, b, a_scales, b_scales, bias);
+  dispatch_scaled_mm(c, a, b, a_scales, b_scales, bias,
+                     vllm::cutlass_scaled_mm_sm100_fp8,
+                     nullptr,  // int8 not supported on SM100
+                     vllm::cutlass_scaled_mm_blockwise_sm100_fp8);
 }
 
 #endif
diff --git a/csrc/quantization/cutlass_w8a8/scaled_mm_c3x_sm90.cu b/csrc/quantization/cutlass_w8a8/scaled_mm_c3x_sm90.cu
index bcb91040d..211302171 100644
--- a/csrc/quantization/cutlass_w8a8/scaled_mm_c3x_sm90.cu
+++ b/csrc/quantization/cutlass_w8a8/scaled_mm_c3x_sm90.cu
@@ -1,8 +1,6 @@
-#include <cudaTypedefs.h>
+#include "c3x/scaled_mm_helper.hpp"
 #include "c3x/scaled_mm_kernels.hpp"
 
-#include "cuda_utils.h"
-
 /*
    This file defines quantized GEMM operations using the CUTLASS 3.x API, for
    NVIDIA GPUs with sm90a (Hopper).
@@ -15,49 +13,10 @@ void cutlass_scaled_mm_sm90(torch::Tensor& c, torch::Tensor const& a,
                             torch::Tensor const& a_scales,
                             torch::Tensor const& b_scales,
                             std::optional<torch::Tensor> const& bias) {
-  TORCH_CHECK(a_scales.dtype() == torch::kFloat32);
-  TORCH_CHECK(b_scales.dtype() == torch::kFloat32);
-
-  int M = a.size(0), N = b.size(1), K = a.size(1);
-
-  if ((a_scales.numel() == 1 || a_scales.numel() == a.size(0)) &&
-      (b_scales.numel() == 1 || b_scales.numel() == b.size(1))) {
-    // Standard per-tensor/per-token/per-channel scaling
-    TORCH_CHECK(a_scales.is_contiguous() && b_scales.is_contiguous());
-    if (a.dtype() == torch::kFloat8_e4m3fn) {
-      vllm::cutlass_scaled_mm_sm90_fp8(c, a, b, a_scales, b_scales, bias);
-    } else {
-      TORCH_CHECK(a.dtype() == torch::kInt8);
-      vllm::cutlass_scaled_mm_sm90_int8(c, a, b, a_scales, b_scales, bias);
-    }
-  } else {
-    using GroupShape = std::array<int64_t, 2>;
-    auto make_group_shape = [](torch::Tensor const& x,
-                               torch::Tensor const& s) -> GroupShape {
-      TORCH_CHECK(s.dim() == 2, "cutlass_scaled_mm group scales must be 2D");
-      return {cuda_utils::ceil_div(x.size(0), s.size(0)),
-              cuda_utils::ceil_div(x.size(1), s.size(1))};
-    };
-
-    GroupShape a_scale_group_shape = make_group_shape(a, a_scales);
-    GroupShape b_scale_group_shape = make_group_shape(b, b_scales);
-
-    // 1x128 per-token group scales for activations
-    // 128x128 blockwise scales for weights
-    TORCH_CHECK((a_scale_group_shape == GroupShape{1, 128} &&
-                 b_scale_group_shape == GroupShape{128, 128} &&
-                 a.dtype() == torch::kFloat8_e4m3fn &&
-                 b.dtype() == torch::kFloat8_e4m3fn),
-                "cutlass_scaled_mm only supports datatype float8_e4m3fn.\n"
-                "a_scale_group_shape must be [1, 128]. Got: [",
-                a_scale_group_shape[0], ", ", a_scale_group_shape[1],
-                "]\n"
-                "b_scale_group_shape must be [128, 128]. Got: [",
-                b_scale_group_shape[0], ", ", b_scale_group_shape[1], "]");
-    TORCH_CHECK(!bias, "Bias not yet supported blockwise scaled_mm");
-
-    vllm::cutlass_scaled_mm_blockwise_sm90_fp8(c, a, b, a_scales, b_scales);
-  }
+  dispatch_scaled_mm(c, a, b, a_scales, b_scales, bias,
+                     vllm::cutlass_scaled_mm_sm90_fp8,
+                     vllm::cutlass_scaled_mm_sm90_int8,
+                     vllm::cutlass_scaled_mm_blockwise_sm90_fp8);
 }
 
 void cutlass_scaled_mm_azp_sm90(torch::Tensor& out, torch::Tensor const& a,
diff --git a/csrc/quantization/cutlass_w8a8/scaled_mm_entry.cu b/csrc/quantization/cutlass_w8a8/scaled_mm_entry.cu
index 54b63894e..ddcc48ccc 100644
--- a/csrc/quantization/cutlass_w8a8/scaled_mm_entry.cu
+++ b/csrc/quantization/cutlass_w8a8/scaled_mm_entry.cu
@@ -110,6 +110,8 @@ bool cutlass_scaled_mm_supports_block_fp8(int64_t cuda_device_capability) {
 #if defined CUDA_VERSION
   if (cuda_device_capability >= 90 && cuda_device_capability < 100) {
     return CUDA_VERSION >= 12000;
+  } else if (cuda_device_capability >= 100) {
+    return CUDA_VERSION >= 12080;
   }
 #endif
 
diff --git a/tests/kernels/quantization/test_cutlass_scaled_mm.py b/tests/kernels/quantization/test_cutlass_scaled_mm.py
index 8084d9bf2..633addd42 100644
--- a/tests/kernels/quantization/test_cutlass_scaled_mm.py
+++ b/tests/kernels/quantization/test_cutlass_scaled_mm.py
@@ -95,7 +95,7 @@ def cutlass_fp8_gemm_helper(m: int,
     out = ops.cutlass_scaled_mm(a, b, scale_a, scale_b, out_dtype, bias)
     baseline = baseline_scaled_mm(a, b, scale_a, scale_b, out_dtype, bias)
 
-    torch.testing.assert_close(out, baseline, rtol=1e-2, atol=5e-2)
+    torch.testing.assert_close(out, baseline, rtol=1e-2, atol=1.5e-1)
 
     opcheck(torch.ops._C.cutlass_scaled_mm,
             (out, a, b, scale_a, scale_b, bias))
@@ -161,6 +161,8 @@ def test_cutlass_fp8_blockwise_scale_gemm(m: int, n: int, k: int,
         return
     if m % a_scale_group_shape[0] != 0 or k % a_scale_group_shape[1] != 0:
         return
+    if m % 4 != 0 and current_platform.has_device_capability(100):
+        return
     cutlass_fp8_gemm_helper(m, n, k, a_scale_group_shape, b_scale_group_shape,
                             use_bias)
 
diff --git a/vllm/model_executor/layers/quantization/utils/fp8_utils.py b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
index 064cbb8cf..3bb42e737 100644
--- a/vllm/model_executor/layers/quantization/utils/fp8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
@@ -57,6 +57,16 @@ def apply_w8a8_block_fp8_linear(
                 or br not in (1, weight.shape[0])):
             shape_supported_by_cutlass = False
     if cutlass_block_fp8_supported and shape_supported_by_cutlass:
+        rows, cols = input_2d.shape
+        # Blackwell GPUs (SM100) require row dimensions to be multiple of 4 for
+        # optimal tensor core usage. Can be removed when targeting platforms
+        # without this constraint.
+        should_pad = current_platform.has_device_capability(
+            100) and rows % 4 != 0
+        if should_pad:
+            input_2d = torch.nn.functional.pad(input_2d,
+                                               (0, 0, 0, 4 - (rows % 4)),
+                                               value=0).contiguous()
         q_input, x_scale = per_token_group_quant_fp8(input_2d,
                                                      block_size[1],
                                                      column_major_scales=True)
@@ -65,6 +75,8 @@ def apply_w8a8_block_fp8_linear(
                                        out_dtype=input.dtype,
                                        scale_a=x_scale,
                                        scale_b=weight_scale.T)
+        if should_pad:
+            output = output[:rows, :]
     else:
         q_input, x_scale = per_token_group_quant_fp8(input_2d,
                                                      block_size[1],
-- 
GitLab


From 3c9396a64fbf47d2568f2941b5b0294419ef33a0 Mon Sep 17 00:00:00 2001
From: vllmellm <vllm.ellm@embeddedllm.com>
Date: Fri, 9 May 2025 10:42:05 +0800
Subject: [PATCH 237/461] [FEAT][ROCm]: Support AITER MLA on V1 Engine (#17523)

Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>
Co-authored-by: qli88 <qiang.li2@amd.com>
Co-authored-by: Hongxia Yang <62075498+hongxiayang@users.noreply.github.com>
---
 docker/Dockerfile.rocm_base                   |   2 +-
 .../attention/test_attention_selector.py      |   5 +-
 .../attention/test_rocm_attention_selector.py |   6 +-
 vllm/attention/ops/rocm_aiter_mla.py          |  46 ++++
 vllm/engine/arg_utils.py                      |   1 +
 .../layers/fused_moe/rocm_aiter_fused_moe.py  |   2 +-
 vllm/platforms/interface.py                   |   3 +-
 vllm/platforms/rocm.py                        |  11 +-
 vllm/v1/attention/backends/mla/common.py      |  11 +-
 .../attention/backends/mla/rocm_aiter_mla.py  | 196 ++++++++++++++++++
 10 files changed, 269 insertions(+), 14 deletions(-)
 create mode 100644 vllm/v1/attention/backends/mla/rocm_aiter_mla.py

diff --git a/docker/Dockerfile.rocm_base b/docker/Dockerfile.rocm_base
index 12009b8aa..222b9c158 100644
--- a/docker/Dockerfile.rocm_base
+++ b/docker/Dockerfile.rocm_base
@@ -12,7 +12,7 @@ ARG PYTORCH_REPO="https://github.com/pytorch/pytorch.git"
 ARG PYTORCH_VISION_REPO="https://github.com/pytorch/vision.git"
 ARG FA_BRANCH="1a7f4dfa"
 ARG FA_REPO="https://github.com/Dao-AILab/flash-attention.git"
-ARG AITER_BRANCH="7e1ed08"
+ARG AITER_BRANCH="5a77249"
 ARG AITER_REPO="https://github.com/ROCm/aiter.git"
 
 FROM ${BASE_IMAGE} AS base
diff --git a/tests/kernels/attention/test_attention_selector.py b/tests/kernels/attention/test_attention_selector.py
index b0414244c..436cb4308 100644
--- a/tests/kernels/attention/test_attention_selector.py
+++ b/tests/kernels/attention/test_attention_selector.py
@@ -102,7 +102,10 @@ def test_env(
                                                    block_size,
                                                    False,
                                                    use_mla=use_mla)
-                        assert backend.get_name() == name
+                        if use_v1 and name != "TRITON_MLA":
+                            assert backend.get_name() == f"{name}_VLLM_V1"
+                        else:
+                            assert backend.get_name() == name
                     else:
                         with pytest.raises(ValueError) as exc_info:
                             get_attn_backend(16,
diff --git a/tests/kernels/attention/test_rocm_attention_selector.py b/tests/kernels/attention/test_rocm_attention_selector.py
index 4cf7bcb01..6ffe27abf 100644
--- a/tests/kernels/attention/test_rocm_attention_selector.py
+++ b/tests/kernels/attention/test_rocm_attention_selector.py
@@ -48,7 +48,8 @@ def test_selector(monkeypatch: pytest.MonkeyPatch):
         m.setenv(STR_BACKEND_ENV_VAR, "ROCM_AITER_MLA")
         backend = get_attn_backend(576, torch.bfloat16, "auto", 1, False,
                                    False, True)
-        assert backend.get_name() == "ROCM_AITER_MLA"
+        assert (backend.get_name() == "ROCM_AITER_MLA"
+                or backend.get_name() == "ROCM_AITER_MLA_VLLM_V1")
 
         # If attention backend is None
         # If use_mla is true
@@ -58,4 +59,5 @@ def test_selector(monkeypatch: pytest.MonkeyPatch):
         m.setenv("VLLM_ROCM_USE_AITER", "1")
         backend = get_attn_backend(576, torch.bfloat16, "auto", 1, False,
                                    False, True)
-        assert backend.get_name() == "ROCM_AITER_MLA"
+        assert (backend.get_name() == "ROCM_AITER_MLA"
+                or backend.get_name() == "ROCM_AITER_MLA_VLLM_V1")
diff --git a/vllm/attention/ops/rocm_aiter_mla.py b/vllm/attention/ops/rocm_aiter_mla.py
index 1c90f8c19..3348d1880 100644
--- a/vllm/attention/ops/rocm_aiter_mla.py
+++ b/vllm/attention/ops/rocm_aiter_mla.py
@@ -4,6 +4,9 @@ from typing import Optional
 
 import torch
 
+from vllm.platforms import current_platform
+from vllm.utils import direct_register_custom_op
+
 
 def get_aiter_mla_metadata(max_batch_size: int, block_size: int,
                            max_block_per_batch: int,
@@ -30,6 +33,28 @@ def aiter_mla_decode_fwd(
     kv_last_page_lens: Optional[torch.Tensor] = None,
     logit_cap: float = 0.0,
 ):
+
+    torch.ops.vllm.rocm_aiter_mla_decode_fwd(q,
+                                             kv_buffer.view(
+                                                 -1, 1, 1, q.shape[-1]),
+                                             o,
+                                             kv_indptr,
+                                             kv_indices,
+                                             kv_last_page_lens,
+                                             sm_scale=sm_scale,
+                                             logit_cap=logit_cap)
+
+
+def mla_decode_fwd_impl(
+    q: torch.Tensor,
+    kv_buffer: torch.Tensor,
+    o: torch.Tensor,
+    kv_indptr: Optional[torch.Tensor] = None,
+    kv_indices: Optional[torch.Tensor] = None,
+    kv_last_page_lens: Optional[torch.Tensor] = None,
+    sm_scale: float = 1.0,
+    logit_cap: float = 0.0,
+) -> None:
     from aiter.mla import mla_decode_fwd
 
     mla_decode_fwd(q,
@@ -40,3 +65,24 @@ def aiter_mla_decode_fwd(
                    kv_last_page_lens,
                    sm_scale=sm_scale,
                    logit_cap=logit_cap)
+
+
+def mla_decode_fwd_fake(
+    q: torch.Tensor,
+    kv_buffer: torch.Tensor,
+    o: torch.Tensor,
+    kv_indptr: Optional[torch.Tensor] = None,
+    kv_indices: Optional[torch.Tensor] = None,
+    kv_last_page_lens: Optional[torch.Tensor] = None,
+    sm_scale: float = 1.0,
+    logit_cap: float = 0.0,
+) -> None:
+    pass
+
+
+if current_platform.is_rocm():
+    direct_register_custom_op(op_name="rocm_aiter_mla_decode_fwd",
+                              op_func=mla_decode_fwd_impl,
+                              mutates_args=["o"],
+                              fake_impl=mla_decode_fwd_fake,
+                              tags=[torch.Tag.needs_fixed_stride_order])
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 27af74e2e..be4be6ed5 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1319,6 +1319,7 @@ class EngineArgs:
             "FLASHMLA",
             "FLASHINFER",
             "FLASHINFER_VLLM_V1",
+            "ROCM_AITER_MLA",
         ]
         if (envs.is_set("VLLM_ATTENTION_BACKEND")
                 and envs.VLLM_ATTENTION_BACKEND not in V1_BACKENDS):
diff --git a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
index acaa93f5a..7d7bce9ec 100644
--- a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
@@ -145,7 +145,7 @@ def rocm_aiter_fmoe_fp8_blockscale_g1u1_fake(
         block_shape: List[int],
         smooth_scale: Optional[torch.Tensor] = None) -> torch.Tensor:
 
-    return torch.empty_like(a1, dtype=torch.bf16)
+    return torch.empty_like(a1, dtype=hidden_states_dtype)
 
 
 def rocm_aiter_asm_moe_impl(hidden_states: torch.Tensor,
diff --git a/vllm/platforms/interface.py b/vllm/platforms/interface.py
index 531b13da0..e9c7f0cb5 100644
--- a/vllm/platforms/interface.py
+++ b/vllm/platforms/interface.py
@@ -39,7 +39,8 @@ class _Backend(enum.Enum):
     TRITON_ATTN_VLLM_V1 = enum.auto()
     XFORMERS = enum.auto()
     ROCM_FLASH = enum.auto()
-    ROCM_AITER_MLA = enum.auto()
+    ROCM_AITER_MLA = enum.auto()  # Supported by V1
+    ROCM_AITER_MLA_VLLM_V1 = enum.auto()
     TORCH_SDPA = enum.auto()
     FLASHINFER = enum.auto()
     TRITON_MLA = enum.auto()  # Supported by V1
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index 03b49e823..ea028e13f 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -168,10 +168,15 @@ class RocmPlatform(Platform):
                     raise ValueError(
                         f" The selected backend, {selected_backend.name},"
                         f"does not support block size {block_size}.")
-            elif selected_backend == _Backend.ROCM_AITER_MLA:
+            elif selected_backend == _Backend.ROCM_AITER_MLA \
+                or selected_backend == _Backend.ROCM_AITER_MLA_VLLM_V1:
                 if block_size == 1:
-                    logger.info("Using AITER MLA backend.")
-                    return "vllm.attention.backends.rocm_aiter_mla.AiterMLABackend"  # noqa: E501
+                    if use_v1:
+                        logger.info("Using AITER MLA backend on V1 engine.")
+                        return "vllm.v1.attention.backends.mla.rocm_aiter_mla.AiterMLABackend"  # noqa: E501
+                    else:
+                        logger.info("Using AITER MLA backend")
+                        return "vllm.attention.backends.rocm_aiter_mla.AiterMLABackend"  # noqa: E501
                 else:
                     raise ValueError(
                         f" The selected backend, {selected_backend.name},"
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index 0d18a5639..0040abeb1 100644
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -496,11 +496,12 @@ class MLACommonMetadataBuilder(Generic[M]):
                 max_context_chunk = (self.chunked_prefill_workspace_size //
                                      num_prefills_with_context_cpu)
 
-                # align max_context_chunk to page_size by rounding down,
-                # currently the `gather_cache` kernel cannot handle
-                # `context_chunk_starts` that are not aligned to page_size
-                max_context_chunk = round_down(max_context_chunk,
-                                               self.page_size)
+                if self.aot_schedule:
+                    # align max_context_chunk to page_size by rounding down,
+                    # currently the `gather_cache` kernel cannot handle
+                    # `context_chunk_starts` that are not aligned to page_size
+                    max_context_chunk = round_down(max_context_chunk,
+                                                   self.page_size)
 
                 assert max_context_chunk > 0
                 num_chunks = cdiv(max_context_len_cpu, max_context_chunk)
diff --git a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
new file mode 100644
index 000000000..909e737dc
--- /dev/null
+++ b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
@@ -0,0 +1,196 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from dataclasses import dataclass
+from typing import Any, Optional
+
+import torch
+
+import vllm.envs as envs
+from vllm.attention.ops.rocm_aiter_mla import aiter_mla_decode_fwd
+# yapf conflicts with isort for this docstring
+# yapf: disable
+from vllm.v1.attention.backends.mla.common import (MLACommonBackend,
+                                                   MLACommonDecodeMetadata,
+                                                   MLACommonImpl,
+                                                   MLACommonMetadata,
+                                                   MLACommonMetadataBuilder)
+
+# yapf: enable
+
+
+def is_aiter_mla_enabled() -> bool:
+    return envs.VLLM_ROCM_USE_AITER \
+        and envs.VLLM_ROCM_USE_AITER_MLA
+
+
+class AiterMLABackend(MLACommonBackend):
+
+    @staticmethod
+    def get_name() -> str:
+        return "ROCM_AITER_MLA_VLLM_V1"
+
+    @staticmethod
+    def get_impl_cls() -> type["AiterMLAImpl"]:
+        return AiterMLAImpl
+
+    @staticmethod
+    def get_metadata_cls() -> type["AiterMLAMetadata"]:
+        return AiterMLAMetadata
+
+    @staticmethod
+    def get_builder_cls() -> type["AiterMLAMetadataBuilder"]:
+        return AiterMLAMetadataBuilder
+
+
+@dataclass
+class AiterMLADecodeMetadata(MLACommonDecodeMetadata):
+    # The indptr of the paged kv cache, shape: [batch_size + 1]
+    paged_kv_indptr: Optional[torch.Tensor] = None
+    # The page indices of the paged kv cache
+    paged_kv_indices: Optional[torch.Tensor] = None
+    # The number of entries in the last page of each request in
+    # the paged kv cache, shape: [batch_size]
+    paged_kv_last_page_len: Optional[torch.Tensor] = None
+
+
+class AiterMLAMetadata(MLACommonMetadata[AiterMLADecodeMetadata]):
+    pass
+
+
+class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
+
+    def __init__(self, runner):
+        super().__init__(runner)
+        max_model_len = self.runner.model_config.max_model_len
+        assert max_model_len == 32768,\
+            "AITER MLA requires max_model_len=32768"
+        assert self.runner.block_size == 1, "AITER MLA" \
+            "only supports block size 1."
+
+    def _get_paged_kv_tensors(
+            self, block_table: torch.Tensor,
+            seq_lens: torch.Tensor) -> tuple[torch.Tensor, ...]:
+        page_size = self.runner.block_size
+        block_table_bounds = (seq_lens + page_size - 1) // page_size
+
+        mask = (torch.arange(block_table.size(1),
+                             dtype=block_table.dtype,
+                             device=block_table.device).unsqueeze(0)
+                < block_table_bounds.unsqueeze(1))
+        paged_kv_indices = block_table[mask]
+
+        paged_kv_indptr = torch.cat([
+            torch.zeros(1,
+                        dtype=block_table_bounds.dtype,
+                        device=block_table_bounds.device),
+            block_table_bounds.cumsum(dim=0, dtype=torch.int32)
+        ])
+
+        paged_kv_last_page_len = seq_lens % page_size
+        paged_kv_last_page_len = torch.where(paged_kv_last_page_len == 0,
+                                             page_size, paged_kv_last_page_len)
+        return (
+            paged_kv_indices,
+            paged_kv_indptr,
+            paged_kv_last_page_len,
+        )
+
+    def _build_decode(self, input_positions: torch.Tensor,
+                      block_table: torch.Tensor,
+                      seq_lens: torch.Tensor) -> AiterMLADecodeMetadata:
+
+        (
+            paged_kv_indices,
+            paged_kv_indptr,
+            paged_last_page_len,
+        ) = self._get_paged_kv_tensors(block_table, seq_lens)
+
+        attn_metadata = AiterMLADecodeMetadata(
+            input_positions=input_positions,
+            block_table=block_table,
+            seq_lens=seq_lens,
+            paged_kv_indptr=paged_kv_indptr,
+            paged_kv_indices=paged_kv_indices,
+            paged_kv_last_page_len=paged_last_page_len)
+
+        return attn_metadata
+
+
+class AiterMLAImpl(MLACommonImpl[AiterMLAMetadata]):
+
+    def __init__(
+            self,
+            num_heads: int,
+            head_size: int,
+            scale: float,
+            num_kv_heads: int,
+            alibi_slopes: Optional[list[float]],
+            sliding_window: Optional[int],
+            kv_cache_dtype: str,
+            blocksparse_params: Optional[dict[str, Any]],
+            logits_soft_cap: Optional[float],
+            attn_type: str,
+            # MLA Specific Arguments
+            **mla_args) -> None:
+        super().__init__(num_heads, head_size, scale, num_kv_heads,
+                         alibi_slopes, sliding_window, kv_cache_dtype,
+                         blocksparse_params, logits_soft_cap, attn_type,
+                         **mla_args)
+
+        unsupported_features = [
+            alibi_slopes, sliding_window, blocksparse_params, logits_soft_cap
+        ]
+        if any(unsupported_features):
+            raise NotImplementedError(
+                "Aiter MLA does not support one of the following: "
+                "alibi_slopes, sliding_window, blocksparse_params, "
+                "logits_soft_cap")
+
+        from aiter import flash_attn_varlen_func
+        self.flash_attn_varlen_func = flash_attn_varlen_func
+
+    def _flash_attn_varlen_diff_headdims(self,
+                                         q,
+                                         k,
+                                         v,
+                                         return_softmax_lse=False,
+                                         softmax_scale=None,
+                                         **kwargs):
+        output = self.flash_attn_varlen_func(
+            q=q,
+            k=k,
+            v=v,
+            softmax_scale=softmax_scale,
+            return_lse=return_softmax_lse,
+            **kwargs,
+        )
+
+        return output
+
+    def _forward_decode(
+        self,
+        q_nope: torch.Tensor,
+        q_pe: torch.Tensor,
+        kv_c_and_k_pe_cache: torch.Tensor,
+        attn_metadata: AiterMLAMetadata,
+    ) -> torch.Tensor:
+        assert kv_c_and_k_pe_cache.numel() > 0
+        assert attn_metadata.decode is not None
+
+        B = q_nope.shape[0]
+
+        q = torch.cat([q_nope, q_pe], dim=-1)
+        o = torch.zeros(B,
+                        self.num_heads,
+                        self.kv_lora_rank,
+                        dtype=q.dtype,
+                        device=q.device)
+
+        kv_buffer = kv_c_and_k_pe_cache.unsqueeze(2)
+
+        aiter_mla_decode_fwd(q, kv_buffer, o, self.scale,
+                             attn_metadata.decode.paged_kv_indptr,
+                             attn_metadata.decode.paged_kv_indices,
+                             attn_metadata.decode.paged_kv_last_page_len)
+
+        return self._v_up_proj(o)
-- 
GitLab


From 760e3ecc8fa0cee06eff55fe08f91f621d4e2221 Mon Sep 17 00:00:00 2001
From: Shanshan Shen <467638484@qq.com>
Date: Fri, 9 May 2025 11:14:18 +0800
Subject: [PATCH 238/461] [V1][Structured Output] Update llguidance (`>=
 0.7.11`) to avoid AttributeError (no `StructTag`)  (#17839)

Signed-off-by: shen-shanshan <467638484@qq.com>
---
 requirements/common.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/requirements/common.txt b/requirements/common.txt
index d6f59ad0b..f537b3aab 100644
--- a/requirements/common.txt
+++ b/requirements/common.txt
@@ -19,7 +19,7 @@ pillow  # Required for image processing
 prometheus-fastapi-instrumentator >= 7.0.0
 tiktoken >= 0.6.0  # Required for DBRX tokenizer
 lm-format-enforcer >= 0.10.11, < 0.11
-llguidance >= 0.7.9, < 0.8.0; platform_machine == "x86_64" or platform_machine == "arm64" or platform_machine == "aarch64"
+llguidance >= 0.7.11, < 0.8.0; platform_machine == "x86_64" or platform_machine == "arm64" or platform_machine == "aarch64"
 outlines == 0.1.11
 lark == 1.2.2
 xgrammar == 0.1.18; platform_machine == "x86_64" or platform_machine == "aarch64"
-- 
GitLab


From 5e6f93948449b8095e8eef5c3d99a8726e216a44 Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Thu, 8 May 2025 23:14:42 -0400
Subject: [PATCH 239/461] [Attention] MLA move rotary embedding to cuda-graph
 region (#17668)

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>
---
 vllm/attention/backends/mla/common.py         | 71 +++----------------
 vllm/attention/backends/rocm_aiter_mla.py     |  6 +-
 .../model_executor/layers/rotary_embedding.py |  5 +-
 vllm/model_executor/models/deepseek_v2.py     |  8 ++-
 vllm/v1/attention/backends/mla/common.py      | 62 +++-------------
 vllm/v1/attention/backends/mla/flashmla.py    |  4 +-
 6 files changed, 35 insertions(+), 121 deletions(-)

diff --git a/vllm/attention/backends/mla/common.py b/vllm/attention/backends/mla/common.py
index 0100c082a..363aa08ef 100644
--- a/vllm/attention/backends/mla/common.py
+++ b/vllm/attention/backends/mla/common.py
@@ -211,8 +211,6 @@ from vllm.attention.utils.fa_utils import get_flash_attn_version
 from vllm.model_executor.layers.linear import (ColumnParallelLinear,
                                                LinearBase,
                                                UnquantizedLinearMethod)
-from vllm.model_executor.layers.rotary_embedding import (
-    DeepseekScalingRotaryEmbedding, RotaryEmbedding)
 from vllm.multimodal import MultiModalPlaceholderMap
 from vllm.platforms import current_platform
 from vllm.triton_utils import HAS_TRITON
@@ -377,7 +375,6 @@ class MLACommonState(AttentionState, Generic[T]):
             seq_start_loc=None,
             context_lens_tensor=None,
             block_tables=self._graph_block_tables[:batch_size],
-            input_positions=self._positions[:batch_size],
             head_dim=self.runner.model_config.get_head_size())
 
         if is_encoder_decoder_model:
@@ -393,7 +390,6 @@ class MLACommonState(AttentionState, Generic[T]):
             "slot_mapping": attn_metadata.slot_mapping,
             "seq_lens_tensor": attn_metadata.decode_metadata.seq_lens_tensor,
             "block_tables": attn_metadata.decode_metadata.block_tables,
-            "input_positions": attn_metadata.decode_metadata.input_positions,
         }
         if is_encoder_decoder_model:
             raise NotImplementedError(
@@ -405,16 +401,10 @@ class MLACommonState(AttentionState, Generic[T]):
                                     input_buffers,
                                     attn_metadata,
                                     is_encoder_decoder_model: bool = False):
-        input_positions = attn_metadata.input_positions
-        num_positions = input_positions.shape[0]
         input_buffers["seq_lens_tensor"].copy_(
             attn_metadata.decode_metadata.seq_lens_tensor, non_blocking=True)
         input_buffers["block_tables"].copy_(
             attn_metadata.decode_metadata.block_tables, non_blocking=True)
-        # CUDA graph buffer is padded so only perform a partial copy based on
-        # num_positions
-        input_buffers["input_positions"][:num_positions].copy_(
-            input_positions, non_blocking=True)
         if is_encoder_decoder_model:
             raise NotImplementedError(
                 "TritonMLAState does not support encoder/decoder yet")
@@ -456,11 +446,6 @@ class MLACommonMetadata(AttentionMetadata):
     # TODO(woosuk): Move `use_cuda_graph` out since it's unrelated to attention.
     use_cuda_graph: bool
 
-    # New for MLA (compared to FlashAttention)
-    # Input positions for rotrary embeddings since for MLA the rotary
-    # position embeddings are applied inside the attention backend
-    input_positions: torch.Tensor
-
     # NOTE(sang): Definition of context_len, query_len, and seq_len.
     # |---------- N-1 iteration --------|
     # |---------------- N iteration ---------------------|
@@ -563,8 +548,6 @@ class MLACommonMetadata(AttentionMetadata):
                                self.context_lens_tensor[:self.num_prefills])
         block_tables = (None if self.block_tables is None else
                         self.block_tables[:self.num_prefills])
-        input_positions = (None if self.input_positions is None else
-                           self.input_positions[:self.num_prefill_tokens])
 
         self._cached_prefill_metadata = self.__class__(
             # Required by ModelRunner
@@ -578,7 +561,6 @@ class MLACommonMetadata(AttentionMetadata):
             multi_modal_placeholder_index_maps=None,
             enable_kv_scales_calculation=False,
             # MLACommonMetadata
-            input_positions=input_positions,
             seq_lens=seq_lens,
             seq_lens_tensor=seq_lens_tensor,
             max_query_len=self.max_query_len,
@@ -615,8 +597,6 @@ class MLACommonMetadata(AttentionMetadata):
                            self.seq_lens_tensor[self.num_prefills:])
         block_tables = (None if self.block_tables is None else
                         self.block_tables[self.num_prefills:])
-        input_positions = (None if self.input_positions is None else
-                           self.input_positions[self.num_prefill_tokens:])
 
         self._cached_decode_metadata = self.__class__(
             # Required by ModelRunner
@@ -646,7 +626,6 @@ class MLACommonMetadata(AttentionMetadata):
             if self.seq_start_loc is not None else None,
             context_lens_tensor=None,
             block_tables=block_tables,
-            input_positions=input_positions,
             head_dim=self.head_dim,
             is_profile_run=self.is_profile_run)
         return self._cached_decode_metadata
@@ -765,7 +744,6 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[T], Generic[T]):
         self.context_lens: List[int] = []
         self.block_tables: List[List[int]] = []
         self.curr_seq_lens: List[int] = []
-        self.input_positions: List[int] = []
         self.multimodal_placeholder_maps: Dict[
             str,
             MultiModalPlaceholderMap] = defaultdict(MultiModalPlaceholderMap)
@@ -786,13 +764,11 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[T], Generic[T]):
         block_tables = inter_data.block_tables
 
         for (seq_id, token_len, seq_len, curr_seq_len, query_len, context_len,
-             curr_sliding_window_block, input_positions) in zip(
+             curr_sliding_window_block) in zip(
                  inter_data.seq_ids, [len(t) for t in inter_data.input_tokens],
                  inter_data.orig_seq_lens, inter_data.seq_lens,
                  inter_data.query_lens, inter_data.context_lens,
-                 inter_data.curr_sliding_window_blocks,
-                 inter_data.input_positions):
-            self.input_positions.extend(input_positions)
+                 inter_data.curr_sliding_window_blocks):
             self.context_lens.append(context_len)
             if is_prompt:
                 self.num_prefills += 1
@@ -912,8 +888,6 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[T], Generic[T]):
                                                device, self.runner.pin_memory)
         seq_lens_tensor = async_tensor_h2d(seq_lens, torch.int, device,
                                            self.runner.pin_memory)
-        input_positions = async_tensor_h2d(self.input_positions, torch.long,
-                                           device, self.runner.pin_memory)
         slot_mapping_tensor = async_tensor_h2d(self.slot_mapping, torch.long,
                                                device, self.runner.pin_memory)
         query_start_loc_tensor = async_tensor_h2d(query_start_loc, torch.int32,
@@ -987,7 +961,6 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[T], Generic[T]):
             multi_modal_placeholder_index_maps=None,  # Not Attention Related
             enable_kv_scales_calculation=False,
             # MLACommonMetadata
-            input_positions=input_positions,
             seq_lens=seq_lens,
             seq_lens_tensor=seq_lens_tensor,
             max_query_len=max_query_len,
@@ -1033,7 +1006,6 @@ class MLACommonImpl(MLAAttentionImpl[T], Generic[T]):
         qk_rope_head_dim: int,
         qk_head_dim: int,
         v_head_dim: int,
-        rotary_emb: RotaryEmbedding,
         kv_b_proj: ColumnParallelLinear,
     ) -> None:
         self.num_heads = num_heads
@@ -1048,10 +1020,6 @@ class MLACommonImpl(MLAAttentionImpl[T], Generic[T]):
         self.qk_rope_head_dim = qk_rope_head_dim
         self.qk_head_dim = qk_head_dim
         self.v_head_dim = v_head_dim
-
-        self.rotary_emb = rotary_emb
-        self.use_yarn_rope = isinstance(rotary_emb,
-                                        DeepseekScalingRotaryEmbedding)
         self.kv_b_proj = kv_b_proj
 
         self.triton_fa_func = triton_attention
@@ -1367,41 +1335,15 @@ class MLACommonImpl(MLAAttentionImpl[T], Generic[T]):
         has_decode = attn_metadata.decode_metadata is not None
         has_prefill = attn_metadata.prefill_metadata is not None
 
-        # Restore head dim (for rotary embedding)
-        k_pe = k_pe.unsqueeze(1)
-        assert hasattr(attn_metadata, "input_positions")
-
         num_prefill_tokens: int = attn_metadata.num_prefill_tokens
         q = q.view(-1, self.num_heads, self.qk_head_dim)
 
         decode_q = q[num_prefill_tokens:]
-        decode_k_pe = k_pe[num_prefill_tokens:]
-        decode_input_positions = \
-            attn_metadata.input_positions[num_prefill_tokens:]
 
         prefill_q = q[:num_prefill_tokens]
         prefill_k_pe = k_pe[:num_prefill_tokens]
-        prefill_input_positions = \
-            attn_metadata.input_positions[:num_prefill_tokens]
         prefill_k_c_normed = k_c_normed[:num_prefill_tokens]
 
-        if has_decode:
-            decode_q_nope, decode_q_pe = decode_q.split(
-                [self.qk_nope_head_dim, self.qk_rope_head_dim], dim=-1)
-            # Convert from (B, N, P) to (N, B, P)
-            decode_q_nope = decode_q_nope.transpose(0, 1)
-            # Multiply (N, B, P) x (N, P, L) -> (N, B, L)
-            decode_ql_nope = torch.bmm(decode_q_nope, self.W_UK_T)
-            # Convert from (N, B, L) to (B, N, L)
-            decode_ql_nope = decode_ql_nope.transpose(0, 1)
-            decode_q_pe[...], decode_k_pe[...] = self.rotary_emb(
-                decode_input_positions, decode_q_pe, decode_k_pe)
-
-        if has_prefill:
-            prefill_q_pe = prefill_q[..., self.qk_nope_head_dim:]
-            prefill_q_pe[...], prefill_k_pe[...] = self.rotary_emb(
-                prefill_input_positions, prefill_q_pe, prefill_k_pe)
-
         # write the latent and rope to kv cache
         if kv_cache.numel() > 0:
             ops.concat_and_cache_mla(
@@ -1424,6 +1366,15 @@ class MLACommonImpl(MLAAttentionImpl[T], Generic[T]):
                 attn_metadata)
 
         if has_decode:
+            decode_q_nope, decode_q_pe = decode_q.split(
+                [self.qk_nope_head_dim, self.qk_rope_head_dim], dim=-1)
+            # Convert from (B, N, P) to (N, B, P)
+            decode_q_nope = decode_q_nope.transpose(0, 1)
+            # Multiply (N, B, P) x (N, P, L) -> (N, B, L)
+            decode_ql_nope = torch.bmm(decode_q_nope, self.W_UK_T)
+            # Convert from (N, B, L) to (B, N, L)
+            decode_ql_nope = decode_ql_nope.transpose(0, 1)
+
             output[num_prefill_tokens:] = self._forward_decode(
                 decode_ql_nope, decode_q_pe, kv_cache, attn_metadata)
 
diff --git a/vllm/attention/backends/rocm_aiter_mla.py b/vllm/attention/backends/rocm_aiter_mla.py
index 2984bc1da..4936c8201 100644
--- a/vllm/attention/backends/rocm_aiter_mla.py
+++ b/vllm/attention/backends/rocm_aiter_mla.py
@@ -148,13 +148,11 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
         block_tables = inter_data.block_tables
 
         for (seq_id, token_len, seq_len, curr_seq_len, query_len, context_len,
-             curr_sliding_window_block, input_positions) in zip(
+             curr_sliding_window_block) in zip(
                  inter_data.seq_ids, [len(t) for t in inter_data.input_tokens],
                  inter_data.orig_seq_lens, inter_data.seq_lens,
                  inter_data.query_lens, inter_data.context_lens,
-                 inter_data.curr_sliding_window_blocks,
-                 inter_data.input_positions):
-            self.input_positions.extend(input_positions)
+                 inter_data.curr_sliding_window_blocks):
             self.context_lens.append(context_len)
             if is_prompt:
                 self.num_prefills += 1
diff --git a/vllm/model_executor/layers/rotary_embedding.py b/vllm/model_executor/layers/rotary_embedding.py
index 32c2a2859..f8392eb67 100644
--- a/vllm/model_executor/layers/rotary_embedding.py
+++ b/vllm/model_executor/layers/rotary_embedding.py
@@ -808,8 +808,9 @@ class DeepseekScalingRotaryEmbedding(RotaryEmbedding):
             query_pass = query[..., self.rotary_dim:]
             key_pass = key[..., self.rotary_dim:]
 
-        self.cos_sin_cache: torch.Tensor = self.cos_sin_cache.to(
-            positions.device)
+        if self.cos_sin_cache.device != positions.device:
+            self.cos_sin_cache: torch.Tensor = self.cos_sin_cache.to(
+                positions.device)
         cos_sin = self.cos_sin_cache[torch.add(positions, offsets)
                                      if offsets is not None else positions]
         cos, sin = cos_sin.chunk(2, dim=-1)
diff --git a/vllm/model_executor/models/deepseek_v2.py b/vllm/model_executor/models/deepseek_v2.py
index ce86b9b2c..0366895ef 100644
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -453,7 +453,6 @@ class DeepseekV2MLAAttention(nn.Module):
             qk_rope_head_dim=self.qk_rope_head_dim,
             qk_head_dim=self.qk_head_dim,
             v_head_dim=self.v_head_dim,
-            rotary_emb=self.rotary_emb,
             kv_b_proj=self.kv_b_proj,
         )
 
@@ -475,6 +474,13 @@ class DeepseekV2MLAAttention(nn.Module):
             [self.kv_lora_rank, self.qk_rope_head_dim], dim=-1)
         kv_c_normed = self.kv_a_layernorm(kv_c.contiguous())
 
+        q = q.view(-1, self.num_local_heads, self.qk_head_dim)
+        # Add head dim of 1 to k_pe
+        k_pe = k_pe.unsqueeze(1)
+
+        q[..., self.qk_nope_head_dim:], k_pe = self.rotary_emb(
+            positions, q[..., self.qk_nope_head_dim:], k_pe)
+
         attn_out = self.mla_attn(
             q,
             kv_c_normed,
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index 0040abeb1..0c740fbcc 100644
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -204,7 +204,6 @@ from vllm.logger import init_logger
 from vllm.model_executor.layers.linear import (ColumnParallelLinear,
                                                LinearBase,
                                                UnquantizedLinearMethod)
-from vllm.model_executor.layers.rotary_embedding import RotaryEmbedding
 from vllm.platforms import current_platform
 from vllm.utils import cdiv, round_down
 from vllm.v1.attention.backends.utils import CommonAttentionMetadata
@@ -269,9 +268,6 @@ class MLACommonPrefillMetadata:
         max_seq_lens: list[int]
         workspace: torch.Tensor
 
-    # Input positions for rotrary embeddings since for MLA the rotary
-    # position embeddings are applied inside the attention backend
-    input_positions: torch.Tensor
     block_table: torch.Tensor
     query_start_loc: torch.Tensor
     max_query_len: int
@@ -280,9 +276,6 @@ class MLACommonPrefillMetadata:
 
 @dataclass
 class MLACommonDecodeMetadata:
-    # Input positions for rotrary embeddings since for MLA the rotary
-    # position embeddings are applied inside the attention backend
-    input_positions: torch.Tensor
     block_table: torch.Tensor
     seq_lens: torch.Tensor
 
@@ -443,10 +436,8 @@ class MLACommonMetadataBuilder(Generic[M]):
 
         return modified_batch
 
-    def _build_decode(self, input_positions: torch.Tensor,
-                      block_table: torch.Tensor, seq_lens: torch.Tensor):
+    def _build_decode(self, block_table: torch.Tensor, seq_lens: torch.Tensor):
         return MLACommonDecodeMetadata(
-            input_positions=input_positions,
             block_table=block_table,
             seq_lens=seq_lens,
         )
@@ -464,8 +455,6 @@ class MLACommonMetadataBuilder(Generic[M]):
             self.runner.input_batch.block_table.get_device_tensor()[:num_reqs])
         slot_mapping = self.runner.slot_mapping_cpu[:num_actual_tokens].to(
             device, non_blocking=True).long()
-        input_positions = self.runner.positions_cpu[:num_actual_tokens].to(
-            device, non_blocking=True).long()
 
         query_start_loc = common_attn_metadata.query_start_loc
         seq_lens = common_attn_metadata.seq_lens
@@ -473,7 +462,6 @@ class MLACommonMetadataBuilder(Generic[M]):
         prefill_metadata = None
         if self._num_prefills > 0:
             reqs_start = self._num_decodes  # prefill_start
-            tokens_start = self._num_decode_tokens
 
             context_lens_cpu = self.runner.input_batch.\
                 num_computed_tokens_cpu_tensor[reqs_start:num_reqs]
@@ -542,7 +530,6 @@ class MLACommonMetadataBuilder(Generic[M]):
                     self.chunked_prefill_workspace_size
 
             prefill_metadata = MLACommonPrefillMetadata(
-                input_positions=input_positions[tokens_start:],
                 block_table=block_table[reqs_start:, ...],
                 query_start_loc=prefill_query_start_loc,
                 max_query_len=max_query_len,
@@ -552,7 +539,6 @@ class MLACommonMetadataBuilder(Generic[M]):
         decode_metadata = None
         if self._num_decodes > 0:
             decode_metadata = self._build_decode(
-                input_positions=input_positions[:self._num_decode_tokens],
                 block_table=block_table[:self._num_decodes, ...],
                 seq_lens=seq_lens[:self._num_decodes],
             )
@@ -599,7 +585,6 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
         qk_rope_head_dim: int,
         qk_head_dim: int,
         v_head_dim: int,
-        rotary_emb: RotaryEmbedding,
         kv_b_proj: ColumnParallelLinear,
     ) -> None:
         self.num_heads = num_heads
@@ -614,15 +599,6 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
         self.qk_rope_head_dim = qk_rope_head_dim
         self.qk_head_dim = qk_head_dim
         self.v_head_dim = v_head_dim
-
-        # Hack for V1 for now to avoid torch library overhead (since we are
-        # already inside an attention custom op), pull out the forward
-        # method from the rotary embedding and call it directly
-        # TODO(lucas): we should probably find a cleaner way to do this
-        self.rotary_emb = rotary_emb.forward_native
-        if current_platform.is_cuda():
-            self.rotary_emb = rotary_emb.forward_cuda
-
         self.kv_b_proj = kv_b_proj
         self.vllm_flash_attn_version = get_flash_attn_version()
 
@@ -894,9 +870,6 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
         k_c_normed = k_c_normed[:num_actual_toks, ...]
         k_pe = k_pe[:num_actual_toks, ...]
 
-        # Restore head dim (for rotary embedding)
-        k_pe = k_pe.unsqueeze(1)
-
         assert attn_metadata.num_decodes is not None and \
             attn_metadata.num_prefills is not None and \
             attn_metadata.num_decode_tokens is not None
@@ -905,35 +878,12 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
         has_prefill = attn_metadata.num_prefills > 0
         num_decode_tokens = attn_metadata.num_decode_tokens
 
-        q = q.view(-1, self.num_heads, self.qk_head_dim)
         decode_q = q[:num_decode_tokens]
-        decode_k_pe = k_pe[:num_decode_tokens]
 
         prefill_q = q[num_decode_tokens:]
         prefill_k_pe = k_pe[num_decode_tokens:]
         prefill_k_c_normed = k_c_normed[num_decode_tokens:]
 
-        if has_decode:
-            assert attn_metadata.decode is not None
-            decode_q_nope, decode_q_pe = decode_q.split(
-                [self.qk_nope_head_dim, self.qk_rope_head_dim], dim=-1)
-            # Convert from (B, N, P) to (N, B, P)
-            decode_q_nope = decode_q_nope.transpose(0, 1)
-            # Multiply (N, B, P) x (N, P, L) -> (N, B, L)
-            decode_ql_nope = torch.bmm(decode_q_nope, self.W_UK_T)
-            # Convert from (N, B, L) to (B, N, L)
-            decode_ql_nope = decode_ql_nope.transpose(0, 1)
-            decode_q_pe[...], decode_k_pe[...] = self.rotary_emb(
-                attn_metadata.decode.input_positions, decode_q_pe, decode_k_pe)
-
-        if has_prefill:
-            assert attn_metadata.prefill is not None
-            prefill_q_pe = prefill_q[..., self.qk_nope_head_dim:]
-
-            prefill_q_pe[...], prefill_k_pe[...] = self.rotary_emb(
-                attn_metadata.prefill.input_positions, prefill_q_pe,
-                prefill_k_pe)
-
         # write the latent and rope to kv cache
         if kv_cache.numel() > 0:
             ops.concat_and_cache_mla(
@@ -951,6 +901,16 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
                 attn_metadata)
 
         if has_decode:
+            assert attn_metadata.decode is not None
+            decode_q_nope, decode_q_pe = decode_q.split(
+                [self.qk_nope_head_dim, self.qk_rope_head_dim], dim=-1)
+            # Convert from (B, N, P) to (N, B, P)
+            decode_q_nope = decode_q_nope.transpose(0, 1)
+            # Multiply (N, B, P) x (N, P, L) -> (N, B, L)
+            decode_ql_nope = torch.bmm(decode_q_nope, self.W_UK_T)
+            # Convert from (N, B, L) to (B, N, L)
+            decode_ql_nope = decode_ql_nope.transpose(0, 1)
+
             output[:num_decode_tokens] = self._forward_decode(
                 decode_ql_nope, decode_q_pe, kv_cache, attn_metadata)
 
diff --git a/vllm/v1/attention/backends/mla/flashmla.py b/vllm/v1/attention/backends/mla/flashmla.py
index f18c9c8b6..2f35f9b0a 100644
--- a/vllm/v1/attention/backends/mla/flashmla.py
+++ b/vllm/v1/attention/backends/mla/flashmla.py
@@ -58,8 +58,7 @@ class FlashMLAMetadataBuilder(MLACommonMetadataBuilder[FlashMLAMetadata]):
         self.num_q_heads = self.runner.model_config.get_num_attention_heads(
             self.runner.parallel_config)
 
-    def _build_decode(self, input_positions: torch.Tensor,
-                      block_table: torch.Tensor,
+    def _build_decode(self, block_table: torch.Tensor,
                       seq_lens: torch.Tensor) -> FlashMLADecodeMetadata:
         tile_scheduler_metadata, num_splits = \
             get_mla_metadata(
@@ -69,7 +68,6 @@ class FlashMLAMetadataBuilder(MLACommonMetadataBuilder[FlashMLAMetadata]):
         )
 
         return FlashMLADecodeMetadata(
-            input_positions=input_positions,
             block_table=block_table,
             seq_lens=seq_lens,
             tile_scheduler_metadata=tile_scheduler_metadata,
-- 
GitLab


From d310e6de989384222c516ce83ccc3099e9a8d65e Mon Sep 17 00:00:00 2001
From: Ning Xie <andy.xning@gmail.com>
Date: Fri, 9 May 2025 12:25:41 +0800
Subject: [PATCH 240/461] [BUGFIX]: return fast when request requires prompt
 logprobs (#17251)

---
 tests/v1/core/test_prefix_caching.py |  4 ++--
 vllm/v1/core/kv_cache_manager.py     | 10 +++++-----
 2 files changed, 7 insertions(+), 7 deletions(-)

diff --git a/tests/v1/core/test_prefix_caching.py b/tests/v1/core/test_prefix_caching.py
index 01295e848..ea4ec8a62 100644
--- a/tests/v1/core/test_prefix_caching.py
+++ b/tests/v1/core/test_prefix_caching.py
@@ -194,7 +194,7 @@ def test_prefill_plp():
     all_token_ids = common_token_ids + unique_token_ids
     req0 = make_request("0", all_token_ids, prompt_logprobs=5)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req0)
-    assert len(manager.req_to_block_hashes[req0.request_id]) == 3
+    assert len(manager.req_to_block_hashes[req0.request_id]) == 0
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     blocks = manager.allocate_slots(req0, 55, computed_blocks)
@@ -256,7 +256,7 @@ def test_prefill_plp():
                         common_token_ids + unique_token_ids,
                         prompt_logprobs=5)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req2)
-    assert len(manager.req_to_block_hashes[req2.request_id]) == 3
+    assert len(manager.req_to_block_hashes[req2.request_id]) == 0
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     blocks = manager.allocate_slots(req2, 55, computed_blocks)
diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
index 9e172b6bd..8ef8143d1 100644
--- a/vllm/v1/core/kv_cache_manager.py
+++ b/vllm/v1/core/kv_cache_manager.py
@@ -126,8 +126,11 @@ class KVCacheManager:
                 - A list of blocks that are computed for the request.
                 - The number of computed tokens.
         """
-        if not self.enable_caching:
-            # Prefix caching is disabled.
+
+        # Prefix caching is disabled or
+        # When the request requires prompt logprobs, we skip prefix caching.
+        if (not self.enable_caching
+                or request.sampling_params.prompt_logprobs is not None):
             return KVCacheBlocks.create_empty(), 0
 
         # The block hashes for the request may already be computed
@@ -141,9 +144,6 @@ class KVCacheManager:
         if self.log_stats:
             assert self.prefix_cache_stats is not None
             self.prefix_cache_stats.requests += 1
-        # When the request requires prompt logprobs, we skip prefix caching.
-        if request.sampling_params.prompt_logprobs is not None:
-            return KVCacheBlocks.create_empty(), 0
 
         if len(block_hashes) * self.block_size == request.num_tokens:
             # When prompt length is divisible by the block size and all
-- 
GitLab


From 3d1e3876520ae60271b14e009829a53e1cfb3e86 Mon Sep 17 00:00:00 2001
From: Simon Mo <simon.mo@hey.com>
Date: Thu, 8 May 2025 21:46:54 -0700
Subject: [PATCH 241/461] [Docs] Add Slides from NYC Meetup (#17879)

Signed-off-by: simon-mo <simon.mo@hey.com>
---
 README.md                        | 12 +++++++-----
 docs/source/community/meetups.md |  1 +
 2 files changed, 8 insertions(+), 5 deletions(-)

diff --git a/README.md b/README.md
index dda3ae600..df294c600 100644
--- a/README.md
+++ b/README.md
@@ -16,18 +16,20 @@ Easy, fast, and cheap LLM serving for everyone
 ---
 
 *Latest News* 🔥
+- [2025/05] We hosted [NYC vLLM Meetup](https://lu.ma/c1rqyf1f)! Please find the meetup slides [here](https://docs.google.com/presentation/d/1_q_aW_ioMJWUImf1s1YM-ZhjXz8cUeL0IJvaquOYBeA/edit?usp=sharing).
+- [2025/05] vLLM is now a hosted project under PyTorch Foundation! Please find the announcement [here](https://pytorch.org/blog/pytorch-foundation-welcomes-vllm/).
 - [2025/04] We hosted [Asia Developer Day](https://www.sginnovate.com/event/limited-availability-morning-evening-slots-remaining-inaugural-vllm-asia-developer-day)! Please find the meetup slides from the vLLM team [here](https://docs.google.com/presentation/d/19cp6Qu8u48ihB91A064XfaXruNYiBOUKrBxAmDOllOo/edit?usp=sharing).
+- [2025/01] We are excited to announce the alpha release of vLLM V1: A major architectural upgrade with 1.7x speedup! Clean code, optimized execution loop, zero-overhead prefix caching, enhanced multimodal support, and more. Please check out our blog post [here](https://blog.vllm.ai/2025/01/27/v1-alpha-release.html).
+
+<details>
+<summary>Previous News</summary>
+
 - [2025/03] We hosted [vLLM x Ollama Inference Night](https://lu.ma/vllm-ollama)! Please find the meetup slides from the vLLM team [here](https://docs.google.com/presentation/d/16T2PDD1YwRnZ4Tu8Q5r6n53c5Lr5c73UV9Vd2_eBo4U/edit?usp=sharing).
 - [2025/03] We hosted [the first vLLM China Meetup](https://mp.weixin.qq.com/s/n77GibL2corAtQHtVEAzfg)! Please find the meetup slides from vLLM team [here](https://docs.google.com/presentation/d/1REHvfQMKGnvz6p3Fd23HhSO4c8j5WPGZV0bKYLwnHyQ/edit?usp=sharing).
 - [2025/03] We hosted [the East Coast vLLM Meetup](https://lu.ma/7mu4k4xx)! Please find the meetup slides [here](https://docs.google.com/presentation/d/1NHiv8EUFF1NLd3fEYODm56nDmL26lEeXCaDgyDlTsRs/edit#slide=id.g31441846c39_0_0).
 - [2025/02] We hosted [the ninth vLLM meetup](https://lu.ma/h7g3kuj9) with Meta! Please find the meetup slides from vLLM team [here](https://docs.google.com/presentation/d/1jzC_PZVXrVNSFVCW-V4cFXb6pn7zZ2CyP_Flwo05aqg/edit?usp=sharing) and AMD [here](https://drive.google.com/file/d/1Zk5qEJIkTmlQ2eQcXQZlljAx3m9s7nwn/view?usp=sharing). The slides from Meta will not be posted.
-- [2025/01] We are excited to announce the alpha release of vLLM V1: A major architectural upgrade with 1.7x speedup! Clean code, optimized execution loop, zero-overhead prefix caching, enhanced multimodal support, and more. Please check out our blog post [here](https://blog.vllm.ai/2025/01/27/v1-alpha-release.html).
 - [2025/01] We hosted [the eighth vLLM meetup](https://lu.ma/zep56hui) with Google Cloud! Please find the meetup slides from vLLM team [here](https://docs.google.com/presentation/d/1epVkt4Zu8Jz_S5OhEHPc798emsYh2BwYfRuDDVEF7u4/edit?usp=sharing), and Google Cloud team [here](https://drive.google.com/file/d/1h24pHewANyRL11xy5dXUbvRC9F9Kkjix/view?usp=sharing).
 - [2024/12] vLLM joins [pytorch ecosystem](https://pytorch.org/blog/vllm-joins-pytorch)! Easy, Fast, and Cheap LLM Serving for Everyone!
-
-<details>
-<summary>Previous News</summary>
-
 - [2024/11] We hosted [the seventh vLLM meetup](https://lu.ma/h0qvrajz) with Snowflake! Please find the meetup slides from vLLM team [here](https://docs.google.com/presentation/d/1e3CxQBV3JsfGp30SwyvS3eM_tW-ghOhJ9PAJGK6KR54/edit?usp=sharing), and Snowflake team [here](https://docs.google.com/presentation/d/1qF3RkDAbOULwz9WK5TOltt2fE9t6uIc_hVNLFAaQX6A/edit?usp=sharing).
 - [2024/10] We have just created a developer slack ([slack.vllm.ai](https://slack.vllm.ai)) focusing on coordinating contributions and discussing features. Please feel free to join us there!
 - [2024/10] Ray Summit 2024 held a special track for vLLM! Please find the opening talk slides from the vLLM team [here](https://docs.google.com/presentation/d/1B_KQxpHBTRa_mDF-tR6i8rWdOU5QoTZNcEg2MKZxEHM/edit?usp=sharing). Learn more from the [talks](https://www.youtube.com/playlist?list=PLzTswPQNepXl6AQwifuwUImLPFRVpksjR) from other vLLM contributors and users!
diff --git a/docs/source/community/meetups.md b/docs/source/community/meetups.md
index 085918bed..aa1a71c86 100644
--- a/docs/source/community/meetups.md
+++ b/docs/source/community/meetups.md
@@ -4,6 +4,7 @@
 
 We host regular meetups in San Francisco Bay Area every 2 months. We will share the project updates from the vLLM team and have guest speakers from the industry to share their experience and insights. Please find the materials of our previous meetups below:
 
+- [NYC vLLM Meetup](https://lu.ma/c1rqyf1f), May 7th, 2025. [[Slides]](https://docs.google.com/presentation/d/1_q_aW_ioMJWUImf1s1YM-ZhjXz8cUeL0IJvaquOYBeA/edit?usp=sharing)
 - [Asia Developer Day](https://www.sginnovate.com/event/limited-availability-morning-evening-slots-remaining-inaugural-vllm-asia-developer-day), April 3rd 2025. [[Slides]](https://docs.google.com/presentation/d/19cp6Qu8u48ihB91A064XfaXruNYiBOUKrBxAmDOllOo/edit?usp=sharing).
 - [vLLM x Ollama Inference Night](https://lu.ma/vllm-ollama), March 27th 2025. [[Slides]](https://docs.google.com/presentation/d/16T2PDD1YwRnZ4Tu8Q5r6n53c5Lr5c73UV9Vd2_eBo4U/edit?usp=sharing).
 - [The first vLLM China Meetup](https://mp.weixin.qq.com/s/n77GibL2corAtQHtVEAzfg), March 16th 2025. [[Slides]](https://docs.google.com/presentation/d/1REHvfQMKGnvz6p3Fd23HhSO4c8j5WPGZV0bKYLwnHyQ/edit?usp=sharing).
-- 
GitLab


From 89a0315f4cdf34da40d7634a069068c09082b7dc Mon Sep 17 00:00:00 2001
From: Michael Yao <haifeng.yao@daocloud.io>
Date: Fri, 9 May 2025 16:20:55 +0800
Subject: [PATCH 242/461] [Doc] Update several links in reasoning_outputs.md
 (#17846)

Signed-off-by: windsonsea <haifeng.yao@daocloud.io>
---
 docs/source/features/reasoning_outputs.md | 14 ++++++++------
 1 file changed, 8 insertions(+), 6 deletions(-)

diff --git a/docs/source/features/reasoning_outputs.md b/docs/source/features/reasoning_outputs.md
index a079eb8b7..4759d0c26 100644
--- a/docs/source/features/reasoning_outputs.md
+++ b/docs/source/features/reasoning_outputs.md
@@ -17,7 +17,9 @@ vLLM currently supports the following reasoning models:
 | [IBM Granite 3.2 language models](https://huggingface.co/collections/ibm-granite/granite-32-language-models-67b3bc8c13508f6d064cff9a) | `granite` | ❌ | ❌ |
 | [Qwen3 series](https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f) | `qwen3` | `guided_json`, `guided_regex` | ✅ |
 
-- IBM Granite 3.2 reasoning is disabled by default; to enable it, you must also pass `thinking=True` in your `chat_template_kwargs`.
+:::{note}
+IBM Granite 3.2 reasoning is disabled by default; to enable it, you must also pass `thinking=True` in your `chat_template_kwargs`.
+:::
 
 ## Quickstart
 
@@ -83,7 +85,7 @@ Streaming chat completions are also supported for reasoning models. The `reasoni
 }
 ```
 
-OpenAI Python client library does not officially support `reasoning_content` attribute for streaming output. But the client support extra attributes in the response. You can use `hasattr` to check if the `reasoning_content` attribute is present in the response. For example:
+OpenAI Python client library does not officially support `reasoning_content` attribute for streaming output. But the client supports extra attributes in the response. You can use `hasattr` to check if the `reasoning_content` attribute is present in the response. For example:
 
 ```python
 from openai import OpenAI
@@ -221,7 +223,7 @@ print(f"Function called: {tool_call.name}")
 print(f"Arguments: {tool_call.arguments}")
 ```
 
-For more examples, please refer to <gh-file:examples/online_serving/openai_chat_completion_tool_calls_with_reasoning.py> .
+For more examples, please refer to <gh-file:examples/online_serving/openai_chat_completion_tool_calls_with_reasoning.py>.
 
 ## Limitations
 
@@ -229,7 +231,7 @@ For more examples, please refer to <gh-file:examples/online_serving/openai_chat_
 
 ## How to support a new reasoning model
 
-You can add a new `ReasoningParser` similar to `vllm/entrypoints/openai/reasoning_parsers/deepseek_r1_reasoning_parser.py`.
+You can add a new `ReasoningParser` similar to <gh-file:vllm/entrypoints/openai/reasoning_parsers/deepseek_r1_reasoning_parser.py>.
 
 ```python
 # import the required packages
@@ -286,7 +288,7 @@ class ExampleParser(ReasoningParser):
         """
 ```
 
-Additionally, to enable structured output, you'll need to create a new `Reasoner` similar to the one in `vllm/model_executor/guided_decoding/reasoner/deepseek_reasoner.py`.
+Additionally, to enable structured output, you'll need to create a new `Reasoner` similar to the one in <gh-file:vllm/model_executor/guided_decoding/reasoner/deepseek_reasoner.py>.
 
 ```python
 @dataclass
@@ -312,7 +314,7 @@ class DeepSeekReasoner(Reasoner):
     ...
 ```
 
-The structured output engine like `xgrammar` will use `end_token_id` to check if the reasoning content is present in the model output and skip the structured output if it is the case.
+The structured output engine like [xgrammar](https://github.com/mlc-ai/xgrammar) will use `end_token_id` to check if the reasoning content is present in the model output and skip the structured output if it is the case.
 
 Finally, you can enable reasoning for the model by using the `--reasoning-parser` flags.
 
-- 
GitLab


From ff8c40050234f3319ad4e8afd45fd70e50cb50b3 Mon Sep 17 00:00:00 2001
From: Yan Ma <yanma1@habana.ai>
Date: Fri, 9 May 2025 16:21:31 +0800
Subject: [PATCH 243/461] [Doc] remove visible token in doc (#17884)

Signed-off-by: yan <yanma1@habana.ai>
---
 docs/source/design/v1/prefix_caching.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/source/design/v1/prefix_caching.md b/docs/source/design/v1/prefix_caching.md
index ec661d8ec..0f7475777 100644
--- a/docs/source/design/v1/prefix_caching.md
+++ b/docs/source/design/v1/prefix_caching.md
@@ -86,7 +86,7 @@ To improve privacy in shared environments, vLLM supports isolating prefix cache
     {"role": "user", "content": "Here is a document with details about the world series: ..."},
     {"role": "user", "content": "Who won the world series in 2020?"}
   ],
-  "cache_salt": "Z3V2bmV3aGxza3ZubGFoZ3Zud3V3ZWZ2bmd0b3V2bnZmc2xpZ3RoZ2x2aQ=="
+  "cache_salt": "your-cache-salt"
 }
 ```
 
-- 
GitLab


From 217db4baa6466f89d893386ea1cefee176dc45d6 Mon Sep 17 00:00:00 2001
From: vllmellm <vllm.ellm@embeddedllm.com>
Date: Fri, 9 May 2025 16:38:21 +0800
Subject: [PATCH 244/461] [Bugfix][ROCm] Fix AITER MLA V1 (#17880)

Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>
---
 vllm/v1/attention/backends/mla/rocm_aiter_mla.py | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
index 909e737dc..37b72c08d 100644
--- a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
+++ b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
@@ -95,8 +95,7 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
             paged_kv_last_page_len,
         )
 
-    def _build_decode(self, input_positions: torch.Tensor,
-                      block_table: torch.Tensor,
+    def _build_decode(self, block_table: torch.Tensor,
                       seq_lens: torch.Tensor) -> AiterMLADecodeMetadata:
 
         (
@@ -106,7 +105,6 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
         ) = self._get_paged_kv_tensors(block_table, seq_lens)
 
         attn_metadata = AiterMLADecodeMetadata(
-            input_positions=input_positions,
             block_table=block_table,
             seq_lens=seq_lens,
             paged_kv_indptr=paged_kv_indptr,
-- 
GitLab


From 6e4a93e3f78a6af2447328d1e7db0fa66f0bc5be Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Fri, 9 May 2025 16:55:14 +0800
Subject: [PATCH 245/461] [Bugfix][CPU] Fix broken AVX2 CPU TP support (#17252)

Signed-off-by: Isotr0py <2037008807@qq.com>
---
 vllm/distributed/device_communicators/cpu_communicator.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/vllm/distributed/device_communicators/cpu_communicator.py b/vllm/distributed/device_communicators/cpu_communicator.py
index 1f4b4faf1..296f5f2b4 100644
--- a/vllm/distributed/device_communicators/cpu_communicator.py
+++ b/vllm/distributed/device_communicators/cpu_communicator.py
@@ -22,7 +22,8 @@ class CpuCommunicator(DeviceCommunicatorBase):
         super().__init__(cpu_group, device, device_group, unique_name)
         self.dist_module = torch.distributed
 
-        if current_platform.get_cpu_architecture() == CpuArchEnum.X86:
+        if (current_platform.get_cpu_architecture() == CpuArchEnum.X86) \
+            and hasattr(torch.ops._C, "init_shm_manager"):
             self.dist_module = _CPUSHMDistributed(self)
 
     def all_reduce(self, input_):
-- 
GitLab


From 5b2dcbf0b8dd9ee9199d7496c84e84c010122a00 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Fri, 9 May 2025 17:16:26 +0800
Subject: [PATCH 246/461] Fix Whisper crash caused by invalid```
 max_num_batched_tokens``` config (#17853)

Signed-off-by: inkcherry <mingzhi.liu@intel.com>
---
 vllm/config.py | 14 ++++++++++++++
 1 file changed, 14 insertions(+)

diff --git a/vllm/config.py b/vllm/config.py
index fca2865f8..ac1dc960c 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -2050,6 +2050,13 @@ class SchedulerConfig:
                     _MULTIMODAL_MODEL_MAX_NUM_BATCHED_TOKENS,
                 )
 
+            # When using default settings,
+            # Ensure max_num_batched_tokens does not exceed model limit.
+            # Some models (e.g., Whisper) have embeddings tied to max length.
+            self.max_num_batched_tokens = min(
+                self.max_num_seqs * self.max_model_len,
+                self.max_num_batched_tokens)
+
         self.max_num_encoder_input_tokens = self.max_num_batched_tokens
         self.encoder_cache_size = self.max_num_batched_tokens
 
@@ -2090,6 +2097,13 @@ class SchedulerConfig:
                 "be greater than or equal to max_num_seqs "
                 f"({self.max_num_seqs}).")
 
+        if self.max_num_batched_tokens > self.max_num_seqs * self.max_model_len:
+            logger.warning(
+                "max_num_batched_tokens (%d) exceeds max_num_seqs"
+                "* max_model_len (%d). This may lead to unexpected behavior.",
+                self.max_num_batched_tokens,
+                self.max_num_seqs * self.max_model_len)
+
         if self.num_lookahead_slots < 0:
             raise ValueError(
                 "num_lookahead_slots "
-- 
GitLab


From c6798baa9c8c484eb3f8862822f5eb0608927998 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Fri, 9 May 2025 11:01:49 +0100
Subject: [PATCH 247/461] Change `top_k` to be disabled with `0` (still accept
 `-1` for now) (#17773)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 tests/samplers/test_sampler.py           |  2 +-
 vllm/entrypoints/openai/protocol.py      |  6 +++---
 vllm/model_executor/sampling_metadata.py |  2 +-
 vllm/sampling_params.py                  | 13 +++++++------
 vllm/worker/neuron_model_runner.py       |  2 +-
 vllm/worker/tpu_model_runner.py          |  2 +-
 6 files changed, 14 insertions(+), 13 deletions(-)

diff --git a/tests/samplers/test_sampler.py b/tests/samplers/test_sampler.py
index 6924aba11..90340f8cf 100644
--- a/tests/samplers/test_sampler.py
+++ b/tests/samplers/test_sampler.py
@@ -478,7 +478,7 @@ def test_sampler_mixed(seed: int, device: str):
             sampling_params = SamplingParams(
                 temperature=random.random() + 0.1,
                 top_p=min(random.random() + 0.1, 1),
-                top_k=random.randint(0, 10) or -1,
+                top_k=random.randint(0, 10),
                 n=n,
                 presence_penalty=random.randint(0, 1),
             )
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
index 40e477f03..1aa400741 100644
--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -409,7 +409,7 @@ class ChatCompletionRequest(OpenAIBaseModel):
         "repetition_penalty": 1.0,
         "temperature": 1.0,
         "top_p": 1.0,
-        "top_k": -1,
+        "top_k": 0,
         "min_p": 0.0,
     }
 
@@ -853,7 +853,7 @@ class CompletionRequest(OpenAIBaseModel):
         "repetition_penalty": 1.0,
         "temperature": 1.0,
         "top_p": 1.0,
-        "top_k": -1,
+        "top_k": 0,
         "min_p": 0.0,
     }
 
@@ -1679,7 +1679,7 @@ class TranscriptionRequest(OpenAIBaseModel):
         "repetition_penalty": 1.0,
         "temperature": 1.0,
         "top_p": 1.0,
-        "top_k": -1,
+        "top_k": 0,
         "min_p": 0.0,
     }
 
diff --git a/vllm/model_executor/sampling_metadata.py b/vllm/model_executor/sampling_metadata.py
index d76c75d9e..888ca3e50 100644
--- a/vllm/model_executor/sampling_metadata.py
+++ b/vllm/model_executor/sampling_metadata.py
@@ -416,7 +416,7 @@ class SamplingTensors:
 
             # k should not be greater than the vocab size.
             top_k = min(sampling_params.top_k, vocab_size)
-            top_k = vocab_size if top_k == -1 else top_k
+            top_k = vocab_size if top_k < 1 else top_k
             if temperature < _SAMPLING_EPS:
                 # NOTE: Zero temperature means deterministic sampling
                 # (i.e., greedy sampling or beam search).
diff --git a/vllm/sampling_params.py b/vllm/sampling_params.py
index affc5c64b..dc38daa38 100644
--- a/vllm/sampling_params.py
+++ b/vllm/sampling_params.py
@@ -149,7 +149,7 @@ class SamplingParams(
         top_p: Float that controls the cumulative probability of the top tokens
             to consider. Must be in (0, 1]. Set to 1 to consider all tokens.
         top_k: Integer that controls the number of top tokens to consider. Set
-            to -1 to consider all tokens.
+            to 0 (or -1) to consider all tokens.
         min_p: Float that represents the minimum probability for a token to be
             considered, relative to the probability of the most likely token.
             Must be in [0, 1]. Set to 0 to disable this.
@@ -209,7 +209,7 @@ class SamplingParams(
     repetition_penalty: float = 1.0
     temperature: float = 1.0
     top_p: float = 1.0
-    top_k: int = -1
+    top_k: int = 0
     min_p: float = 0.0
     seed: Optional[int] = None
     stop: Optional[Union[str, list[str]]] = None
@@ -256,7 +256,7 @@ class SamplingParams(
         repetition_penalty: Optional[float] = 1.0,
         temperature: Optional[float] = 1.0,
         top_p: Optional[float] = 1.0,
-        top_k: int = -1,
+        top_k: int = 0,
         min_p: float = 0.0,
         seed: Optional[int] = None,
         stop: Optional[Union[str, list[str]]] = None,
@@ -376,7 +376,7 @@ class SamplingParams(
         if self.temperature < _SAMPLING_EPS:
             # Zero temperature means greedy sampling.
             self.top_p = 1.0
-            self.top_k = -1
+            self.top_k = 0
             self.min_p = 0.0
             self._verify_greedy_sampling()
 
@@ -404,8 +404,9 @@ class SamplingParams(
                 f"temperature must be non-negative, got {self.temperature}.")
         if not 0.0 < self.top_p <= 1.0:
             raise ValueError(f"top_p must be in (0, 1], got {self.top_p}.")
-        if self.top_k < -1 or self.top_k == 0:
-            raise ValueError(f"top_k must be -1 (disable), or at least 1, "
+        # quietly accept -1 as disabled, but prefer 0
+        if self.top_k < -1:
+            raise ValueError(f"top_k must be 0 (disable), or at least 1, "
                              f"got {self.top_k}.")
         if not isinstance(self.top_k, int):
             raise TypeError(
diff --git a/vllm/worker/neuron_model_runner.py b/vllm/worker/neuron_model_runner.py
index c80b69e78..e97adf757 100644
--- a/vllm/worker/neuron_model_runner.py
+++ b/vllm/worker/neuron_model_runner.py
@@ -348,7 +348,7 @@ class NeuronModelRunner(ModelRunnerBase[ModelInputForNeuron]):
         if temperature == 0.0:
             # Enable greedy sampling on zero temperature
             return (1, 1.0, 1.0)
-        if top_k < 0 or top_k > self._MAX_NEURON_SAMPLING_TOP_K:
+        if top_k < 1 or top_k > self._MAX_NEURON_SAMPLING_TOP_K:
             top_k = self._MAX_NEURON_SAMPLING_TOP_K
 
         return (top_k, top_p, temperature)
diff --git a/vllm/worker/tpu_model_runner.py b/vllm/worker/tpu_model_runner.py
index 53541a257..e0cca9072 100644
--- a/vllm/worker/tpu_model_runner.py
+++ b/vllm/worker/tpu_model_runner.py
@@ -525,7 +525,7 @@ class TPUModelRunner(ModelRunnerBase[ModelInputForTPU]):
                     "Top-p sampling is currently disabled for the TPU backend "
                     "due to performance issues.")
             p.append(sampling_params.top_p)
-            if sampling_params.top_k != -1:
+            if sampling_params.top_k > 0:
                 raise NotImplementedError(
                     "Top-k sampling is currently disabled for the TPU backend "
                     "due to performance issues.")
-- 
GitLab


From ec61ea20a83d56aaad83cb36bf6098625c564801 Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Fri, 9 May 2025 18:42:39 +0800
Subject: [PATCH 248/461] [Misc] add dify integration (#17895)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 docs/source/assets/deployment/dify-chat.png   | Bin 0 -> 146105 bytes
 .../assets/deployment/dify-create-chatbot.png | Bin 0 -> 271534 bytes
 .../assets/deployment/dify-settings.png       | Bin 0 -> 53072 bytes
 docs/source/deployment/frameworks/dify.md     |  56 ++++++++++++++++++
 docs/source/deployment/frameworks/index.md    |   1 +
 5 files changed, 57 insertions(+)
 create mode 100644 docs/source/assets/deployment/dify-chat.png
 create mode 100644 docs/source/assets/deployment/dify-create-chatbot.png
 create mode 100644 docs/source/assets/deployment/dify-settings.png
 create mode 100644 docs/source/deployment/frameworks/dify.md

diff --git a/docs/source/assets/deployment/dify-chat.png b/docs/source/assets/deployment/dify-chat.png
new file mode 100644
index 0000000000000000000000000000000000000000..dfea23309c1cfac44ea6c021fafdcaaab80633a3
GIT binary patch
literal 146105
zcma%j1yEeuvNo1rA$YLhPJ%lO?(S|OxVsGQ7F+{^1a}Ya?(XjH?(lQoy*Vf6p7+;%
zRePv4tJW-OTfMu#CRkQl1OW~k4h#$oK}=Lo9t`Yl3K$rq0nFRip745lH!v`8O%nkD
zSup_t0$E!tLlbiYFffWJhsZVw2sxzg7HT1e^!MZ0L0oUV{Z;uKU<P|p5G&A?6I9c3
zyyx|th&j;hPteA6khC~XvWuR53G#LoYdD}?DS<;8g;N>cYY%7i7lzAV7KAAm6^Ojq
zrdaB>>RQ@rN|2?enZC9tx+#f()V{2IsFiu_VO+HQ8iDiT0nOSQB2`B6;p<$-IK_1<
zcL}JAH!)EjvfY@hpLv5(jH;<=fDvrwqw<}B(ccib<C4uz>oh9!#y)Qa)PmwJ0cWT-
zBr}^Bpj!FmuR5H)M*{x);}9l@2KeKm{9PXne?%G5A22-cVL7;>%tH0Ne`o$92<7vB
zXiSHku(vaw65Tsu{*MB&wvx;DHwau26Eqt=O#5>e(|BMF_`4jZjoujd(r~pUHcO+P
zG=*&3cJ3t8tI{~9_^@a3Zy<bmpR|LVG=lD7N1tId+0&lozFG-=+S7U^H=BW~n4y#u
z7}aYV1`IsV1Pto61^)WMe*J)fLHvOD)$=yx2js6d<SRp7+2)Xx0|v$mCML+I=nQ_C
z0_!EUh10z<=k(Bg@*s^C94q)lYVfH){#p>3>L*eN5r0&OsJh}j@mz(G4)H^CsP6UA
z3-?Nj-Oe!cLQ0+Q8t`CvuK9#><u2u5(Qf#n>Er+z`$H536AA(Ne}8)4f{&O_8Yunu
zk*~ASK~Zp=edC27`L9o;1q513MOY+4BpB>}ePr#|oxGq#|La4r@VdSM4k6C}<zPQ{
zJ5T-(Ye(`{!^+zCv+%S0*E9VwU@Um$|3Fj%Z*$bsVMloLzaObY03tXzcxFxREYcPp
z91$^Maa`#-=I;k5z(B3VOr(%t>FQ6?vZ>gRZT!fcLZFLWy|V`J#*?ov%bldyAeAZr
zN))<qqo71SSB8k>DRE*5=+21!zFI3T)JK1^#><<_NkpCJ21x3KUMO(DG$|R0xEnuz
z$T->$`PEg3zw^cm2j-9)g*NROj~YI{r*=|3cf0xA*o-G%z5mmc3tEbNS9{#=tY<|5
z7b)-SS&(QvJJToG$Jyhwrp7hPAQ9Je^XcsDmhkZf6FS>d=a4vr|Jy>F+7No%BK?Cp
znUxM;?(?^Oku=~5ReWQ63?!O-zX_K$F>)Ccxij<K-My@NeU!8Z4cqkYEE{^-`XN{L
zslG@X)_+JX2JE5SNlqIhvHnAwGlp4?cB7#hE!GUVYyq1ymz=$L3i?d+Z!)2|1NFHa
zHgIoiixS*}dp-SSOmtP97zqcTc8uQUtGf{;K+DW1=!x)mj(eM>wcc~toZn_yyEc<K
zU10*#a(FOE!U~*0WTj?fCIipTcY<1-&+{KYVML?o7<|yzelwL(5^<@BQO<!bA0hR9
zu39zxH=eJ~6MboF6e(R@L)$!YvT%rOA_OOgKuRUb)H|x6@Fyqd)g<|S1K=p4F<^k?
z`mnl9$F{zCLcd&~fKOOYjD{dN;HL&6*ED2fmHE-7xJ--s2Vwz3!CHeFz5BQQzBPCC
z+0-ojzmxY0R`sUn``b6S!59~;T2C?Uc>1CQRAkeB^OdPpMJ560YQIa=YkM_-Y;>*a
zn<adH!Us{mc?~uq!3q)%Aybch|3adnJXu;?to`h8UKp|Ut*vzWQ-@`ovs11t-m<`0
z>O;ylk6@E4Vv*^Nj{J?@Z<ZDhpeVviXWLJ5EW&?nN+r-Mb9M7zgZeqCCs-Jw&cC%Q
zh@x#G4jm@CUBQyw?vVU%lB9|IKawOF2IE9p6d@d5`DV_}#!8O<tind-r*mO1RC-^J
zNEewBi0<m@3{6MpDerW%uzg}$AXq*pC}EP4T1C>0UzE!UXFmB<|3?GJ!1Z_eR*Ce|
zvL1I|@8S|9$A;Y`gYdXd@$ZQVNa~eZGSvB-x_LpBKzJ`<E1!tNO0xkDKbgtQ-TUF;
zr)@T6jc}yG?k{Df3A!-}2GbYyh;XGz2axqvz#!(UbSs4Hgw+JDSEAd$=xkcs)@%ua
zj*p2Kh=1dFF9~>)k$+FK5sS`ZOC^Ek^4)o~8zVytQ*od5U}DzD*ExdKjSW&{Ir?pO
zcx`FtXWN>ZiE7*i#;Fc<<^sclkMLR`sBz8_K+ViHyI$$P&FrcRd70A+_}s$@pUF&4
z*Of<}%Hb{d)6&y>4lD<5i3|mwaQLuqD*j>sDOKnoiL(L#kkn;gAc7|ESRXa{l26-c
z71@6aw?~L8qcO``cG^GJS?Y)D^&vZ@e3o@mk0T+G*sXY_-vN$ohSZE}8}^@cWhL^a
zZN8U2^>%PSZAODJoysF~WB(2zmIOb&N@2Di4v>~Io8`Zdvld6?WUWo~3gq@CocCj%
z9vK<}nT0tt_2nJ;>$oM$AzQY*h2=GGXJ4+?Q>ky-xRb&_Wc^dSYZF^#TAoRHp6Vx;
zsr<<~Lq3mahDyf18PKcH<S9h2B;f$&m7(G1w!hZ|5da7yVrY8IEOViX+SNC<^tW7n
zX0z6A>>rvH@S;nT6K-8d(0`(jT(0cyVg}0ujo1TseBST_vgDMk76h>0^TDrrBTQ%o
zu5ZoG6<rMgdFHgj!@k8Bd{UP1t*;{Se0EDTwd~;0V9H7_oh(rsibZU27Mr%1B?-fs
ziiuqPQfWC*oq~djN*sngIiv`pK>Oe*r|qtn{LVQiE%sBP4T{O1#8Zg{(?;Squh2&0
zH?DX``@VcgEwrLKmpN<(TrhZBo2Cw`k+d<gi1Awh3&!(lB~zY?Mt{Pmm@efK$ttKO
zldIF-@#3<gc|77m$63GuJ)&<<i~&-HCVDzi2CBi$8XKi@t3(LKD9DU;ewo<jd?<vX
zZpY9wUujq)74(q|+yjr{x*VzI=nZ6tbp#d?Qe-yEjWK@96!&tWdr`jo<81;=a2P7^
zaXA^$3OE0d+#QF;;nRKZ66>8o{)<XI%5yOp$#-(Bjjc^-D{@Vv<&V$u^<P=~8_(}&
zCGlCB@pmi9+rN-tO}ACp4T+gjb%;5ZNPT%I)}Gm)EFg@diXE`lnQ`$}(Z)CGBzp{J
zOEWU>Ab4v&aCp~Mg_bt?Zil5%+j+t1I35x@qL<5QB}#olQ{<OzvBpLAnuYT1RjiX&
zW7Mhp%8vdcdIl7ic<bw0Q~KdKLyj6SWs)5Ub^jod9b!N#gSXIdCJ-3Wx5v1XrTe5#
zsov3awPMC1KGlz&C7b?uZSiu<Nf9MCcHi6-q6Uq-HoBHs;l9&?f`jvE*C=d1?r^Kd
ze1X~<yxRS%POfy?)Xizt(L(W)VxhVm+=sHJi<O%d!nr!Lv}z1;C91fXBxb6G0V5~F
zKC&62_BfhD(i^5T8HXC9c9hLRgQ$E<JMF}5atpw6XZQY4c8E-MRE9PcgGmsI)dI(1
z=eae%B{}{kaQp`2)Y*sEVY4wemNt^vDmO2W0(O*ELb+I8j24(_6bTgdt^ANWg+zrk
zVUr~L=~KppSthyY*;k<~os(m=qj<N6r;+oXv;l+uhD<4(v3mm#_e<wQ4jc0vp<Hy&
zQgj%ZG<T-HpJzAwR}A+@!RP&v;N$gE7KTf+urXWl-C>$2DPJ$~M{|Z2NQfBhbP7HT
zd=dI}M|(5D@@k47k*1Rht{JR>I-qmaR)8I4Gu^$%TrV7@@pY9syHd8(evpgyBhTw*
zj4<2k7%4QIr;;UQ?R)GPB0*dt1Ln0&s_rM;r@nM*tJW9V89x%-?o7G!6~`S5xeb>|
z`!LoiW%T8|=71E^%TFAdA!ZHC11<x!2N_E=9BbV4$`|hpl<em{TBm#D?;|0{Ox9VE
zA?SC-gQSrjTX#IEoDGER`;YHz9+&kUwR>*%ey}4H8m&v~SH~Z0S-aa*7db0)pPuTC
zUzaGKJC9$C&tJXt?m8_ee5hH@fLy?{TlQZ_sI;?azc@CsYl+6w!tcGxKpiG;1ks7M
zVK;g?u;otIRp%sf!P;FWy@YWO<QP(eSmSomjzRM|?`EiVs+8kDYw?Xy3dn!{<&D-Q
zfbs81C7<U%ft9^OhE|AbVH(8C`5OPgbCs7kvMZDP-u&L|PF>-%&N2YSg>Z22=3q)_
zf3k$kY}zXR3a46|jAPBiX4yw*JX0eOEn{Lm+jC&fZs#at0t4P7GOm!dz*i)4jK@Q#
zVmwG%=Gt8qdLih2`=ge4+-E~SnnQT^;IW;o99CAkr?TsbhbZW<UBBy=r)O45`Pv_*
z6w4LPdsKB-@d4vi6HQpSra9H6bJ@gqnq_2D?gq{`fSiDYeKxk7T9TJEM%^=Za*nke
zPCk*Y?tCMK3@T>WWte=U1;)1}clZ1F%zkcOtDA*BF)fJvhjW7D)HE2GRW-6{p`KBc
zse3$8R2=9Okwq+q^<U-N92zz@<9GOn#{I}4vQ<4~fV<QS5)c$|CG*2et_CZf(3|Vo
z5(NR4ks3)%Oj50!#uM>J_XcNUwDu0La6iMwJ1NRM6<gVX`#)nTwZ<0@@wprq7a#H2
zT_lyCo22)r@+m!@tL5T7JgQAhuaY0;^E|Zf4A&yM87XB_k<@BzVkj#-HVlb5QV^R6
zM8ZGD1VqfxAJFdd)Kf1wB~8dSC_A+A2+kfiJq*@eO<GNR`vwjf8&neRjYMVkY^|mf
z%eQD#pUph8<45S>c=Lf**zIWNtCnkq1TsD9Ej2nc%*jaMim4PC+tv!6&NkacY)<Lr
zX*2}fk_U&L+I9$_(0owU$@>D{V`-E6Z%?vB1ELzkr(y6L-wsBzYQXGdx|!9*_$biT
zMV6o6XDiX8NgnO&VhA@CkCNl49pc!)X2b}GZHvDvD`R+FUY)uXm5Om$x^glT+DD;M
zy?K1+nAe;4vKme`BD{&<6FEB5kjyg;zc|`p{qE+h2!P4_zASPf8}8k^%3~+o8z<ty
zhKoo2_=LOX^>3l5Nxt#wFx7_vnh#Dd;8+jG(DIq;=zA}UX&(={K+@m9h6{tJ^*{Bm
zCUc~k0qoQ=6xA(M4>W2_(}{gPC3Zy^dFsBUQg8Vr<X}%9_LrwTPD}@EhuIkOD|10g
z{G8rbF!8b{a>S1Yl|MM&p*4TtdVi0Cg++QInM`@n@;nwKomiZvUgv;QjoFs3&{NIf
zTu@F~VYp<N$Yqt@ytABta#@(GEVb=%=j%cjCqrnc_Qvz>h?dyvYX8hjt;&85`|d1(
zXY2XeDL75%+V1ViXs=}nCLr;%RgPTKxoBE7pM1uFjY<-ofkg+oR>^icoK~aUMdK<d
z+DRhXGGE7bes3&hbe;kt?CDfQ!0{<#MofU2TuR>uM;U=?Ay;v2o|*U9gqZ7!4wn;1
zwrb1^5&@g@)uU*A10}=MI(5QJo5L_r$wE9YhJxfU3=ur6s^Vy$3Rsuqa{BU5nhXH(
z!eJl^B=1*YCDrSZiPw&>kFhln@7t#4BvBMfFKyP!B0Llq>qF_1;_~!dD9=$YHM$w5
ztcSOOf7_NLw(%BXB)36hg{E-El8#o{@pxXZI&;yJii~USg%myMynuJt1Z|-YRTxLt
zxQ&%3&uGHYff+ztWvVPg$ie65!hhg!Jgc3wWE;~+zr8dN4*kTBgGq|vvgSio<-hr3
z+O<GOW-lXizlf!kT)m@=7v{lv-c`PwU+vD~Oozer(Dfd%JmVv`;~-sf(XtL^*WDs~
zX)ooGLhyQ5D8}rj(@I4k3KMjWCwC&3&huP_6j}3AKvlow1EPzP%hm4J+T7XJH~+p^
zdWE3IalFH$4xCMPLuwSPWh0sD@}CW$mea1w4;P<G8=tm6p`f8rF!DUKJ1a!EZWv%)
zU6WAil>AJdrUM7n97k5T;QOwqHu5@FvmszSt`&_q5DXgPmZ6a&985)#-(S=DDzEO*
zY1LHKW%@s!UYr=tYjMHSy<Av%&O;{xmQLjOcq+{(g~-gZqL_zj9X^F>caz3Qs5*?J
zro~%@(W7g-GIjbjo6U5}AdP=nIb%bhq?WH)F~L=frwEkpl86(L8Sq)V)4ynD172K6
zoZpqX*(xaE!#2edgr#wRN>RTZ$Xh0~J$Lf~Fz@*k&0(2!7C43}zy;sD<1{)R^Tf8m
zX@#Usn``OV;L$csxQSZh^2r8T%pBL8(Wwx4-a~dQC%KBfsisi7;Um1z^m@L+M5T(T
zf>$i1!A*}3aBl*L2MpIzG#$T>9KjIjPlSgZFO>SRSfu+7S{fn7I1JN9M}Y_UGS|4R
zMjU1cMffP|5p#ZVfo!resndN`iBQjv+sSG5vJX^i_#`ZjejcsndoFeaw@gL^(U{16
z$1LAYgc6&d5PFRIwK2o=N($&PElEjn=SyFEY|H7!v7D@71|P4>wxULVz!_#`BP}LV
zqA9~*_s-c8n`NDvvfvIFh=}_IvF2uO@lA!<2)BE>thUF@E+XkSj5x~_j@dK;>*B<Q
zFX@jrD}0p2kT>=Ak7)r&rKO0cEBygd8U~NMYlb&gdlyqe2=v@8n@E)ad1Cok3T;8W
zy=h9Jn^R5prww+F@hf};$P;SnB<3->V#IlYwsf9vFX|@y_9x@?LQ4{BYYf2o&vRMs
zR6le_7nU6wK5JeUHnJSP!JSgqL>m6M%;UVBFJI?#c|4{>6-x`s2rI1e;)4y(AoNi9
z*s;qVxG*5egM0>wKie+U@;!g!L|lF6{hNu0FggU%r#7dji@TNYCvV>pDHqC%rMhP%
zguj=5N!plwyYuI3W(gNW^(oL3ORi7OjbCP=%EYAo2+JxDk()W?<VBI4(P2x*E1<qG
zdu@MJPJfA~L4KwDaQevg@|m_&%euXqjCG3npy<>+e2X3*4f9K~e2ynTCZPE?>%!2E
zHiXX2XgHZQLvdgs35NT)q9gYz{hUg5Uq*1xzOz$*8pQ24<9mvRj!uh=Y=eS_N1i~_
zB{ti|=1wOO3ux1hChwHshX9bu`jdOQmt80X52)~*I)((>J&jRtaHzXYRd&;VaOTiz
zA_5`Fml{?TjAz_YGnj75R*oR@q!!aEnGOu*qv~IWijjqH)bKoJuuh$w_e2}qf6Xau
zyzc+Tu;F_qY-|G5P}m!Nwxlfi+TXCDT?sD@-|{GEwfZebZR8FtswQ9fs-QxtDdGA6
zQcYhl3ou>SfL!^^X)QW)A}>@EfaTAjH~kSeN_ot0G?B}$0;`Y3qTA@2OmE}sR$!^o
zLdTPC$Cw^D)Vfse`y25Sk$S^fS{Ug{qeiRtCqB)G)eafSB8g5#{L4oL21qyi6@Pg2
z=$4t18M?qTVQYxA2ySPQ=122-7tXD*@A0l%xho%V+V(CYa*cc2=*QPQExO8ElzUwF
zC1^44O%j<A(<6R`J?f&swBPY7w(r_4z+4SP5LIT5<C+nXV4oYRraif|fE~;>r+nn}
z;HNXiy+Px7yaXZp`!M^pB43F<@6C`VS&=WlBV$irULY2E4JA-pn|nS!;3t8T7F$`-
zyqGPh$J6MLTJ5i*%yvnv*}lG@qsH$Yb7~Y|*h!(9I&bG*4E}iaR5`J&_L1iurB%1L
z$QG87l}GwF^sjchhT9yi$Y3N?9hrInGT{ffJ2*;XApNRv;^6@eD)XY*55$Oz+q41=
zZ*X*TR=8NK?g%^)iHFhpPDqVt$uQ4|Ii?-aV8)>7p}xK=deBI(kY6y7ofFwtK8-T@
zMl|ShFfzsnYrCFY{JA>pX+3%q;XKml7(V)m%FzJ_-4qJD&`nsuFR1kiC|n1mialj%
z{~(AvdsCPp*<w|i*4&Ez!IE=%k4G@Cc9Rwe!DTRAiaf4kr{K`U#S6E6h6bY`@f<8&
zS%}e&nte2CSK%R3bg6u{pHtAxU?r9nnq)VoZM3&-j2;TeGSK2-w<Xg~bw2T#3-BP?
zK|R++7`Joddzi4(%nQ*9UU&0&bQslAcU1KkkO=ZyWqKLu{TX6dyX^9XMIp36p>o<l
z^^OXiw|S1Qw2=~KiEFzmUD&O<-beL@)81=w+5M#t@}>$^Q)M}kY013Xs~I_SISSML
zgI{ad?IX-kjYNm<x|+$#Go&GyR;;B?rDdiGG%{WWlja>6ZfF3*@b&R##9&o^2baa>
zaC}YD!RXFK3v(AiGJ&QhI(n=1QWEpd0NT_FCa0Y8fyeyPlz0-02}!NtntDL8VPN>j
zxS8doFVEC~=>y#`UK_E1clZ`Wa#_ZkZ`DLk7Qy*kT9Cto;!D*t>##gxuaAzSb04ml
zcAnkQpN;>FJk+Iu0YIx;P~dRvDFobWzKhbRO6L5xTt+9kgCCif88<3b>==r*8^oZw
zOnwHM3&Zj@_l;+VEI1+3=C&vo#p#ht=L?9R+xa(n4Lh6N){x`7iiW4LSpdF&tkHcY
zyz1p}rBM_PPbHykVvy#3S$8GoWltE`w^j8!QX?$9s#K?yNR@Uj2@dY=1ppLHKHFTF
zZxJQ{zHU9%8J~rGi(+B*{|>#isq3WNX|v!>^p+hjRFi$q*}7MnJGY46wrUwJj0eHh
zaCN{i1e(yV^z8b$fIj~u)@dcJgxEQucW6KClBdZ=df<F#z>I~^T-We`xh~(kXrWB(
z+++!4f2ots|Hj_$3+`MVF&Of3>E2M7BnT6ER>Yq`qP5{FzMH|quwqxS#gZBwLE-ft
zS7=K55<vn~UBj1hd1@cXZ1*?U)wP@$^R46t<pxiOi;0Dq)j2*11C{K={PuZ7ofU=h
zcpVjWEZdR_pwZtELJ+pMZSM;Zyc$;*hgh}cfHE&r7*1ncU$u14S1zRYp@7Pk=PvrF
z1}Og>5Pc0#V)|Q#i3h@L86#zBGCP~LJkG1SRy}f<dd9zpqg2cIj&;T3x~x*6eIXQ2
ztD!!>65}=^FDtMZE=&7nu}60k;E_h3)D*nzsv5vY=2@y{b&QU;@7AIgwqg-v7!D-T
zanEm=oaAFHQ`;{Obqx&UaH1Q4DGb%5g3$<lfT&4Y4kT+T9FeaS*55}XIWe|?fmO9E
zNM$XVXT<f{%!B)Ammp|@muY>$XT0x}+DnXBaC^D<#Fym6v<UObw_gA7%t5Tlq52u)
zlahq%z>U>xBiLKXD>?`XQ+MA}pT@#(!stja8dp?zqAO?V=Nn1J`SMhD5pd3PX^DU@
zL#Fe$pVe`xYbH<Qgz6(8k_zG4ai9`I&1XB>gg5h*g}c)BbQxCL2=-R!MJ-E?i6f+H
z2^tW44uGPuYAso4cJ(WJv<Hqo;?9a0fYPnNydQyfh~?BR$14^4^T)ZgTa4eBUD8;V
z4ONYoMrEppD9jr>+7%nstBAXUTwLuvOOo;3L{7EJxwRDO1_}~lrgj#YwDRRJKYyDs
z<1@YPF7yrk;=4I;D(DmByNf`l`LYU}E9fddmp#c<>U`EHMXxr4_XCC!T}_Q{!zhFs
z;Sa!X=e%`LIE0%a`w2{NQL8qc8#G@?_g(bRYE-N*oPFA<P!i6=X4z%83-hfRKV@BJ
z**XP;Xgc34EePWQclj#cj|fhG0TXO%9SFlnbzSV-ELBZUe)o}KToWI3a4{NYxR=t<
zkN!!2pA}+oIF-w4^v%JYm1;}%;Fxy`=C1gkA?R8Um|4HvY#(bEx*km#HTM43@U7g*
zm<N-RP1>z$X)JO_#W>mcZl@^};=r`&Fxk5tfX#X6WWJJ8)8c>zNM2GRo}%C;!l~cs
z+w<tI_LjVPp;l!`C_bZNbw0+_^ihKadoGJ*9KF>$TM6eTG|mPe_(a!e`+X$KlhrMf
z`=TEvDUz?2IVCtuEHdaDJ&HROpE$RYFws{ODODuDw{2YMN6n*<Q<DpQ6iU+6xh+8$
zh|?Vc_oQ00A-*=1Z+0>2#4_KWmvR4WUH`gqNGtvp(M=uI+hG(so%+7(WjS=$|3+Fk
ze$EBqV1|DE{d|Lf$Wa>s)7qLzV7R`=b?~wwE*nSlY4Bv!aGQ4@ErUExK3oI|jNpXP
zV7w7iGWh2v53O-e`*^hnxObNcSlHr5dlfBGI9(whqI%MB^+VJi5D{hY!oF#$^-{}8
z3b1&Yy<`dg{1UQhI_wiu#UtU|&hUo(8(i+cENxvJm>=%ILLXdapq|Z#R81~!zuKhR
z>w|04X(Ym;-Pz`1x2Gi;GQZPEaG6|83PmxUEOp30I>e43N0G6;+u#^OccH*C`RT_t
z0g)k=N1IFjS<lrUYA?nuJ4XxjcB`kz`3e&sgxR_R3TwgEeyEZ!&}ZNz4qa_78u+CN
z2i35;m~cy@3$K<#67DA6&|;QD;)#~bHtSUf68J4u7Kt&ZF$v|m_pD2WE5JyXabQco
zuXgY}?}$~48cw4?D8`5lMhePi3e}Xmn)KPdylwKveoLpFYMSQuk~mB=Nak1N`-c3g
zN><xH_d`ai3|*sNw`eo#$Hs)RW+`Hwm{0H*4wDz~0ep5yX<v*w%ppWcuR1G=H0f#C
zbMXwyP_awOPB_!AS&A5JoRMtDKCkTwqb7frq}{6=orP6k61;I`crISMK7gs-nR=|4
zW(-0%1#nOaU+my9LEaLuwIMCwtu?Iq2lLt11`v!xwr?_z8l%Fb`|vr#I0SloIxl;v
z>L)r_@T*$6eMImjiooZ|_l3lne^9RD2f9X07!4=gF=UI+&k%Oz88qA+vsSvNd5ozW
z<h<YlNLVv=W0&hHhkdUaz+|TzH>{wh1qc>@jEpESGeC2Hc@|6)$#R(zpOySevBF^v
zpKg9=gui7^NLpTO6(kraB|Kwb(9yxaNX5dt4R;jgn!ng{rz(mK5z(kVQr03-mVKTh
z$Cqm&mczwgo@|S$9^DFez}-1%Y)Z_joFhDu0a@sTm9-g{s>i{}w^$-v<SP^=4c=}_
zgwfgZpM>?#4j4L+$@~Ze3iq2n6-`TcRP^h^lbQQ+dv*zvW42N9p_7Jw5U6e16-B6Y
zA`}jRdJvBc2=5sP!gSXTn>fcD41nf)(s55lG96)-ArHl5yh~<kOx2LWXR9<LB;@-e
zkcH~;p4fL`$sw?4JgP~S2hu)k=`zudiB(?79kWGgc@nzlrOJ%@#yBqkm0SiVf}E}k
za>C~7@--3VfqJpvvdX`Lghy2DG7XP^fLTDg<lKR}n~jmmQi#J`lxx$&!;&F2MTI`Z
z5%hIs_Zta77Pt>=-)&s5Z0a&4o7y|*fbPpzFw*Y?S%Kt+91bQWD|L*)+;8`0y5zO&
z0E74D&1cQ+0xN$6^{v-@3czL}mt1e=Zj^rTa#I!(=kq+cc^~n~>j0V<Y(pD!X**6)
z%%TFW+bC-Gr>H>5az>ZwR(avPk^>Yh*+Kya|9UsG#Q_hJz^%V#X_<*1)ekGG5u`A~
zT1OKs7{q*Qb(?Er<$o%NjEvlE2Ue%J>iq>vyI(!v0SnV(19#}$vAS9hhu^R*@&$73
zA-Onq`{(B$kb2s#cm8Og<P#@(^G1I7mC&C+ggPP`HHYzob!UWyz)|PkJ$o~1oeOpk
z7Cxl?qo9B<133B(T2A)w<a*%rdYB~f2H^?=?-+#4ah!0)KZJeUk?S5?HSv|Tf*IS%
zRJy^h0e)1XjQfe&({3^d^48sdipO%jeeaogs#Giaw9L}Go38wvm><8#Aao8)N|p;p
z55YK%7AH0Dxhh58G9N*O0R=u*!U%j%ZF-&)B4(3v)!wL?Ib+sE;+goU8m_ndaYV+&
zLKnx6-0Ay4w9594sg?|b4)I2Gu{u+X#^oI3oes}fq(kqRFTfHD3yQ*-W-Sr*)sH*$
zvv!<{PBmNY^IMd(xo^BJbK&N*Pr7ZBM71568-RV_CxOAdw@C|_v18JF9c3c)rL}s4
zTxRZD?5L&!owJuZ<YQ#oa0NrQ#CPj#ouRu?bq4{N2~H=hCt)@p-&GhH*3AR{=Vg<7
zH?I2>F@}dsvG6W7nO`X)UI<5sY^L!KfKYkHtk$`jmq>TiWBe%SpSE2U=MT|wWPaL|
z?maD*8y`?VoJ{9b_v%_OKduBwEg19%+GR~VS%h7mb;x{^A}J9@FkM)Xuz2gce1Ek^
zRoeWVN*Tdmo%fyd#dSzcT@!Db&UF;!H3j&!KtRtr@HO2-xqvvI>c2RqZMa~qX5Svh
zhG$K{u-46^jf&HA;P&~PGk+Hiw-~WDxcPo`pRidQn_FhUW#6XjK$73bh26vefcN0q
zbKsj~q4?F1<C~kb$Gv=K3N3C09UJ{r$#NkC3jfk2(DcV+g>{LCcReUDIW=MqDoPk(
zKamazCP78UA3KPJ&abtyorS6Cjx6!z>Sp{VA7gXF<Rnp3W_ozM&?v4vhnu7Q_1Iy|
zhaDc}!mETN?;B%H6-&+Wxs0#Mb;c<gw}&jJZ)YQt3<uc*ICk|_BOVn}II3BDPVb5k
z#{qbX#kqv{%@bMmdd%sx=Sodi_jGp8^?*_BfN)Ie8>ge}ubK|TOll1-2UWV~_1%1)
zc{?$NN={O{-!vs>S<m^KuBV-23gM0j@92Jog)Pw_!qcxJTTIq4ZuXvf*ocL_!Kdr6
zzn;iD*K*mT&wJ%gP)lK(mJGunKtHB4O`JAJIouuH<Y1TXEnIPf1w^Vin`q`LJKWhH
zLsXVH4w)L7K6$f3@JqNqEk(#TYnrri!P(}term&}G>ogtnZ5C`!sw%Id7)&sAANnr
z<iFW4K_y{BO=VK%WM{7eC@oeY!bn^^hsHvZuWvOQJ{yKKO2d?^WELGMH@)U5V)Ts9
z+pU4O;b8emXxEmZ0fF#SkNj!0((lOwt!=X5fQgGjPq}_#y6C#eb{y>2O<H<9iRbRM
z01h(6d6qMU2x?HS3kbx(ItqW6Os7gkePY++uG_3p2u937NRA3sAx^60@zKVTp^L%q
z$0YwWv$7SfAF^Ox`zjcsci_xm8gbS`3OH7X^u46%yB#=PXk@stu~%K?xmrEH>PD44
zt_kft2(9KsZLR!R)Y0TLa32Pe3dh?74fTF27t3@ZD_y)5n~*d<?~+IWHOjKCOpgAX
zQLXVT^_}<v(-c4fD~C-8d6&*%>Oo=TI~s0=njyUkg!So$#&<UbWOqm4(S#{>^5Zqs
z>CiB>Prn<Q)5mH)IGX>-06fyhyspP;G}>wxz<PJ6ae0A%PqeO3S96p?mOFU})EOA?
zO^bQ!FyV=;d$i$_l;d=)c^Ag}eQM=Jlg#&?Cx0g^8g0A{7OCN{TzMUccPnIzA*B@7
zK&$+c$<KJG>+X0{?RvZ4I5npY@<A*uHD$|p&n`4Ks;XS*q8p-=Qnft8e=E3oX|itJ
z42#jDUM+BEF?9)Fl+Zf+iYZb>p!?=<S&sYp@RI_@h^&lpb1tHhM|u=k&g@J&m#2HG
zW8f6UMjWRg`Nz+~34HntJ~1KEHXIQKmC}J?{3TvDp*11W@s8==e0G=-mv(pZJyCup
z`$(O@d%3FxM8Z5jALGKZTbtTqvYPRzC9bz^?pX2E6vjG70*~S_l)fL7hOR4IHUxG*
z3(q!L<FbE5Nls?Wj||Tf_|6sUbZJ|0AEV4=*05ne*_$5z&G5Of4nJFUXI8}AE828!
z!1qC;(lDg?>1v_o+5x86$bUwnR44CdKN5Uf)fd8Ijc!ylY+p%#?NQAKLo57U83NVu
z<xP)RR)C2&D1#V2RM>5EP5Peb@Z2R&;@=*O_dz0<_9?%!PnrIfL;D%OxsNW_wiXaM
zRBq!n31hgg;kiBNrla%SBZDv+b@NOc5rovXqH?E|voE3McjnKBq+aKe@)}0{RyP7X
z?&I!u?W6ZY?+?S|khMx(VP5-L7K+hG9DvYiUJ&s3`823oLVFRFkY~V7=Bkgc4c4i+
zWbRv1kBO4JW$LAAhNhu;mJ3@7oK&RFj0gyEpTK<aknrx3dv3aYm8OlsTK#+D-5sfk
z{E~|L)J@EGmAk>+G$z(_pU~cquT#ezeW_9xfjbE_rD+Lw5*Bw!c*e(8?bm8Y?AHfd
z$8Cl$D<z@Pq@WDah=2mnrM-53X<Z6~9@|dIrlvoEpPRxiEfoGhQL~zYAMQ^;ebLSv
zkrARoZNuC*7tU~ik;n&=*}-o)^F#gTN?aZiisK?NiWYeRYXZ9hr-7I-BY9N~UkAT%
zC|Uz}kfz|a#SZ8hr?xA9j$c_>#yf6Ii%-`HW%@Gf8?_ig5A4>gBw)o@K%UDV4uTVw
zm_4~TvED5qNkPo`<LwhpZRXtPh+h>{dpkH^_kwyp+(Y>uKXW>(?wf?qO}?ASnX&(|
za3IERw&rlLFHv2V%5??YIE~Uf-(p<>74+(w0T^T6ua>7Gnx!@{oR4f<__$X$6~;*>
zaZGfY``v~gRkqx!cjVDBUPZm^2_q+;T20A$4eu^y-{9yzH9&W|9ybdBt>V_id|8o0
zkaczbrj49eAKQ0wbza6t#uX8Bv_SDWk_9*lYOu)0=YGif=H<mcfhgShSmz<lw{AKP
z1;J6WL!P0of-<>*k?PFm?B9peTE1k|qmMTBhTqh61aj+Haa6f8=cy<N@RP4(Do+7q
zd-u?=vB^$bsT6xZ=yoiNvKS>PUc~<a`k54WOl1e~Bi}9xae8nFAA1^>O4*Ok0?VnG
zx=grpF|TYx!b9Wgna_KpX+g%uTuV9PsCb)`l>OIZO>clA-*WFc*_R^?C;c-;A`)ex
z6OmJ?xKNVh?9}F;PmHQN+tmu(e3e}64qb(l{dNWabn&fuz*X9J>+DXrCSw|!T?i4~
zs?%T{{E{iLuq@{tDCCpUACnKr^Hv=Q4>MX97PJic1<mxnuS3cW$UxUZ?fG_9eTf<i
zCi|%+cV${(i_U%ne=`}6<ZFRJY*BMYxL+5Oq$NvBvB_!cA}wB=hb%j6_MSM1v1E2{
z!bp-kmv^WsQRAKFqdQlp%o`GwckHR>Z*qqw?jCE$s|yVTl<2xwxdAe3Ta8yf%SrX~
zsdhlWnGR+$VpqG{)zFYy2iNa-tnJYa0~t(7!pUU5(nB!}!cDg*%uH_qwjU9+<(w18
zG&1QrySw_G(T`{HccwAYq@`@a1cK~C4IQ=;XKZ*>zT)j*`eG8i*Ik8p%Tmi=-4@6F
zYP%U8aCC<gwyzQ1zqd7*`7H6v0gIG?;dQGpKWT;(Hn*MX=qnh>4+BfZ!U4Fig>3Z7
z1K<Ixo%w+ZJ|W^Z_rVbgR^*IR02wj*gCD1D3w^I4w?;*4aY+}CE5`Ec^-ci+RQ>5w
zc`!ssWzm4p{jDh|H4M#}@o|d}7UK*uUq&xv5)&j6OWUIVjB%DA_2y&vmRu4t`k>C+
zd6<C4xKE>}Q+yQEA3B~6s=oG8D^_aW*KCLTpx&p%&+6kUEdLmU7e&g^L{BbD3knit
zq#K+!vix4(-gV{-XS~~fIe7P&rNYv%KnFKYPsHoEU{_+b6>g{PS(UIv$+o5{Dcz7&
z<~iK+Hlkp%NIV;k0eJuU?rf&(dMJW>lG1<G4?$%e+wg?<gV8DH*Az2JyK^VfCcA{W
zm7vREl@G{e*uTJ#t;~X8+A>HWbAE+yW_d<+HJ_Xf4<{E{2bQJPxXv%r%oR+guyNtq
z`Zn#wlgN1e7>Gq;K4FcCZS0X2G;bOR8x~NYXNoyp1rNr_InNq_BWOj=aZvBy_uhCK
z4Ox7yyP@0}C8NH8Vt81My!)UQ{VOZKs!nh^Uxq=#3arW+8Wi9<-xwso+N{Vh2;+rC
z2y>%$wbeh$D>+h^!}eVUV6b<e)mAsSX<Z!;FMvR@nGesL#&6Y>DRfwd01kC)t<+<b
zte0`_f5KgBpJ7KU`<`}g$EH10H0{MbYqdFgj8T&njpfTJk@20`_Ml(Z%9s4kMzIdT
zF0@fTozbtYXZyqyBIYb(H@C9i$Z%-Iq*^c}+_E*XB>#b}9DZ13_(d}?Sj_{dQ=cl;
zF`^k4R>nj8<(Z9CW_df5u?p!{dRpUY4P7Y}7(t;fQyU4Yu9{iHMBE=naXU;0P^(>&
zqIQd~mWNXXURsU3HR(?YdTrGC^G?ZYkCQ`RM*j@Qf9Q|ig+k2v0Y(cuj(OJR{oN(e
z#5%HO6Lxy`w*K9PsNimsYH%1_LhY<^n?QcytEi>OSh=UbX*1+leQ^=eoDZlTCHv*=
z{sG-wy(jqM%6CGD97W%)@p8{bh1Yc@4W=#KORS%qd>Mf(Gt_?Nu?gV*g}V9|kkq>f
z1#_H~*ED_z=nnbN+6>_D(3J6rjYKNNlZM^fKIB^_$Hd!3wt5r~lB(t+ds(XB(SFU`
zs=vaR4{XE9H?3bmvd(O;m`uZd_P=KCErvp>zzU!|k6cgvP$%H-)<~)&YHi8&`TF54
zAyQf-!47}Npj}*GU@o^FFv*B|prbEonSjmt`|tF6ZPOsl+L36#BAQ9mB7GUE5&#9c
zgE%Okl_o2xUV*4N*X{g&`++qAvNc*t=qc2hm=HOPj7KwfbVB<Cvwig}x(Ea;Hs8AD
zt`KqjSKhSDRsCS8>B(}uzmll`M!&Wam3hb{1Gp&{kJ?e8a`#5wh-FeO8>*<ml^Quj
zEBtlD*GhxeQ$`{{)9$ZD;bWl_@6h;}<Td#%y09JIIEWLd3+$(GV^E#iw>wP<pl+|b
znhEA)jk=&EmrTTrbP)Xp<0SxRMe(A5vLbN`m>1A6o<K<+)pFseJIgAk{B1dJGZ3%(
zvNTK$MlPOAMuvjy7cVI2H$k}pbeU1DQ$$Fab)fbRVp9G$a#jf0(1_$aWiGFVNUBs>
zr%va$X<pa$UKIK=_$Zo~pC4SI=g!28Y|F-uBSdaQq)GPMu4*k|*+Qh*M1!P)shCLf
zFoLgwXBM-+i<FSNHBL782}7v(czNKEa?@yk{c53$k1RYg!N{JRN^ZMF24rW4lM263
z$w*s-{!6F+DE8nzCNI;t0Jz_~{`{<pw=v#kZ+iSGqWU_fAgP6tIdeA_8@=SuEAo}X
ze{2Fy=6emduss7XHQJw|Qp(>;5Ixu25Tq_KLrsD=i%#f;6u~mV?&rdU`sh8osS70o
zBTiPNJ<cKV#Wq!)+D81>74i!=SAz7<GKw!F4}NY^+3>F7VGP>iSxGfN3wDSJ!TV$w
z@{a;D6igLs{|3yjC;bvE&BiNXZJRvbn6_${F^(cgLCls&s^!>iI|sJ|@k&W@h<v~g
zJ|l)~0y@$ivkEBkfd<&@$nIdD7*u(hKhenls({gCgla5JOf4h+yEMOnS@mxs1*p-U
zlxvtZ1qQ-No_dWt1Y;YHWI2u-h)C3J*7{$NL;@iww{rFQ`mUQK>&)F%icPj}+W)$`
z{ynAj7L2TYy=_q)`ESDDZRY1iN|(-=(A23S*AJP28cRxxo+nFjhZt{65(x=qP84H;
zxx$xH-V7R6h%KK^Jbx7UPjb${fQLxW^ag)n{k=@5<TH5VPp3;~pAvoT%Y(_m1Ae0R
zL_T*08p`dFxFeDq$BtJ`jVS_}nYLMLS5MphgG(wPFrnN+_qVm4zwftD7>xGhRWV(>
z4J4yo^e2*J-+mfQ%c4$>^lE@*bLJprKKe|<PTSA`Z65LKCi+#WP$A)!q2LHx!Tp;^
z@|KW&Y3g<QkXGbd5iA=nA6w<GfMQMTofYX~Qf2HeGciAW^*5fp3XwH6(vMwx>f|@q
z-oGueT7YWpmTv_syBoW8WIx5(`+m_H>SId`>tfr5*Plp@f04+R^p#|F=ReCQexI9N
zjG!vvDV$$X`WR%f@*PV4VR-2~iSy*|V_w^JiLZoNbi1B)`kgSJguOCa(FKNZqkgMm
z`Im5Q%0nzq2T4g5BZhY==!HDoI)AIFNpJ?b5am_`d?=Tv+8NI@s1YLw=GE8Ff(nF+
z`VXD`$ApnyAeg*d)K0P|&?{IT2o(29D|L1S)|p_K2mD5nUv&RnEdFS}))#yMq@bXf
zYfJNaKd&DQ1-Z^Vi0z#HbLaos|6hM!dF(7;eSUcv`J)x=?EKW;>EWMj{?Fz9Sn(~v
zDnc8j>YLZ=D&xN|^M{>MhH)m!!h4fj^g|E#H#+}jA78E0Z_hU`a)Es{3O3Te_5MEM
zuXZmLIGIg975nt>mhQK?{u=q(S%&&!_kXEp`rDX)|MvANKOHs|`aewTjT6QD_3OHW
z=PVu`9t}RR5P3pW`G1sr{gdsjVZyB_Npw})rABX&Qa-QsB^lZ`qNOkpbsqhPjQ;+$
zE}U0T(8ujb>-%RdJer5=9#PH3tCP6M18EdaNeD}#)uSUq^iQ|q1KWJ(t?ob)y3waZ
ze*y-r$%FpTwDzqX=CO(=-p0;uot7DNd|JeOwPA_ZfLBcOkq?PrqM@+!c~C=Ye(fIo
zfME#_L{wB1%10FYCtS>kp#P63^2V2jM3$pUOKgB3wyxvb<f}r`R<oI2J*m}u5->U7
zO{(#o-5#l00}a16wyJ6pD}wz%n>wBpPjPT8My_@&qb{ta2`ekJJViuq<Ar|EPcxJ+
z^(m>hg0C)WirV#*#cL&E9RexN-*5O|{PH#n0fWjNvr3D{fJTeIzp|heEzN&l!T3rs
zcJVJ8JW&kKOA`#{k*<EZetuAQCQ`AN*iM8Z4=Fg<Y0PY;a5B&9dx_QLSg$6)nru#_
z=2bd29ka|M|M$a|aDe+w9z6Ey0-x*J$Gv<elz8wDU%gvuh?l(6%j2wx^DU$7N_101
zZE4-Lv+>QnO55wVm)5r2o^Pf$Oon28qRD$d4avHyjqJsKC%}s`>LMnS1gvM+udt&x
zj0&JMJ&}&FMv%NkLpu}I;In(%YVhlv|5O8SoIo&JHo`xY3TG$zLR5@^8RFEovkGj+
z4{zx_TbZQ80V(<P&UlOzPFn0IL8Et1>o9OIX|ny$K&;Jsbko5j!dW<3v5it5XN0m1
z_DP!Q)mtr-IRyOzOZ_f%f3}CA;%N|B*^`rJ>=Iu&+)eD|W?4(7KSjXS)!p4MW0qMt
z-|3)+2xxudCeN6_l|pdu9DplcT%4?vfMj%?5}6x%=GK3QYm4~jjQ?!BmZCL3(Z9-(
zPSO%J(t6Z3iwa9}!}t3EWtI6ab2x##s;b{tQStFTH$MLCh;jh}#Zm#l!5&?Q@R4<O
zFEf7S!E;-F?p&=vl#20A2MuUIYuDG!!=ufl-7LZ@04;9Ae%WZ??PJ@!DyOLtD9&Gg
z%s)3W^WM9*R`BfFF`~@==p(voGzd1C<JA?dNBg8K*#atQ3LhEjIhwtxt!1lw&2f1N
zMG*;oWZl{Yl)QPRNl$3aL|8t0PB67HFl%eePn^boM&LcUoK<F_<vjF6Lg6y9<Nwd5
z|I4hG9jj)n3J`;<z_d2N`Y5#dys=VkgKZ?J_6Aq=3jS1Wp%L5oxNnol$}<^fN)yNB
zdfX_nrN-tCK_gZ;BhO8GNlIU4eJ|2eOky1en+yPoE0-=2yc|EsU{4kjvoaUZwzcui
z9Zxy&JbpfD<P=JEX-u#`IOnZi(1ZLZG5*z)fa*2M<RH+9oUH65^1UQ<<zO}YJ|GOo
z;Nkj6KGVg)WVS4Qa|m>E-fj0~sM=y-bHN{eYf43%zBrA|hJU(9jkqTQpY<tEqo(Bc
z{(iePRe=TT)nrN}(8P6z;Yh5tQ?9HD3k&zJlYUcBq)^Byn#|YY?BX!f9ZBV?Fgn3A
z8{@XHQ^C1AX?f9K#?aX<XGTJNDpkyvmoHSNCbpb~&!M-wJ=Ilfa;Zw@@zma*Dm1ze
z$=H3cdwLj{MC9&e`Q(PNx+YkO+}Z-^MviPsOYK|x(?TQ5{X!W%rQTtvbmy+I8G6X5
zlibX;SRLFjrRh}Zd%pU-1~*=^4$E<HoJ16C#fx*JTN6Nj*x%q|v{lDXqVt1$3M`fl
zTf*ZB!n<r^58AqiY{rVO^185>H<53jq_cs35ihi&+Pfb=E4d^~Ru0C^uO{uHVZ=3g
z<Oj;H=X(lDTOm`bY5+o5N0ERu4sFez5r@}Z%P2;otxr&^+HA(VqIb73BeZ62^P6Ym
zcWn<e8YlfBj7B4U*SHN(6Ui0yRx+_+pz7Yd8SVJ~I4XTJR-Wg_1~-l!_`T)gn4c{-
z$L3XC{r@{tBPXCfc99((v@sZwQc&oft<IL~*?RVb%WL`v1cYJtZBi=ezcjm_Ki#ZI
zBr+J-)-P0;&oQ{pej2<vo)ED#TV6bLU2XN2&(IgUyNr?PTv_4ixvy|IP~I!e7$QV>
z*d9!EPu#WN9VG;AZK-4_6)InIGc{aIGYOFg2}pdPEl)r|K!`IKNEq0b0&Pa{JV(ye
zM@V4MiaQJX6{**aTc@$>1vI&tGPXQlg8)yL6Sg}kPU68Rq**#G9=0P*H~k>1#`Lw>
z_07_jXIu7{@x?m3t<^SP2K!yv2b!o3%Bn~gqmdMzsEdeS{|g`{?8Tg3o98ua9WRbP
zuyF8^!%eW-e92PqXT5`IL8S7yxyIcMHl=1>q+-72n6~50aT5x*3!kOsxTwd2dvG#`
zyKu+{Y9i7Q428DJ0)m<0djwFH=G?e^o-Chh)6)xXq&tV`az!+$gy@~Efk9V)OR<vS
zekO#$E9kfH<Xb}j5w#_A4+<_WF^I(~$~Q3FxWORHGDUrTXQyyIB}8b!N&G^?iryjW
z!ssk*U~^cRT9T&><ugOf4BXdfgI8Z63iiNsM)LWXV_0LW^zx?x7f-%?zXnypWxOiF
z*3Q8OVd+gj@sSSqrvt~_G?@ZbJ{d|4CI|N{H+n1d6m#$Wc&p%ef|pC*={SmA(mUS?
zTD$DoEDu4GV=fR)R>J!bk@gd!nmwLa+ycWubfi8F%Auz07DAA_Sc{D%skb>YChN01
zF&p~yw>z($)X4p*g5LAELWB0s{PRvm+B{AZkGhTPg^H?(<dQ~{3zj>*GoABs_z?qF
z6=*~}7K^3$%gmUgw{!n=iT<ZY-<NlN?<%_NupEtA5K1{Avf6H_{;EeIU}C@=FDW<G
zMO?kwoKmkRw7iDP?baIjc-FJElja%U<a#5{`{hTh{24Uuib^5IxD=Ii+r#c=U(72Q
zS1n&IGhpuR*;}CXDkb{IqPwH1=cgN;Genq3IxSE6i;YFwiy=y=tSYk^@tG1WB{wz;
zsN8bBo_<IwpI2ny9_ij>U1cafkG8h++8cB(7V!y<q$CR@34&_HB4bph>0%A?sRE^#
z$VjA#4^XM+TLYjYB!-O4%qftW?_`mj0*m=9!Ir(on<v4%(}_$GM4;Uyh(Y%eYNGlg
zt#W5r-1jYle!Jgf4QE2jMmXndj$_&VgsU%sHZ8=9rL=N5g`;nGEOTi4>EUKT%VNGa
zidZCcCPt~p25uNBc{z<qY`)sUjD@QtLjk9FCS3p;-GK_^kU*owutP37f^lyaEP~X;
zQb3Nw-!)aLv*LX8k;_HVx_MQu+IEV{WO}lD%BE%dF_F>8V6gTkt65lxO0zan67*bd
ze{A2v)ST~)rO&;wF*nZdkEeua@aT%)tLKhK4>9hv@<cL5PtRb}u8~9e&LyqD;bIe(
zK4T)9C*j}@j%6ioWQS(-L`n;|`h2~wRIPYyx<uu_`_tjzJu%W$vBtnpbbO4`1_`<&
zoq9AH&r)sj;uCX|m5~g5&p5*xCYJTF2L*1XcEeX|zEx`QNeN7o6!M<O1gf;O`EGgA
z`xLD-19g85m!g?5k=dCs+i<CVleN%n>RiRDT7QkQszOCiYrxw`zsFnk4=}U`mWJrE
z%jby2yLBv}TvNpJEG9MRIgEJ;`}9j$(c%YUGbd7bc`Yl%$N(kxtpkIo3Kx-cmjkxx
z!w_^&d^54Ej$&|IS1uiPX9n$@7bKcBxjuE+&eG*0h^@&xsKlHFqRf~Y(wfLhI~C>o
zad?%(X)ctTBU+ROV1nr37MR_&^&AK6CcyhOe2w)mOj4OSSE;DKKQr(s+sJVF257fQ
zSLvZSe(gCKlV?*o&2S!ObG{ylEMG0Jl}K+EPI<AVvLY4;?JDa1H7;w<!fBxPEatLD
zr}8H|=Jgw7_^Z)j4EW|MtFEwt1uBmvj~RDE*PB$CUaF_IvcvT*3B$B1oJG^?vF%jo
zp<PIGtA*xokJmkEImRQ+G7>Y#)u1w?`xgCc-)6O=jL|W@p6nF`$ZXSMvYcX94*M8p
zY-OYXJ)DPOLB@#ZA8E?TlU5&SqM_?Af6gR6-6iCFeEI9O@^`i7l}0(GSQI@K8{k$=
zJI8$oNMT?ILSA6X!h^yU={VO$|0bO;`csk1m|OOQd^Q}Hb8}1tKhEJ`2DBx^{iNve
zyoEu$3%ES(V6fd3y_0Nmwp5}eaDHgze!kV)n<`9bJln=Oe||U_7^33f`|i_~M^Mhs
z<xUW3zEsf_BpAQycLYwQ-1K8vde=8MHy7~#2s`Vjw%Tpo7Ye0F3oTY0ihH3g?(Xj1
z7IzOpi<jc=*5dB&QXGmGx8M>81PCE;^PO||+220r?0X0QFc=xEv9jhn*POridFBfl
z{wb5y%kzz=-^8D!zNpg?SJ-^-@%~bkkj)@7&JPy==5XppH0cN2jgx40=YF>_<<O(1
z0C$@*sOGSVh=@S?aYctaZ&vL_3$ORHykP`0aXxrkmJ=C;CTuGjtSLtV-&{45sHA?*
z;baAAM~&ugFsK#iSYD<~kj@t;7&}X(|B#Lx<=yb5E&M2yYk`NiKb7m$k!PZUrR%lX
zgF?&lSvck<$LEZz18>hM5z7reSAN<K?yAp_^SE1tBx@LV#!>p0B-V8r-w9ur$h@!f
z>+XU-FdqKdGCBO+mF?aFrffA86=l0yY6uoTsS)<MNk5FqZlCzjjpbZ(54%)oZ>m&Y
z<H!c<ayi%Q=Pu-8?T(Ffo-U`Uo-Ti+Qycuq)@-}9>MQzg<8E?AQ){Ds-;}=?7E8_D
z*!8nes9N)zwa??46DP*j;autL_3p`}SV&z+N!H|P(puM#hhLqwuSs*L>9K+7dnQLj
zZ?g^Pd>mi+F-f&;kXUbMD-y;sh-9i#E_jGWu`nS7m(eVJP_jv`)oO5j_y#I6W<+y+
zuOvhWv+vE-Qt_6Aet!F+4s(;BIm~y+zu&$H)v)jH+pMCgJC8Q6<}H7+@UeW?j@{BO
z<L3`ebNei#Z&3+uTd!R2Ptf&i>1F)&7u8Y_Ix_x7nuaM3F<i&B2nq9sJfUbbS3#7P
z_`Zw}j@B|ve3Yu-oF=LhkD~=rd@@#~$(&(hmX3nvtD0{zt9B9+i==m(<-ba#R`9Ui
z(BU{5{*J7)G*GN6zPQP(F4tMKC$XuoHeAlt2b(vW+<)T4rJ{GT`6l#S`(}MsCZ+n;
z@JyS_Ix@!m>kCRt?8k6*LPRdmXftM|)X>Sns+&X@g_He_k=<4)daw^CL{t2r4_BeF
zEO}x$OvTs-(_f90r=(a^1&}_ChgU_-k<6kkVcepad6%|OZfJP#el>X$=^x*vD&!=i
zEmQz3jiC~yL72W_$el=c8inBg4a@y)MS|#1Vvk~rmxUyb`N>R%t<2j!Pq~9+Ulo(f
z41dwAF%uVeeCyT2w)oq*CYc4V*XKFSmRUe~xRM)T8j-CE!=FXd0QTqj7%0|9bETFP
z4?RDv*H?j%Xh%-nsw}ZLLE-}}nr#g|takg8*&2p!Wc-Hogoe~{14lm0At}MB8d_RO
zVTvnkcv{qE4)^<1&@7wJ9a+zC-k1##KDWS26uCd3ZC49zGS$hq&A4{h9*B_13*=R^
zIhFJd11R8mrLgIL?wj^d>pfx>P8t6*p8j4ts&(otK2!j&b2EQV3cW?d4?fDuf~Rky
zR@&HVbwf$$S7zE&DiMms4B>q7hOdX5>^i~?#qv1`ue6)6a;}JR*F8jW$KzQw<MZHy
zes*vFp;Capx97q6Gyx5yOsk6S^vuzrEK94l$Tk@?Y^Lr0Ffd|{vcLB$TI+++r_s;f
zEyg}W*96e=@flT)%+8@K1%=~<7RmKRWIT=<vE_gXtF^o6g(LT34CtC!tE<I{iK&Qp
z*H|hiZTN>dN*pjg7;b6^bN*GFkoR=E{`1O*EJ}y~zyI&a4%oi3+w;c#4t7?!3n2T+
zyd4(k;=_-ZeXFNJN%EDFoV?mp{LF;{6sel|m@IV097q)tv`WU`^-8H@?$Af!jMP_#
zsOlRxym1s~{$8!HEi0~3@Qc#0C?_Mj^(ry3vbrpiIE7=R2#&8%MDsPHTv!jKE57Df
zPsl3+26-I}Dw-cI;MZAMQ6{h1eY>TTOTI5Iv?zpZQ|;3*(O=ZQPJ2V!7#Sk>wQT#t
z>)~j$Cj0sb0T0{5o7E9KPGT+tnpHFNuNE}D;&t{Tu^LTE%=K97Vm0WOmLyv&S^?)P
zi0a7u!n3lNb(Q8--$dV=dGgNRJ|s?bUW^X+R`o6u2<JU3OVe&dOHY(JP;JeI>R@>m
zq(drt?Lh&nTRz!o+>+GNW1%$`@c6Bc33r$JUTp@S{y7xgJo`=eS$Ue)Vp8LS(4{#Q
z&@Y5tgnhNtl>9cT?d;izvHVY}9N%kc+N`aia;NIE*FS4bOiB2W|1q5ro?*G3^KMBg
z;9*O#Q=f&k_~V}a{4(#D4_Gx(whd70Irt9`$bWm=fu5s`tzhO~lfTG^lC#&tvLK)l
z+SI;&Wow}jlX@HpbRl=VvX?Z+93~wlVB?t4T*Xvd$DgSm3D%f)l%H~zdP9#!=w85|
zaXruBsTpLM?5V(Weco)P?+3LN_~FpI$%TIL^jZF~gkD-Y;6B)||2(G5VvMNHb4`F&
zLmWr)xo8M{<p-)(WC}YvtkhZPyh>u7Zp;(B&aMsRGi$V6_%M4!`uhAf0)OvM<vVvv
zNtOWQ-~xw%1|oKYv`ReNIK{(W49Yn1;AiQ+$~ukuZB8L%A-$S7KNg+3A8Z|XG`-lP
z$#^G2Fjh<ZHpr^G9Yd-aSh7AY`s%#7by&)nFIVOh!a1KDKANwz`mTpcD1jlNW>~nr
zxoGNVaVyb-9g9@nloG659^5>kInk(pBFt%KB4r=+YV=dK#fvM7HKiBb;U$vc+8wr~
zz?2x|Fd@Op&y>%Aw1XI~0#M%pp4+vuW1-5j;E~7FBp+cqX5XJ~B>NUu6w`_1r`v<h
z78z_wt5rD~aw{m+l@)&$PFd*q(!Q)SfV?wqLX~~{I(B%%S#&LkXrOF@mD}nY0DDBk
zLgB}cIqIoeWa@@jfTSx&GA88A6&pfci?-&MNncD$@%yIvfZ%dPSB`NVs^mS6n0FqJ
z8W?%M=Kbh@Z%A^;6m%4MctI;JJnIG+w0Z;p=_}GmZA;l7kG&sKVF#koKj`NPr^Z@#
zfZpD6auG9iU3V<}U5_mU)oK!?O)b(21k4N(m=QAcF{<AZXBlHgyGa-8y?gQe;?L;%
zTaQbYUSfi%QH*>)-3H1{a2VAfHg{xb*$&@E^Hm~?8Y=v68hAhO#t2hXod|T;;k$Kv
z_L%qfyj;yZcAuqwT<&vP<1C#Pu`L4&nopnYCU_I{EmYM<8}&T@9(yHQwlz_S)|!Is
z+~-<O3=r=^XKydfhTtcL_xJY&!1_#!EnHE>$3V$l-vf00t63*Yp8{`zBFnAi)Kfvv
zbY;#LWa&SKQ6?VURq%0%hI75|7YIUI{|!Z3qJHAUXf<uKRtq9-u@*qCj7@1YNk^)0
zvaC84alf(iHLC3S>$?<^S@wi&GTXsC>+(ZdY(eMTGMA$41`Werlr+uwLXOm{IKS1r
zYKn7#GPFBr8NhoNf(AT>DQ=LP?M7Fpe#rBXRpqTae=HNx^HK4~ChI@K-*l{>!m^5#
zaz3vM=2J0+|MppFc*JXA16LJ)NXkyu#PVY{EQ*R44W`hC-?-CQspg#(*97zGHI`{d
zn}ud+3=7Ub!uBgAHKx)*#IW~s$H)Fq22?6pNfY{-Q1QH=p*Jy4k&``4eQB6Yn<HO6
z#Hq4ybI;(+H7(!m#EKRqeODNaBz#|9Atbdxz`8N(s}WG{3_YozDyz{nx-NOLUxwr$
z`u_J9yne)h$WJ1svldy4fKPJM>W#MaF!hacVW<?<>`AOB!gfI)e!g(IP#`Y}ZOWig
z&g3DIJwuX*kFA+_^Gxr<-i06yFe6IpKIzCWaX6^Ddv^6R917R!l`;x?qEq@A-ACZX
z`O$29I}Vl2n6O24)(8n}QjVJo$UTVq<6ZRjqPa@3u2tyBS-(r&ja(KvfA-86t7_iq
zMyUc_#s<r7JURwl^)MMIP|GC4a13UcX=K%dL9A3&l;eQ9EB<1I*UwC3DL`ncoJHgi
zLP(tJNoGCqI;R2#5;hN*JpG~RW#5q%ag)G3ICd~NHbh7LRIbzVAho4swQ`-{qKw1m
z5Pi-Nk-7Z^zcI^Opp-8ZGN_Q0EGal8Z{xs7C0%@y`>Dx!5OZ$&O-YT%@grCMK6yZz
zN*14m4275)veqadN&Z?FNUAYa*W$GzjY_M+%`GYlT~XrxCYmB$dJ}KqJl%-Hi^{HT
z6cp`^Ahc2IuJSGZJUyyiZjm0g;d5Duv_DUoW<qtc=ZXRYNBktC7WOL7J`RP(1<jKi
zebp?F^r&?ip;aP>6X(Cx?i6T@dY-LgT*df5f&5>80lbo%SQ+8($YIY-oVcXxL`b|l
znk|mS(W*Uo`hs7#%81_v2tO?vrHvK(Ow8w~2__3EJTA!*u4!Lx;A%|>!=d<`Li2>C
zTO)7Jj77UF30dF_J*OjN)%mcZ2@hUfe_qe~dEj|HNj{WCw~8(J8E(o}b(d|2j{u-n
zIwifLHP6gKOGx4+Lr9b4fsognUTfrLeCUl_TGa#G3Ai1>2tvXT$bzBMNL+r?0dG;f
z(u01JeY#g^98woG&$4`9@|Fz3Pct=#L}<!<qR$;d$)y;EijeLc4k|m?hJXDFchA+Z
zzzw`Oya&hfz3?EftE2O+BDs+SdWy&ln1IJonp?2jS6qlF0@;(vtimOW50})T4?)E`
zkt>dgr$_0}z#L-|bF-(W6KkO*Vlm*uiqnOLC3a;{Pe3>*`PI)sMG}l~v`9jdgZ!#&
za|j02NF?XdooSnv{NeJ_wQ%iGv-P@CXYa#;I7s=_L}h_z=q7GKKuHv4pCeo-y|FGl
zUNlb{<m8~C*C~_1{gl5bYRkgkw&*yLfTIAGOc`fGHCdPH)v^-oy^ggk&1gSd&gOl6
zz>qthW5t=8OcJsj{2Ps?Oo#o^PQ$(~#xC8P=#($+esb1;>gV0iS~LQ5ediBRD+d93
z7Oo9;{Xpq2#s3-?vAW16reZ3G2c4Fm<xygN``56E+~%pV!C@&9BwPsLd#-Dvqht{*
z*qKS531~k+do|h5sn*fiL9bTWeo(>}p-ntvCQ22d5vYpD8CVn)GiJy4;7~{Hd`<tB
zTW8Ft#IQJ5s)S%SADKieCEFh`PnIup+3sCxu?Tky4R*0CGge|rM@6LQy-1Yd=lDR#
zg~?vrrh>5ZdAVg*t2a?0l=ew=k*kFwwvc~ZE~bmo#TRJb=GN<6JWeVlZ$U{Z58EZ9
zOtORFutixMuAjP_3OJmMUY}{CHc~2A=Fr<RFoDFC5e)H9v4DmC@Gmx4(}x<*&VI4#
zRB{Dr;vzm}@b&Tpp|obPIWZ1R8k{x941F624#gsRH;6}y2dqL`eUJ5`FaHgH{(?r{
znVp4RObVpc^x8F_i|8e#<dE5@ch?Ra;=)qt9-^$*?bLU}MY>$D-$-mLPiM)W3k9vY
z3{lKTx^ef~VeaDfy`<!MhfBz;@gC$H6s}TA7mxk}1M*Vby-i!1L)LC>Ib{LmIBpS>
zQbUK5#S15yNxko^_k#t*e8&Zvvu7VfGlYK~c>cBOO$a;aHtb-o(9KGmvcUT&AI&Lq
z`-lsTv*-%v6I8(S#2TW{p9()L&PAho<7xm^3&aKH&T!*gJ)HOB?uHVZegNjFz2t8$
zQq8m+U;;G;6<(iJ0l@2!w45>i+yD-|>WcFqrVR!3UnI*@87#Mmb^xbNp$(pw0HDkC
zhx-%HZ%Ezxr>`*Vr#U=e)Y?h)4sRQ^I*c^vOOD(w$$HmXLC5Ch{tu1Nk9Jy#@a1MV
zHp|@bnyWLxpC@CRW~aEUuhKE8LYzWc%t_Wib#b3a+o>NdR(}z>CQQ$&4PgK|E|>k#
zY_5VKL452O6V$n`Nne?!gL0t6t`~2D{bS~xWXl!!4V&ppPO}htFK&L)jvppxIkM1K
z@#iH{hgZw|aLaP}A(mXb+m6(>(BZSG?-{ORO;Tf!N-kHc{v`6On=ejRSmRy;gO;0C
zyT383->;CTaO4j5Qenr&JE-Sqw7V+9;94QR{-BPKGF{0_UvY@s(*1Vfwq{fpvIoF6
z_jS+m_1w&26Q$w+LaF8?=`TkrrGw1JO#DbF@i^&G5g*93mWfPDbe73l>2>iAV4!y-
z+?!mqLizoY&#oG$1S!SBea@VX#;=8BM3L$Xi}vgWQn8acIOTyOPd^+3mi;gX^2ht3
zkix{!{dg74z`*vlT&FtGN6<ZS5_g?(mLay8m)B-A{4f4i#3qAVVN!2Gedc~Vqh6#$
z&iG!Nob-cvNC(e7J@A@&MHyRSxAViv$G_m6NAIb_)P?(vF+dL6V-W#c9Q>7O)8nQ(
z{JZyQf&UKCk&TDMo#<uDT#1RcNScTykJA#zrDXt<gF$mb^H4XZQ>XB>7l&{GEz!H}
zAAUpO%AyNZ_Y*A>Kl+glamJg~#R)pB0sot`HBPtvl?2hry92*Oq2JpmTvc$%Y>VN%
z2TS+C^6F0d+xX+<L;t1v8`E@QK%f{Cd?(fEgpKci2#x-8HKx-$A7{gN;Z9@4`W<3&
zM^0q;DZ-W#(-X|xvLbrbwEKxTCMvYc%YBvl$M1vz(-$9Wc8FGlgkm?*pVC+-g_U6o
z2bkc^Ob|+v?NR73Ku&!jhsCH{HWgt<ZcTp;#Y67x_`)Fav6R9fe?lk9qlJl9y|%Go
zD>Re=t_IUK!Ym#JhE5a!foq>ugIEKl;<;;?t2EIoe`MPDP9HiqHm>5rRuW8ZG8yK;
z=cHp&9*lvjuvBM}9l7><jD!oh_o+2lI7|?QoRqN9c*z6uP+%p`ofm_{9}@`!3UEfO
z9qNnTh?&-i`P)q^xo~VrJ+b;)hr1FoOn`2rcMetOto6-F4PC3x5c|{l1HA)uy9Ba}
zZDg;sIecs4dZN@Jz+9mH)@qUJUZ}d2p@(+nV&miWk%%gzFlIc)OU2uOA^KWdW!SNM
zOO&v;ye;8*yum{tWVco>LdaD<rxcHE+9c<78Xl`Au1Or2Lq@UK6}bBqOYLWjaY8T4
z0<oGnwfzp!h+%#bnl6(YFt0yrcW|K^55<dL|CuV|82RFt>>Zx+@kSBpn4eRk*&JZy
z3>Lcu$9Gg$uqr{PR9=~vAA|5yW+6I$XNUer^l#YTTTa9S*0Y0t%+&UGa(m7_f1hh0
zydSVi6~HGiTy7Gd8vv8^hdI=i-puWEYM%p50&Y9ZW3It4;;@l{k=Y5J=Mv}NZT(~w
z>sO^^4e#&ZxpgkHM6`I~?seN&8L09Bq`bD&QzD484$)m&;ORtjv^AQG{rbK6R>|Q6
z?+8M`d)rW%nooPpDL3HS1$Z|iax_msPc?C`L@m<Wvo9PTPaxmE8S=l&D_oPFbYz<&
z&_--U822Z|vuZnH@YXq4!+0u;6iDX7n_mkRXuS8j*84FUgpRGjny@9n+N~LeKFhRu
zzm7FXy==s>QZOy{vQmbU)z^rNT+tROF7M${bnfGxq;b{euj;=eo9}r`yEXGoj#LHL
zGD2y12hDBOQU{bE`n+~OYk#En_}to6+F4?)A8Bke_}B~-pf6cD*m9Yr+xtVJe{BuW
zCp8j(S%wF7h&0gnJ)|1uxWcJ;ot-q@h!tUF)IjGAAE{w4E|4z#%-!TE%}+(fepCI2
zrZ8!a;uCx~WvPC!T91ZV@D}qzYjJEYDo3SMeZ=?}&%kNxZOCFd^|@u62CAltj{tuT
zdPtI>FQ`PTN=tnQ)K+zw!|$d8u^sNLn3EQL*M{oQqx|M`V!gDKl<l`MIiGKW`==$b
zRO54Kj6-$LH^S99pJ%70d~$yxgUR>Uk{8g+;%&hYt8L)mCj7rcLG$@pOi<rK7wyEu
zVJ_-+LQH;X*y7mmEVDGNt{KX@((n}MesUM<B%@s}{7FY^oE;W;*ZQs1RL;kZ*#@ch
zEHig@FM-_w7voc&>TkuGL3b|MDpzqeSjpy#y+0FpO*_yig=o7m?&J!$(RXhX2w9j0
z#}02hG&}~emewlLlY~eahHy_4q2dp9V30nhUabZsg`G`sGB<8!mqmVk7+b?&MOj$m
zaQ@dQqCNOY2m>H|(oME|b?Mo5-CJK{ofi?ebzfSRm<$@^GL+GtJ$o)<qi^Y?;|u-u
zi<hDo^R$@W$l~VB?2+JN;@?o{KN*ggC8quOV~daxEMbkcP-gu(VU|5mlY8aYJj+mE
zhi;_r9Xzzf^=OWnw#iHl7JYPqhRX;V?c2PzQ~&DrvNH8Se|I73dCQq+yi8=o5oRqy
zBh7vTxvT$dKb|`@Qn4m>IBFxsHi3^SA|@i?jxaKE<IY3F^HGGqfIo|6p@i}AM395F
z>sGvZ$l8PvmpSj^1#S*@vS~9o&OlnCAgAdcKCu6_=?IK^?&afS%~vnw*9yK9985`;
zEU>T`5)R?xaLz%ilgg8ee~TJhjGwWC{bMZJ`pw)+lrsgSn!b~WFPE0;1tp=+mmC2r
z0!tF1nfEslDs8Dhi8)5Eg?$F=4cIZUViQnl{4?y26X@t<6sF(8=<Yz6t$8qqCTZzm
zm<JhMof#LiF<o_*V1RfiGcI!)uij*+>?o{8(baQ`as;d^{UM9y^cme(q&u^-*>1}J
z&>0K`zwmgP^O^E*{(yfziYJ&Y*<yoOU3EUH4RaM+;OnL(YE1LwCupgxBpMv$h>rE6
zt-nM*o;WtLWy#lZl^7*jdgQ%Njb^x;BUJu`Ht*R+%w=&*vyh^j;1F|8d`0JEROM8S
zh>A=-*NYcr(IU*f<%@tq7Q9k27-jnR(J}7Gl5aknN6|?Q4FfBWsR$jG72A((C|)n_
zGobQ(I_xGersU46K3Q(x00ATpI=R69bn`5_EuUdI8t!4(|9ee~l$C~w{iVR$pHZ|y
z%6Sbqij1D7P|yb&$vs&_HNvm^jHg{8bW=&@jdUBQCR<jG32X*_U?HO24|dNy2$AyW
zq(rj9WR?+GMp|w6HoC4O9*oErv2iW^a5{B#h88?;xR;`leU_KQ8WSap94x7ddR@HN
zfLncS?)9#@RFcqgZT3}1d8<5|CFxe~af(<Y%PyxNkC#9%HBY(?i^ce}hku#1{`bHN
zq(jABO_dc8b=7--F={+atpj`H)y)I$9bTR!)PJYe=lUYW^<_bmYd=faP2@5gd0fMU
z_udmGmN#m6bWG~%aTQDn{Tw!zXOD=oV#{_PD@&`erF&KpMSzF4?(KDX#+g6D<h0H1
z_G1NR6q;O~3w~OaTMvjibN5$yb42@3wX&X%o9MFUqhzK|NsVON9A(p4e+)Wff-qXX
zs+PpLE*b+i@L6c)YC#jMk`$gX^o;WLlN1FF%7#Fz88&&R6js|mbih!Hgey2X|4v+|
zd3l!m$e$XW7?Eu;X4o-csnZE?*e%JKF5plE`e?^qxND)IX7rXdr8>@TQb@;hxw86O
z3K@r%c{6V6z|M;hv0RfHGsr{!p~FhU>uE*Nhwww!Y5w4BFI0HQ;PH%yG1s$yqtXlf
zB}uKk7`b72><+xW(4MKZYjZy;h@5<n4EGPrsA>YD4<MG-(_fx5v?yoL8IR}|hvk&9
zeNop>#f+R|aoOJHhi$;pk4}f?1v+b_MCCJbJjBB?9>u9_g&N-oo4D(DIiZ!!r6o!W
zcJ3Epuj`HTFQUCW#AYw&vP~>)zbB<8%el%&RH19H7d%51Jf?qg%=iVxqv3|{%fE|S
zI=qOU2e{?fDQ{z9c&;A3&sjV>21Ocer;o*f;><Z!vn)&OUrs}4u9%HYsQ%Oo4yf5y
z2>%ne-V`*uk*DZm>ONK@mu(%tv#W{6mZJ?dZ2N_p8wJXIHt*g0X%hM{I~CJ>gfX;3
z8%8G+ENz&}%vj>baXx;U_sCvoT2c_n5mHQ;vt?#x*0qevW*I4M)u^>D)MC@4$rN<_
ziN)g4UrbzGk|)Of(e&8TyUIjLxR*KO@qf?h|C#8;2++>!fH%fX@%jCWV`Ptptk}ea
z*d_}9@d#8<)mQ+!<qQ>DXsO;yOTYQ-fi=fOpMd#au18W(1PexwO^HSqXGhJ~XXw;d
zGG)l-WaPX(s^Y}k!e(Jd8r9mD?)Bse7O$&z<O}trm`CI4?iOv`h>}vq*1*0roUw3y
z1NZsHjJiw`3r%2MlNzBMVVRu7&l95Wh2|dRy7{A}2@{#-2&za>9|Dj9pAyih)1bwc
z(O>bOZwe=oqb3MM)ppzi{c8SZR08oru9g3XTrltA)mM(EDC<k3qoV~<!i|K)lJUm2
zSLD&vLn^U(LxI|w-fcha`vg=*Mq(zP*=$J!v1dyWN;A8{rr{$~^~A#ihnjSi(%AAk
z?0JiyF^Na!nL4d^z4H|yi(_BcjX_6WZg_V~N;O+NFZurWBI55ke2xjF+$^vU9sZ{e
zf{9h~i?ZU!$n{#?w>fZ#p+G)&$@e`(r-I0xXTp7xc_G~)x}1W>i#HGV`9F*r1Mi9z
zin|P(Q#D_%=_(^}s#|E(><lv<5oJ`+6ZY&MUkBL!ZS?*Jgce6#IKnh+r&6*H5me*W
zmrh*MS)3qM7g$nIoXh`I+BSKq_i<@}Wd%!KQAOLW67PE{3o!esmOv;<fB*dJyqQu1
zsque9v;Xgf@xsJ3)dfNi{r~iHwJioKb{rV57nYWHewc2|vZZTTy_}bWu_gUKAJ>08
z$+Fkq79hn(>CtexD@*Co{I?(L*MFC&I+XIN{lWV;IpuGex`Y<BmN|PSb5Z?$xsIWF
z?6O9qhtS`To%lC*p&Th@uTWgU^S13wBOAj(5`DSv-+c04zGyYh=K}@q2?gfNQ-?<T
zFL)h(H@*A&GyiwL&*7qS**R`5RCNGT+iJZuuo>r+7rmj9UVpIu|Mysfwhc+fC{)!i
zCzof@qm>^#rY~(!8!NA|VDQSMBP>mqnKm~%n(kxn_0=c;|Hq|0e_%_JN|Ax~12Vn8
z4=`NENfASh&h6>D*C6RC5&MNOW~*OJ8E*UGT0A>{XcwPT5D+m=j0y07YNtAmy-b{<
zd}%rR^dRR2&8#t^I-!a&<MJscVIai5i)F=nrm?4Hck^EEFz`C<^5;bHzLt&Eu&Wkk
z_2cgi7MODT2V>SMrJMa&Zs9*?c>61Nv~$H1?`h->w;P61cI**{L?t8Oqjbg?e`c>F
zD~u4vwFcJFs~&V5U{_@>^l%>g{6hzu$JhojFXXEWKEs+xqxFn1RNn?uH&=9xShoEt
z&VjIrCv8U#ceI^1cfX@;y!eG@bN6}!tAS(ua<$Dt>?!p?|A329@M$yttk;J_qB!A^
z#uq78fSPCmQi(3P(`K96tNt8(8$;7Ew`SHLa<ula`)M>l>!(Y*P)q-MlKU6VgUUd4
z5HBhi6nS$qnq#%^1{XZyucDp6U-aIYSQOyZzjMrFcnVNT-N7(dxS6~VwKYhHSWihx
z8r|!YU}j-S`Mk!-%8G3ya1+|J7`ZZ<p5|M&uC6A+L`6<aPMn3ohwDtaDbxd`UKNVd
zGSCQng$zyQ?_%QOfgli1d9uhpVe$wfk$3oU&)(C-|L9xf9er`ryAxHt5Lf%5@wt7{
zEl-w;1WLK{;uT-ZW5;idy~Hl_`-(0<=94vz+t@#(_+DqJt>}$LJZDnl8;vA*t!?^a
zwAMk{yxk!^zX{s920gqp@C5C~eG3h?AhsdX1^S~*x6B9S30Z{!=8s05j<7+vd(MTK
zU$$l(y2QNCF$VSkh428bam91n83$nRb@(vY8)m#TWiU$Y(Ej$C_K7eXu5KIikO>_t
zQ`2H#i!eFcRBBZ*nLw{E&svHhNi)p;Qc|t5qs+jhbE??b-DAbMrn70t;Tf$C&$Nfh
zIiAWlhCe~&W2VM!m8>a{6ZHE1uw|Y`2;0-so7Qlvv23edxv?w)pN7dM>A}G|n_0`B
z)}wN&iF0#Wm#IlvC-JiacGRqYcOp^;%1C`xD3)>OT1q~^oJ*OpL3UBC+wDRypD+3~
zF2+#S-#^<5#=gERooToD-k=l<v}rWcU;USYF|ds;uDRA|kApciqF%vbAeO$)OS&h+
zlx)7$p-$*=il`3!lEh<1N^i4jqeh)Q^E(|Yt0MQzEX8T%y#HOZ44G|X1Wl6?qp0;G
z!u88e67DF*Ztzb3B*p{#KE@<&78Rf9?LIo0Q^DoaWEBs{ZNI{ChL{6WHUkHH0)Dq1
zZQ<@DV-@>MBB&_49&~l)arxVLaa>>YZy7*rhw*$p?Je-6Ut(k<#K$atE{TrBTa|UG
z+4OY%X=+N!Xj=#L*AHevK~`&Co9eIH6z|UPsBvYJrGR-tU!M#;9SXk0{&mrF(F6N>
zNweSYwJ*t%owb4Yurcs_u3-j~1NxG@$>3qVfJj9^;Kn|eB^JD<Bw#UHRvHmO+Wucg
zdt~^=^wc%(y6#}3Lw2%W*UM<_^Nc{&5*_B}O-@&_CAS(pjl0Y(Esso3S=uvJ2Q9<@
z#og8;`&EIF3Qs2USzv~iKyUO=G(KcEpqt;0?=&B)xEXgep5TkZ%7@#!)W0Wd<xH`3
z19&dtH$%Em@!VHFfLfD~x4zrYkTQAh7Gl#*%j|-3R$-Pb+k_8e{~8*<(MsI0CPHP&
z`2V^d`!H*~Uswe<+Li|RvOjaSuQYxPzx}^X`ar%m)RLdD<-~Nl{RADisXD8@KkRlW
zgzJ=Qzh^j?d$@anI;iRC*_476PQAbt<w#aKb#ErRB-*)Jbv$vb3fsS}&cfgqb@t!9
z*W;(Wh4*Y=Jcww;gp=O+$+aF=wS%V(-pJ+2zxp~BeT8Ez$JdL3+v0TJB;RFfV6V{S
z)@;92ENKvA_sQk&_fDtwhzYW!m#;eVmw5!~2{t;!v%&3iO};Fs{Ix(_W-Ui1Mlib+
zYLY5gf?UF%0Qt%UMxXAYpz%@iQEnU8hd}x-`eDJB82h;UCViq*Gc%<L*f$w?ff;q~
zEV_lW5wwfLAr^x(+I|ZGZtjr`Qpv{u;!+DNLwnh2)5&I{P6NMIO#F1ym;xeo73}2T
zG}X}5q^Au&=F{%P`fo4lM#(%&Ke9O$Dm`q>IWknj-Cb@UhY0mcs(Jd06fJ1cPy6S8
zi|r?vQu3Q6oin>IRcwpvZH-<;T|t2q(DG_&b0n{%WuRp~_y*;_btQpqG;vwOwzB@h
z1|k&vqXe+UghI$<c<wM&WGY?V_Zkc3Y_8e4=GHuFdrF2lF$X+7-2&WJTT{WjrygyM
zy_p_=f4|Q;p+3DUBu(`OlG&<|XlZG&r61Z9QMR<nYuJ@->HvgXihO`^v8fol{bRw9
ztzB{0IV8{53#ca2A;d&wLYaiii8~seDodLf8`4D>aJiOW*P5pmBY5-<wlhT!8K~!!
z5BGE^IBqgzZOV9o&!C*lyFvCg_~p83U47l>GW*F6bO>UA*>xZvW0=Pf5OZi`$$%n?
zvOhLTceuuVVd{K${5k7y1sJspnu4NYL7rKCQpuo_bf^L7ofb`8QWBd@+3LvXsE)4Z
zbfxjK&$0Qgz8e<fhu1nPHa4Zn&_8!43v8rSBo3?H7Hw{o2xQ0YJB)!=A#~gPkBlYC
z`G@a6Ggb!ZK2EJL@%?ww^+&fo_9S8xKSj^gF5YC77huSIJJAlSLP*LX=0~~;0Kz=@
zpS64**DEGAwm4-nUOA+Pg}&TFab$elUTIBH&lC$AyD+at?k{oqgsW?^CY0*FajsG2
z6F}>esStg|$7J;6<m58DPNmC1>s@uGwk#jF{Wm)xap2}{4H_Snv&g2enQU;^t3_i7
zHLl`UNY6#h?xnbrLUDwsN@949mk9^|BM$%GH_0fvb!g8HWbA|=a%MMWFoM(C3Cb`m
z1UkmJAN@hjC%Cs;D$~Sh-M>BtMFYZyOQv@UtZp1#!4!*%;G8wd94Fj9iw&!zKBtGi
z4U5HW_{a-g)3<&;H#H-W(?6Jyv+#cO$l)CCnOfJ~!TmIh*g;z$G|j*S@xiT$gDsN-
z<Fq@LA262&-o3Cg<=NkW^?Y$XM}d!?@){Ac#R}5lv7-2nZ&7B{=1krHeW^Dp<`onS
zFl7lGzsE{ej$aDKeW>GpZ+=)u*e0Y|X7EPa=|U?Ji?N}lLWzBL4y(LOn$RSx<>`(i
z>13qL%`1q@EHxE!>Gvvsg=`k}!U7>;Kxh0sp%xow|B|>gB`(jiMcoIJHl<{#4YC+L
zQJVqX4TT%Wl_N=65GP9Quh}#ge2e*`MpsbY)99IlaqQ|>Y`5Nf%#3NbKUKRAIz_tv
z#Hq@VruretK}tD?u<1&j(PY~JsmGyiYs@T$q-Y}TOF=b*Mthp-ZfKwq{E%34^z=sL
zGl7b(iE9kbDnOOw`j8m%@LM%H!453!`5u_(Oj@HGU|JcKAZCvim5<-3QY-$&@t<Wh
zvL#T{AShE5*5gy(B0xw#VSV?sz3h8V*>2Cwh`vRst${?$fyY3<!*FBf)w&SKB{TOB
zv}5vgd^B`T16hP6;a+}n7zQTo1pmiR|AWb0a~4&`)jeKfp=Q11l1%>PZV5Q*ht)EU
zY`z;PFIcOh4A+YZHnr9)=jxhp{|*>dE8`7%5LEL0#aVBDb}wBNmm7dkCPH-a>22~D
zdZawGpVFE7UuL%{4W|q}_!W!bSq`uJoUrULD#th4T?PTctqAWx*9ySYDQHjdv2ypG
z839<6e*ljJD3;yba<H=}`f1mG@Eur0ZT8;J2G-&H@d1zsdv=g_Ja*OH<iwz|=urdY
zsAW*an;W@uhEDz^UR0mlIMUM(-n}v&TdwX1Tzqa<EChXr61LZ0{v1(iqsZuMYS&fU
z$h-4U>2bO*>bRo>sLI*h+DO2Kef?_6VV?yNhvoS?`~HFTbno8xzydEN6SJs3YY2$T
z#PD5-1<qh%6@wX-d7d&F98<R}1ovUm2#(c8)m>QXCwKL9tEU3MWn{u+F{0ja>H^}-
z^Byae(S4XU&gJ`_mEm8q8()T03IaZ?eD+8Ve79Xb4Jk7asWj9r&HKI=DdfieNE`U(
zxz<e&MOjH`B+(dEzytl$n-#-^#;@S6T)GvH)3<9^Q(;Tp6N&S73mHOu&jRl7{nJ>S
zDVC}n$d<m`7#DmA_tY>kajd{P1)e#CUpsh=UwznJ**R>(`*5^e=Emq&Qc*Ep09b0P
zzdEVSo+$d_Uqo<>Isrdv^f`aShP<Fflfk>Hc#%%;1HLtV<BEbeg%{w+N31<J@aDb6
zn9ehJX3CM0BvSjDWQyF00+!*NwVm?R{bY$<X>hbqX>|CW8qw~5_D^E-HS<Xh=6N%{
zj!LY5jr#Q(jq$T9MF8>I!A<WtM6*$I;6Xq~MTVV#%d{h+1p{!_zji9-7p2QxX)1&~
z7-K@(Zn^`Q7XdBziy=*fXqxVZFNW`gUJC9rPO7Fn*?&5T@llX!Jo_<xJo~17JpHl#
z>Tqe|`MQfN6**qdZwPVyj16ZaM^NJ{0+pXbDg;a+W*$ky&WGq$qf5ov1Z*=Y8=Z#4
z`XwofUMSJTD`P3uN&0SkBUOS>?7bI_!M?G=mp{mBs1{t>^jzICM#N=v4e0ICyDF@x
z1KH`n#tN)T3THsN$auxqeQ#)CzJCl+>Bs#Zfkp;pk;A;E{xSv)&Xj$dqmUJF7q3Dw
zQervsk$0ULn;1c3Sng^a(N;Z<#AL;kU8-$P&6WJ3TAi{u0(#!|iyzJJ^owy*BBw+(
zzkiQZz9T8lIZzkqM69dnw|aZ19bTORc7k{F&VnY;%iNcx&)Sa}NO&JGJe*+uB@Dyu
zPC}eH4|||Dy6L(`KIJftg_O|5T%RNH!)8A!#9hn493f|-NR`Ki#7En^sN5(C(uFiN
zC8x#8a`#!$|Eekii^QJbDolrCb`y;a=nuNimh$h>F=bH#1A><xK@U8y2vz&LIO87u
z8uk4VomzLE^2sYxqaR1h4(wFzClk2ir)MM0yD4T1^(`v^HD^s)Q#HTXvl}ochvpxe
zq=<6`9KtG0!A7!I6^;J)4Z-W-I>yy3uE2g#GUloK8|hZi54YX9MAhF3Z}(N*@4hFq
zS|o^+S8vqxu4Xz_`<*{?@*(0dqRWlG9c@uqmC0rOy^+&4={odsawsdpF_#^8>U}%-
zw4)*oIx8iw+KgrB1h;<}6?xa0fPOt3EVPQogzHF3PL+f)8l3qA`GyF-lr#t4x`V8L
znztP;V}oYnzkp_6{hTj1;^jX(2%gi-{`r+uWLqVgifxF(Bko6~fyuZ+v3n<`@ZEXv
z?oZ^YLW@VvjlK%*!!`>_=li%AIDc03Bvv2K-`8!3Aa;`<JDnDSNZ)Ti4bV{~KbE1{
z{6%J`=qK!*#n|};?#b}5RWpUofd*J|@lh3^rNhGx^kU1FNXFHrj}?Mt2|3?X{=z5`
zoQl=7dJ{VP^k$U>4sK6%(FR@+@{U@WMkOH4%0|C@`RB|7_Jcn`MvuY6;ZEJ=75V2d
zD;M>6c|qevjrNltZc#p?K2*L&>;6vPvV6B|?|O6*62EJlgFaX2#-2g`1OrG0|Hw5m
z_}*Sv&A)by%JNxYc8zJP8c40ipyJny5!`#;dR7*x+&MBba#ocl#JlQQt<Hzon8h8t
z_VY<^+^K50=4rjShJ$Dw+8e{Zr^?e6&Nlz-ey>op=D9}yr)neMQ8MqFD-||_YxqCP
zw>)|LuYERs)zadH_(`hYa1T;nsc(I7HwrYmHqXiO@oLHvW-=7X)MFajXqD;mDv7=V
zJD9dCax7~DEnF7@7Dii&m*qDczW9HLDy`MSE*QPER-%_mC4p{I&UJoVF2Nge5GmMj
zg?Dnpn_IP6_(6Grkds7Qc{^j>KYKS$YrFfqyXmeARmN7Mu6LEV+w*g|->&rQ{S$XE
za_Q9${+tg7-yHb0`a6>pJpk4p<sQI;iw@VDo}zx&{-?-!06@noljebDDykIEB}=;z
zH4Du$f3>47lla@PQC<8~x5a)4egI;m*)`{fuX<PC#MB$c|0phhx^{sO;wLxFE@P^j
zG3W2K`Fi^f_l`N{06oSN2+|}~`7-+qL8o{j$ebO+{srlcDHV8SW0Tzylui3mxX1kK
zpys170LL;6s;=-|vml*3n0Zp=JJ_P0vvv8P_3kx1O7nqcBPN@=c@>&hu|NhxCK}lc
z-YN9{8WdCeY@c6d=@*yPuDdS)ZCyWHReHVEeNJmLt8hQ+S1M<vLO)@DLB-UPd=iW^
zWfAdwhfyVEN;@8e>zp6{&hFaiQreQW@jEHxY)ob=WJm2Jt((qDsEDo@ZCe{d;dp^P
zcp>O|>y3pJR`;YU<#2V^c3&R-f_hn0*V&O`p~LZl<?A{JG5$BXXD#g~yR158?VY=>
z5B$Ysq4+bKN8pSx&JPQkm&EsHlN=Y^7X+`riM5(nX4K%K6Ev;0c_izw&mYN~lKu@(
zBHuF=8D^(w*o<UmTjuP!CtQ!$rqz|H?{TN0Hk@`e!5Ee!WX%l;nz-W$rEU~}%}gv-
z(8*&(VpTC`YH*byyXGE2=3A3H-^48U8-vU6hVtAIV&kHPkPV{L(Y#EZF`i<!)ZUwl
z<i_J{p8;$tW5!gW97aLY1`S7F8q);_rqo%msT~B`ZdTZFIbrGc@UU3Hv+~8!lveFK
z&FbUAvqQg0tR-kdGGuR2MI^B%^fBEBWbj)cpAzkcNOtu??T|0bd8l%6Of&XTmZSYv
zXsKz82XdO`;<~&<Ebsr|ok&?m?gV4VEEaL{_C3Yc=Cti|F?<jN<8omYf1>JQzO+>3
zIt@5VCk{H~=>|lm4R^s$n5#RlDh>kx(5QF*eYmcdl>nbn*)Fxy8t70$PT4v|7vcz?
z1hy2OPyv1=k!&{>S?mh{3W;8M(3*m8YlZF&M{#$DgmaNi9kR3dXOs7V3HJNfq_(bi
z|9l_jf{Gd+Y-K|+S@qXzh0Aeu^dwQ?s;MQ<B^!+NYlNI;8oV1|;>Yj?DHstJ0(QN*
zwtV+O5Zrx{#rV)Si|f6e|5oquFsz(2{<x|`4r!u&<GU2yv1sHU2&><R>ZCq7<9Umy
zi=5=Cg4NC4+*U4{eyYcE^vVs`MyV%KVY1MFM~f^5u}~ut^06m{jTdF^G%0<K9?kbD
z0OxZ;Vne#!6nDs!=WqYeH2*Q~r6{PUggsg9&4LjrvZQ1)?NV5$5?F1yJT9{n{8U+T
z)OR1+oyn%>GeYs;a`NiTS__UnCrvF;O}RF{@X(wsa`JZEv_`H8JUe^Bm@)EJ`yGYr
zd0^2=%8>y$&JlxjP_x<57~O>_&!CkpPf6zCzd*`w&~veokn`ApO3drEwz>YmBLWpz
z=BS0Xe=9j}kNzT&<LUSBte|{Fg9Gmzm3UpDWJc`N6f6QgDnDIn#`Q)WqOKKjonzpR
zCDDkcZd2U*mm}N@8bfyc7~m8dH6n^yt1uydAa?6+A=LGO_SpRPse}2&ckXn!RjH7l
z2li5<Y@07vtK9c_SijYy4Q)Ro!D!<Y(i(_iK2pxxn3M=Mwi~5vack?yuX;4Ovrp{s
zlVzP<ADibcH*Nl~RB2^UvvF}YcblQI{4RLLH~QNmIcYHJD8l3OJ4y!QDS@MJ{RKWZ
zReSdVCLX2aZheQ`nv3r!xKA`&&pX~L19N=^B-S-!QNPSfU$6UIrzT=haa!g0*OgA`
z=&GqP@osoF`wIDn_=6fMvwUYnLEG4qJo}>XRYk}{ct2?Cag`nZ;*ad{YoLKK#P4=`
z2y!5KQ;KShJEE%_fGcuU;ER}eljy%DS{-+>!#Gl1AD~2RF8E)w0FXy>Rhr-|>m26#
zy$mE&H?YlcQGWpdUVG8Ujy|khzZALPJB8;L`C(Ah<dS=XA|Mk7wRiVM9N@B#bCI0g
zG^s{jRlYE2Gq+4Gjf@|c5_sAt-E-&9j}786fA|@Ds<CU=Nu^!O!wpO~X<DuIeg+#<
z@m__?FHHnt)q2-vXde5}UiKL*PU772YDR{AScKxbN*?JwFa@;|n<P&kX^>OpztE^=
z;oZ1Z-GP8-SgR6E=M#>D0VbL^+u3u*H&U%TrZ;0fh?`^#s+O^=0B9p`d2>)YHwdv<
zs9CI{eH(HVpafCRzJDkDZk=T}()TI85M2_ollhad!H8VK;gH}6t;g+_?w#8R;C+jK
zCrG`~@@RI<rE-6Nqj=Ht*D2-M$84X`(PRA78O-if4-zx3Pm8S)g%r*&N&pp~RK;6y
z=xPel#*LZ^L(wL?w{lZQRNn_A`#d1hfO?ICmR1%c0lBx$_dHfzO6d=YzKByj;9+BP
zlwn(Db@z;AWD8<zsFd64?0!=~VM-X5*LCHr%DSaGHSIBt$8#*8GU1jD#p&CR$x0}<
z6QHqQ1tAhVXBmdr<v5JITO{75o4r70^(EvU?uy5;?aTC*D)7MHHngZWb@=q(stK+6
zX55$z7PU4X^X|~-7g)qxc3f-<l7W_DDHKcnjc3ir6CEr-v7s}q%HMs<9B=Tj6j{vo
z-VQ0>E}UwB#wF_~E-*IMm_#3R*!Y_K-C7F@=|+Z-R5wMVo;X#mRWmuu+c_nxB_M^r
z*sz%G@HdNo7raz%kKJX|s8UD0v&n@L!^b|Eg*}6Qtelo7-FxWaglWkcl13tpsV*@8
z*V@sU^;nI{#QXDX=h_+M?mK;!rSVBbqU|g<bxixQL)!BGgXWm1rU=zVp^@kAi<u?|
zvU*GWvr?xPn5lP6QQ7v0&ds01N5a+jP8-F|N;v{+OjVnsh$~Iig!%HtH@ZtO7}+?`
zdI@PgnW%*xFOo@5?dq;E{hS}gvN-8Fo^+k9jQNZX#KuOB%|>UP+aWgfit)|+Uj8#i
za6Suz*T<<dKSiZUosYi->|CR6Kk;hq@K5biSJLv*w;mInmJ<TAO@?PJi%IQPk84rH
z!R=>0awdKV2dK{P6{ceufBsRX!o0Yk&xa@;Tf*iC#W4~pV`R`%Kv5R<l;}zW=J9Nm
zUhC-6V(hYtz^Rbte#9f+uL^y51xpnY!5HQE?5Xd3ce=GQ9lpx-PpNFuC`@E2I)UA+
z`L)}CWetd{6vJOqu)ysFtz8cSdcDM623?4SnPnY@$;Dy7{s(#d2bfeB1?}h=7c>8U
zJ=<X--2TilzpM%OSm?#$YV9|yRpksgyRANI-NXw_y6<17SEP#DOPds!+|OEfWG=-%
zDiA92j6XQ!L?QeWTx0=f>BYk<)epMex5pK@4WdhI^NzJev*)-Q?~d6COCZ+$GW&xV
z_hnWVR_V|wdm1k_<Ex?1Hsz*o-(DTHW-qDCR}(rgF*C;tg8lT?{Y80*lZ8=<l#%eW
zRyzH3fT}2?vT}@JfexQ3qYWA7WkGhr<zKlmZmIqOhQ$);-{qOMRot~C%JznQacuT>
z1o-%?88#|&h5M(SGPyl?cvi7dEz7@L5uRlVKJhVT3NzTFlMi1Qah+D5P$E?sAF1eQ
zwJ(CJu{m(KQr?~LW1MDuTDBS+oh%XBZ%SRnHae>uXHE5F?-NDsBgH~-=%HHv>d)}D
zX9n}pRzR<u@`k9fZO1xT@XRq8&IfVWXvXE?mR{77_JSNfzF(OV@t<nhg8SaW86HmD
zI5R5|VdZYcG29+A*08G`!0zs&&rCt*52}bI$OH-k*9Cy^79)CWMFPG&G1wNodcJL6
z8z!;#yET}7C?}S^s?&H1a|L(9$M~fnNUZfV1`Z18wY4bh^~=HM4Og$k3}A;DQcimq
zyz*QE%GU4IMjQmF@gTVUf^ev=WAXyj_<9L9zNxOKTDh;4>za5ioBJJS<7yu^WR6_+
zgGv*s?dE^1zd~u=k}Z=?cEC^(n|JEIiMJ74m<md;`6KI;ei!BkX=T&ZU4?_edLiPl
z@F#YxOrYOWt#13JfRNC=+dN5JZi^L2tu*Y6kGpM0=>|fL9Jz)B-~R}|zjN`Uc3<-9
z?~E1m?pcnXrU}mOCXn2sHUv@}9<cpR`a%>rXjBh#^V5{b$&j~W$$k6Ts_LYGUk#&8
zep_`5JWzIbcX1<rW6t34*y&eBH40#9={Ri4O(Si1sW{hM!^CS>xqfij9$u0e2cD0G
zXCh^6YHY&SSJ=Pa+Jc1vyui)R_#6mIKL|ewk8goe`gP(eJeP5tf5mf2KuI|tcjwbZ
z%a<56ViJ5%gq3NMJdz+UuKSv<tM3wa#hvWAZG~&R9z;`MX!(sz2(jKJz(Oki|E~ro
zk>Lriw+^P;Y-ww+A5)eYltASIjo90YDuo@{TO#3$Ol}lsocb)*ZkiuA6uo8mtaFB*
zS5TirOM0p&n>#A9qrzP%ChR4mtx%!NfWNSieq?uOUv7h=6mnC>jmcJf%x|+@@tNOj
zAE))^esAViq5CKnQ;{VH3)it!FL#-TV_jB(ol188v1;Xt9)~k}+P5c)#TiYW5`vZ5
zu|C+)EWxv>{SvTqgKbxIAZ|T!mI{039CyIAlbdqa3b;dck`Mm5b#K{F$@d~RU__uZ
zpkWH7r8^Yxa?Yoq?L@Mtb#O3Q$DA+B9e`lkY!;&kC;#xfC09~_KuqoY&*mBKOaRQI
ziQE%}Df8;-Aa-AWtcb<xjHGxykF(RU2rkgxr@H%4<#4XB`lJ<{57}FZd3*Zc<M{qm
zQY2(2R#0KH4HpGU)3baKq*#?QJJlwa<8=gdvp;GektuaM8bRXb7R<z};HGYi^?P*G
zML!C`hMT0wYgKi-cOk_&e!b4Z@D9c3&^Iv?TFu@FzzShIH*nNlztb|B!=zKpv1Q@n
z{M|)3Gq>d05zR?=?$0dO8~ok&o#FkM_iJOpzW=gi^Y_Rt0YkWaL2v4d5+B=^S{xo%
zf!!Eji?tiw7c-rd0z*idSn^kd!n>ktbQSK6ttCHQ@%?PSGW7?x2fGO7YiFoa4D{Py
zr~%gByXLthzsN2)q*;jwn!1D)RNr5pE*}}F4UNbi6;qD>6!zSZcI>$3_M_%V(A{vp
zFaN0q;)fROD8Zb;H-7@o5&}da4MG&RW%vu~i^hJXC*5F^93JXzxIccGU*ZsDx6YzX
zKTQiJ`NL8w!)Z_8Q&0+76#-MPf<pF`V=!Wx{DPY+6yxD|p|TtaW-mfMX5od0;%_^a
zGk*H#B+0-hC`_4BJZOX}&h1u<zIDe!p$0pL57-%sIV>(UVF@pYsn(PxH7p2F7j%(I
zD`Qnt$8BBm4W;Ea0;xT-O;M)W8O=n{>5Ab9eeC{7KiDBoNn1o1;81vM26#Arwm&==
zTb(!=oH`=1BABAsLS|QZ_V5fkl~kTHk{FFn=!#(Ghs*|jUfSJG-n;Sx$f<s_6DHVO
zz1g~GutdEJ7Tp)Yhg##15-tjRSO_V#@f#Z+5tvWr64jh+_%$0BusN%KxAi_E?c2jN
zy!?zP%D(zp@f`v&^Ef0S>Al|cUwBp#52E{4#cWgrQ?~GS{2Ki$bC-`B1u)A)vHvBT
z5$*r5brw)jwQbubC1of@8l+p0Zb7=cJER-w7Lo35>F)0CknRwM&Oy5V?el!!`|7v;
zH3O_Q%vyWzyRZ8?&ht()h-kUHZZBsBt8=tb!m6A@ASJd#9VfSuNAJ(<w#Gq{?+UbT
zI;x*-cni>;f^zrV2OdA~ks%OrPTt<2;Eo2rRmWd6mkY#xr9wM_ioz-#8aQ(2XA%F!
zv+!c*)03R2*F`!ob3W!`Ma;4qqhW{e@j-n><T;(0XdLX}$9D3Xb=F&Ew<g!hWXr1b
zhk0pfPD<eN3j<QrymGHQ-)vDZ!HNj`OM_g!Jv34RwV&>uc+e`QBp#Fz8Jbr*I5B7|
zPegE@{ZOba&(F!vDNu;I$2)XO`i|Jnn-$I<GFj;@P!%yvCf82uHB+Z+YqYOi_vpC$
z%y`ps+l*2&>LZayVZs^U2bY5F=kE_QG~_%-A!$4?0`PV{mUN?JGyc<>6xDlCCS7@}
zA@L=7&W8ywBJ$s1i73x0NZUo71n651yI>7<z1#0(ZHX^a<WDYE@4<Ij?N+yvzs*~6
z^HurNS}v3uh(TD?$yrv_*?>u&=)UpR%75IAS#@C=eMYnz`fI#ROWW!aWYyPc;<|@)
zbp15B9^0Cwn``Bwom8-IVdDgFEjHs`_mrX2$7mj;NRN+v_6e3HXpZRqiR|aW??bI(
zNqJqSR#i>~k5VA-_PEQai1Lt7w)CY<t@hR<ZEMAnff)0teQGECQ>e$_T-jE~GynFP
z&l{=Sb0bknK!YTWMOg$t7F@td?A&(u^S#4NbkNY+{Y%Ab7oVYu_mpqw$c?{@aFo{6
z?h>^iX^*VttID^zUqw}jp+%#r@Gm;(7qLFIFu@)2@s$(7mN!8#n~oC>rF8}#wpjiA
z55v`-=vs>WEelq!-VX?PUb88kq}uwBxUAl1aj~0BHB<v~-LdvZ5D*>?dfv}cnTAsk
zJYNe(j`%q1ki(T8JMDELBzax?T=SoOYdxDfgxrvU25}3xh|pK|7k+PoY;O)^Ty1N#
zdj=jg@A~z_9A3z+Ir3vqf5K`cwOZp<d!^<j!;C=SP)e^;FMVIxVvoytJwHTA7+hKE
zKOb;gQ!re10CVPJ+qP@IE2OiFWXXSA=|ybBcJ*__c98E{z-qy;tcbYZhar;xytJy)
zzojFAK`ZGgHRSd`t2JP5?0k)Jqg<BGPq<k+Khsj+=wpTQrF#EIf$nsqF9D9{RpaW^
z)KJVu0vzT?lBphV|6;_~u?Y$JptN-V^N**1yYPr=I$2_7d_2vK)W^=mXf5ZHMiG&|
zo?M{e{7mO=C`94~OgjICMzex3Dnlq+!e_i1YY(ebZU!pTN{c14#lfU6UrWuxH?E=-
zd~~2olShj)*f*bzf1}lGl#I2^b-pdiXLpQoI5+1!a(pdrV^co*V3I&9MNm>h$J8Mn
z!EX^obN%2r@h&7%X}nQTmVe(>N6IX^_5KOn`MEVGY{oh9s0K=Vh|uLHt|;`c+rbK%
zb2|<ow+}=p!2%a6Qq_O~*`t;bw(L$;e#3NK+DYT3y9yp3Y2m<&((_vP%M?L&TLF+#
zqPsk|j@|jJ!|W>@T#Cu<p@<Rgw0FO@Cbm2M?u&T(m5GT9oR&}ISJDXBGlAnOR3HTI
zgV2z0cUr-8JIm|Y!XGTUI!?mL^+p}XGJNvJ9~4;KM>*>}xmorc&@UT%^e>B{@}_}s
zh(t}>JzEg>;YMj9nf`r2B*)4Xab-hrz_AEUn)TH+ab=_e_ogP7s<JL)_8nHFXC;9{
z-bycjg~N*7zb_)Qg$t-TC!xw=ij}rY#Stp%oDEgb{=h+sTz0wRO#z`2`7>Zt{4E~J
zTREJ|x|E9LFKQ_ry)!`3z#zL^4eL3G^#^s@L9Qd4I!%(F4r^DFSOn#60=Vk3x4EuP
zHi>odNT>^zVhH;Fl&+xUXK#Ybe%~&xnq5Wvd3~oOBJ^;g7;*E&krq*+u2Z?D;N#m<
zpPQ<xou-Y}_wd7XagH}x0pQ=k;Whso3&6?E`jd)&QOjX=CO4y7E%|m}30Gr;luDwD
ze4)1eSh(muoLXQ#-)E0;je_BnI!pLDL5@}T26L2BpOdyjRU`Aup)-sr?Raz0^MFLn
zE(JvqyJCRb7iKNq5fa@dXFbE~bDT^M#jM<W$f2!s_#*QT@2~rQ{BpDmpHYP%{5&j7
zIo{2r4STH!E{W&E3dZ(z*Gn$9?W#}Pz~P?EK?V$0H)Pki6a<j#{ppd)FZf-LFvx{E
zE{i{28({0zYunIO5JN>HxXGh&qWy;<%y8S_RH4086`5YS^%*2kVck4!%mHCC543zJ
z6<Yf=*_QF4=Q#z>FU6^1{`~UQi(P-EEtk_DGvx^PfACw*B2bn`Rx3$NO$R$A@y)x2
z-!eLzTRj)EkbTqAUR!8vQ8RU?uU@2i$`nVLupQ}6P<v&)Q;<O-Dz#*3x45*3PbC;q
z#&O>~Sgy3sG5%yKQ9RNuj&BOFUDM7&E`>3NZSXC>dcAkfbMn-nz~1$<D6qNY-ek_!
zVIi6dFK>j`Ss}6X@MGWsam3^0Jf<_-{8VFA$<WjCUDX`G9vtR6m#Fr~3|~#;58wfY
zm~C9}Hg^^|k5%=Nx0atg`{)E(`CIu<ZsP#9A&YnB;SqiJFr{tXs?f8@3He&NcPl(a
zP=+?$!cnF`)GK=7k25C<;bFkwSBl!&)T!(?QGf%XRdk&a18c*YGBjO5-iWGrO`5iZ
z+(g{=_TX!|OD~xMcUbnxD14izMEm6+YWjrI5&?DEbjLaK%d#e`zul<dkb1$owq4%^
zOqS$o$YsVJ5RPh6oy_J%Wo|Ew=WJ1oH+-M+?aVesJ=s(vIGubRg+?^sT_PCYT^=5}
zvE1DBm^gmO4kNl3t|VQMP#f3`KqJzBfML{Y(&Torq5^1(7{1SkINC{9*L^-CPGwqr
z$l}jBcSH3$++y@2O3-BF@+fdCCsY>M+^Qe`@ZYb5hqF6PNJwBz)>sq`o+?(68X6wW
zg3zEUQKup!hZ?Uo^Y)+~eQ$aWlxkc;tPHEt`@+6`ycM~^1T6UF^QBWsE$2$3PgWbS
zO7-B>JYP2Hg@f-ZiNlT3&bcAn4*cL0;eQF&!eloR)4b_g+?wrMwY69>gk#${J|K5g
zyW(;`Tdk@?=LxyxAj+GL+SD8ALO3E+=5BkMd#8~dnoH!iAn2+Z_5Hh{M#agS{)o)C
z14Q=vXSmxVw(V-u53i@%bu4e~7I0V`=Xjg8TVufmdOL$POsxz-gsl}^&+S2(i9WjC
z^-iaA6jmBtLQTRjbswSDSl;{>NAiWkdjZ{QB`zzgN}-fsqh#FkRVJojg54F$q)-y7
zRZ&rqq6L>eZR#ZtK?$Ss26W|X|2Dwn4Mkau&@JiK(a3V|(eOUqUJz~D*ItGzi{O8I
zq*>{OAdnG_<iC|1=RW4-GJEFh>ZSggK(E8NxTrx%bkYH|DLkL`mZJqRN|`4KG(J0G
zuKk-2)t-H{xB~Vmiw(O%n@%eV2qPISr_}rA<}8o9i<JAYDuU_WkRLnR1ir6kf{1-+
zKo5tR1|!ub4pK06A|xT7PL?c?5C3FWzxn&B@a7eK+Cy+Ozk6G`(u&F&*)?8chn>d?
zp)XeRw?Hb5iHQlX1_;mZ3Y>mnz&h~aos37;yP3~FMbNg~X9oj-bjLqbs1N9@I-~>P
zfp6m!+6M%9Ujem>wX$}3Jj-zN5#GfWv1W%}-m>7*;c!(hsd08D<=Yd-=Wgu9l4see
z3R}5bb%yU*PRKYw85oon@xNhLT)hI1T&iVQRx@g~OHQ0(@LJ#VuY%i1$^7k4q6EE2
z^u2oyg@qUXlY|G<0Dgr?f?UxtFeOyfbTMNdxL!P1m$x!xWO352dRT4MLk>mOQU#sx
ztW2+^@$F*ENpI4IIo;#|)Dh+aY8PcZ^1*B4l<X7)bKTl1@bgi@|0L2-mD}W#Npatl
z>Hb2OHtdAYm}BaYN@9k2M0{f6h|aV3+>z0S_vJC1`Qlr(x$+Sl>Uh;MU8>`ydPtfr
z8R2pRn`9Ay`H%=abE{=|?Gw6f7J0xqSE#w*0D<Xyjm;D$sYqtvY2NxG*#Gq;UnNM0
z0wsHn%#Z7rsyK^px$Ws9<|zw76WNU%1NX7OX5O~&Z6N`OfcQ5btQrBpqG#8B9iaFv
z;MarKLic)*F`*oDV0&9b>?T=zJc|mgflU7LiI-wK5noqabV|%yEteDYhZ^{a^yikv
zwvD6MFczfY9DA&Sg>Bm9nHg;JHD0lJ<*_`kWp<#UTReT1rz<eXjEI?<V!7Z@o)7B=
zv|fdBaA$U*2wH#M`fpW6kZ+S%Is6E-2Y$pI`jMC0yAxKi$oJ`<0NPGG{slb^#3}Fw
z<^z!*65AUpVu%9F2RDF-1p96MOGy5J1Cs$mLf|f{s%1{N!_chD(5v}%Dr=|5JlJc;
zITuMqHSFx}g>$9tDA=o*^v`<~JO}H6#h!P%^Y#uxvyP=6ZJ`xSQW;Mj943|Jk8#P-
zjD;<QjUO2wcUN~RT1&OZ1r9%|#jA`sP&g#QSp@oCI9rt|_euWQ@x`+~pm(Oo)&b!p
zeQ_LO1Ddr134%0w9PBVO*muhpXfM#?uxSVujzr?L3^XWvM5OLNf@D%r$SJrqSl++?
zE<p2v3)nrDmT*>Z@o(-lJV^Qn+%M!A{1{YS&9Z;CgnS{`woyBILWZS7HS*VS4SsjB
zSp!^d`N1PWwexi~ikNFFCL?M<s<`!8mQ($;_#eZxAPh6+x5cTUgmrqJ5?O57LgHb-
zjqE6XqrM&Eoh3IHvHVO!eih%J;1{_(6&wMu<<lWi&-Udp=KZ8ce$egDR8LfBfIElv
zmlr_;0z!VFArXB8+ovZ^*xcbpQsPf5oUX;=blbxGl3C2-#P(X;@cqaf<dY;wGqrhG
zS@gMiN&#^%*;D>^i482YNzUQS_Tyah>7)Pn&=>B2%&(Cl{lMtc0wrc42<|LeXhS&g
zZjzw>&l698ucblFJ0Tl!8Ftw1%nh0?Fl`S7dB#D311=C>z<_-n1i3aiH+bcrccC@8
z4e|}m9N;XLrjUdMR#E^}mqbiL%G;v5#P9c?zgs!r_!0ieb(@{R(bCf9mbMB>N{!@x
zd>(cdP|nIzqNe5j+wDI*5|CKot+Sa#9whnRB2Fl9dT7Fc6;(}Bw%JGGM#ESoWF+#t
zhlIaj{FgZ-@%t(Y1$f|B^gS}1INEpMALP&y^mHsCKczfa8#Z4{Mn$T<ZLJz+8fIY2
z*TNi6fNaGh+J-@dZ_gyZaEJmtohwB*evT)QM#kI>pS8Uezg(kz2izBsQaY<EK=Y7e
zc152UmP|CxiH49f|1EF||0?LNSzNWpL`|JARSnVaNb}g%ukCkvxKe$(OFn6X+x~qq
z=`WtGA6uCr*?(P10RSF#gU|Y@iC=2)o9%D6&6|e7)h9vKp4qHoV#|(Izb~{~GOVWm
zQ+1a`iryKd+W6e(Rr#{cWY@Uk8+h&(F@j(a+9(RBpDY49f`0`pz88Yl<FMM(NMsS&
zLl}i+Z0YZk98(lFXSU(O{;HZNhfAnRd!^_q%*_;8Y{Wmx6&lkF4~|xV&l2y^gh?W+
zAL$Jp)h;aZrFEtxN&z0#IP#x;_kavqop;mwO;?o@@(TI9kkR9z*dh~;^{n)@E(+xQ
z{H#d|7<H-~5$e+fJR$nJ{>qqdi6KRCUnNH{J;H!wU}d#0gO8pUWb)gIK%tX^6!*0R
z2{c?~F4j{_Y%CoAG47vN6VEEb?0kH85=sa2Y!M23;22cQf1WJM9}h=O+zx0alxPT=
z#ekY^g!k`Y;&*#@n4<RY<z9?u%G_QDNK##kZ}20L`$F+Uy7V+HBw-|tF#hVWla)vt
z?QithJvzXp$^45<rcKUfv9MhFxe9312yw6xu)jy5-z)vXF*jdJZi8NCRxX%2Am37r
z!tMTA&c-2X(crJLl!wVP0Z*BqA@>;GMqL3j{7qy{0)rk+nO4JF+rPd^;>S%XxUT2y
z39at6MW(-sTTqCP@%LzNb^vFmXVqT%%RSBfKz-rQGnIf^ivu(i7J&LTy;uq+qGP->
zz*&d=i}Qb>M<DbU<RgI!j9oAA;xl`l`bV<zcNxgT!ZqeAy%aQwmPv&oDlV&2;w7K6
zT_9KT$=Kp@9{2Bq>|zd3AYq1tNNo@7*W@+k&cuSE<vNI%at7o|9MTXD1pKZAZh;Qa
z0^weM?Q^qlrqOEL6wY3BJi3Tta@>5`#sB=Ys|Xz#=<~pkmuF&1pr2YeInzHeJbSp^
z#}PErF9VN(;r(kdsgi~BBq-D5XPh2chF&Jt^NnTl#suM4@27OZIib9!i@s)JhEw$s
zlc%o|8~4OLk?9PCYDr{45jW)q{stxZ4A7-}%J|+;Rtz69Fa0!eL8T@ih)ly2h^Rs6
zaN{`8T!^imBp}GUEq}<ygY4P$)aLIXh1$>6o4C-4<$KSwH~{X`Zm=7pXa{X5w_0hY
zs@;Bn9Qh$IJa0sWfZw!nO~GP*P!W@%I;&nKygWCRuYwYL-4gu%W{O6fp*g)k?@3&>
zY$%k`(ciI5vqqL32U~^a6;pAE60$N^5gO>>X_v+ADLfKu%HLk#fm}+h6fNQMwh&nQ
zi<CPZOo}3hhM086={co;E0!#9HCgBL_K%;Nlx?+^Hg*I+^IWfGRnlEd7e2rT>m^-4
ziF0eIM&jwXF5SH?=vFfSVOwQ#K<WHf^2PS928w@yP;!TQd`FokJC2X$yV#T7_i7(U
zmUSi)js~Xt8Hy_MCuC;WBJ<OOQwHAFxy>G&8GVu(m<7&-h6lg@y;_pb<`~qn3ng$?
zvtpR54zUm7c7x-D%Z=h4gpEc1EkO`P8<ip$h6R*MfOZM!9w3qzNVi_OQ$tzXKIBoH
zFgs)b5u4nIY#qHk+6tw6Goa}B6q84nr%lDzDoCq}LiI%?G%*FIkK)e3>8e$rS5xc*
zbJdvY@fgbOtmTEtK4kWe#kFlT<-Uar^b7{u#_e~E#&#rDAQL&Bk`U^NxAfRv;Ed#t
zMNoXyeR|=@PY*RbG9pvo-EHW{mhjSS-gb!*E)Ib%9ZWZWfbw&Fl=<4n3?Yu!$6TOb
zEX@+K?3Bu`7jI<-3xkbnwjQRpo9cak@z%OI0oJk-MrA{v*t$l5pq_6Jfqr;}ptD-~
zp4Ik;9*jsN4@t-J65>3G?W1Tcyz}DIPpCNZJrv!UW&J~EN5Rxi3^xY7)b$Sd!zPp`
zR;B?C9BlU(h5F}|uf-s$Y-{~$*?TPOZ_51Js9<aP+mC|Fb}s>@Hhg8#+wTyD?`gyq
zWz4zCIe=|=z<#hqAeWp<O0zgeJ1{M=P-U9*{*-Z1BRS@^eDhKnA4l4eu&hsd&EOzr
zxkjP>0BCBGeFkZ<r#+rDchfVh1eZG@YJl+VdG)-2HvTHuYNd8@kZa+lf(w#OG?>lP
zI6zD9{BCDu&XIF~k0={%f7T0MLQd{|U#A7?78DDvWHcO_z*q`#HD5hp_MPo?w{^DQ
zM*-%!Rmonvc_^<zwUa&kI9T>CF}6OL*19b+GEzvxZz2q&^Yik>M|QY=%GK<CNu?7C
z_wqoiw^^&#d15xcVA87Ur=ESduqRigo{q?~v#tfJxs*ju)HBa`nopNXFFOb`SGqA*
z7_Rk+0h**&rl=n_gQ|k{eWu^FzpLM2(lp#L&JAqY5wGcrun%(_eLg`i(s{B(w;>Ac
z<)6{UkV*X^TKiI4D4c5<VVNV${`mpE{pMxoO;yLp6>p1(*2?SYE6xUT`Bb>Gz}!d4
zYW71Doxi35K^Q>eQJnnocy3}zJnIJrB6VLwq298SjjcA%ag`LYO40)j;c^{2)Bf3%
z_r0zT_|&Atc%IM$H*X*jAU-8&TSt4{wtSLknwl0(iJ7hdb^KW9A)&j=d#2C<=_DK7
z{GEz*@@1P<1zAputb#Hi&NseM+X9C;%0-QiI^}TQ8vX(~EOHH`CTdoWo6Wuzi${f@
zqUTW>=Q*ZU!7Ibs-k&zoQhI&xD6~AQwtSaL>q%KcC)ikNR(`x>l-Qne*DrfVv&a9^
zOYi~UL=)Qi8rbej=C`G)8Ts2*>$N1Vt$9W)Ps86a<wfIoaUDdp$+U6WhSLhNyk`mP
z-a;tDlJrkA)%Z%Nt4qvbCSdE~Pz`?)?ru9T62a}1nN<fH$Fr!(PcLZY3qez5e{Q`o
zR(ht=^Jd~}v1S-R!^@Hk76|iT{)KZA_H^fwSF0>qIkmrBQ$k=rsk`P5OR#pojjz#U
zkzNb9Do%i`tBej2T&OkKtr=Oty6#u!q6$#(f`yiNA@>7%VX=Ka3>=r?v-O0Hr#97=
z9U1i@QOgIzauO1%JNuAyh`>W9UtYlQ!CRHj`UHZ^3(YEy@e{0Wm#Y(FBU`8{Hl7!c
z%3K${AHJUAtUu`+!<q=L@wiwWnu~?BKQu^EQ0rmDs9*%@$1BK7H}yc`El1g0M)<LP
zPrZ31P1vP|ouxe=SB<%@<H*LG9WpHkK*s3S!p|g@@_P~E;?wqLpbNtXaDxEbqv&#b
zDl6GS=7H;?y)Vn-*7Pb`>!8nRtilv;L9zmSB#{8%m3{GM+B+3w^vb~%d`pGgC}bXF
z|E-GW<Lc&Pnf>70&Cq+3f_A>J>TxC<KIN|+im#K@vfg-}mu>F2XYmd)^-EuuYbDc?
zek!7&sVre<aha0{l4@aRuy!0}*M8<p_Qar0UnjbY2NuojOw;y!OuSof99MgEV5!MM
zq$EclSY0+Vr^=+Lkf_$5`0sZ~1{IL+ULl4mZ-PQO;CwVmqz0Sbt}Ha{>bHD&6`asu
zo#=yVQ2u1FM1L_~<%OS|8<JASQx}UB$=^x6M^@$UxmfjO9qo(!1unKnba@?@!gGx^
ztHWU`6Q8*s7XtxoD$W*#$^h$*&LI16pg+RJI(Ro7{Xs^U_$<gisLEjzR}3FM?m1=o
zvmr|098XXCTocbUwQl>PcS@QUWOGWBVXoLR@fq(+%7A_#Ua(hT)7!YT=H)Oi>VT}h
z-W52y-GCR$>4{`xdh+ApKh_aEEB)6I&bqZX(d-6LlDRK$gja%^<Y4M#JH0>X9KNa%
z`ai2JO$xz0rLv!<CNh4$RZdIY5myImBJH>weR2MY3N3|(P)yn94zHMeIdEP}oD%7b
zj@TM=YrdjfZFahvS*n=$Ty4Bht5IfCG0trsCD9|b)$`(nRJ<qgM@5@JcWbXx2j^O`
z5zj^SDbAxJ0dThBFS=h>cZRsgkyUpNtL^ALiF4{GJ5(z4Bz%g#klmP?h}hE7u&Bke
zpBR$Ztzo?*m$oW2(0N!e*jj)H<ejQs>4$T>#ir+XOdSKyoJykM>6pr&!3R=5E@b(J
zJ=vZgp7|4CuNOr=FBdgbE&1{Y;h#A?9(9eQIC|dl0gfBM|1@L;Hs#%Z_JL64TAiGN
z%I_3gTEDNH`NyNvlRlxAcKo{kX(H;^@G;&mw666+IT_jnB@XHo^sIWdzdnHt-ho1S
zsjZZXGl%DDPQ>W6njfoR*L6AXqla&Cu-~*gw*&Smv<z`rxy)vW%Da%`S)wM)CV0bh
zUSJU~yJ`Fa959ggiO6;v-a4qS8<&cR5}}C2vX=uZz=1>dl_Fx|p>sgD*}`Cz=($rr
zQc&_%<6ID7WzgdFGeT39LB?>0Ru`Pf_GMy*MQp&bd^HGsRIlaC%5)Nq!B`=>|Ayyw
zA;5n(aB08H2*Wy{Z!Xl<%R<*`tB<i9cIgEQsilJd1=+cS9%%bAQjVYo+6tg53k0G4
z&W=ii!(R0;@+i|H9jgbb44lyJz9}J8RzNm6ucu`SD#Ao(`fhOiC2_nGUD&Rn$NF3~
zcTQA(@TlF<w&%8IGY7o8h~h6vrT&zbxAkIk)gT8|z~klEhesyu=T*nBG0O(|IO~Fo
z`E#+OQ|fjnUBB5NLXPb6u58$QeDDrhTl0`Fp9`xILyTw3z13lz7WJD|Xw^iX)5#tJ
zNWr4#Q`6h2g#k819HDShZAbMV1`%S9m05mM1i%jRN!1q+R`=MaSshCkkDjr_!L1#<
zV81bsAISqLk>t8J>r|rb2!}TTeRy$GbDEfL*DG}uzt)=~t5n@3UbPBL=u$sfMtGh;
zu`fGWFi~R}G}0OyAR(G4<hpUqupzQVw%z_n)S@pqxmxn-k@tDd+Dk9&P)cHYB!>N%
z(vkJ6zQg%O$6HUpR6Re$1)p-lu3z8|+niwOVI@XT2Gg!IEe#}Y(M&|$Xy+5m{M8+o
z3iNx42uP!Xes5cno+7vkbl&?dwGac&CzP44>YroDp^Q-3;1<3^^<nB}b-_T{T%Ntf
zI9%9xqit%yK-CIWZwb16C7Vqfv`kcMJvF1T17AA^d+qgvqfqId#5S+MZSYtKtLz4Q
zEzId7rlL-|0k1J|RTe(0;tbReexMR(b}6Hl^E+g!qwB*hb>pr}ESS;;EA`@&{Q6bR
zix;JsQ7+Z(@<AhHU&aXu=x|$|f*=(+<@W)TLK<E1u`eqPtG!OXgDEU`Iugs+ncS?2
zo?j26c`}34)by*SulT}Z;2Ezr@Q~)D^^?m&*r?Oc_3L24an80oJCz^f1y5QlX9Rh=
z;d9A0mhe%aRQx|S=MNs1gP5l5AA!JzFb2-^oCTM0#bKtKT)D9R;mB(Gbz0~l>+x<=
zb_nyyeipUY<6|@>Aye|I0Z*NN38Nqqvp0lE^mWMyJ}sf-9G}Z7f6|Or86^L!-SwMM
z^aa0a3}{uv#)L{)e}6cZFU}=P4VHPTA6N5YHFK3mN>c363#Y7>8q6sicb?6$^X*EI
z8vI2>RCHhrOEvSRzXKTz(tECuywBE}gVc5U{w8DG$1OaK;BK##t8-YDxNbJw@>nec
z|7NSsv@e&nE2N6g$F7dM4fk*4ZUTNnLvP_Cqv8wcz&5;k3lWL2%?&zyKeYnA1vA?0
zQl?9}x+{Wr&j90?&(pCwfdsgTcXZ+*O4|SOIbC&mSD-vVn^N_~zqn<t-fQ7&DpT~%
zKTX?mp0t->l|O5tf#n4qCH}j7^s^S|MUDK6JUtAfi={H3FyY`}C=}vrZ7maBG{=`#
zO`o+0@6EPn62NPQC!MD>Fy4AUbPp3|b}p{R#`PKz-gS&X>rx}UPD7-d33+|NNKc4x
zRAqF=F_AFDfHVW|w^Z#^eYpYu9%c&~?YFwwb;C0Y4xLi~a@{ou4Q!$MT|n>l;I#?>
zv5qwJLnIug7>WNH$${jVVR@70vFCf6VmFPiIA7$s<KloLdT=ggXBG3_QZ5M{OO?T1
zt%_97SYyCw)8Fc?{p2jAtmKEIN2u(7q07EyX%AOA8=I11a%FIAp!>$6fLSiNV!(-b
zw-L6T{2TU>rplnve6erITP*F}?;rpIGg)q}jDqYsqj5ejr&@T7wwa<vY?^%h+ALeb
z`0J=X+yF++qkzDrQa}58|NSm5ho0*uB0Q;fa}(^(<l?M_ESv8u1T1w-PpxxaY4@Hj
zr~LD@1#fkxlRFq7GoSRX&>S?d{a{xxzM{;=gQUptSB`52j$TW4kdIj&inihIN1(oy
z%XPHI<!iRF#`dmU@bm1)BayS=>hZSFFDn!`X<{g`;#cSBT0%qiTRhOjc&%iIVH(ep
z-JkUAzEIt5Er8GVp)wz&`&u}d%c^%FN~6oLzv5!FSyVo0!-N$(xJNYN{jpyjaa_hU
zTja}4S0e@zb(y1OAF&*HB98q}Te_1Op9b)ME`TCh1iy+y3`Y>_`p{38b4oOwo!N$>
zB6k=Mv*hPH^#Df?!t#kH2mQ8hcT2Svn{pv<CMLON1u~8oBApBync?V^&U`I-ODh78
z*>GO65C0M`{eJw(d46eiNBknMrCl8L;Ucr;LH<69sb&04oWf@TWnB+cqZMyo{YV2X
zotADLSQp#{xi4vVBOhDUedetzjp$``Vw!~;Z&8L>;nF^>Mm10L@UKjDPvKZLY;L^*
zcJ-xTOvmlkE@n;Mt8@G>QTspq;!7;V*4gm#1Q;Cwe;;G{Ok)!6p|VwNc{@1lJ}qVD
z(!`Co2$r~{oeUa0b>5xKt-K+W8<q}@rv8|SbM&svJbJ6F&Wb2$^o=7**A}YD+l(Na
zgGw7LU2WSI88Ib}cC&$7`7fIk<a61bnzF0TGD+;vBN=+iKm4BL6iVXMyECQK-dK`S
zS8Zq_hR|P+NNde~w(#<GuWE<CV>RtY%}J|CkYm?#)|v^xX;QZ%WV}b`F46h`*Q(yD
z$(b!g?Cb*n#0k<{?|Gb^sBvC>Tj$#ydSG)fh063?nScT5#Dqg;XsAnIz|mfH6N}6=
zjs3pX?;ul_hfQBouQ0+wJ=m^x{Y9Rj(;We2@?Mx8+%hqy*c1TsQg4^+m#W)pDdYYb
z#Kp4in`Z6_;-})4QgxWQL2l#cCsIAyAld<jd+{J=SZq~!w61WR6_oB_h74b4%?({N
zRayDm4>YJHS?X@L%X>B`{nlD4o=3G_*I6nlJgX<ERZG0{jqkq%lIvz^NwG9i1-#nK
zZ0=W=bP!~=ltZo3NkwRgE~-v#HnA*XD!AaVVl`Sf4Sb7-%urer;MD<XX@2VAqu!n%
zp6sU>(YIe5R_~Bj3FT@eDrFQLs`H%1d%ycJ=Ja6LzMv<jN@scSM9A9vS{q{oSaypo
zdFNU>j3sw0l&*5<Po$5gg}QO5s-CbnAC{bGwp@s&Fs<HV4s||^7h=9TIiFOu>;kv%
zoHSQ;#Fu+q=4c`rgbB-Te#K@~-vXBIM4|C*)_S?@WFYT}vz8Zm%-#t48m94u^<j1w
zI6Fjfk!%Nc{KI}yB8R#lldhjA#EGrX=Nu~hh*e<6-#N_A6|zGw4A}qECbuYmOY&6{
zj8-Qbqbps=D^1{pXrzA9V1!VV7F2ubTa(58uxzm&O=02t1!fUyY$nLOHC*xD1V7c>
zL0(#}>p!MsTQHxG(g}~=dO5YF*x6K6enx#wb$VJ&>*qXy?mY1oumT9+t!Lm<x&0Mh
z-uI>Ba~Yl9lIl`-60PtPLf)8IW(4!e+6Fh;VIIkX_d=}vx}tNy^~pd^m|;aS?YJyT
z?0g261&S0?spEUqSK5FI$$mq(E77y9{_yR(c}EpBpY~1@EWPZRA`ue@h8<t~99y0~
zbf7*q*})nr*w7lk(TL}6(rZlWg8;%WHvyf{7m`fd)~hV@_V{}fW|C;ndX1JLiMuCI
z6fkpJ-6<M5%J$z5T{e7mWL`Hq3i;T-d?a0htnPlOg1e4Xe}A;l^CAgn*Y3m3cxA<y
zbC1+iYy|(Lm!$IjX8ShCnPtVX$>jNs^?(O02h*PW2Sht_=cIBJY}y;}cqYPdG15Ub
z^2z0yqJY|~=6kr6%)aiCbx{{S*y}Zo`CMEkx%OY#_6CTio89BhJNU+kmdvF3Wd#uj
z&8U`>Szhux3+NK9SytVeLP<;{#5R^>X`sW*#P!=zZDHy>&^%kt1F81&xsYcsN9-s8
z+@c-AAYwo3oPlts`rcN`^@`i-y&2OEej~U?^TXygk7DL3*nl`ecFu4tb0_kC7rBug
zmF)`1hP&o|Hn8bpBfJl&A;P0y%hHaFkM9VtKRGC`8w;{-yq#KqQr{79x&6G3>oPvF
z$D&fnmvfl(!F$tToHqSoekCLHn3;RNz2Fdckr_>7M7PD-mfp8p2j7Qy1$?_(rM|da
z{k9I*O|xj~jS-=w2zBZi&mky!hv}lFR8sOxXrb!#v#EDaiXXdvdWo9T(a-DWS|0*K
z(C=0(+sQX>S>O-`k)*&mXehr*y92TXaUh=8TmXn^=UtixI-~TzFronc>;0r00qke~
zn27w1T-rEXWdvwpn$5uJm&I>6tj86O{}j;(npaKIic`TEsHYVFzJy*(&^qd%1=|IW
zp=;CSPOJUqx@W?)EQxNMCtLEh`ra3JqzIgm%Cq49S1}COOsUJoG03mU)Ws;LmgKGo
zJZVs*3e*p(c4ZaeN36W6yf<+Nl9+zhsMv!+>W7F-t35QA54Xa7U2l+U4`A+KGJb4_
zE32~3&t!n4pj<lEi6HS#Ds*L!S4%^tMb+VXo*pd5T?|I*Y9-=LA05N3aZi9#1vI>>
z+#$>exS=#InvGr^N5Z1af~#AkD^0V6L8w0wW^ChqFAO)qwmB`j&vgz3Dh(hU|BX|Z
z0JT-OH$jz>jxB^WyZTmfG(89X86D4+tv4I7w%{cx*(wp0#gtp&0b%M46&3_EPRlwK
z*KK-T)2R6Zy<72dUVC}*hMeprbc=Gq^#&*2<>u~7ir1>yOJ*aHPG!+lDYsL=s;qwm
z$`ZRR?*fBArn41s@v=n?)p=~yIhDB_L1@T}_ZTu^R8`q<TwFdjsHR@%kfZuN+J9dw
z=@zB+-RJsk7dpjNX)?c$=w>e6EJ~vg(&Je#%gfh|RdY=M+iJer3=s}hpZMhcf8zdL
z^lw8`G|Vd1*qCN3aAzi;y-=QTj%M4?12GL}mw1ixu!@<ov1JE$Tem}>DTHc=5nGi@
zPV!s|Ki@|-y<$3HeU_4S(X73nWv&NjG5y%7+x@cCulTiN-EQE8nqRaKJ$Tt+1(}K<
z0F!LV(rU!cmUQ58=3p~tVxTa7Ojki8_r^qECe+M@u<A&xx-}#)u_OG1{iY(Gr>yzW
zbwE7V@=H~843Vw|aEkTm^RUWc7>`gYkp=!lojtbEngoZgsoj21#f?yzBTjJ}=WC1d
zvunPUrXK{L`9yW~K#QC*o~gQew<C6KEvsgaRKypX-k*eY99>qU7kZ}|pLt&wdAjhd
z+|L3XsziyCR4%u<=e*kum0VsAQ9r`uztH(_#N(@ImU5yk6Qfj&;c7wx)qV`7jmO}g
zdjO9CeRxJnDe>}wW&E!=<kiTNm8HQtee>k7`@E0&V@%OaQp3jk2M&w!8>L#Asqysb
z%al^5WlF}^8Rjf@1FZW$xFGj>n%uMfDn^8t5rQ&+IcHDFVRW8SDGmvfPk`~ECPtMy
zL9b@e81a6IQz})omS>%=X8xS|od{=uFqGvl{ju_|nEFiy-lb&f2W)Zetnr__X;BY7
zXLoV7Dn)4+!YBNzt8@pNlbE)uL@i1m7MU>3tbiQ(%tAT!{U1jXgr^EtagQu&r;v*j
z+Z6{#Wrq|TDXR#H%&pISob6%}AW$Pe4X24Kx{&lA_`bNmPA4NPK&>Q;n}osQ!8cV9
zXhjT)5ey&$WF2>A$Ji+1rO!%QlDM8tg!_lb>Pv(&y1;#Fd4=ZlU6RTPD{}hb&~rS@
zAzb>AEu&{Zm3AN0bR#hYu}QYh8Eks2RVp1AwucSi6&Wa*9!g~Gqx<G5jq#QT8SRyo
zSsY8d#F7zL@N!zR|4$0_#gW@T##Vy^e|cTa;M{g9A|Hmvl2=f3eeWJxcR#fa?BIA(
z9&oovpYv-@yNqn5n9KEi;4Dx^Yom~}akUp7MW*@%CrO(Y$|9eDMY}AQrv!z>K^{d7
zbI0s+#GVjboCf~Wh6_j|lKYAjrU&igS)~=g$n_SjIu2qPaF<6Q1XBs|1GLN;Dw5on
zf4zL(lk;LkfFdGaaPV(P+FBdLU>63)s-={y^-$6hI%kh7-W)r^J6<1gZ3p-AwG-Xi
z)u6Tu$gS>am_(OMy>U@^F)WmP5-O9Y6h@Mq4p&U3Uz$eys%6&X6Zc<B6IOQ^^?~Yx
z`4ps+&(7By(vhfuXBHJE^spE?_pHyjtoJrfFcg>!lQ4p5SgdRa0b91xrn_0Dj!?cp
zsi9)$AO%zSF2ot^@B<5wW^T%(Q?O@A$AxpFHx^15-d3|>Mj;y=D6f8_qW)_%G2?~<
zGXMG0dRKq?u4Zkb`@U3YZ*HQyz{8rgK#=EHn&htO-W_xvNrg6<WSg*!3$6)mXsvul
z;mKAe&W^1-_+D)rks-ZX@TURhw?yCDkXY^l*Yk7UKQ87cDxUTFD6KeKb@e6pG#M;8
zF(mk-F9ahPZHyIgP>K`>a^TT>c29+Tw+mUr8O@b;5Ivt-Xlr}_)jP*U*I)ZCt?fmk
zuVm{*<SnupY18R3Y$QlN{7(7$3s%4R>q5d=SMyGgoM|~RGVi8gC&>9o7?14lv^uz}
zLk{?RW717n0Du!Kkd5^M&l!YUYDTP@ud&YuGb#j@yxB54J1QdNp5J7>E7vefqb%sM
zfXi8gvLBkW{Jval)65a|A9W`f_nVP9XzvfJuC!Y$rpwsh9ON1R5R|tVS)L!i3md@!
zungJ1HJK)G;OA+jN+IWk(#5VaUu!YtlcuFfX342C5Gq-4fXJK<XGjhuMP+o1z2!D4
z`xm_v9`9?kkA1E**1zO@75WD#la+x<&45EgTO#VHgkUX}I$6)~5-2QtsnBnSp0w#d
zyZd9sNqC{vxp6HE&NPz#CP8FE0C=YO#N@>^83++Vn)z=vOosUbY{R#I>PJ>7Ng(7f
zyL(7C_Gk5hGDkG{y2oCG#YLisp<K0Lwysqbzh_uHiy3_*MK*kswi@(jCMuX*e%g}T
zt@R}wYH{ltLM{B<WXS%`)C)Jx-&hH!a0bxHgpusL?Y;&OVt*ha0H7}d;&2;pYDr(V
zXpesJZEySAgw>9Aj{JAgW5GqGGf55zEQtp~s)2p46ct0n5P%Sr5N2{UKaWzv)IBCQ
ze?~U_d`5__z_sw4;Lk?UFHM33_ypaY?VYou-|S8M=n;jzU;U;TB_??0Zx10Qra%Ww
zYl75>IREzA`z_qc$ru#VaNFpHTT;qo&s(a`&Fy^Y6b7jQW(?_cHB3jBavo+e#qJ~;
zux)u%qL@uc@n}-KtO&)c>Y~aQnXkWFu)k*$fr)B1RB`%Qp<x<hoI5)qk=^YHqa?6A
zhYkMf^(S*w=m9g%=djuk!0^{(1}!BR9(-WE5K|w1Pw_brOK|10yNx<gUolQGMjjS@
zTA>~CNIFuTIFv(DjJ5zn#;96a-Jrk9|7Z#SCnEQv@?}f6n3*YRht<FT6HGZE^m8wD
zTzX3dJ-stf;AG(gsor4IyfGEiNY|tE&}pM}rC&;a*RPl@7bL|86gd;z2bgxY|Mdbm
zDB;Burb3IqdrN7B@Mq89Bau(F<X+S|-@qgAds^n4CL~D+dIiD<kQ!)cI#3*_g4gc<
zV{hmc4O)(Ht?&D7JK6KKvS4QyJhU^G+LJF9tM3zO6rb57HRE20CM+#URl3;==;Z<h
zz2e2T?o-w-4?>eF3IA+>m%dQ+=>(PqDdwmrUB`H=SE?)h*5T~qPC?(mANc=csraWp
z4<M`lnV1ejJr_Rr))4YrC8fDRHYy7;9G8k5b{RN=WFjfM)++jF1*Fsx#gsh5!NKM-
zRK;l)N8FVgoQN}OZnb!OoXx#Te-^QLmI9`49@gIhDeEg3j&<*#?Rww<i`7;6N#8hG
zXQ6NLF@msU`fQUgOBbye|0qu=q?tF+<@?G;W*YDQ_*jq-lbV`3D*3&sxPxTKuVr&8
zz?+e!Y=5CC*4UK$-g%*wyNH|e+TD3dNL3Q%Wf+hx`Wck=@~F6~>Ccj4lgRo!=j341
zUAF62td+lorw0D1eH$VOGtB^cPJqC^jRSRPFK~hbAYJEOw_X2u&IaA_3hWI!Gpa8<
zlNH!bvZaqJ;&`~MdZ%i8o^YA^Jl<XA*A@_YNPqP_^InKa|1t<3@bF1URcWxuY%XiV
z+m@#E`zqe4&aEMq`mzev>ir*21%*VOBp9<sKL3y+J1*0B$t&+X;-o!SteqAbZrSSu
zj2;W;8|x09zg<u}Z@d06lnna%`*uDv8vnkX3Y{9!@{Zfrw+Ag%EZa2`CY%0%m27XY
zfmBHfdeejJ=>&H}nO2?L>YQ#oOJtN_02S2B+Q;UcE|;%_e|0@SIP`bdgR|Zecs?RG
zqBB0AlV_W_eckr$t*uSipP`EFo`RkVkaOsBk)Z*EUK|QyVsyPY&%ZysTtn@}05JDt
z)Hj@yX^T0Z<o4Hcf*zV~A~_|Iy(C+&E7}@lk#zJK2xZFl-SbBof}2D5+zUj~6LBT7
z+A%Bf_U@MW>;D|}ec>!p1!XGszu0~}##yMheL59Qwi)8o`VFlCw?d=GPts0(d*gfa
zeR~VI%a};eHzrB`zdv-heev^Ko%Q^<qbhI)ZeA;|eQ}xVsh-PeGG(SLEu@xV4)JbN
z&0R!GG@Ld)1HWAZ_@P;<AAGhkr>UaO7#<ecVWNp=Bvd5lA@h#bs4CZPPgfxSM6kk&
za}{z2!)&As_wLPBVt-+=KII>SF~EAs!&T-h$-Gzz=t)5)_D#OGZzHW}HsQXN=P!;x
z5i=M8tYrNzV1MH|pZR~;atW~R+;(Y9(@dpmuk?sYu21o-08Q!szSXCLf#YP~Z7rmc
zM=j^%5-2$Kmo1PR)9O!|wHtaXWiQjz6=@y%rf;hcDN4Y-9&-}UBhDVz+#2nwb@KLK
z;H9L%*)BP15h6-`OE1BY-Y6MGb%OPtS*DJ}VXYkG??oYQ2e{BVe&s_=g&CKLV}BCy
zBz^~ooOIl?D>5u6UFSk@q?Jfj|2zUG|0ru0ppYa~8;0E#8;?vQrW*+G$=J9t8{HD7
zSZ~@ec&=dNI|^2y{KzP<cE6mVl_&nJt5xnAQjMijJzF?6H1{Gf_NB)!*@hN->ul$a
zosL@;^UuK#*C{(JkAd}&t`1F!D%$VkH!c}g^xx!$u+)s+rq$XA2ez^})L4D1;S*q>
zj!qP{ijaqmJ)nagq<;EKsQ?U11Td9O#S)fOE8h2~U5^dh($|t?w>Pf8n@b$i|EK-_
z-$vcW0gDu(0dM*?WI5)3ei}3^{SoUYEm=`*F1^KE<ytUB+O>FwbOzRAitLZZd9B(~
z>4+wyvewT=Qi~q<k|uM-4-Q=0U+W+hHICccuq@#eGmNX##xuX(4oS+zaM)VYyjPCC
zXl;H-t!q@yI&L}sMX*0jp+Y%In=q28&D4-KC$0NjEI3uCuKtOzP3`Oci3P)bG>CmD
zvg4Ih<am+8?fK#dna#%JKFG|ZOtrSouj2&<l@l&1HFg}8!92O0ktsHl-;O0|ZsG}Z
zv2QEFsG|rQq~f#JafXF)c8AOPrnVIrT#hFCVoDD>$gW4D4iPwFH?dH_AL?3{<mDN4
zc=89mcEKrkR`<IPDi$l~YYv(bPG%}}?mg;^9%Vb$>G*ojD9Fg<R1F&4%bKdHl!SUN
z(jYaR8Lmxmjo{y%;TzmiW~Fwj4(Z6(+QhiHUM8#7e>VVBgg^GM{|P|OVEDaC-STMA
z)*3sGB24A)UoRK79g1yg=2fr`!Ye=qhd-u1YVsgm<5&-TVx*0p*(Q(dM%t~njHX|9
zk%`a5;g&4t@<|x-0c<vct|y{Oo_<I_X=_mK^2aeXElNN-Z=0s*-%H3gG0CyN;^uBp
z)OmAQQY7MVkIN-m<uo07XmWh#(ABK)Ng#=;gNZ4=Wqdq-+&UKQF9rcKF);Zk1!`X@
zw-YpbeC72}aU5D!C*^3Z)a9<1O^}KlV%PD<+^>AvhZ!l5D6UQ6@93p&akoylh*Kf+
zp^wp$v!%o#PG_j_uF~L7mZ$c(l;A+7E>&`#*JzruEK$~|UNRRLZogj9zV&c!GRIjO
zknccz^U`Uic;#;P>iN?tFH{b7Gw0J3R*c{t;r=&&l90FG;1$r}b7>G2bCF=)F35Mj
zxPoX@ey0{!`e+WLNUtyQ5sn5~G55>b)Zz8o=vdu~&XTV9Eogh^^CuV6s|MS(<CEp<
z7j4kc=urQC`=FmyWX8I3*`w5}eHg>fR-fab*vO{9gFv~VOLV$+x=uRyp8K9dc|my<
zUS_vqgHw>_9lR^_@=<Ho_PgT~ck}coO3HM2tQA^QCW6KB4IxVR<pD<$-CuF!iqJgZ
zkGbP)nD7>u{l7W^R{1TgezcVa2Vf7$l7+T;ZA{5buSD@(OalL3c=!>+qVTj8-)E0V
zDTowI7Gq6`@sqsWbNpG<b$raJA1m47=WHaiEmQX8{Y-LT_F|ezSzQcKO)4>{lk`?B
ze+YUQ)NN1t8=~JkHq=wg`edO7z5tFJ1+8NAt*Izr_XfqrBuEhZqzn2yrHZbWqZPQ%
z`cwOd%l4;Qu5k=02e+kU7*|k9B(fvsvm41y+GIpZqN<Ar2KmM_#s%&cPGbF8YUqPJ
z(61ub><{CwLt2k$E<c64Rh+hrUUCh03HKsEvJf!(VSm4VLH{ECl|2Vbp+#((J}q%E
zIhBpb)n051ua&XBeyAEQY{n{P?GcdE@yZxt)kZT&v|U|xNAQ~I3NThCLTaNjxR5SB
zFiu;l5|9aOe2=VxD(tl+vhY&<Cm+QNDv3NYSZaE5-xx&}iK|$r*}bh9<1^+<91q&`
zddF`(%nqy5O>xM9^HvMYcsCE`F_SK9F|Lfb0kKv!CUUgS=}sYx&G&EEh(D)Y^#ft&
z*u`*L1e?`%jGb3L$j~n4*93G>^q3bheI_xCp&z>~N?ImSmdanHK&=fo!{(5{AyIai
zqwSMwc}Cw<mP~(WE&9#~MY!ojd?4%%4U9&kpf@YdAi{P4lD_AjUsND$KLYR)%bo|-
z8)#C$XSOx@LFd-^<hpmI=!7L^L035Aw@izUgNsz*0`Kvl9^IQGF0?tsD{aj<mm#Wn
zijkpY&f`Hj<SCmGGa63*6@QnU^tw6~tH@Nux_61C?K?!=VNI_+azDQZL2{vEceihP
z17~8AX?l2><GsIu-sUfpquLrLqzRr&Xb%Aifjj#*0?Bg2N-PgMav|r+Va|cye5(X;
zzB6XikwC%x_id+(R7s54U^~h)=OUuZ$jbD_bjW(lM8noYVK%|Qr>BPxK|llwk^@hQ
zg7DAN8b_n#h>;LSfd&!!gMJ{KxRL$<eORe*de-^A6v1MPdq1d7DKLQ=lH1rTeP^Fq
z;ze%DchRnP7%F5=+n_>{A$whoqBbI`TS~KbzgLxOGfQHz?!Rm9{zzYT%O}!xcYLZ0
zHX+~K<<{9>v~VE|>Rxt!7j9Z6sqDx+rXDR$NX%8VqX}7vvNoA+?ixPaFVe8*{iO62
z;@O;ht##$dV!e<odEB3wYi)I8(chmlVnupsJYW68o!qN|D=<chPs#=}b8GJ#)T?^A
z?#m%hIZ6rYPAuRc0fCiW*3YKR?QVsTuscs3ObYT(Qz0*hW>VVHd+(8o>@eiNicS=?
z+BswYJ=XZay!GWu-<DDFiq+SZ?qzWuJPY78qxb?0FaHiOh`<md*mcm8CAgZAU*W!S
zQ{0~30ntB6Rq2R~H-y>0j8^czbj1V}%!_`c-Nozh;07K+X!><idWk3FaH}+^-6P?|
z=dcvw9&?Z~hm_4Bnn;OcuuBuHur~z#<0u?kY+^i|45{GySC-i;UE6B|IS+IXcKE_O
zQ(on-{cX;&W6%^@YfH3g+_k7m3H>{l0s9dJaz)7B$&AOT`F0h#GEj=iY%gvGcH<Bd
zMvu2MDA!+!VC84#F!_jor!@)K>rUyyrlypZH6$-l<rfcJ_b^h%ZO#^<mN~-j%YOK2
zHWlVr{Jdowsl41c9}2#Z>TKO~^!D(Z`v3(e_@8&y8Tw>~?9*Z7NBnmf2&0#r372gY
zu4YXEyn;j@G2aorBdR6P=hf#GBo-vL@OsnF$VJ1*PpB!dr^u#Apf}s#PX_|GYq&kW
zjh^FwgCoP_iD!IEAje`G_vQRO4G9C=E}Ajbgj<Hxkn&E3+(;js3MM~e!<sySiQHI#
za*kovh_=MZqn#dqACZ*l6Xi9F-pHq)@8dCOd&iWiGQ{nJaj}h3v4)!>lrw(PM8T5}
zhRP)q^d!5UK1RFcbqnhR-jaI=_Ejp3m}WZIl=ph!Z0YJM8XCS85fR%lQOmr~EpQy{
z2SpZIM}W$99JR3hp%8ul^A?mKm9I+mo@V;|fdU!XVYJ6`_MDj8Gj2GZu7rqsBy|cx
z(wE^#<{)OGC(3mr$WO2Zy#;#*efNWz=<MEi9pQnWvtJm%-NnJXcT}+#SDwijw`}pC
z2@<5|T?ZY@U)T+4nTN}nF1bH?aqVj_pzxU>(Rj0nJ9h30P9iz_iQad!dvTFZhHB`8
z7=GPmPQ@(3_~{WZ{eIAhQDNZw{pUWR5V1XA;+y**%%)QY0=VgD0~R?-RS3bbaQ~fI
z(JSLR_qU-WWpS`%Hzf={Bx7Uszorx@kn51kZ(1jhmez|)b#m)LKXCNoT=fp$Es9w2
z{Oq8_Ru2!2e)dtY?ZbW%)Zu@d1<*dSzF<air9UK-ueF7^*?PQE7K+wiY(-8Tvd!>E
z*oFr5JYD^+zWo2bCK+`mgEWanD+9?j0vD9pg*}JdpDqyDxg{VC?FX~$aqd-{X7gRF
znhk8>?A7PyyIoG)PQ2;k6bJl+aYD1h2#Pr=A7=au@S1mG<csy#CU-9>c++S0d&Cqd
zpyUd^yYEce{xKQ&#eB?Cbh&c+c|X^KLVHKiO2nHk8N<4%{@=FUsR{E*35J@v%+8fZ
z1n!gKzP$BW)fF{Ld3`r-W#vW$F@v8k7_JwFVNF*2zr*f7LvV_3v*=Y$L+tNK#%}v7
zmjfx3n=gSN+B>wY|3}ta0L8gATf<n8BuIb+XCTM`!6Crlf#7bzAwfcLg1dyE!CeP;
z0t5{*NN{&|9el7s2K(o{_rLc&=X|w`Dyk@+n%Pfx@71e&^~U<2RXvHWMw?1Z>HYxN
z#l$jG=cUM~KCu795i%}!VCenL-yEastyZol&EMZ4((b;Xc?XrFC0_ps`JYGg?bLe_
zo}l2<qJaMX{FZ|N@m4#Q&K_{~`L&|<0(<AVfE-CU!aWH2c#8i#KB3^|j-rQ6h*}fl
zZ-)j7+6@DZli<xcp{@+Ym~HXg)zYUU!vd#0v7`<eGlH`mnb&_q3bYl`29@}M^Xlr1
zyvsYM`P+dF1d17V=|4g=6m>8uAmP0*jfx#-K^OMUDDBQ3Aa;frnhBhZB9p(_@_$@R
zZ{_CV0%^9Jp`}-IF;+>l(NF*T0{$`~Cc@&WNT~D1cTi^d#=K<KfB%}jML=*q(TJ9@
zDYxSg7vl*X?;kjePcH*r(sp$3jj>sTJ$;rU{wY!B)S3J1+h?RWY3P45c9Z}KIq{YG
zDVQyy$ZKSFZAXu?@iQ*o8Vv>wRt$O{Y7goK3UY~$T=?sV=XyjHRUdi~@ArCu|9qQk
zX66l)uj%M_M-V4}B`*)r9}(@8L}y|c{vEe%1F(65_VAkKOouc+tWlTrHdyo@udw}w
zCfmaKY!#Ak5SV`8u!VRYh%SJQ+K0M@;^_YsMdYs)!!JTW{+@UsIHxv3QC`lXSr+s3
z3S~pely2frVxWpgINQ1OlbRQA5|;h*jc}kA>R%~}8o33Z@a*=TpoFWOtqy-fjikiz
zen9{t_FzrG>C96FzjA*1x0t<l_u`}|Ii4~xElV0g&eCw<{f^!3Sm*PrHB^uG|F~oq
zEI_#U4-C~8|HLb1b~TWuwITw0Bpchsr#}h!qbL4pv9@BRwv)NDNiOj#Lh*MtNec4)
z`I?uWgmpm}XiwgW`%*LHgWUyQ>IKI8$3(sU$0nd)&*5Mcr#s)~ZX4(OP6wCHyS`($
zHA%(s4|#>&hu#xN@E4LN;PMw$MWXqSok-^q#zwspWdc>nitQ}y(nk)WKNe$yUVK(9
zWnV|f5ckLF(@!F$Ab9dO4@V_%AQ+qNi!v{3BU1r#3HNXRUg8)OWDP`yo=sE)3WA^w
z>sq7>j#7c;Afj3|i;ikpvgh!j8WDvBf9Z)978XYQlFHIUY;tn4WFUgBbj4J%RM$w1
z<?kUAB_LNeTfIT&*p-pWNHy%+xAN$CAAw7z#5daYOu6s=X03nOvd)XX_#%y8ul)m2
zQOj`JBdp)5O=11b`Bb}bu7x<8Pn{=TU>#N{D=OtWeVpGxJfV)kion`MKQ9$R;`9Gm
z0j@zoq8EXp-^atcpW<M!GWZwACvChp|9c#g%0e0ay)_#cQw2IJif8NPc4tD1!HWFr
z1bT=4*NGfTDh^-*wYyh+@<*Q4-~H>_@B_$MM3F95{+fnMVjCalZzhBM0^&pjDnLI^
zp*?E{pBHu&-8DN*$u+TwKaMEppQ_rq|Axi@XwhyQlAqN)zw!6}=q)Zr>azxx6cZOq
z5WYuI0sh1~!9h!UQPsw2q8nL^{f~!-^PwK?<pY|oH)XfTm)r$Y4^GP)eFJ$8JeTS0
zZ-Ey1lk-!W;VKGw@4=mKk=GGT*s9EY`&~WOE*`$-QTjSCu*6vwJ7{sId|*L&Wx;JK
zzTqAn9bNYRt5gN`rw0L|Vj>Ljb^^{%Vmvy=W@c6MnNGd#Gy0&UbH3JJZR^;+5`Sp%
zgMajQV0qI3NCDD--_VC~d`>~jk!uXp1MF*<(L$4GF5^GUi%A^q;leSllM~;~<qJV0
zO)|yq-8N7?ZtuM#clWPf%%Qk)v^hCl#!TO>`GO0a`6T4te9ahiePp0lC8o$42nka2
zm|ywky9F2M8Y3RMPozX{clH_%DP84LF5>qCCkZ`G63<mVsAlIl{5+}d+F{-g?2->O
zehhLCADvmQ5AbSrmT=a<6~D7SQ3C!BO4xCjI9_|qtQDD2AMfuEKk-;On`AC=X5xxf
z|IN+CD-|5#byP>1N1tj?kJQ2B_?(_P^D>8(O1)Q&;1=!w;Bla0bomSqFPG-BT>=f2
zfJqpm3x$%LRB`W+Ej200?m(ww@5wUF0y@_JojP}ASPm~s>z<3gYv)Eouqh0dN=p6R
z6lqkqaEh(Xwu!c~B)P!KgmC3ng$Y~vip8nLYjzUTaU(tf^XeR?3|#4+lzeOC>_=`*
zDJeBUihS4JZf5j^!_@f8^F==oe?k);0gw~t5uKaJ;~FY8)HEaXoxpdI*9@=p>@GBX
z;pmrciEcNRD1PJL(w=RhpRJeUbBSgH&dLDj6Y7(;$!mJ!YeX3GXaVnAV<W<&YVTAT
zTBH-nWHceY!J0KKzM9y7b4L_3saWv>yI)I3ih?cK>fq;~d8+gExjfAZgZV?gb3O0?
z80)b*fGHMM)jelsE^j_sq*~F&PLV5dx9dZ{Vr1f=Ze;#}8f723hbPaFfi-=AT4m>5
zr7`)tg8zSW9H_BrT2?&#qZogHP*cACxWVaJ|9hm|N)rDBo@9PYm+AVeLrysU&r!~a
zqu2M927cPB2asFTzKm4Oy4;`CzN{qyon(r@c;WU}okWff{*=TIUkNCQWtmF|tw!~H
z{1NSw1FIx`L|Zs#X3KCrIWiSa!BZ6>LTnv*@e2aNzgZ6wGx}$W`};g#-?AvQ^>w<0
zghV&ejOw<ANbZMq$VEs#$g4NF3m=6==SdeRET;AAK3)V;&v)Nmb}ad&a!A{Dv&QhS
zAwL0Uz#n$30G26gHF6oH@%~!@nMMK>z+VU5CW>b^(=IA$=7sJbAhwQldsj<sxx~M4
zh*XAnho>MHs|PhL$&QITXKIsbgGg~zB1}a#o7iLbKqfFA<T4Tb{U*sH&q~U%7)E))
z(fpv`k$s2UsgPZDtj}q@G*vc06j21OH9CgyQ*?Z?HdM0rltCK6bl-vg>#Ks*DzU(e
zoX7w8eElFj{;Uis()Vwu0KWW!wku7`2E%6Q{MHi!i?&s$*u<`A^(6aGz4*t){uu>0
z(H17<{!Cs28$AW*7dT0F&QOx$Pu<59-WO?T?72H~OPv`gG|Hh;MpfDz3WkHu=rSvi
zvk$Z^6;cD<fl4KIeh7947jYlLiA|py8X=0PuVsJECn&hH-`1Cs)KeXb{HdmTa?Od_
zC;2G>>-2--Fz<@8W7<&rEW~Bjm<bEOK!zC@OG3BwnQWUpejQab&3_#g8GboY{q9?@
zr+0asRwU9uS57?nHN(bW!B|IAcX^8|Q;+mF0&{Rq<h+n+Sfx0Tw)u^d@<u&n*Fm+o
z%K}rPz4$lHP~=d~Oui0nf)mAdzpDxGVyE6ezxfu%)0s&*_P%YoaM&FIg`Y&^I*{Z}
zg2<#~KQ)zj>2>hy`qA8LZd@i%wP%zyK{U{^Sy5It3bA(}fQDvsRku&wb#;m;1p-^D
z#I7Zjt7qSMPyrD)3GS@n&GC;5{nn3FfF7|e!c9U?6i*s{&-Q7(_|3ts4BOuxgM9m|
zMObjyvdALUg4<F05#KSz64w{rOi`!c4;*Pn>Qg1N;>p|lT4iJRS9paxN*wA3_Iqzb
z8ASxrDq2em23<d|PwnwcS+~ntjhEv<PNpzw$U)d!5&n00w14+NB<7yODaI;wtUNBt
z--jmS!3%yj(zp%tG)^UCeZ((%?@PuNClc+L&OJXy)CR{6dT32m4}9}tdub&<EiRcN
z{(4dF(v=19s%O=?GUK-Bb_?=YD9j{V|8*H}aP89;dLsdo;2F&(NMzZ`?>rZfF)DWH
zw(DoXE-l)Q<$clDdEI$UfL7s%av#HgzowlR|4Q@G`=Q3Gl3PITsQK!!$kWBDk=J>2
z*=KK|On-d6Q|1d&Yk$$+RdR7N)KH>GCSqybB%)I>XlM0lI}N7waJ%#KE^yRH&0E7C
z0}aHm7FqzF6se;6M+6|YM?;X$`}G#@Lzzg=KDKYB|0b00DKYr7zdbd`90v7~mlcp<
z?q^QO$dF%bo0lk|sK}eJwAdq-QhmQ<KlR&?d-T~$iBIe6#MElx@`)RubZ`1o*ErFH
zXD{=J^f#9fMF4jJh}uDcff(jV-rLb$u52V4K;~QAV5(7~YQUqb$hwqR_R^&niYR-V
zpKBv$Tk;yZsPe2#41U9bY(%thbTk^5V1JA9CLmp+5jP8Z0QK4%c*{a;EG^B*cI(L&
zNhUhh+DID4@_|X^<zTXgAIVg?vIrtNTWs!J{<+$GLHD5cWV?{pMEQ;J7)RUvyPuUU
zL#=}YZ&$}Rwyk%sPl={3HlA4yi3Aoq*G8d&4d+P|+6rr+8^vs1I=B>bGGsM`@o~G6
zZeoRz=@0o1t?%|+t+ASpX3{mioaS}vP2g?`U5m1S<Hlw{P*Bjq?Kh5~c>l_($e^0u
z-IxE^?CWIzwn#ch+~ePP$yk_iOO756?aa&~fg2MO)tQ5G)DP5=B8nwni%N(o;{LcF
z=c}vbXcp>W{2Z0d{k>@*)9q}fFY--ZCRqKmAO(bQb8jvzkC^(UWMb(D?Rxs@;>D1q
znx3zr5Hm1<WvONB%Yku{Z~EqmDmB5EsPUhutVlkC7=+w-$UYbTrZFH}2`hWawKY=N
z89Bqtn;4b9@#OS2{FDJB+qiblJ(l9+7cSAL_tUOj`g2~n6p^y$DjPnv`{^#czEi3L
zAEOJjR}ucwxJOy$$BaH(?@ztCIGA5!<q$nAH)lmr3n}xjx>Mb|op4g5d{~TBUM;^3
zGxEL{A)jg>(W?9q^x6B2OoaDF*AqHjvQ>6?3-Hsr#RW_yvm|gRJbE2S%CCvaJ+7v6
zh49@sCQ@%Y_}$`DYMMuqPZh)$DNkb6>`W3xM`+m(iJVXHvKUve!khEbL9AOri6}<A
ztmPJ%_sEm@|7r;WDi}{EGn6gdA67ElK@45pY8!i|Q`u@nPw{YSC}LP<%aw5TcneKK
zqEx%dwTe9>7l;$=&<BG{r>4vnAl6u!LY+OuDUL>AKi1_CgoQgaNffTYQA{`u-L1J(
zIt)1=8W}r?$<XAVRpIq-SjI^D_}`xu%5>l^ot@o2YYbQtxAT59dKo${=eyp0LNC_>
z9&)RDjStxHNf@y&GF&b#a1`-<@Pmz2Qt)e(B_)?GbTQRM;fi#4zwl$a#10ElGb>Sd
z#_?h_Pfn^ZP{2KyR>K5G9aR=!0YxOC8yn1mEOD>=>eB42+;HKLdp@n<ZW6w1fbV?q
zbK};5R-NiNyS=d}PgjWU5zxLu_;x^lVAuJuOYZ4r%u|zyxCfV(b-iuWy4^A@mShKi
zC361!psbe7iyj46nSir%By3>+e_(_ErE@ih-h-3})`?G2D=|OGRz+i2e^$GZGDwch
zlJcR#z#~dlE&LCUy4<&lAGXY*4DnX8<udRCLs`ob%Y+Um9w|&L)sL9TPVxQgvBVmT
z!EqpZzzwIMT&T#N0*Xvaj2SX?nDvv7-n$ud=<fi#Pwy-8nOdPD?z^0;=}DW|6oi+f
zUJHX9){N(0`K@$TZ>4>i=Iecc)1|tS@VCwT+rQD~v$abTOjjx%ucb!03luc=CdTKF
zltXTGC7d-i>uvjgRNY?Q%ed?t#Mowju#foz6)(?`iJ~k>d+P{l)Dab;;}{s=AyHus
z@<9tJDAz18Y1Nbaly?Y<dPT>v=BeNaF8xqa{<^F0Zs`od1hfY$d(7hNMSpzExED2>
zu3Q6d;+&!1jMH_%o4O+YDl>G(dlQF__kW)yvM+joG(&H%9wE^?rHx5l4yF@AfRTEN
zOta;N1HVExzoYEzwU1VgYLZROt4H27Yqx)N*<X>={F0d<8hwaPEY&%b_0V#GEyZ>{
z+i$9mI`Jm_1FP3}W)e0w*RMaKxzX>zWP{R^yx+LLm^!aidtBcXP&DRUUig)HmQT1j
z3G=flxCIIqM5x$SHhq)E2egy)%^On+H3Yz(sE9*SG*5<erT*(cNKay_#TbGlwh5-B
zgE9$k7`nyzuFaAsuK$R};l6r-np(@q7u704Ekhy`q%pf+z#I>wir<L8&hbKd;?#F_
z<E1>F1y$cggvUCY!mEj2kjcp%GAA0wwHCK3>;mmnsF&Qmoo1{Xdw(A7uvo4xdKDMi
zPg;0Oh}~U38_qgMbvg7Ff*>X|t^Dra7S3%xz?2_Ta&I2s;~~AJXF<lS1#~je3s+pm
zcChipfpedlqCD<Jvsp0>-*1tWwu{U12W|J^<os42U9aZEEMX9Q(L&t2Kl>TFu=z!R
z(<8?IDhzLb2L3ARw)a=gCW4}QVvg%->?8;M=vD|2Qu47A=BHXT;x?vo@Ik#3;bOU6
zYQKB2H(5Bh($*76G0vdGu0E)d<&%ml)jP%K=)FDAGxk!uHe0K#tqx|<dU3cCv`}v;
zRbshU>jV|6{j|x5aOspr>@32k)(c&oEwaG8X4gI!>t6O_okZa5Jy@%>i!El=&pX8}
zn4fEEY4z~IRI7g)zx}{@GJ{6LBGwoX0Fg9rv>)lU9qA=f5vzP|h#x^wFtE8nv>O8O
z{m^?g9j-M%!0&jyOxzwU#%1Pv*DsuW2^8gyV);<s?&zf0pXKza><veel~x&NwEgap
zo5k1!2Xq0Hc4>a=ZdaqVh<9<*5`FD4Eb8fpP(*m%Kug66MQb2ijs})@Xf>44&zZTb
zL~j3B>qbXE%gVTjISX}OSxpTrLa;GkZS8Hj+%4+8_n?LYuS<-v`|!7bDzgAmF;cO+
zXM2)<NGFgJPS1ck#c_I>gvOZ-4B@-FHo8+$tu<8c&;A_tBPkxnr;aKRx%;dpA(89(
zL+%f;upsi5jr!rlc`c}V>-v@0v|}_o|C>=p-RpJe>TV53ax7_PsrFCB5In#ySo{D9
z(=VB5jp2PQpQP!{XQHQn;;OulOKcR$JRjlE-HX(k0oBVLFMvit`1alm9{-p|bmV4(
zOPu8<K!10ezi6^-QZyUL7~xWhHW(D)AHh%m4`)C@#X`NuD;92rs}RCa?5WXqlnh)<
zhlY!)I+(h&`L}ZHZCK6k8j_3EL=YFMl*7X0GRZv{<A*$Qwf24}kw1;o;v~?SBcNuU
zwlFfi<QPS^f#9*nD2B2AY}F<~fk^esL-S2df+w0kOYH|lYMFh0T`l_3eX?U(a^%>y
z({B`ZNM`g&EUGS=5rPe8lYo7`@tq2HhTwHic=`r7ZT5&6c<M*P+Pbel?Ju@$bC8Rg
z`TN{(o-edL`uk*M`oVJHHhue3IU-sg^WyXA@wis=u4vNk<^reopZ2!&uOO~AM=5sE
z`9f3asoCO;Jdrmu3^2f^PNnz9k3P7xm?*kO;}VRDox3M(y3L1?2-iK{4OZ49>+6yW
zS7r4&LIo>YTAoCbiiRFj-P8Egxr^Q-XX@4_XQ>Dj4O6NcKQ}aSj=M}^)t5uRy~=qu
z?|unu^V*XVEd(zMX;ApiUmVUmU7VPzj4#@^6qgpOMQ(>^JiepbwdVUHOPut@mrN__
zXu(=<((jQf->F6A8Q&{Izvbzv<HCxImBq)r^aW!XKbsYaLG6kUw_djbL!$y)-mYfo
zGm-oTGRcl2XA;L8ZFc!n37Uu>xY`H4*J0AnDe_A>TSiWJB7Sf*jg3I3N;GP}^gGrK
z<MBmN34N7d3;7;AR%fd}Ioft7eHBTr+*Z|LGrm#zWj{W;#J0g^S$dN?L)P(uKCHuP
z;edlFFJAA{E$301!3U0O6E3Y1gD^b<&oC3F10(l6mwtl@e_u$6e4;$B&6a>3VtV$n
z+Rx2ytAvQxxW;j{^}hDwx{2rIUYM1ZAjR#9CluYBm#A_7tG<QHv6Zo^Mq>KIZ)l<D
z75wwObz|~ZyNhItu<eDGBa0D&0o%S|GKc?#bM4pTjsd3ur?DZYYBbWoy<{g@kyG~p
zYrXR$eB>qN*h*e<UMO-R5HHspeNWunX@i*pjoX$FKX>e{RxVzXbN$YOM7?3RmZs}f
zQ4g-D|5=$GjT{&1Bs^WJ7Wr^>8B%KsWl!VZR65g|DV*Nsg`IahcbgBF*d3+uTCYgF
z#B)GUj81kjbHtK@rE#gmZ7W(LR&KxGJ;B5{yHxnHtU~c+pzG8bWGt?={fu6b&{~Ww
z==R6salx~zuX%3&;FQ*a#NW9KGDp*T-JY$<vJWjg;RW<c7dZH;jq4A5v=2R*UCr)u
z0`9?L=`3G}DYo5wbL1`f#Fpl=D*(B?ZFAPp0fj%8&-2;qs6AdK;%zcFBv<|UTIs<H
zz_#!!ge6ff*KsgO?Ta)Gg9=zNpq{{U#CBjXPVUV07ir_+J+J=nt3}r4WG_+q8W-0_
z;Wd&xf8i6qtzW=Bc|Oc1m`~!q+wwpNqscvrR|6xJ73Ou$I#t?O0>6`*cg2jY7gBtg
z3Z=a~nx^bO<boe2$Z0maA`=%6CidXxsjE71C9C>IjgC@QtH*kE%Q$!nj|>zn($SRi
zxS;&3qRmp{wkXI7gMxM`%+X*3UY1yo4~37wZA~O2-Dkb)+^K`UV@#ItSnQ66sZ4gs
z0M?R~%6?B>4Lq*oZfy~J9<JZ+g)wtXkgd29QcPzY#Jf`aoq_7Ic-aQyX3m7CO~ydx
z=i#MB5OT;cX8UB(=>8dOMuTQ{s!jn|cZVn&E$ss;B>5=u%v%>LK-0B^ejRc#a6mDu
zg_Sl$`K+e=akVY9gzk?IrF?EiAz~wgtG<tPO1@{hh^<Yxqs0<TTfiquuFo5rqpGRg
z=DQ<8O^eZwyfSvNU)X|8Bgv=t<b4ajZfr3Ny53=U5f^BngDVjmKgcyGz3%07x{e!`
zB`P5|?1MdK;bxnuauZNX8?$&{_`Xv^n(}&l<FhY3SwDOpsj}zq3>RV>>nfWst?DwT
z9%qCA6T4m^B~>wHv%W=Jl7B?gHi<w<PRx|gukcsAG6k#NRY)%@FolZ{hT!h0xZzX%
zT!>yD`=Kz$RA<|}dbx@CGGpMmUDq&m)3*C3_=4Nd@2&*8n}=UGzsPl@8`r#xenpPU
zg>*r(Z6pb^4i3b>#zu8(<Q)8~rDCgd;B?(BZ*qri@k=3DgOTGVe5+v299~^H%Yx6?
zD9$gpfo<&O@+Pjjg*@}G+%kEUZ~XgLI;A=mlB;Xd*57)q`$FUsk9coorX=IDwASy<
z?s?(?s`iEO<MDaxc|$j6jnnL25k&2R3i}YFn6UKpDl%>{s`vyQJbqyN5wIU@y*Q@Z
z%A|k3j6Y@Ve;iHP7>u|3v%W)y7D&^k{qGW{E80MMuQ0r>vhL)E=QHh=%#28~3a(2Y
z9v2VSpP#GvJLe;K1$7I^k4&Ny9c2iaZ`_|O=+g!(+pZ|TtcPXO1-vaj4K}t^8BEe#
z&ysXzp-;UG2~i)g*DtvX+q_Uo#4aTwQ{u7_$6iMWlVvK3MHI#FWqE|cL}k7eIhJ%T
z`EK!vb+7MJ`(DU3)wtm!k|EWfhcXn}9?x(MRm(7c-t2glc1Xtr<L)z$#^?(!=P$&P
zFvia_0ay4o5_zmIi-a4rsG6cg?DFsFTPu&3-LMTug9APV-j+%7-ao}1e=uLKzsVi)
zwD*7r*2z84N1AcG#<5?$y|iPwYtgg3#oks8o3Myit`6A$)vr;!>|&cZ-dE0l^qV6c
z9ye(4{wmT-lZ?5-rUdc}3`P)!)ZAtcIHiE(Mizn9sBA%yfY+~I@7|QeYc<|Dtc>`G
z=^ju05-}V)7aY9Pq3~N(RG&S2S+=)qSvmHSlDUA{OKQ1;wfmV80=_O&qcyGnxKJU{
zPZmuLijEtq)?15?x4BbuqW$&4bbR9F=Q@$Law#5{C<uJgX3l>UCS>3G{wl)LKh4pv
zz&OstgPJ)O3wodTI*(qS-rVeS)jO7O$@4@lT9)ozWS;rEYnRE<<T4)44V;<OsI!=j
zYI{@*o^v_y)1)@t=!T2<JzlN)Xf`R<#<9&qZTSR_79b%_OA`UOg(~ATmy}-LBsVfY
zcdlv=YQJfGHCkqz*6hgxYIp-b+!3U2$tTUAKU%0u@A_?4uYbL*PA*&wz+D%U>#zxJ
zN$q3~A0NKIE?7EDo;65FIZTf~ty~<-0$-pHP+4GjJ6_(Vq^|<{NVW#Q2uE;4aH!0#
z`o0x>Yg(C;!3aI^YQ2nAbq2@P{Q9yjvHF=^W&6e5&iuX<;`IpR;Rz3wlT0MwZNf1C
zl(GRz$TIknPS5|eb%2^$=o>X9j{ziLOPC|x-JdP(Ry1=vWt_XCgmjEvYl|PcrPEEy
zD2E8q<i!?P(PSmRm*V(unHgF4YG1`LfW+L5rJdmsRML7pXY|#oX!PaG9Spo)VatTj
zXBe9~AFE*|S8ifmdR@VaYWM4kmG`P^Z(y0c8J*b$1&nHWf?CXu%U7CLl|L_x)n89r
zyW_B}R~^3LvnzPcZvUb3sSH#|8S8OgNoMPbTqDs{j3(gs(AUS9nulg;fHrF{yX{=o
zs~sC%iL@{oc~XjiLgA~Y6k(XEY<w%SexjQvCboKp?-D^9!9&2QCU|0LD&L)<aDbhS
zpU5(gGXa}vWy~|HX-%cUUM{|C+2Z=`K~asxgURe$BGO`*OZPRs;jpD21M%YB6JvGa
zRX+uH-rlJEmhW2~k8ajUrPGc(Fp9?%LH1My*%srKM{zLzuG7gqB5R6L;#~Az!ZUlq
zX(P6q_LOLYsKl*}wuL<&oN`yS{}?UyC=VD-lQH(@iw6ZQB97L|q5@~-ACUKrjGf!%
zEEhV4*01wzre`qLLE^O3F`KKmP3DB;z4-dAaMFQJLd&3!0#srb(fe6sLWF0^aW=qD
zupvi!uLD`ZkwbGkrg*fQ>jDTb9=_XE71vavNZyu#0y2Sexws&TRv)D{w1LdR)6NSJ
z{flz!M^{^ojWdrY&u|+pSbdtUUNHQ^iY4_n1G7wvCAD#ou;qcyNs2QcHb6fa*mUcW
zot6c=eCZ7zy5(P5j(^jgs)k2S#Y%F>_X%0PZ#iQ5P@JtC-zTH$KtR!Cl(Wb4d0bG`
z0#-$9hvW}=tw+44!F_W?8b+$NHmf%camb6bD>Uv!Tn{mnQZ9Jmjd>w@t!`Z(69+>;
z)cp){>^UfvCc4^1LEUD(QGUDXe0{0gAwAI_R$M-N0A-qApnq{DrkK-YxJwN=EpmPJ
zD<ORO@~WUMf0jvm?U3@~dgRB$6#Szf#VF;SufzlAL$+VGUk2Qt<9<&&PvdcAc^mk9
zj-k=riBA9o_~>drf(eA)Z?Vy+;Pf!6Xg<9XJTEj^KW6a!do3CT?TJi#OEawU)i(Lk
zS1NXV40?|dNn89)IG?WA_PetO)80K;AXf23;$hB<S8`gWf0)6Y#Zt*^N_(f!T~4tJ
zqbvfI5P@nLE4ZL$nWLqk8#`DsIA{`di6QuPhca{J5fGG)HL07fW}VLgI%+7|RFh%C
zFK3v?=f5>SJ&YN1Z>YwK&j$iU^IKe~GkK+g!YAQ`!xo!EO8oVCoaxDNHqCK#5f?Bw
zEWbhe)20`&cx}*DN`5?FWjcQmq!OGryA@*%nfsU%_fsEvGf7h!Xt%QVt^2jlKzgY)
zRQY1J)6~VVestCSxa2FoQuS=Z=c6l|i-iFvEZn?2;YUY9KE~yhnslEmh_Ep-!)Hs3
z?I<Vij2_~5v3SfWeN<>oku(RDhPiJ>G(NuAUn~L|I>EI*JMA2<m9<&!CE=Pa0vSch
z>wQjQdzk|x(|7I$?5chAJTW1Umt_fEjwb4|4x!7T39&hfWKo~pWlnX{PGUqaN85A;
zs$EA~SzU&}w`9xX=X_ROIauACSNlIS5=f#FQZJ1?PAy+{OU;D67`W)YSfNZJo{Li5
z{_Ka7%=Bp|-_OtPK|zG*>m{f4a4-dE^-ZghBocg~4`+!O)&WOlzc=T5oRc`tdz#nA
zTF{kJJrwtRdS-6KDo5z5I-}rc*7^p-s5@c?V@?ehNAP?-(?lk396s$U#!3R-s{;jD
z;~&5jR_9szb3!Wi0Iw}<pW(CfBwIVylJ~O*p5BX~1aJ$=-GMztfd?WGx*A6iwO9|^
z8uO2w`%xLG#{m#KO(DB&HytQrOTjf|A#+e~%=c!eSZQh~mC#~KI`Z$3e1U?`hP{S@
zCxPOqO1j-%DGl^#zs3k4lons5OQ;I$S^r1>oxdB}0!f#bhp$4{;ve_#yG>iD-wjfl
zq4_&b6E#mg?B1pT;%3cYnQhTjd7C!EPeVgrxxIM$6sKVG5H+!<=NtOlef7`WA=sv{
z<cLlg=I`gBed-A@and+sIL;S}lns>G`=|SA-I!srm)|Gu`R;jrxCf6Lts9%*eH+Z{
zzH=>!!q{$qzS4%^-#U+kT+Bm%Xa;TUouhkId-wKyvjC?R^CjZ%-43bj)L2ZqSUpZ!
zj22_TV32b$Je;ed1?A_MpQ&@5C_5zMzEj7CK)JZM5Z5+GKN{4(d`W@$`gm4fs?7Yb
z7+hO7{jy-qQ4C62O}V6I(>qHX{7PR{l<F?npVQwfMPev>{#gm?QRMq6x^PpoNZGbj
z;}-4qbTsXpx$aZt&&8&d4NaB8vy1RZ5&0i&DZ?ug=2|`+5X7tQULca>5X%)V!~=**
z+#^<wYqK6$vPyl9C73VwnFo7W@9`U?-f%fG7s=J9b2&vl#p*RSjB}roMcl%coh{E5
zQqtK!RI?eIrye9ahu@4`yH{|Z2#cP+vvQRq+V;2rg?uBzFP0YuBrRk$xY@5d&-`Vy
zHXPgag<2Jt&~qRy1|Xf&=q0=1!`r&%2XaW}Vc+)aH-E0;L0RLAlu@wYgG#OY#45jS
zWD&<m2Uox#@4KY;b-=Br57KxE?DK8`DaG}xe|qS2Ii|z;wK%pT3q<O_1qMzdzFw^=
zBpZ0gA{(PHF~`h>{am4oh%phH-`u@gtp*-?Jx)ospXnwThGbaY!sXfJ98WP88y-<Y
z%)F(4{@B?g*cs9nN3sPuT7zP<RO_3IZ7`JO0ozcuuP4iHC9dB6m8AwF$&t~fsk0?;
zMySzTPe}PJbkH2Vh8D`0V~{1{hPRf7^V^AQ5LvmBXzvU3!b4VNb>09t1yi|#DF14)
z@uc`ygH5|~`?~%|WAh^tk1vDx>KWkWGajSmQjvz?J>q`+iqYzIrcgkxmwbl}>#l&W
zFx8_K1KUDfw1hnHg#In%1nb`OL@}R~*OMM2KtAcjGJ`N>>aYTCveSfD#1b;OEb7=|
zRd}*^*?AV5#g>Z)#hv~_^BM!6%}&R3h_9pse^TGiA%OUQ;CVEo_oM1|m(a{9UtLFi
z5#@t!r$Wj{vb^}ihVRi=c6*h!LjCrT8^*V=_#q0-B*}(?>W1W@^^245zyvqhHX$!H
z7x1mzbDoLHKrDRbyg=5)=t1O!31F-+66L>l+;~jbD|qZ@?!TBh;21lCG>yM`^iuFp
zj3np!e&s;V#ndun-b8(wQlg$(dbS#E;~ckD;@j&fbF&*O={^E(F6IvLi{B)`Pt`W|
zOMf-;m@-f`i{$KHPTk2L+5b+G{G(Oh0E8>B3C_a%zv<3&*E1|4Xl<%OnKjbbt;aK@
zBYjc|g>Og=7s|uZ=sf4ov@QmNBM)__!#6fI6ZvDm;|O=26GKjCoG*9gmBk(r>1msC
z!r_8T?jqCWx`78)()N&B+9L~C6JYkISu_paVzDP9py?hqb1%DLm_IU^(^(qd)K%xV
z(;~a7g#+{Z*2(#~>h!&Ujfws1RO3?J$seF4v$V8L+4>*sR8rGrS`4S5ap$aO^asXk
zRe>5=o)LEIjmda`D6O1}*RS0XDC|>kA|xv}rKMe`IoNjBG~Q~o<5sF&S)r$F-dTCZ
zzLB|bn(+x}W8~uKEi?D=cM#;*u4!Fx;cE3=osaAnPIx0k$fy5YFidU4*PzgF@l@$^
zUgkyTNt`!sh`Bd1qlJ4`7!M@-LDEFB*z?s`-&lF+i>z$T)+R4H_Wtf)zlN?9KR5(B
zmQwWw+`l9_3GnW_?z#5&_4j2xS;ZpF)VZMv@K40pl4AUS8PQFpbsf`FewP>QE6ND2
zyxR=)OLKOP;b1U2j*aYD9QO^a-_8>f)l_MciN@82$*}Ll^2*SrXsR5FwCRGUl*-4I
z0KfbX{6-3597c*H#x9L#p$O+ryn$k)WRa3k=%INaYRJw&x#6P1oA=DZ9LmlD6s^Bu
zBlq#WJ(uS9zsG(Z`g-rLboO2z-!`+Qk7RzLTWC=sndr%y*?*9Q+-axcTHAtZm$ct}
z&{$m&DK_a2uXWu{=1uDyVbl5j-h;OB(s-7sNOFk!xcBr=jY{d56#~p`-FSZ4P*&xA
zmJr&oiST{&sYx^LztBCCG!c$<&2M8rnokm`(AH|QF)nl_<3kQTaXq1Y$6YjW{flld
zt^Vh9k5amU;yvObm&C|3kX|tpl2z!dFKY1sWf9J(Z9P~OxwzOQQZ$_q@e(ukxu^2H
zxha|w#CZwCY<HUz`topyKbKy}kGp+Smu9dKyyJaGJsL*bv3|k5``nA)Wq%ILzTuJJ
zyIPyN<8vn3kh=}R45^FvNa%V~&XQFl;&rKUw7@-^v;(}q`Lbj1)RcqHlDFrxEYDKD
z!B@VsoG6)5BKSiH&pgT%9%T5_ev`|Q;wB*DJ(ayx(N2%&`OzM)>xIK~)KE9C$=tGL
z^CzdKFz6lOX0F_zu5Z^D=Dl>-ObyqmlnZN<pN;bdD9+Ob_NM^#V(**Oz>f+{3Lbo_
z@NI&yI^qURYK{S~2%#fy19gFPk$6lvOp^96vN$@hYy;ll(int^*O)9R9c8M*N<Hgs
zKzPO(Btpo*W)e76`gXMhwj(KlX*5K8YsStpZ{#lLmCR>fI(LA0>o$$A-#E{{3gX|d
zGrBspA4%?4vlBC>9!0<QkFGp@iVVZzqOAA#0pnpI#K;aPWFIj5Uwv->R~bhB;y}O&
zTN0YlxmA*A+;(P9K=z>{3$Em1-j}Zs%G9hOj+y<3wuHTyMb3B~iE4#tY`4}NK}C!j
zR!_%`jVp4Aqb3{R&8tkz^bs3xw2DwJdt`C3)o-QxGC0nr7CLdi35zF-7TX>&4Mo0Z
zcdWByuh+J1v{&JEy7c~w@nbR0$vBR*F}XeH@9}@~jHK))JYQAV=(2`C%w2fdYgJM>
zS}Whyj%lT%(dzcA*G3=B|IPw9NGwv$DnQ;rqmHD}rqI1-BMUx5GnbPZWhH9EXuClL
z=b)vLocW6i>PzjirP=htrCF?EP$mMmC1k;HHi?>2tjDObmgoA|*ZDru&~k1J)%jB%
zW)q=?81()Yo^#1>09z7ys~vlPH&}m%6iX@!J+4TN)?md9QMdp{(Y3N59`wXZl85hR
zZjz#S-BrazSE{E9WQ-9uE6<z2B3?$sbT5m7gp1-yGxJv_4^iPmPL(X9bU217J!im!
z=8MC!KfqGov+9K5l!ss+WuR8<y`*4ISi>Z<KcDSNZmW?~=g+AcFAK!y>DNvElFE3k
z7SA(5UP-UmQ~Hgxu!y7aZ2YZ;*2$+k=1biz76vubAf@!vc4HY}ze}9A{PC=-GkIAH
zQ?<z>>nPDR!0AO~r3B!&B5vJg*n8&UZ@z84zi{*UWv<%g4-3g(LlCn|9uLY8aqmn?
z4tC?S5(S95@6GnGx%NWUSE9P6Ge<2^=dOFJOz)`;Q^LGbC&J1y^uu38J>LYWeN@vQ
z?|z7kj0oDo)(Wl~K7)!p6#?b7HcHLKSd>2#O#jo2hjITrFP{3zf0|6^R-V>WNKE~+
z9bYQlADM-X=I=mWpht`JqXS@r+n}vwRNpliTNhZk%1*P5J*c2S{ZFG4aR-<-z+n0G
zgq(#k146c#jAEB=VWF;oBMehxq9{z`-}W#&#6L5<BH$=0jg7U5=k~c+Hoiw0wRz(*
zU$0%Z)p?k;XmC~bD&$MEJoUihzCx&lb(%M{EnR3y{EfSBx-;LGzB_(5T=E=O!sw#J
zvYCmR(Y8`yeF@2LprLs#!<?VgP~YxTZ<RL!Hp^_3)v$@rN-o==BmP++nDPGh(sdq|
zZ0uKL-)3wNYseGX!-ORi0II<nNpMu>!#S?~rJo!}%U4-xm0zBFIfVhI+q^EvY4M%`
z<s$esz#d_uH@k+0VI?8w1BoofC*DntMd$5MorsrOrJCx<J0Qxl-{>1j|I{~B9<70D
z8uJMnw%^gc{<FJ@zmjXc82*CZ-_!L#(L7f{Lo!Jc`T!R2P;bhWXvd}Y1sE<}OCWrQ
z)deXj2Aw`G7e$CzjDl-mBtz7qUXKrfS8K{?4}xFCoON2d^L3uOw7p5-P>}>ZUpt{i
zmwWCb<a(Uz%I~6;KAd_3-q)V|K{464?iTN$*Lux^=R@+P%y{3iLWKh$;GpWkb>Bhz
zf=)rI^fG@%=oUY3fn-WE!)wX)4di5KvlL?FgE>x;HLSiUH#_t5F{~5Ys5D7S%+?eb
z5UGs6Bo<EogEpo?f!8R)fSQ=}JsqquedOzJ1s87vcB2m_AE`Lq^W!=P*&*MBb_I-~
z?k!h<JK8$SY4zzMF|^%LHovd#?Q~7lMMp}FT8#%8%1dt(6(6gfQ%j(nW%pA2N7o_w
zX$Ff^kc{eo0BRfZDwDrU3Q^Ep(e{sgJP3{&=t<V=K}x@=e!<OBI|C%4yKu^pACby3
z^SkuatSc><^g|!6(ibN!ezfM+aBa_tzf?xOBUscQFpG|??Rx)I*eA|&c_yr)r9AcQ
zspG0qOUCPO--^Azq#Q@@H){Afjrlow@6YEwtUbNXeiG<)T(&gR$et;5=KDTc87z^`
zZ?AR!bXlaTvQ$N)Z5Xj@tMz~xqH!AyQT@QK-);mfD5jvmu`?gdF!rF%z3oxT-UKR_
zHu|EWZDY*g4bAu};h{EM0r-4V;DuSO2w*SW_6P{(cGrc&=c<_fbFp572rsB`K*=Yr
zY^yelb#eCGZNAH<@(pw|ET8;snOZz!By)@;YdBCleMY;~Bf{zz>(s`>ps+$DN27eu
zNSSeia*}W3)F52N^Nj3L9uaQ_&JD`)Ew6uc?nvhShD*zBoa8Q`ly!<D(j8p>`?vdE
zfk;?@!p!o-9wVQ$Ql8kuoV?_5qY7DfPXu|-r>AdD?&RY4qKq0!9^~gBr>3xicak!b
z-$Q!N1e3Ht%8RG-(aE<AM!r;n@NDs<P9<brLSnMy$i{%2ue@kK$*>!n+x?of=^L&&
zM^&#nF@?hLS5X09-VpRdNttNC=1pzs$(`~$mghM`MP`+wGf&pjhn&7Cd0wD4h2z?(
zvme>a*BT9XZpS>!UAYgQaMA#3OqV8>xUJIG+V(16vMX+n1#4vPYhlSGvS@3bv)V4!
z$5UsV2n<5sk*L&;U*W}5Gc|fyEGQ5Uoma{|CV6vd147sf_-0*m<AEyUT$fFRbUM)_
z;QGV^*A;iT2PA{!M(fB)L_IN9D84LF`M_g7!amU{b|JEXAMtGabuu6I8v0Gly6ILx
zFR&+s2tNWpBKllF6m3Es^Z|tsJAo4|%$tYw<uJ+MD`2DL&%2zKC%ya<l4ZIELZ$x{
z0p-eNoA4hgy=cyk)237LjXEUoq6z)lb?MG0b7L75+Yk+V_J{6u3m;p~R;%Hy$WOgn
zHim*iHPtWJ_Jh<^EU87K)iFrn+a4u5M~q$5FDk>%^)a;V{^Ss10EvuCUM^EGw7p-+
z?}ke~>ByX#O69;w4_1HVSM&9?KVU+^y;gDC_BCdvqxs;kcloYKmm}4^ee+HhCDQPH
z_M>pFPgiYTQ<w04qxSQg@68F&TCtV-#X2tzG0mZDO!z^G=S}U{6_U2^d3Bl=ZUP>m
zG`p>##H{Ep7&bsMotu@K$+y~xxb!27Ue>ddh)D}&rxd}|ET;JH#-5(!{TV9Y{diwW
zG2e{+sfyuqQ>`^yGy&(ucbB21L+ALv)MUl*G&~#~2`S9gnG?6UgUpro6VLkk)HV4S
zgJ+8-MDZ+vP7GnFqZ(e-5U0nC1GiP92&Ixk$g3CBJx(tTi+6<2>LK5ySt&FY3fc-q
zarQ`ta$XNtdp(Q~fu;(afJr6X)K|!VO6o?JkMLE8J={O45e_Ez<#FfF_q==Rq*sT~
zf7_<1s>)fTkUOkj&+O5<`{&twC=++_&|A>Jqp3>yq_BO`_qXMmzv3>J2D%@>QFQ!A
z>GvAf!ccRu8nLr-PeNfQQ9K&47(fI`1WDNiN`&&AQ<UZz_Vwhhra5Nwl9M1`zFt52
z4?4_$;6Ho}7MFOE8t%QSwg}~4GKu4I)Gt%asHtxB9->9GmCq!djDvym#yczheKF)9
z5P$CM?yb`UJ7&g-gU8$vC@finj8A$xZp^bK%t^~b7f%cSR-_@Q4jD|PqWwwH7`CMV
zTiRJ4{X$y&{T}?XXjEc=k|>)cW>LWJvpjStAZ#5e@ml8px4*6p>TJSK>MMV+6fS%`
z;M>R;5~{ETGBArOh#6D$@>_1Z=B977Kd{w(uAD>pt@5*T?Y^Bd0{Xk|#9J6KURzr{
zNM&m}-+_q~xky<E3ykh1EMLnsj=O{5bVzK>h;mc4;fcP9v&r1B+28eqb1Nng1$!&m
z{|?*_`1gl--Cko~?Dx=_!|`W&No^voi8?u>?IdfkTHk{TZ}?T$r|NE|tx9?q1q#9s
zDt5075b;Wn-f-hp_mp(};r6dQ-^@?AxM|{STNT)G2JtY1euQWtXn}~)WZ#YlVd=A+
ztPcD;8Zo<Bp;tzaAH82boIc5mZ<_mqg{>pgei>Kb^77wmoDGaFXx}`n578Ox=Fs>A
z&QhVzPOS=_S**uj4+)3o<tCEEi9J`56Shxq7nrsP)Nt@$`qm5wrav&_vsd0jo368b
ze~^I$#Hqv2+{cWRy)i~MMT`;eGz0a0lJ)^p_^mM<$*19`Pwt=G+qR8Jxr;~#V4!^<
z9J6Q8)usDO<niAGA|O}Ef7N9hUDa*l0YuP<oy<R>b%fy2SScP}cl@G?@|M*w%`B?O
z^y^pRft*Y4pvA%dclnDgMFXcT3KdQQ+pT^R;G)e~tiymimAHzRAOWVY{=#3LONC2f
znpct6D2wf;sb+<K1K#6^N?@L$-n1i=@xB|lqg~Il2xW<9I2h&hYrS5UZ<@oJ{;9~#
z#zscBN;#vqN&JXq^8Tahp;KZiLWz)hA!gC&9-ygB99b@VXlOQRg^CwvUm(?N0&M%a
z=njnx+u5~h(vs6;>8)o?gridXiNh$eKlr<Uvq6e^*%qBfPmOE3s+OR1y&dXcFt0mO
z(TKj)k&1%+!R(Rw6oVuQ49p1?Xkz@(9Jj;%32|vY0<%|E+}hCVll4xe*#F!pDUEEU
z+WMZQ#Hg|if|YyY<M%KgyXPZRCI;KHX{P6C^w}{P<LP;`SY>`$Xe6FEu#k`^Rr+pi
z2|QQ73Rx{wVU+Qh!BP#5+(J@spIJeJK{rOKXF0bYBdG_&9{Qre@9%GJGf~A(I<E&G
z;p9DP>(nwxR;~<ti{|4C)cenI21)<cD`KNU8?Npp-&4<qC;R&f+ejIKaaFeG9TF12
z(iW2wOyI}3xvGRe=R6Gk@p#Jb?xvV{Ib;6JV{6f}M#y7@oVek*Ss03WQ<1m@p`rig
zKvJ>sM<+EqrNrB7bP^ly@Mr+x?KcVd<FRCid-TA*r}sgg?JpcPIomqdo{x+*fZ=Qr
z%Jo0qn9+QEiAoeWUy4x0|3?!!u?w1@UJKvUHB@ISCuCSs+|eiw>)pQ6hBtdi4OAWD
zaelQ}i%ssno?j8du0PqDYTdqgn(rhdfrhSG%;2(gx6Z|X{~mPRckPgj-WOug$eD3B
z1Z2yU5o}0Yc9&_aLr@8K#D`>>&pwL*A~TnMF7QWZlkIO9Xi0=8P)Kb7mDE49hcv33
z7}r#?V*K>*!StjivPr!#ot;2MXc1)qYJjdt#?&M}t?8yo(y~*+8#L(Tq?Dll<&$q%
zc>9O$I`&(?Lz9avK35%^G)Os7GIE3=BBGZoDjn|R3EL&{LkUljRBG?_?1m9*g+(_E
zfFx1d<<T71-}wC-t%m!z+?KBT!AS^wUR31aIVi9!8T9uvuqF$qXg1K^#WKvgS63uY
z(k|v1IB^OuIh~*a$biR=pOVgL0o-;jI*_=$O8GS3p3{9)G^8|GkJwSwaSKHn*eENG
zhWZSrZ;@mN_xZCjDXo8?WK}bqP`UT%Qg<%cXS+%IG3DQP_V)G=*JR%|{3$7?s{DnC
zcTPV78W=R~6E%GzH`(XgW(6Jv9{1f!QVx7bGw)nR13eX3Q9Tq?A<Q}^IBV_ytVSoI
zv@MoGFbuTyf19mPZnNB&7#K${o)K2F;&V>$2q-4UyrN_zA=Sae?+c{H3NjP!6PVsi
zY&NIJVu9kbTHimR&aJ1xCq=H@mK^+WuxNXRGPi5&Uz@mpB>(2kd&7Tzom!j|p`X5@
zDBBaC&Yk1jLR}{8<B~GWaV8Txf{U`V#lf3lS!U^S-x8+7N<OAOk<6C_pCLuI9gJ8{
zSn<iqQzj<4LNw$iM+J-)Vbvq@cd)le?LQ4h_&J;<LYdDz<T(Z_UG|E4bvfU^C17Bb
zw!8uUnVp#hKnNYl`kjSWaQPvda(z%-eR+h6B0ZBV1Yomia!oVqh<rcof$yLHx@)6x
z91qyr%T2KvkgFRUcB-HjH`UES#Yf7D(aUgl(Ra}wN|*)^1kyn2URj!t45&9>6IL<*
z&08w9w_yS;J1=RpxpldzMHoCmffEy30YTpj#&ayYu7S+$BQg}|naM8|5`GY$`klo7
zdUjJKa_>S;GT$FE;qhAH&YvbeGflGsoL~0hOFYL7yLqAS|4NVjWdacRKB~3w0OLqy
z9w=Kr65Q+=D{*8Ery0G!_j0>Z51*z{y}%BAN&fEw!Mk=+Axi7=2S$?hg{oX5v`r}w
z2lEwzX^(!xq#}MwmuQa@bO+z0&4DL_YqXnB9M}9nAL$A+o%*L`7z_cM*Qd7;2SmGK
zv#aSF{hi3-nyCX}XIv5ewpF?TY39}uL8=Xx&IU$Cuk+aynV`?k^XUq$Ks0o8r>Xda
z1kI<oxc%exP_Mj#H?w0wxch4NO?9Jg+TjMbjxYWl)7NOSR}gNji1l=X@796gnsyca
zvDQ<_!X7Ef*t0S8|E?zmSa(*=ae*h>{k-vmk)P!2hvg8+X+q>6UqUvpP^Nrhcwawz
zlKuJ4EzjOy!5ik+!Wj}061&T@;GFR7!5bTBGaRYW=4gEv4`_|9u=EKUwf)H??6kw`
zQ@{JB=^*Nu_|>a4+r%0%{rAXbLq)Q2vrRX#49N!97F6jXn|||U@$%_^2M#>6J3JuA
z_4yI&(Vkfvmwk+ht|=D&VxV+7={GF*Vywy-tb!yi<Y*I4>gxtVq?Ww>IP9rMm5K26
z@@`jAm~hbi!D>+m@wVU-j4ze1PhAB8%(S#>WEn=@2sNt_Y6El`VPtK|C*3x*9VtXA
zJ7zchRVW^zTr>*K^T^`JInET?8AA4wlW3MmfSSkme$2zv9UKBedv63HeQh;-%eNbl
zqVIp4?BYaBOe#RrS;rxqoUGTNB-{I6qdDIkJq9pD>x&}!nv0PhiGCJvx=xBemL<{N
z@z)d*R73|Cbv7UyU;sA_(0Q5m*0P+T5=FEdrS?0nFi;ts`)W9SEVRQ-ZEu%p`fQYf
zZ~RcDEx%JHYTU(EUyUWCxlF(4mCKPc9hI>6cO$P`$ptt}v{dt#Fl;tj7_R@E>mB6+
z45_jsCIO7nUXG}zPK=92E4D=O*)J<!MgG>W`+8}R0a0nQUnz}{Og3`lVl!$DxB5^i
z?c?c6s~h!0C0h+&v2d|@S>jo8xvH&m<BjzGL<s}|?g(zU5(CSKJyfeHJ@>Lre`EP^
z6<qt+PMdbJ^~@?=4PR7w*$xusx$OGP7IDtu`Iy&8>~$e9U2GK8<LI|PQz3P=^hheV
z+twhKq9k_T6bAX#Gd7i6H149^@VaDDUx=IRi1IQfZu7-T`ooemn?7%W@1da<#L9g7
zVd=>a%kF&`6Eky|9+E&5al0CfeW7?{@Lp_-jrQMR1Pis%jT4i$SMN<*ztr!Bl<Uus
z{^6y!pXWtn8ZW&ape9L35OopAFiJ@S05^WT`@;TLtKdZlsg>{`YEOs-doam0F@q>5
zJ)&>G3sr2U?(!C}x6Qv=R8QG@yz&YC%k9WA@9}ui4cm9c1&9SeDdUXLP_;%dve}K3
zN{~`vu+>OGCW=}^#Pj+TI#&Y>EmWjbiKLjx3t<#fu(Y()^?c*Rjg+&6fIsCaHneso
zek$V$$szjx2>S}KCf7G^N(U+oFi>iwfFLMJ*A!_P2qH+UAWC;Lm?$A24N8|%(%mRZ
zi*!iCfYCi*WAMGhbB=KS=lj0vxn}IzwLNj?@4lbk+n{D@Y6>K*-v`D&r*9ZP0}54K
z>OPM=iaKgXub}0r8^SMt1e$k~W_@GCw=ee10Tdph)~FjlV(LOpj}3+AmVXwhIaoPY
z0=wos^JAVZLEXa&V5vvJxqW+dWLMpVWAWGWaL(~*$;7Ve!`Zp2KFRn?OZbaipjA3q
zW^-{j!>L=QbT{+;nR6P*2UJ%X%d#8}m&TNuRN@|v*Oain@g3AE^J>`D$kIZrFu2k{
znkXoK2<a>X4^XJ<0xp7OO9s+OMD)WC&wHR}_%$BIN!=TZFtfFhl&7aV5jY`V;i+1(
z`xJB^B1P$e=>Hf;%WtNZj&w#&fcKz+re%3VxuV>&z^c+{k9J}3Ky-$Sjhn7NTN>vR
zWX$(T3llZ>FiXGWjKq!S?|;>5v?&1%gG)TJsi?Dbsy}EoBIUZ9nVnqD@$Ep|s5~mI
zGlznFwpMe_$&`U<Wz;z&<f9FK_3A&b^?Q;bjWz2_x$KyhC{a0L{#N6lH+5S6oHqI5
zK(eHF)1X9dn)QChldQ4qJk!i-pZ>$GSbqK-jH86|Wg#^ewid^!P&QePn=E=G<;kDb
z#<XV!C)n?nx_^-~rMR}oc!@UaoEe$Ff@v(^y3wv#Ez1KM*bm^Leoe7Ly=85Ih$jlQ
z>1k=5+&z*ZdG>)pkDj()Q~z{ZVDf-xAIUHi`teM_y02?M(PapPg8YOHvQ_dLe{eBe
z)zYc$JNj2oORYDLqTNcxP`yXZW7&$Uh5$jtQ7K%Hx1ArbMfj}c2Bu!Z7bqio!8spb
zk^u`y{b^+;^L&tN!5sfUc;x(e4OU}NT-_wH^<re#vz-K-{aPoLu`0hY0)co~qR3t(
zA3P%UswV9dxAemxQ;kf|#FgHan0~bF=FB8VLV9BmZD*RVY)?^MwG3;Ma++qshkH|z
zNZrIC`04?1D~g?Y4Sne3Cq2&aFhP-;DDP2_scDhlnzgZY*r|23u!xZN8Mb>FY89_=
zRmD_^AyB#CcvXx3={4u80vVdI)FOeS73I!FtqE=PT2@7OO#6O0n9`{;;n0z`-S4ag
zGimA2_v0CWiZuN28TY8vB$or@w`tR@HNqhu*4qvj`*ihlBgP;7+h+U@J*0W=!(^{x
z<CH6bmXlH$Y~j$UnF-L|%~WsSu;rIG8-1TYb-sM}`4#tiInv86Uhd_s#Erh(;O5`2
z;HR9BQ`Gt@flA9&XbsO5pQ~itCap*}c-Unl;98i>)s{H<rv#agKJxeFxe;0n7byME
zW1HazcO`fneo)R-&Tfn3=#aCjyZ0kT@X_R^Q3A&tTVq^m(>wLD4u%M-nXdJnELY#)
z_$0yX1ta&H*z0-~k31sxLes#FAtmjlW9D<*VA5vSnAT{%Y)6p}JFX9Gr&-o{-oAT#
zJKKDc-LLj=l16*K@0#mEflcw$X7K!v=!8P6XSIF>-y~+z;-O$%xa-%3hKFuSbDr|y
z5ZctQq_w7-uWYT-g|92QD{IBS?YZ*3;13Vi5lR7c!$=*n56hG<Kh-tvP8lwYxpyZg
zIw6VPy?ErZ3&Op81K6hj>x=W<#sh%E4hX+AnMcG&4gF{y9!g5Q*ng%je$h>jgLyNB
zMQNywJBm+5vuN@~|2|*F_QmTNt|iyDehuG}ul8dz*R3ctezEfE`|YJ#GJBT*r56lz
zPwrE%CRMF^sQw7*oo`(1qnCer;mlJjPW*0mcXi$NoTN6bPsV<2xI0v|a7_RbZjP_1
zeN>bgbPDaX=hpO0zq^KS@2=Ia{yb~vSL?R2VrCFM%=g7yx6-eHu=S?o&bNk$s07)b
zPe0SzVuT)Oe2;kdXb<nIg9gezrXh_=c#_dmLzj0B<m~ifcp8Qe(M^fHnASGk^5+BZ
zl-MoLZb};5U4;Kinr*4v?^cT7(1IqN%bJQ8zq0yvhiV#iBFLy0LJ)1*7uLv|<hG33
zO}9_gj`5`GCd%Qt1R-lwMEKN+`454h$QCg$q+7bd0HH!=MVvdp_z=>Q_|&WQCGB>-
zQM59I(Jh#tmf@|0B7o0pFv23QJxUrdaK7tu7{R9*HRiE=MUcoN@9Ss~qonE;IC5F=
z=KbxZU;bmxJI^rVI*_bo&~{aP!!MDqjUO5lJU6KD?!Wirj$z5Q!iQY6k|>yVxzVZ7
zLsZZ0APK)$-U9tW^xCj<+Cn8}W{#SB%FDUQV5z-`gTcZe@(&3?H(JN$lX*f0K6re(
z?+)FTnav67-AXwtvNV2qTW|IO^=cOWa`T+;FC}Tvm_pklxU{#NL|Us=d1+9qGSGg%
zdf%#cr(okWaK&F!<HO!s-@DRpG1vXmJg<&g>(OZ+wcXdtmneQEqhRP9zCbfPLUyM>
zLYDsWNr&X)g|^+G)Mgfn+#Pu|dPk%*MCN6Ogpf{oo=_X-0LeM<4n1D!%iG>O_5ljn
zf78`;g7Jf0QHmt(<0tHLtHIZqnO<*&>iBQ0t#2c~Y|^l^U9E6l@|%<qw~{@#BKOn_
zV7Ly%kTWQqZwz94=0){0?Uu>UOcCF}n~gf29dROUuc%cyXE_vMum?UFot+^(qsmH3
ztm~h{q!h@={98F^U+R#_aDHVPQ%(rWa}>9*>i3^i4!gW_MoAGVQk0Uy@PssHA^OJW
z{YfeZa=3X$LQz{*<%56078*nss~8^X1?#CQ)F4f^ZRn>uQ8T-eKSSGlc#BTA{W=3;
zj3EHh#fg2+a{$Gwm-u@FP?Ne%(dlVoU^E1t4h)W4B(8H6^`GlrkSSW8oTKO9Tr3-L
z7BL<jb_lwx6(_x_Fn>xQyJrjsLcP0_nj!A{Ud(2p_>9WHY-`)HSU@tDkHl-+uy5fR
z`Dr&OHs`Ki$>UaEp+ETf`Bp_cXoh>wv}pkTrezSBo%ks7OHa$Sunf>Kx0h5-smix4
zB2|>XUyr={{?L5qtF3ZEOL)~{oaS)UgO2yR;+GjGSZ${!@T44u?!o}cDt@Fs6Q9^2
ztOM_QSO@yX?Mv?V_4t1;P-R~?!Y4n##TVe}zJ4Uzh>jzp@|y*M&MR%Cy8}I3QP?Zc
zrpbAup}o5&2zF#*p<moYFIwoMBu+@v1q~wjw*578)o=B^`Eb2$%|VRM!37A>4Wmnm
zcK)o#xpnh>yxQj@xbplk*Zl*+_gxg!kl8K~-e6<{(0|y6XGXz~F;XbN=LD5<rek2o
z>=fO*5?`%Epa`uOC2GYDRxYTXKl$@6L<a)GWQ;CTlhc{L!7Qg}X3lsIfY;XFp5AC6
z!E=oo0Dsn^4EOPZTuTa-bnoKo#SqJKjHgq4WC}4Oq8_0BSEf^c2Pz)FADae02*1y$
zT0V0XU44W}HqIjGc3-%>0(9brWZ{Aa3WNgf)x3efJ{q^{Kpi51Fdmwtod2VF&Sy%8
z6FeVKDh^e{1lVklR@n$VXr*+_`9;#mRl|wYJLNX`h7mj!g4aPlISrpKK+N%)U@JX}
z_!i?4W+YP|z<9lNgD^E*xil2vr9pzc4*s`S2Lbd}Mk^T%i#b>zcbDY-7Bm-LcKShw
z%ITUf1<5iMPS6lYGZ^5R^%Wxet;%Dvz74lVhc8{0l5yOxM<JCn3K&T?<e{HCQ_hE;
zFv|oaxAAs)<MhY?F=PldGuAx64MbYMw-W(J0JC?e@^arzA;uBzaTekyx~lH0M%gSt
z=qx%zd&Th&a1C7Po+TmbO#>f@%eyQG9JbRHG;e!fvnBw!7=lhv3?_ljsDgoM{lqf%
z>ama+WqHN&zy0^TUVGKbqB+jGgnji4Q@Be(5keeDj3PWX5Su9=L;G%Na3Yi86~gUH
z>Bc3=EXRO!U_KZUBN)e_@8Ee@2cKt4_*EXUG?4gj{K|*mhz<>Lg&gBA?(F5uOn`d<
z9C%kt^Lbm!d_RI&`$AH-tm8t?DM)grae}QJc?V(lweS}C8UkQGiz5SGF9E4$WCC}P
z0I%Cg5GHU%Bp$T(e?msGp-f;WIzz{N?ZiGkC;8UXQm3%sWGY=NDg~+McZM?3OH%?2
zpZM{G@;9yJjnq2^im!ax#SQIk4ZjId=D+re>23*&Q6)R6C}5(49s96L{0z@I=0K-k
zg+v=iitDJ8&G@{I2LZ&PHzds)i0}#f2ZA=@E!Lxv$^tNmnk=I>F|@KAnh&*z5bo!_
z($#CJQizW2AmXVk)J?QvJX6Odq%penK#NmphCe%^=h>}@Dk^}F3E(!~@{QHb=ev8P
z*HEd!i?4=h@XDitA(Z7PL%foqY~~{bOoPFzLC6WqN5x61!tvw2<-P}d1U4mgd~T=Y
z)b3siF&s!@effw0<+e|f`lI9*WN~=OyXEu$kUS)dNY&h_y{Al8Oky=}cnso)8;<ss
z_1yn=U!k93dKKU$|0#lyvl6M{2|Wr47fIH9Tb09MZ2)o7(bB!cKQLmt4%`rUGS<H=
za{lZNuyVWeujom5Sdzx3iZgg05}zOj`;PExFGv2QblYf+hA+3ZFSE7r29qzf&2Ha_
z@D2{8z4A<!kqM$beVNgf%>5kx_MbEmrPuFTM}h*unv5ZTy}s*78rt)lTn6fW_W%)l
zOhVmvJf^)sM|5yoxZ*Cg^xGq0#T^uG(yrNjB9sgPHGAJ81YYDQ(4Rufmh>YRudWu2
zyZIzUdshMO;*B86izmMD77@iEt0%+zYALg^<n2zM3l-yFF)JTiprcbbm~>$Ew~fzz
z_SJ>#w}W-LR}OF5<t&&6O!7do7dvIM5TU?F^;)w#r%r;z?xefJJzQ;Zus~P>VM`H3
zr1KY^syR**BA`-lc=N{3)A4pdl^%=&?Ze9tEn|%F0)`){;1Rpa@ew}X@P$2s1XzE;
zJ>}!y{M{QM6$u-DaLDE&pG$t9BJo;##S_az0lNliJ8FGSAvM<5=fG<=ku)_Vk|E$6
zz8iq5y!N^RghII+Uh9*s00&%aYFY~@5cV8k_9P4-HH2{lKvQT>Xoz(Ecmj+<b;aj8
zkJw<d5WuHu0x%_-&|Zf8&qhPh8>)t~=|6PJ!ZE{z%G>!sH}Au-Iwz+&#%VFq3ob-!
z_SZJjDM82EW(;p42rA?q>!eDG$z42qtECr`pK@*VNw$6gZA?Cy7<}{u2n_JUnUw&C
z9}^b#D5W0i)^s2v#^b{u?4;74E7OMG6l@s^aR>t_yjqQf!T{9e%$YMR4$~>7*6#8j
z*tmY0DJm#@RH@TajJL8>F;<kDE1|{0V-NNNrl!xM7P7T}4NNMnvorB8Z2FY#GK#)C
zcTAlLNW`fDx=h9Zp2zcMFb)TY4#@1a(P!^$*PbZc{s}8W9$jK3p7u5-sDm(Wv2CRS
zMWPKN$qDtlo>D}6<+zx@FY`d|t|1mX)YEb~7GUAZ=@0TWSA2(E`?(^~ThK%hvpJN)
zgH8MR@qzCOE_1-kttevVxy(}6v#qYUQ(HT^5~gKV{kVHlR)Z0-*K|v9wnGD31wZO%
z)x6$3Re%O2uQ^_eO1}g;bxajQ<cQvVh}zJ)BUt4h3Ozuc|4#%bk#ViA%RlHk4!f04
z7lW+2ob;_qAy9b=$EFadE}}q4SlM>#xu@)kRa*}3fI~xOJ1f#oEpouZv@b)JTk`O|
zc4_%Niz0yKh|MRx`V$A^6{Xc`QGvXwXLT&HP!Z9VMZSLn$Zx%XQhivPl?Rz6?>FTD
zt$r3#K<h(E0s$t^>mYpXr4!WYiytYV{cX32fi>5s^8B*wWZ84{vMN{NoZ};ggVZYG
z#^(pdg?b{R1qPnImSSg1NK0b!y>79WW%aUUqt70=B5m4LO%`<7ohI_#yA)vxC!qyI
zi@jT!&Wp*gi>7tFLgVs!q9p*FV^leJ(1hCKfFuL>@+aU}G#n1>Rv85uC8U#+nUOhT
z<3d(59#N{PryX2kS5cu@xy}^{EUJB|=(hPpe5>^0QiX6|qOzyuvxZ0N3r=!Q{673c
zPIw%YT_6&V`AHg7$2A7i-UUD^4UcbflN<zm>0dqHbxI#sv{&qgV?|q<*=luebQp3I
zxd1K4{17XE$nm$=y&=g22Gs6I^*Vun;cc81@Z_fsVJnMCr<;NwtX<V|E~fx|Z`res
z{9~}#GE0uVHs#8X(qfpU0AsYC<LZ!#+YTfNU_mO%)4}3`w>Dx|)rb2vJ8K$FccSB~
zUXG-yaD%x%VCU<T8*ZB&+%+Dlcon3XS0^T&(`Kl7kxS|R{S+Os(sWUp-Za_m#V*t&
zF_*BgpL?I%?2-s|Lr=ejXHSjvYD#5^S@$HX8~{)qW&&+j?yoQLVBTKS_?*-#WHowc
z6`s*>PVsUr@U--<>kPT+lf>9g06Kqon)_x5^F;=tsrj_(__wg=F7;!(1CT^=6S@R<
zS1Zj2`_OO4I)<2y0rip%idz6RFo8(DuovU+!6__(CxUAqHws&Kw$<k_t`HFXfN^!K
z_;4_R31*N=e&o-bZXEFZVY2(<A~HAOoCmTQk`h&&0_M)HEB?NbPZlO7wXlNIa^$H1
zg4m)j?=eVxEd~!G*4(e{%~lU+jlA9<o3dd)&rYLmXlVFu!DBL04uvVzT(7;!yWMgZ
zKnY)<yvDNJp@}P7ZH-dBf>V>dB|SmCi={d!JPTcf0@!GXhWm^Z;kx~+GWAI*6%_Na
za0mK@s(HcJ$YOXS>La|TdsmDZ1P;A<f&v*&gRI)=iogH0ZcEJ?emO3%EWCZrXx5(p
zG{>_L>Wd*g55wp5OttbTJPPdD*{`y5t+J9u&c)%0#%O!9Eete1+R9Lb(|j9~#>V$+
z<a_36f297-VYI3dp;to%Fw;>}Kg}D!1#C5>0c<xR&Uy->^llNz^7~m2a^CK}ttO=c
zs-iL|qvY)4-ssfb`fAPjyvD7nDzz&2@U(H0Mtpd3gE0x51TMMyTJrC~!|8!CNIg#%
z`z@cXkz)>NZWOi`XGGUx7mJ6%733>Fa`&s<pMNpqkJR<O9Qux4!qR~K$-=jK^&CZG
zY^9f19P<qpF0t7(eK%spS`ycnMV8CjTf?8Emfid~Xw<q`ld9v2_sUTYj1nh1m!v33
zCjyK%-(^CwG#wT(Gk0|lpA3DuTQ?bK%t|-$q%l?c>J5E*9(+`Ww?+H<!bSwsU%n94
zfkh5Inm>GJ4|Y2BR5wg&-I03r>W)#M%G4?LO|col7G32#h&x*=fkVA*KiU))Dl7YD
zw)UoG#Ou0Yq7ImIHCq@rHhp=1;NFlLfP=jpey4{wPbIM$+m$=XtIK6wcu<N}MO-DX
zcAHQF_myrX*06$<ve`(JqkaA%3G71Uaqd-BL*Pjrg`;O%FweII%B!om^3MLU)gdL~
z0pQQGKq(glq|mHzNHL?=Ut7LaB)OH{<u8{%I@nulW)LG{1z_I_)v=9-i8Y%95!o4-
zT^E7)3&4|q?%sWYARwG)sqtrG(uhg&OCmkPsr6u&fT|#ABAxRUliF+WNBPy{ozA;2
zlAYA#^}{qbet52QtkhsvR)(X?u)hwjy14C>R@iy&#NBe5YyYs<b-4RvC+cde!iN{|
zj}lJ9E#MDji?HE6cMovoeYVgz;bAM>W3kDm^x;~Ay-zi}8`+L4e4ewx12%h^k7`!;
z4Qzi}R+*dF&9;}|z*3FinSmkq^O~(yxw%)mW$8Yf)roAT3-*)O4gBghHAzGh*Ky~3
zo}`be35Ld;+pbkpV<CkS5K(#&kT4MtlG;NM8PVo5x#@`-T`Jku?6}gNZLMIq%~xU<
zC?p>=D82NgkwR5!1742}4G!4ZCc>y*@p$plGRS8md^FQAtU-ZF<q0E)o?<A>R``uy
zx}sifPR@@@x33o`OP}W3X79Djt*H1;OJ`>%5Xn03jIgXSi;)m|_K9J0Te?Pi8C{h=
z^r232JhvL<PA6dNysuj86be;W4<~03Obe(emeOkw;`Ia`S8MIDwmq`1yButE_GsRJ
zEg{Rd{(a5Zx)64yE^0HLpv_~>s%A4Gh*qGx&UX=%`wOh~l~4o<&L<uuTq1BJ5c6WF
zr?9VM$e8C%SKpU=lQ`ER5+|=fR5a$?_D*Cyy|lby=rqM;!%Z5Vd=K<s-#g60ofhK9
zi~I;h(fCKZ!)~?i5PC#UW*hkJIsESZH4Drs#0=VXV7y7}kXD^4y=VAJx_a+t>X0|j
zulBPNtwAMwmo8CncmZkX9Xi_|1y9am5bz|(9lB2N(wFW*Z%iD4!+4pZoS?&ae8i4o
z_UGypJ%{x@_~rUjXJgE}v$6-@8_PxRupl4V5W!!Jyft`p_SgwRlU6DHW;L>OUA8H5
z>tbS1inVgwi)&CuTPjZ!F~&<W37kv&36AtY?68l~R84zSOxcNQteD6gw!2K!6PAvN
znhiatv+`=l43?Z4ao+IQIt`?~$5z*RA9~CG8}?kZh?|t>c{{Y9>BLeLqwr$r$QM9J
zr1HW42uW={R&BPX+ICe=INr!go|2Q55HgQ+4Glf^ZA=6RKd-6aYkO}$SEuebIB0#9
zF7%~m0yPu5;t$6V1e_IOrIc8LzdGSzJPG1Jk!j&hzrpG|?5p1rd$e@u99b`lT?A7y
zycez{ER7o|k|@8`B)8b5diU4E>9dsY0<3~zhINdT?!Vf|H<*b~APmBzUh*kK+9Ray
zo1`HmAH0VqOjkGJ*nJHhBIQ|6hTZ9Fjk<p2&L7o)CjF%L8w=&ubf1CL_*D5ocE+*g
zDS}DW4(JBZ9#kssalK?l&}HoV489D=-=kGSYRW!qWR=l2SB<Ea#w2n~tc?60K>-$j
zn`q(i%4tD`;qg8TQ?{-|E14XB?Qj7F{zW2Ua0}svm!u&WuXhW?z>ppTRnB<;saYjv
z(Pxu6M6TZL^~XB4zvb>|TkFqfq%|nebS{>8f`3+)e!cii>F^z+j!Hzkg-IR96<mbE
zBnf0U$zZI%d8)YQ{1!1zK0HA6Clip+Zgh=Vra(gVx74v-JuPR2A(WgD!tsXgokAXi
z1SHAvY1iI|hQctKnQ3v-Y3lZo)+N?@Wm{rX!y2?`xqB1d?j#<~2CmC@J@X+~-2C0|
zZOcx0!S97iBjgUKCD$f#Dca+Fm-SW9AtVTXYCl)`sGHJ-C(aYXK{-Wq&4JDpw6i)%
ztJr}X=;Uf~Ky$d%bF>ie$!|a<!^A^^*}zEFfB!f2uoVPLSHvwak7uz{y5wi0(G@nw
zcc_?^Ql@8jUHaEDchl(_Z{LKp_95nug~#;QCkeqwLXUbzL$EO@1N?hbW=k46*Vyg@
z1n;EZNS%XA7H(1>*9N8uvT}INhk|`>;(K}H2NL3L@zyni-F2x={YC6OG-dHPDqnZr
zCk&Enck1{ZdA`3(g5ZS@{u;yY=?{qD!(<Pp?iM;CNhVcEqI;r|!R#W(WNr&gB;cxm
z4&sfhfJm9WmfWXT?h-KFKb3l!yN=`h-ZXeqE(^N!bHhtTjWHzgzqaG=&BFM*PuSZA
zN0K0HskNxdJ05rNw4D9N>;p>V5d+<Nr(2=Z$?d#Fo6EN%x{<caj<*|~pd~`Is-qX?
z?~zosKpY2y^#cmcK{y^z6n7<z=J=LigbBZ&e?ypg&4&A>o#>kiZms9l)*lkSt$F$G
zw6cIZE{Lq&rl0VlPXZlT;iM%;K%%d$2l$F-$9Szi$sE7=pAy|HE80>rGyeTqo9e6m
z<tOntmcax%cNShiZV_-p$Sa9<gQtKV4}zAYYxPJMH7p_4qAr9J#6&Z!6La=wh*P8a
zbZk!uSt5IqeEP_e!c1L|b6U73WT0<f%%$AaT*4fzWI&HLaXH2NgbX4_um_b)BjvL7
zf~VPif#1^&0i^DSC2)?u$dtrkkk7y-_&u03A{g3RROr4Jdj7;-h$1Wl?7JyN7M`?H
zQye#Hcn6duw?qI-uRT}{+Sm~#dH~MX*W@{KLeCgkDYxf(^A1|s07;cUH~V5ehx-As
zH>NA=OAtGK2=Uf$ANJc!S{4$Y%hUWYE{@dxPV&Ad^DRWOjN*^hhA09$8)+v}0juV<
zJB$`Ad&T$Qwn-?TFQ0sI?n>Q*ia~IlJnjB!ML9jQ)H{MBr<8R)AI$G}lVY%m2Us<L
zJxiS3%P`#o9`$q43%_RIysnV9Kd!ysLUux!-a~`j6ev;$G^YgbriItN^`vnc|JrSE
zL)*kN@T_~BkvvO82slsr3Izh>9s=GX#!@aJikWrt)I9HP`+W1pG_;)pP8E5yyQg2_
zf2p2&e4E`>fZHJVUzSLT$yF{_chBR(E7yM0X38jQC`BjnKi(a`GZN21)_{w10*h#J
z5pGYh9aAts@I{Cg2(yz-u0^^>$U2k%+^UBqwlzn3;iyOizLCm4C4(RvTA*STq_(fz
z@kSCuwRGoz8tVn<t|7$MkuW`c3xT&{s(ec6PfrRilXOxT1&1CB&3xL$o#=t0lExep
z5SyWtdr0u>gd_+csi_O(3*ZHnF^IFLEuVkE&b@`Ek9iOqQ4zPhub?7il&FWW804ux
zN7xA=<?PN3<D!|5SbXv!aH2~KTYHh&wmd`JWpT+j*vg?JJb;M<uMzIWWw9u^G#cPX
zh|z?=_C7f%)LteAEaSlj^J*5`gd3^GOuSvs-+>?AjmmR$dW6DqC)>(A3SN7Mf3Nnt
z+TV3{i>T%=KTNm;ommD1c5D2e`I~yR^Gw|@GrMe9{>VF2ik(tMv;tCoQL#dv!-;TU
zsMI?6*>CrFX1low*s&u8^>%754j^p;{I8e^uv&i_G9qKPBzcZQv9dsyu#11bkbnfk
zk5~z?w~as!w+2{ubzW_M%)+~NM-m8?fH*-69g0C<LNTE`#ACs&IQZ+HmX-@-L^EvA
zG<A`e$E_07lSwr-8rgbEv|=wNPU`#4emBjkgK634{+rvx;1wx7-ih-zcO*l=tC5ZH
z%4=mF60d-e?4|7;+#MWqMZIL&Fena&o1~%N>C7hOX>p{Q*Z7`t<M`&GZW48g+0O9h
zX<8rBGK%Xkcl&RXii-2YR0IOcNx;s|5B@f#e3acJfJr5AQ-!$!e%9>5Z$BGQ<UaH-
z;~`G?WBy?aGuk~OTr}N8;Z4HA6Yr{8yW9CvO{@#a@jAX>ypn7Y;+k*QyRi+bEU}`g
zuzntaq-*fUrZ~SIF4Q?C(g=SqSFPD=sr<%@f+r^2Kyq!~n)(uC207Lcjgrx|_{bc_
zZWWLFy}jOnACXKi!TG@ojB5%f{q2p0d8E-RyeIK%4C6C-cU(dV5Vgv9GjsoA`}~FN
zcKewSX~mf*WFRDg#6MDmkGxeK#elVEUc{dkWe~eT2mQa?Q7qKyp6Jc=aHD$^0@1x*
zvvq|O|9EGz%)h;Jo+Mz3u2UTCAWM8}Q&`-w*b)OmaCUR`OlbJ)s4+#piY|01OY~;*
zgi-W|+u7F>Gon;(Fb#r_j>1dAkJJ!c;HzW;HuFAH@S1?6RhlV~!ysX#`P2!+mgvP2
ze+^~(R@B-=)M~+F#30DwCp}{`F^2LA@y`65r#DF4h&~jwbtIOUB-?GmP?*Qz4xLkH
z8!6>{ZyO`&cf_B-6=j3>?~l$JyrH%e6{&4km`poM(Tq4pZtDfaz$n6_6a}RKY*pr6
zDc9ywS2BEPnrq8?(u5`8UAM^P+Ok3?(><^ga}<?@aQz*U5Mm_3pKK=yi+487Q)^_1
zLaMbI;kGEcli}^^`OY{PoHSf<^ex6cQ@uzBHFsM{_@8O~9gHUw5CbW9CPV_MQ$pgN
z6wX6?!t_(Fkz8A_?!LHnuzc{fs@#)d!1cL-V<z9r;Rc%}Kw!J{tvZ9{`Ht)WF`9X>
zVV@naPhKAKgCLf8BetU~Vb=Z{>;2;aA&Q3N0-y;I?|WJfkq!ggx0|T2qp4otjpR$+
z7et^^-4!HmM3CLIdGZaamQzQbtJ?GV5;Kg$gyMIYQdRiBVG2S~4liN!q>4O~|AZsI
z9qQI+hWhyn3QUQVoOB3V8PSrGlE+F)0VSoS6@_nFSuPYcE-aYl)Ygufnq6VPrTT>I
zn2i=AyB7-ETP-%`$tKFYP&|35^2~p4WAUTtbtj6)cc3I+g*Wt)ySjgw23)#sOOgI)
z=6zTnb)8BRO6x?h>3WM$M)YG%UsO(e>j>_Rla1%~oJFGbkAmL@h7ys4|IYvrh?axl
zOptq`^UPsPs<K3SLH25|)i<ZUvq#G}^;2Aiep7GBIekI!Z!Umu!jyjmKdB0zUp*#2
zb5XH<9=Xe(?iZe`m58oq^_)L-voQciRaQ?ZslbR(()tRLl>GeYqV`*cJCfZMNm5ia
zNFW3)qQgCuvKAGw;kc6&M-sKW5{W4&vR9B^a1fl2Yiw-nNN8L?VVf@fHm2X>U|&+3
z_`~@BEzVGtLBcp#=<NDm!dw-ibK6&)-}?jKk3zEpJK!?)PUdp{@@(noqgXZyc`*(f
z0`3z(aEB<SCo_e3Df4HvXnfV1nCSmN2DSnLA?Wp%sxG%bWJ}VI%Ib}hY@wg+-rrM3
z4{!37c%VnR9?_OnAJ&eb9tavQ_t}Ds-K@V0u3!AKa|A>+uc0ywuu8d_yH#~-S4S;B
zyafD?M1u(#cG7o0N$LwDlCJ<CwF1g8&imTo$X$n+0>P_sAjw(MhybYOoP8@FK*?Qa
z_)PP%#qjf#*xLNIM~+Pr;2EGu_wy;kiC^=@8>pCw8f=>$``gcopQ~<eo?l$yuzebj
z`(I1`KZz77bpyaNQtI5Bt7*x0x#C-$r&p`7h#Y>nu3(eKBSy2G`))i{9W=)isx3#N
zQHJ>oPZRDMonNFPb0$$n_{uYZo2Bm&c>Dz#F{5vokhLX)h2vkr3SL7$kVc4gzwDa&
z-mjXd-sj_U+RW0DOZ{cb>EkPj<N#uc8Ti*I+}kscZ9TP7*ZxOK4MDDr6iDsDwu62Z
zAIc0EkzQgCSBu5S;LOsziGI7K`zkKj{LM`CkKD}@R=g%2>Le$ciMYd6)m|)WJdirN
z1g4*uesgNik0gZwXm#JSzS{-k&4(lq*b#}I`zz=R!=##S6Q`@oUIDt?bV*tn=5M<M
zX)I@%Sqh58MllF{wXC&>v8b7mow>%lcLYoPW$2TpNKCiF=(TycZ3F~N%cZWTT$r`*
zzN9yplm5>CCw!L)NC^QO_+F?fF<Z!%s`4m)TZ2cs)bwK6(8+9Az>_y0dGdN{sZ8|_
zdMAP50`9<404(f)J2vh;($O)?R;INQGp~BASv2E*{BZ2)5GaO<SJC0)^|+T*A5l8I
zU$1>Gf=IGZBAMmyYsmp250V&1iYCB@6oUqvj-`;+qNm~w$q@W_Ur`mIiL&_6W;Dkj
zX*O(8lX+dYc+iKOA#OMn_ec_WF1u3giS^zm>3t?XM*wvGuA6U(E**T0z1@~EbeY0h
zwTR}pX9K{ubiAECO#bRb8iBw|dRBIJNq>L8Bm2u28A7;^?D5hkQZ_4g)d#-emfF|3
zR#eWi|5vR44AiZY&+39aPeiG8hUf__U2x7Li<~>YIlZ=4vTyz&&)I)}C0l3zrP;;|
z!}(r^9^A#1FIO5Tg5l0(QtxnG^rzMy5VLQD@&UDG4Aqa9-f$p-4IXStV@QH0!R7NH
zFEVo{Rv8O(VMK664yVN;n$n?+I}Y(aNiMOpv~)Qx>r-JJeFdVvCz84`c|-KRAdSlf
z46SCy>((*co9to(S)E^2!L8?8n+^c0N+v~hM{;9^<ufZj<3M<jqM44+0z*hvm*j-~
zTXW_k$Mk^MY&l%U0{smXV1Zrtj=DCEsT9p-xKXdIt*zUu9^1zHK0QP)=%u`bjPRuO
znfqFI|G-&WvP3HFx=So_rsl{S+rhc2YW*vD9^fUEa?G-IC*L)E=x{uddN@WgVV~7$
z#aNi5PZTcKKa5-DDV4f^XrCDmOW`n4OAUC+auk(7pAh~0={_nMKmKsniyD27fxr1`
zo@DK7RuPgT^^WqXcNyq#(#wb%M6Q!7*}1-)%Q)47dzt+0KN4gUe9R)hbA-ydTbg^1
z9<DsCT8)41wvzh26kRC%uJv?u;PH^}0%A_zZuNVQ&gaG-4wwoDZj`-Rw8l>KVnvKp
z6TxDO2xx*Zc$fZMGcf?bs(Rid?|FM)7SajYBJ>DpDCI^cefn4-Anbwd4W>DB7LiN&
z!ql`dxxvStJ)qZac;q#V&!cd#v>d})=eeIR>h@xM=5sP^Hs-|fE--hF6n+!L&4SR4
zpqztG>G5K%k91mo$Su&T&cLi{aCktvaAYV9ay-#t>Qo>qi5E|3U?xDYkZf(bbg#K$
zTeZF2`PzgeElLu_Z&Wp3SvsK%hiq%%XXgfEA*OJ(B55aDqwvN)tP}F>SdM=4s6l_;
zcTw>W(AFJCD4Cm=1RmBp0usF~Gr|7$ZyyHzyvC}UDbMl5+{~;fI9A&nd+7euN-RD6
zE?Mw<@n+btI|-GF##NIM-hZZ<AxreuI;>$n?=Wa~M90QHe$)|7N>_5fCb6uT`o5oi
z7Kz3N5IX;J9sn#mVZR`Ls{;iBat(X!DWAdc>G=bvOGC9nKMVRxUy!s#j;gvvuLy^U
zBw!Hx)@P6T=y{UczCFw)9gflqGE^`JOY<OZ&%!{9o5o&F!Y?h;71PSb{Cx)0SGq25
z@k~-WAm0$v=br_z=YMehJixR(^fwSk4lR;B?4D1Hjh@adDd`hQxHMe08gFLxBN%R<
z9X4!h?#)m%raEkRKNaZs)Cs-0?1m#w@;WvX+$(78qM^WW&7$N@yMlP9W%sI`53?B>
z4WscaaUBxRGb{>VseOHY70e!6g1R5>rKua2hjIVe1_BaMC4zKy6Mq}`IwsYZ>ETSL
zntGbf>MYX)^W`f&zt<2@Ow6h2R&c@Td-P&?F0$wQ#_JwwsyI*Ho28x$2c7KS<9jXZ
zhG%2>_{HwRC(9j`%9xF!D|_K(sfLma%ReKU5)F6~cWnx=ir1|K6KS0emAcyirXO_G
z*|`<&!(HkfnreNXI+g*uvT5}oZiR;l*80Wm;}9?GbdieI4%NHhGig58W@r)&pVrN(
zO&zoo!z8414d^TMzYTAm=_Nj_cHjetjs~ES%V3r3*!{OlD!P2~N@MFoi!-Y~bp~uK
z)j3O|nD>?o+&6-iKJOrHa_iSOc4BNRUZHHRwobRkXsy2RoZYqdX0BTc{OVycaBI(a
zpkeO=`N6)bm$j<-haY_IU4>d%jni+}NwK00>~ZSmk8}5@_AZ2an?JC3=i*AR`Z7Iw
zs>b6i2uZ_Ky0XbVxy#gPSy8;LA^ejsQstArlDX5F_gZ|@Hohyu%`j2JkRaQxgGfhV
zfA{`*wh>;Jg~`1F3NQz;8aJ581<DBM1tFjmNRKa%?~X+~8+;zYQo%U#p1MDzL#$Yf
z`e)KM3-sz|W8I7$1N5ZK3P!Q8B8fwV0FUbY>#jpiO)jj_b@qIBGJ&M#*D6J4aQgoA
z2(#qgvg?P|G;7_bde~cH8#}(!`}~f&Pu&g_mt6O%6kF484RC2swD(nMCs?14=h77B
zuo(K_{&v)$VuQ?>ha)}2<X53kbk*fmYrYxe!-efu58d+UVq;HF$;kvUyTr*jL(b_%
z8{)XqaX0l5vIEzZJDC35kUIz7*Ndg-qlXd&_9u4-4<>5Jlss!F(7yYHGb$ou<0k$C
z+)nV1QQ0VmTkU5z{FZn2UYlGXVSgC@VLM+W)?f_oRGI!>f_DkLH{0J}lf28d)zA~T
zfNg(<Dru_F2^=k*qg)X+2ZNjo&WJsmGZvbEt)|voo;oe|3zFOSVgIW)>D;I5*_?Hu
z4W<?wyRO)g2-jhYB3T^=-I~6>$_)69W(#S$m&Bs|8M@;R2#6RY?gDBNY&e%9p`26|
z2dh*ON%)#buWDgxygs}?mLU6OoB2;wjj2<Hh*w_`CcN_?yDl(Qq2tqvwQ%NI`+V=%
zJl&4VX$Y5+Ff)xyyp&Pp2t@Z7zU=NukRA?C4#|24brOvy8hN30BfVNUj)*$yxQ_ck
zk<MpepYoS-hXYvRWy{+#E0R>t{7_g@;UIt@K{$m0atj%$P5`UKao!_1!vBzFavle#
z`vHU9N=YhJ-B8G{$*g%i_<G1qxZ`b5w<kTUQpJv)^mb2zz)q_zlc1U7l_pL>b`7Np
z690<-ebH!yJV(>(haM!ZEZvzHPP?XKv!g^Y5&;X9h^shr!mO|WK$qO>LGYjK^Y?z$
z#CoyNMDQzJzks?BW&jRVv1G;nJjrr1Py$5Y>fx>*@c|5ekdioi+M^A*#=(B}XVktG
zW&tq8Lyh3r*f)O+Icko?&wgPJ{C?Q`*qgUVOtJSBxHyl`=*aXZT}Iqj!BMV%<0n4L
zOGWxWxtq)~K`1Qr?fPS55?B6ig(v<3$+p@2E5{s-7xa)lpKUW`_<UaFJ<)B0im8r&
zoC<&mULu^eU(op((2agT^klcKzh6+NJY#5FCIAaN;UGPkRSh)FwznMwlL|oa=ciRP
zpJ$%3<43Z!ZIVhUjyyk#yfIXyhL9+D2ldU@ko_pf4m#kl=YOKT<<nK$3O`>X8oe@~
z)@ov7r_?|6P$Q}0@t*@mWU<|_hI-pU`?U2eb^=ic{llxjG9IupnBm;PT(idOv04D&
zK~>CZTlIyQ5kY_l=Ojpfd3k&Td~u~ExN?pL3Nza~jmTmJ%B>5GB0}f>ImoO8uN16Q
zd|h*lj&_y*8#q0XJkkyEJ@%E8-3N>pF(80xaKCdbXi7IfiEoUK-V$uxT$>cFDV3!5
za%tzOV14ZBBiH{N4OA5Ig_!Pha&n>c%FT3jQMb}#u^<%4?*VXX^jn3#2Bj*~H7c0K
zdPar9v6WJg@@Ng3#|#(isHMz(s!Hi^NIX*ye;{w`r4j~m|G(AZ@Wm&T$;O>DfWj$r
z0Y9;xI2UD&rbs%UKXT*+r6v5adfVABwXZkhP4d3KNc^`5k;}F@LPy1?EoS|3AekiI
z2yw&Sg>?G1E)s{rM1rR2NLpnLyQZQFXJlkgXv!jqw)U^jA2ovLBNZ|0K=NVrqRxnc
z@rsKyBY+wc1CTK@zaJ1MFaujRNRAGXPj46F3|L@MZIS1gwawyvJY{*z>L{{y4r-Zr
zpS~UCXw4D)6qXJnnzsJ4F@&TK{QzOUNTgKSrvzp7;nD5YtsyA4JN}6@$`@wYMrrD^
zuly5YEn|VLqj*xs$tHp?Wdfi{vs@TxBNT~nXLDhKocQn7Euhen22wmO)A)Tuyru4>
zbc<9{8VQu`$eh7xyC{*%OdQTxfSZ8KuGzQe^p-R!e`|=&U-d9zbk{K9(ldPt1)ORz
z90-ak3?z_$MC~ul8ois;c<N>aZ_$E)j$zARSt;`<g(0M;g2V*@cF&N?ka{K23{=^=
zmx=8}6-?wc<dVYdM9F544mINBp~{i?fa!X>n3YNrMdG8*&~Y4xER&W1gK|wwjsJMG
zc(gP|<_S?943G-2;1ST{1v7+Y8L@CY3)20#;NtTcXd=5R(Bwa=ULYbe2!<e2*W#`N
z=^DPL;?3;sufK~9zC=KMKl~iqNvsm+dcoWv49ZxoEWjju-cxeYfvX>&^E=?X^7mee
zBl$vs<QORJZ!F){`m1>1YY5(m?z4aZNTh_P+BOyHr=2K}4L1XABB~zXNU>vrjoQW+
z;Rd8w&XE42*1+NMQZaRBD(wniA=2YmtCtQQlGu@W-~8fW|CA$EZ)eEvXWje3v94AJ
zp|Pi8t8lNHZM2vSxCUA1Ipi-TF0lPRSn}Z8JINKJs+|L0wVfiWKbT39)%h1MUzSvC
zN-EcoIT&hp_C{3ZshHcx-}iV*2BLxj7buRy@X)eh07Ij)m1ORGMzT`51IM;xnhc4p
z)<$1%C<Z|a)PD*$J+E1R?x@3M(69YWVEEaNo;k9aN(MYolHjuPruW$;KK-RQy<6t!
zrHV{!Rpt6RM?&%NYI)n&jXq6-MboIbKaL5*j^IdyH*O7l*cv&@_p4uQ+4$D;THUo`
zj)WLXEQ77l!hz@hrm5Is+@{*j_H0mBAPoK#u{4PJbqQxe2J$C5i5nP#DjO(zcV;0J
z5#&UDP{XR6vf^0FiUvmaU7O*>fW)0LcY~{~FWRmP7L>9pErrS@77LBJx5@H}wF-{C
z$RfWYJ}8N^ua($BoiD|t`J-F2i_Dutz6e?_ZIm8VE^1jQBfnaiYQF$WY?OQKb~Tl5
zC~{-$8YJ~l)4?XO^t!E1-kIuWDB9BZ)1|Plg02*OR@Sp(pc8))!Z$ZkvAGo5lu#^U
zS<$$V{VSqmU}N~KNApne!Z)(g$<yjZzRmM&poi`{jvNO6cs1z7^UfQYCb&@*JuAhQ
z3zp^cj-E^8LZi>kawRj7n-~ltMy38I*Muco`*qbKHdl`4qc)wM&dxXG{*GnS;1AzG
zJ@7-d0s}-mp36vLA_+Oe2J-%rJKmr@W;D{iJLIa<IM%CW^0qljRSXwhSEOTE)%NJI
zv2m=xB6(dkN~Nx3XY8<3PCDrF%@G;)9|e3%h2A+Ov!;$6s|N$Q<wzC5!cYAaQVUh+
z4zbl=g9Y5XGh=Qm&zs<zW(Ut>FWs)djjzv{HZ;;%7@EYRQyrOd4_7T5(N-O8vjvT&
z00p>7qN!5ct)&pw+T~z_m)~vBRhzu|RuG)Puu0zNubE_WTV7y#UATEHcY%Z5xYP%U
zVcB<_jL9>F%*QOq1*W8(=EYI#HaU8D2yXhV+0uI}_dZ%Wy8SNT0#=zGyszW{`-#r#
z{f|2galGYgYE|24H}lAK?h3!X$srGq)qur{tbSs4k06dZK--xh`qw*y%N?2r&mQ5g
zULMvYc$`O=kPqAoR#KO`QLV2VvP*$rWa?BkuoAPVE0H)r_Izqi=12(iQ5~|3{kg}<
zA;XJ17)T!;=Mx@)39oRjI>&6gS`OBf3}`o4)~?uM57x&OBMy4@HkXrdJB4k$qT{@E
zyTPT){fQ-XR{pNFKE!oy?V*kXKL!SqK`V<XnF;wOqxr7uY3m0w)?w00E}VHZ2ChRt
zgdFl})~1xko^0n>(Ob^pX3vRj_Chf7*}Hq|tG4{gal&7$XeWIRhv8Kg)zb=e#k_Jr
zRrGHs`B03IJl&~_U30gNW5fyfX8WDbFSoVHruz(GwbiToK&aFu^IdAirWW&S(Gl~w
zt|Z=Ru(5V}>~Q5nRIJL@>47gO{<$R4gL11u#;WC|I2EUzNx2EybGIyf=9SRtb~eEy
zcHUrj{)NOWxg#XgnFuAvMoLEUS1Ede^xF~<EIkmG?*&!CJ2FMuEX!ZSVC-tF73PZ6
z{RE$O?9R5(a930OQtJESqL-6*Jp(0?_i2R<p^g&nUDYt47=!jb#Kn3{5096LttLEw
zYxy=kr*x#<bVSvC*a9n3w<kcOa8cz;#mC9V6qtpwC9Ko|q|U9eUDN!Bz|}nzhk)UW
z@#&7of-n2X)_cy6PjBAmN&%`7TpJ1si;3?1!=7`*|LhmkaGrD@TNyj5+N|#0l*DD0
z_i|v=I^ZX2XwING@)4~GcD2YiN65I)V<rh#NE5=ksN}X}s$*UmIzOr!AB1_@y-(8q
zV8V3@bI3Ev^x&iwMgY~cb9n<ao(~?(!sQG{9r`zF)K;tK;BH&~>GvPNVua>#V9DZD
z_+dIcqo#pk>?fn!)XS<VgG1Per=FhPQ;E;bEn95{i6$V1{Icb;ofXG}L|*g*#V2)9
zw6A0aKCGssMEIP$G8H}f4AuGNV9~M)@EjhJrd}^BEenk0g4U!D^)LfcyDd2oPuoh|
z^hWk_W_n`D*^WaE;Tn|MyHEb-Id-4jF4nh(?vcCygYqJ-u`{JVaHL3AVj=ZqDD?Eb
zEoswmo!eGlfeMyf6v{Fm8yo9^RBuizV5YTIS^PCXsS{kwA$IM}rt7BKCO;}M%pj{r
z!0s}>We{RS^G}BxzRS(qG6w*tHl9a=Nw;_iMc&>1HdbSqabAGZyiWPT-fg!IU4#4r
z?#~nPYCnIze{6e48rexAL=!=mH9mH@*5Ejo;Lzc+5(6GuJ#<bUFN+G$f15rNO*ftT
z;gb}$`ua;CD)QL!$1ON{7N;k=j4`?*ZNxBx;Y-hGl8dpqVllI>+P&4naM!7-xchH>
zI%Ab1)L&ivQ#?v4BDu|hdf%103=^{7P#(~K?lfj!;^|q9tp!>9=;Ih_%d39ABej*`
zvA=F!g&7wzDoXsE95cF~oL9FOMTc>Y8g<9&9ho4vd2%jvpVh`<K~O>7k`u|qc_wEY
zKj(V}I1cxT^E79c<nD{SdhspkTWyNeS~5KJ(zgf}^hF%$i>Inj4JLca_9pB%sM|p#
zt_k&}Iv#>LenC>V`aBIR`p8Pd>D&&p%nqK(!58n*Jh|O%m6xNSsYecw82T)Qv&uJ&
z<MspX%u6&leDvTVFV>jo#GR9HyK{B<kFBa-a>TD$=-7;CNsZ|5*V}dMXOhzjcapC<
zh2c;pCchTKuVR>S{RU1JQuhNkq$WC3%@YEmMArdCApL5s3SfNl+Sb#WujZI#K0!xZ
zg~b7n-TvG50P=&V@7*4_iHi(F3jeaf=IpPvi|RM<WUKcmmyNwNQ_*jrkU|n*zo@{<
zYAA$9qUdgk#sVJ3{mbnO<IDyUjkRvwTtJU%_$b!U(FuZ0vG%zisveCmEKiapK|-0>
zgaL#eUrzI84aq<IgaI4UaY_;>Lb57Lnrg@BY<l>OHLejN4(=yqX14fHC{eI$c3|Ug
z<yA|Ey|`SBsdUZG%UiU+NmK5|fQpkXIi(Gba7vARQQ3K5eP<?>|F+<)&$F)D*{Dl8
zsM+_lg7z<ji&6Z-@n7$p=YXvN-EI!YL4`=>q#Z$WiD)$J@q*YBO(jA1!KB>hp{@t9
zR&{2nx}fW$iH$2jbaOl^!^4-Iw*bgOeL>}tAliw@<HvmOcp_*A^e2c^WgxjWWAD1S
zyi?tiDavUZeQbXzQ8gspO{j&MnU6-t-#%*aMvxG0Kkch?e#*euEDf}Hc}XJE?%Zkz
zdLcxJfF6dB@Y74g7*$3Ope8eLtycO^wctqcp^2<XlXhEtvHNS7mYe7yAl7D;CcybE
z$*B6*vy#ednRwn~Tf=9BC-WJ(i_JhwCes$rvApUxP@qDsn%CQTtB+5Q<45nus;b`Q
zNoRCJ6P4dVI?rFR_g#<BzdCdWech`l`?EVGZ={F2q0$yufjbs`JM9(E{v=z71P<U$
ziNkZ8gnv?B0+MSAUh?UR-RxF>KKXkyGlU6c`1VLY4Mu7?jha0pV_fs|C&r}sz1F%b
zH9>VA$g^>N0r*M*6Zj_4$Np&H_@|w_XZ{?-Z?wfD7`T3U#ZLQXx+ct~fnHqWhRN%?
zdFwg^RBP^ll?7;V`>zB!_yUmKT}aCRpA<+^0b0W={ZpyVJ|3+ey|SWK<~t4SwHy;B
zvGCqs^}21De|pgH$w}T_EU@mC<nS!~R5ZqK&AmIe*RDVrQ*?X(Ruai^fyiJZ1S-V}
z(bdO3`TJC+NG{YMS>KODYE@d60PS@2gh&DaEWP)4-+U6s5|HyA2m}V3vH}29iG<Ax
z%^!D}Bt(fSkmm@hfs}}(Jv-`lvmfnz1Z*W#sx$a5$?q0T=H-k9Ot^gd*QZ|?|9vVb
zVv^o~vKK1)1595JGBh|NiGdzLIVjnl{3OtW*(MW0vs(|sB5>!9s$v=1SZG?f&{+Vw
z1s0UG>~B|hY?(C(Xt0dvwoh#Oxnu8AW)K0*wi;igXD|J0^;;%HZ#(3JI<19%pd*^e
z%b952c~N5skEtlab{P1bG>x<@{Nnp0Y%MPzTRhFt;%DPj%@px{)<9`jj+y8v@<|SH
ze7GGa!FUEJ^{UoO_R{pzqW|%y|A>^U6ybKqIf>gEzi4;(w1c&!O`~3Kqx1(M&h>IR
zGR<;F*bf4i1}8;(0ljZPo6(N9Az1Vf4$S3SAW+f){*IKewmg0yn)o@T>)Y&HAo?>?
z0wP=@UMvnx+8O?pQKJS(rb1!NQ~t)c$H?d>m}cZoWR8fHLgIU(3d2D952#g^8*=2v
zA7z8`F#$8+b0)n&c>K36;#=}gO@;~l`Q&c|=wX7FtA*@gn1ohey2w~+xPvorcRu0Z
zubT>4$(d5D%20fLF4-OJCC{O79>9?RfYKp2?l|0lI)w))Pk|9E$9FX874U8rlWyU$
zr2MxTY(4J>lpS4B3vbsM+dek{L5S4JJ0ZagOx+6oJ`Wv8Fgj^HuTCioT2ByU=UiWs
z(=UHfKu+H|xbnEHv{ZXIjJ;pgVBFF`MDX<@ug!o~ak)szxtVg9L33)v+{0WfkdSYa
zUypRnow;UW(3YNK;V&R0H0*UjZ^3Mb-)hXAPS9N5fZMUOIv`#mGcS+Zbf*yHw4s!*
z6EB{V)(}}1wzOWYGJ5N>=(njI>N>|k1GUCc_mG8mpFYV5+M^~cYx$!Wd5K0fOfqZ3
zczrMQS50HWrek8XP2^1XXSQ>@fBlN$RN>T2{@6O)-90tlaE3wM+)ei|fMFmJO*P+}
zm~eH6=pW$&&<QljnKIQfsi^A!u5yZ0cX!8gh&!()w0W-<3n>9IY>tAQ!B&wu{TD!*
zWl$i!1d<XNmfT+pcWfFFTYgZ5TGcEY*3TuMtX!=*Ova%i>{=r&g6B5TVynY)ke@3L
zMHF3Nc5`r3tLi;i`i8RDZY7;nnOR<yfQ4q=&?leTIg{#<oSj?GX1N{v^A1OH20nlL
z-rKzAtqwOX()Y}!9&%Dj@T}NXtUCPC#BG~nSk@X}v4q+2w2vAUTBdSC?|ne0CgOhS
z(v^K*W!Dv}ts9x)WUqTFXgRBtH{_%u+Q3`0KmO53qwCp$&7S8{vRq=TzVy4vLtL9w
z)u^D++0HM~(fSF-U)Be|BpVOc6mKhXIXudIvyX!uS{9l7EV1jrWw(5|5SGvfhP#&b
zcxRO9x!1%EfCqZ`d52XbaIZX8ee3e&7-Lt!53ZEJXZnPmtGG;M&Mo=Gt`zz*y0ltW
zJ=1n{+fAuN@1H%OdL*VhJD_KSTU|4v;8cX#A`kg*smo_+X&Q{JfdL;Ka_V|02ubMD
zOa&-`Z`^G|NEe_A;uxSI5T!!ncsFT-#E0UFIgr#_Pu)GN0UqQI-|O<X`2MKYV=K9I
zv_F<c?6rsSRVI#cZ?IHXrmm6;%r-?A-nSj!DukQJ7;wbY9uznnygKDLmdLx@ADfvo
z57DKgqgyhO67O%!tA1Lxk&O<Jm@sdo@?AC&Gv9d}TRm%v?g<aJd2ng|q3Ewf_@lkj
zOGP%p5__L5D)vm4GFWSMYtQl;!{{vY-?gl7&F`O*^c7pF92dDbRwSUASRNtr2whyK
z?;Z&tTUC)Y^7<=EI(ZRlCNp|j6ARpVwUcy*1|G}GXYU>!fFK{}-`9!b*vc{+HwM~V
zaL!+*3a{_&EhJ+HbDZumILW@Fw=_vWOH{2Qn%qfJI$|YEax<sfn-bg6#({GmSF4sQ
z<2`WsxJ@A%-Btg}Y{Ms*q5s3zc|bMQL~Hv~QBVX#L6j;gy;<m85D}2xqzi~hm);Xm
z0Rg4=-h1y55=1%(p?8Rs5Fiu@H6g%%qF>Q_@A_BP5*vqe=FIHbGy8p?A@7bjeOR}9
zde?p)5=$8Sf3)ox-+%t-k^{=$vTPQpXCT=XIh*E6<{q3Zy!!=OTv|Fd=Yuv9S{gcQ
z;LxML-w$D`@2CbJb%e&~7`Bj$y>y_1eY=PFlKW&aFSq#x1kw?zYXqDP?>bfvEFMi&
zC6Akqk8smIs%A*XFE9w!=lm10RHx|6j-jPcSbdbuZgTYZoRvVZv1<zS-Xb-fkekR6
z1_qg48NB0b3~pZ6_r}KP3BKB87d!0r#vN}*k;Vvsp5c#x1bQ)xYHhY0H0=QK_jRix
z^L^PrK^<GAEM$y0Fa%HSNuS_!58P#id8$p0H_P@HqhPCa6f%;*SEq5#NfX&Yi?aiQ
zC2ng8&2?#~hhm$DtV&#EwAH1D<7BY7ouwMqNxviCL5hs53%$as71!P69+U`LQHveE
zm9QO1_nWVrQ#h=*aVc?bz1g2C0Vfyz9<smt@S&mVir9vxkl`4R_tyfFITm%D6rU((
z)-{pOv?5<iVf(B?)st#T+Y4NqdSzDLkVS;=*14nc)8p~P>%5i2Ajj0>r6mU}QZ!0;
zN1_<eT|}HnmNnrn@UdNED_$=vnQw?b*^;W8YAx+N?V{|hZ=M%4TY3PC*or>Irleq6
z9mGWPAMRB)kIU)NZ_-XKz`YYJ0;W#9!7Vx|^-gBqhU9p;2TZ~DJZI%zLU%Tg_D_zO
zCUNLei=(Zb^I$kuoUOPr5-l(X`_{8qqvwF@DxGv*o|N?7Fk4gSWwj|59E?+kuP1^L
z>su&5b@oOj($QF#pL=Gq85_dar>c5XVuP2w#~jssa_sLmaAHyoEJp3(AeON8e9GD^
zn-$$fbXJ&Zoow>uyzcY|R7b+j0<m)*J4W_hIXVX85=G%722#rXUqL*JpR@z`HY%zt
zi@kL}ETSEnHntQVTvzp9Qm}{u&3GQX7c@J(*SWp}>}qVEjI6?8ug6ah$jkT)>?<NR
zs*huh$A(`jV@^=bM)uYtqxZc1L)Eb(i>E+f*bm*XqL6$gb=*>SO;(k|S{fxJDCl)F
zwwRi$_j}9x_4b6aMBB6gj;6&@V%rZ<lXsfE-hx&9Z53dK?Vd*Niwu&%3*qMub}300
zZtW-8Js91eunRoQ&<VC(`2gASo&e5=zp3d-A?D!#EGscVsGH+t5~^~a<@UW{RZ2-y
z`_p&D&f<}oTu|i*JM2r8oo$JL?%w{&gae309afHM35<XaotR;{a59zL*l61oPoLu-
zFVA@}i$tIMUMrSo5vEHOXj^GqxnpO@9+x^UOChzYixOiHo*7kYUlJ%)3f`sVfBm*B
zkCv7;d3JiT)E%x;tMkom*3-tJib@3YBTLmA(uCR+o4U}SdtI@xb1b2$(FiEPyX{Kx
zHgC~8$1}OzFEQ-N3s?Tu+|gGzXA|iO%nzfQX-DfF#?8DCj3{4gi+y1#`~D{x7>$wF
zXC{qpI2bz9n`3Kk=q{Mt7)s_Oi|pYjaEU3R02HI|>|m=Gm`R(tb4_waxN^q)x7|r6
zQwz|_`v(n}9&=xYx|w*3sx4wsH!{?UjkD~q9qOgjM2^}Uvb6E<>!AT>7{A9V27l3a
zo1~m<d;pdhN${%UaPgh=pYOjex!?BCnE2(v%Tv)i)4e=(#eI&hYENl#8nVN@Zvd%U
zOr>3e#gS=nn$wn%S>Zv24Dzz4O@fKL)pTze%-&rX!fP~pOgcT8OIK3XS5P~$_5Dta
z^h(rfqT<X6%iKn`9d44|q!K7I$$LXdyxsvt7J@YHH%|;<J)&Ag@mMtH<fZ8yqQ<bd
zv=2r-#E&O$o@6>*wyPZUnp5ZR+p9K02w?C(yycHNXa$Nnp+_gg`|oVxrEq9s+>={-
zUs9x+yZMU;W)CEn=-!7)?HBETbLMO8fTHjsIFA;AdN3-!)eg-gR3T;jM$hac-9}ui
z!sm}{AQVZI?Bc=ck-MFn#M?Zqr>%+@(qnq%A=<Mu06}@gt~EBnJXuB|zWc#}|FmNq
zww}Uz+PK^dtJ}FT{&p|kW=Y#?LLgfbnS9wvxPYyi)^FqojjEFew~KQyJFxNCVBF=5
zKafEl_iddnr`&9m61dmhk`)c#83G%l8`3aY=5{~QA8iC!X`K7s*zcKr;i*7kVTA%&
zkI96Ef!Kahpl9Cf-YIk##c)ajx7uE47i<-1EUM7@eB!0zb;8xy(LO8LoKmu$Y>YVG
zpFhz`$zsH_(H{tGd0=bk5}(4Cv#-JClLOzchk-)_cGb&lMX16=)~+DpMP`u&*_0t|
zEDxO`++RZ%lMNKD@ndQ-Z1hJ0(_cl7`SB67rKH_{QXD%O9goP)H9$kk#WoEBC!P74
zUJ4=H$`DELDz$`|zySWpYnl@6r*7S&wNrrExSNg9f=`4vul{4qOQX*ar^apt#}+x=
zL$uFM*LytX2q7_~(-m^rutQ`w6+CZ&czgWOrb*|0c_e*}Qx|pQBZh01Fc0-AqlKkM
zD*8qajn2FQT2Be_OaLFhsri7dfpXEmzaZZ(OycCz#zwN5_XbQ8ADxNGu9Vn%j!v*!
zciE;m^$v2#9vMiWX(S2e1DSeny@ee2ANjU|nDvIw1M`LKLDRJOBEM&}1a{Vw##_E%
zLdm{~8+%3%pg4>_pB8Znb0&`r?a2&q?OwGj{p2)+|03ZaQFia~Yi5H;KHUtW(}sDs
zGO43YXpsQKQ=9jsQ$W&b{s?j0=x)7C!8H|O`@sj*pJLf5*1wp12cOp8ov!s%XjdG0
zcM=}+2!jWoHnfZF$QbMQT;wF)&LG~fFtCMXfb9XXpD{kX&0Rn;@Yo+SegZb!W^&kR
z-uwJMMRxBdLXSBj!hqv$ASn%xBK>Jl6)~>2&T$(*lFo-h>y$ELF(8OLdzs@=jwO3%
z-CD+Wzhg$m$i7?uD-n9+#NPhgMjWhgPHf<QR8&)zOFCEQwbJ=hca(`Oot<#Ij;mm0
zxDoHGYm4Ka10rLa^+#t+1V#MIaLq|g@9_z!S6;+z-TfCFs#_Xa<s&sREUDnmU^XV%
z<ZGJ!gP#Qrg^Ii%xi956?4%MOb5yp|p1AEPTwBm{$^ScKRSJ34sSO=??nv&{%2TF2
zGU0Q=jn!uNO<PVnm^knm#<N%HjBuC^eDO1;7&#+jRobhXA|%se!iU5~a&&*ZO+w)W
zUsXJiWDeA{d})AGx1=D;qKsVj7&_)GshA=%k?-*<JgCC+cTNUVNa5NXc-uHYD*CfI
z{bXKwny8OThHOle2$@>`R2oDS(QcLyE-wu_C}uvT;XPE#CDb3*^@SLF5f|S481Nti
z>+heQ(7!7XfY&g#!Ng0S;G&U`k?s#UV)B|1yRc+CST3jNy$*XH#;p;yQ)jqXoOw=0
zqs&I6c!Y#0l2!qRi}8g<$$Um9evp*h3a9O-F32W1C(>w~w5KCH%7^?bJW6id=5_u7
zs<6eXT1=koc3mSglC|OKjXiO=YI{#2c>N*oZCNrd&gRT$K}YBg@<n{*{+gikvJH&c
zkn*~9bkw4>3bCABOyW>aQ3u_2zU$yi7;&@B%g8L&Y+<-X9D|khp-$E!ub7>M_1!SG
zJr5ne<1^=I@on>7yhV`I&EV(yb9?bR4yf;sKc&%}md>pQE2>quT|k#DGS~#W(5=)K
zvDF6{UAA&ZebflUgc<R_rR{J#!q@WZTh}|h)~SxjY+86WZfHK58F7Z$L?D&(f%KrQ
z)8kanwV=%@*Ez~)R^s`l@{u3f=mrut5g%X*r85aA=lh{WrJV5q{anCUiCi+uw75$^
zjz~GVT%#7%;PJ7bmg^n&<>9+|Nkan}?<F2KM`G1r@IH_3-b2pCPHYEI@+8X0%wM|q
zX(zb%Mc18sX;_TSq$T7l#=Ob=K7ACcrK!ntN%Re+EiJdzl-t$Du7gI3oLQ;b^<i&R
z<T2SRtP&69u06euaFKPD*xJ-4r;%%T&3j9P`z}h+s`7d%b*xn<J4U5{#>j03IHuOb
zeO5++Y_-xn_&KM}b%wnBm>6AJv|Tv;4N>`s%g!@bbQIfd6~c>N900lLE5xDif}^}g
zr;D!<)L}%o8Wqy7$J1H+yj@eik}`DGDiDr6n(OJ#z737OH2HMHU|Qg5*#nRqLb`-R
zOpdoLDwD+`E5{%>bH!G%*96lP8<pXjyfGrcQfE~VPoK+>=CHWX`S@rprNnyon^@#{
zx>BP%OLx%vI1a5+3uyeeUEe12nBC56eb9fVp{u(rIjFC%Z|>2}X3&)TYRnpoMBc4D
zh8QlMv_rwsj9_7nCG=YV>W`v_DsKB;o~U)Bak&Az?+g=8{I6GP!iQ4TC-N-ro~r?I
zgep4DMzp@3|Jr_20@OV{=7Z(QHL>zaHYsz-<=s91$#;F-)~_eaGQa<pVqq0hIPP=Q
zG2?xoo6QoZvU?3ZnO>?24AfMf+$f8wMnwEUgqtrz<_hcRox&)=Hw>=9eS2}N(~+H{
z$(K{TmYFIU_-hfbNVi7f%yqYvon97_t5w^{7pRG}dbTWgqDxEYHI3wLW0rP#_lsqX
zxub~ihe!RM@ke?6LJa~9)PUwG^e+H}u#^q>!~lH7%0D~TemK+By^Ng_#%_1-F<|fF
z!IcTy#e!V+T$G`C1?^-0rO=_t=7uk8Db9~SJJaf@k~uPWb3~^tX<=6jfEYYkl+FL?
z!xP>Vw!Ch$@$|SfD)sCqpku34_VYAWD-fii`NsfBu>*WFWPXwLXuf*^b)CxwFYIfw
zl&R}-96mCU?>#J0xUEK>rcm0s8&K+~?;O~5CPvCoOSo=SAegJB-HSahM(CSo&XGps
z9T~C{=5|j;P?zM1aa!U@6B9;NwxS@TLQP|G5rsa=lnWtc*sSYJ^QRp^-eZqmdkEK`
zS%7|(b=bZ>e#iK8m1FMb`>-Be=(0dlL@aZ6M!Fqy_dK;mBK-$n)0@qyn<5|zKlzFW
zTxs}@14Dj;5$P20vlkhaG)lDg=pOLw>*3D6AL=%=mCCJr9F;cs9<J-rE#a2+Ds2LJ
zHrtro?u3^tscm=52i)%4^shLImmP{QbVmh9k#?iTXBNEn<T2Nm49Mb4RgyGb@@(Ab
z4&POh*hJn_d#ss36_;gZ5yX_&B;)A}hdR6QbtTi53+%?N#{`^uFID6nm%k1^iyJ&>
zUQKDqSZC;dB5ePbPD6=<yLDft@%|fW74X*|rt`^8+{2i0=crJBs#C^VE4`=W0y7C9
zwGUL2LCHS;8||?SJvPQh)Z>Bm5~P*4*lGhbw3p%o+@kR*xTr0Uo7_6&A`DCAmt-^C
zv`YDtZor%68tH~>((llA><)IOx%EdCfL7WMMXccLFaU#O$d*l<WG6Z*f2}v82DwaE
zBbE~n@_(?FEwiT>9`Ob8+$bKr9p3D6yX!M1X!^qBH;thes1MpHS)P&6nDJrEQwS`S
zbYCCAGMpiv@oCEVSuKls;T`@a+oukYr`95Ei+g4h<AarIA|WX>^sALMW}GG5`^6zh
z?Y^UI*=<}~m0J51)#6U8dfv$&3V->@pCv#H?h>6ne)^rTOa4JRo#`SykXSSOebhIJ
z%50$}x;4;8wDem2Wv5)6@kYR#pv>eElFa<`WPH`b<OYqeLzzn-@gzd>)VBEzV~2Ff
zagj`n3KIE?tGq(HsZ%tFH-q<S&%Szxj$u+=vnvgt=#$I5FmvACKKo25v$pK`>j?=m
z2G{Q=5XkEY-NiiYla~HyZD@ypYQSw5e#>{sXKbD&e&5ledY4JXFF&API$lTbn8>C;
z`3S2ZQCMTbA-S%n?<t@gP3sgLw&}3I$z>2?Q>>~)ORLoB+b8$gik)FE9<KVilv&_1
zDvxo<>?)agUE9u3@?)i_k>>)PWTVs$+@#nQ#wDTwA4Wwp_6ycT<H@%VB!1*ua-z&{
z=%|xDw-zRoXkJXd>zqjU^Z|3{92|ZK4ST?KmpFsow1Ay-wu)Z*K=`J5n;M8yXBlr!
zT2d6D<y^(SI$0=GPj8>`==q=)Rw2SH5w*DK&9txX6v-y1@-%l>^7*q1i=HKGn;hZ>
zv#8l&#{Nx}sH*k;Z#4I>)3Mywx!XZhSMq%AY3in<GZ_aI--DLykx`eWJy8&+y3dN$
zF}HftMFr8R@C|;g_IT+$81faJ9}v#X;+n&qQsYfr&kUjJ%f`;WJmvouv#c}x;|;=9
zw!Zsf2K%7L+Ec-W&Sfy4wh#thG=iJzZz#-YbAcyLD>yUf<j6R&%QwH&5Y1kxf58?l
zKhu$eyjkmdw`{&%BaRQYo9K??%G~j`|M*z$Y5{MgrgW=xY~rPuqIl&`s1j^YHe~1y
z*^zt4BzV^q^)1f0#;$hi8-+!Isnq)&R*-$gmQ$lIMuAt9^Ypn$B7bqJt+BpkV9sEf
z2XrW*@m{m76`HnRP4=?&Yk4xe0(XCnNYU~2qa3)Uo%e|shvx@#{*j_NHmbftY|P6#
zu{+bjx5vu!)@H6wky0__ld}hZ=XB@Pac?iH;fITYKms86o`S2ygNL#$Po|#-26|7r
zUiAEU_Y5G!|4A3Q;?1t~lptK{#-%&Y>S<pET(4@BXVa$57C#MJ$)+{acJOQU@%3Y)
zwyerbKaM<)iIpkq4=SaU@AN&$9zK3No2Vw9dcD3QeG%rKh{!hW8M(*MKiUE4C8p&b
z7}*}o9DH=QU$2-Z2MN;)XjqZ6_t|6yq`Yr#k{35XoP#b_79Q9yZHy0iCA#1bqu@WV
zwy<uk={N6RlZcUJvB|eIqKj9vVEo0&0T3l6S`E~Jy$YQ`ZE5w;rAb*JRkLAo{a};q
zwllZFI07-;`Iw!fUK*h=BcK&=TLIXJW!@m4Zd1nimL{dilczd>j&Ds*lC`@g(k05P
zF!y!4#M>12s5*{ekG|rTYIK~{mBy#H*-}iKvB<EmubM|BUiTBvzW3VhEy!<hjCPx`
zSCYD%5nuR-OR_T}fF!zAdYXkPgWg2sPzltZdh1%E!{b&a>d158jET<p`&sMH#;+7r
zvLpCJJ-dM%G+9`%de=fQ;DNO^d>+_)KR8I=N+edYDu;l{<o5{M>}(ApflEF?Y-H~F
z0Rs^#{m63d#fn-E>ZleEM(bjPb?@g5%e*wSP~Zx4Np`m$-q2TSW;J>_LBws!N>WkT
z8Qw*y!EN=i)(k@kyb~2{%NWfMZ~G?)SKreID&CoWqu%L@<|=g*OGFh9>|x65#GX0R
z&U$tF8h7%)97*GAYMQ-|rBmbyNp*Zl>BLaN!pATjxkN2sm}%Rx)eq@X!OmBJo_A~=
zuW&n@>ugww<FE&VI9chiogEexTC-j7JH_K8OE?@m!i+p5be~I=jMS|u>2$*$^^xEQ
z#lJ~+dcKq=<CHIw`;J_pPRo)gp$k}bi7!4AjT}Gp%<+la&@giDwL9<(tWC~$qB=Q<
zg=}aGeJfg~QBryo`xRz}<a~LpwLyQak+x^&Llk^BNosM8ee%X?!g3m9I~QW8g$dr)
zRK%4svy8Spmc3Y-xbQZXCnn3c38M3HD%jGn5Y!IuF4I*kAzg%vq?+K5K;B?x^E;`#
zvJ%#*wHi^kTNfC(G2==Nuu>M0lQ|0TJle#SDgwlX(6BIY*6?4+_Lx-q?4%*0#8ZTU
zmq8ZBFC$ps{;96Q0T$k83$@JzLZsgAy<o^<5&uqUMUJ^e{<EC+IPoV;DsZAzaiTRb
zc6qF;ga+BqMpXDtItncyQT;wYqx5b3!?NmBSdO7A6h3<ICeypTtep{aT}maZ&$npz
zmHUg#KBv$Q<qV1#jQmBf8my>s&OKvfva;u*8k*J=x$=A}n?1$feh5?D(IA7=F59bK
zT(nSoA0vESOr>*$uYBa-6^%s9m<Kf+61_!xiT!d~oLf_B#O-8ERBBmi+UYv-wPv=8
z{$!@}UB2#_OWl5<jjOTVJ|Egz?1e=H!gFI-5)AmY)HpiZ;og0H;OwVK!(g{}VS-P+
z85t^qQE{hGt(#O*duK06j4WcQBC8JXo6!fT20QTWODLy?ikzT8n>?$QQ_f=|PG{X>
zoim)+-@VpEy)d%r)861kU50fF;L`xpILEK(&4NX8ux?>HdHcNX&puDY$L=Q+wtg+_
zNm`C!)kSG^>sxU~=#5pNG!mC+!7MVeU+wh>t_E)D$a$4GnZMX$aT;wwYi@K0QA^Dg
zwNK5dTks%r@g?2j{&PxC+Eh2Iy=S%0f!vv|QbFouvdpN{9||4L9ynfwi58);wUyD0
z<pX=I`vx<HVKtk^wX<FilaQGrVBbyu{T(JIU5yXnO9!a_jI#M_)Y~b|jHT+fp8XBr
zJ?E>|rS)TD`>uu@l_jBq!0I_V<uK(AK8H%6psN;<yw}?1%%>BYGZ}X(ehFE@4{ua6
zhFTo`FztSdcZyL`fvaa3%Cl7Ar|<s50)WC-Xn6k*h5=*6xmD9^NUt3>CKBoNUZSC7
zA_fcnVt0EEGK4?vP_Rg{R&IZ+K*^crEbm@KS;rTC`46F7T5~d;ojW?_FXTIsLbTS<
zs>=)GpTJ>4Z#wD%xBOGpGf;FQJkC2p{yx>*E-D!|ht3xSadT4(ChPTwu8I=8pitr0
zuN87+;8}Ncw(*$eIL`O&$uR#VZcvHLr^U`Cuxb>WT%DD72EN+CN*HA#R%{dB*KD#6
z26b`Ejnc0MRB{Obv$N4?mKny_8XLl(tJ2Y4Iy@*z2F~w_9|n8E!Z2zs&zJ+FFr0UV
z{A<xS*UF-^7aMUi3*!prhSqw3FOBdjBXf_|!XtEGhpr*Md`oS^$<Dz#TG^qQF2O9b
zx|Y4+4qT*@BWB}$2qB9Nf%P(8+`g2(v7%hBuT@xzl9Mn8Q}>pjf!!K|xFsI{!3~`w
zzGV?WzL)aS#Q}SeXXA2rI!s(}meFIyak@9gKw&Tgb&A!P_J*fu?(7i9tllYUveM)0
zt5WIBqpc0n*0F!LYIak?>wlVU0LWAlL9G$dFkjU}vYYcXkJFp~52uY3s~VsVsCyWp
z@<CW+HABfE%w^Rd5+zadk{SFTOG#~mAW4!sdDK}#%?eZ>@6r7sUP#yYN0F2{zsITl
z2J@SH2q?KL-v08#i^X)|*8h@vlo0Ws#++Ot)~{!*TMtxi2^}XGo{ztP8fke2q=^BW
z3xTs#PLWa*1{i_HOq8RGG6_|EcH;+uzk5hH0ZoQRMfq=PctGF~06h5dvbxiqD=P*>
zKqdUSv$J!H0_<pPR!#rEJMl}s`+Xr9-+Vhmywsz>XkwC_hV9&W*>r+49uWWkD-0M=
z5CeoJ*KPu;|64;G*lz~<`gY5`Ws^$+Y%K0tZ#J+u`KGnU@#7%edvi_?>fcodE6N0Y
zg0kxS%0Ki8c;Ih2r8J#B0LrR+;FhyuTdHwWOdwyyx)^Bf6X?a?b#qr%MEychE>7dO
z27=x)o=qJ1lW|2&Fh?|=90kzd8elnlAaz&|Jy{k5YLi>jM_b^R=rTy`Ml+nIxI@H3
z<*41Wwts09D1N6_ZZUzgIc~4^6giX&A-u*}Rh~~03U`9GD_1lb%lf>A=iXqyr9Oo3
zPukFU19fcMj*zkm+9KuZR*Koqxzq1=Aj=4$=`PCF4WRZ_zReX@B}*~W8$d>9W_h~I
zcfttrnsV64ze8T_XdbtNc3$qU+BwBj9JK_=WB00ngl+?h;;o&^)?RO}o3ZP?OlO@o
zi+|`gTyk*uU}SuJdVkv9G;P*a7VHDUnt1M!LAIA6#ej)-ETuA6>IoC+b^b{NA7soJ
zWD)!MrbG|<2_|*&!Apt-(%*F^mnhW&Sr76AKdiJK$Bwa%&CmP)1;|c+icX2w<e^k*
zOoWe%yssKv0bLrPd{Cu~7dy~|Y@Nv49hC^xEy7&mB@VtSx$W2;;1-$y<HbHu)^_{q
zXtL9vX_9uN8&$Om?8}?V23)R`5)BNG#CR-Ktj_6GO_xqjB6u67bPQan#U@2UjGaQ0
zEmOS*0po-%pD^3VgWk(~<i)@a-p0F-(jO@Be>>{WLDi?FVe`G0tHPvG?Y3YCe(o;N
z`DCLoDQq#~^n0snqj~4VISL6=_qpSA-$fgfeU)->1M|)+U}Yf1YJAcjlDH8GHn#Eh
zbz~df%awZA%9Ismuob_Iau?l*UbM@C7h3`|gO(f9e;x#2JPk1Wv6N0%9`znOTOPXB
z{W$&VC4BpDUc?#f)1Gs<|I?{NFfJXdO1=?YMMe_&F|w8~uU)f~pqalL2rm_LFo%mD
znbkgqfI(sg_TMV!u*21FA~yE1c6K9O^R;0i!Wti<Gt;7}M5-6+ksA*+$G6c2VEbzZ
zZX+Zp;C%Jv`W3dEsVV*GS&^J-BNP|rscb}-Uk<;^$_wx(lWw19dX{7~_xB2w!EON@
z@Vu0&*BM-$Y*i>P;`pA%MYpuQ@l<}tCcDaQ+*~&`h6FjDtX>2mDcCa<K^Eh_@=gcH
z+E$0yYv|cSk0q1%9WADv4;ZSB4*!tFgp$0D{_7Og=qP_`$T#+ENz;jdQ(4<60{hVb
z>b~z$|CfL3Z#$PfB90<p9KAA5dc-_HMg$ZgD|G?7Mcs02?7A1!Kv#e1cFbDxFne}m
zqv&Z(JDGOg$oGKS5Vqs4P>tuTVHdHrH8t(3HV3{?4x5Jg<J8^IqE_<BPO&yd(5_Wf
zR&i}@M;w<rNH<h2B&iDf0nINYl(fl{?cpgvk8tYW&SpLXmpI)LbUp5N`$%UN_6Ms#
zg9H#$X0_2%TW9#411vUwGZ_gGq!m-KaGMrhq;je`u(uX`Wne~$3H+dQ>90o1sXM$=
zmOc>lCnHl48`q;e%gpp#iNpBMH(;O0Tw0f65|`>VvLlC}o1%$Q3jIaj|4I~c06~gb
z%W4wocpYN<QVt4unrABQ`wP1Fx6lqdluDu=d!wxJJ((Yi&MT8{RIsI12(T)@j)NC&
zrc&Lf-rU)=qOc58*IR~ortD99>x#WOojrD(!p`jQVH@%*i7|iRU95;k=6mD?8$g)}
zEa(K|)*m0u8p0{y048mhg<zMVB#>Vj&dkwxnEW6rC$^{|ZYY0WP2*k*)B|Q^UVMvJ
zcUuP5&6F|#Z^ztZ#xBrpTw7~!&_rs0x9N}*JQEI-#N)Hbt=yA2dp&yO#1jC0^p{e|
zw%bv!oGxw)A&FB1ue^vG2PTF|3KeWjiVHphFc6tn>2(zdc<nx=YaSAAwmaS%s}$P=
zeaS7Z$~6I&o@KE800y8?4)Wbm&YcRNdn}8$c<5-t{|%vIU~elWc5K+J7oh>{{Oxy=
z@>YS3JyYC`8SqF6d@0z-JIb#7WD4~3%NuT`|0cFGBmnDl*`)_|3Bs2MoHj#e+31Da
zdjsrc5}e2nZcGp}U47^4vUh$@_VHT+Mi2N@p!dv`m7I&L0rFH~@IUBfvjcHUW6f?)
zgiEi)eoG+JG$9|CyB%}2q56%wRcAZt_EfRZ#=B-C)4bDlA{!@4h4&Z8K5gwI3})4Q
zO($S(Vqz2N%x7$DtY@+9=h&$!b5^%yT(rdv<P^z5V~PM(9Me}m&}GDLVoV&b-+XIk
z!{c6G;{P8q<FTmg)f<7b=`%zZF5B|U(H2~L#Q`uEn@1KGEMgv7tqgPx#xB1Zs!&3|
z8EUXnxoZbk-P;>9)WS~JFajJ2qd}uTn2j!v0TwBJ1|uUR4Gpopg1&K?0uUrlu>4Jx
z$k!pH08zdK<DYVb%BXzW?}op8owG5)E?y6>tv*hYg0cBH9K!xh9^Nv1AqSvh?2_a<
zH78dWV81=-FVXGR6%uFB0<nT+R`u@VNP-M<<s85WWEcD8=_33(U__wF;qJ>6iW1bT
zvv*Jdzg@=bjGv+$z%v8Hm-T;&FGB&HC-a5h<*x)4<Urm<f{@y04ff4L=D$RbaH9ZM
zX@VRu1m}VE)em!6q_c;IA{WJf?^xUtzkb*?J1&Wt+IMhx!ucuTLD}6a68}*CCIOGO
zJ`SOj{2LnWZ*#gIa6b(?yvy9C{ny7wI+I_`o%tyFf<PxZx1KS6c8<bB%4yH+VEWwc
z6t7l_yFCLNgzU*}$?$g~S<l6hdi${6%M4nSmjE6eW%0}3b=iI@*Ioc#-8+j!Bvfqa
z+e>J)bxBT5$)Vr+?}@22HD!KL$&57Jq)5tH_&pc}n(~at<3$E$;Ouh}pwRHX<Mh%+
z0xcpiooqsW{n6z58I`<b{cW<dNapX2Z^p*Q=Uq4{l%0Mj`mqtMp}9~l5B${|ng?{g
z$4xCw6z~MOcAg<X0tpxv4W=&gUkQgAlU6-I7nUH72VDQ05>3Vi(^r#(z@~eC$lvAL
zx76N#DQ7-cQmeC>hRGvjX-_`WCZH^w#<%BKW8b`a5WXjQo8XWJmiGi)_D`~GBmsI5
z#RqiM{OVza$0)w%kE=EJg08#&=KBqoNw3K0zd&aDY*I5-*#UN(>Mq)Dq~FqcrSyx}
z();)FkAXCav7DxbcFCvmcS`x0{TEj2XIjxnTN1=AHJ!8Phy^F|c4%S*R3H2X2zV=P
zawmNy*Y6xHr-7|dSz&{ez^B7(lg_DVJu(RqJ@{XK1biis+=o$~`RT?c7};ZI85dkG
z$+TZRYr&cx6iG~BU433Tq&NBD<Ztdj0^?lmgXZUD!@`$lDs0OuZ*Iq0iG>1czSc>4
zkwmEBPs8}H-Hyt0BgC^BO!t~nuL%-{ZRq^o+0o_Y>jvfJBE^-zi|?fY@B4=+dX+ub
z8tP_~Wf!N9RVC<6h=T>eq46686<AUo0T@)a&Sc=VH4d-dZRFu85d>$1cnncI`h(Yp
z6FJj2pUu3-$v7W9e*<8XAr7vpp&TgC>tQ5Bj98_^FY-kHP@aIMAoBhPMm}l-@ZZjp
zb^$a7m%8C@Iz6EdA0?Zlng(R1Tpz7d>K}7B=#g~Rw3Wvy4ySLEUnV3c;%eFRMAQ`}
z*Kqy!Ecn&{Ar92Ye!W1V74X)}Q*dM)`;C}C-76;JS?O=VL0jPqd^KAgX?^L*OKwN+
z35qm)>S2Q`KnatUa>9j6DYE^vR<FntD9eP(x;LP|*VI0_y_oBLd+6fYZ<hixX$z8<
zcT(be^M45Q`Wy7h6j3TI5n~^z{uUQkDhZq(0=0Ommw*dGQhZ$a<6U1P3hrBdJWXjQ
zU(Mj!u#x|ih#BMW!)!A0@NbHLcr~#05#5#zkUgRR9L>ilJtwx`?*br4`~9JOzp|o!
z_8IqZ)?tJ2A1wsLCzph`X~PP4)`o{;Q)|0ZYk#~Yb~^+4_%kR1H|@7s18Cn}vEyVn
zcjbT}yw{%hB;mIpd@Ee#7TxOOqN^o})ts&lMOT~VKhL&rn*AD=(y73sMxP}4mmDVp
zTr1GY+XjjMqN-ovZNS7)?YdOsdXG4w>aXfEnKUcs|Ha@-m=Y+)qpJ7q1+T0q<PBf7
z+z`MK|L5xjR+h&>Un0MS*sC_Jy}FZvyQa4JM_S|?PSE?e1U`v4V)Pp*O0TKuyUuI9
zFEp?Ki~84xOqdu<NJhp-^?iL)$X>7er6pioJRNkGFhi(F+hV1adD^)iJ-}`Sj9iKb
zPaa;QB&P6C1F!jh`jtM26Q-z2cEB7lkP@M?_M@S`fdy?_C_3?nNnn)nhH!d|NV;`N
zX>F~+Ce$cfbHq9tB8VP5l<^}G|DGY36CO^`J(EmbX(BHs{^g)xetm8~<Jvy3520dv
zs3S)hd)2S+ljm_><+1+_xp?cziy!GvY~Bp2#;5=g+L|E$+P`9dsL?V1X(8YJK<Ia?
zCQ?fXu8S^#!$Bl@#@H1Os{eX~w9vI1;^i&0w47o~#*n9Z_Aq(g-&|NgZ+T3_d9+Mn
zL81k4rEkA@3gz@YocZmr1nGBQ-ud?lj*wO9qLzIMpKH*l9Lq5!^nQRrGXibwB}8x4
zG4B1<S5jp{<Rt$64y_0y!7xi8`u^PaSOzGvgb(u&fJVJ-^Tjd-2wzY0M0OGjKXKNP
z{w~{hIh%;E`tjvSQNea<#_s#Z@)|;uUP|nZ*vluod&Q4fe1w(ipED<9_|A`=JM+`%
ze5Lx#(ZEG-U;qP6dI12#4v4G#kq}AWx;-#7^oplMX$G%?tI_wnYZ-e)+U$R<ku;N&
zc@k^i{Sz|Q(*4)|8E>G5bKG@wW=p<_NvBrw?oh$mX7{ejgKPOOv#&Xe?46)gFa9=G
z8q=iB%~Qx|2cAce)`hqfc4>D}{q7mLvO+*>Fi@IF5s4~Dr*PBoT5m4t(f>v?|I6=0
zIlY8OQc@{lOWP=RFYXi4lz~y@LZxrQPt`oI#{cJ}j{!0_z&^tE3b2h4Kp%rICG*yz
zI5vN`?wFr#4J2DTOwSR1_cSl(Z3oBiF(m&lf?MjZnE&lzqq_*4D|AWsva>)rBjsCp
zs;v*=w<vBCgbLgB20#~<W|Z0Z2q0gg;f&v1dRD0szmGLSMwHHXb)c;f*PA_4_xc>#
z@3Q#MX?KArJW!Zy7qF%<{`&3uIgDDP_;(k@N;9%Qnh8keaI|M!l}Akk1DJQUEp7@>
zwwxii=9K-@wbL^VWMo5IS2ac{fz;@K+jfB11O3jdM)Y4m0^la$z#E|cpfvV-Q~XRG
z$pE$m$NiUvE6ucBRg8N!fxnW41=+_y@^lV!#X8UsuQc&f9x6W&(7y^80O^HbzsL2T
z=nj*+z>f{eyY6snkbLZ#$M=Y~GZY?oNnY?>6&?t?OYZRn&}ex_eDMRdy&36%?Es^E
z<;+<oUwqIkXxw*yK9I?>>;&LRJeij4vFqLB-ic#6#d9B_+fUbBO2M!n8e&K=XmoW)
z_#ZP8K&O5YWHVz@{^F6ILnd%EjlRA?Z=z+!H%|2vnenxfX~L%7W|OLBNZp&k+XjCV
zG<GRfOSAPkD;Qms{D}!^7DajBgsk@G5#nE;Sv4jA%J_^d?Fv8vFKZI*RgqYvPr_n~
zV3&cVcP4}Hx`G=}TDBeOqNL^<Cw*vKS%>hf8y@%EDXFvT_!cMT%gFZ6#^8X+S>Su#
zNgNK`$!)BwS{)sKHTj9g64xAO0&15${N74lMX+vro~OSms&|x{dQuD+irnLM3y6IV
z=jHdml0KYb;3baO^u|4e<7{Bt9Z6$jv533}o{9YlV(z74r96<uVO7-hLc6*rm-@-N
ze-9qnotJk1*p;<lX9(bOXzxmF1m)#Ug97Oj5;vqyJZn+_Lv_IsuI&la_L5>@&Q-K}
z{51kukU&stV=T1JmQ4ToSqZ?so!`5y*~&)bb>7c?&KDkf+5#ttx$BtH@C-#IB{ky+
zpI%^#s*vE9mpEy2F?f|=TDxtTOPFo=oQu%Z_+n=*=u)!IqOS2EuriJ%qrdlMGi5)V
zz@r#*MLVPVtK=EMJ%B<xprjn{w2$GcS_iILUQ##HH0#T?uvWpA=9Xe&ZQELao?5Yx
z$C^(iKl0kd-aIjkVUhC1blZYI1N$t~FQ6RzA8c;vSz;15z0A2e&0RLLwb>4xR)qh}
z;My<dlj}~|4u3Y1z`yHb5d0>W|7}Ml=FPGqSLq6Z;;WaBh-JT_K}X6%pTh@ZfGEfq
zgw)>pq&Ekppi<m1JaN+Tebrh}5O|qRa3r_1xm19kKYNo8)loMG>YM|go=duC+B8}Z
zu6hOCoKlRPINau<X?g}groonah!{seIC)YZm)vUC?r3iJEq-t;1<Cik>#DmrcBJa0
zt6+1saKxomx$a2Tp?+1+z<Ez0Cw1%~YzJEBN|!*w29~!rG6x9Rfp^}Dr&9pysz<j7
zYmXNc?*!GP%qTcbDc*=8`9C=jG9hbe(e1#zseu;R^>1mX17e|C>79(=DbP`%)HK28
zK74+s#OhI$UE_AZe(x~Y%!%lDAz5mIr*0N`0RAx_SW5XiIAu>tsuqlRQ`MIsG0rP|
zsw=qBBEL@4jDs?GeTVJWw31i%mNs>W6#_!A-Zlxi&nmUpLK2&YWsDoQe$zz%X<tI^
zTATLzf>K#|2yeq}@1`D2#Fd0_z}WPK{HVhbX8ZmE1?C{V5|3v?R3T&OQg{{>xjt73
zA$+FYrd`>@0Q-59Iad<%zq^@FS#EVkxeGTSA4COW&6l2X3Xm~~w#D|j+}5jq6VaFY
zuye`9TEBk4*gZv!>ipfjkq_D(kk{$$bMx8kxp{`fk=-^WrcU_$hr!9}cb<Iu!JuL6
zGT4tUfrKJTKU#?dj4;1izr=ND!_jCxsh(xKyJ7*20+0~K<uN++ma-|WilJGPRVa_V
z(O|C7y-w=JIBcoyod62=LByS7=5xg4KP*OqZzmY{E(v%H+%oV)#t`^3`|DNkBXi68
zk7?R7607>8u4TN6))91~D%>*Iq{Qou{Stgf-d^z8_o4@%+_C(CNrShnc{@PNJpxjO
z-0-Dgsa>WmO6nOfhzjU{oOBqhe{7|w1RFYjX4v^$*61CS{Qe(03T(wI?y|yG6ivNp
z6tKU-XkdX?6m(kpQC{T0GisbJ^<)_CZO^D^ONYLHql*+5Nk#lC7AF9)_^u;h7{7RS
zB7}%MkLhw*+}*FVL|&i1+-%0DxOdrB4r<W}6dsp*nTW0Tx-Fg_x4KPkpH4z3q?HOW
zZ@yb{aj&0++*ZDF{Yu+eGr5Y8;9xVp{EO=5>(HaHC(0wQM{X#65|~ipuXumyxpV}%
zj<lDyUk;zG=aCemVQU66=W8$rbLw??ftYD<T^2%Mm*+&B`#qoI_BitL=o}gg4BP3b
zRroyTBUZsMe8Dc<0jw#yQ;f(>OM9cy=wMIgYA+ddl}&R2mVa3kTm7(iKgD%_YxsC;
zT69uP2-l3c7?^(phog~9fbILA_OSWI=EA{PIu4Z=kNt<CJJfI~Y>UtkjpWWCRg9u5
zPNnpFa8LOuJ`AiZ^$mSEKrEFmIbzsZ2iw+ORZ2U4?lp`yHdYBRbm_L}L)AZe``4MX
zL?kXW9~Hx2BdJOf%osIig!WAiblvCZVx9>hw<rwkYP3CXaaz=V<MG>!G+>oKuTpIv
zjLatqzTSPbUgchJL*I3}&_$Wi(rMgiE8MOAcw@(TJVr-zo7M3&reVmc3>u4yeGG}d
zlzd~$3XQ+H2l=WjgfNs8(!VhqZeU!}TZZ5RzpBoa<kK~l>&*$uwZKBUOipm)F8v~?
zoT3waoME?skZ!mDr(EV&4$i2}WUh_{=&4740}{GFWdp~!d9PP^I|gqA>3kR4sFp3T
zwJ|xJ*nEBFI{Hl>^njCEdGNd`_bIdc0S)8PtH2}&SdO^EOQWJ*SkRcK^H$jA?t-^2
zJ|uQ=yNuT%zX%$oB3WW6zFV9p!C@D{)erJrTeWcIZCZ)k<vYb~tqul?^F!Ax_?}5g
zZD%iAgH8jb6ioW5waPq^QrWE(-Y%s+IK7<;SkwJ;z9VrRn%g4xu}vNA72<90F~E5(
zff!SIS_TUGpC2biwbhZQ=TEM#T=dJo5nQU4**-Y2`ejD$+l=AsEEdgYTsnp(jk6)s
z#E4VaeI?@0I(JjN=gzNw8APQdA<)@|3VU^MkeB35XX8cyz|*Uc?#<vK?Wuf}rl}&4
zrR5{B)n29o2XEW-Y<O(s#2Fi>?tcuFVCRXKYIa$qp;mJhl?qd$Hp0%br0oWAWia8s
z>(u!U3cPscn7KF!_qMWfr0yMLNDuniNv=!?`{ln(Tz6^lr-`|r(ciOp_?R?x#ac*z
zt4)r@amF~p;H;c(y}BQj(Gjm<dHJ_2n??`uTn4v#UjTF=Vpq}rHFWgjb(KL*&JKlO
z#gh1i{SA9}2=Kq<blnHfZ|!@Ea8_nswF;cs+x*-xs#7fcY&$t9cZGbb)P1(BnzxZt
z*FME_Y%(X3E0rmY0nNaZU>3ah@ly8GRjZJh+Z>V)YeiJvwz(;fuzUwtP==hPnbcZ_
z6W6w`Z84Oj*3NmMXHpQQ$cJ9X@VaL2XThb1UzhCNCxv_uj-)t?=#B1o`pdyR*5-41
zmk*7f=jC^KVdle>De4i>;rC1)YF;xLfg^!9XU3R#^)NlIhdeu1D0<%e40NF|89wYx
zJ%PZN8)qNB5g&jW-x<NP+(Vx|{ef>*pzs_x9;TFs2_Fwbq{1b4wke{EY|z1dN#pr<
zLZcqJPO+Md(hc`vFD=ApYHL25wyml+bfk}YE+xD?;k3Y9YWSH~+q#aEcpV&vnW+G0
zPB)##8L+fdoeSy=N)n#Ds%gkzlt(>or0bAtgo$ZoJI0O77{SRJNR#a_F+*|uOhxF!
z)4AO>pP2oA<l1t*qHu@yJ<40sgpnUb^O5(!Odk=ivhDFHkgD_GH4l~1;*<8?wb8mZ
zS)^HHLxb6?X}j9)*+M&A{ljSD4!qUr$>52a9agi``qP-&U<x8r&LFmQGZV8oWtc!+
z5^C1Cj^R?YP}edWwfCAvIIM51kn`y)^XLJG7R0zaZj#??+?n=7rSxcK$rSjw%>^8;
zV|Unu`bTCOKKImkW+AGUKlP87GIVbx3{B14w$9DX=eG`>-}UdvW5mu_+WuI~!u;5M
z2<L@|0A1;lMD9xJea@v!q-M(X+RvTTVKurP0`@}225AVIo%~xokctXENSSl8-HwNQ
zQhi+5p_*iLSP&6m&j%Er?;;H9p}@2r;s->%B^<lANzR;oc&l7I?Mh=SuUO0`%4{Yp
z%omeS23j-PpUx9UMWr2Uh~9C}IEYa7spakr3Vuz!mrgvx$8emrI3%%E0S>MpCkLG7
zJx(rJ*Vr67R05?=28J%JCEDmj_hi6*Pl{H(rSOicp{)83eD_IBlsiv$KkO!C!6J!o
zH|Jw9ffCvG1xG@Rw>x%A4?yf?M_?hs>+6kDQQq0Pm{A2fI@*O%_%<2t&G<yp5s_R0
zUgMV!XVuk*Pxv?~%{-F~)u~Q-Ax(p~Ju`*klOWk4!3ncYHYqk`M(X+)?j8gwFv}QD
zGS{&N+b`*q=o{$^%AMELdfYY<N|$Ihlk2fjX=qA4iz)3ZiM4k39HcfWMy>gne7Z@k
zX>OQr*W1pvlO<?*ZaA&K`Ib?5v-9Jktd&a+%Eo0=ksO@e%Y7+vTqE|nu<_y^YAtn7
zEv~N2p`22sPeQIr#-XKqg0F%%55KP9@z}x4HN52OjN>X3e4!REBluh0(BSC-(gi<=
z;N}?w$3l$e4ph8jw(Og~(Ofk0-f&$_LY#o2m^(H^S>4Bdx-H`JNS%PfQ0TGMP6eou
z(p)oU)}VCe+ff6z(6S?>BDt<>QThEn^zQfJ)t0<rSsxd#k6|hl+k>mjlA;oA@_B)W
zE4x>iQW)P;GI6Fj877f@%az`!%`I&;XWaWSBQe{uDuxgfO*t&m1lsXp-i;BQ#Fmdz
zqi|T*ZsGW;xu}SH*g>LhQ@%^mRlY`5#_<AQP}#WyzTS=Z@^NBMPTMBbwkI8q^A56U
znlYbOV`pl<Jxs-X(D2(!b#KbKymZ_@bBRmR@)T01uebrOJ05CoK2721$O?{CcJSC!
zN_3z@A8z8O5cqwH)$@FwcDS~@P{lw-OnEg5Gn)i=eE)Yq_V9a<IvmN;aK4ueDW|?&
zJ!iEGd2IORDz!k|(wNNlu{mHxi_YwAG)eQZz6rNV!l&MEKa%(Fy=j>olbJJ!%VluZ
z^}U}uWR;hepdzvHshU&w(&+sx!1#K@nS(QJ?I7jQ_)3iMc7hOM<aGfQc3=YQWaQ}h
zAj(oVBZ7?{Rvh>BUY|Q8uRviWoZ2VskSA5(o#|@1Qhac5asIOqxcEVnR1ELA#bfsw
z(?A!bwr)-cre1qCw-K~g@jSFAo@MfO<8%>E_4rOrG0a5~bs+q`w7~`mu^;h%(mr^H
zY5O|{$^+bjLzq{a?9iZ;q-5B1jVca;l6(loGM%zWtR{eUIcd>JlE@#OF{Ov8M@?}#
zy3N}gR;M#5^EeoIY<zD@95fNjROgD^nQ?kDKS-jzoi6_PE;~g}>uY*pNp=cM%SxSo
zr+jDUVAFH*E1EYboX3idlZxQahys*u;Z{wWvIi|@Tx_v>Lj68*cO7N24bVB=wkC$N
z^lYCq#gZz3@grAMu)nI?EXh;%5vT68u*ejZ**>Ojf_qZHfArN-Dsi(O&5)=HWe(de
zciqI4xx6248YcttE@1q=cyM+wn4L3Ka0EIRFej!@=_)2D&y`UTbN?DtS6t|1ROiVx
z3BFB4G-~W1Xp8lJjr%!WrjYAu6{+Uqu9{=bFx?|Oo|N|+%`kU&iGM8@PfJ$iChVYL
z{E3}85G{r_Uc1KTI3Z`69E+&UedOHz2lYXsd3JFwps?gZI1sFhdg4tr_ds)jzxotm
zV({y}nD3I9oTR(g@a2|{Xx}n#(513E=+1GUBaxX==BU<X9lP5<ClDf%-K;Oc)Z@sp
zrMTEJ{Xs8uC}cK6OL}jyc6Ufr)gWh>8pr@whjf$zDhC~XEeu%nOK;d2Pp)rse~|}f
zO&01lCLj{8*RRNcqM4BLSVyfd+ol?w#4##;SC=~O5$+=u%3%KN@%a&zhN2XE-Dj%s
zJTKi}Z3o;bh%&xZF;D4<foKeG)RX&9Ff&eE4?I2+BOiI@p9M~xyTvpz1jt{~#n~w|
zO&F(?4YoF~0~s$X^A&UHws>OBWL7^E%dbF6m=CXiWU57W+CeoW;5?R8jGyDLQuN3^
zeg}O2rw+eGLIU@xcFD=d#fQEx1o_u}|Lyb~P0BsX38HEj+FA*F?~8<pOlU~2M=u)n
zMQ;ul(CnAG{{45r>kc3CA^G>G{rpXO+4;2r(i#@o$s6WQH=?pGJRv7Be^9NDV`rkg
zf=xSQ&$t4Pra-oCSLx9Mv)16Y=}uVK&fI=&-KnNQfm75MHIibzDpsBuv-xT}v|Z8I
zvuST{^MBgs%-Lhka^!W=T#L~%$b4=!P_98zIeqH8A{Emo^6?xJC?yhhwSRu`OMsut
zp&Pcsj%_Lb`y9Wfn9C$>6w{(l0zErkqodM@DYge_7nMEL7^8u9CS1X96@IS6r3d+q
z-{)+H3oXpoKIGpkyfXO`uTs@aQGAB5()igveyddMF_2;GnYpC@IvwF(zkQVcq(JGL
zKT^TL{daoxwE2IeS3t&0A^`sP@`Nj<tDZM&3OI}#D^a?0|HSp%->KOxCQ(LVMx5mL
zqqke<9-jD0A9zK0Jd<U+H#>_q+KZ!>wX}Z!-*s%CzQ|*UwO`?g^1@g4mMQkeA`e2j
zgm!|?JCiR+i~QG4XFOlHVcsg{DI8~SXM$+rHx={H4u+FkkH^yfeVQ-Pq&J4GdK93{
z|2=f-RUk7|-5}?Z{k7=&yQ@T9kN1;Y`+PIzAoM;nEi>nw6F1O(ncuzOCvSU?UpY({
z?;`#zes2k@mZN!x`cUbQZ}#PU@r=#<`OQ`?8e?;vZ-?>J9pQAJA;NASrMBa|w>cee
z0q+R=Vr9oqG4JUI)_-2W&zo8?@H;d$0L?5HDbnqTT>B=`&qk~SyV?wSf4H)#0X_Vo
z4q6IJr0D2J5|X8Grj8|l`m29l;?_Xi*^*e5tRg1eiH<&TK27I_iU|-)ZD-YAX@ee=
zOex4m*wvpC?LyZ7oP{s&Nh-3eue?h5I~V<@Z@{hrV{q@%VkO3oM~~a`4CBI`OES~X
zxq3(m-7ZA&SGQv(kAm^l=yTeY%6AtbmGR7fhoiq6)t7z1dUeElUduo<0mU$7+ubHF
zP6!JBb@yB$ihMwc^5^rcm=KzzOiKuU!;UA(<Hr?>60W)!LNHNd{5eeGPsHz8_N~=q
zrLZr*eMouZs$UG3Zf?6$ZE9@^^rRzZcz<p#{@-38-F(Rw@^Y}c7{?N45);c~FqQ8?
zd;FpPT}|@yN<$(-m@?(Rxs>oTJoU&@{}gzp#|9LLN!BLS&du`t@xE>iu$|p*t;N?1
zyizs~tEq9}bbo%GiIN0ZdEBQZ#^eCO=|*e*-Ny(DAE_G>yw6<4^IbSIPyTL^U(E~L
zQJZ$pHv9%z$LlM^J$^uC;OD_JgfCS|#4crV$I7j2>E6)!X;kgM5AtIFd~T69wD$>Q
z+{WItdgb}}SX7e*<3fg>xFRVrqj=$4JiAm6aScDe{s+u=_47-e3MhG=6zeMq*ZvEA
z(m?tBQrl=TGI&fB&i090$jzcN2IeDb(6;@Zvi&hEobL`f=B~*rBA~U|a~^qyQwZ`g
z<-5@GJbgt(Vw?Qsv(RjlqbmIu%aUFbm_5{Pl+|vstE<svnicjcO7ct8zav=@jCcKX
zb%*{6w#Sg1zRl0+_h*bHegF;n%TMp>;gD`~6tK3}>r)L=3|95QajjCIk`Ya1y7u@@
z3RF(r$uO~)7iU6{D`cUkIoqZbT8ftU-QPKlTG)=y)L0=k!8Y$^nX9hgX8NEzaBzbt
zbZ>)cBD+om)kHef4Ehn3w3}!Q!XygV2yqFH*YSCKLQ3d<MT3FqvyKARozw+;igwPt
zl#L70^uNdA_zH0~PO+?S2_#qI8T`B%J;tf1RfT4Kl=S=-LAYMSAPlN{D<u}*f2jne
zc`)t1wOcC$<>u_NbO~0>26iv9(3YtOc_BkRF?F$>nO|2kL-<rFd<TvjCEW!#lf{Og
z4>v^!A)J(O6JTG*p|nbvugI#<p3JY#_G0DyLZIET<Fuok1GKpoUokUzHkde!{#+kd
zdi#41!kTw6XX{!7F=pvV>xmj8s}bXJ96KfuXwz#G4hZOw(E&sg*C7NBPsOy!4!eWi
z7<!HNhCTx}%9Slo_mg*z0l171l6Pa%@r%)r=FZ}M=y94<^4v*mT%PC7a*k9A*b&zr
zl$YInl#~}b9bgW^hqx>#<RR%r*cdS7#M#6QK4}_{c93OYAz&}W-zv%OdY+{?($Q)Q
z>ZaN(zPjtO%@UV)<AX@!fcMkVde1i5EyQ*z7>Y~WtvSVlyxNscYQ;~1Hc^T*cC%>Q
z#L*3Frn$TpT`WfAIrl?vZB!j#DkZ^Kw7{wXLXwqd)_%H)2mH)^#x8DGNM4+SN3YUV
zzsA}X*CPZ=I`QZ~zv|XotE4K4AGCraAu&2i2z+za@K=A*VQuh<O@XxN@i#<{=j37|
z+Wy)9W9v%5p=`hRmy&i$B87I@sq74elr<4$FUc0N?<V<*Y|~=PHbqSKWZ#C0nX;R)
zGsr%+X^d@*<^Q}2_5J==*LRuASMTyX=bY!9`@YYaM&A);skT%>?@=0d#J1#o`S6@j
zO}5dEY2S7)xyb39HD7Zhw{F|ffx@p-_ToP*;6G0z)f;^=%(yV=he&ix;l;LzmyB{n
zd6SZJvwh*+bCi3=KCA*=7i51pAkNc7rsan7`rdOLr{MEkr@EXMN~eywMGzwmbRo!a
z4fmAQC}#e9M9^s)W!%?XvawgM$kSULS5@DxOqc0N4G=Z2QAQing#;*k*-JKAZ<k$z
zj_8&4-bFbNIU!#a5FT8omXTI|7JV{eAS`eae||kcbT{Hx<X;ia)}Bn??!>Q@0Z<KD
z%qio<Q_ks`M<P}VK<a@X<e~*SN3G0jkk*<|wO$odMr#SivrkUr<_itFdJv_PWeT2c
zcutdfQU!e0iI}SCtJY;h<xt(1UEj?<Q6fTf?5QdJUGbdwxXrH%$D{G0YN|L%@00$>
zN$7lgD}ssNfMCvZMal?o?~59YHajJ68c84KzBGtGYO!|GXK_$D*{hFYXVoa{$``?e
zTqR|rupCPt4Zl0xPmQDYG9rYGx{XQ)mL9OW@!6LP7`@@Mz-VyCdq0qxwy01M^6tHe
zcS`VZU&5?$8u12#TAZSiTo-FhV<h%6^vbR*uvXkM_WZhEJo&YzthDS34??}sqm3EA
z<~yoP#2k~x+6M(C)@Cm{QK(wQhZ<!ka~L&|v@ha#Ft0qJceaEzS<dK@!_pL~u|DEN
zI*!Zftd5Rd`43ScHG`p=V9k|<_L_-`Xg<w>izW+ctnX=kq{`WsYs=mxqV}p~BXNc&
zU84-iGc|_AEC|9%7A<^FE=q>nY$l$|k9EDeH>MpuLrqS6598sruqz{{%y#L?$SDOU
zbxrjuBFpPvRTCNEG8N8vH<g0GprYu8rFt&a>N`Gt(aKSQ0O=f>9jJi2b}FyUy~&Q8
zDjsjtixON-nEh8dIjZbuCsDlk6G~%kCD}gtrOWB+QyC34EDn73wt2XvCS{l&@5GnE
zB}0)}xi#9?rB5TvRVML~2fjsE+Iy@7<DVGj%o7YR7kk#nIP3WKjSj0|#mkmRPO90p
zxK_PvOY}Lr<+*Vi?J8Un7qx%3CTi8TlN&p7#6_#QRRA*}s<$$nO<aJ>2$j!1ZRBA|
z(9$}p{ZLyC)X{tK8q#(qym5975mq_9wN5?0L(E7ank27;oL7suiqeRKoGg#*<Yxxk
z7Bs*8G~@47&6F96fK&&A>}#T<2Sv^tsPdDzabPn`?)<)8YhDfHstNLW%O0TCyTi+n
zF#jGK&hk9+np=&)i}^+YbJw09uEojUzvAtE+tVsLn!2tkeLq<op^+C@47U3{+-o5g
zCn!ydo_5MEMfp#AnWkPVUW#EU9<JSAUl<h0U)o1LP&{LXz;%r-?-jCwwM|{k8z=^#
zREig2Fl+cnfXo;=*`;Yl)>VLo+rc8QBgh4ztI&LN;>lhife5LJ+6WUZ5#|Lh?=`Q8
zHWAj5J+Gq+8U!9D;_j7Bf!4|UdynvcV>!AP7inOp#c98mdrq&UssJ;3d;xEgFQ;Rt
ztW-PSEhIo<H6mAEYPP`6FR#XdI)2HuVo)%dZZaj-jwiD)aUk6%s4<9KnCK|LTX^;A
zRTXmsns2uiwmWK1>QV{CQ8j~G7M)XnH=j_@9UhSQ>b!nbeZ2reMfGjZlc|3VKVNc{
zS|$g)@3ybVkQtrnIVAwISuLYhPjvUuu1ksA_sPku-7)v-Hlbl<U>&{1qPOyvf?PZ&
zju{*3zsS$FDP#+_+w)aW-%Kg4$Fn;vZ>}x4#z4rp?3M^32%C9CfOjI#^z-tC`L=rT
zY&AxSu>`Bpc-L!Oi-;ai{z8plHpCIjiSDSWiAk}Ijo02WkXAoquV%7xI#PORdbGLd
zi)2<mvruszz;~6;=nr3p1)6;TH6>8R{5Z_X=$y?;U!(YzVMpT3IsGn0JzEh%qybCy
z^<}B*sqUHUYf?(>w#_U0b*1WBM{`YmC+6~Ni`P~f5O^@rJbu~@>E)caCupI=F<3Xb
z;YgBEi;EY@(}YID`ZNm|n59u#at=_G3%PkM6Q62~&I?>ir-%vFu&A1qMjZ3OXXR2o
zjv=Wn3M#CAU>ZBO3cZ0&OKYm#!ja-qw2Pz%2JD-%c!0?olIwlnq@#wF)?q?tyer1u
zsnAz^C~F((1z(iDKuuz+UYVPYYxV5UfSwASmdx7@zN4=BQ~vIDc|&RV@z(U(`tGZw
zbP@}TF>N~6!bjg}b(PVFSMNf-DnpM?1@4wn)wLHDQ}sfPMw9VIB{!FG?daEh5ym%p
zc_;SjWgEXv^XXwFT)<T9ufCn97Mxm)R9>lxw}mIt%5N_$vK|oKm&o_kl2~vCoBx|-
zI3XNQM-I&(XJ*XtL>e4%2xdUIZX-8kz4H!aAU6q~;Or6|VjzPb^kQP17+Cg-Y|lA)
z(<AhW=Fk|>Xm%rFCf}e~_3i5*<KT(-2mUQn@18XYo$2FZR`(V;nv;<D#C*8M0AJd-
zhD`P<r>r{P^|YKG=f|7~vLjh5Dbs9FGp;%xs@$)LRCj1M-{j_%Nfgz|Fj0##^i;AM
z&R0ffcjpP~=|26csGaxW`4O2$&#t@4r9~h^v`a)q(zur<s}1ZU3J9*(mpX+s8U*S9
zVdXX*cQ50E^r%CjwUUa@puc0XQQkLCOS_y|03S<da@;W}uxXTerbV#VDxS~np*M+7
zoTwUW_}PMo8<bQ9+YtfNfmmTOJ5?>AU+dN<kolcOX-YdUEr^^D_RUN~cKiiHN_B8y
zLqxa%C`OBNLf#xEFrk;s0XQa@#G*qxEI_z7nPI8L!eXCuASaZ$`Zmo5+ndF5BY&cr
z4Z+Kcx>ufbwpD;nZ)8}Y=C+yE!TFxk3DK~X;%reqHSs(ltZ#z(?_#79v#TXigWOZZ
z@mi9>;qCFw`T<O(7N&T-ZQYl65Wafogs>`IX2Io9mO#5{PM>f7xYAxqv*A0DSFW{$
zAr5K}Dw2WGr^R1&SViZb$uj&@w?13GE{u0uB424cnkYNm0GO=yyzVS%lrn6<&wM$V
z>-Y*j4?7J;iJ6|ZQ&LUIiqJ8$zOOHkaMP-ImcVt~piNv~q<py=t_>rS5-8ypp0)C6
zc<aSP@fqGTOt&Pu*hcM1qV>`q&vJRxp~jv}pY_-W$i@%u&ufa-zL}YouLuYs$E>Up
z8^c%?`BFa|){iNj4_1l)kY|%07c^x*nL1YTb2(V>dbaOiY3*p0Q=+-1%xXVFFZT+*
zVp+Ku-e*YFL!sn`9f(+L{0m>7nm5FT;<I@3qzDCa3~PD+9rJzfMQzvxI_~jj&GRHM
z8_kq2Y+s8=Y}K7yu;eMIe|0vQ?`wO-oC#%RFHW$yx`%*qre~wAe8kG|uhi0D#`k!P
zX)W9wF^R8i6WMImCg-~ihJy-L9MARubljd8>JgW9n&P{U1c+r757Jjg>GyePnogFb
zrz@u_KX0N&z0psf(+DjVvtZjv^usl^!i|#Y*rC95o?4a&vX7{~MXb~R6o#)DMl$Y{
z7c}>^JVRG|#Z~^ZJEJaB<jClrr^J}7ik#*r=DfXf`YDPFmie(oO9@(%2L-G!y(V1Q
z6nA47CQ?^o4s9u#%j-6EgpjB{>a4|?#KX(AI*c?n&^Kt!+TJa9v1DHcp(wvkZr)X*
zsv;}G*bG_rvi2CQbHc0iXT43^_!GO??}X{K<{a+##U2(ilP4LHgPkU_7)Quqz2r6H
zJDB`5<iSi_iDWA_$)G}*t(*P_rb=P4dIIaIdDv|3VrhMn0oF1{7X>KjyPRI>x;3q|
z(t4Dci7V~+!fybgocrU{E6m~x?eYgvL%|+Ux$fQl;c=Rt7&boABQW3r8Grx`)SO$#
zA=nEb0x@)GAq~QUl0baS-Qk^ny@vyJ6$reM>=6etU#~J}u5{EqcQ@AAr{?xl+gn3N
zMN#~bh`P?p3k7uVWr}N&k1Xvkw+{2fdbeYI=a+hmV(n!rx>wvvYhlET%08!kMj5aX
zM@*r*f`dhaT=G0_ASb${`btlQ2${*3P~efs7Q7H|X`THjX!N0qj5-z_XDLh2{Dltf
z3y_aH69}Ku9(A<a79n)l8Y$D8^%(+Or_NsSwQPR@zCe)ru3YgO;}rXh|8kS8oF%cv
zSfhuN-OtyWc<GXK^|M18mHWQ3O6Nl7Am+=>iPdrbe`G=sY#1Fc!(`s5_!lO%V@dbK
zI^tezUg&}8KXD-OQt)<%69>W}=^z9a-ubp&UrOoo#r^S*BQ+EXYi)&pAHa|08F#6<
zsiHVL6w|lx9Mcc<A;e29rG1z`(S)~a^f3bQOK|Onf8dJfBLE$2FKw*(^KU+upKa$_
z8$TRzBQpJJy3m>@BNzFdcMI;VHzaNar@78Hsyr+@%^ScT`e}6mDgY-`$S<|!-+U^>
zE;YRc&nP3`TlxhLt!((5`sS<%C1r7=JdLrnNt#xIUU3kyXpMfs74#TDc0U&11V14$
zpt%-(KT7s7>PUt9qJ)nLZi~?PnqOfnuz6j3aNT75Su?(PPcx@X`i<ZJ<M)oasl2yo
z%JG=mA1mwk`B31r=>T%$oCGW6*U55&c&T(17Qcx(K_A4l!DxPD8f?t$R)|%lwoLw>
z<o`fSJNsDMqd@-B9>iSu>>BjKdAYW{8xJ7gxc<Tz=L_f5&GuzC-w;0+Dq<CK{q<gd
z=!cnFO#RW<SC<31$QP-kDBgI_k<loYH`l@YT}++I{e|&D*SfSLB^~!YTH{p6=HtoR
z?;11C7N7Ue->|QBe9G_o9>oPt@}HJeIk^Xb|3+}6#vg02jV_jlX>jk(QqKI1Spazm
zk&kceM~8pohtPf1ZptU)&-^Icx-E2nPX$wNRaA41T1>h{afte7GaY%EzyKND>rRIl
z2QJH83Rd9Qo8bY`_~*Im2i|($4+;$iJVfRPhv3b}hdwObfUYyoRh4r&QreA=k#mY}
z;GK~Inu!tokeA7``37AsZ?D>MM&9_Y_?~mZN_2dBy;4e~A=|CB*%ww>pn62T787Dm
zyd=Oi_$TDv@fg6%`~UHXuDrkFh(MR)1tALi@6#80fO98>(ct}ht5mlx2PTby<&RY#
z+yBS!0J|hck12G%uv5u`RbIwD&&}^NXO+LZB}eY>5SI4XTlf}LK3O}I$LWtd>|z>I
z^~2$K8je;MKe;eWU;9hEa(^4OiF_i!?^mt;V;?7E+9}5`{{1h_{JgIS=*zTPRb4=^
z@ADAk3}>XiyLDpgjwiU(lwr}i59YdxR%;baKkU%WGJJDHsME8nfVy-{Pvd_GjHy>j
z_)p_ehU@-E%quGtKl?{`7^Kg0?sDgAJhSyX;2E5U1Nkm>XX7S6-^x?jvW;g~fN9*A
zd~odgA6Dh}nT1U*MZ32xOeCJ4@=c`aI9?IJ#egRqV*BuV@F{TV8>;>!&6&^PL)(Ex
zoEnBWq^*UXO@AyBC#COoH0fRL+%aGfnJ3qwvP}Q-4Zj27#Z(Q&YYo$Z2$D2{t=Y!m
z8++#CgZlA2$6*1hxwKXgS1c7S_Tb|ro$ybd?!^IhMKYDb`tZmzk$AD-#w}W9*K8Sx
zp0X9e87KaDmWyW}O=R-n>%|Gtk%9z40sR7_F2`B{i}56{c_+K_xwgESwr*Sy3m>j6
zIO_guCE3C(ho^S5TP3oEPjmw}&Ajr(E`Yqg;;_BA@s!|gZ&y@;dO-Cl9u%%0KBb28
z^7an&B?=T?(=()wUb6392IbaBzPq&-ji<O%Bt?5FxUa04TaMv?i0*R<CWb8zCHkFA
z|Gkeq)aQfhTWiQPX5r^D(UxrB6y@3c<@!X*wATg0FWhlo(nnLIQeJx`wX!lC(7IOb
z2QIaNTUYKI-DW1G^bR^nMB<;>MRlA0-j+&F`m0ylk|%Tx<6V2LfEQ1^49c3%DjOHF
zDoyT26+2O~+tuSjh<VRV6Sm^Z+r}LrBw9$<jUPZ)W@}2y5}YXl#C}>Iw{3Ctk^22%
zT#MWZK%`kVr%Uu*D7GjW>0%+)<-*&&%X%fw%gqNkHK?}tJu)j#mo$lHc<kG>eOfOv
z8$HrBn}l5EpK?OU;>$@M@)Sw4J~u2!fu<W!ujN%A*&ExKDy|_pRp&f!?~4p`$GoOg
z;tW!NrU$7ZM-iX<5k`$)=#(bhjf$`FF*9i=S2aJ?)|9j95u1!LsaP<s#cRUJ=^$4w
zeeW~hdodpVxtf@$DyYur+ke^W^YT@d?k3NNZ%UuN`6kF2ypXLOJyne5pp=jdr_*2z
zJyU{Kw5h1%+l`V=Bk#R9ir_xiVFxLrvoyJcsA)IScKkrKK@`otjF|FpF2H#j*`QfE
znWtUSF1w)F-Dh`)B5L=WVaVlU5^x*n8!2!snQ4SyHxSSd2bkgabM`m9;lb^Kx0|RJ
zZKt~OiI`YBLDJDaX&?u&eZFAusv@{9R@~mq_>)%SZlrbVSki+eW3egCG$Z#Gk3z-}
z!9|%~^%Ms#=+HjT#k~6)Bgj~UwTRcQQz0!6c{qvEUbl!PC_Jv*x7T~}^;*0jdJ#9<
zCXVKn9Y4ru<-0_dTQm10Rrs9I%bUE#8xOvHZ(z2;4gQwuUQT}6=zWP}E;&1@=B=km
zynP{|pk4)K4__FYr3%55WSo~p`c#~hHBHrK(e|E%T0Eo=S<<CeVbzH)_P)w@dTk4(
z!(GaMCaRWXY0K~!b46$njN85O1;>z*<9q;@l0Z!*gaau2D{k7YC*K>Bo3Q%+CUF*z
zMBXkK^y*u>qW{s|!DIDV+i6~}bDz3@%ok29bvPx=wahNS7bbOldTCi}dc5)Dp1wo=
zBn?`hZN&_=Vr4~=i0q@ib8bPcCh15S`Bp~|sX!;9?@?QmXPK^4Pxb00k2v>lb0c+N
zN<I#hOaScHScjETNoY@&jUv5_9EJa8zD%Wdh-H-)<<8KHBUhH&YxnRQ76}tvDx`;l
zO{Vn(Z$6jqo6#hx(uRX=dw-6z+RmuJMy|tSdlwq*H5ltyx$-qxO&mQuXATOfajy;;
zSWS3u!(r44dp!+2$KGjb_AL%@&(JG+J*-m|BTF6|&3|q$MMPnDBiV8voEaaw2b%1E
zB~L>E(;o7^lhZc`pE7b`8L_{Z#{e?*a<aCV$icC*ewl^Van}}yEYKZV#MvJRcuB@c
zWUziFav;pDVo-p%x=^a;#5~dv9}8QyUyFl3%vRN+l4sh>&X!NrXJ2RZ`u4egG-L?t
zyO=Z>TdP&<R9M<mTzp)7z=z~T@(Pbs<XZg6t@5-TM7Qt*MKq%tipJvb_xjPbu?}Q}
zi|o(GrOAVc)d$6EbM_v3CCfGGxG1@WoKJ??HB<8?BgaCEbJ`QU-fP0kGVclKg=CgY
z6^JylR}{UQ3v9bC;*uMD#9Txvxh>fEr#P|8CR>%{-pGIh>L59ym8P$^M@Bc&4NdbW
zIw6;Dpks=($hVNpdUO@@^(1~4b>#9G4UeXt(b2h5K6J}oV=dAs>D5Qw#nyI3b8Q_d
z0TZ-xu?^9+JAz8Ih<j5|yU;%Dh?4ttKvjn9f#6eoqlN@e`Gjq@s(8;M?IopEjoI&w
zK4*PK28%yg0fi&2Z!WS&KaE1`3d!mhhTqPz4B}HC45;|u5?|WmL`?#q&^Va`+k^qF
zG7gl)QBk6$!iC;xnfEbS);bsR*MhN0hmssj3<ur_&DO0<wU1WK0H?yvtdcz14ODAm
z&ETF_dI%!b6juJ*FQ(%(6Uqj;OiVa~vp}A1L?L+eNhj--Pd+7vYd2nNHZsxS&xdQs
z6biPhpzN~KNs_KG`{}ZgiCS7n0fwDcmQ#Bymy;Y*V&?*z_qpfM`DqI0N9)U!akibt
zJxb)6ZwJJJ_8=#k*Dc4%Jj>hb^UFp-P*eRomPR_wwHP%U#40D3d8hnAkB#8B2#p1q
zpPU|s&#&5`%n&rI+(T*QbNC|GlHUwO^g+MO8Ko--c-={2XQTVQrNw|%Ns|vw@=HIl
zat1J3uF0b3(&w>iS?mx=Rnu!)759~kRyW(r=q*Diu)gKd(5SKK;yLnCh;N~SI<*#K
zS42)3@k9b(uEr+8yGrgoY4s;}J+0e*d7$bw{^i=wuGu2gs?pLS3WmHVlNRl}5a5L0
zYrOPq_QO|XEP6?<&kBB>G7k_%LYa}h_bHRfmZ{Yxce#4iU{u+ck<fCCpTe%dzv{0y
zb=!I4*(I?ibh2k3{k*(zy}4#|teN?U2x3nHjX+BnY`duc<M`_A>DmeuCwXCzljMpe
z%Spe}5hHLThGzo<VCM@xr35qY<Q8;m*ZKeg$IN3@ax}ptGP^-<F~N7FllY@}PRG`K
zj^bTSdX}Q@LrB&$eAzpnwII4?6wcR|;;4@_(wXImibpT!uc@1?j1+1+s~0JAcBghb
zBYM6}v<kuRE`4{9)5I<hp*S?DczV_dNbH?dmlT07M6dW?IMOn#XBc6Jrj9tmX~<;N
zV*;^}LVZa(Fr`9It!>FqwM$=huRFk7@f`yL5m?!!AH?^sH5()3P7{M<3d}-;juN`d
z$y|M}6V}8VuPOV?_!EWT<tcer5ac&#z~rW!PH=T!stV|fZ)jlMzCv;fv$LynkfWJ<
z)=n75BzP~rBXado?LB0^?TtlLhpGydo+@8<u?Jg@8^l$t)EeLy5Rx#Ti}1q01s|$S
zU!-dnd7ikP<ZHueGNZ|noxT^9;NY4XomQ*$WA?cwJV$VTs%-URC{=Oo-rzaUx`|_@
z35``Er+m*9XhG5_1?r>aXo;ObylQ(~Zs)?{JFjvKdM--7arbfGj(0>kIUgO*hTMc#
z=#`Zue67iBnKStI-Y|nktjx?^D<tTmnnudOzbbjojkhM_P8<JxJqUkUiZIa9*8-sM
z9rKJ24qPutfv?$`an=w;z_>QcTES15$f`IQ@6cvnJM|&X1IVET3b~gqzG)W#V(O9Z
z*0!7V(qa_M(xk@HTq+SU8W)vS3p8=Vomkjxf&-yHAMQPwZ8H2?o#fjWfbWBi9<2{3
z=t*oYZy3LoUhC6*R#QjK$f-UE*EKoqR_>G*p;phDPYAS|zo(D(Ml84g#ua80D<P3_
ztN!bXi>+3lpHQs=IP8$<*|{~<0FI@fvoTR?K3#JMq$2|Q=125WUTaG8tw_NOOP6Q(
z@a9wirM?=k+&-<p>NC-;jLL=60-PJY{Z!){BqrR3M@+KO=ipIADP^lz?8+%%{WO#f
zMTs}t^E;)s=ykRyk%B`|=tay>tg>s8L}p@e@&J!9Gm8dtwS!hOfrS+!BbD#HecF>r
zzLpn)cxKYvFDEpbvdB@(NrKd;|IwTNErSsWBx~^<rV$tZbvY}1n2r%X_BlCm)Q4;N
z_8Ym`%Zy_sgoXM{Bq!xVKolI|z35*GL#;H-XK9Bm;lyWdeH@JpD2)&Qkexm#T<xwX
z;xl)wPmnSQU#&e%I;idC_INl<5H2?7QabfX)$^;3ao2Jojl*qfChK*DjgPBH3cj#n
zwU4;F_yP}ak6l@6>y&z-X2_l#@$z}|<R{}FgnTop;RM%mg<_vC+3aSf1hci$l(nUA
zG~8*f<_<lm(}GewC2no5o%g8AE^k;{27O8>_E$ph*Lx^XkPN<K32k+EI;Kd2GE%Q<
zB0Zi|{DpXs_^(O)s{>x+FNsyJH3V1`5b!Pvo?NU1DD%wG_I3foqL01&h-^+g3#q2(
z2`>a|3$6jacocZ#YLyPM&~#R|wA{^S5NK)M??GW)hq*{p+HI;|ti9Msq{q-0kSHje
z*$pI1{0{w#{fp;8&jp&Rp=tpzv%!Jy9|BewLm$a+9LMSMO#zQ^OpnHLcwX!BoX9N6
z`f61i96rD2B?GJ<ZI!MRTmloHUj9y&6GCuM;<JY?XC2cUMo*M;smQ_REr|Kq?phQV
zGP>Oe?jyBOMp3Q(5bxH@BRg}KQ3WJLcT!C~S6?c>uaF$D8m0pFz{7KzViKvD5Es2V
z->GSjR;Go1M`x|bwz)~eO6@c|TJ6@_7GmsNML2b7vpqeyNl1fiLcdI%{jpGyzVgnY
zFlt0_v6tM|juJ1Mi?7Ef2FI3g6%roAelothG@R|j$KhPzg}U9IgP$4pde2sBWyRUf
zV}}LEmxGCOzQu3J<^z-dG`TfVI76vqd^BG;EDGzeG+J1WHcL)q!EwvchL?SaJb;Gx
zRy&F!mQjRMf+=n#26n|~%V*9u@<pg1smtx!UN&=V!92YGuKvVQ9MdP{lEo|L&vKAT
z*9g;wkqez(jm}Zhq<HjV{u-2Un0Z!SUf^ATOA2wl#KtTQ=&fZBx|p%5RO9_<3qE^M
zVN*5xWAA+&i&jC-0jL$gtKe%TlMYJ&`QEQTbz@`zQt&vgGL5PGVPQ)LlW{~54`URY
z_=%LR)*f+mtK_v=s0Yd!OJL8miOGJ0cdv)^FAf2mOa1<_ESJb}3|!tfir4hGkue2#
zKD{r?K-=qxam;rpCx7sMZr6{d_;W>I8DV2+b58gG#g*U^B_q~C2GxM1lQf^bb-U*=
zPa}#tcZrBTk4~XnR#PBxJJ+frg{72)Hps<UO?p<n9=DkgYh!&zI3WGd<j8~*XoZ@G
zvb!rmqX~{(Z|d9I+C$>|NH7L5qzP9rIpN4q7UQ7oxCQKdY{fjw+6^R51d$V)Rl61@
zJB{KnB7wXvz#(4hJ^wF=tn*-?N|FL{v1jJTLivI$AXMf{oIA|)``QQmrtAwdWL6hZ
zve|WvWmtkrI?A@-PTT?Xnh$O;!SO!P*B-k}Nb)5Ga!<z@T;_7@$OXg87t2oLwz*ZP
zmh>m8);M~TI)Qu#f6RpPYBo_1ovdR_;L(Hm{48I)t$)X7afNh^<h~GqgZs>@5}yai
zmXtlHo4XXcaCGHZgu!;v;q0g6OmW`08gJ)fJ2RbY9_xtcP{37sABmRhzRuo{fM^!_
z6IU}h7$=(EKC<M??Dyl)?P5oB{j&F>x=lLvD|6ymapQ%vzS~cH<V8%(MpYQcM+$V?
zm1j2ZG}X4HTgN%Zr2W{w&XlmU59wByY7$Gb@8qU9`{-eP((E}|x7)tN`o>9*T#0v=
zF=qaHu)635v-;`N6F0q49Np}&X_I{GTj<IUB3VO<*?n;|Ay5hStdOQ|I-e{`#TTfa
zvwK;QN@`tQR-GxjT^lJVU}TwTuZH?iL~)O--ABNb4V;DnEv^C(LvnD<L<#q?dYc5X
zGxtTETk*+R`SOh43UV<&;-SDC7T5Bx4ZLwFdpl_BNIHZ^Wl=D?64lli9|A7`^WE#0
zzz<1sR}PED+$u5SQBdPpJr9!Q8+Tw0V~=;PNMYS+<#hKOoTse5GtQVj-;QO#Dg&T;
zcIDAIG?z8;Farm^X}2Zul5=U#&JDb~4b<TASryY=xN;*7ZpU&VHXN8%HP;5D_wei8
zc7+*OeJLZ+E?lZDwuMh;!YJ~X-sFtsE`W70>3wX!4uM`bR29;ns+KFSSJ(RN;fT;W
zhU9zc$s>PZUeB~lHDaO+*fPuJ3hwqShW3v9+>L6;6*{&uL-e_4+x$u{d1X&S5dnRi
zuNgf_)?kFibN+q!{pV!#XX47yRR051V`9_ylPsP{7AWYr0BC8Wpf;HlGTo0uupftw
zW2Mvw&c^;cNc~hR!=$_KiL5K^!snGa4^GlF2KD0<tV+4CED@ju2U!7Da6&F*t@o^4
z4MIyW5m%@9xbpCxj9NMC(MIjO6!2YU8}ic>qZ7P}NBD0?7Z~Q<DjBGegPN+cXRLI}
zb;QgOk9H#;#i-Ha%8Kz+4oOmF$xRPqSZZzA!<$jG35sk2{bC^U{4S#bdFt5oDflJB
zD$rpPDGmv@7jm2T=9e7TV<`4!!>1l+Sve}^M?8+_DJd|_w^lEiD`@?SvECGp`v@?x
zGKPkP43QkuacSLl>Nf3J-&t)ig{40d5^v$lJSg}tJzuPTe0geRmn9RUriv0Mj7ApR
zE;7{@7Ah{YRYP^Pmw6<yDjqmK;2rf}*zGOOO5b<J9dFDU-JpW%n1A`w1;8;bwYUif
z)0GV@&WxU&MKiPp<uY+qC0Tn}jF0;v7Ut0uMS1>QLi`|$n$t*~K!m!}C}yh24Ual&
zVE?Ai%rTqLgo;o>nX9Vqjp#}a@JO;@22Y@34S1g|1*WjJ2S8t+`IftTpP)}E#ql)R
zp@$3d9@ri>XWjrY<tuh84r>pZWO$^yju)y&C(ebcr0A0`QTHT0-8+)3WFQ!q=)%4x
z2GC%0{Q_sJ49i|454cMmg<{r<C72*b9bf|r)DKkCNkibKfabdU(D*~`x*4d2bLmJ8
zcL?uCR;uYpW!4+z_Bc~)zXsU+fvV>1R-8zwHn0^T9=U02FZ!b%_zLW9BA<tBFH=8$
zMa6=A5_Ux%_(n<oj`ho52C=PUaZuqlq}JT&$9CQ$T?y|dI(jMNQ{fgOEj&!u{Ke{%
z(TpvwW@s;>HheU>!cWi%Vc{nz*cuE7sgv*)Z(&zKxnJm(m{5y3NMP7v!2?I!{K4o)
zJa}6eZro*EOFYW&;n~(vx=GJ5MYH=^{>XE&`*8{0yKiN(&S)$`^TH_8Nq(^Kf3S6a
zcfM~gX%8MUW0&%K11J~{m-?7|;)sFX{)I>XOr5aXh#<T6<;jQq$OFQ?2PsdrBOitl
zTi6UwAWgqpu-)6oUE6s=8mOW{-{T3;@fgMs7Jz14gb6G3F@Tj-2(wz;@t_39^RL;7
zaZ#W#yq3`C+C7f3@BfihSiR}m+s`wN3MYCIsg%(addeuua`@6~e1}Lp#@99PF|Sc&
zh>xjr=b(2LcE{7xeVM<w29cMKfggWkWR3{?0rO3Bj*$?Qxll=$t3|w287CIH1zczB
z30FZScZV8(j?+6kUe?7fB^qfH%!QyF<f_4T$efV7q^}s}l3MExdRGV78O=rq6ubi&
zhm$S}DL&2ngIR;jakfz2&hD0P{|JSXFbYBoq>2B|BTs!PH*if@@Bl=i8W>9WUK+Tv
z9xHRO`vu|$Os(0awh8<NM*rit?TB!Sw&C3#*WD!|$J_%0;>eE0fvSxg%JS`iRx!Pb
z2mq~UFE8##0`li?`Sl}uu}dlVe!F6U)0-SelL1}woPmAjtNi~+-($}+?f1ENVRVad
z{ng*`KmZ8dtq;rnr*#5Jj|she6B{FJvUYo~_u|l#>}56K$k*#E*o^<WK0G!C2*cYO
z<<c@}@9CYh#jT`-wk*5JiEa?%oMt8-J?g^}<%tNhHEU1+-8SprQNFGX5v~VbuYEuS
z{}Xic{M{R}QxEip_?Oz-9^G_*`0nsFhn4)Aw#dy*UH_1`cc@Kf;wpo^W!MkX;$39R
z9YKq1E^GqgGVcFAUKVC&2xFzc0{A?pN8W6q{+JN#&`gpFs(DdlYssLq*_Y)T0bBoE
zaA>CGcr4}uBj9*ia&AL&l|jZi<d5l418**|LcOuzdA4TxsMt2b#Qtv1!tzb)_2&mX
zj)dP~y~LRR2qo(5KsWcLZxv+^yZ@!*jX(FEy!8ftXl7smeNz|sHW^*vw{#`#$C@~7
z{vb@5P6*4;QLQ!1m@c`x8FsKUBeVj*t5})_BASc(wN3!;Zr3(!aI=JEo%=V$*+WCv
zW=D}?cW~Pn&AN^F{R{Rmp?4I&fN{2-EK|E%_e||1XO+S(uq&6J`;S@kYXX8YTw>ji
zg$dBRCWlimK7^j<uO_CQcfj^I&<SKIivGu(q6sqKEO`O<=q%VxuOp>?ZE#})!8`kK
zgC#<Do9k{h5XeJz^H#d;!NzF|J*=twj+xdtk#kChEuF_>zpQVD;!U>D?I83ydjqir
zknwt(#Jwcd>Pv~@GAk6$y-miyn0geu*#jfoM5iyce|9?GVRL_c&Inf^+FH}L0whE<
z`w7xDr}4yyuzh{&K;>mP00po=Iv-v$<T;PeI8__@3xQkolgtdRZP0^YL%=N>(FMty
zw<s3?@7LQa*A}+5!Ql19&cDbWi2I0GZD#c<bI7r`IvA-Q!|5F)k3XHYt6{x0Mt@#{
zi`>l1Sfgy=@q+8`PE-~yeW_4PVdo<#r!%B=w{5<`z5>AX`Ip0OIW`tqer*@XCE)WB
zqJI#f>u))6b5*EN?G0WmMZ3qMSTu4wWZ~x-Lr21#PMOsp!dR)6>;io2qX;Bm8Y^Ti
zRg|FI?H<uZ=q*=a1y48M^6P1^6h9|z3{*Cj0<<mYOU=!%=D2SDCFsM)%YNSZt|6cC
zuEU<?PrBoRi!6;kXMmg5fPT4Oi!4m=kXJ?RUv(${d--q^&WdRvZL@)piA@)ZmoAOn
zb{m|kpD}Y2F139=aPF_z=BIurkjxfBysx$sbjW4(h+TcYPOs*lg^nX2=J>2Ox?Lb%
zjED;1W(<PX>=U;w!^WEZ;}@Rie29MQ(LEKwGxc^bwmtc48_x;6z*+!jZL=}@Zjfy$
zD()IkbVG1M{tKGF&QZXnU$1HnK3(Al?SFD4*@-_WL~U?U4Mx?i+dNPOzv+CnP`vdk
zuxP?(=`uy)$6d;t?uDZYT;(8vQJc#uSTbn4!lFW5h1Nr`hBB-LXQkph;QrbdT9m%|
z=((*u7tWElBIY?;CAGg;%IgXa8h-W<Bl)03#P}JA=KqlVt_^)Vi*7ynX~CV4Q@g-b
zXS=&ZX=6iw9VSa!Cwvc%!p+5`3hNXA<9&lu#rW5#c@PqhdB}s3$KnJiI9d=Ds0_-3
zy_Uqh&VPHit^w2{z!)uDpR#Q37MmmBW%qmh)8W0brO+<Smdb}He-t$NEW_c0!&bj_
znt@|v`uWi8tO0yre&4T?{vAmf&6P!>fi+%Pov2yTQ~}F(J;&qV);=a22HVps5SlBO
zxnkBCeH=4%gA)iDAQQ;HBw<_w3}N5Ub~CB`n_&ijEjs8{bJ%%yjW4&k7<4b4#6F(6
zG4te?>G*kffWr!e{_WHoswnjGW%FclJ#goGmRZlOcPKv%d44Br+rJwoV_F1>lX_@<
zZJP-ch-`03^cV!Or6|y4K!jU{leKsz)j`-bB*7CN?^Wis4>^8w)O#@x;h-~^*iap?
z$i$U7Xe+?#k_DE){|*eqA{tUp40HzTOQ~P2x7iBpvnle}XpQ)Mp1F)L$*6gKF`$F3
z`dVf2IRaFrAPE6hYMMI(xNuL3`0M<Q7TsU)LFnPY^!tMqn6-FHv$Sl3vUhmmJMX;F
z-PCs%IWZ$zFz>F~;Ki{JhT&hGdi%V*!A8H7yC-A&5$bNuSh3oAkY@(qVE9_TW-Gg~
zEAk}B2;AnMif$UgdfdIftEx4BqHX^J<RZ1CQ)d2^2-iI>&7SUqTu_>Reriw25Cqlz
z5~PuR95cSo4ujUQb7X&v>XHfAfYrW$f<J7H1#Erfn6KF96+<x_wVe(TwQW@vHW5O@
zs$lKba}MY4pcOT(;%40+(gm<1Li7W?(~H?;_^9`+29ypaTLLwl#}(hPkboSIa7N_(
z%qf`E;AQHs!2n-5K{%cp*5u_YF9zFSoAtJRYlFu)fO*d~pg*45G_SAFned}`tsr5;
zGN6a{5n|G7&w{I=9LrOUKg}dGwEu7fg18MO+`59UKn4Vn1A-ts0&(A))^lX@KKru3
zPR^ij#l9EItc~6?a4KrQAn@f6za+Q9Ngh!0L@TY0{OeFXze7b8B~gmba!BuaxcnVH
zxVqQ}vT1PQd>Bq_p#HRKj1m<bHw0NPxp@huRjU-w2MsT2HU@Ub9)vU%bIbs~XQsrz
z`5a83Eix=p!{y?P{TlAeXGev{0q%i(D-*wi%t`D0AlNW5-jWABdnup^5ubYG{Qszl
zFmu&Z{_An)ziTh+3XZB>C8gDJ3dwj^1<V`-n_yY>*%F+H!&s&dSk>XATda4``r&fm
z|B|A#4vU?G<cSg~i_-U@Q>ybo;Z`i&F3{ABOI>Dfh_&f;bqxt{2kIRegY!`M``xk$
zl+i+rY<QmTm@PkoTog{<WgwLaSM&Q2T$8Ug3<q7lpy`m|k3gRW1^N|QX-$m%Gw><a
zZ*(gM*x{-6HYr)#sL=aBs^Mqr;**sMGK#7wsppV1-P-Cr>nRE2Jc&fQCk%*`$KX-U
zIg|m*&D~M_d*af%PlE33^GtdcZG4xc+vGIDhf?Qxbv53LPFpX}xjXdZB}VySU3-<$
zPz`iP9{7j~FIzoBJ^#sHRbsT6Y2xx*T<RME!rxjt-^0<b;qzE{y~)}fzg4%)PT6^P
zvFJ)aNTUd8vAj56aFv#}xc~TyC4VI+jrdE6r)Y=m-Ymh_EqFFtK0R4Gy;?hI`1SBJ
zg%;7_t`rv;cg5qs(b<g=Mko-fMdFth+#*E#_5ruB-I)-znYn=RgML6$H6s~5XXJ2<
zn@uKRzeJ#aLFD6s%f>HQhn0Q{LQ`u1A?e8f=9wmd2YyaD8EhrVMRcqt>xDk?-($BM
zGc{*-AjHStE;_R^aSfavx8#ngg2E>#3v~&rij6lQrpzJ{*W5P@;v_Rk5Al1QfBC6A
z7YI^3$mkCF+OvpJ`78_Z(mLwTgItn3&wV?+KEMaW5QPO$C2I740`j!ETjxjg-t5|!
z0CwNMP}6qv466LO2Wa3kOa7Il_IxWTaJs(^S|_!o{#KNNj%}$2)Q?=0yJl)7MUg3P
z3&`oYXA5qfH|&d5Q15zI#5Ti(Y2}U(Vz}Gb4uQixNLzgiJ;~?HAZ7cls-Lyxye<A}
z@1tJ02x1N6+nA0(l*3b^Zb|L$KnTR<I)FMutl|3~6~wH+ye+YXal)EoEBrl7t1NLT
zj!B*B`}XbHoh%YFVy@=C8p^nnxoxAZ?pG#o?krHgrJ_rWKidF<PI5T=5xDh9C?S~|
zHD6b>&5Z$>(<7Lr?s=ubl%5(Zpyw(6Vs$28Pe#-L)+#F%+?|9=o!;?3-hY+hbY|{V
zkq=HbJV=F{x+H;5)&4Ul<?{CYyCIN!!RRT@6;3KCHph1@M)Ae9Wf{G0%lb|!GvrHn
zkQ0{r?+w~$x^r4`P28UWcE{4qx1G4u)vkJqgahtjv+0`v$nOI%ojOoW4xNf0vuEzw
zem<-ut}hunq=Ev_bBaKrVMoTJn)(FKap^K}SX#T?e)Hy#a0*`SI_>z@X^$5IF`Xzr
zzk4&vUlh85bqG45Zljy6k=~why^!E)pzn({vhXz*n_<p(?z(nf^Y41I_poJwb6UDy
zc7J{kQ@=<`MO+=u_p&e-Xr6vhtGoAwCt^L#%fAFH@AKq{e_)j%XHvfQ^2G4<WNjf5
z$HdjG!w<apvBModqcxmn>}T5$6tdY7cL1}0pjW4|IcYe=uOlQg3JUVT3k*6>v|ny$
zBEO@`io3mIT?@?!&WUepyVv>JDMCZG*dPN;<llTP&|jS)pPQ^*PAA@oMGz0Wjkty6
z(sPbpWM{~9X9B0gauY9Os7$B6F0`acw>ZNQ4KpX?oITY{yu<foFQMuv7IS0oajD8~
zA+7((I+!huwn;55FDdktZTs>cDZ-K<V>pNom&-&E>K~pKAH<c<>m_SvPaT~2dqhI)
znWl%tyzALB_qU$8T!;za<}^Dy16{j?8U1uHr@P#Y@K=a8^{1<k)Hvpy!o3v*#<={J
zWD7-+$&niHB^Q0Sx&ZAZ{Pkm1+Qhuer!@bLqsB)*==l~bq?&kgJXgJ(v~ci0gCP81
z_1lL_r{kLK%Ot}F+tf5CVDlLm<!PTAF_baAtcAf_QkhX$|38+Q=|s~6-CRxMgN1pA
zD<{wW&-EI%XXeCRtssxMhZ$UyQre4>sh7N@CuaNh3r_+H$8#989d5nKiKas6{d`L4
zb+>#%-py~xs89rHsET^|@})Dur9HVdT@OXS_sDzOg3fdG$O?y6g^4gb9VuJ2r`iuc
zW6Et7Y+Z!@G6tq-7rzIps5>Uie81uXbW_vu9pei<ZQghTDI+i(5;T<yvKQV2llPRn
zz%(x`p>Hm%C)1eb+=0?m<2HQcLNluG=8cazyrB;K_2lw$ds@=vLJ8pu#<K<Y>h}CK
zS!3rpMi2mAAIB31f`v5n3>}o(vlq1v=3BR><<X`~-F&<grTe@lC7A(>Vgo>jGo!v+
z_5iLww%5;d*do`9CeeK4zr9KFT%&&VNAXtGK`h{(i#|COflW#;Pgad;D;1NF`|(A0
zFN$Hh*vGSfW=h%^#4!J_zv!k7i<nK9H>B4`eF*#nYNSg$K+`c)7lH61yyH0I62<)n
zDBgV=Lm##!;E%l|tdJB1;xI7jghHMOjj8Ol-n|FxO!y0LNrj$v*eXb&MW0QQkGp1t
zgr=PcYy({-mP!hPRbZazV-Obd5-(G4aC&CTRKZedXWO!R?GS*%u`eTI?A#Eg_GU=&
z>8H#+?{HRhY;If08hB!P_^v#Yl{;+`g4=B6OrV%($?{;mWhFd-cfC@+EU-UQq;gzV
zRtHw&MvzL;Hm(S@B?9S{ZCzeYV|SBR^=(a&ROhZ2;n=Nn1X#ga6n$6rDnFmp{6hY4
z!wS}4x%9ESW&4=SHV(wkANcj|yl_U40(H@+@Nfcy8R^iVUKB4##<v;R$3t?R`TR*w
z=>%~Wycc4{%;Q*uhW0z6?4MRGZ`ua#u@u5J7&&-|0J?bAkpxhsJ$pRp2mV}M<6yjp
zY+X5GV`4A<sjCX^)@6lqUZsv|F8|xCJm8@%nd%&)qE7m|%FR6|JfEgn8z0p()8A|?
zv3{8SUhuDrx@Q0iT<7YoxUWqjq+H9sFk7#%TYB=Nf_~0Dr4le>vQ*Y^+MwX!ouE<m
z>e&?K9!Vt|?*I46cdW0@!KlXtNUj`UDS0)htpg6Aj9|EjAK-q(>`3Jc8muPH4oei1
z)t;`lW&`Qzk7ivy2m+QM*D2jQ8|Z`I&1#&9v-<SdSoyCbp!{T$@0`V*q<QA^4gtdr
z9M!+~;Dr##c`aF))?0eqqa)lu^f_@~OwrEx2}mPcg4fg=*Ix5c+_)7`009vVy;Zku
zp}Mwcq_(u0j!eC6#aG+EoasbUHeEj4i&ErV-r6U}$oXe-yz?xhqE+v#Rdb?}Rg{tI
zbwGi8y|LGLieE5(^k}KKPkc4h=rx02AFTdPuIE&TR83A}u9|88rp~{=pmyh0&BAuo
zFIcGJf`CDZGn+U;Y}1nWeU#68#D4VXbwGis+c@$ick5=V0AZ<3mqqsQ#e&uen5&`+
zT#BdOgQ({S_gU!fA7#f|`70)D1ubad%K4j$91D#rx_#6Kt!puJnVh6^>$9f_Dpv<#
z>t*xriGX*{%_w-++ODvUOwd}MC%VimG<wYP;Y$pOdDCW%DozJ{%vC%*d|pRtOyJ2K
zm3u(F_OZ0>+2)(<dk6AFg(AG|h2P=Sbk`2gcgfm!VIyCy2+dr*=N$k#74-e}U*`U{
zoqiy#k?mozQ*RNS+cLyrB5cg5E$(d6tX!Z*27`A-o|f?c%K2|lK6g-CMgkTO7#oO-
zc1eh?HjKGZdP;coWs(i4dGD?Rlx?>MVAnt`_l;nkw0WmzI-r(5Ng#`DOk5J~r)$RX
ztO60=gEowFm(D%#Xt(Mpe|tN2$AERC=Zb|{D<&+*wAi8Amf!%|NK8%(tm8|aBKlc?
zF+Ks%mzgGM>RYmU;fg&$wOm|}*y2U2V&7aD=+LT6*%dOReTv#wQfw>4{+;`PK%xA9
z2X$4*Eu#BrH~EfxUf>*2<bFm4gWz_K9?`VYKsOs->?v3(cg&Too~@C(!}zzcek9Y8
zYsJ>mZR2ZtE+CpOUKluud~*|;PxbD&_By&h>ywJC5CS8|x$EOEinmM8xn{lwEfuR4
zAr=Q-fC^@(rA61_jf?udV+Gk@Q@}s}{Qga){GJw(c#xCEwv9N%>t-5*|MVjw`yAR6
z2*!koxyh`Ydw-qHA06mI(`5&1TBYVI0rG*v-CbS@<y1-RK9oJm4YT%Olh%U)0tw>y
zSjRuDXKoi?awR^+f9vtES}l8d=>q(6$&Y8TjwD<${F_YmXjIn1y<U-4(TSp5+q<5e
z?YPv?j`|-50hsDOpD(Zp39@+uXDWxBDbM+2TTj>Geon%4>vw>y1782=S4FC&LlqmR
zjQb^efC2ZrH}fBuF|$9;m6(tJb}j3n{>4{qVHwwL+D70uj<u*(8+-{Hg-4Ea&C?v7
z>TJz&5^5Gp#xqSljNL?qg@4lJ11(|%W-iFaiPK>?|1Z*cj3jeI|I)Bja{lS!S626p
z^kezrYrF|vxH_vddJ;;dYh89$1*5$2J6A`e_D`Mz<!o#aZPRLZ&7$NpoyQyV3){9<
zw@v7V!Npcx&8gbq2vGYgp95ITx3G`wTYm%md*M5NMFkhL2B+isWGrZVw2>xQb`d?n
zA$qF(uNhFL!ZY$Qc*{Zw3*+hS7xXU7>F-6cTL8dqUOcpYE+2TZPdP0^W-~GJI{;O(
z<F}8Ggo;Q?JPORYUiC*S%J!EG_x7PY4NVHg`ldgxq~THrQ9)1d9t6w`zgL&*W<k8q
zUmgrn!sPcbhZ<>RJIuK+<Ol%efaTt|pvEU)d|yJ0HN<|5l@BT$ov_NwgbPi9o`SDG
z_tuGpF@wv6RdH;+=#uW+Tf~;aSkvk)zuot*{3Y~-zg+JhKQwC~pUj~3GN#O-7T5yQ
z@D&fsD!=ukX&rc7LQ4?(5VxcvvW@>UFsg4)l>`gb#CdmwvJPjw!S8`9;M*)9yzy5C
zG*el39CU)sO=a`)Z6V=M>{UA9+Zkz6NUdp=5z_mq-*Em{AK9fD2(A5Ha5uCpn43va
zL&d_O&ZruKUDD>e?9>4W*Y*-K+fC_-eBbVHn~Ej7%*@T6(O=~t+iBB~C*JhgBAFpX
z7J;6tr!UJW>h_=HylPMsZV5W`F3T*UhiEuwxZDlm;Wur6cdV}PfkN--L{eWg8>UM5
z9HuVx`MWY6`<mDpF>SM--^6F?bw-W>FDEtf+MtgDnyh=DjL@dbooF(n%bcDYsA=_n
zl9u;Scodqs_6yng&Adu60{qHME;8f5ra3_$9wt^=s-iHA<L<Vw&xaQx_MHFSXZI~Y
ziwrTEj7Oh9<*c_{44R}2B-=+ZCL0lI{X%1Uev9U@Yc3&#dvBDj$YSiQ;5`EaUj0x_
z(1Bv#Wsh%kGnehQo#oO{h1F&JJ?rd56PAv{Osd)?J(N$pUNR5!g^6{Ye%Ng2zxa|N
zgxG?uNY7Xrf>3S`>FhsvUmLJp7j!SjUAge!=^s5=U<d#WB72N!`S*Rc92u%0@Brz!
zzmLx>Z|DLuH@jJl6X$-0^}K=+7*i8D=lFh$85$T=r{(ycjzaDA*F1{n$$H4)0ygy%
zgs6pdzN-Dj8H9mOThW=yeZyauMgI34lLX=)BqBV`PFA^m3XQxpvfjPDH3tqe0%5si
z5^p-p1AJ2NZQ$Fqzg@F2;AD7EL0ZL`s}{eKLAr}H?t~_arT&6oPcZJY;DneeUx7PZ
zf9*`iCBNoKjp3@R9HpOSj*T#L9GCcW!q*Fi2g1<!xgQVyu9jg(0!<2r+ikl$I3h3Z
zL5$oM1RHvuF*7IhclV?t=La)16`YYc9k>Z^z?(R$zaL6@T+7$+3)xleS^<tHPC
z8;)qoxStn#InM3?;W!W_2lTKn8ICiiOuGZC|CXNe4p7thznYDOE1|u8peT8lO>bIR
z>B-+sAi0r%Ev=dTd!@(B{6qxe$60De;`K5>irt&20Ex+%u(BHpAT<|g*g0fPQh#~D
zeXzL(zJ&4D@HE=cf-j~_ctrVhHXB9J_cy6A>vPf9<Kdz^XwQCh0d)ESB<+t*KS*3r
zw20%we@a$0FkoZ3VIG2NE?u7<sk}K*4?}-U#vQbIYx%|{dV@3O2ruQ`ArMS;O1m*z
zvAIazMh#W+j=HDrLZtsXmG+|afVIZDPd#w345Qv8X{`ewk<W06)eEUd0=!=eh-G;z
zt|UMI6@@md#cX-Qh&$PJ{FG(?4o5Ti%r^*JW>dFcUw;YMl5aol@-7KZwFxqCm8&8Y
zw{H-~@`=OFY18<2>c4Hpr5eAp>n%DIu|1&Z)EzJ+Zfo8~ogt()Xp$>`*rN!k4PH6O
zZ7!?dDx@~(wV11!>hQtb2OgvUTn!8?fYPBo>k#D))vtNJCOX8Hd#*NtJ9MP>H#Zcd
zZk{XKg~0Sg9r1kQ?^f$L;M39#9I$yH>DPMbvkxg#P19!lMB??6YyKWoIHv4ZWSwtZ
ztUp5C@oE^8F!YiGBpbpp9gq>j9(m8MR4({4J(7uT8}y6R2)#E#dI51C_oaJAwl*UV
zf}hK;w3ay}1HRsYzT&U6BDxsTAH0Qob{0JckFS1a@DC_ph5J!+vR;b0YE-25gv-=K
zDogGDZJeRn>R>1TeGCr0s?_!kpdN4z{;A&?C<Z70)6>f|CI{q)gNuvpuzaL^5VFy!
z#%iSPqD=3nejoxxNYr=43<X3!{f)U<Tpcq!#5Is~@f5qN89K61uKK^#6a!te5FE?4
zAAIZd?rjKh*ZX=5umQ8YxL}0fu;RLY=oBPyI@xrPVa5!_fE))69#>0#0>c2xiT^AO
z2ug`YS7BtcNzT6j6fjz$0YcJu#r(fWI#7e$l58zEOn=KSzQg@e+8Iy<?^*{PNLOyI
zOFt1|GlM$A5OsR*zk8|xg5y!As^~)wF&{+1iiF@(0fm{EMA=aaXodBx#d5cVZvns9
z=pu+KuF9L!Mb^#g?b?oe-XMe8i4h!SR^hatY|lCXBwm&|tXxJl&(|?fC5Ym<^7izB
zAuN!Kwkj-mhC2TMrZHx0|IM|ie)GI#vjmS)?NUswLWqE{`hN1{sek^FaK5g1S?8~T
zwhtts5PQ;+9R>|vC~UM9*>I4`{yljJ;`?!>*4Mlew_a>Xl}<3$8AEPWR8jh{(-Rn0
zCIePs(=B!^sX;E;sM|BXX{StV!hY241+rp)j86u)d8U2>A@osjEtpTg_HYtwy9mQT
zSlJ|yCMJc4fwBalwRb(sgM8uh0?PB+&lQInw44o5$G^t=0~8AW>=56v(-4|C@LWnK
zm5Gzo`(qFC*<(O@5Tr(K0!w82rE>I^gy^$|<qx>j$ld>MbOTmXf~1QZYxzL)aFI6W
z6|8z%#0KXzD!w5YzIXTvXU8n$Q<ZS<&a!C`QA$dSqBf%%!0o`Cf)<3q-T2J_wQIHl
zTyhD{)kXK`*|)C{{5ItKU9|&djxGF_YGFLbUMIa^r(E-mFd5dP=AZ0e{M3wP1>-^A
ziE!~k(hqC5?%Nwz@Y}{}neU9-R+HlPIC1a<2Lq3IP3YE?QZ*xJd-~<j4~^Zxt`dxT
zHnl+VZ@EB{GNkiH+gu|;osfEA_`1i<gmCWlOiYX$*ups0M5oOo7wDC2#omc;#A<-a
zUWA6&%I2!*ZqoXXD{t%p1ANcBm4=@C15T*y-<4r=4F5f%IIE5j$LCaySUf1F@4lHa
z#YTankv*>OPQiU<u!~(g_%%1p_C(Vl-JpR~D_+T^T0mTbi~LJ=jbh&5QQx`56!#{9
zI-o{bV1Er318G_GwFWnH-}TLyeOI{%@Q0hDENPJ*c^WMB-<v=CE6ci^1Hm0Yk}nw9
zZ`nXHhFj3MV6N4-pK7+u7i42ihoUcvBZY(EnWf<S$pl_}?Ejp!XPwalVv&P;e;<<J
zjMi4s-oD^?xZwQX*%xmMoP%!JS6sn^GNMW1?qMLMS}!9UE*OEkL#$v54N5GoCXhkw
z0$Jn##;z{S)0nJ+9;wWlb!<-|^TA8T^&0&J<0)pb6e1s^zSJ$V|KX74BQ<iiF^68i
zA>J@Z!1DLwnE(fvw6f<XJ0mD14$_Hoj;D5&@WTKj2xhUsUT`_`LsN^&J+nuyIniww
z0CFaIlJT)kG)?$E;1)gCMZ_u|hNzKCuk7#GIi7(s(m(VhXRz3H@f=HZ;-J3@Y7aEQ
zf%kuGw#YIMm+E3}Wnr=c#>RCzK4m}@oih33z!v6!q|cAn7C(6qfC0L=Ic#C>e!hpH
z@e^`(PhGZ*t!WM9VB>2(mV5t9qJ>-N2C>fLzQc}6F=Ig*2=N`DdIaCN04RLrUB9%$
z=;PlIGfB%GcLejC)9!r!f5QnVt2`JqwYZk+Z;*X4MZy^6T#550Zy^07Z~ywl>HJHJ
ztD=`-AY<Ee@c%FRLq*~XYW4aXuTRXtLp{m|J_#a#xTX2t-3-<L>+3t9nrfbSrK1Sg
z0Hs^#O{r1?D$)ZAh;%;by#<gG>ZjNMB@`(ERHXMRJy?Jw(o3WUrS~Q!1d@00`wP)`
z-h*>;?t$Fh+1cOB{C0NkUi0Zsd?t|J87u(N)*Cm>6MhwAf7<|*7)Hd|Qq%#}pz~Qj
zlzv-2uo*5;^8Ff|H9LfNOfE)7?nSct6UOveJ?FO?2gM54?#$)%i*cr_D-&LVCS#sz
zs)1%00m5Eyq<G_Ct$B!ZDEC!g?d-Mu`o^=YYc4S{GR{qrx^*o(!$B=671&SN=GJ?z
zN)tLmE8lyIt`Vfu*Lat<R~<3uLsB{)!nOi;Dx6<5DVD})X0Mqn|5?nUbmqxI=7i-1
z@60U`_m0agsRyT8u=4|N;QP-*Azn;}ZT-{qL#Xy|J{YfTW`6-Xqed0+Czl59yc&2=
z#{u2cN1?#+fa}cC?7<)8%l;eEYiJmK%$y{C!GYvpmy;0(B={e(;oC=}rldVtf_U5t
zVI7aEc0AMtWdM+`(Pvybng6GbQbYk0b+Ic5zrc|n>K83*oyqUF9{u~I<SrhdV8XFC
zr1Rm?nM4N){`pdwvy%HZgjFI7Hq}vj^5Loj*D$c+1kUAS-B9}<!Hf>$;nG%B0tjgI
zWuT}9XlQ4vM&uCK=golVO~2e&X?rN-J`X_c2}72DmHf8Q7O){PGt(ggs%nAojSpUa
z;Dcu^6oAsD7h*CfwaYQT0M8BT3%dSa<@~45I2EnzYoL3=43R(r=Tm9AE6;CWAUtTz
zg685K2YcS{_O0|}2SZ*xScJPERM-KBdw34^)yoHF>aj;%9&ZhV|0uH3!$MHyj2J4>
zym+uJ8>`XSZTUwnHnK&Zr!I2FMV|UqE!VY%`1Na5dr-*jly(r@;=z9$B!vj2g8)W3
zY*K7<up8X{q0H!@Vi_Rjkq&Ej`G7>~=bIw*>+gcD^5B4J%U7?FI^gz?9qfk<e$RAR
z7|Vy*9-*F|kp_#J@DOu1<kjr{*1g*9DY>m1=0(;LeYP<%RmZ;b1;?eQN~pC$VnLb*
zl{IRun2{SDYiq=6KRyqyKHHD2=}I$g+TyU6w3@VHYTOsSj*}h7pm-wNF23b%E=kLu
zEh_qvSBx*(&d*;7)??8fxb+I*)zEg)i@*Am9yg0xs4{oh2u!=Dw-=+-*;E@)8(3=}
z5S<3u-V;nu%M0Nk=Iw4l-aDlQ6G8|flf>3%#E>hqeXB8+sa67H;o$cMuOp9<({hLY
z`cQ_RIA<e=!|K^CLiL$w*k?awuB70DICm6Q{l_;DKA{W8FkyL?G_-R4GZIW{iZ_53
zE>qfgQ=U>jM)u!_lR9FdH}_^t8`@)iS9ndFX?Lg~`vqeYR}kl(68r<FhvIkuVl#As
zY+Gxfm5s<{FhQgU2TT3T`26Mt{Fq91X}O*5Z*c&b3`{e)dy&{AqK+LZ?HK2nOdSq7
zzTHfDAW;S*7tyJ0CTxKWLs3NYE?AL!woeV!cl`|atYq|<3z+GDBArss_)az3i^OM%
zLfyJ%sG-pg)8tUMSt%@jx{-)iPS^g4{7hurBaT}#eo*p&R($0pZoe@hf=)r4c3Q>2
zC2@dUcLl%R{5?jXK_#ja;_y9pVTr6x>Rp#vv=yM9nXpcZbebXxGnx+!9vtW2EdaOe
z24(%oQR7$ca{M>cC7MLj^vBO_&rMeAfJQu98YxpSEkuunf8>ih&#`-qZ}eg8Y13(x
z7!Ne>!7(n^rH%<xM!ZdWl<xfh)s<Cd5;!STi9e=W1~eE$kY3es4#w`(ugQ+f{Wp1J
zMHKY@9JK$EpDEgE2W?*dZ`u#V($gVxj!`O{(;(ZYNU#;yj4F2>*iKm~<P%^s<+@rM
zMR@Y~)0yLuSI(cT_3u}(o4-w>ku<8sMtQh~)}>dmx5Nbm>WT;OfUui;MP7>}^LYTY
zAr3F)aAw&a_pc_1T;N>tMkS`Y&G4iQNf|Y>5+wi9ciE7|_?@SRQUSMoAy;v=D6T<T
zoMs7{*SJC}$8`A)N#_S*<cN_yKWkhC%akhDAW}hGyfx#OhF^!pRV%R5YB)Rh*~;RY
zvv%dYqnQt3aV*SSXdJ7icIo2r$OuZf@6vGd*y%$g|HAZbL92^b(7x;9sr98)sn5^@
ze)?A@+8G@YjyIfPXqR=aIJE$FmzX125f7PGmviTO9qSv3sWOL_b?}9*tK^TMa{fu+
zt*(X5r9Pu7TG+xT0gkwVDu*J0hR0#!w~ox{)VD9>Kj$i*V~_cgG=9*^)w^Wv-aSfi
z$w*|B$R~{o_v}5d+jx)lfm4pIZ!{WSJu6ov>GeJ3;=NR|qY?kQ3X@~;XpnO(&}e1#
zKy9s0q8#b38xOWKP+vL2@M_9nW<@&ks8hWZavQn+Y5d1K7ym?y0spvoGWBe)z}dbG
z*ydU$R8C6u64L<6iDbI_nnI<-6nmOYm~tT8vj(~67XE6aFEbRAt#5+&IAMc#DJuo8
z<q9`8FAlcIsU+y@G)AzWI~)wc;lxfDFB`u1axPZN7EZ4~&m4MbR`QHvmFf`;e<6X4
zY@t_RcGsf}ad*rA`fxU^qxuS;xf|n1Gk4)v41%rY;{W^|picu0#Ik?&iZ;4<`P)T5
z1<pjKeEnFDb{$6d$X9yGb}JmQ64TO1Z2C2oA=4#7ZP2tnw`^<!{mS{l6Jh3}r=EYw
zEQEd(1u-!EA;WFal7M!(xy8jUZhh%qjr6d>)2D?3lfXl@X-Yw+Sg^j_uo-h-+qNb>
zsj{L&(}5?at*_xe>Q<v$fOl&2-cdx1@={OX(;X5eqMbZ96HX|tF%{q8$rdMZxd3Xy
zN|{Smj7`#Dyb>B+;_z@XqbjA;0+$Hz{NAf-`xU_nnnN`nBbVZ}QpuJloPkkc7xFX_
zNHB)n_+HaeE29^a#3_g%^P3k(a6Y)wGa|Q02k%N04r(Vsd{d38g!!O@UeqKKu<9V(
z@2;eWR6(`D?OWD5JMkwJPD5B>)uHesP5-(w&{Zx^5&ncE)HK316U|cs`{ik!NG#dv
zE0yr7b+P5xm`F-qSEfbo*|Pm_ggxj?@y#v)%Lqr3P7j7Hcdm=Zm6)ywnISl0!Bn>5
z@cGsDsh3AaOns^ZKYHsDFtf~DR)yV`Hu&=WA;LzaM{w9*ZIMyV>moY6dV*6H$Cn}%
z@g`j0xq2md*}nXs;7QV1stZkbj00y+4NA>jQ{)&<U&4T>o&6Ei;_#NAu2%LWUp*M{
zJF$!!oq<GHFuG?K;<Ybhi}x+V-SdSiGC}FednR5JOT`Rp1xd}~>NL48SE_o{lACKt
z74}D1hJGon?cd`*+qQxh$iWtU6{D&5+M2naeqXoV=tslx>R}sk9(il);YH+q;E?sB
zkaZqQE?F$ohz;rB{KFeK93w+Rdfbhjo^vjv6A0gSeZ4Fje<mz+{*%5SB||7(tYU%t
zJ=<x2daf9<U%0K|><z15Q4HZ@6f+joGHT>cZ(Q8_(Z3ttaLh19+a<lr-Izxr*t31*
zeW03lmd>0<esyIfs$k!)?JG3fsI11+et3(cXJ|<HyI#%@*ZZdrWyz4Hnr?rJ62ZQ{
zgl#G^ZLEG6*v}BFot@Wx_ZkUy0qr8b(cZV~wGvZ|J^gd8uSkV0aMNL+XIIB`v_i)H
z#$af#dIxlhuDGqZsKH!#M>4gU94xJ!{EhdliRt8~58LEcAXj{oNZ^~d^8o<?qXeUd
zpC+mc<!25%QHIh6eg7yu=&`}M{)Mr^Xety5$vYtwf9X&6_W~YjD{kD1BuiY2L%vt=
zU;1hq48zX!dc@2v_D1`p5T=k*55$@lG21P>I%Qk!I^uUI^aGb_>TX?*0J*gW{3x?q
z3K)dWPlmt9Djcr09Zg{~?-#4zOV*xC<?r=ffK0iL%1=!h4QRGzN+%Hp9M7CgAc#6%
zVUMMdDxaI2h*@R46CAV|Rkk>oI9Vc#pP7!&D>kBVuCipa2(*r<sE|aSROCCd(y*4(
zCF3yA3%lvwaldAQ#fASX_`}G9xxfJ)LltQWSFDY726?y1S$$BH71?|&uUYrce%LIE
zoK&T!G?suM4Nz36N<rT*B>&TA=4(Gt-TQH2B~JaiaH5%qNpnEH<oL#7p3!JMo-^RC
z-Lix^SoXVm%}f}dO)hoR4OR!u_r0~Q>Y`BMoajPcM);XW6-DmsxK@KACA!C>#96GF
zh)|m8Qdy=8h{W)sc=VzWXH~LWb~(PgkOWG=3wZL6Zw|(3dGzqZFoCdk83y+nke_6j
zu#iKY9T(j9hgp)MxBFa=@cVog>_v2XpvE+(blqf;a89{81z4y1iP?H%@0Gi8Og^74
z(#)6TjBJdbU0>506Z(f<w9sPXG2L~Jz{%mMwoi6XF?*w~UK?=6wmrJBQFqXB*Mv@T
zgMqIWx(cFf(mopA`UWu@{ME}=o6yO(+iix=-CpTSee)S7NbL4^o;<YS|E8kh_PeI+
z9{-&v>n}-vc}dB7<th*#+H)Q6>xBdR+orhR$-Tq*mi2n=&Yu31YuyTOXVZrksz?_W
z)7o0CW#q0ytqI<#Oq+*}nTaM<(=AiNGPoa|Sr!VTZ*RXNySF4^yOH2pWVWn!Dainq
zVcHaEubuXA*SLD#V?n5zYx)QZeT|`1@q3t0=m0!N302zdA?(>C@c#Xzu)jirC3yle
zv%S?erEdcdS&vPv-{Unca(=PvXq?sS?!Na9;)?yA++WV!ryRkd;(lo^x$XHvRl*ko
zq}9HHv7G_oYAG~a{$1L`V)O%)<-I)JY#PFPg#zxY_k$#Zi2g)Nmfj;jx+!L*lI8E6
z?8PVU4wjTrOg>8qzpW3e{R0GKl)ho1iQREaT^idfa=tx4_!Hw3ng3?192NXk<DNp(
z5P;Z+9mq0#1#)?$cyEfHf^~0S)gJkAVL9$g^~hy9C66r1h$)GZ9t(VE8NLs>{!F^m
z9x6dqsmsSUHc~RUdD*so+E85E#n~s{XXTr$19TuLot{82592zL)kg@Bbx$c(6aIuM
zs{@Bk(G<yh$l1PNsQu;H(YJnGRSH-ofqiWrS))A#(?CP5D>5<FTT%2wnPa{+`)O+C
zz5Y{M))&;7_he^&PS~VuQTYsyGA5c;mcJWqw_LA|FOwL!EU^t=M#+q9*|WHq5Ju4J
zU!SqqwxqcW)IbH}6MPnAkja$`=CBY(#jO_#^)|V5cN<hG?nm^qL_IdQ{uf<g$uBQP
z>LHj`BXlm)Ur#!f1dhT7eoXq4tWDhF9`=L53wdOjt}qx&3f7IhSBw%xlHr%8!a>{4
zy*^vXa{jT-)WzecG#9;gO|y}u-i!&6oFTUfRX_b@wej{SuB{R4JnaEQ?}Tn4L?vsZ
zLqVnEIu7o&y{|RtCxe|Jzv15N(;+wYdavE9H{nf%r+4E0m#D`XZz0-Fu<ca2&iHHy
zn6*R+os}%%%w=4=&Vw7(@k3`br_NN7a2(|c+WRGQc#JCxTg<>Ib>6#%4pvqb3^4(x
za-x-mnPJkd#6L;#yrtD<a%In8_jlD4;YtBaH7qS9Vd;$wTvJ0cJKIsO?cN2{Rid?J
ztSX4O9GY?;q~q8w>f}~bkXuJ4gf@Mxon_`7fYVw167Yld+cSo5!j=|H5nu)bOU;yx
z@{4h<J?>qo`$sg~>MNyqfVFeGSnGu6ApWK~#WE%tQ#Zw?KO*;z$;D*fbpNBFKCI5N
za=O43SpHsHr8ta}zi4JgFqI~-dVH(1wYcy@ueRe<gwD;iC%1pD$%)5_2%5?iw68HS
zinK#Hlv%{s!2TJ#w9@oyajw4&CTxglhu|~1-teX0St%()f2nbs{la1V`(^3Ms^k_}
z9kM7vV`dmgba?`)nl6|Z6aTvfKpY2QGPGNAz;bO~x<Sc&pcTzu@TN5|M6C28TbLn&
z!o%7!otys}^i#a?I&^}7!9G>a3<(c1jCnUgpp`R>hog>o+pmuD#H=oW9W|Wg11##c
z9!+W27AvG$Unl@&fA2#|lXUkYAr#s?A3A4|uKCVz#%dEFjKQhv7@pa<;%3Re#>H{s
zr>*!@S*mayl7KS?4|;K=u}6{+US$n3qJ_-)lc?Ot7}q@5Qs>qJS42oCB|PYO3rUv;
z4%<i2DoNXScI<vgf(T~rxYsw5|Hqvx$<XCL7fZF`mVjL1F}kpsRK<0`6}QrXv;qoa
z#roHbGEfP>Loy7r1!Aiz9t0a_Z*ozPNFK#&bwQ0|=?-onJnNdQ)Nl+Sm#M<fbp3kj
zzo;P@rIQIlJjE;+CgTgeZaXs=)KqXmk0g%LO2&p_>&>sTCjcu7;KfA{1Kw)GnUjSU
z`PeOM{KhuCsrvsxj>VIOpKDkSzTop?V75l_%GA*O(B>XqwAhDVR3p`(EE#C$?9*G5
zU;V03*JvJ1H7(D-s!P{KZa7oKYR3<It>XS!5_Fn2mGDBzR~&EZO@8nFz`zAWP<rl6
zd*!S^<Gf+PjhgRN4@zHGRO&kHY)n#;;Nm<ZIq=9wd`C3cS*O!h&i}0MbTD-s*s)4q
z4j$W~vBZ-?c7YL`dYMFd{mdEu4Ni3WAd<fUQ>7eFRo|E*T!<vL*jjSw5)|bB4gDN=
zR+QIpisEem2~Jzy1Bo0@T$OhZ$pi!UUp_v$iH*ZX!gN^T{aSud@wuTdkQj)v)g-yE
zyH1zmWOU!3)RDVHi)zn>H>5yTCwabadmYuRryil_IL9;WnAm8#$bJZo3{NUrIjQA9
z^#A3F5i51bmH`-Sb7?XFf)c8$F=1#Ma2=Ja5+{WX?Taix^zOb)QIg>RB8HiBzifB%
zg319FaH-j<YZGf@EmIf;oy{!dHm$226)#@NHuq>-JaZ_?u`uehC4oRfhkh%|OYRRn
zAa>63_h#$Ymgw@Kp=G?=!c2L5oQXQ7RZolFs^qNkwU9E+t9j%Bx~|&;Km<38N0Dj^
zaBM9W+)YH@l&y039&WG<9dtsI-=?@^Ybh>nN~~VA^dX8);dBryzB*d*h>Q1ChmPJ{
zKriPmjmeo|?LT!Nahd-})wr!>%?qA|e1VkqD`Z;MUQcz5F9`*rDac%%#3nb%Hm9>V
z&K#$C54{1akbcC&zD{m57<HaB@F~9v9rfkYzc6?~7q!LVsd1&Z2xJ%zR@FO40?UJ}
z(Yy`<?cilu3c*%Xa4}o;l<G`Vo9hnaR}(UMUNShh=&OJHUZQk0+opE_UUnxvO~Mgs
zRpsg;S1oduRH5T;#hY3d(hMIGD9MY626frK+XJUa1^Trn$C3|f^ZA`&<z2sYdr-gZ
zhVq1(#ZDVr;46NuCnx43${Jietj)z-o3j>or9mM>C{hpbLX8Xqa@zXrD(4{6#~fNV
zw+NL=0#B^TM0k@d#eosAY9cxzWe;K7g<7C5NHJ6I0MUn&ci|AXszng@@VA6vp_la6
zPrEqfSe^k>A7aHSj&gBqkeZF9iB>M^jClWF<aSXo%*8HNac}o2So)5EZw+`klInGj
zKNeNt<tcsc0=RB|)TZf3A(bL8xgceiH_3I!UT5gLHu<r0{AtIC4D#SCnAFNY&Ag+^
z5$d9|li|7+gI*aGYYNp0FT20;p`UqSJ1V9(h4Dx_1sr3yjU4@n&J#yHOz0t+EUWal
zvt3=p!od@(EaCcpsX>doiIJCH&KQ9V*AdMZC|*pjKs)t}!x#vkN}JkH!6nG7KP*3^
zLYc5%7GkN>m0Q8&{WnZ*14{M6X^M6u-%HG`)w%HcaatThis1os%zjNoEOuIxc++F#
zQ&gIxH_t)@SH7J2%Zh7HwXO7OWH)SW3P)+Y15+ewDe@;K8%1A)&2~c{8tYFDAln%!
zc}_WYFeQ<sH8WmOE-EEw=wEJlmrD1CF0YDG?P>GTiyPm7HJF_ZWQud$d~5e}Z+a7T
zw<u6^GFSD?eV=N|9*yHe1i|w?10$AKg_HKdr)43HZJd$!N|^FVrW(i_e%bE!jiZD+
zZ8ZGI`ODM=nE{^x8*codoBhL!2#*VRSXF6u)d?wfWv7ji=S<(uE9w-<$C95f3Lp*r
zG=Jdad7xisZbk1oG-Y5;3EB9NXu|2XRa<qdl=mb%?H_{yd@dLvo-8@6k-e{!BFJHM
zVwM~nVh()hTofBOn5+7-@Ti<D|MNRgoDIKV(kC&VRf89|E*!!*LzL?0y~HEZ_KSHP
z3kzT_S>!?c_IR)I3W*s#97-xIR$pyinHEnK94T0IO5m9)dtU+0Pa(N6?Di?{-rUn;
zsvRVM1o}CTArDRm<7gB1Gi~W^)ij^L-SqV*6o~gGOr3jZS4wxrIN@&1#R`mBHUIUA
zoDspNG$C;*qG=xO8*~3;RxW>CGkUpXaFSHyWlCUcX4JHW>@P2P?!*p&t~*(a*YyoL
zRNt&8vJ4pH*{EcX3o+ILixrV-|5p>DiEX9n%hlhec{q1V<LH!(tMoM&!1j&mUAgI;
z5=ZkluVWRu;?O^w>rsDXL%*&j^a1-D$cBB1eJodW?5nMu@kYSCkf(3V5J<~@a@{I$
zZu9&}htZ<WoV!9-#rR%ozQ2;BJ&nShZD?qS1!r&A)5~!@-#l5%AasPIlRBZ=*>C(y
zrT?5;<@Vz?cnHc)+|l}Bz`x1+2Ea?=U>eRP?>=LsY3Q!wD)Gj8JQ8UI%VdvPEFRu*
zt6O5Ea!&O^VUek_<#f}Ackfp(>o__+Lro&#@dZkP3&LhU<p=8>wTg;Dsi}!;T*Qk;
zMUWrgBZ-&t?=@UGc)X@bC%9piHOafnMRxjiV-`KWFiz%Ec#tIl)r8z`+NM7qiR)G8
zq=)@aDSEfZyQdn~ALUn}#2UK<%I$7>IX6^@3T!l08aD<HUh&6#*Qvo(%6ZQDNuxi8
zB$-uy67ocwRYLFlmG3%6Zg^^S7gDCpN9QmZv;Q^w2QJt@lV*YjwioaNWA-Dtx7=&D
zzx4}>pjTf63Mui#RJoQl)R}fDEL4m*x4f8(aJ}b+YuF}ea0c!@jYa24^^&VbvWxTi
zE!x93mz|cL1^o6<VR^?3hT~#&hI_pFMdVLxd2TMrkL+P&GEYonoc>u3yHkqLucU75
z&=)bD|10T!{&JW&RF273&QV=6My>qqiIz{G&s`SYbkbFgDd7^)C}79q9a;AD^AP=#
zXjfQ|Ri9quR+V&84Ka9M+O#p~{fOtx=$YqVY|`v-sgRzhZgBfFW8NmrV$QdY*XSp;
z<Kf<uuhckUO^THUH<~jbuA{taT+qys?QELKGAb^w;SoRVzUact&cqDTuL*xs)?<Kd
z{c~&+YDQ^WK;wOn*C+bwwjm$)wlJEGI67=dnyKH?kWbmewWu=x4dy|6ERlz64}s5o
z|Goz6x!kaQa?n1#fo^)(x3Ey83^I7a(akAVqT{-u-JDY4U>$HE^PPJQtFaZjF0gHQ
zNc3X9&u~|Rb)=b3zu43!27_E2q(MDmN#lE?my<C@&nBIqFo3bN6e8|ptJ_+lQYQaB
zJI&;B^UxjS7>qCT1=`r_-Zn|0=t=q77RC7agmlAFHz%&yXV@0KRl%+#Aqd)u)aV)H
zjGF+JtAJ(SYAo+)#c0FN#R-YJB?9>o8)rY0q8-OXg{m?mUN9}nzSAAHq3dwEVL!Im
ze3ZveaqO~t3Ty1(;9}lNkW1_^k;Ns2$umhwMA)(p@|L|S#B$59nT&}^$;U0Ft$kE<
z)gbBxpE&#(Lg0vQ{W8qHlu#{CuM6N{JAJnTGG25LD!x2PuV$SV+)u8JySW?R`nf?e
z$A*lbO;b8MvFXmEUU|uH>m%M`lNJL_uc&mHMfc#TKGTlt-7#i@A-la151M%whG)ZQ
zxL$d8%4#WXB<Z%TGYO6Ey^EH+!64_5@HNG+BJ~~m$Jz(rsmqj_%in4%wH9qZr7Xxi
zS=uO1-_L|VAZ_uW-Q2}$Y~#A_knmVl5s;^AZ}M9(4_u=6T5YCr)b}9@7mA1k1a;Qo
zzJL;h{qHXKXCyQvD6AP(@3e0&*iMyqB3nUK2-_RxA^SRRgl9~hnv$&XogoA-*}amR
zQ`Jr8srk!OiI%738Rd(OEX^-hV}p&{l0bLn?-$B8r0-3#h<i^5i$1Ya5jsq&SmluG
z%ik#L<ou^*PDQNChAeZGFVbdZv|*34K^3OzxAYPXP9IM$G2Oa*BX~a&?k2-ll{GnM
zc)Vs^f<ru4gda<2_mv?wHns4)8Q$N@hfOV7Cr{-!&3iQ$q!SxW-Jm&Y!fijh%ZDZt
zA|I^p-WE%lf0pipbaEY7!3=4Sy-KdB7_Up=c|%rm_mi$9!eFm#lM};jBqg3kD;FQY
zLc06^i&v_V4=TYIWrtJxN^L>@+2bw2HJ{hNr{z$+UZ+7@ty>cIzS~IQhNoky9j?w6
zfyPn-H@A4rjtRcfu3db`B$N&t8?$J)3Ai1ejQsgsOROiO8*E$)se$-8!^D!G+JvP#
zToJyr)SFx5ze=F)xV~?YB<CZO_yvgQH&qe^nEJlHRpZ<&tIX0)TFgpRAY`Tn%-2nJ
z-DK<lEsp%$S{m)?@1L@euMiEnPWa$oHteQ9`T1-NtdR9<nesRJG0z-!scl-n#T02*
z-;Mpv?c~O6_TZg2;;usmi5G0i^7fj^J>N(7Pq+5BmgVy5rU}oa;nVioUmx;4LFNxX
zM_KiDBm6++dK8))y3Xyc&d0xjc3mQGNzTo7>VB~e6c!OHURr3{n6TINP`NbRvKwCZ
zy?(;frg^S#eYMBJ|61L$ooma=8~cE%uYS_bz6Rx~?<e$Q7SX&-t!0HjE+kUf`g}fn
z!ML>69VG2u^3QTX4xNG`!DYoNpTSYKeS!Yz^Z4H$`G0K0NtZii&cMSeVXRNaMtCB(
zI7k1{`*2kz=4TX|K;-r_olYJ_Cv4;kjq!#ID)$C9E)}jPp+R>_G-Ie8TuP?bT}n=7
z?Qdg^B1A{mH;ajuvJM@>rQGex5w^#05w^OIK0!lxpE!h~sOjtm$5-r&8@A#oB(2*X
zYl-4Q750CM``gWl*KBV4p;Wo*5mZqlAM3eR0x-w-lQHFAbXbp-H)D%AItr`DF6t6C
z1(E_M<;^w%-5xE*cx=5cIN#kg{gd|$?m3#%`37bq1}nX~ZB%lN>NkhWAP*~_kwVKb
zyLl(6bv7n<y~qOB5Ogi3dv`?~WpU}!sDC6buXjY$<5Twp3pJG3hD>(X!y0jHg<2BX
z9g0P&S=x&!*q(D;8HU&flWnm3P!lv|=rp8#%^1p(-XnNVRO-X@&u7f{r(w2oB75sL
zrAleHy=UuE*uR*hTU6a;HV>RAaY`jNZ%mzPxMoMflz&ma3~@5(v1)Bz7WJ}7&%oC!
zAkl{UGQ~Jkp~69(W*02@l{Lt`BpHNF2VTEClc**)76QEE=B>&lwCMco>nqz>;>#;i
z8*}Y4G9U6lkhMpm-m_zYE1gRyaw*_hW}m62XZdP*cZKP4HSh*y(|87@hhR7JkO$kN
z*dJxtTi>kxWXD7IZQt7&0xw=Lss2WOON~p>s62+@l`{*LTdaQd0Wt$-X~Z*Om~U}r
z!D#*py}>@Nld%?xA1<`m&nv)W5rruh-b8XOv9t;L6-a~Lw*#jf5#CLIO<JnjT(CJ@
zYMfNfkY#;Y9^;x2g7Z&AE0qPm-fI?*kDYt5Hyr-7=iKqOVmIuYZD&GH&je4h<Ij$W
z<jH5xc~S8)0XoZr$@Y%=fmJap=5?b|@a?ws59rvktaprqGH;=pR8v1-4KD=fE=kRK
z8j63b1q~QUk%Oy<D&Xqan~P1+RPaTqzVU94>V*)>uPXo1?B6W>JcxWZ)D<c<cN~8~
zr^d4d*w{B3s9eXe<-Xb+?1QYi3+CBX?E0<yRbec8r!rySIQI}dcC;Y6g8|o<tt1F+
z`h5u(wygi*yxSU?Q&H(`-#z&K$z_H_V*PxgDBC>nGV2n$OVB0DCLWRYcDIJmeWrH~
zCDXeFo%{<RRJch34`k3b@k1rA?s8lRu{qu?5dC6zk`HvZqS9!uJ0|4bRU&bJRi0{U
z@1q7Eocnoj`TgbHPl{!j7jwAhHhI!t{HEeT@%LkV5rw^pEVd!>^7m3g=Jps-Z&fk1
z<GlqG_RM`+hcw{)GsIpmZ<`L|=g-MQXf6iK$?QRiOI|HZY_{QcQa)AA%6Y^kLjv#m
z)AHd-Z_uEiyXER*cF)j6ADe2M8TR2z18RL-i9g%YdT)5`-f1r@6<Vs=k3q{%e!>o3
zTG@Gx0nLyv-4q0A<yq1AQ#orECzJ6F8*(S9`^y^p%X0!5<u5Wd+S!2wqSVd2`N?ey
z;e<I!BE<~7qx`+wKqxD{ug#TnLX7riVZ<h>hsuzqyjN^21n1xgxVm)<3;N`kfm^8l
zoLOG(jX3Ms-myQ+?I^HOd2nFMb#(5Bk2_L{9|&pBW=v(X+E@6*EJZIaP+Fajka}gW
zGj3dUm(bOF)~_AIL=)=*4K(I%dHk^6C?$_>28HuEr`!5Kv8Sg8lO8HkUF%}`W#f4@
zho)?yvBtm^i#1sszTBF#z%tLP)dc0l-`Z09dxe6qB9{*kf6zWbMRWW*ZZlId;oM5Q
z!`59ab;!d4HMbtS?Z&+~zTKuGNyMdgFT!z=<kS7j?z~l8=$sRb-=%xVb>EF<riCa2
zCi|+fUMyt!d<=*f?_OJwb8Sqd?r59+m-BEqPX@hSt<4vByE9s(E7o#r20t;feu7@S
z+qXO6t|mi5bH#={je73%MgdOI^j?t|Uw-dAC(>%>uHbcRm82h`u%*^%92uXGX_F?-
zHpR$|pXq+tu4cQKks8m&(nC!+%+(psCOmGl5HH6&TxHf!MSqy}yUI$QFlFF~KyI=0
zsOtnHkkcH6&>K8by>p6|LswY#7I<Y{h);sn8y-D9SC#&TGPPjLi7K_gjSUr~i#EN^
z4062dE*v*VS}y`rF13*}*USNReIHhMo6HmjR#m_7C*_u_jy-fiY>Mnm%DiFe2~I;%
zC9ey4s_^}}_EiXruF5cjenDKo`R8N4PKtIy@-7@_p!{v&|GC=?FqPRe7|*piy}0j_
ziO*YW%c=?E*)D_E=Js`A|6=|njI+(M#skt`a$X&quYz7ZS|M`lt&mf~=l3}#cStb_
zYzvE7EsYt2RH<Kam`>{l52mlgc%x}r%R}|-I`BL-!z!`tH^v=Hk_$xv_4Ce3zGg-r
zH88IdnxU^)uf<N9Ne0k_I7Xh#lNokVi@9t(DoRL%QP0usRlg(jBoB5oB(vHPl|z{(
zJU%(!BUk7a4wiM}C0RJ%2b$z)@@JR(b1fTs+(A=c+FM}4{;J{qqP|Y5w5;}o&$32Z
zot$bK!nwwp3AveK3yHZsiG^GkhBt)_`9e89XFT$Lnp-LUj-kiGOju|!yJTKLzY+g?
z!}g@`%XUaly!ZvNUIA<9bwj<af$mE400UgZhYXnA6{H(pV?NbVbG?!;({JhQnOT!}
z91@!e*sCELKvG1bmuF+(@|BXA)1sfA3TFp#XOU>g5Yf12TisWuFbio*HQsb;^ZYC8
z(D$#hbT5)lq6Pt57|sp%;y?EiA}8`j&!J0VjY3x%tP8p;&U#&QuF9<|a*-_3MGqaW
ztpeYQ(21a`qb`6wA{k2GlhC^CfxuC7PRMR^b)(7UE9}&NY7wYiowSw1T>vvhUw-xS
z%9*Fn!ohadDwl}1wt*iwQC7{oY``v<YLw5>2%O9j%en7f3DUro09ziYrD!Foh5f~b
zx5-tLz`>98sV3~8SC@xQCr(dKUliC;d8a9!`Pkr^5Xpe`BFWbtn(^v9d9uxve@BVT
zS={}4`!u~@9dM>&-d_$PM~G}83AuoF%$ZQXex=((`9bM@bNDry=f5Wn*j*^3{nk)1
zs&AU55BO*Lo>fR8yL4+9V)ppA$PA$5Y}Qa+heSWzCFtKSxHg1NY4GxLSBvAQ4Z7-s
zq*S%KzCQ4_NJihoSPwMcaQyyb{dzuL_}O<uez{wgChmNQwZGPR+<N>kmwJ&r3bqny
zW>~GNdv^|O$j6`m{7a1`ogTK8S8#bhP2Nv_5_C`jk_@#Tzt#3v-xZhbE{*^(S7_qA
zNY%e|M(_ST8r`oeKn91G>RbU5gD10tCtf7t`rI3v8buiwjKt+P|EZB55HdG6KNEGE
zhn>NmE6p|Va8U(NgqG@1s^p%ziYqXUxuvD}X$N)QDmAHZncL_=yeE*v#ryqRuJ#9&
zU{ywh->|r?f15&mOk$<0b$3eJ(LGAjG++IaBV(V2Ms__l{&BYxR?ie?4Hc7qLc#FK
zkq3rl3wGaWxDc>V7UZ@wvRd=qTcThgRQe2eVRvXnwWRZNvR&uQXxuiI63#ll_Dugj
zZ}z)mK+63u$`bIs7g?vHrOe)QTujNSRPVIB{CE>XJMz;nvdL~8_kFi{=Af_|sLeH_
zVa3bo%@gEbYG*FWq?3ht^8ByD@PnK^n6z;9Hq-qEJ2=GGca<*~8iDI&4jFP<1i7ve
z)(Kwl3AxVyO0`Xz7=Rk)zHHGBXJw#Nn_|7>)REf_t33m>Q3&yc#9g-|c8c>b*BA?L
z6I>#69m#@0JNxHn1Bdp4SMkj&YIDxn?Nb}gGZCGw4+%kC^%gk4bRJUl0l8M6i&h~c
zJ&8n_qHxa|+!*fzoi(O{mCo%};a0T}7F6*2*I34bX2&<a6GQGOOz$E#!xktokv|r~
zE!`FuBBb=%fmZ%#RGEYB{w-z8Wv$8=o+XyH!HheK<J+N~WdEt^pvd|g6DEvE#=m-f
VhH2n(*fHQoLlu0h=!RAJ{{exRe)IqU

literal 0
HcmV?d00001

diff --git a/docs/source/assets/deployment/dify-create-chatbot.png b/docs/source/assets/deployment/dify-create-chatbot.png
new file mode 100644
index 0000000000000000000000000000000000000000..07bbde5ba28541a4d64aea55335f0ecb7bfc7ff9
GIT binary patch
literal 271534
zcmeFZWl$X7_V1k#2=2i(!GddW7=i{TxD675yE_CY!GgP62n2_L!9#Eh5Zqk`9b~Y9
zJ2~h7vwP2Z^He=mPt|j)dZ=B^bocJvz1Cjqv%Y&is;S6fV~}G!dh`fe{*AQyqesYx
zj~*fAp*=<H=^Oc&^61fHLu)B1HF+s1S~V9(3u`;`M~_~{yMOLdM0$(Y+rciwlaDh|
z94Uqp6sG&y9c{Ru0JoM%J5@KgBxv5ulTMh(?fBWaF&<F(xVYjzg!ap>CP*07m)U#7
zpnR$zXzlit`^;kbk^S@Rvszq<VjD7j7k!|Sp4OA9lfn=e0@Lht(VT&zGUSzc@=>a1
zWgsc&w;{tO*b7}=rqRn%k7UhtM}I}+GnB;m0JUCH0XB(`1eT5L9Nuw)c0bjBL?lFE
zizjE<o-`ZOeHmxl3UA6xJ{LVDbf%x#B*|=2Uw&sS(tjuwwm*SnjcZOb@kX+T(jqV3
zf*ZnfzencoOE8Pvhl6F87fHajAD!6!RyN3sT8j&dPLfh8$wg`T28JybH_5Tl$G1Os
zHckDgg=Sayq&0}-Mg^m((s}7;AV;~NxT`<?^r{NQ2@U#b3JOw)1l%an(;)H&{pUTJ
zp-}Gq+jovKtb0Jja0{C2%3CNaKVm_&(H=dHuzrM$Xgx-J$Pu64PX+0ZJ;;Z7PyT2l
z<^BF=Oly?xqel{t<fUJ0dObeKM){y6LlNF_2-H<4XGVW)ttKI<`K$-$;Ancq;VpM3
zqM@ycj4uCLLV}#3DBhvb^WiwV&J}jF<a*R*Z~*i|z064y<Q+>VJj-#kDB$6(bqS3{
ze)Hk4ZSb>%g2E?y28Lu)94{*Z+Q<L1MY17{$0t*5hyV4}zaRFmb^#US5&Gx<vPqLZ
z{^Wu0A(=+?*Gd08`@b7`R(-+}Nc8_@!<YR~01VB>vxxYwU3fWPgY)06|5+jwKhKK9
zlqq!X`5!m+zg?de(Zh--|Lywpc&5lN=VfNmO+EgPJO8ss|91#J{NEw?zeDim|NBD_
z8B=}7CGvM;N2Lu)O8WJr`WG9|UtY|MFwbgdBwYOOU%ZW!P**QN_{hV;!c(rl{)2ao
zJS)Zz9m98h^IyD}(+7kP^8AqPM4bAk%lK!57K*M`A9d&YgEHa2I8sUzgd3tVVan=Z
z_%D7e(hup`;fn`K?ufto_D`pZ`r8?!&Z1j7%m2;y|J|*<$d$0$v^?z`UE3Zpcz+1K
zP_J^JD$}czZ4NnI36DugNnw0t`|C3XQGx>7Ls?l_t?35i$EYY?I|VjVM(O{2`}h(j
z9e9VdSjt&^GK{+`!C_HFz=iH2#hqA}<qy2{;^N{+TqNR{Egpv{idEpZjBxQO>HC$D
znE^O#(da5v;rUZ9z*RpX&%qA9%QXYZ8%fDvA%#R)>|(P%kBJ(8gO#^qExQVO)w_<@
ztJ(Q36X<={mn5F%cRyCP)>$i4r40BI2Rh*Di<_jm{~Yu`#^A*#iDr^R?J7McxQe(U
zf0;~%JKjg}hkcRj{Y;uoILK(ulGp|ho3rIcw#>N7p(d>8l#uBbxdm0T0^+KvYS7AK
z?63qLLG$SEzoqflrUl?Gc}6U{Y&4);x}yH|PW@wwlJG(vyh!s{@I3hZn8eTlxurLT
zy#FUjM1Rpr_>e6pfNo%b$b3FJ9oo@CgB2%@9y&NYoV3&eLzDit4rWkH&7>a{-gwrm
z{Ov%v-d1CgUXkHGlBOd;-YhU>Ox#cLhI(m%a^ti#C$Y^}Lt)EHDd|7oIu0_@mVP}2
zw@Wme!F`pGDoqCroaK7CH&H9&O6Ig}4ZW6g%!GHu-Yfsib{&~_cRBcI*?(%2EZ{vz
z<Fc<u@+L8b3MIwIi6#IVmKAuaWwEmNgd;`ADA0h1w=S9{pj!Mq##8w&0~Peyq3w3y
z;mAj#(SF7ByXfura+l+fxD0n)_?m8rW@{~n<_$k(ie-*(S?k$-p9KjtuD<==LARgB
z?|d)SrK@-*jVCWF4scOnx6rthdcL}2#Bc3?zXj^8a*sF)?jSJ=Sc(>jIPq9HWbt^n
z*raw;tsS8-BxTU=+;<tzL=)Ig;y1NF)$aa~tVW4{X?Um}#q%KUp0VgO1S}Cf#64zL
z#R)Lt(ImZap_7Ywb*gq*Je1|LMwD{<pG}1}0X+$FRO7nC$z}I^;<X^ub18QBUGLi=
z^>`*GCb@~pN%JF7CedEW5E)8CZS4|K*t(kc&0OlR$D~vSX$@NN_*X64&Gb^r=SM+u
zPX~Ny0`@VV)Zhj3T8#1oO*J%E^=o)kzvy?|1LkVo%h736ZWv9D#<XKBTW(+EzQIhf
z?HYVEj#ofwI6{s(aL}=x4v78;TOy$$8<I*w#iAXZJIB8tc+S}$`PNLy%dXr1ZcZm5
zEsa)HJca3pkoZvt-iB-(m7}QhorQ8H_$gKoe*E@`u@%(w;sSIHMaSW6g@(ILo%z^R
z%H%#gwzv}-igu3hcf|I89k=phB@^<WJ&al<T9U0|OM2Z7>FhUse$TMjkGLvg*V1JM
zr5@rBMq=Qh3PA5rhWQyi9o;0;Y|P!B?X}r@6_4w_qwMC*>c*J)WtMkBcDB8AyT%PH
z@w702&$LA4YO3fO22k8uA!6OizdcIg6c6Y-2(fB7sVakh=T+^82I_<=0gSiZ%<gt`
zH*-WBxLY_ykL?nti%GImIdx6QDokM8KX;U`I!aVeK6)MpoXEE~&8G316;uGljX&d1
zO1Ib0wWr3EKTMzQR&w74PypuGLg1916M8P|Wjk-q_<@^`v$K#=JXieggMRe(K8qyA
zk$ZR(!Dr1jL_CrtGdQvBdKLNh{`K$;Krv-N$R-;Vb=xw_BSCKm_dlC|lFo0lTc|co
zTr+BR*^)e^;X4Vic5)Kqh3ws-MEN-j*w3@=zH3%vs;y4(a@`(H-QBe!yP3fA-ib-2
zXJ&qDGS%QRWn(Pr)^XwDx-C5Ie*#ljVRfj6JD7hk@z}Oz%Ct(u+PJZ;;(}-|*6(2p
zLioybK(Xn1pcQAi%q20f=c~FSSs9su(>~!_e!FvyRAtN!Sbmg~`n!U;FnI|he>j!=
zSbz0vzoG9gt=of&MJ~k(>QXX4>)h=CP0WGAC&dv&ktL)vcssVMA+Ua#9o+t%G3@^w
z<G+kU9(0Gzc8hrO)ur7Repfa%Yy-RdcagB)FMwhl>Vl4r15?s~q#8#@x2QKiT05PL
z7S>9RiB@bo49GHGiP0OM^kP$_*`vkXSANRvCnKS-Y~^x}aCbf(6>p)kLofePR76jR
zOdPRe=oLm5SS52-Vu2LX*%Y>>TW5i7d_Lb`o9^yriQ@*TzvVJiQfi*gdlJ=S|DQS=
z^dwE9nfP!X<Y*?{QnSG{&~0tq>oS@%1Z?pb3QGl=fjh(nuAF(rGcV4J`6u)&*G#-G
zFD#F5Te%4B?CdHu%hdI>tBh<Jr9bQdK`U%xaR)3@U$v8${i(|Njp<X9ohCd#YJUO7
zP`u(>o2fL&<y@9+pbQQ9(8y_+*c(%%dYlvN(4$d0@{)F*D8j7z4rJ?_Mpk~DFPED@
zhjYx9EnJUDoE7k&%@6Msd9cCCQ*(?C+e8WNbhVQS1t?2MKrkGNjSIL;!jKEha9+~q
zb7VBCOK-GwO_Mj<sRWipS%y5l7`ZGp_WQOm{*4bP1F~DNxa=Z7yfkp&+Gv0inY4vJ
z!n<DO8tBdu^DTbYgF&Ej(_lNrclzmOvQgQV@M26aaG;`Nn|z#wfk9^ZVVAeA!?o{H
zMj5PjN;~L(29IOJNkavDV`f+O=L<gV#caf`aX&wC+>*?G<vHB+(dBwdU?7wmAV0;T
z6)aOo^Own7p%s;s3>Z@Jn2)x~2(!t#3$>bw2sO1&@|vBceB;sRyFZ+*jQRD|`!nY#
z&7@`eg@c?M^l)f!Fu_<hCh<_%t-og{*Zh(b*e;o}CsLdVnS!I~m5V)HzP(}<s<pMG
z0@IJScGnBnr{mx!97F}nPkkOe5W=Ka255Tz!ks}QBqXFW0NJOK)nz&7_~X0i;MmT6
z*NK$?I3)fNrAdnixv<Z7ecw;s$xX?0?3mH@?D}5rJHx@FY79O|bHiN;OobGoUH+<{
zc3xEh6nEU6Oma@#HYFAZc5J-A$ap1tB1IY<uML0|V_WCAY+v6%HO4|g*0biRDpUtw
zDVH~Nn{PfT4j19%PrzhY);|T3-DLYUo=?qb?d-DE;NfyJ_lE7{YWzr&lIx~_HZU*{
ze0qFmIp&^;RRFAPBK>5xTeuzerHHehl=V27<SE6FoLh3+Sx&^rRfu<flk8t1+Y$2R
ze#B_GBUp|Y;>1eCqWQVa7nbp1O#C#Da_RPs9@s8y5#Uta%C|Z0SFptD7(nanT(izO
zKawUS_f-74^<&`hTd|^mHeu*OC^K~1H@AuUE@EsYetd&*=t~XZaIRQDgN@b}d?x3W
z85i9;t79uCO~9pcJ728O*HTgVu9z&I^!?&u=dEL@)y~uK+y4nm^Rn<>!a_b|dyb|<
z?>@htsF5-Vp`3Qd3nRA$=?uTa2ozMRUfn(kBS=&-3>ZM^oj59Y4CD%?Lhix`1TgGE
z(c_OAQggX^2ft@vBhfI5eMnC22r*w;eI1wPgg5+q(rf<^uCM}#F@fX{I`tHjkjLW?
zTMFKD`}+*w8V9cXu0_RqSbi{*ykhy({ey7QVwf+O$}6j+?&4keQYXh(?u>vY%I*O<
zT1+MF(@O|v#+U8@>gT!s@ee)xS$t%Ff|J!wx|4$;N3yP?8r0(?bh`EwZh$`rJ0duZ
z$n{!wfA`HKR5mu<Boq)zCgzZU?sH+jGZc*u7&<=%q#xF)96L7F;1U+<2^^(Xy<hLI
z+A0fz4e~eSPynpIo|3=vD8N5Z5jqu27rha=-T={T&9ic-b34`go$Sp_$b3VJC%y+$
zFUyC02e%(4stQgsjxqdUW)ed5c**JU$r?CkhZ$RkA|Cx6tlDKir>pyy=w=>3uUX2r
z(jI<bU7GA>RO|Irf4#Zj<p8l(Twod&KqL(f4Igu}>D~lcKXa$3n?txh<@JlJ_+5-{
zZi2Hh(fB{iBuVr!)}bjAh~@fMo5q3fKFUOeJe~JOaj9R>z1~fgQtox?xkw|3&7fV~
zp>^Z6ne|NF?OHn*iII0yP5tdEc3&+A!z(QxYR?iw=hJ5B@!(W1($VeM@?}`xt!nBr
z)4*J5E<J3?xzO>!_Slc@IN+*TqF%95_iX?buMxH19a&9EKpb{}e4o?3RsapW%`tlW
z;DAyHepg=9`+90qtf9Z|D13n?>6PuwP@HkQt*5j6AC{pO`>#kZXpuWsukSLp2bgEv
zwBQc;b%})m;dmfZ7JKp)wRhUpwQIr?(>TfB-NjO$U18B5zm$s-CKKR=^~W?5^dzy9
zpUM|U+dkq_gpuY0@kj>R{VMHz*OCv6&SLLj^0GRmePpF{lndhT<DM#Y{sh|eQDgI%
zVQBLw7Zb7w_(7=ss9EmffTPXV?bY5$cE_6x0sD2rgKEMyCVh|{M`2**%elEZ6mf#g
z$h$vb*Gm}kCF^+QVlFoEANkI2%QDHu|MEHMeQX%|4@n_6Tl?ZAi*FP+mvSCcY#rBY
zBy~TE2t_;&_#lM=na>)n1m6FAGQUt*fZ;#1)suhRuUOT_1X}TH(43*BE}y9w@?^6!
z5hRWF*ZK8a1%tky>d*NJUoOw;NxF<7ciQtm#^GPt>r2X@&`>Y49)2Lx=T5BJX;aGP
z%wr$j=?BpGQNpsEM>4O9P!~+6#R5Bb#e-<?0ITxY?<&kMn|0OyWI(5vV3dTbe{d~(
zeh5EX1mWbft$Tmnnx6|2f|Vgs<{Kp=weROT+Go?oJ!17&-K`epL2;~q_UV@9vHtvF
z;7$_5i@#;kXo;ONED2)JAFeKA-Kqm0cvX0i<}jsJlII(2-Yf|>yx;oz>bZubj&2jk
znCeCLJct{z0ugizaT5j4xstruSwx?Vj_4cvJq>Xu@38CIG4@t3nW+lZRQbW-PR$$l
zuY={;*Ecpc3&+}D)h*`uPBT-NISc$@g`M{j9}1T4orv|G{%xRwUf_3Pl~*TqD^(;O
z=QvF4R`Ay1`0R4jQ4>*t%?2aKH%7eN4j1a7TlqRiMMTx}XC#MQja40WnJ{d>`GZQe
z{NQsjaO$G}g1beFeBo2*AaC3tFJ~L`lUz5(HmljZcC3KAfFSprj;O|u*T<W}e{@Hp
znW5TvgxbJi42f6e4@;0hLKO_E%@CWWxdlJ)ze!d|E<!{D_bqf5{yU?<g!pu3RIMsv
zZtr)pe<B5ixJNQA6J|q6f6t=6)8nBR0Mqo$x&FG<Stex3h1=sqyA#?!AJqTZNO>e9
zq8P0B*J1w~%8kVPjX*Y~xhVe6WB+H52?Dg#(Kpfm?a}|^BtdA;CB``<Rgmjm|8?L0
z+u8nK>PC<x-fXk2=g*(k)_V!b*+AOpnR}$i?s6(Bv4}XR*&Aia@+>7ioq>!jz0y=e
z47x)uh~!Bers(|Xt*%keh_UIuyz`*>hJ}TN!Y4T(tBT&`fxL4Y&Vh3`koZC$O#trn
z{cyfb&Ph30GyS_zNg$~&@b-8E@yt8#m4Cl{{sDTze;e8$JmeC%kj~SNlh{SK9a`_b
zi#YSsgg~huc<CY!j@K(~suXWWSWkX}0Er(HEuWoS&KuL_9qB%-Fg719moB!7!mf7?
zK_3JAA;$r0<Q_ji&zLU<2O7dZfzKK|#ZzBF_@70JzdNT-zw4_&x&_?&G__ve>!4h6
z>b7b+G~a&Adp9<+-{CwtjpVFoD`)CW#2<*jB?-yp)7Q1eX+H1hP)bZ;5p{RamU!r0
zIZaw#(B88~w);Mc^8*SVzfI%^po~7}V1ruG6K`oBXftTD5;ZrTVMtp+K6zk6t$nE}
zh2L?`q7hzYYy5#g*ZX+Gam%yAme&Bl*LpQC#}l}gK=3A89zkuMr6OM9b%OVPe;*td
z#Ye$Q1}x<6Vy)SW?hvAhCR2a!?H<pqm1NtHlrm+=HuP8L0s{*Ri&azY3ENOB`@LoJ
z!BVDr-fa1FMQRKM=-F(C{Vh(qFr4$+v3uJu05NIB94t1-xzxHs4_9&pwmJ1*(D+?S
z)qK*;;u{sd5Ny8Az#KV^N>nj<eAIrSAe8So*15E0Ly;2xzy^HIDej+JFMN(Sr(;eo
z?$WB11uZqz(x17&&t5>_g+Qk27oikF7PS>dEk^ncb~cUIQb_b_jmYnYE>A@NwEKU}
z*GW`CoE>l(j<!{|y`{pa0qMf07n*GI?0`E_*?Z58Vx*y(c7L#9ltoN~fnmwwS-&gv
zAg{$d1VfF+UtH<vdPOTCC+GQb;7uEw+IX=|vVzO0cd7hYNeq-|e}P7BVA@_}b6*kl
z>T)c-LznUXzI4&=P{v|~hIhOF1yLJE#|f4(X$$m}1b~6u`}6|Rua%m^j_@ojg#ov~
z+S=N!9~(aDCY&9oAG7=<Y2+1@PPRsR`&=9qzP7@<W_s1pzK7_5<{Tqp667^36_k|f
z5s^hHWuOwSUfm_&`XF;ny;!}r6Qk1XcG_j_Ln4E?_~-*(m{DAedj?%cY_{F#6N1@#
z?@YU;cHWA5#<IMiRz{r)+MVnvV_Lhstm8mvHrtJFvu0TqTWVHd2IYL~$GwTG%LrqN
z(_-zB{Xypsl!jG}_*j6OcWKOKnbYi>pQ1+bHdzgg@F?*Er}i&cZl-zn3aC3{$N*X;
zV_B?3tn>r!I$5mPIF+onGmf8O;x{VOj<fXG?zdppv1I!N&jCwgxLvIGN+D;zM%>-l
z599WCG124#G83A7!uPY(ECE70KGRuYC9#sT2NN|hhF+rswUXb?7bhen5f;Oz?G`8I
z6eSOfXEKh*JiiMXs$T1mPi7e?8K$U5WR#TK8L<X>O7EHhyFB~7us-8}#7lbv1?+Ei
zU!+WeTqjFs))LY_n@AVzPq9GUooaqnyj4aia=Z}!YPauep<R--SQSUP)KdPCKYXJ~
z*E?`EFsbZgnLDjI-yl>kLFz=#?^gj`Vvg{%F&m^rWK<4!w4EXTsj(3Q$PJ&vKH$o}
zYN%YSx?Q98x|3->-N!_^z%k#?3&gtuj6+<zOW1wd&bhqF?{=x63qPzYXDs~;E7m^a
z(Qrbh9h17^mY(xka(=FAr(yQhJURN+p4?2_tDIHoZkZzuac=^i1+F`{odIV6_dF_$
zcjCbHcN@cEt6y>=GDX43`6`Fxy<>-{Gg!0vSUa}f&hQn_z9|AiDt3oH34tvU8p;<T
zG;JCXrRckFDFYqKS5lQ7`+lI!<~Zaxd1=U2);dZbqW?BM(yNK1n+$VBN?Cc`w!|Ll
zTTA)H%r$7Ylol72WL(%a+|1XyN9aYUf%L=JnmhqFvW;c5uvOqp`IToAmiHcz_bB=F
zSFU3?oTYAuEg@=5Z0d*yL6|c7ja^B~^J<6eq@Gz%d<kghn(frJ8K3_^?X?mkTj6WE
z8^JiNJu;N?ZNY!d-UxoSefEoJlb2l#NZr2k)Ox-s2%qc@UekWm5d#J3KkG`^{i^sB
z4P5md3H6ki!-z4$`pLu5LS=%`8S&6Ta}-h`i8V#ROYo>ZKK{GS8aa1N)^FEQDPKFC
zVi3VZ%LmL*x=rlh{zBLa{SuBNr(-*;SRRu4mXKbIPAVr5O1&2#jcT0Q$&~A>q2C}V
zO%1+%O6TDJb)C#muochYC$HlhLLx8fW|(YQlHuFs6G&{UR8KAHQR`@A2#w#q?s!Zt
zpHx`QH1sM2L^^)9U|OivT25z~<C4W^qo#8-1JxBUn-*=}u65O%6;W-6JJ;{kqQyJy
z8srY_F~O33wfMp#Z?bQ^i-YQEgYB1Vmm;OBeGJQx=#ZZ`4Y2r3muo0`Scxq*d6!!X
zJD78$Z{B;I%7CVqd@pbI@z`39z*`t(+%^f@X4#^bog?acJ*#USu>#EBCQtBM9l+a2
z&CvC_twheigyJEcYns8VmKv64O97MS;ZMK~3y}V&p^;BjN^`uTUBLP>7v{3G=j#z(
z{gBw~mXQW5e8;OQ!e}q|QvJ2>*saHmbi?yJ`K)`ZB+L9r)Rn4{PEB%ODjAGsO50NA
z_ZyJMX{@8QO)rC8RVKhL-|mVpV5&r?K2&ph2<Fe+cX?#-gYN-CUhup!alxTUv$E+*
z>3Xv~7g@W~$-$h9`gOob{-Zw1yLAy8_eG-&s)>HIM2Ef)Ry&KRRIIblhz4eCn)eWq
znnJ|y7;SA(^Y1a*i>yb;lucKmSAIguO3^UN&j91j#TX&s_ND75Dg?TYuRr*B_dn@X
zz+SFqyV2`A^VvOuFuY}7y`y4VH`(G*W<M}7J*(2!a)(ST10o&acXhXlF(F?E!gg}r
z^+wkrrE*G;vSMnk2EQVQqDQgomZAtp3Zw$Pz%@Btvp^?2-&GcR28A()?C3}CUZsuV
z@tt188>rJ-$`k^hnI|nNY6zz_s!!@18a^pid({W-mRK!$TV}s(u%)K=_o05SRj!?2
z&Z<rEy0R35n)g9JPuthPU)#5Vk8%+Cd5QOAugg(7QwH~`$+xF(pAkEAk8|@lOt>Zb
z3AWN=y{;#9>P7EWILH_pd;5HgAXCijIuc4%et~4VHacGIZZpMIK!#i&7RWhuLqPXY
z9z7$Dl<sa0IaXx*4c+GVi8{HNSRS1|TElY~k5Ih~VMD(SySvRyQk|;UGTIj->)Cn}
zvZrfANId&{b`6pUrcnLJ-s6oF#V{{t^*R<?6lX$Z)9D4QPk5h_ZJE4G=EdmDcpF&Z
z!bVF|(9yhN&F(7khRVExz`&M7S+_mEr4qq27=Lg?F5{JPtwja4Nz9@MGg36UPhVZ^
zPba*_U1I5@@-JcnWZp9~QQBAHqxET{g^*%KFzkPF$J=u{(72^JY!UxvT+JXzS-4kt
z@a8zYd`!pLud3#ew7+zl^3Pj!Kf|o$-1X>-ia?*bhDCVXu|1ok{nCe7%WMO(irj_T
zTK%FN*KPC?%v%|sxFAe-ERb8%Zy&jdUhQi)z-#{L?*a7IhezbAcm=d6`7JNW;fOj{
zv=%P7S1*F&ixVFDA|?5ubMunu8ZP&!Fl(i$nr9?x&{0|;IOE6)?|hzmy5K`~#K~@n
zMOd&dk>@H;eL07rii%NAE7THc9~ZiwtLiq1>4uojz0U~u{NIz50U>#Q%lAOj=XOW)
z$?;<yf)q?vBrBZl*D`A2Zg0b@t$;E_g7ft@4gw9VrIQ!WMAoMYMujUZzo2ZUuEcO{
zY+f8J%j3-myU|Feo3!yuvw!;e?b#C9+D{_VO8Jc&7hP6MwkjvDHLu-vE2@gRyPi4Z
z!+Z3dj^pvthzy6Y>;?)J@OX(exe*R=$aGKHhr~+axawa}K%BD=wdpJJ!Tg1-&9b`a
zS8EqG&8Sg7m?teV!Hy7}YQDw6b(-ZEPO!_Zh+FBoX9`f$?Y`#uTSkbJ(UYOnloZnn
z=0k6h*D}jscboZ_7S^M=#=@gDW|B}vwRkL?0=>qS3v-XBceIXkK7pMLsNq4^=U{QT
zP@c#=6)qOO?iIhan^PzLqQK<DM0B2||675(IA9vjEFbx=DqC>kMh+UuK54qX!{X%u
ze7vL^fr}&t2>N}$C)t6OV*XJ~e32tDc9iXYIl&pzFwW87)ci0`vK8eh_hl=ES6s8<
zYqCFYg^xR`{d7_O-B;k$PkXElgQc?**ZI#QJmwvmeHtx?H&HRkq~M&V;6~waatjIg
zO@#3lX{vJz9(BQLl67GEmkmbc$;!~!SzYD6#|B@_Ld-2J(w$fNw?=u$ys%o9icY(N
zIl`PsBL?jkn-~;z&<0%*A!o+vsNLd(QR57E!_P1RpoZz|&0~|8P;S&i8a7CU6iCvk
zucExVNs`R;<I^aXXxDJ=Lt3Bjri<)uxjktism5+4`q}KsH^L=Uces^0eY!LS26;sK
z-D_c2c=oi&-}9q**^t^Oe^3phecI@D`KIntOU8t^M(E}z;r3d_yP|v62G5MEeYqa6
z^JPny@C>9j6j?cr7UhaDPBzMpok_e;J}LqZ{4R-Gur?zcOU`zQ1gv&L>Yle3XrHdC
z9&(-+BQ|?eV9U?O_@pn=4S9~ffmBqzD$^mMY$lWF<e*01Ce>0`as38~$t{tZ*TF_D
zfZw4>F><Jy)NgA<b%fNf%Er?W^1V%boQm{FzhNR&_sH=vMX5W|lHC(vxm0FG%~>a!
zHuww0OGmDVnrEigWR+*aPk+cqeyx5Vn)%Apv`L<a67k&e(Kh|Rzm$A0`zKWToiPVN
zl^!jrJjYtRSmnKDEAg=sP!mLB9cw+$A#=qhHW4oke?8tj{d&g8IaU;YC*m@tj7xSL
zH3pb+<E}Rq`GSHCz7>PtE%0ofwj4OrNk1XoD9=}9WIMzV6vH9!$1COPC9eo{=-5*y
z#M)?xAr+IaY`ehE4O2?8Lhfjlk=ybw?3=YB?Z6I33w^5VjiM3|<syX)zDbGL%CpfL
zslnW2{t=6aL54_>v_-1K9;)Z=-!kEJ=DL%9puw58zUmGoq3cuPA(rD;GPyqpXjv?j
z%-sqI@^~BG>8ai!ZeiF=<A#Lf*3y83MA6&UUGyAJq_TC>&WtMTr~+@^qzw(T(V)_m
z@hN%)3Dm!DBz36V(f@1T-9%Qdh<j_JL}}>{!7N8NW&h0q9e09ouQFp$V;r}111@j)
zz$+i|m4It*LTW-pVm(7khxJ{(?iT+LyIiB*Xj$aMyRIXDT2XhjtGU=z^c;0M0583Q
zh`D!)qHIa&E#O<!C<-+jl>sqDAIH+wciiYj%Kegy8bt~mvqfOwtyzhmoDIkXEefx#
z3m4}*2Uxi9sM}qWRnkr9(sMW1x0l&}WD_4x8!}T~ywRI&2X68?J&U8UTk23E9U=f$
zn)Y}Ne)LBs{NCwpl=~Q6VDgj!VhdZcb@2Z2izaDF*zF^AL7iSV`EkW$ENsbD<vcks
z5B<~8DzK%#Zrm_6ZT8(BG}*#X9P}utlzEn01riwDTHsC%W87R?#$1}%5=Xo^>-dp_
z!~KJ|NgA#7q?!NlC7+~e5jCWQgoIDeK=d!VkTA@AwaN_TnTWlBGC_rYF($fuCI_4g
z_QMdbG%h4!g?ntDs%j6wge)D+wAoJC2h!oL`9XHv>iVvGr#MJ*>_bgFqs28FF3#d}
zYTYQ|O|l)rC$L*j#Rl_JmP`_oDmcGbi_(<vx`!y_xI=oG)@^pq6%IEM+FS7_(9WDi
z?V4W6Kcda<grgCrg$K5NuOMNd;%r}|CL#2dn3aZ^XURP{%mrCX_-SE@ukrq*Sy&C_
z=*N?X1Gxh3*CfA5og9vTE2NyRZPwRU;pVN>&nI{8ZWDKodrkeM%50O@;NcDe8X>HZ
zd>hA=V=9PajZ#9xk~72INewhx+Bg2fx2K9kk0*{$?X1<kd-Hevp#DN_x&X*b#QMJ0
zQ<O`WVjo@DY_~!9UjG_zK$7^=<2QMv$h7YYZ_5opOYi6nY~FHX9?Rw8@-DUDel?P*
z)Q*}?8OcnVKTYF8;GZBF1pWzfZ`afR>k^S~kWjx`k;F5Fr2mOYBhiq&Lky**J<`zs
z`r<$6*>9@$|3FQNqlDypS@b3ar<JC%I}e(6m&ax(Pf2pU(r%VI5Rjq5_%^LJf`yk+
zt@F{1+yBH8YB>m!$2w*i=gsstmN)B&hUIgKO(yOV%siIiPVxRM#s2kB<9&y+%R-wf
z3icCKG&5G6Z<u5pT#qa!{b7ZUBiz(p2Qp;54qrL@M?3+~DFo~<>?8EMloHQKI8IR(
z8hqmxz4|twCxo1s$SwJffsBMqV<*=no?HLJw($AV3tUbW+@N=E-m7AAq30Og@IU%U
zir|qLQc<RV53S$iC7~_)Ly}!2S8^CH*68|%elQ27^vD0fd-5lOKVOD^io~07Xup&s
zL&T!cCDlUntE$*9x?g_qog9hzZq4Z|!(<F<?TR%ODqnKqdP@)xtoz@>wiMnrArGwt
z8q}Fj1IW69e<Fgge^Gx78QSf&2pTfoFQiyX|KOSoN{>=>ot>Q-vTSxY?-#1|jC^6P
z*LRu5@7LCgC&1>s@=8jd)9XkO%s-H=JN$w1!G4zhaGsK7e0<#HH<3VOHk;TD>-y&~
z7wd^#6M2=&&&LvoqChH1c)-gQEDDC9dmw{7uB|CDr>@5<(Wc6~`#!eowVj%Y21Sv%
z%mfx(!1X6eUrmAQ{o8l~LP9gPi2y1Qy^Tu53kp)`yZmO3KpW6rU*molAcmXR%U=H#
ziCby*$t~907gH1bh&wtvL%Rx2z(b`W>+f9DZh~vlVl){+s4}6gCD(H44|-t9p~d<S
zPM13e*F2700O(IKf&SN1<qFyJuZpY_pVnUGZf%nSVn~^Gmv4^xRtAfhd5dKxWz~ya
z7&LM~;#UgdH-2f%J6#tx|H@(DgX}UbP?e0EQs~#0Gyyju2lEYbjH=npeKeC&B`Ob!
z`_q-yUcsIw_v-2zTLU}GNrk?iugra=)2GTchKlS*$9t83<3i(R>=yO~?2QJ90Ah6g
z*^C1Oz9;=AhqXpyzOOk{fD%npwgPW%7hUgjQk=Wi&7obTD~d8=GlCHg4r_x->235<
z9Q&C`V<HUfat^-srHf~m9Aq#ZFy%Op(N{*fp;$2?morw8tz}P-0Ubj1VyzHep(cxH
zKVg2EWt#LCAsw^qt|{gUh4b7l-HIabTYKB&x;cz<8QSK1A>Ofro>@j9`*`=vx-Bq?
zXMd45nL0PO!YEBWaGAVaC*xO4e96VT9spwG;~7UFeF|`L?piCY5}{tFC4tQ$F&C`|
z44(ZlzUJ-gZ0I1&m!6$h4s6r@JL5!bm+ZfbFb2z_<bRYL5a>|?8K3lgm|{Y@Cr9q6
zZCp3tb@b4*^OkH}<_nT6*91|god)PkYY(*alb6$O0@!TF!TY2Vf?%wJQ_zF#xb}Ds
zs)hd5zN62dh!UdFbV{|c)9-f>x{BjT3krOkU@GbAAEC&J#1r8%`c-ryiV+^{TeHhc
zn|F_yhQgH%-v34jWlYp`u=`^hy=trUXiDC>qU5i{&N1Y_5^s-NWy6~7k!r?P5HE3T
zmiM4Dc}eABVBf1=TLjZksAI(58ozZ+*!)Dad94FDiF-Gl%3;h9(O|>K&7!G4Q`__0
zrKiVoPI<1ztQ6X;LOblA_kwbf(mWZD#&P1v!^@X0+VtU202m&Ig&+e$tr`?$PCfwZ
zJa6C4c8ZaJ2O7|w);9!>7(A?XfXnI?7wisBLCkN4y&1_v0cc)E4tGUl6J=7i-gjLF
z2vMa<I~Biv7%13~7Nc>3N8AmDJzwlq>UT3W#yH^aV?_Lg_6ETIWYpGlDckWV>9ECh
zGnJ`aF_qZaWz<Xsw8LFDQ51|}TNt64%IiZvh|PJ-C+|3$!oH%ak}SvhjULxHi_KTV
zRWnpERs4`}Gc%%mU^jgaT8?28<S;O=BriV}|2Cw&ygHQ`x2;35olJKmG7?rci;8;c
zv~g*dn0gi`&*MFpoUkF%J5EKgDH2onPAUb%LuB(FlVz|Erj<MsxX9X}#OgKNDeCm^
z7$NUH`lf$4>zo@*&&I3l#&^Ia{W|sR=h4r`hI(uNFGBa*>;_w-s80vXNpL=kw}FrA
zM8kaZlrurQQOk}K`#-mDh^nQU#=m3iwA!h-U?VhX>~NRa!KpZrzr6FR#PdhoY%*cI
zZt&2SZK&(;l}+`RmbLve^Gf}UZ*QZ@vu*I7D!ziK2(4L_=@n+w#NJ*-(HuIg)LO*s
zBM<^#17&nFBB3^`=%PjPhfb*`BquYl{<`_rf}vmi{?>A@W1`Ie9>(KF5~EYzeHAJw
zuU_6!#sY1yn${Ke6dk5C`zZw?H^nzweytgjOl>&Ry)fWI)PSHWFoHyaUkY5kkqM*`
zIOgJKzc!SrF-L{;9Gc+VLB(bjxnb1cK1n64Z58qSxbD~AU`7EOgoO3C_*6yu4J<bf
z?VVf;;3fQmidQedKfW_CFl21J<~#T7g3h$tD>g71GWuSYkVbXs`9#-g-F46Uj^J4D
z<|?&cxSrpQW<P-NuW7G(e%Nsl#{?NV<v1Uemdm`0hLQ_dgAIMU_87kr-d-jkSpBA=
zz+#Le6Z3J-N9ab9rhIf<f)+*H`-Mt7p>myqUm`E{1JZLCS>0E_?0W6=w^TW_Z3|oa
zjb-M*EsSv&m0anKKm{0bdMzzbMJJ#0=aQE`iZZWk>_k)Kr0%zKm7^3|&VZIa<S;eC
zgVX(qYVByl3gRHnz5Dd}VvxFel4jL2_S6g43S_|5D;afOmuM8~iW6E&oXI=bF?p*B
z@^-|+zh~wiI<+I2mM+d#j+HwuQJOGCt)iAK@DKxnnHq-^4>cZ&Ae66zy)%Hj7r(Ux
z1EbOC-4_hcJ3jh4L(|JRLt(g-2N^$@nW*K)N0YHU{}gRgzCq@h;H4L49817Taor_v
zah-8!-Uxa=Q3GV11oD2C5B_BBgf~;`iZOcW15e%=h}Jucak`lDq}%$cI7S?)m&~e_
zbSgZDgxu6E0!p^F@kV`&Yu1b6nubDzl;>Vk!wvof7y!|{Fo>Olz(ZhW4?KNezo16U
zX~Sh&7-RNHNHuU%f*|$f)^$?k>4NCZ1=MMJ5tYTe`}1|aOl73B{c~JhDP2%hXIJPi
zy<QBQXwxYH8I%$22<mq~_^aG#{C&Qpu*(X23MzfoE-SJRjYfJsIYG%<o3?oKv&h-M
zfzNIq6BV;<z3Dws&pWddCYPlFqF=S@n>BHsn8<CeTG8btOXhH(q~X2CYjw$Gk6Qg5
z`?pcT0wl*X=F>LSZv*V3`Ph95jNg9d01r#npB+22i1d`r^z%~wXw8{tNd5P+B$E|_
z{s*^NP#?$TcmUZ&CjP<GEazG!va=8+3Rq#5hYNs;Zo{^r-C$c0AR;11bHcj`IgWq~
z>)HC<*3{ZvD_kG-;q!QWKSuc>#tHCyo_%%8cYRP!Gfc2BeK^j6eR3;{BJ>01(m$!%
z5q;@BX3#VXiWR*V_6W9{125^W$B>JRw~Ed`GV4{Hb|4P4orw$_c1ED`cWr)(e%aaF
zYnEr88?RC`;N2b9KkWd1$M*jcJ@uXIwV$wR3->LSnbn6X02X;}2zD_3n&6~qgKp-(
z@rtk-pzxRW^`@O_Y#}P4ByJI*E!ynIJ~VSZZqM13E<3I~LMbb>^#qLkgDB@33S<3u
zT2npjX7pF&<i2|S(#M&sIWw`2_(+Y%|Ffs;O}%^h*&5lBItiP;jfHKGpbKf#NFd`(
zXH(DudImAL_Jso++@O^HkkQhQOabr)YgXycMJC^$noKqNj0E0{UPXLFUBd%LL_7$O
z19XGjlP;PH;}EnGQfjuya0{O4?GaWOS2@(D97Y*3UYKS-r+P4+6l;!+4MfGq5f#}J
z3^2lJQ{^H&-Xh6nuEwfJ%3{-EVaQy)Zn6S?m|E|;*x!9m+ZN6Bk*7r{dM)+q##tBy
z-0*4UbgN(stieL6_$u05hnrbHAUBso2c|l~@nt~0+@>D?;=6L)m$jc_F#m>vkjy$Z
zse3r5qA;XgVx~~J^^@;gm-+aQj4SR_K4UTvtmxi<>p6o67(c@XDnkjENd}Z3Tw{fX
z5mRdMhK8VVfP)rhixjy4pE0IA_3~R={%G7<&ts!H+gXz1{h_x&s(#NREOKaV#)%H1
z=GK_Gg<1t5nZN})JRe5XcoUT}xfOk2yDXfd@JRgW%BD4yYtJ4QYlMVC^kT6bdL`wl
z@URhAqj$=_Giv;W(<pPRr|XHk$?|h3Bn@300<sRgX9zL&Qns0@F#S%e4)<~2O7t|E
z;H)2T8Iw}oJ_~th1Fd`kil}`5I@Z-n!@)AB_io`RWL3yv{aL#3C2IFkTU^I4jz=2i
z2dcR!$~49~-Ry;&bcTO1nIJU!M?+u{hjv3Fe~1QAQ9ECXtLL&y7}+t_`uHo5=)21`
zcsW;P?`y5CcqSumpv1<M<Pk?U5i!m>L1-6_O&2O_+r0276?jfR;!bx)s;B)qXS?k(
zCpYyXS?PH)Ds|vEn!^QTYU1=#g+DmgA0#FEV@$EDgdV8|(j9H;GV(31e}NOg_|S5y
zPN!0UY1i{fzWr{i2agxAK*j`$Dbh&6=+ks@69o@RcYiR;`BfE%4+|g_*UsQ~SjCLm
zs2}HsIyCRddu#SJoVmP=)44Yp*D1GfUkN27Ep;f0T|><Y;+Q{%lO#HdLO09jmjsMt
zhUUc~KO{InOHLox5`yI4{!%(jfpB0bO)K38p))%z)0R91&#{C~kyUqreEX-8w;Bvs
zhxDF+Ae#if3>w(8)U8~4>%Z2Iws~1H<mqzYHgRq?Mrwj*4C<jonhd^1cUXs;7Y611
z=}$ldT|4$ky7n(beeD_ONGqq0n(r&k>I4%zjszU}Te$UlKylksS`XER|4v6=iXpvC
zC(}D>oGSJlCQ!USh^m_8ROg2Fph^KJ4O{L3LKj)AZYgDSTj{TH`*j=CT6We-ky9-2
zCcsp#Uo(zq^1si~SrC6qL^ZTvyExK#JUn!KWKfkz-Itxe@geKWll$eO4I8%jEtZK3
zz`fP=Rn+ljvcNJ4D+Z1q6veDdz<G0Kn_&=;C}rda3?S#$?!CWj#v12n@A&#^scFqP
z%>mumA6AEdSP4GxYd-oE<#*k_6DZIxWSPU3?R$}mLB!H8klUJXjKMm9IB)S2XeA+N
zV>Jy?|88i#*}mmjZ;88**`ZCu)}3FvSf%wo3}bSaSZbUoeQ2IIo?V8nE`gAhAG*id
z(OaVLx3>N!F+isKoRCoPB9%8syV|LE3w4P3!68Qw$3i6R=LTm<n6IC1!}9<Xs+MnG
zaID`$a<j3J7Ix=9iW2n*0Zp{n2i+aa8w2i#?1ed~W=;IsoG2?6CgN37PlCMBQjD6e
zF;l`Xqyo5}#RQU=KuFS<+@9cgEUSqJ*8D0Vv}rbA@{{n??4X`22+t|;WdV;JDT3ts
zzH}ed=4W}}@NCQ-Lhix_N#MUjLPRjAR>^+I74>W0{UJ<L2Z(!YWz;C#=xFx+yS`n|
z*C`A5thiXTF)-U1;~udR1Y<uUHLhI_#sjo5P50Qu&yESBczT^J)|akzu-!t<Z(XI|
zHqFLuFE#<<K-5ax?=G3@&@o%s4M1e961uY&yVE^S6A5pr?V(S{@g4R$SceG!ZN8Mx
z8>R?wD~(qQ-N<h}W3-G8^<Ry&s{sUYLOWI(7P#8azhmI<>Fy*4G?~}$IsK_ylt9`F
z`jFZAtn$s4wm6!9S11igFzEKPES6G<3sqwj%j|P>OE%HWj9B~a7hkuox4&sk9@T|8
z<JGrL;0#MuyR}WA5%&#o&ZfBqd1JUQe|j<d+}Pne39={%ZnX8X48DfuAxK<tKKLS#
zK})3sAtpgwF#BKP`9_B_$vMAk&n+7&`dRLdh^YmHjxOGHOjIUgGh=h%u?L){nsf{a
zXCqQKLa*(st<IcD0Gh~E&8?eV!ei*pL9>Nn3!>(l{97Q4O0}65jf;@HCB6^;<mxQk
zNI7xtIjNOZcXWs=p4xU}PUf(=dwMP1Le=7t4reYavq(1_Pq)XU5b+QUumJYuhlHS!
zREDUb4uKIuWU_G_V5rE}r;In<tZ=6xQU`I;f3Ac6cXImsZyxPq%j&w|+o7JEL>0l_
z&9lo}>cn`P8h#`8m80p?<&wM8Qp)+e&w1vZs|}<~M{w149zq_!yK9gI8~8|A1<2Jg
zV$e7krn6kY8>l>0w(YCH+29o-<r(Gx6wbIHtJ~fcbasYrL~=vxW0fr}^LcV^c;B51
z)(Lx`dqOu-j|bCe0EvXL5IR!JQ4BA%-{Rp6=N)RAyIS;>O66rQDvi>yXKq?>?@irn
ziJ_m;eW&F~Sxo!sXwL(jl%mTcP7i(pNvDISy^Coa$n1p;|BO-pu?`KPZpx8pZmhTU
zcw@%PxPZ_GKF1Xmo=u`o6llGjuM-wLcrARUvrJp<U==P7Yg&Am#cMu|MU8>!mBLaL
zIRu9)e6L^6O2Txb@nNz016|<5b`b}jX}7-et@*(z+s&o8cD{}FE}uh0ZagO7@l;w!
z_t*27q93i?DhS<o#2mnT5X)Fwq)|+XYY%0SVJDZ}-^b(ZnyPHcKrWh`NihX(i`>!`
zx4d(PX;{<7axihzT|27s-T98Y4N)~XR{&)3Y%50oSGivpqgo|X!3pP~b~c=7+5uII
z^R7Y`Z-T(>QZG=EH?uL-xG{DRtk_beU1?a>x%%T|q0JX`TDSMi!kVezYO5u#NPmh&
z_)H_oF@?1#<l{?PuH~wCYs+oSER@6nKP|BGTHZ~OH=oZhxQEyKSXk(b^t%Y|k$|GZ
z*1D?yhXG0;v~5APIg#%kn1%`dd<aPbNLygv3V>ZSh0e1s9Ba*=>4S^NEhYhJ{$D?-
zgqntNJhXP=zB7_<8o(qA|MRy1s0cYZMi*#nUj|b_UzyJ<k>%ALe>WvI1i5sMvBDGB
z=whYh{(<-Y>;(O1Ig^f>`XN^JYh#4BOIxQVRF$B_bW0PZ<KUlm)voM3aagGS*<I0q
zs8zGjVx&mlIP`5IaQz=}_2h+wq6jC?B7#W&dsV4Z9sy!iYhI3b%HJ6Ni%5i+08N-|
z_|LFcLK<(@5!@$>tZWhd57z&etsyiB9}tHTeCVhD`_6x~^XPx$Uil2AsQ>?*M8Xce
zsOz6YlBbKTuCDHXT36>v&&sOE!^_LS%sdWSseEs4UT&O1Pyb^M*lvzcjNX`MUVZ#{
z+79<Xv8DqS9jADdlw=p*qobp22wU5>;|XwgG42`6*KcfKZes?0wxkrWnkQ#uE;E_$
z8nl~~y)iQ9V9il!4>|qinqIuqT<_(R#R@&wGFVa2y{N13S_eBfSAOzslXHWgzjXa*
zcuZ}bXxViepgUG*B09p`bGuA=;QixfuSG1K=$ESR@uko7VVr2;@1LH47OoQil@lSn
z(SZRHGcz-bHp9nBtKngy-bIuaHX`r!4NU&ZEE1nce=Ay|XYI9hRNT1t4#C;@jY=Cs
zV)l{ldaoyB!A8N^L?Z+Q7~4ZhdXxMw%nKCL<Bw^r7i2$K&a+4gOBO25Td5tDiau{=
zOek&s{1z5v08mV1s>Gdf?YYrgm8BfLP|5M0m7IdB?|cLwx~y;>o%MT{cmW^^5T6x*
z_a|?h;PjamDQB<wosI=D4!$wA{9@qp#qg`YEQ2<PhyL?SWKbATJt!-U#Mu53gBO~I
zSD6QSIZ7D!PS33Vtap(;+W|%|HpADs`lV3mXD_m3^Fd#>buXKf=Srw5@=Yl)W!B3o
zLZXs3_l)JGrpI`;_Sj#NfC35@yY>TiZ}fa#2qRmMfsHF5*`k=g;E|hq@V77SZY|$W
zt8(It)uU}Lf)sD)RISh4a?HDA8rBVuiw6k3JqZs?UhQ6t59c!V)t_}NIA#CMc=CqP
zR(ps89b)WQcfCLA@K?_0xby)QUfEO3l;fM-Y2hik)XWds(h}8=K6&G7SXCc$K|Od7
z&u_HfHfYyF4B{~;m!ixS&1O0Lm0!F5u{Yf_WOAAi<hpg0Z_tpLX9r31q>`k<w0LZ@
zpJqF+BH*qO5&TQlv1`;oddwJrssACoeYtyW&j>b9x5~bZk1IJf_TuDx>B-R7fTx5>
zL#FWajXg%B^qse5M#tuTgfMQ9Wp<lR+HF!_pZHbt62O^Z_V%?k^jv|W4`=6IUQr~A
z`5*FS9;Qe5gNpSZ8dR!lR!^Xi3rWWw_Tzf)?Tk!X#3Ct^y>RZC#W0kjL-+)cGAdlX
zv6^no?}BQFyIw~3^UX)u{8W@LH^~`2>-YMAfy4`qDtXSD9$mmj#+1*xhoh|MRWmU0
z(GWz;_yWUL7ef?vD7aK8)hG8Xpk2xj+r@F(hv48kw#leKe@|>ByT-74OJ1?%?jqUX
zFPAKVWG>wa)O2ODX+;)k{kbs)30ppeHCFRti*R;v2-t&U^J}brhKHt_Se|Xo>7pfg
zq>%Ymc@dkIa6@d|omNlX*tkFS5$^C>!O!syl*G^`R@ve%Tpu>eBvn4!*78-seu}mo
zJ72RCFM;7ZM#q&GlPiN?R^>36j0HW$k8&@mo2rg;Z<)qgUA4$XrLtMCd@+@JzT`G<
z41<efK9V>Y8m4yT9vi_dn2e9cRz-7`gMs6@#|$HhDIVtM>Vw^XPG<-!MrJZGo&_53
zax1ct&%H**_hXPFKYAC%|1{V?NY3mvyp7^byq#$T4@o^%v|WxBt@jAnfHI0AlDKP3
z%L=n)V*R76IX=6z(h{!4bIF{0PZAB7l;Lr_Xo(irIMM~ktrFJ%Emttt;a$|^Na{>W
z;1X!;wdW~|Bmc#ljXlG<<zT9P|Dt7pA~;}TVzfin_3y7b?F%$rR$PHD95O6NEJjC6
z{8r5tfp^gMPG3xq{PxarEgk%CFg1=U9+8-5Fj=L5sLbGCp!C@<*ENROHBmA~YEh~{
zB6d+QXZOkwdF_F>q@8nJtYo^>j4DW$f0Xx!9dx)QW=?qBM>)gyV|NRmw@-1~%9JW}
zxZJDR_HsGO6*vo_lApbSXhkTj`@j@h*dUhHy0ghTIra5JZD~z^PO^wbBo>m@O9{2p
zeF6$4JMID*JWP>3Va{1nf#nVQx%xJlJTA8H!FoMjNo1BN(*!R)ouV>Lv<-^8Cxvvn
zyb63Z$n@9}EZZ@K5o2pe<A7vUZCfk7UrIfrT;b8nQCE=ROQK@H!TB2bzA~7q!o49j
zNe|({dA*56$0)l;;Zj)p9yK{~U6nANuep~-8y6KKcvUdO5=Z6i`_$iX48|o~;3`t4
zRR=CADISVWKYM@uX=>v9bNEED8HK!3q<|?tD#zQ7=?3d1!~I{CYf*8@9jSM$EBAu>
z^HkH435l$4N-w_^yA;2_w%o%wvwR|eC<)fvx_+6vvpsr|-eFbtTUp%}d+<W5T$ATE
zkXpz{Wp_d2tVZ^-q(~v6k$vPIf%FF^wpfc1Y+EVAC?IGHGTWZ~tIELOGY4XIZ#19%
zgoHkytz9F?euWt!97+`PRWH(rn0C<}vakRI{uNc^wc=G1yBP&j8SS3#Tu2^Yk@S4$
z0JX69Izp@GC7-O62faVrV#cw`iJ@Jewx5bMEj=!G80A-A9JFIU$f{qeXvAsdKJYU`
zN+_)o4$}bO_kKG{MOIC0EY~uv=AMCCRJoVmdJ`)x&xlk;namXFq*Dd8d(E`y%!}u6
zYz(i3hPk#SmR8wBY2XIyy%eF*Sls{I7AX5db#tH`C)ondW}DMwu{4^T$jQY#c#&gS
zv+EJZ$}y(4^R<ci91%SpoES6pBV>*Y$}+-tdb6s4hm>eCfDF!8BQ4p7%N7#~+J}WE
zy>K`*Q)qlh^QZ4>4T<^EO^mlrYvo8r-A|@b`2GK)>Knr&>DIM7P9{z!nAo;$+qP{R
z6MJIYwr!ge+cv+v`|SOleR}=s?mu<aRaNV`S;JQD&ta;OUsfoG-vZ_VCn^Q<I@;DJ
z!Ik%ICgP(?r8=!E_kHB~TIcXY&+TN5JO+;-!qea~&!5Fp_-2<6@a${UiE6%=hJf9n
z04Mx={u-~tgD0ciE8n!bd@fGc%OnlvvT;gVF9OG-FYD-G-2dG)$>2e+yTHrQSoJ4r
z8|1$5mQ2jfcc&e_NY&O`m=dJd*qUBFnNhco77u1{mKCvPT1a$h406aFM;bPQAdWUz
zh1PoA(il8hW35^V5{osHt3Z;AU6a*3aRe7-X|vGJsNFW;m3ifde`x#&>ev)ql08bJ
z&U_Wm`kaRG)JFOERM+5Y<aASCmQAjDQ%R<K@@|G_Zk@)wb+SlBk)6EjRC42(7QZ_3
zR9}*HmE7()@=W@!HsH+I#o6E({f<<;UXnYay%VN4TP34qcc~f}8WwKVavv;tW+e#w
z(k7Q2la(sf24uL*(UZJ~D_a`R@{SkkY-n^nf6L}`ZzEF<w@}`Z#2fjtu*?DIzzt?g
zVpAL!Zn`V?_b|V{QyN^{*Dl$EI2GG0R_g?#(iG2qtBL>U>4G@j^EQW?9xq@?@F*CU
z1$!}n!cpQuUxH>J%XuN)NgvJ#nJty#o2)g&oRnIZjP7oB!2dIA^?b?#U<I2+U?kvp
z-`zW%I6pUax24x;qJaLY_54N^{sPw3FkC^|5CElpFPfksAa-wa?RGqkeQQz7b?4}i
z?D9EW^qzh#T@FevF{y^8?VVCJL6e^(cWf#Tjpq0b&a&H{xaz81+MQma!oamLok$(;
znL3JmG_|$r2xOz99l3KfrifhEF<#`8cj>84mfZh(GCVJRJk%O+BX^?xy~i^)1ZnS_
zk)F0zW*3gmQ(9xS6P=oVSF`y1V&*rQ%8I$eSJh?V`&_IlnQV}x0_ALJX;G{HxEf=2
z2z4P2s$n)C%dWGZS6MCD)fh*WmSTGYnI8;OG%0J`kT6VjoxACbq67ab{f?Q``KqSp
zd^r1lQz=r-nohMr&KnKC9HpBzA<g|SSMuA&USZP@_P#yd(XAUs)+u^E+1?-ZFqk|`
zpq)2q&;>RZX(rg(rZ>bMw+pEbhvdVlG_9R&t}IDD56ZvKzop!htt&E5NSgoE74deV
zS~}PBZg8cr=%UaY8+yiTRRfWi;HqG!KHQ}!QItB`(Bn-%C40kBqm?5y(G1o6+MvgZ
ze9Cl7Ck-l&Zu~GEqqy#r<-VsqO6ey{q-#5B%<{^C0AOzSwwvGR$2MU)Yg{+ya4uCD
zN6Ixf8iBl9^!*jdCBYuMkDL1Aksa>coMzaHzO1zvX$s=ER8M)@-vZG;nVg=*P)p@9
zqH(wjg3~LP%eBhAN%p-7eHed~@}<!$-wB0?cEd?@`%nG+MGW}8Rc-fC^&tbe4Ow~>
z9IbSfN#mZAj|mTB>~5Rke<FZ!=4}<bzis|@34T61M*kyTFqtcD{T_b{`*T*!C41>{
z{VQzjZ)*GD1%zbpW2@m&?%#6f?>tmI@wn<Q#OkZrjY*q*_nu!LMpNH9|A8wZF*CDt
zvuut0e+BmZ9fW(fG=?YBhFQA8S%#vpzqhSIO!NHO?FWGv*X|tJ`)_8J_I~I`m75`5
z>X1MUeV^8l<6m8Oj)xpKE_<2{VO`q@VO-ft(l^DAbzb+fSmgaQs>w5MrfECszID(8
zy?@4}5zP*Y(~tR0kc~_G{S%iehe2P}h^zk$N_SM0O@rT9W3qlqTTA$h9}8{S`1-AQ
zxs!c`ku9dUSx@!;=&kEeeTJw)t8*-O+`{l=tuXT?Fi3O!Fl3}`@yw{!#WP5=#;r7(
z_$gas0o$Nymiuw{PA2hg>XJ6!se=>n<SH*OKV$(*pu52lt&BOq-Xg(457sufORGL#
zny+F@_k=_5@n@*is%^KZpg??n2=+bxzEbtu545c7oE4eP)!#f_<@Tbl#p5Yu$sNje
zl(njB(|JkIyW;h2;V~K-#e7~UKO97g*Z=mXm7cGr8^j;|`CoW2h5}^S`|};z>(b4p
zkikT*#J(fId!u>ps70NrrwmVN?NawCGq}c(e|M?I5rgkC3B-6B8Mc6Jnd4Y(@Mj|F
zz~b(mljRCZcClmCMq5Z)1M`;6M(;&ypPGYCl)9)KiL7R>z@3uiy2AcR!G%j_h$8RC
zS=ZNtPQ&ZTIwc*DVNQJ>Mpb6slI#F=<*WPlO~W+Im7}uD)3m{YY$c%$Zr20^`~&0k
z)A!fv2K@t-w1;_d&n@k%gUvY^<|Z#VZDrc-XDRo~MR>2b>Tl;JWBGXzwdQ1t%k^<(
z-x54;%pw$J5k~DKxX2*?lbTb|q)NTW#LAk6ss7-K>q^Wh`F0!jtWH&zli#|>$6&zC
zvCje&4V|U+6^?d+V7toD>l7%=i0&H;^<;{BQ+g#-{M+8)(;8>?c>0yMxqw#gK>$j&
zeHx8W|K%F&Bl3lV=eJ2TJ&e_+<AZ)4g@A=c<g$BjZ9Sp&e`i1cTVcQwu34xj^N$_0
z2?5a0%MFe18MPfsw~7922_3-isrA$#sCk7yZ6g3XH{@BOnkr2=obXEp0t^#+q?x=v
zq){mKcEQV&nN9G<>AkZOf9J}%YAnl?Ts<_Flm;!k-g)35Z9#5nOZu5%*%RveUc$4x
zJbVA7+|^}p)6>3cqtdyPx-WLfUxQb&zt6_^;MaFCz`=x-p5=y5!+MutajoB9G~u--
z?_#AHG_vMe!N<Xy3wk`PJWZ=b3K>_u_U!+P=7t*mgX)WV4J#r8LRF(n4!MIfPk@Vc
zueC9+O<*`bfMbRdhkM?h11_n7*@t1%nhrOll?3}?2>vX$6GTIQ=@Ah3xiSCfoTH(U
zCEfaGw2eP3{~sEH%8fbS$4_$RRb7QEjuwsIy}K$K$9O1}^6}v^j>WxAvuyP(<>-SE
zUG`xwCDHu}lTrcP8wYI1{AxpIn!^+Kj!X3$r*#b{?%a*!PY~O8UM=To>n!g6A1@LS
zvY#1*WuhGI{nC~q`kk9SOVny?RP{EhzL}I83o4WKe5gHQHC+({hPTd=NmJZzY7@?~
zq?r@d@p_O*!s_j<1)lns*#60?a5NXR*4UIgjLtvIL-du2_0Tu-pp^Os>IT-nIm#H5
zewSP1_I+L72yHwb_k}s#^cIjk$zm>_ZALnEX8n>`&(pqoBb8O70{^;J#>z@+{)dN<
zRnq`xS8c`BT%U8<#AYa5ca52B&uIOxLJy*Ehvar42JP@>6uK=m=bOUCDgsMXIYS-f
zykWcguN^J^8o}0YC_jE+?z|o6;`Y7azv|KkI}hC6+w`Ex-aA*d>Ma%Ko|(=HK@U?b
zwO?{R1%Cg)kI{!;?RrZk_Z0CgPtaf{j|DB~^yd0ShWPox$Z%Gi9NN`=`^`cWx^^a$
z$nI|_D>3%FCHQ<$Jt50KZ&|hcpS+w86dUc(=0>_+;~udNepRv_1g~0~yX%e+2+t-;
zMp%UXu@)7zS6@oeRU*qRmQ>9hMSbI+z;4ad*_yy?)is%}Z&Vr0>%JC`lUCf%nbM-s
z@S4h6l&Fdw(1J3tJG4L_^J;$Pueug`ru-BbcKq@UyP|53b)KwK*Q>>E8=Ti@tT(_}
zn?1$lveH5yp2`FZHF-O)CJ*X-UT>U`{Uh~M%a%P?Z-ls^e7>l>K7_EFAL{=>cTt8{
z5pSf_7j{Me_OtyDsu;`gTZZmzB)YY*>)YxCszw$pQByTBtU7`2OfFHeg65=7{`>4E
zBBsR4L^3j8I;YYAaGd7Yx3BW*t6(6Oz5RW?O`@~o5vW_L{Y|LV`*`^7?>uBZiG{Gm
z9O<bq$U0hscKYtRqwH^D?f#2fz&Q15E>Yovp79=yH(WbdG_Lypl^frXJOL4i6EWy(
z=WYPi%b(Wl+i0ANrDMp_4W<~aQGH;xM<OyDFuoLNbjrZNvW@9_`O{_uvu|i{NIc;a
zSw5x&>s{izKf$=vSIR2#a-1?wI|w%#rQ99_TVZ6$DGq!N&S@paaCiuGUlN3XW={Ck
z#@<m%OB(mnK1dexMoKH$3;&|x9BVQ;X>~BwtNeOf{cyJ+GxLDXejLpml?@YrTDf(<
zbXnV`tMk-nbx~G}mH*TyuG+Qpka=USZBuYVa)j}#5aoRn>s1RS#I$xQvGplQ=3`;3
zbeeJYD2}K49w-Gnk(m88<7e1XTe+m;q{+$M2+#Dn;+%W52k%+l1ao4k`TpP}C$8J)
z9{Z^$&I!H!O2+!W{bWjm_cV-mIHBfg&B&hlopHy6Y|R_#rg*H4h)6Jzve=)L<M(O7
zJDofMg1%O$s1dZb7w{iZKQC^d9sfJ~k`oCD8t&qDGpOp&vF@QETH0M4lsUwhgi3=f
zxYBSDQR^NzC6-)q4-+;WJ&We;UB4_M)YN5X>DkYwt0=H_Jjsz{29#p0oyO{evgeeF
zT<Lqw0CeXkB7AUhtve0f`yY;Rg%?ujKuA(a<<gWIJB6B)Ly#f=TAWJeo}QfkPwBKG
z%59`l@KOH99YyzEwS3h0sCUuYMF%Mr&ZrA*K$%&x=T9tPo@iQ;2*J+^v!iU_-QJht
zz4M#bAhi%v&P~m{yu8Wb#$z+%oVV*u|Bsqa+H=v7fVo^%xR(FhnD__;^yZ*xVfgz*
zvc6j{IW6g%FE;;EqGCV~^%@X$bD?A(vE=(0gbfSBc9e+I-O9O*n24`F8?6_D!2Vii
zg8}Sw_3CEsIwweR$|NQP<?8<<KVEXOKo|d<=U=n3o-Xo;YfPVabLg)bCp*>gWGx$o
z>(S&2D5c+qt;Cm!+Fza(ts53_?@#W7(CfA_>MJe6Q6YOFyMebUA;mwOUnd0ZxS(ng
zEAup9TuN$=xMXU1alJPlU0d~Q$3gpJkT>=2tnmR@j~ciYr)`KZ&M19ppX@jJ#3J=a
z1qJO3sRl1sJyQr;H(W8Zu8>qW_z1u{X<eE<Yw)Ot2<I6wv0$FCE3P=zm*YP#?0}E|
zmr3vgB?$0q3~<!3iT|+=wI`DM7W#c9yt+qm8qYTcU?UB;FnP`^5|hx2=OOPAGd~IQ
za4HgM>vqfr4l@y7cU^gYskQ^OhfSFJ%7t~{FmTrJ{1*8#Tu_)bvbtX0x}PkkoHf7j
zqiHLFh40t>gZWO_6Xqs+DFXf_UVd9?-{c9`yg++vKd$6kAkIRNVld6GJqzQb5lw)@
z_ti{S->5D(pZl9O&=7hZ=XtBM{2jR8uWE_yrM~V3urWVbs&n^N9d`>(_ZQ!HhX-@V
z>9Qi&Uqcq`b-r15`SF#m10(SU9wYrm8_@ZjlnZx0F{j2spvLsdt=hY++3Wco>i6ta
zo?e-~vT9`9Ryk-kX#{&jtQgbhm*R+p47I7WzqG*_0NhaL<5y^CPN$7Qj}aY^SDihQ
z6@RqNAhNYq#H0Tbn(+L+WqN$9Y0`o+yU^2VS2+mFOp{l*pgDiS(GL7V03ah1$qY~Y
z&8K}>YZYd(8H<zU(WW|UHkPn3X)v-xZ`hbX=UPMHQ>53VKC5A*p%kGY-4{EGjw(1p
zTrAM%zIe>1J*h=FzHP=++IGYc6&b6)DDX;{^}4q7-@ii+gB7Fg;e4MAs6@PK=>o5J
zMR@&3Fy%8x=;2;lr?uC-Z@1;wqW2Z)8s&75O7P*E^+k}4?AdqWWX4rnCq{SFTxtkx
z)4Cz`Md!j>hfCs3cvJbbpVsRCd79#Ll4>fV=ihOQL4jjp0V@Ulmrd{(I9%B-B<J*e
zShUj0JD5*z@D4ks*~**8q+AUREjh<Py`sPpZB-2xt$YV7j`|usDU=;BRV5A~`OdzZ
zjto91Og7Apf6l?Nhv5qw_-DwB2XwkwEh@J>m7+;_SQImEf;Vw}Ab>_sI6Jcx_sl?E
z1?AizgZ_=Ki{$tCeS^~#{W%vHr>Tin$Ff`lba-~wf78=%;d~?2v%OU3_k%3!^ygOY
zbaKu~U1q8!f2dB@%vQ>)Z@Xo52)BIerIy}R`5h=0X3<`Mh*&WOu3NfwY?z*<`-*6#
zu>f|7XbAa{7@x*=4<Zh#!D<~&gsls_<HM0E19uL-#$q1%bsP!02Ls{>tyyzU4C__(
zPA(Mj%tEn)#7YtP1+fw~|2ZfG79dd&MMOwek&T|d6fynzPsUvYF0AC#d|WjFj-!aM
z^dWF;(uRIVyqO&l^)yz=X2Uk07pRdGf3zCf^^Rb7DQOyLR7W?D9XtBh{5QM<brN}s
zB7>3@GL#y+5TvYJ^Vg1z)Lh&aC$=B)k{|S_r$DXFe;Wj_cY9Z@=aH9J6R)0E4(=3p
z=n18XbQ0SK+)zH|oEe}ev2JtI(!mFY87GUc%rjJ@*9!t^44mg+Azj7#e~c7$o$`Dg
z@lYM(jeynH^gp|%G<tQTU0@}$lBs(9;S)l-?k*u@2%Px&Z=NQB&Oc9MW#@nuI*>EO
zT;H_5k|Q&kH4x3*J8W6?-5r|IXa&C9cq8c*NwqOo1GL~o(zR_$AlaM>>|QkgG&?wE
z%%SaI8`DiCGTh1j!FY4Gkm0m>(cwCky1;<g^XI=wi64RhSB)d&Fq((1h#0(M^VGsq
zDb$K4C89rA7r|zqFU990Y_aN*4I!S5GBie1y%X9v20w%d8YAcUWXwo;c7?tb9WB%B
zOZt<2=u*ZUR67x%d$ieDiO+-|12-4fXv0=qU*2M47b$F6U-VkHKf=fGvhOC!zv!8x
zBb;?*Sg1~Kapzas4@@w9=mdrtNF+?jhC?X0eIgGDHKx_0KaG2CWsscI!m)ladpCP=
zTeVi`bgK%QJ<a)59F8}y+QI!Mz$2R?#A@2v^A*7FR5!g1J!0K0Ei`rsKEx-~q)?qm
z0DrZ<JUm+yKO+hIQy`zm$b6L+D-)DR%blL|caFiouy{0dR7yvz<L~pCLX)b0x?YGH
zBs@QS0QR~M=^D_`Itn|(V>Q-`qj)rxCT*QzH94iPSk5{^i2{Ftxpo}QWd8mNocvrB
zy;KxP)u)3ZhRJ_AcKZmo+4D8%pgB>_=x8#V^^#B0oe1dA+{ly2GKp0*ZI9`h@1}i?
z&K`|2L-V2wj4d1yP(fZ#agYl)TpN17@A)%(`9EoCRkV-Sv-a0aVr?2{#-}ju_Os5$
zYZcgY#dj>`GesKPI~m}7+k0Ajf2(iY;)Wv~>7VDS-|o_|n)r9s06F7v=Dwgs%GaSL
z@S8D+JZsZ))8LC69#Tw3_ii3ujPscf19J_*2;u*;g`fb1lC(ew@Y!RvshO0_1k{Su
zFAz~E3+HmL!O|-a!#Q5cp>tA;B0Y5Z$cZEk7@dIfTeyEekqix;R)D1^)ub#PYM>dL
zS?0S0I4Pg-Jobdyh|I2n)H!-e_iV2MeH8F<u!eeN!6-Y2`^u<>*Cnl|90NgV9N@z*
z^APH>il5vdxzZq<YK7k5&G7}B#*JmF1dM-|tTRR86}-jOzmK8a7WNg2uOFgdKDu28
zSAT+qJB=~WX4NMpHL3ogB#{i}akM8(xAl6ivtCrA?p9YVWY&1m!)9kJD_0*HwTa@f
zSi^C@X*{VTtZzD>tSBTXTWdPGqoojSEuBfrpH||wrdTMlp!z5_92Pmd!#D`>i!e<R
zM<c+S3cOsvYg_0XQUv)`J5LS)%3qP%eeT9RO<!kt<f7hg+(^~o*uurz(tXdtBu;&~
zAX<5>PadO?kF&iR$}7c$IFY(X08LWW53@s!S%Egx2e-5Hh&c<VhgvZfmmGXBQWnKN
z*DTniwaTi9u{`!iLfj{Dj-1t394`;*Tp}zE1=G-I=~k`vZNto5jZ(sfn_2?SQqAiI
z&ZNow<kz1pfB&}J*FAndQQ+@mW(@LZ7&zOmg1WKiAXL1DFw>V9I?JbPKxaXMN;rIw
zM?HAxTqj}EP5-#_bL9=Sf!w2BIl%3o;^o=RrT$sGp<6q^=__H;5bk_Kky0q;QlSAl
zP$p{9MkHJ)E+7?-HCGV6V5^{MGMz%oxm0Xffbj<>-UtIzy>@iXBs3Yjy^e@kS`)$_
z4i<cpQ3L3h#B#|Q*$|Z9DRR+sZSy-0uuyln-4*=gZGFzyG5;mwDWQq|>lG_T@r&vK
za?!6wePj-}4~ZV1-*iyfbj_?ai^N)6^e_AsI6X%Si;$pIIu)K@l%I-h%2WdFL=DWp
zu&z6(Qr(;<tOgmvh0>6H$30GFQfjUs@^L2vk4n;oOkAPo(-;j(^EFiuH>IL&W+T(R
zymGmu@da>dVpbKdwvv#-xY_;mgd8HR=9Q`XDu&J=dZ>HL{ENxcgvz)@J%r~?oY2*@
zN44-82G{bzX7Yo}ain7!CV&6ou{Voo%nl@X8j$J{k&#5OGBsu2@G&lEn^J=OUyByq
zJ#1EH=0U2xe7mnD`sI7}KZd`#HwGBNpg;PDu?XSt>rZcolokn7y}N+XeYa$3bP6um
z5bVa_SASfgjFf}$3o|MYAvskvF=2zyNPc0-!(|#Wqot`N-8z5r2lhT!c_>J+#04Mf
zdf#+>m=AEQwzZcTk(}x}wH4*#_BUKvWoQVP6!LRK#f76F86Qn?a|BcUR=gl7n-&fA
zIC<THfxpZ+hw*kH*`c@2Dh~_ekSzBRl9ZjlIk|tap33oYV*JI&J=39osOIGy*l1!R
z)4_9hI@;9W_HrCi=&(;{y$C*2yXBbT|9k1%OBd>>kZS;@sAFooS?#^)54I%llcC5K
zX^xif{Bw#cqOqz?eFZ4a`=}Pxh2+oYIa(fej~5$@=;kxAW)&yBVpa#4^mpM$iu&Mg
zgKX_zRbgm9Nu*FA;KqlYnG&5MC(A_qWbAl?ep8YWW!k|p=a2k@IYayD`wi{>DV{F4
z^UZV%P);q}L<-^)N#5$18XyL}0fZhjaTu)ZBKUo4PFKtw8g<;$#~rnV$lF)4AIw8x
zLcoRg-U-U=ljD}(k81B5>T`6LCMuV6t_i+!YpQuV!F&P;R96l<77Pn^_R`mY?8>M%
z?70FPu+pFL_|gxnTHQ9$=atF$<S2$lvK9$c>Ydu{!zzoxp)3sfdket)dm%5K=vOs|
zve~o0G_u@6<6k3(+q&+~o;fV6W8WrNC&^%KF#_G%S))MeYX)z%^5{deBtpRrIi-h=
z-nYoU1Dy%vZf0x^)$iPhAiLW5zd5(~TLk_wUj-5Q{Y_|HEX4vHHC&!j8lA(8-%K^W
zZ0fxIcu%~Y9-{uERoOPiC0}Q{Y?CQPCVfg$#x}qEb>0b)p}pu#+i}=*;?2Z(nolDq
z=qH3C3~Y!Avl1H;RU76x<{2G-Re#6bjYcXH8lU|^EaU8Mf9?lM14R#N7)Z~erzji;
zigel;!_=9~dG)3HcJ4XN-7Ga*5@}+4GR1D1+_<b`n(h7gnccXQMXfqf5;xWXJQ_%D
zgd;}~ZHX9Z9~em2|80f&JW~th^#(klmk<xz!+$;WhsxXZtk~F5fd!|S08i5e@8LG?
z?V>kBwIM1oMv^+NA$jbxoksOmP$I#erNPW=F7%@z@r>kT{`iR)1<ai$`DnlxXgA>H
zhW{+sGh?xX2m``Uu-D$Z9N>&OLlzV>5Hxv4e=wN-V1iU*NYlmm0u=hi=1P*2Y$g?u
z#jOw3q4+?%2T026_2PDMf*<V#kp^6q-N2F9Nz63jrn5KfRQ$T|gYS?lyl+5uA7sZE
zgjWW+u^9*fG5|u4$orTnGJ?%D1KQ<>;JLjG_Q035IKtoVI@-yc@+@FYbho$IyoogJ
z1`MF45lBy70B+o>5uukFxy<qGOjjT?Z}6Rf$ZV{w6Z`rE$SEo3UF*QkQmT%~q_?9P
z2=F&zfuE9oFsAY_IN<0Va*4;Q&DH4(1iDyZ^{e8Bji0se-d=po64syPD`+U>_SHo>
ziIVz<kpKZtF5vA}Hx$VEoSoXJb9ZZY-P`#yHHPfN+p>aOiS@Sgc!8PsFPHQMq%26=
zPY(;7!AEZ?L4jt+xZGb9Ey0oZ*CX{yIydxk<K`!(jQi3^>UCtt)Gw;Y=)CL!<D;{E
z)Ssl1bY~DLTC#u_&!qy7KMLkYYQPi}){E2lu!%pJXNQ=n5NA5{1_-n|Yga0XSQts@
zXZ_rB<=-GMzdB8R`~>#Ov`zXD{i`n#adoF=X4fl}GdZEaXdfH7=g9?n5ffEyo3PAk
z^=%eMQn#NKuG8BgNEqg&LwRfnYh@V=RN0)}i>fnyqET-!i(6P&APPHRv$VGSu0}yM
zPhkd$zyWqJ!RaMPKw&=P(}2U_qEb#|R?yP&8w5W!%*4?i3x}41Sa%1uhad$a^`9pJ
z^1;Nj>(gUJfE4VHHe4Rf(oyg3mS4iPO$vY2s7MYs(m42ea&ekqh^;NBa2!jzt=mw;
zMv!bk6#+yx8dx4URD^uZ`AWi6B;YVwm@H}OSbx4zFUp@#R%T&t!9gw>jg@#>Mv=<u
z+qJN`2y_huf*t~o%Tsa{Vm@C4)Dw2xBBtxP38jlOrV052k^VY`>2#5#;EP{A!uYzA
z(a)b9j!`SEC%ARb%oo=W-wOeFMp0d!M80Dh^2g%?aO`d{6d*S84O|if0TDnkhw-}z
zhgDDvW|Kv7Dj)7r2ky(g4nde7uNEG|l+)EJd2P+3G$``V)ubM~4rM`61x)XIk{qfp
zh#l|j(prVyFKL}S$SSx8ac%ELsq`gM6l46=YlU_vSD``#jq?Vi@-p%`HGVOTbPc~j
z*xfcMkG4GpR%+eHi}ScH8!KzXv1IaV`DM-(a_f~3ZE#7y8I<xb0Vw&qxa?&-Qm?_?
zxF=Y%VvFa-W+p*Lgk(tfb$L|w=j@64jqkG*Cl~@JZfHnYZ}$C}aiu?^@XE%-Lw*82
z@(MYdJ;Maaa5c(IE_kh}zjr4JMgQzW`@Elik3&9KcX6;-;r?>b>T<A6o+zOVh+?*B
znIa>Rki^QC0d6Jk`JABLG9JWl^^i~Ix-JiGa6K9oc4SY{!}?X!jT~!ce)i|K&fv*w
zAGJ|3(+{a;8e(y3bvpl9gI&Rqo@JRE7x}t~Gf9-nU(uUKL~EAKc)uV;w|;RS<tP=1
z)5}~G<IV`;+~K)KP#qdvf#-b~3{=(RnwxsM+eg6#cfbJBL`*;BbpHrDIlU^Ka=D7)
z&#LkZLp}qEvavou6O19hN$s@waQxES&b;=CYz#p!a$7f9tG-PLRVJ{zU8+vs`Eeua
zj@$Eb46XZFSiQ@D9TkLh{~%cx2%S}UjgzyMkF6r2dTNU1`L8F62Be_cNaLts%*TKx
zR_ITVW5Q0>EiXklEVhy!Tvd#>$BX1lPS?ITXaA1pUCG-(+;={ci4-8~023-1&3(2W
z-YO9mn{}eh=jYzLE1xHz)%PV6b+2A9hueMe)jH#d`#z)Q9}#Nx=r?W<TQqD?|Evrd
zD7zG>yM8cMUVs~eUkt$q-)*!WmzMALcO6G#??h{T0RSLltJ=PgCdi)K1YVScXb$AZ
zTHYpsn)p)^v0F?}%Ih{+R>Itv7?75Nwc^XSw)Qvo!Wn?!W&I;3F<EsaUY3hIS*J~7
zOkzBTO}@;~l5}YIp}InK#^iLN6usVc9MiS~|G`=DVGn+boT-|cicEpe@@>f)T{lKj
z+Bpi?-)lO9%U)slwm$@(->^y*4vQ;?3*nlAwtC@7gZKS9C`WiG##WQXHtDd)#7plq
zd86G`Qcw`&uo=-$X(MMSh8y3Tm+R|nOYeLO^!wE{i;Ig`LqXdJz0z;?!46Cq_J=m+
z?jvH8V*J^Lp74G%d3geX`l(iAdzsrf$K(W%c;C4)?PwfMnzyGb)z*uZT0#B+Bv~D&
zubeB@eNtHFzhJOPxdDVN@o;1aJoovPbC_j709D9I(UfjDmyvb%0|iw@V(-|O+X#!o
z2ch(U9O0R)49;dP)NR5wB{K7e2d447K}CR(%g99P;@rBMSQ1Tj2=TA?KHBKf33g%y
z1r4Ii%8eEBBm@h{JLvQ0=qE?W4`O(SU<fWI1V0)nV?npAWVDRftv2_ngx~s8;Vfo&
zf6YLTu+NsOldpWg-uigt!hDppv?>_3Aq2VzQ>P7-vi9Y&bNdM=Yk!@4@37z1e_ii=
ztKLZ`9jsF6GifgO`l9h_7AwlCsO6}Lm`4HeJuhTH7Ng4j#SceU$4N1thWIR{kfky0
zTGj`FGO+F84&OK6pLogiXQb`B-kGIMV&#L3Ya=a+Vx|RdT=HEzw4++kp<AyEYJ0m|
z3;sqt_>6T7T$j{I$@6`d<lxL~mb-K)7S!Jy^sMoYnOcSc($ei;H(|mIE3=ffT>=jq
z^FL;&x|v8wbAjZQm578_Rx8U2v~AkG)83DK^`AJYC?3wf&oI_<x7#UN8^G<#a|?Rr
zBKG~Q`zs{CYB(AfnFiIi<3{9V`s-a*z1AS;{W=$S#JYKdBm@rU_n{WDOPjY4kJ~i&
z>wzws%uJQr;i~CA_En2`*IN&WLXhxTG<JP$3ny81_h(zj*T+@zFz#0v7Uvq7WmPLU
zbY+dzw{-$7p?S-v{CureanjYM<Amg;_X$^No-)n6Qq!}uLfw&BV~5(vp<$Sq{eSMe
zGElZTgp$2Y$g+!I%M1xz@H4iC`2K5S71+B0he%m>;TMO7eDQF@!a0xo5~*wz;>xH7
zDvDk<xQnA}JSv7X<EPCJhljPsI`chEi(Rp=T+qQ|nv#+d^qd*3kC9rp8?ZXZWf}LA
zgJk2IzLz;TyO=d)MiUu`nI_$)s}+)DU7sMX`<cMoFj*fYn7%@wV<7<e<!UE{#wOU0
zLu_^jbPSIW<Ii`n83UdipUEcczu?>EKz#TXgRsCgl*_kno#cFskY7c!Wa}(|k}wg&
z9@ZHafW<<^JVy_ucL6r1i&U2P;jf0k&r5>a`Rq?6=6kVp48KQ^rZIXtD`chq2#K_G
zO(tD>zey3l$a@rRIX_qI<3RHFSg5Z~UJpo+^K^P|@J(rLhGP9H;2=;=N&lo;tj!Fn
zoZb#y>R4fc_g^M{>=vFkf8?ddxVmC)KBtE}fArGp+j^!>bmu8WU!Ej2k)*U46mPRL
z<}1iiIke;}(rBya7fo4{wi^%Dg)-q%0=CiqsOqwTkEj1Q!90&wXQV8wR^A`MJ3x<@
ztfomg%07!vy^}1g=LOgMY2n=B>b_DDa4#r#vhO`oUzS<)>opnoXEL>B@I8Jit8JFg
zjK%lfcNXY|dl!h#-|;&}FiAj>+Rc3bm@rgvsn8F5Efcn;-Z8I0NzpuGUbP4Wk|mRl
z=iCg*lC<E6X)l_c)L$_H@W%ee>CIaA#kg{WFP3(5uRqLi`2s01teqW$RO6lb!SmNq
z|L;W>JSCKC1{D(e<efc>abNXn>V)X?#P^)+(KJduZ(v6mM@}bgZWw10=z}s`k@f@d
zE(o!B*tZ|5ht%zWIPs?~ofvNWQnlMn+2`fVx~?3tE8%NTe6{Q0_wTmg0=6}B%A|f!
zh=Y)ty^IHb)3aZfZoB(XsXX3oKY>9jf`a+&?eQC!qV?#P$j@xlD5Y!zT{f^?H_3hP
zMSTHyRSIQsS4o;SOTzn`ou2zZ04Gd6opG>TMOhxG`9kbliU!~keg^9`B`T34e&ig5
zqJ^ch7qqkX8*EkqMLUWHhF7Ecbj*TZhxLVOd^%3E5}gn+Jg<gSr)m3>(&@3EMa_U;
zRm?OS;yvF>&x<G)qLOA~CP6I*JS7(R107%nK?*Tb&{taxz2=74fqUHx>Zc%$@*dF?
z`t!bzstNb70aV{Wj1opt-aIS;B~jekx$-;!)q$P`<@n+vj#x4YSS|g^+!em}or$V`
zTVlIzu^eDDxc{)M6WH`u#{D2M*|>iws%(<0UB4;7eSu(a7#_ByqPSR6LVttFa*4`W
z*AAT|QM1V^N#>cKP)r22!z4u?NhxCRwy>fD24*gD?i~^j>Dk<hi$s>|riBZ1vWmOi
z6@<uA^@6s%a`EqcAUx~jbs$C%RyhA#fs>OH84(L;yoSYDX)xw9G&rMZ^q!&oud#-)
zrRFV_YdTz>X^0AMGYNcPO~5Y{_watICJ`EqS}BvsEU20)p|&1PQPFhZxRF!^26z9*
z9c~+-6(O!G_^;lE<fk}|#QD>H1yyYl-nW=e1#Jy-W;u;gs*8khB(p+i*D?8yyRz}y
z0xDcT>P=nd1Hn0`dvvMreuvQm#oQe=0_j-KyIPkp{p1}Vvk2Fwhp{*i5QnEuN1z%Y
z7%oUfb?=vWWV+m=43KLM6oUMY5||p>EuKzW&|}D5>y0+$J*Xlit@)nYPh1)lqK5&4
z#2+x|!|qT3&aI9C1aXTM`%MKkHM$$73n^0M)rOGvfp8lReq5LD(M1XsYG!z2GPz;o
zDLd-evBoR<C7^dOgxAhq@XhzN#<5piuTIQwdboB76|9W?W)yY(E>4<(=F=;wN9-FA
zkq26l)N=F=?z6OuTiM{cIPFe~vmC{F={gWp<Y1F5GcC(^!1<Q+()nc`9vh`|0v-+W
z!{+83$g6(`za5ls7ibh%S%}%FJ;9lmPy}}4$EnGaZ#K6j2)U<Vn5(nZ2cv>@9?{u7
z^;zwVQC7#keeUw4<g<uF1KKv)UB-yZX#>I6S<F^cdx(-6_86=s5<6aRC4U^w?l<Ce
z{cg#z0-;;p*dTV@a89n!YE@w7py{|4c-hi@MqULVSBc_!E0wVS$<_tDpybsGsyX$Z
zxa`@xKktMbkeDqp_ZuZeH;N}i^I7;QB_xj9ZoMI%3>nmerlC`mEHp|rk+iyfW2bNQ
zq!<qvwvgmsyqMU|?-HpU+DTc7>TNHnkzy@@6phe7g!i=tu;s}E%<W83u?vQn_>led
z2GRdQMz24i`2zV7)7%|RCF7WtGEdmVLMK!CXSef!=^Ps-Xsif7hYDOYSy(yT<ih)+
z`%U7Q3E;}vUG+kAQ>L?a2gP8%oSFn#%{^f??icL@j!4pWh0-(0Za!4GmZnlO*Rxo;
zf%w61VzX}Ik#2+MV)D%ayr%6H!7h8ohLFq*b4sn<g~7}QlnG;xKwnz;5v48JyEEw>
zi?ljTqTb&}Nq=&6e7>F;ztkPH$z%31ckT6!B**3|u=qaX5OoVBpPrsw<Cln>)JJv^
z%8zwBmT4QzIVA&r_V$J3esF`?VEurOxX)AqzK-@OTohVXRlQDlzlQKa@yDZj2Jm7)
zH~(Bv*=oyIZL(bpmnI7?@ED_N-RrO4znHW)H=l}sT_slFbWH5{P>E4e5<Kg&igxO6
z7S<Q<{GD3@Ow2_N6vNG3lEX@otH$1N8EvS##k2Zu!pKAxvxkw+2)uxe5%9wJX@0Rj
z0IZkUgyIl_EW}Xa@38ak&qu`@yJ6Q4JHw@$Z=CJ(YVP%3rb^wut&#B?s)xetXm(dC
zI4#bKVVPi+M*u?(-Vw(vo?##MzC5m3^l+V5ZRXO}H&PSk@6lGbJ0!f|Z0mH(-i){&
z7BL@kkFO6_*$(>6=W*vD@gXkRbB2?^-_XF{o;*YH*U<~VV*%OlT|}+Y9bc_A6YWR+
z5`EaD`Jlm`JX1wdZ9C<|GIG?oUOF$t9)O74bH9xduNC#Q#}eIPpou}~?P+k`r?=gp
zTeK~A%`CN;QI09Y8=6vbt7J}_ZndSVupeG&hKM~ucqB6^cJR9oe*=PcK4O?gW3t_}
zgTqaFl949zg46aRx)~L1T3e8Ghg-44V6}*5zG7hm0V7?ni`8Y*>}ez$KEs&~e=D2&
z?oaXEk2r1n1guiM-jTC=2ns~ez;Qp0hxdcfbo|`UFx)YU8l4{=6k@izy^lEC{5lS}
zn@1F=1ilV!KSj{+zL8Tq(4jWL*EPH^Et;-Z?d!IB?Jj}Y%?94r^OG;FXD;{5>T0El
z&ca0d*Qakh?@K(d|E~+f+g)hdF(iOrxA&Fp_~~N#jwn=zC$!{kws~aZMV+II=S8#(
z@INa*&Toq;$xi~!MfM{4X_P)C;?wR)-o4FSt_UDT4$%Wn`&|$CL{pl{E!f1<&0mC;
zJOV+ZO~$%(C<z8&f2HbYML*|)mV@bcklP!NR?Xm@lTvcM7TH{&kKS`XO~Dy%4_mXf
z7oY%~-kLp)_HY0j5}(cBO7q|3|Dx=r56}mFfBk+v(l!=v*0l%gd#1wPW!-qr4Mev&
z=<74iwg@`txLLI1)&%Gm)z>|{=ysUK(Y>dr9~F87%Dch=nC6m>;#rKp&&G;RH_UB~
zIjFG^U)%)`u%nR=76Bc*s|^T%yuK7<yv7=o;-w3ku>15hSBiA)?{C+mwkI#ywLY{_
zJ)`g^ogJB)SW<tk5mA1o4qULOXp#yxe>HsF1MGzcsEJ{{eHl7cFg;DU3)ik`^(3cl
zHd*t5+ATWfy*oV~={0xv4TeU$`1kXzZ>X^{$TD`Z<n50sV86V+yy+(G^Ldy3jQ|5*
zy)&V%oh}|Mf$EY1gMqw|2Um#Qcvs-Baa+<iNdx>MN5EI?r~2Qnvf-u4W~N-oaCn~+
zTfE+fcv>IxymHn{1*9RzGQTl$F;WirMm?s-fu`)>e(&^cIY0y$)N@}lr?C=w4JhdH
zg-!O&&r-z&>iWgZ_G)QT^<DReHPn-rnt02eQ9_U1^zdqeI6}joSB!2RyZjV$>!b<N
zIPGEv)?4F~So{slhgd{EtwIYVG+4^vJq*gY_g9-_mKzuk!ycWe|B}{E<QGZR#Zl_3
zvV=0=xc5(d^7CO%w6g#jKex%0&#yChjs2)fhyvU-#C2{K-c2gs&r){4MH$dqDp-&=
zZ~f-anW>JhUzPDMHZ&tSuz4g3BcrW6Xrc@3xh&Y;hj_pd+{m)4cKSt1amf)JM3(8R
zE@Rb@X{0W2lY?Z_obB7Oe>GF=@#ElYV!h<&=>lNA4FE?TwKLrAb;1<-UBZ)o{8V{;
zp+|Xh;J)ov8Qg0e7mb`8|3W#D62R!=Y*IHN_!=G_Z;Ptxnpb{YJ|*ft4SRk}PeAKE
zEo_dLSkG+Z$*{B?1dL@xBXy?^t&Rs+>Y)xn=vPKLqHQ@YtbW@3P{!mNFcWqa2kUW$
zRvvmr9>BxLJ`>#RNk|2|m(@QOVr_|mV<SNMmo@8l*5r<ufw&I$-V<KfF7G-~gI&-d
zoGf^dXU_UlCTde~W!R=14Sz&`EWqqf)q&QU`H1Vfxp;{xY3OM$fHvT>sr;=g&B;vO
zQiV$_t>^)MpUs8+QR5GBJ?IKD9-ob{8L`rV<{*l*DeC7!nycmZmpevJF%GPSRB;A<
zMz4*OeiLx(ZsE^G`ZrY|q6@B9J`|7(n7}-Z3sQt1>)&b-k=Wz*y9anUfc$LW_uY)z
z<7}?%l$JJbeHmDIEp;=!<&i7;#U_#fcKIsr!q-SqJ6g~jQSpU6_GWfSy-?HtyB|#o
zwktHu;fI|zhDB}}dhh-q7^%NF36RVorUj?*ll-0+?}`^3Tt>+e13XNU{jv=3Q3UA9
z)#{gXz;7@Ux|SnCGDKJIR3f_dJNv4UfOuV=VbH80#r`RovdMk)&zqVN#Ys>q)Rtr|
zBZT(uN3=bd_TwE}h<BpSdyRUg=7@y^g8+EuC^g>hsgMHB1>)g$2&2FLEYE5I$TmKe
zApj_!!WgcTKZ728j*4%7$j$-!OoGI0L&A92iH-tW;-vd(pbq+c*?b^k#fQMs9Y_F-
zTf`bl{1ONcZ?)|~12ai1Xs&`dIA*?<0>4ITzL}H&hafdJnBGa;Mu`+sT&@{XTzB*y
zErYQHi<C#Cp8h;Ed?ayTKa8Eve{)(iP<nXE=%Av}^F1Ed^u$D9&own(s4gos;bVVS
zVsjyqM74)q`h3-es#4Wy&}1s(7q1W0=NXAQ0TQ6NdVToOrC6!rh`bqdPAtTL*Z|?m
z08{dteyy1;&7X$mMB(<xIa0Q`IzOQRA%L9JcnrT_F1lC<5Co*qJ=z~Nl+pH?d)B7O
zK*v^_IA*`*jC_~khW^t9kW5nI74v`(FKx^Z+&fbMMcQ~xb!;+b@^+RRoQC!D_rYw!
z!xdL~npG$XJk!}hdxBJrPFKu|RnvTztAgdQBzzqtJ#xb2DMffeA*K%?&YTa3m#;{y
z-Y%0~OS+Kmma+-I5j(6-2<|2y_iu+BtJ@&7PmZ<)#VuG$)gz;UyNV!<JRIpl%idHi
z3Y|L3)BH%^6g86j2LYILrsK6B#w(#W`EA+(HLQ;5+&5QCf@Nm<cWaGUK_gT=g2$_g
z{qmTIj-9B-XZmyc$j^UT__XHt4qRZCCyx@><up;e-wW_)abFjG0I=P(s2sti$E}#&
z^U>b<c)%4cu*-X1CUy<xR0wv%Fkl1>gmgsfUEYviS{4vJxI1G4sm~DAF!vsskgsNn
z>jFYl1|C}my@s6LoQd$<F%*Efy$WcU+oo$Te5!#tgy-+C0&V}*M+8};3tFW)CT9!8
zOdXI2QB5xd%fBH=dS^xp(uf4PL?0c&3T(}kxXZ4MfQZUeq{Q@#WJb&yI!#4hlSWsR
zyDFq*ga8&C*v-oICoiYwc4I(5NyM#*&MPm0-mn(vd7c?aqsTRw5L!aTFb&-tDp|$I
z_q|q60`$0Mb@g69lu+)*MdYVh?wZt$?r&&B6gi1N_pHrYuA(xXNs|ex8#^V7y0XL{
zer=rB0&U1SBxNH+_xr{J5)ylohWc6G%tJ^#1t@u;57Qct8e4}y6IZQ-a1efAfomQX
zi>r|X+Q&Xp<xW9SY*<fa>L&59&>cVWU_=SPTYwel>G7&Go`!3YU^`RHlKsg=H4yoR
zbJbDPTTbX^F5)qe7dqP}nN+*S74w*JFxg^zs>j7#t!%QNzUJ)Zdedo4Ic_(AiGD@h
zakL$BS+=+m^;8_?wv~g`g+m|YT+^|XXhaTD7$>rWorF3=GXs~q^*dynP)?(eX^l*k
zR-1sh1b0Jn9tuZ6hKu3ZxYzQ48Bf<_@!dyiVSM~ev>Ygj5m1~v{?z=k<CuHYAAN7F
zmv+(2a+$$>8b#=8X0-dBaj-;xNMv_Nlmh}@-k+0u)Z4o^QM+s5fMoaY#YPNu&F#|W
zweo9?j=s;v5w!38H&-M%XYnCuZ4zxdf$b$5IRxg;eg`HckH<LN;Lje+0!2ruOu?C<
zy)uIugf(YGHrfzy2xd%zl!6d&4x`HqhExURv{*sAyemmL4tF`+(P>scba$g1aK9|W
zonbH-W&s1WpRl_cAbhQ%X)-_)AlpM6EqDzlMKbkHyL}S;T+|k0@fM&YN<;O|I1RTj
zJ)@_ofjxL2<@rU}jeO`x@2#!DWBniOqC|d2!XT=<G#SZAIZMcsC@;Bz>8uHc1q3||
zJ<@)WYYao|k*a`0gZEINVP`B&Fq2rp>;55sr4Z_k=%hWY-V7(cVLllhUyKMM#UT+!
z8wWXMR*3E8=v={5$w`&iiWtLYdQW2=FFqiEI5kU_C?ubUu-Izk+o2hsfFN%Wm}bz`
z$lCL#;kK@0WpWrVXt`7mBItu|TMMLOn$u*U;yUTwXYHW+=0d*n%_q<R)ez^^hbvW*
z$@%5|I^}R-Em%+HHurC*1DGr3H#O1}j0dQ{J-Q4jluV#G`sgS>g>qg{t>eF=WPjj0
zKsX@-S-m_3Ik~dP-41X+!mRK46eQ#PFt&OhyF3h}6M-1&m0wm)lK0>JjiZ9GwbXy6
zN|U~y6v#$^RFl5MPhH)yx;&1v;+`cG>z*YhO#whTq~<BZ1?w*Vc)cumh8rJv9f{ha
z+qdpRQTTsoz8<K;JC7V5c^0;N?@x>2PXs4vCDJZ$X%p1bI86_Oc78-(=o4KJ%?953
zF7eWKuQY0Fc(#X(W~OOn>5{QdXp&`XIVV<BWXGi)S7m@^fGPnWTHZZ>(+v!hxaN*`
zP-z1eJ^QOtIl1_LzD$`KjU7Tw7Z-o>yH`ks2OH_6iRB<Vp=gL=Q$66;tx+{wOAo=(
zVzn%O?|_hUtWeHdcpMa!7muH}p-b5uD{(sa_INDrhfLL!9s~>b#3Ct0Pv9PmPn<jB
zBc$xVIkYMM1ID><-C&&kr-N$!TN!)lWt5P$f$z7(yVJ4C?|`QD7ewOShD)U*efXql
zbEpO7?*lt<{Ja36+q-z6(wxzQ3r!Ir*YrborbDxA=rX?=pplHSjlS+T`8kRL)tm6a
z)^EpBTb#NAj6RH4FY!wZ&N#<>R-jOOn2iTwO9Tl=GCo<uo-OT4g-jB)!R5_A@rqHG
z=iO$G<hL^3Z;j;Hat!Fb&daJoM?yBc#b|WYsY#Fbqn`%%gbxz7&0t7#;!i#qk}4o4
z99lJ~DWJvGN14>=>s5-B{WY(-K&eH#l98<yHS}PgVtLd1W`om>R^8@Ia=cEcV>EJE
zQn(Jo`LO5R8hBr86xTdtrFb}T^A>vwfG==7+B846vo$KtMZAedo~|7?Uf<rnbnsoP
zB}D~Ar58}_kk~?qu6KQ%M+JR(noNHKw#sFl&aN(Ll}1pS+q5&Mb2ZP@enCKSHJmWN
zOibh8FcJrN!P~Buba#6$V>>+EN)Ablqc|b4=@R!$;@71QL|Z4TjfKbSUe<}OWe|}9
zt17}|<Opi!1L~hOH{}U`|JCuiXkp4cPpYEX-#OQAX4qf$rFyM_#*VbA^&22{ry_vX
z<7hkY^KgG!YprvV$^F?+BiYMNob}${G9bXGN-Cj-MiB;D%|U%oYf3(2H4JXNkt`$8
zCAs*g-n|huJrr6ehUoYe2)c6TR&$P=iBY6zU#u1HnjuYZ**BjYc|cTD@zLsNG3apB
z#31GM<4Ml;$PU|-&4ZkqgPAd#XjAr4W@)@^SIe&0#8LGq4)iCC|07m*5CZce<k}91
z1SB7pe-W2i-h<&h$Ro(5^4L@lb~WM5ACpb|$oX@|8Eruf{lxnohvIyA`+BGiCddJ(
zx>@C*4JvAgsidJCAQ$vW99!UnJY4^41<2VLfh4`2Ha&u|0MfZdfChMjAS|0H_r9wX
z5YtU74AJwhK|g;C#Cuq<IR_UJBL#SYi!=GU3_>t7&rQnc_1+Cr(U>~%ndF%G==L91
zo&Z%=S424dCpWU%y?#uC-Xnlp_}ypCsnjB2bY)#{3RpVF?o9Z;&Gnir5KjH_YLBBY
zyAR*K)^A7TR|**Lp*PmKwAdVN1*zUc<L;v1jZ%OM|5$-@?|JBa3-pg6?QDCfYj-g?
zD8uS33>QPN^MJ-bQ%+|298v8#M(Ynki2&wv8L%4Yrt}7yl1fJmSN`6XGjUq~Z!%-W
zYsG%I`tybkh-PRY1zF!09duiyT_y7`VJ-l=Lp@RdWyG^+#I}-BRGsQNbbKd!*Z8&X
z!6YwbahSf>R0%X9?oVHd(ofOFCvC|18?LnZvXcr`!f-?_z3o2vMtCQF{mtFey-;Ky
z<KPG)69#h)v9D)2PMz|h(BvPExSaTSs#<evmP$p%KQwN*#Fhx-Txy88y5{FPA#JUb
z(=y7DVzLu}KRMoy$Wy)0ey#C+?XtxFZdw*GYI!8i)GYRYtS=>(|Fu>HD>j;tE515L
zZ&_8><-qj-61rC0S=Z!CYVnvjPvP|>dRN2A2=C*=kybRD1fbleRo8<Y32<>Y%I!i)
z9trlU3dY+rhulAvT9POQ6?Vr+b6yfZ4K@Jkz2y-FnxJ2Up%3kC1WMVagoT<QbbrAR
zjbb78@AYf<w2TqpzoYF8bDC!<%1J!VjvNe0pz|z)D#D289fWwXbK?5!P;p<7gS>fd
zyVk;7@nFE2UoraKy%Q$Uu`BXLM_8#9w=aHjihYxXxDe#o=ZoLr8(}B=BaU`L+dIxk
zt-fQ$uu8(A(3nP6jRkZ)sdT}`v~WMD18#@7uU+VFWi}Xr&(PbqUT<63+WZ%zx#J+V
ze|_qJL)GrnI43?o=atP`Q_Qhg{K^en!Alfx1-flrbXI)NF;UMf^<4@R1qV|Yws=bY
z`ng)WDRR^B6r$MG<{O3MzMZ%XFtRA{_rF(sX}Z4C+I!MVvyMn?)kHnCv+rx)#T;I#
z!1Dp|n(4AYoCU}Y^?ErQ4gT&GxT*Y?Ic4R%&o2E^>Ch0))F24a)hqaHF-7A4kEyqe
zYU7Ric0&kO+})kx?$Y8e#l1jrcXueo-KE7T?p6ry?(XjHaPohi_dVyVS!?noD<6`~
z%)R%%e%Gy0WMtTNTT`HeMfaNk=)vNQ`=zerR@TWDOo{_DiFmaMC;3R1sg6t0J}TdB
z*)KW<KWAjbpn=!n(=lVJva4_$2jOg)wb=LXlR0*|x+kpJrLIS%eif(JTH_dYh|{!5
z4}YW6{<=MyaA{u5%jhuR^8R|%-XuoGB6g|Acg1mf)mwt~I?wILC}_?w@`=6g<;eRe
ziTs5dn$;4!nkl0@fB*8a5g*Nb<T(23oX_%@>&Dab&cKV)LplMxO)!x;EynjRw*cDU
zP)j(T<I1M`_6XVZLq3c{e<R&yMfzBEP)Z<#hk0iwR0S))4QS=ICGrfv2g+B8iGf{G
z-wrT6CHuWl>Ywn&$mO^A8H-cUbUZ!Lt}+P9spW82R*pO|g^h`V`lVE_Ky81GwZ?dr
zC#XFAtJl!zQ$HT!b&(YZyr&(y^Cd^E7shfF+21^89X21E%YCMKs`*^%5@Yij8X61p
z7Sg_W;ZsQh4W^i(GKtc}p1YN2)3^C=ao;&PrF5D`4yYU&sYFTLmVkk+t`As|FsC*h
zhJL8;<ejPbry~**DenKlS`<*v)r1!g{1!1hvH$&DmXZRXPWvm32ZmVuajGeW-tj!X
zeYnA}olgE@c?DE`S?{(SJRQ$_vN-NGl6Sr3d_x_^n3eM}esBu8EcKgg;^mA4mSe>k
zb{?K21TN@lF`O0|g`DpW%!TNWrg4S-{?$%{S5GyBTUqLAKH|}Wv4l;*$&V^Otd<0l
z!VcFKr`CeW7o?^C?)5E@0;k)$3U6HgGU3e3>TPH^@rYLq2ik|h`(2MxzxVlsEVjcs
z=VltWkPEc3S#^J!9V{nuLqdrVFfx$#4;Q}{63H+-`J73ElqpFbT}>p${#OOg-Pmh<
zI~`|ZcS_K)=nob+DYPA;rpV}^Lp5b9#8(2R@6Cbccal?%Pya%nRy}qV`vjq8Akv80
z>Lv;(enMD$5A0X9W|%TY_A%e?*G3zv@yJ3@@^JF;N>p;|ceL(qV*3g`X*$k?SKd!|
zKzT~b&k~3#0Q7l{vk1<vd*nK`Sq8zJIsH?&nNf}HvE>)b8xL~obk}u+on&SpMF?=~
znUdcF>+>OGG5^nfKFp+odZh>xbS(V7H%j1ajXfAS+$6k^rD4nMWr?pJk_ZOHfh~Bl
z@njMe;l|=;Pp%;|B@hB0*v^OZlvidyHYS%(hDJ+j!}ICsRn)qY9<zuo*UE9S6xE=r
zz0p$exyn;fSZ0AgtI==?^QoS5*b!KDVFh$6frbxd3pRtbK>VJ%OhbmjwDvYVvl6Lq
zRJvyVsIfVkZ-PpqYZ@=VWFhoy4ibDYgzlH#l~JHHBn!=j(PmWNud{4y$LJzu3Kj1!
zo|c=g@q8OFf>Z&Y^P?mo#f3-C8UI8g`qS<|V~84Ra2$K-VT5W?V<qJj%O+-2Dml~8
z!*WR#Gx$L%7eA@Sh$PY)!4UM4?8}^%BNW$KIsq(iyhp=nRuOCpmFQ!Yz@-<{crFY=
z^k!oFNhnXYoPs!Sj630{U9>+$EjA)yg<ycMuy*T#nfOny5wdAs?18vQ?E?Pln-i65
z_L$((g}PnkE2*K=0cR<{+s^%puvPy_d=jT;y`Edm0Sy+Bmh*vI=|MFJ<E<Zs`VcdV
z7O8t7kK~CQJ%Bhko98ksAbTU6c*n+QBSSfFO)D3AWz$9q=(h3Vle~IUSOjuNWvYsF
z$KchZ215!+)SaPxm{SWBIY2CcxZxbnV{D_<Tej9}HJX+sCM6NvLKUb!V?NYm|FQW~
zOXq&VpX-kgb7EpZVnF)lv<p|Jj7??LRMx6ao#tQTfj&I{qAa$iv0@p<>uV|hFZ@&e
za!F4m<i&`(68NL08KQ=Aa*>L)f6L0KFe2!L6uX}aS4Ey0AL2L@HYS;VN^FRJL)})z
z+HWdhiP1N2i@RAm8!%njBC$NN>Iad|6JPn6n)tE*DBT{E0KB6GC>tsLOLN9C((v>9
z3l?XCQJU1SXRko~mN0A0lIjljizKjRgQ_kG)b>2q|6^Al%>Lz#dz?f&;OXD7M>@P8
z0l|?OMRidzuc|QB@Jr(7I4S=aECpuWxB`b<>CdP|<K+^bm$>zw6UXs-o?@Y~0;nWI
zJQsDtpdpZ~FP|*}c1YJCdr^juFdCCKngls1a*}%gwy^P&qAmWNR;Y)_J=n%eN-WlP
zQ$)YsN>|?1EAfmzwsFSOw!XYt5c}ZI6Sb<A9%aLwn%R22u(tOW(VAcwn79FB=@ZaB
z2|MsA$p|lqQGrxiMo#ZhH}2=Hq98s@z9aHEd+&0|>7GqY4bcw5+@gG8-2xvcTAW<b
z_JOqC_bh(QS5R;F133MYW0V|o7AeN%1K~L0=%X!n7GAF}Gx&!Vw}ayM7v2dD%f%YO
z85%4Lb3)#ADXT?fxW$T%VSC>H#=y)7Xi;^>6GiVKl50)E=JI_X*Ae^*Idw$qg8B{^
zX{H!j{uZ6Qtab@&E(@zO%uvk712f^-W{dJZ(f0g`QJ!O@v~$M1-87%J7euEbIR8*S
zN;#C*)TsEqofwWp;d7WW0D{*$3`)z(la6MJKU+xUAnfja>Y^rN3l$c3lZ@O=wYNz<
zd(kmHf8}F$UABqXLll(@AQJ=i{lPPku=%Pph-RkDuzNc_J)dvjBdbz%E}D#>8qDxD
z_J^!kEG4Qq!nKr_pCGkkG^R%Bg4cMRF|hVAwM`5y77PB{^&tP#j&JoskFtpOP>$eG
z+c17~eUpyoL|?ilw+Rjo3TUOzVyMs0zDlk3X}FZgHv*&^?8u#7j`xZVS~PSRdr7WA
zq0&)aN?D-XUUCa^TN9!fP(&IW_YL2j`tUM%)(PLuP<Jk<k24#BdkCfSolhcpY&X48
zvh<SJcM4Oz=bWj%eNJFo8u{ZoWMgSA+yys7msC!!sWboOK>bU9jU$Muo=o=Mj~z(C
zJW`MxaK`hx_(QlHzlkVorT4oEvB{fn;z0}NsS733I15dNxY7cese(y`V8^{h@nmc^
za+eF?1!O385CnSE+x4i(WsjV#T{*KA6dMx&dbAfQ37Ak=bDoE-WNjzmJ3<O|nmCZ3
z{T+d}zXhq^3oY70j5?$j_c>5)s+uFiMTXSvJ;kBhhIUMl-NA7`SMcR#<;Ebb3?s^9
z{nxKg5J<ZR!&_Rx#@1IpHbjcQaDRoM8fdsG%E3FcIt$-9BoI4Pp~;-8jZMAiixa_F
zc=TH`PGs@36*~UATEpd~x(F{mxPgA}?XL1>`r9-RM(B%Ge`J9?9z6D|3$0)d)v?TV
zriKJNJu>IaGWHm`N)N}5Qy}?Z3Wi7aAD<BTYlY3kkCHpQFR<%!Ip$WF2(U-&=c91R
zKiPYPtxRqCcBZn5*X*M&hl|*v*#jk4<mP{4*@A|T|IADSWUL;qNK3<K#qy<4U28?m
zDzG^lI;VHDbSgxnJgtI+x~2wlBFv)U+x>a*L*B*d6^rDfrN6$}lvd$9Rpr_w|5`3}
zdV+z$_)2)Fsq|EDs-maxUBPU))1CkLYeu=00=XJgqq1%~`P9Nsq*CVNTWPWdfi9p|
zaq$nSJD)hwKOdV{V+C`W(o!aTxLd9?$O6ON<7_3_Jk$97Ph>q&wvXeannjOQFN3L>
zp#j7_?!ua-2Zr99b@^{mApL?wuqRbu9&9#OIJJd2RBOX`d9$-S&sm=ZEZRV0YEh$c
z(vJJ#D$LZ*wqvUnmu1EPH&mMK)d<L~ThtEWQqH9avYgHW|HxQ%njUfaV6O2aU>x9t
zki-GRGfWl(5e;8ZU`IG4N-KlGf{cc`x}Q_^-O}fkNKi<H%Z&`a14*<D&GlE0p0oNx
z0&qk#Q#(CP!WmmFLPsk<Ck9nQAq>C)R2|q!L1&D?B=BDtgp>JzHg0f&W;y;qj{qPl
zh^dREx9Ci6mzuX5gp371Bm{yK@Z$Pjf+^wCEQlPxSEa=UI<^E=(8q^Ab!AMeEVm$-
z%7zYNkauw`_s$>wpezY^=r5vXe^F$gx}%Q0=B!BWxTdU%V3!G!9C8}sjV;$G=8>WN
zriPii3Y9LL+}+;eg{kl^xU8B;6ayWH+&2(SLYK=5P|V0eIp*S2HJ%s3J5~cT6BLU`
z^Qxnw=J5t9gYzs$)A$$B>lKSIS4X~n%=?Wj4}KoOkd!F&G7+7!{<GEh7=;uZ%lc@l
zr(mqboW-HLZa`IQ+~d~r{mMy@2ZY&$YMIDL&#)X}^)CkfG(RGW#(R_HXFx3ZNR*Vz
zPeIt_WA#+V376<wf<L(Tt0d`b{yB_x<FA&Du--`f5`uNK{EcG=#psMXmEnm2AHH2R
z>p_e?$<9ZKN<cTg212<*Z&;J$Y|0WuWWijYDh>z6Klb_}tmc+!e8>k(&=Jw~G+Y*`
zmZ@4m*V*d2wt-5WsG*(w#HyVZ907z$&J;3Y=ve2}hrb)GA9v#>5xgfCij=FQkf|3l
zl+_&D<ic9nQ61(1=>F9xho)KNzbQLqN<jAP513Ox8C&d~@d529GI7*>4x8LoZ@MQw
zujjreT~rInd}9FStHfQF5t;7^7Z1<Kc(y>{zkmA2$H%+7Ly1nigXk?c;{w02!pG>k
z``r}?0*ydr%1k`W#}QOplkhrnEV_U4zJ`DiaKjl7pm&kdsr*}oY10y-t^?2#IaUn&
z2(|D;z9ky0ODUy)ofia>8n9|fTrZ0g4jpY6B{1<$Qywo!C<1-(EW2)f7zkrYxknPH
z-pDe$PV{twAWbWiSD>lM>%zN_a2Upv7&8XKy@m%mp9Re?Fe*lu_Uo@th}5Xdc|vPz
zUK?i$nspj5t4Nt!XxG-cLHl%y`5yAmn~X7QtXP`Os5E77u=OK7uV}hWC|??Ef6|mX
zTIAClk2`GNsW&>n-{IY;qiM`Z1KoV^>K8cR{Ae5ow1P~1DDVgm+-gebkzDwrX2S5*
zYp;^^F@UWl52<7YIdL?=Pw3TkdD#)SA7fn&wOuYFvB#Ixm4o5PLmd5=pG17Yr(Cfq
zF+%Jy<PG%^JBIr=2Y0YhreVA3KPZVaH>T?shRV+wn?Q_%-FhIEQ?3anvc$|Fx$JU`
z>O8^~`-wBQMfbxOW`aT-ksO^U6`_A?%`v6(9oaXJ2b_rn^*8QxRtt^`TChO3cWZxP
z_j4-NbZXJKbIY{e@jI~KXT*%5)=er_d}=h%4*aA_&p0V$%_v3c36XX`!|aS_gCxlU
z)n=-pjlx;xG<wFXxVp+-UViI_gu4D%6XrOgQI;mLAZW8$VuyKZ{<+fOD?qcT;>xhL
zut0mY&g&KuY*G;qTUmHTDL*wcLs?ju*3u*PIynho;3gC+NMuKJgvkbf#Zw$a(%awL
zJ@psw+NZ?4U&TSvgIjp*verG-6AW4qwH^ngb`b<G_~E=-?yzXpb;(M@PEM4XNzopz
z`f}lwT;T&*iKRLbO>lRV=@{8=`{)3zS|DFS1{=@SHK=8W-|Z#6l#?xAH;M-a=x}mY
zwL-PDEAt-f7DTjjnN7ptQxYrTn$erp0%A6^o|XvlG~WZKOH*W}y}X~PaAIU6p5kuZ
zT*|Z=Z!pl1>^_MN+6#X96VYz_N=>1v$Q3cP1l`5sUk!S5-1YQ%yjOEQpiB)|6A$oB
z{_v<cu-eXkL5Xe0Nxkuj4}fvE^}Z#DbzogD`Wq(ltRYOac%4srfc`HH5lQ?q5Iy~s
zP@_5u`iu<JdBOiFRE+C%wDjeKYLg0pFzHU*)9Ow2JFpo2@#gj+3!x=BR6x-VK?{uq
zvgM-hn>~>cPfJ^v^&1|QQ75<gOm*GSd(~7U0nkPMfVl?ADkF$;2k#W64hClNid?E1
zk&8r5c6499;Hu-{pHc%ed^0vSwpn(XIn|kN<V}5NlhUUMeZWsj6xLOzxTnFdc$jZf
zphj|dy_lj`=^IH3z_02T7AUnKQQyUSN)eG3lXdAM`4FG7zR(UF*vUN}^~QEgEX5W1
zUYeL~>1wi-Z5HXUr;-*izt$-c_pe`*GJbQ-aeacUKI%FhaW{jcg_n)oI5c=s{F~Vj
z13LpJ1A<(Q0d5rgo?B|55|oecWt6EXFwfR97c-|jp#8;<7Q8tadfa9UTFXS1dpkLI
zG@7#DMTMo_FVNLhhTW|0Ec67^ear~IOQr=Yv~Y8NlanQR@^R9+78_a=Q&=z8Wi6A^
z!F=ix*k+)n!;nR|N~Knkg>q+G$Jlf>=V73Dl)Ln{h<oUP{lK%iNLC;`V_Olr|J{>M
zeRK`!kycME<{4G_)l{<$<=-V+``Td?m@JKtEBZv0$p5$<C$fMOQ?47&=+Qxdsj_W{
zP#zEv6YXcdl7KaZ^$Kyjn~s|X`#J9tl_<xe{l>ePZKGji447EK%r;}i*sb;sX<_{;
z4qR%v=qY?E2p*q6RruE20y-jOos_R`A=?pwd1&Wrf{`gvF^8s|%NU5nOLo%_f>*5W
zsFQ2=LzOP5VqW76lw!GvWN9ZOCMK>u8dIn}4<j_&3VOOeq>LS|-5c3UH++-jZ{z<T
zejkFZGuzuO)9Ei7)EVD1rVF^|K%z5<?EddQEszL}DO^Bird_K{46z7vr{B4@=f&AY
zq7=zf&8bMWVP*TZY{d4-d)<UEVnwGN7u>u3#YX@q)L}ZCNvq&JL^v7O{Is7rC+P7K
zlkGI{avoQl^V~Aq{jIs}ubP4P8JBjm!|!taHpQ`UI9TrnnCxugGMQ!w{|a+;d~#A)
zR{P0vC^ULu7Qs`Qm}r$H$dofx*y|S0lv~Xm=SQZsmDTM#F~5s40Rh3Jd-tI8x1D0e
zZ2oTU1DTx&nnyeDuQ*J4R1ly)m3h!-VO+n~@6GFJaX>glGTis!tU}jxB-5T8lBfbR
z4^*|c8n~S=lK<7LO0jJI@v)<i2ZBe3=?3|r_?=aMwf66H5ffm+VTvm@TxGmNt~0%=
z|30<>(+U^sKKPqbUsc5Ula0mAZtoPz(S=3ole6{SW+0AsbBXM-Kv+RVgVK|Yl~s4l
z;N2md@AUFC#a!IbHVpRksxX<o{YeT;U1Z^lX&sTkB2Bzj!|XUi%32%YZ>SZ9$b)Z#
z37%@zX`%Su@T}xqM@D6T^Qb&Rc^&NnJoJh}yNE1DU*~o0e}4pphav(lalzshnkdAA
zR4P%#u9qe<${nSJ+Ap5vtYHUvU&RjbIn0N|R%a5XRR`&Rd3zC^+4j7p!y)7Q?b1}E
zXcG(4?G;L3FwynWa2K+NI37G+Nv5qd4JOfZO;$6dehrTujF1$z<|t?`5r2`}iP)K3
z9n-ww`;vAlRnX>oqS0dU6k7W+$wm*0)?vL+*$c}zTT)(Dnp9MjcsyeNd}~>Y>swt`
z_USIE%;q&9NHS~3{}fLUhkIaJ<D_mpWe@giR2`{+5o0CTiN?=`aWIMX53j(s`LNAz
zYq)i@gz*-lVp01PHafwdFTXxsFTZZaI48bZbhw1Ky1G9DH^Q0kMc|f^or@Rj_cV!d
zA%##esCi2qtspZi!J)zpLpl}U9y$g)$QIqHiF%>La`^qfv8I!3fR5>_8RUMc<CM;M
zY5^=U;{dp2J?bpaR_`?EXC2`>0&q>b68h__sdTzYfwcD^IS=C5c?zQisDLm+L!So-
z-Pk7bC<d?}DCoFq#!AH+=}Xls&yZ|db&AY5!2uFA?`LpbzuruYj5W1Oxq+h|<`xXp
zL*k6gNd0an9*6?kR0H5i-!K0`LMoCiyVG*6j-9qE+@2E^O~Z--P;G!)VqqWY|90^x
z;s@;y?pRlKFpL;8$U6jNXwfQi4&PZX43pKL@OORYI)%3h+mf=~Soi(pf%eGA#H4aV
z`V0ekHHoD4`Ptv>?4ZTZ-?mG&E9S5_M4J=GwP5gh#ob0zY6m2ul*Rk|Av}-Rm*V~Q
zYGBWV^yBg8^2Gbx`aEnj=^&QtznGUv2yQ(Cb$xk=+Q_mm_8tuQ+3fl0g1T+F-Sft@
zf7TLUARzc*zsv;iO0OJ@CTexOI_@y3HCr&&cHF|C&tS)1wvi}%lRVs1mdX{p|GTg^
zjs4k-#Z5?f3eo(S=}lErm7LrL0_A*oX;ij)MSoM5+U1$BOY#CFCadpZFnvzJHCUth
z%&fx@`+mw7F<{sGy+O+FZrb38G=upw!SHU2`Fa9hq-+6`0mVe;RpYAHTA^y1J;3?!
z=a+Gi5(PUz_{{ms`i!p#L4;N`-Dgb9%;$%E(x;z#-e<0dBMP-Y#^#na{cn5xQw!x%
zhb3?;k_<nd`7Fau;Q*!@K(sc{#7YWN=AKf=WwF!8+rtR|tvArJ(`#RwoNO(y<88tJ
z&WxUkURCsNK*SGZbZ*>o(IJxRBxvs<_;FX|uOBFuaeygp*!iw*X?q4h9dnuy*dV7>
z%1TlIY-$=gXFz%<$94X1cME^)=Y}9jNb~DG7JmuhhoukA^^c8p7LoTW|KVSdeX;jP
z)32{bss@XN?;Jfh122Ghg3N}`e>=atvkV`Id^~|HQkT8lv6BEBaE+ap*?CaDqy6|W
zaxB6sczj&H@G;{}1QDib($#4AB@Of-<`1a1ygU{^HN*oNqKzl=YSiV2?LfDzVux{#
zQn9u>-4_gjz8`J$>GI}vd#+cIPDCcCe94+7y6vW-qEbi^xWfcxwb8N(S*Eb^BV=WS
zWgqk~LmNpk!@@qRzl0i*;Tr!4gxzHRy}-?HFu=i+YV`|$TRadx)&r@%|9PtuF>k?j
zL7zqBX-Elcw7jB1Et&~v`B~Ed>BGl@5C8=OV0#jAybiHhZ5HDS$6?Z8j0QZ@=|00+
z+uN(z=7fduK|(SvbF;tY@6Xr%8a}pI;E87YKHfFmLA7iB25ha^cUJ5%|8wE0Kh5a|
zQlbLB3DuVrjr1cEhGdw?r7(*@Ut<mai7G|!4~16<Y<{F;457dBtcB-#lgjg*EA)*J
zMnxszrHaI1NeByrO)JO=7%H90WAkN!7?&79qBCWHBk32^JxN<WJ4O`^4Op@x?bTR{
zxyD;--{&Kh{aFIUo{!bNRDI^XJ+sOEpCf)226v*AQNl@hF2CXB1Kv=z{u1?`_bHuQ
zBsVn@Cy#G?c`jVzv)9o<W_RHk9!x?Mdvkm2e=9}rvwHh+wt$uwAxe^`@B*xHEPbJK
z({N|?#9Ag2-II)wxYG7K@cA2ka1_%BllIjjzwQH4gWmu#BL#(}>I|tVL$mZ|?EWOv
zzr>fJB;D$>;ySLKz^*XL(t#pE@6Zl1EuVV?J&Kp{K1gqc-VXfJUXRxKPCkw|-k7-4
zm#7V&r&D*Att&MZhODdFB&~{POB;`2B3S^U{Q5aQ$L2*?413NYWv;uAFr11X&m;c%
zf^W}D2YG9aQp{frEkeT#h$g<<o?*?MpB)8;u>`bkZ+~yu9{vk(aNpvyl_aF7wOd0z
z#I<#LoJ9BSIG8Xb<M~q8*g*ogP$Eq=8HnkL-Difucp{R@!<TbzeL}<m*yurzEw@ZI
zt`%jthC^Xs)C+js{#4dAp9+#-&+0dZosxg1yKgXt_GPcd{KJFSV+UQW4Q6@K8es1-
z^8Usu+(u)`THKb?jBzQ+IOkRDF93_U*!O*E2zpr^E4-kPL%-tIIyPnv7uOO}AvttN
z=T&2MC@s(A##1@q28#&nEZ9-m(g;BwG~>7kNe8&HpWWODCPXv-Co^0i8$kAj8(E;}
zDpjT@CQ+9u6T6xt=CNhc%m5a;)gzLTv7Iq4b$E)`F#R}*u7UfMI@SwC>b2i6MSB+A
z!WigTBsmsO8D8zN@tekri)+rRLrNjXY$UZbY=tZi*REa6$Or}Jn)BlC-@l=f8pZ8T
z`;vSvhpYklFrTVzS30oC^kc31n4lN?L!sQe&)~EMTrChdcRrC#;QHMV(pQy-tRiBE
zFaS!LuK&0X^K?GBYS)_51NzcNGq@0ST)p=IqQ9LirqIQyCbhmPgK~ZUu|`zPDu^rt
zw6L*o=mH8hBWVpjTH-^JM=kd3ce$5UyIv{(07dB(8(1#hZG!vfa@M@(?DdcW_Q^~q
zr{*gMv^mV7dq0Ww90yn#F&VVuMZW6U$~%erds6pNml3;T5O~j?W&%H4`T(Nz-iT<`
z$nEy01CACyE~RJ>PEp@3p``Lk3HN7a@4rj#t7G$%bbY!MDjkd+?0%L#vdW}TSCieX
zcndGAV^z`^tqe!7)hgSXW?qI^jT$dfdZI56cwHOCBYRYJVKG_g-a_HLcCY15c3)6C
zN*+W=jSTP&T(3v~sDLq(OF7MqT-v=SeJ78BOm^>k&Ldm9WN5hR9@`S7U*B2hLQlWH
zDX1FE#tOp)L<#pA7160$hzhWt)I>Fp25RZw6PqNOZC^p1{aqbP31D}35cE3zY1OF@
z5hqLs_i<ck8>>LoAIPfjgf5qHnp2WV86{<Y-_5VOSZagNI_5jthvBCP-FNr*C6<?%
zkW6^)<1Q_fQTXg^drb{`!0NY_+ii8H(?OLvD_>-Sn%wtW(m_Pl2oV&_V`9M8<0zAU
ztvt7#*Vi49t1G2VeDMu}(*?GGiT6fZU1KX<<gxa>YeK=lGeruR*O!~Y8;R<FHN|vV
zp0!nR4z|<%qlCR*YnrYGzz6+l2{YJY!uyW1R$RmhttAE%yEmc!Up@9=m+-GlbZ^sV
z1Xsb-c+)1T&Ze@t%@5oSw&%YvHk-TsdSaPBEgDB{d8ZpsTP#<!Q5ll>+4<n=6&(E+
zkfsQv*4!KUt7Pggd2e%^Xzx2t_CaaMaRhmKKrXP&Fi*rih)Zgqf$zV!Lt2|<pjs%m
zS!Vn};39gtNyeHBMKT4~X$cI-{3R#f+~12R(NsOG_Jq7L@U%rF-(6AER4_=p9sM&D
z9aK<(m3)=55U%?=OoOR~lMZNo1VFIr^<rDQ6^(q18mVJ5V=f=;HtjRluG8^7{dw<K
zS3w-22gEV3tfT%pyyFN3=u=Ww7I#u*_!mIRwf89D|4E(<a=pzCc_EPzH*_EJFm;ka
zCaZ?rJuC!bV93KEnX;k&@bd)(^rcd>vQl@xfENv;W-ZQw;eceO^M4R`74lo)bM?gH
z^ZX&plO~Hjo1E|x)-DQmgViE#D6i?UY-G(4fI~7Dhf<Ibplrp94WnSk^y`K1-|Mk)
zTVHMAMU^3xr+FbiIL=_06QmN=0ePyz>O?D{49O;D$C;zMOe?0zx(Cho;p#_ubLHtc
z?@eOe*t>MSN6qEjli%ZKP&|C;i40V{)%|TIqaeFxGIwI4abI4{okDxEKQ}mCYNo2J
zP0{ITD{`GOs8^uA$wQpCjvaXr^rLBZ;hVI!Sv+SpxH5cEh%c<wUT21Ej#{PVrigkP
zezFV?a0b|poLn49S@;v1B&V=NK_9t0boaM-_?OuYU@<%H*LOg$T(OKk{xia{=L7c5
z=1e827F@k~mwCu|?yXch8%gTp)!@u5AnnthBnB_H;3fFYDyS9B?`)W1cvF*w;^~rh
z0T~?Kc80NdBIzC5ZN4R+M%8({9eEx5aTz-e<hap!ENnY2`@1V8^86cxP>53()}kMo
z)*@`&{4knl9qc?`l}GGZSo+w9Yskp6>HrNmmwlRJ@uy$V_vWhC(*2F@jb%ip&jIDq
zmnIqD08@YO_xxxQcY~15VcuwUcEz_1OX1Uh+wo<77XEeJz4J5a^JKUw_bb}__{D3?
zs`o`Wc6<GU2NgTt!gZF+I$uYzfBRNqU@-w4*NbNQ4t@{spn)Xvw;1T>@C<kO_KDX$
za{I-6%V&n~@!_`YlN`=<tj^{L^7C=LHR%1LLYhnBitg<3RN(h6caDt#Zb(M$=BBTO
z^p+f$>D4=8adZ(W_)v(Ft|MjM*c1LA8!8~|{rxd2fAH$2YIbn=3HFUhf-QAU#z>FK
zVOJ|r@5a*y=FJ@GA#L;uisu5!FOV=Pk?D-mPk3<ho$2j58I>mn(Vpsh39e|c9C7W2
z%?{`qB1sJ;Oge{M_}svt<-j;GKq!SetnlE^Bz>GzncM#GU~2XjrS@m*lK?`L1h6G1
zwq}yBihXTu?GxSOk>k3QXiQNqXe}s^Ciu4SN2es*ObeYRvS6D3^+>}wWsBFBO|HNK
zx(?GBELnvM7Z{uZ_KpQm$m2LkuMB2P?)!n%u3G1ZK{}j6J{CJX@>V9l#!nE*pgq+m
zH7NiKi1Q`fX#3L{vlZ-=%Y5U+wPFQnkQ)-CHLxKWRz0{9?R_XNAXGRdlQ#^CmkqbU
zkvEbI&|CG|UPMp2_tnrU2^+VZb7V$eB0d$2+Td62Nf-Fb#|kEZ><G7XUo|!(_?jP<
zOli!w291paCsv5)n{HnlCm~`Kl8cOLb!c6%o2BOf`4@NSzU}NE)k!=r8TTCU<RCPb
zpxkG}9#FJ5^xu6d81dg<=e=T;nT68&L|zb}bCH8Y_ptW>LDx`^$n=x5h^#-0;xl6J
zpwlQ7)(5^`274e8njHRvMb^dTsyReeI*1;W>lhx%8wwZn^)XnabzlqFm`dTs?{?-1
z1~5;1YL@6ppL<jafP;KxvprxmlP7mDwPt}f909P7;;_@E!qtqShcs{E2WV10(G+<_
zq}(L)g2b%3Oi_+@k%Hw>QlOu>%fA6rtwzO}vB;kl8;8GsJSV-LeY`VS0KeQ%&J%u-
zxZ-^&*Q}w>xKEuJRqOPS9l#crl1pJ!L2hBvZ7dP#FTMPb8tX0Er#XA+lL%cjHHo(g
zl-zS1bRABj2Mpu<<^HUo<_)+;kLz%mvzo;Qmb6NteC0^Vh@MT+gEmY=(uGL7KU~zl
z&BPd;_D5%$GSr`EWGGp+m5_UY9x927x?Ek=ps>c1#xC<0Ru(FR?*?b)D^~JUG+9=f
zY!@myeV<(bUdY$oH!Nk6c4J8lPfHViupcQ4B`Gu)LLV)0y1;wlE^|r(ZWCe>dM=h9
zAL`C7g9$s>#GmsH{wQTw3p*R|%*obYP-L61yzty)pv3xQ46ZhY{NuULc)~}ERnV#p
z6{NNq`7yG$P5TSPOLL`7Z8U(Ye;VsU${|mnAP{8j|FQ9T7xlf=Oz)h~k`HXBCw}xZ
zixPtj?Dl}mu=`s?<jy?Ag~-S~W>ssTzgaq9b9v+63CjP_wzysedw@1a^g>D}61jjx
zP39uVuHDE7J>yo3_+$1k^wnCm;7<y?Eut~o8!hO~kJn7#=IUUiXDHQ0eWVCOqdj;s
zz$QrEkaD)UtCz&t*FrzU$jd6A9SHE!Lz@<~2mBp}7lqDnvNR|_6IZUr$kQb~bY>gw
zD||i%)@b=@H3XMnW5N8KfzyuXT8~Zm{z!k)$93%(FXpVB;dc*^H_AZ+w?HxSH($YU
zB{w@$2j;V`1m{}*hC*1%iXd7nZk7=va@zdI8tFKQ%TAdVg*li|d!(jJE4!)MfWPIB
z=F8%mp395?vmE!gq(qAcg<Qev%k{eB4b--3qvG(~sv)Jh-7m2vUAzDQ<ply4t7kqu
z4aT4`|H~j6U>SbYmJ$%+nH}!U-9|*lVpRV-&|oP4o(f#zK~l~fU=%X7@f|>oFpd5#
zc3<oS5g<t)*W?FqRJoTaU_(PR7d9Gam!>_5#~a>RGU@EeNSdH{VJTsd#QkKlCF@5v
zfJOjYsC>p_0Sqb}zL^Dcv&Y8kTIpQ=ns{$@J*kg@5DhQ|Er~Y-0IN`dq~)-zGgm)8
zAZ}AWN6&W;ds$KVvkRV~o+`xx7?k}Gco$BdD3+AjX(aqg$o$POO%rz$@GrGzR4Ax@
z^eagUlWy7FEVws0aAF&c+uxW2F3_j;T>UTely_gv=U?6~OJ;u^JGTM1KP>Ts8eSb7
zccOU?>-wLYhhTyOPrf;LoxMlt12cK-<NtHj0JJjMXix?}9z;H9IjsmMNdbc<@_n`n
zp!+4osEAc9@rG2Wq*&nq_^C@sj&N$qa3FeW#*uow0Q6|ETStsUlzQqxEMK?aW1yX~
z6B^WO&|Ls^wz%H5fISRTM|nLqz`u92;KlLWTn8L+DL@s-==D1m>O-j>p(4ZO*`jvn
ztB_zP20T=e9LJ4KJp8zIOs$Cj&xW&ja>48vpwCU-@`%6`*p_NYfeU_m`OyAofBn92
zukzBI|39DQG^dVIojEDg#pX{#1s-C;EqRSz3ny0io>)oniuq%D&y~h`m1C+y&$Wam
z2Tsvwd7NHw{z9u=g%aVz0s|L#_}c=26A4mGE2nAD+Wguy@~HEb8YE=2nW{w>$7o4!
z1f5KO>_A7i-DimmFnTt^7?c3c|0*;4!W;U5fOmf{=GKfCg!BSHQH}w>wM$U5Z!KHo
z7?aB}VU?R={}gS{aM~{Em9`Ip3niN(Vyv0eBnMSRbE1aDVZooBu~kO|iT>OL=CG@6
z(P%s+WojoCM}qd^N#|8~oyg6>Y*tC}wPj_Vp>*cVc%D_C0OO97Kz~uYz4(U^0G9gR
zwP<YK5+JZexQ>wNj&2E{@0K9-+WG=mk5`yKg30)(rFWdfKc%#QQQ*DIBcI~N;W4TZ
zc0Szvw+8Y(5{a*uf4PPQ+>?`b2~4A>@e@|4Y7Ac&Z6wfh`Ad+@+pZ`rmnWzo^)SaY
zu!6-`d4{7SO_P8g;o0s}O?S)I(C#wh&~!teu)saOqEQ)vnVjFE@(5$|e9MTSCF_av
zM$C0`$px!s^$Lmbr5vJ(PW~y6Gm*-NH{!maLthi{VZw1|@SG|cb#da672k`nbT<<J
zgW3b5dOiT5pgx4^ug-bfK^cnN#=)^B*ShY$qFoOJk12vKkMP`#o+^+n%)hO{It-lu
z=jXaOaDrLryiI+O5vtd{@Yo<O6XUW!_whWb7;_L~h3-Idw=TTJ=O-q7DmUyjXm*_Z
zwz~oMktbE{&BIlUYv=$~&+!-QRdT^)izqn&KbVzadueyE&peq_=h25FI&g<$0EO_8
z@t7mRr9;X_m<0RqA;;aGs=9CdgR)_#<0|}ic=LZM3>pOGujdd_nS;887cwblfwCI#
zeG_t5@Z#fz`d{%^ZH8`-U4igvLICkogG&n;?OPq<q9af#j;tk(Cblb2%^Q{1C?kjz
z1T`8ul#}&w0yKc)gCT1-_4oYv-lZ$fifh(wbVR_RNXema`Odn=%z!6>F=X8X&r`Sg
zM?4V9)TsO&96r?LR(<<~jwNWU_Ie$H6Jtx!P=yDdr>dc0fTK0li~h#ul9o(`Obmf}
zT?pWReHViV{IV<;(eB>8w6;53GxA$SdiEg#O2Z1mEs(^8C{T?GiIZH%aB5|5qu!nQ
z1iIGfKMt&y1JtX(_hOcO-|U+0`pl@x71aI*sE0JQuK{f)(V?6<)=L%3otq=Bp$2|f
zn7)*NQM}XsLxz6(ue$AxX7OSApS)M~U1EIiKOTC6R!#oNAq8Rs0+b|?i`2#yNI;g4
zi`TY#H=NGl{lFKVGt-qOmtS|9cz^*)SeH}Z$NJ_+I&56@MSQI9t%=iCDDLpd;*j^4
z`U05oskn7&LgZ~mWU%vfq_afZ8-e>^slmI+CW!tPPWV#H^YAy^T=CXI=R5LlHjSp9
zW6LX|+h$SK$N-5qQbzLMnyW#3)A7}oTKxUl+>h4-V`lwNOe4E*q}GIbEi<%G!uGJQ
zxLlbB9&%$={eM>w{yaYBe!k@6Ht}Z1eMxV-k@0Ni_#fZLf6kBpJp$|KpcFL_$k4=x
z3yh^WsEYQMU4oAMkOfwV6!X;cf7TmMm+nV=@<8H<Yy^$>#s@@L^)1fvcoLHP^ZAhO
z{m6D*dIs_#z$>qf!zQPurrteq`@sWY>G$CMSfLLK18`H$J&2u$zysDguFL)C!%K!*
zk*4v)H}oO_3X^Wo<BunUDvD70x+<)smY3l#UphQvF}lE(lKnpmR@H(o3^2w6VWsg@
z9087w0VbbT1J8}{0*Fsvw)2#tt1i(v1xlx6z$jEQp?a2cI&grm(S7JnipE2KbAS0F
z!CFwZ!+qJ!W!#q1v-|lrGJ+>-oSYt~xI2j}uktl5k6cYb(Xa?T*9$3zw^Jm4Z$#=V
z7p+os{_H%+au4?PZMEg*Djp!VYtT$>A-n`Xb4cR(S{w_VWUU&o4{`(TKM8C+DSDy{
z07!*h;00dng41umoK^~{G5l6oSXwGwPWELTU=Gygf&we~KhI2-|4p{{*|BzdTP7?h
zEYxlgLD)ZAtx@}Lw0K%8NO;kM_bjp=+xRzHDUm4IF$Eyjs&Sg2c<DNp!L<xGTy2cT
zgZ8H_A|5u#e?A#_z=TpySh}kx{Qv%t|L5nNVF+9$aLd0jJ}^(hG*a|=qBI)F`w_;f
zq?V}Qzt7>QXbN@Wt-tLJ{<V$X&#Wv)Vl`M26hBm`*EbW#CaIg&4TQbdi8Osp1h{f0
z@5yV!C^+mbxXD6oD2sfge+M7~<f#AzFne(+7GG6K5j{#-0>1RSd6>rkaB1|BsLk@q
zqEdBk5)6$H$9MiBJ2WlU`aYT=_u+77vy8!LIZDiArW_o1T{46N$mWy+!jI|wl_iq-
zs_Z-hJ!qCk-{xelSF2BBpMY{f>v_|c#(>}D9YJ{kQ*!w4+h&X?u_aLOhi?&MR3+5n
zR8mSHnD|0~N1V;}`xp(?MEg(icBs=dmI5&6iqRv-n;@5e8Gmk}9o1O2z)kZniF#R(
z6eY}zPU6Zdb((uoaB|=lnfDpZhC@rj9@Cns{C-{h{)nEJQy*+Y#_1gypp})Fncbu5
zXXeRhriha8O?Ym~uU`zFXLAdteb?AdFJ~8h=i_IKk9#G852tmtZf83G$)IL^GDMLT
ztZ)JCJ8k=r3Ouf;h~`v!H9sTc>4|O4)(hS3L%+!_8|a*@u3n4PCQr)e^X=S!Q(!T!
zK=HiwM6ufVxyksKkE0&G=Z8#ErV*|A4nE1>pQHU+Y^$Ax*ZQaX?LcA1(ug7bQqPxH
z+o8LxYf2N;=bwJyf{n!*_TAzCHOl>O_Wgg)QN^HI%SCjTkqTq;`Wtr3MMw1h+5#1%
z8%h%V(`_5UCsK4K`?bD89DfiYh7^qQVbdp3S%&Gt0;Z5ZxDg^y%0bI=Juq`X0_Ma@
zHr3sNk*^d&@G?)-V)>_7HO-?iIUbzI`tMw>rp4xJ2^egucnB<wHusb+qqQ`u#f;Q>
z{^_k(ntQ(r@l=?QN9E4G6roRu>-@27;Vev}k5@^aK$5WPN%uem6a~4_C6@#4(p9;c
zW#XR_Jh3y$=-|O~oPkDU|0oIk!UZ#aV+DXGi%M?SYon3gW##3!S$xacSP=uY??3so
zmXc(P6I3Z6?C)jM$Kc44Hh}2AP_e;jQ|5xmqU8s%-#ytyQ|gWOzGH}jY1`^Yxw}Ua
zmve`55t7oE6rmTEv8EeJc^k%N=tivBg*^8^he&5k7s1X*rOP=#dniq0>P+hw%7X9F
zI|v`QeilU$`On?rbr(MInCa>1g{);9Sdd2MeN5S}mC3QhoBKT>&V{vY2K6~%=y>R^
zuQQIMuq1x6SU?BA?9C{B4&bqU=FIrAXZ3$w0BKVl49*8*Dx|Ipdfr^z?DYNn!i7!)
z#21O?Id9Z%FgY{}`tJYQZ>JG!?JxXV4*y^`cSwo}`&qEl)Orm-<<vD5x|Ga@Wz%Yc
z{;Nvrq>zUj8@VmC#=GMZXwS~hS~FYyiHy8oJ7|K>@~aedaIlOX?4}*^^p(GyFaM7_
z?LU9o{~nv=(gB#WMr51)#HP;az0(EUm`3JZ!pyxERv1XPo&BMcOGvkB68Y)y0j+rM
zhavbBp0WXK9bDROqy}V0^NzejD7@4w_yB;9E7i@TWrkK;v%(O^cBGyUb=pG-OjVsa
zhN(}%UhP!fRRLka80WN7MX*2=O|Z<(&Sx6QElOxI&!viao!asb#s-wgfyX^aL(5`n
zA_ZAz_=jYHh{(;OSeYsPEuJ8-w{Z~%X!txKHNedWPSzNSrmU|v&#-CW;$l0CEuEXs
z4$*^>tzjCqS7Aa#^9m?V=x(8h7V#M*`W2uS^f}Or&NfV5fETtlW~ML}+BT%BDi)1Q
z$-GyJLujfmDj#&}ye)E_CGx>h=P*T~9YETax)0;vJ|RRpdp?0I!)s^g_hjZpb!pCJ
zcT^YC(+lzZK&=}GW4C$&L_LP67qQb^^H4h<{xuCj?2^Bt{hlu?M>Iv_ex#tcH#L(Z
zbn*GlFEOc-_BtkoP`Z|3Yzh@iiumrY``nEE2OIwT(SDzft}(e`UJld>gN*#6l^vKf
z|I0A^{|<0^G60wRbvX;MnzAGnp?XJr0q6&UKHE)Y+Wb<En)p4x!UacEV8bgbQb2Jq
zU+bqtKHJ8EdnFQj#D~Q&Jdoqbf9aP)-vKnX3(R2is8~a9JC#UGz6y@k(6`wjmI%)I
z_zLo+6HR<73y`7{7UC{vt$gGy#k9v*3L96>L!Z^}bgUlbASR`gDT`(Dl<V4`$+U=+
zYAj62K0yWl;6|;V+1g-m0ykHR*f@4ngK&)eAHJt=jP%eEj(uBC=fz3c&#gkbdE#KN
zV@YEMBjLo2#PbzO>UN`<5Em6_3P(o`fs2#9c*+%?x^u;=x{+ms4<fYGx{h8mr~Q@f
ze}Td7l?PO`hUV4Cd`}J$Nq{k3@6A|d;LT}ej$dDDehr;yL&@#!y(Juq8X*c9VJ_#*
zxAe~7MXrox@2El=E|Ga8G^z(Tmi@M0mTYM=wJ(>!YMv4;IjG-p&&kgZqoe6y)r2wf
zz<fAh`sJ<^`3`VRIO(S{qjf!Pl~NNGOPSK3rYvVx--0ebuqod=kp++HP>aw1nw|c?
zv$;GFbYek~fLKi!5thB=0+fuN9qcO54ivOlNAAwmM?$Qu!)`9$vWNF!6=nI_yjh1x
z@&U??<VC(e)Gs296N3sdW``9EAzFI#DVW18NK7Da7QKQFrN?(fA3c$q(1yF&qdTGG
z5OmlsPK?&vm&vm`RQe&dS0y=td2QMnYezxSf>*I%P$0r28s{4nX^ae+e->30;K<)%
z|B#zC{&j616jQ2)i8s(lb<P#x;Yua<LzrX9<_D455&~B3Q@h2+KeL)|I*oL$CyXK~
z-g@3DjEQ7BT<edeRDCn~w#BanC2BM)g$>U<LdK*jiqjvUoy2d`H~YV)LVf3ToRYIv
zEl)2RCsruUEQ9a4FN!Xi*^xa6`H2GP1I%aF=N~Z79fgIPCyBC^7-C;H#m@xXtPC&<
z2zy`3NjLS#Ul;F;!!75BVx_Er5f7ML^-=vK^$nLX!>C(tA%2ofr}LEt^!J?ArJi=p
zz23-z@roc(V|)9m>t1&v5m=QT!7UVElyY#a<0xrZKj{XK;6YoQ&vlmY<MZ<ifaLoQ
zVl*e<4=|=2aqI%d!4e?7(;xVxh3ffztwvh@3xGSByD~kMCVw{~y=3aIFU~bNs#QYN
zP6*<A4e_WNzm3R>++~dIj646XB>svpXNnvDq#dKGv)O;p&Hw*UgwO=q)^1=s4^p=*
z!4(DC(=Vfp%268>)BSqS<#5-Q<P;(T!yJ_D5|sFJFeVx?wntPYNkV_eGP$JK$pe2<
z<&WZ9>{5Ld7To7DjFCvMitf^JT8K{!{HDrR_lzOcW8H|7L^go=J}J6Cr<N;Uo2;~_
zSA{Vd3xpC5+{=q!Hyjl8Qhp<)3ay(O)*Gb^5wA_Gu#t6z`qCjMG$uW8Z$2N46zGMw
zhuX@jA=blTTof(xnm*ujZj#0Mn(AZVGZ7_XIXZ`|#yZ6lHgu4{As27~0}GQ7^fp4+
z125lT<h}?EheF5OXw(Iy@9)Q2^#};~CS{)bO|<9NLr@;_6+O)8BvkX2EKvaQ(G1KN
z7J$HWFQtQ2o~;oelM+4aE1!mvEq{>v+p3HZiZW_ZN(B>>G-9cSCsqKVHVPEywq4`w
zZT=Ir|LF~ARLfnY{sn&jY9Mcu=nzxTg#T&xB|MN_+3=^dxnE-{8O05QN4Up6KH!n_
zCneNi2&{miQTa-ugu7-_QgW)L_tO^By8SVQJ?K<Am(U`v^LKT;&`FxsTbd8yI=u*T
z9QukV-<1JeY`!Jw2>YQRKniZTlox`S|KFnN|E#s0#ejO^QQ@cph>JA}ZopBNXJ{?D
zsg0<Ja5qt-_<oN{F<!HAC=Rwv+_cQk1oG20WX7A@5s>~)pryYodUn$byOskBb>cs1
zpSy|lkrCTKG=l_pIjSBuYXRj!IK_fw`AZYE+A9fdvkFtZbtg8vle?If+L$!W$!lw^
zE!d@K^4A7x9q88mEIHME3FcVTGs^p*Q0KwvU*Vjb0VVgAddr;snXMQNna}bFi7E2a
z*4{$``Q@Iw=@v5yE<#@{;T#InlYzrea<Ci+vU0X^wN!@$(-Cy*%);N_!E(L^p8jN5
zF_cM~MF%T}c6#Gy%=xm6;Kk-|4)+n49Wk!Kku`Qy;Apvirw@+}Dd1v4Ba8-}@k<U_
zS~5LR-+6UmVd0|qAIS~!7t~W8f**O#cpW1}6Isy;)UtpdeUKtZT~<~WJb>nwa+U-!
zZ4a_2#gK~pCZtG)o?UJ;j~z{8gZ71}UDxy<UB7ECe=@O(6dq^$(@>}lk;D!`dX1)h
zZe?fSBG~fWN@B$vi*Ky<<5_%8yNBp|h7BK=ekbSW8V=>Htva5k$Hxh^wd|L3f38-E
zez&*l@$>Uz@s?LrrRERB%9@)O$C2ccKF{vNJAF5pwvc-FsV_t|GWLD@W(gZ7LttjM
zHyzBaoEb~@gZ%n*wMC6*KJVVZ*|}~wIA9GzmClAF{U{iSAy!-NljuW0=KB1iN657(
zh`E>Mtv9;*X;{BYGoUyTrT*mTC^_2x9}^*u?UcT*hJNjrABwqU3D0AZCwrM2e$wyH
zk^YP`#dGE<>+mKbHv@)Ap*IJE7rxs)l#E-okT@$L#^&bhBW7pPk9M2$x6SMWShW~L
zNa~3(khtxBxN_}<-Kl23Y)&<5Xvia6xV>OwwO!p{<1!^FIc0DdTkh^3`}!TP7ldp|
z05yATdDFFp5xajQTo2DCtu}e#ecIzFq>*A(s14K-Eu!Y$!8bY#>YT->W*a=?OW`@c
zKyXhBHT)r4z}_et5P$s>b<(n>v=hSL2-Nge)+~Y9{8c{wB-svA!LaxTRd%+!=Zp;b
z>9pwiJUt=ICf1=0_pN7&wruW|97aWHny3<#{|rc=RT>0m0VM&M&o{NS*N3k6-r#G_
znz<B)V{>>kBcrTblo!4{>?+uK^JBA+LKDpN1=#&alT=I~5>i-<f&{Tx2xGdqhxiGb
zvO9xFht0ZW0?$o5mFFZ!#rmLu!cl#wqXotk5}RvchUt(glcON5=OS8grU~8=)l8TO
zhb_-U(-sE_1<R~>x9=|BsDXO7he3CTzVYKD(sEHY_gTl5uEYA?piAOFOZ@2xPWg=p
zW_lU9#oXdzi40^pp8fiIAd>pGszZm{cA2UW)T^^%25HW)nj@chA17-XK#Ag{=mgk7
zRQ-veh`5{DpT2&s($Dd|$A>^D5rWT$lunQjk+IhOdkP$sFc=&dP3PE+=HWJKT5h?%
zU(v;uUum#TJtvV<j(=(%5+e-Y>bUT`PRt#=TQID;qq~Gtj&3W=Kauq`YY}`{b^emG
zP-SQ@%3eS$;-_~)5jU{0KbE-%G0uKt;tjI&1~A}YV_U9)Vh1%5AF0q5p&TxFO{dn^
zfBQYUoh}9vt0D&emQOufX|hho{;V-L!qUl@yeRR|8-e+06Q7SUscGFy?uqOI4wYn9
zf$v+j`DTuJYtzAZq62=S#Bj0~8JJ~PD98813qOrUyOmPnI8>6JjrTiT)3XLmpn_d0
z57eRKLdsN#g1v3>gwOfJF3ZQQvs0fLuJsg?uDh&p81ZCS{s`Q5nC^K>+qqAy&v8B}
z5p$cII|iORLi_cx<Wsk=f4&Rk3u_on^RoiDF~jQnPf!!5x-rXa9+~H)+WVZe;cI)H
zZgdJ+O)}4T_b6qNruiM93bPP$+bVh*zKP_%7x)}PU)-1rSs!e?Y{l-aJbWmVJZ&{$
zeG{~fYW_9x86heawJlE>awSlN|B!SG>=)D{RrdaW$U3X2xS}OYHx?iS_u#=HNFcZd
zcP9jQr;*?^4uRknT!Xv22Y1)TX|!>dMut0gX4cG_m$UleJoH0V?R~1gzy4qmE*7z1
zcq&B3Y8(nte!?B68fWnoDmW}7J`+*)^M94eQWTg262C=ha0O$>gWzb`)|9aEYLQ2&
z8yMe(M!pK|Dbb3vst{_Kk8o8HOBGUBU3&S=ejR@*NvagF|GYcUO;|QOoNjTRLcGV$
z#817Gm@A8od4^0KIh>khOMlK$u!DY{9w9QtF6o2loueBVztI0;6u5VbKW%S<dm*^g
z{n>af8{D--z(!LCCL$#c`_(?cfb_N=p-NWnc{FmF6SuyR3UkvEaWc?G^devkr>E2$
z*;!bb+dCSicDhQVkljl5mz_SM<CMKFa(A3ZF`;A>Du{fHl=^}p%k%hLVJbRzkLp*u
zvVHki5N@j1K<|%+U8P^soE2XR?nv*LbWv<xv^S%lY15O)tew`xu%bTN_F-F$r_s8)
zy7DVivumm8U?j{4Q#BJvZG>$hV7Dy={zBvOL;Psj5BO(eYim9`pjZpKv!6<-u-ohH
zVp3FUgKL~_|C0usBgo&=r5cH4J<7W!fop_*1Xz;kzoB!gB_)-=-Wl=L-&()}1U@7z
z6u%`8IvB`eV-lhCVZ0g6s^><0RuCgHmq_qb_0@GQ5K>iKjQDc?ek!ZP<^{YV!XO<(
z9-3rWF_tZ2nC16^r0u$FK64K~0+9T@Se#}h;jz~+7}9cbYI*ajAG9D=Wn@H_S)BU}
zyQ4r{GC)~p%CFDY^O+;S!~5n``u*d_y%BX~p<fTCsexYNn@%Wa`Y&|>7R{FQMx;Yu
zJD~`e(KEs_v@K&?Z&pa?egmDwh5ae=Sn6pSIcr*-kBUggr?4K&-8G&Hq}(;SE?DX-
z?JI2Z)z5P;jDjwI5ZOOXDq~YMC>KYdi5=@2^wO^tz?A(bWSR4Y4YUtuB&~UKQOC7B
zPPcqbt|ogR^k+)K3m;no3kwg;2(HFEoHEe=ZPQuqr%!=1-)vC+-X*E1$;g}uEt|nk
z?_M)K?@o?KK`UyMJ8L^9W2?TCt8OpO6D^H*#cQPIzK8QXcB$|BnX9@AFm&w%>_s?I
z7yp#Z0-s<M%fGk8fiR#nO_xU8;L2HtgC@VV#bRbt6WlY*D~*0oaNqOaR1|0nAJ+2%
zqq!PcH)E`3WH=9gq%_q05jh|T3(WKc%MP0qO=g^^iOA&Mp3aLytkcMvHw^3z11>mT
zp2Kcy2m&fX(J!33wPuLZs>7N_l~$HX9J(wEbPfPb*fA5gcQn>@JlRg~z4y!2k5?>x
z$5WrzZiPma1Ya0nU1*axI(7d{mHZ$TcTdba#cS@h<X{D#^J%m6ym7qe4(Fn1ZdHm%
zi-|N_fm8OGG##FyYp}@Lp8r~vpJyi-Xot$4dAEpA-+1xmg3ayx8%!tLK*%S`<|Kvs
zY;S<cc3$@^x{0i5Wgz4O`N55aB9qO=M6A-;Y+KP6!pLm)>BX`yriS&ZpyOk;BU`gs
zq~UH)Gy<^Oirt9_cds$I%y{~vnSK(y(|fa|YTHcoHjk`g@WOil3R4Z-2Y<MT3*=#%
z>JP5`6)~c@_j_yq0OUJp<h`2hd@!$?o0mv4Ozx1Uzt~4qRgJvn{R5fVi<+Lnwtq6;
zyYHy%`Ypr;G}hl;#fIE{E4oyw<>O(PZc4KWymNhAA8;+F;vM+r7^i%VC#CljCEvVJ
zd?dtH+@6Xe{|eyMS52QQ8B4?6(F_SK%@K2cKoQmR&5sbUSzMwg2OkKpW5KIsL*jH(
z%-_tc?i3U8aSD@`<G)g!Sl)*Vap~!O<kT0D2f~-u0D#ANv7f}B@qOP7bLNA2mrzRP
zaMlP9@)sT15rs<Slht^#**!1u9<-LZsij96^&8|%sHo)DgWh2}am{#>=}gPR1ZR2^
z;9fKj-=Ky$n>W`L`kTe~?|vo9g`@kTv7dF^4ZunY-dK}(GuV{Z^#K*5Ae?Zie9=tw
z?fSiYdkkDT-1}NOf>BlqHQ$|ovPCH#M#Wnj6}CK8i{7$pC$%e;jaFOmzvjWZ4jtBO
zAQ$(;W@64lTm5Z7gjg~=4F%LdZRTI;4cx~PahmfS*G!thxW4q4VHZF0FDAh(x~*eJ
zM9D--1+b)h1&Sa8nNKr3O$<|~56K2~s%>X>(i9hxes}&(T@SlRx2;4KiOgEGu-;!?
zPZd)TE)1Oy#O;Y|cU8K<_KQnlMVY3~`*Mc*(0V;(zC-!j0#l4S7`gZAEc|tV2J+M?
z@C&Q5pb%^7S<41r@5IZ%;&GlV#R{XP@5VC%@8zH^Ys0hj*&(zAvHi2AzG%;9t7IC(
zTMJwjf27U0!K_AyET>w<>@O?ij~lbHQy4cFSFHD%wFGZwM6o|^Oh9|nelS_d<fmJH
z*aogCuq@yiNnxypjlw<n8EPp~y}04MSlPZu=c5UYBh|{gTko}RJ*~C#Q&!^yU1=8q
z(CE5oX5YNWx!h*{Si4;k@9Ss*haB<2k!u&pN8Z$TR}oe930*(SeO^J9;Ff(uGwLRC
z3-Nd8L(TSx{DQADN1X;fhX=i@Xg5pD=B-=3Vd~xpeeX(GOe<**t&k~leVwOcfIXqO
zCyQMj!Y!vY7SH?9B+sUEqg5TduCS|<*Cb&41S`;e&z-Gaxp2}&Cl)#96?2l0nGdt?
z>K)ct>t`e#F}NmidW6LjB+?>&(a+pXeX^Qiw5-NN?*}K80o~i4b24c;DpKv4+5{AY
zW@f)fwO-PGv*84NBc0;slND*EiRL_0OP)=n=n?c(%NrjqaXJ(@{?ai2WuyCPGsV{E
zL&BAEo`SKkI^U5Lb}eT5A9%R=d%^aEsiZ=b<_j?KBZvr1FGyUsV@tO4V_6@4I1G)q
zq$=zQ%EkRaNE$CF*k7-U8=Db%Wjn?l*e#T+)PpBxSapFZ7&@k(NptnHfOQl#_q*X{
zcW1a(yNcX#sa(Moom6phQ<O~VC!EF6PxB#8af<zgSEY9`gkij;B-Yz!e-G!{2~e6}
z?8TE)k2bwD*dC>;{Rm$faA>N<iE5gX`c`BAi3<uJjUP<sJy(aQ=1Cpu+ZZxbqw}~d
zsTfoqBr*>-+63q{H1=W$+)F2a3wqb`Ri|d5jw`;H8Ea}^&9fB)Y{Q(qQ#RWw`A)yh
z^~M{FT2Jz~RvQh_^y3ULEG2u1J}=ut$YNjyiU!XPcE3&3%6|k(6c5kP`683K#1`#$
zmeztB!8SQnUyyWkbJ$K0^C4Jh{@nR+HO^Yhe(XvZ|BA`JF0C|;bFWwlvHo1mvz$DI
zCqxpqiDE%4{xk5&Tt!5SZqcZs5@)HRv)4;On=}IsEBYbyTm0A0cpfqj`4Mdk?ROrn
zlf6PNh)+>_4J;`2y~2ba`i3gFew)}IZHY%3u4X>m;P#u5nRa!(d~buThXRxO6y*Dg
zGj47Y`Xq+mW#w<jdH|;G4<9xfY%7~(Y?=tcv|YR#7)$PxX5RrHixqF;C1&{I584hV
z-IsWjgr@D=Z!j#aR2aopFY4?3%#vSUq(F~bLMH)!ugkI9yw87dj|0!LGsl=g2?gDS
zIe>1`Q#9BaP`qD71okxgj`Ck~%Wk8eXP3|BX_rTr<a~y3G{`Vg$e)a9Tbj%_*1zjZ
zr3t9i|73Flc6$gvhUu2GH9a`E#I!6rbbBY7dF<+3*iGTkx%LnG`f_DqsMo~=IOB$U
zbHjTgbXz#2U)gx|jA7AleA~bi;d|?Iv{Ixs;EKRsZSbWrTJTzw9?j5<!uwjbYhT$N
zxV<-SxK#Ls$7i72Vm8z3@?wC0Xz%=2vSHJP{;i+e(m&*8#V%Z>=jaYPN^;rWe)*(_
zR=2ZEo;I4T6Ze-zxHiA%6HHcZ-y3v4?x)`*dV*)0$sHDqQ+P;5N=pYt2**of{6<CR
z*Z%s52mhw9k}00km;v0LN8go5!`gnQy0glDc=tgfiWjtvFhKn+4uOMyFVK5)%GUO>
zFQeOQ5xUdG!0gE^Z(i<EJhLr^`ZCoc!p`^5!vEkf`Z%yI1~tp`S!e8SMq^!dLN{g9
z3&Z_|#;y9%_bF%#(-U#Cf2%H5B}|aC8~)~706yBn+{zrWt=(`>;z&{VKNLVDwDtX{
zb<vy{+okPQc?bKGZ-+c^${+q{iE8jZBbFC20s56Uv0o#$+yy0!>9fOp9LirMD#7vj
zl>{s6v`xIKJq`s8O4@n;m@qr=`>ei=fBc?)A%bEef8~Z7FHdn^14Tp)3<MScK3Fq@
zl#loqy_nAL$dg@uo0PGA^3kGyKAc+o5pz!|uF%b7w>~|u8Wpu3z9TeG2nWG>_v!3o
zV!sg5qSeVKpXlyt{*ffMBkXuTfMvNZsr@&AH6!L+R09W7(ZZ#MMdf3Am31k-^-x|%
z{^d|jlI4TC<$~Pb`OBz<sW|GU>8z>*3IhB9$2}a7r%shsSCMM`@50jHk=vX2+sg|D
z&oZ6MQRnJf__m5mG}G_X+<$|-fKF8U*8|{qac66lypWJ~+k>WlnYS507=(9kZ}qh8
z^dQr_N#D(J3ZtYg07o3jv-8bFq=r^LSsrZs(|Nhs2B-oOdWuCjsc@%TDqnU!5h@ua
zcj;c2B@qSCG_AT7x%6nsA~uNEJy=k`T^wr|9M6JcJQs*o4dY^keY}p*)XvDaeO{LG
zFdEdt%psi~n+H3*fTiB&%bAT8L&Wct)}iT7PCJuAHm;vBKvv#xV3x#+peW<^?AlsZ
z`2a;(I0foWCH`m9u9;W3ddK3qm$TuTN*mu7&yAnm69{Sdy@l_Pe}tCBlO;$~P#n1_
z#hSn#VkR%R!mAgeTaqH@sp}1Xp)YKHLpYgeqo@X*`f1n@Pd6KsvGpFVBFDo^#AD$9
zAhli5uLbcuK$PRBA)fR?bv)Yd&2j)aAIIeQyQ3955!}KP$g6F=;aSGeqFtU;QfVDD
zLNnT^RK|Y22tb10t7s}FY7S-TMG>(M&&!m)V+=(J?k&yagy<}m+QwG<%f`_}3m#!3
z;K;uVipeC`yIypt^Q*-hQp=&mlZn)pN~jw^eMyNsHf5v5?0(l{<N`<U7zslW{GAon
z&G{uxudFhTOzumc=LvWvx7G{v6vYABDtKtL%35f7#HfY)PHR-qy`WKE|L8{QNEKVq
z+JV3SeL1Id)cn4yimcwS<i?7=Fs&y+3G+$$p0+TGLBkd8CSv<5&4()u4w5yRqq7ID
zzNkU%ePKG;Mx~S$h|Lgv!<d<;+)yZjo(<`p-Bz{-*kgU1Hm1my)m~7LOW$@>A&O$p
zd*pX$OJ<*h$W^rjt=I!xcbRxp8ph^P&;jb^o<EU3X7}fjzR`enD5-zIAEcX>9+7!D
z9X8$yR$uv#G1Q1yH()H}u}_CX!m7#(!qCAk%HeU|-vdFVN!17kfVBO{Yu=fnxgsU&
zpPEWxL0(zP8t814q)8H;o*zFTs%CXs(vm^5cxjG*;^bEP$JKvPS`qCv>xud)j-G&S
zrH^WdM`=Tn&{WTU0MO5Y5Fmg9I53klSu~8loRe|;D+^t<3tirGx=kxnyK4TH35_&t
zL2hoo4nNYj**=OF>t4q~*6Gu4uiNUfTOKhxFV!^njq&B_nlD?V=>;G;N%o@`eJa>X
zjLhg5Rx_ej1xyj8>os>hK~BvW{a*L|j@!>Nw&ErHJrzhlbEp?`vu|gbRiU}}SNYi>
zAYWf0{T?Qp@*1mS^ZEgR>zNnA^{agrQi?i$-jjiw>+%B)E4M>a)KP55wrS-Pa7r9H
z1dKCrQ)h2{y6rAWU{B1fPHU>%>Zgw|3NvIjHPyFondEfkoc|T_)p68*7`>t+o9$=b
zy^8~AzAq&0BrQ|#06sL}UeX%=nnqWs#;1lT+AO*(_dJDKOzrpiDgaS*71qcC4|bnu
zc3*2afeQ8Dg1Q(&Ws*sO;|}V-gm6wA3;HGe8hA3a4AL`b@gCw|dmi*}p(YYjq|{xv
zzht1lWv8XcZ}=h~f>s^^@LMh3KAE)N*Jr^;g<>ch|A96-8TFdV)vGW;zOr{?a5IpX
zf=ET+{3n;5tuE!>q&~!r-dt`SURHLtU-z|E(rjecWI0O-&I`Wx;KN@nKuy7eoJmVF
z()8NaO_|3znfyQ6Tx0trd|HAHbJyYeAlNV2n?r7N?$|?Ts<<};Z0ql`oZwa|KcC`w
z$gDDZQfy|#a_c2voA8u8gya;?1oK|l4iz;V4&|{}%Pg9u2B46uUcZxo7)GvR|1Lzq
zo{$*3ag5qf21mm8q@(B+t<|_^2=1n4%_=O=M0jb6mt42d!BDUl21};iNb(F|E72hu
zFr(5b!!<-7vPqYnHqta4oK6|r;j+Y8mmTK5tf=x-q}z8`<h=}>e%{I507tNO8Q+Oq
z2kU$7QrLAWN&TyKQ^zQwBxMS6>6MK5^bWC$(i4$4pyp&Vb^vy@amMih_IeWy%0NA$
z?Qqbrs;LTnztv1=;K~@%A$0;xmj|HRz3aH$196DGs17lK#?_4S)Q!qDjGg@2c5Oh%
zoh#4o7q8Dl&+BBbf63TjQP+nKSul0j%P&G06%Ki^h=4sIS?6Wo0KS|1I`L~j42uSQ
z`p@N;bv)Nv<8(A6rKihjj4>+xLBd&Gmyu(HH@k?tWCPD2gmqH?zSdqZ|IvDTkDQkb
z(5-dWevGeMiLn4idI_PSTZMe>N$ZsxkleX~xXccxdIQ{GTLQQjzP)Wb3xz&3l-U(*
zk|&j*bhoO;7xwGl6?K8r9b%f&X}?W)ajPMJF@KArioc>X#*2=Q5`ruw%UJ6MkuIfq
z8w)7Bm^ft@jx(3PC<Y?c&4M5_-yXvG6xb)JvYOK#+r`rP{3_NS@0{Fv$Jti6{Ja#q
znvS6)hD{{)o)f2j*Fu&`vB9GKl>|yM8KTid-ZWQ6J_`xYsPkh6b#JwqQVK3*>4sPr
zU?~GO3AL-RvsZkTDEi4dI=uzp$YJYd<>?Z;8sb<+Vs7fiIC40#9WD3Cw2PhBghCoL
z@K^5YcWwDskkvYI2CAH@M4r5*a&l2sJ_(}+gY@A(-1E@|OQ0L0?q9{7A~^PD;M3%a
zWnd9xLA2yBME1C9l9fK+UBN?Yblo>JS}I0M9+pTdK3iqpn=>J3e|h2B1>BOZQVX2Y
z{v5~GbsNq$@PCbXs9936Z_N(v-=@2g-ItyS^DdTt5}q4>t{47g*#!?rHJ`i{8f*?R
zEEhV2#!aw&OINW^IHB~3B+oU=d*oN_@aeOCLVIZ1`RJE?aY1nRTE2?xb)O{#OJk9m
zi6(T6JhrA%435e?>+-JY!qqUYy1$uB^ATCP^1KeS)Wb);p*Y^`xD8P<itA0er9wVo
zE3_%k1~?D1eaZ=Hhue)E>g9b+4EyQ(S=V(AvOQXLbFE6|3%zU4aqjd<)2G%I6?vXd
ztaWxTf?2-)=O)3}{g;t_N#Lv+SX=yjN4$HdEcfY#ke@N3^R;lU9d>tg!sJ-&3gK0}
z4cT}FS55`sD$|LgMowZ<@DC}+U&~m(n883FbIm%q(cVwF2cbDXKEN+It^hfElwQHf
z=6BbOJQ0qg=vqq#d2Tf@3eO(aHfT)aWLBHG9*<boAdOOF$76`@v(cv~KBB|R2)4OH
z1KJnc(G=V9AG>H2^gBOeKOh5h$YaoEY7JvkL)%_pvHE@x!?g+W+s_Y<u7mn_D_y6a
z-HRQ%_RXuxnlWyJS%NTn`2adb0OcSZ7b_AWPIq$%x}6TH0NhWR@n-bwSOzE8LaoCx
zbG(dp&jBY%^HATDULEn3hS>T%wqoY$9*&ZW@@dp*d9NSl`eD0rm-g#Dw2ekDYRno0
z;)LZKsg-}GK~d;m9v?K}5s@BuBj{~XXmJvU4F2a;BMQ%|-^xS*?KdWC`6Byal=Id(
zQOSUuP*r=mlm*LoIsC?;MET&xR{K<%eFAOO37j&6#-UrH)`SlAuA!foN9E-fQJOn{
zbTm8dlw{l74o4c&q{F%3tZ-DQGMIFkFDORl>$ewG2=^$O6qAZkX0a$>yn29P5mHXv
z_<<Hu;oiC)z1nc(mg;xT6nkI3efA3X7s)O8;qEO?8Ekn@eBP=9Eugr_)o2ZC5v@wm
zx@;_|Hp~CY15_jgC)15ubZ{ifW(8Mhtz+SC)3y@BXm^<&r6_gUe@eJAju6S^Zwq+}
z8Z^^W__8>ycbQ-ZjaaML(*3SoEvX9aj60AskmC@<j*>4gW&M>#cx9y{#+DQ|qWB|J
z#w(<hMkt;KzCf~fv;DbdsAdI=))O80FUaHX*;R&@hrEH(*TQ10KlEn`(V<dCjW(MA
z!2l=1pY*jj{RcQPiHGa+S<fu7{P1d={RJ_#8^*qy)TYr&<KazQ>aEIa*#VN0&!yv2
zxBF=wj*_W2hXv}I;7#`JHEkvzGM8F8ThgL-M-N0p4Rta@M=D1s&9^j{#<o&kMJbYg
z1rl}e$LtjK(NSTCWxSLw$JCS82prfZ9r~MvvKS3&koRHuJdm8?kO6H;NEL8>M*|n^
z6ZG1)a~H3sZ)Hl+)~1?m*kaS5)W)b3eqA`qJU=<;+SpYTPYY`&$20PFnZ3CERxg-^
zAF&xiPO&qYVW6+MR_aPS+lmd9zi)qtKrC)@pAx(utO61{=Q~)p79NMkVO~ehrlJqL
z74bDZ#4YW+<vdY!2xPV#=;_(AfJ@wK4`HmqSfaHP8(8`GQ5~I#L5e7EQxHOA*m<$A
z5hzA>=l{*o^Y2I9yzG#A{QA+R3-!_C5CMzPa5wtpMjf+xF#H~VqRwB}dbfG!lMs2g
zdMMXUrlq8(>jIS_!MRcFT+-&xsZ>Q?4Li?Lt<~LHs_US1^4hBjq4ij8wwpD3ykw!=
z7!hKI{ctqbyHJ*MOn+nwqPo*7WjHCzRoak>vMhuo4Y?)YQ*NRgY~1uX%`nSIQf#VP
zc(}O?+aF`9-viZKd$S5@k{R=!YaD@JD3_^eilC~rR%A`M-{4WSw5lb3b3D_bh+L#k
z>TGFQ?s}<$W^p8Gepzn00|b2f3A=kGSehxl<&Vu>z@QN7W)<vMYTeV4n!gGB1iA1$
z|8=R~;nfi2Dub-GFsJ<h=IXR3z}q>ZQT*o$*3#0D3sk;XA#6+_8$S>ivl0Qq&B!#;
z769P{Wso#nuKo8ou;p<{(%8qU{vmzm=H~j9v%}@uiMmTqZMTy?cd4tcSJ)aN*qg|h
z?DIiJd`20`2?c9289{{jy_B2)?;zuKqx$GgZ^Y2bVmd=(7jnl@{lo^)=1iGHy<5%n
zRpr%#ELJp+&<4rw_pyhhxS<t_jC0YWRgJ>CV5dLVzt_suvp*<C(#o!fv_i0}{P6z%
zeKHIDz*FLCMap91+>TDVx25DP6@*Y9F<nMQ>6F|eT(VoWk`yvlO(oMM4`$cUUrN?E
z+*#7Q5qbQegRuEc_fNh)LRh)vKsV%~*N6X{CD<H(iKBpV2ao7kdEeuoV#kh)b*-=V
zdpm{q$1I0AFmm6XXpsjyws$20N)d`DMgChAu5Y&#op5uA9|2=`#_5$8GgGql8j3bn
zw3)4XC5vhFlTKQ6lyH{<E5;IbXpGL1{rFp_5iAzq;!l?DnZo32O?zBlL;E=sT>vUd
zM6z`-6;}Km4zVoZhdwKb<;g!&w@x7(5?KG}D2=PSLuR;bxqBBz<D~G4&PKpeGj4N{
z@kQvUVMAIeS^p9mD<$U1lCAR%HesII1aW<!ZCEKmqGGxxmG4|4w<t0=uJv>v-sjXI
zJ)KkJ4snQ^T{gg9i@nF_k57IBusIAU)hcV+%%K%X;K`liPPpQuB5-8*$+x`2PET&2
z0JNxgwASmQq6=CnbqLd(SXianVQ&&UB2V%9L8plf_|nb(bJsyN6r<5-3;t-ntci1n
z`FrKHIEL|aK!l4_v1r?S;`7NS{Ic)bRi{FF=k#Cc{rwW*Z<!Xp{|K||A6PUflBE27
z`C*gHD9TS%<(qsm%e;<(kv_k>(gYP;l}dcMEfNyosK<M3-Y?gc%vt#LxnI(Ojh;S3
zZN1rFp<c_4#ZAYCf%P!H@w8YRg(}eZNL0lsk||Z(1s6H%iCVo}sX;M6VlkA)Nmd{W
zVx*n-Y2K=dkVLRV<VLBvRVv^gPiyVmyHKE<?>|2FjdKPLK)fWRH-WZ?i0uI*LYgt}
zZulTlFN6Gkr@mTPb+tJ5zLl&iM$YP<#KUCa$!H+xG5D~6%HsB|bMP6d7EeYzAWj#v
z;dKq>PW;CZ`d0|#BG3A0oom_gpA(Vtzc2l8cn?sk@kDBtLtFCvVUf6WA3y+iz8!Ar
ztgy~EV;*I<hUALh9M7N>nri|#UFP!Xn2GuGw*MF4;}IHdN3QM{sOzq6h0OE=!(^zJ
zFW1OofhS%;1*_d^3%o{+^&pZI*(=NRw69f7L8G6%_rCQ?`ROFek1kbF=)34_Dow4n
zh1Mju>J#aakW8g0)|oKQy1k0(3H?^^we~1*Du;EUL_H4JrbwaNXc54Y-Zo>y^fi=*
zd6+bJmNQZN+&M(o^uG0|vaYP^F*C8kz<M&8#4?n^w|Os)$%nnTfm{d#&U|eh?esV&
zJb6aNJs#?ft~O^*(v4GUH~}}5#lT33+?O|Cvx<JTv&tfC?=VP<)%TcP&$l?DQ0rLr
zTTxPUPw6N2X=%c176-R9Z<t<FEwdUbTp1wbZD)UD;HJa!|3(i(Egf_e;1;kKXxFP=
zJs>rnEw0WQPl{i!hxeHB7E_Kb`xFD+vQ&K7Q(4ZP#LeW2F^4J#flu@p!P71A%O3pC
zVW7VF!i7*@;*8`}s?22U2$Gp#TlF0M_76-8MD^66v0qF%1E>Gp<OUfwOR3tJK&zF?
zmN-qToaRXY9V&y4=mo#_??Vfx=$kJg8tcu5GQIdz{?!W)q&S#k>z0hM1)@ptimLu$
zzj`(P(^vXWbo|c<h*E^(F2z_v{UMLJL`!oF#;;Vz=f2F}CCtC;*-P;@Zq9X_8^9TE
z7-*3{ZiQPfWy&4*EMmRkcC^Z3!SC(xs7*1GJV{wxe}BZU-3bt|uGR4gNZ~D6*_Ey6
zPj%a!^~l?3PQ$}}EvSX_<ghWQdMb7=7SMur6}0jq)ECSc$phVqvg$=vIXh!*uD%3v
zy{$%mG;M)j{R+b33R2IN>P6Wskdw777ll^)pK&<Qm$b@(PIhCCf9KuSU~XgsCHpg7
zRV06D>Za~C8k+MVnTP9^l*_e~LgCnRx`uz+B90h;w^*JrzkN)1_>rpg-LTWU#V$*^
zG1<WDUqDk{3?F!<Pq67nQN>$Jn^(8Rq+l;jZ^b8O4R{dy_faoLufXlhoIzxd9niL)
z1)6xH1%RQX-oJ%z`*1PV$Fq10ySHU9Unkr<PjK9dW#NV9&?0|F-tq{EOan&3+Zrc?
zN*?;IR##6`eUE57QH=%#ez*M=9$SQphk5eX3kl+i+|$k$7F#r0gvYp>u2;16fyx%e
z@JB8$#m)RGqBelFtgFEur(us4c~gJR2aKa~2gsqcnR`Y*AP3X97bZ~{u1bVlV#{g8
zpgf7bQ7kQUvFy!{i%}1h!LbN`zr=*(xSp!GqDQ;+!DOtoehfmfw`Tn?)&bq7dIPhe
zr3tKd>SF85w*P5VnEf|K{?CtWCM5Xch5X=5K#L1g4Lki(Q*Veq;8@HQh1!AU+=hmA
z5d&coj8zw=WPe6-dr@nhY%2u92ge$d0S|i$whzC2j7iBn-f1|pgT;{VsJS(mZ2zg7
zn?Zc{UUKS|WMYhG=kKx9;t%5cB2(n*B8?n%rV{7YSx1uHWS=25BecK%SIdkL`rR60
zx$Z#Db>kG0Zmt3ChJm{t^LcJh`_vO{brXG%OLb86s&c4iO4Q4Cw3;(lI)4q=Vocwd
znZ{U)I^B&=Ez_M#bT^TjvF&%iL$O%#icLw!8+<pKgchk=WAcl|pkAhsM$YbF>Tjcz
zsDb2L96>|Z#;w(hmXSpGHwGd-!E}ll45%$zvgf}tIx0C@!%oVg$pjvs*!^DM;run-
zF13{Fv!5?b1WubxPYm7HfMug26}Fbg%ZHG_w8%gD<X({gB*44Bf#{m++oz-o#yA8l
zIY2t(AqYjh*;T!hpuY}n^fU+HD^=CKbL`5cFwrNPD(r(~Z@YQLa`?I5$ytsUurZbo
zHQJpT0!96gb464lXa4B(VMr29iij1sP1Z5!$?CJa^}=7TQ}4N63<L*%+&uSLp{s10
zeQR5o6-fW|e<k~Wv;M7H=Z_AIjhAOOPJVkLFR2#9as%9qgA{%M5W<2~@39CxNX+0I
zC#q4r5{9A^lL)}mp$@hUny%j|)3uPo^7d`e;`+*Nf|xH|Vr=49TCp*(eE!9pbP6r*
zz0%wdnDwc2<xAhv$p^3m!*_3*Xr(&<nc$}bX|R9vcu4vxq7p$(BAlJWf&EbU^!s7C
zboRWdk+RDQaRJ#i)Ch6^LOlW#;gs)|vz8h<+FVHoi2kx1n33cFc9U)r@h{&BNbr|T
zV}u4U10FX_V~)<#;YI4LZ=jlu5G4Vr?smFQ7`lh+d2K>0-S+FNo(olmhUxsk(&L)D
z`EL&Bw<g2xTRp#6trwMS>cx>U6F#!whjkNd#iX4{^z)NN2B8AR)6ZhEjquIQnck|+
zXmm|gmW$fe^%}g%6tai=#jKEex+0HwPvv)iGAnvD)yJ<i-QSV3hnS4f7mJxa)eP0I
zk>}-dRt5FZ=EHu{cpe@hl)iZJ7`T<Q?|Cbi#iH*OhjKtf3%wH~&}`-BEZ3MH2A_+A
zp*R`YGU*;4ti^w%SLSA8mj2lG(EphH?Sur1BR_LbAR$60v~Mlbs;Uq1`n64MXlDOV
zMBf2=+6F3Uv7BM5BA+++?Ngf()XPg(lpFqk`P@xcBnp^M`%|6pN3X4(siyezUmRVC
zzh1Fmy20hH7R%wESe{8o>6F`xC~hs!n&~^sdqbLA#IapDMJ_|*lYZab7Ku!y$jb2=
zvHp^TzZYV}9x)Q%*<CAiIewq)s-tW7UeBXqy`e2wQMS#YlU8H(L)3fm#&WUkF~5q|
z`SU~zD_mK|MD!acb_&p}CaO|7jBWHP7!-wpEOjNgpJwr9hins)OYW9PA&bR<TYrgL
zL#z%ffhQvCJeu~ldbOV^#8Ly=T-NwLx<M)8l}ZSkqpxjErI~zH3*vDa!&ge`=fL>Z
zF8glPBbPd$%R}>9n`s>8F-UcqRr_}>XwGl*mPR+%8q}huzzngY>6(seA0e9jMF2^v
zD2{g%VT{De+o8_LrJ2dMR#Hdi*d4%+)H3u&%j7n@E);1|2<W*Td)=J^kx%_{<N<8)
zGzKxJLO$zh{5QBI9d5IS*R*cO$<a+}Yx^kP#2hXunJ$;Z@l2I<oj$Oo*ox4D*zoAv
zwX+N$t>nqclz3N)AdyXW$6fr$$$K7q!*bl#Pz-WXMeQimxgGWNNBwxPqD7{#io^~O
zC?idhvM=7bj(hH`LVF)LDr=x4YNw(_W01M-T)~DBKIpgnp?uCk)+azw|GP0RZ9t2+
zV!^^Ye;zWUT-<4S*QfI--!(gl?C6E2oOS+%@7n#)pR&NDgFg^b<^`SaY_Rv5I_V5T
z{_}t76sHAU^{q*Hc5>d#tmgc68cHy%oigLaRtGLjHTJHZi=<tk?A(TYTSS8;dn~R>
zr4nXRKkKWdfQZ+2i{!9s*YDc+nHd>JWkp?aSehkq5d~uspeGz#T?HL(3Dlbi1I<4a
zzLDa3xxt7XdHcn#s?D&kGzs*(Tz`h&+z?vjJ7QZAV<QgYi)M31U4AG?N2vlO=Y#_q
z;N6{ZVd%BAz#O5omDk}IGPuNus>5UL96y43+^zrTF7w~=wmDnmUq+6~@K)Z6qL>Xc
zIN{vTaom1)mLH*5a%QCQq+8|he1by+W;ZxUp#Vw};g^d>r!7c)Nhy_-SMLw20dCuL
z`8v#d(%A27cnV;8nR3%ZvF`0mOrK5amkR4dFts+y22JUBZk#5oQ<cGe##a=kblXnq
zX9x+g(2cn|PQw30x^Q~ySmU4l8~d@E0$Vw$uJHl|FP-$G(uF2IAVO7oT*wh3fPqG^
zV|}<NBqfr9^uk-=7viO{h6Jk~ZcJ<UP_F@Q4{8;l(KBA+Xu3nj|3z>#VZ^(`KMLvU
zCy<I#%%^ik=0vDUY%^T+0V?)ot5#RLLj(Fy29(K0oXe>>fJnLy9;$vtTO?i4M;6`W
zrE)un{pY(OO{tHki!AHH>e>|z@9fy&b^EhqE0N#2u}vvK5<O{X#lES6BkJ-rSDeZ1
z2;2|BO<@4LZ2-0INQCW*4H-?(b1JUgnF~L==SfN4$O_ue$$My3u+U5uHXP~@h>Qq%
zNw>ERlpMIXE5B@^R3SX6apdod`d>zXmze^j&RBJ<UqL=0<7^I=wq;1ieEj*pTN~NR
zYuyPa>NAn?z!!Oqjh}8ZqtzlNk|%D!a=Qt6o%w8H9Kn?5rE;P+8dWN+XAO*ty!99A
zGW#}3PzV|S``Ahq;`*R(u~xdj_l0dpL<{79zb}TICp>y(8nH48Wg`^VLWve~J-~Ay
z$*7i)){B4TQbvDp=U1eOAW3+t>*!bL&fg#zCaGReQj_TY3}pj{@yazM$hSjpyN7lO
zCPVm<wCHm>`9%g7M%IA=V~62_tO19_3_5=mY%~@Kv>W{OX!Par)|Jk9i*N$blJb=M
zeW^AafgWe^k$6$RBZy-@TM;tU!&PAsro(?@F-5S*{8IKlQA;J~Tej#wPALUM4GoP-
zt!FDkU*-|pO5yQeSDNjuX^QP;bLy*)_2#>!97pA*vx|#9AJ4pfj@rM>4jy8kF_VO^
zlhmE2^Peev{icJ+&r!*Pyf{a+Mhbn^u7sp<*;aIPrZl<uZV&;rJG`RyHg4l_e$O#+
zOA%)`35uYd0iE-$V*}+YK!B^6l0FVCi&|r8;R#ABrCl98z2iuBYe1(8G1`jL4+K%3
z&Rm40UBHC(Y-W+Z5bS|;ZUct|#8av$_I&wXrbM^kSDrYOP8sI>#L+^N7t1Kd`7%dA
zSUE1?@FgLUH9ILOF0HX3Qs0I@YemPRwOwa>ap6)piraU6)Wt&oIsHoy=;GD}Q7Z4V
zS9&zh!NOo>h?u%5%Ph<iQ4@N-z>lv%gXr5vCa~P7p0o_3P{a;e)xMI5qr(&i$Oy40
z-$MF4j?9Q2RCQWtmPg(=&o=Pyt-$l(;9Zo>szuT`qO{VcT-rUfHClc7Be|8-x>lDH
zi?!BIWcdGpS;BF$!Dsbf2hH$nd8`>?1raIXWOij;`7v^)hM}%$j%4x4l?ys-n)@8-
z*;;1Ge$Cx`8jT5pnjq$4w%Os{?Sy4E)cKMz#_C<od2Zu>?@4%p(Kn>4lVB=r)~O<m
zcne$FR4oH~MuE2`fn#B-&bIa;zfu~1(_933pp8QVhN>}og=$y4GI&QOd>UAjoWh2B
zX){0X>3h?4*|3Yj-@@{v-}<OMl?~tV?;niS7QEDvvFYSmt9EHqVc>4sO@4u~U_P<;
zc%g%Ek4@ACPtkYq+ME3SYHw^|$)U(eZhz`2mOA~9XT%NbVyV#lcRdXg<YUf}Xc3S6
z#PB4~8?VVnz!c7)0m@WN2M++c_Yb`>-<;*QGbH;JXvqIad9+dGp0^Yuaue8T;8Oj3
zyIc|Xs{i_sU7@3Iu>o5cj(QTw;GMVcJh6vCxVjWZCC1acmVABsquf@ax~%`$n+iYe
zjijISu~AsG9XBgRg!AnOjvklFPc~%<wKg!kgeR7{2F@^%e67wNe4VXuU#=8zFhwS-
z){2<HW#oz>px5YYI|Hp+jAht%JuctbO{^ke@VcE5_-NYzb;VlzW%r-&f3{r{?#l`K
zh@RWe-pqRJ152%N!-Uhmj<5UPi3^<A4q8O^BXT%hx~v$tZ4pDTu!^J)nDg$yu0hiR
z4d=4zg=G%6`fQZ^T$2leO$|?T!bFpn$Iew@3$w@4`&sL0rQSA95Yub*vOYS7W;v3o
zx1k~Pxa3Bn@xixY9L@^1VU#1MtMoGa8lPKmf3yHJr@p1$MXylt^W@%);R{R`xL5A!
z_Tp)|)JPp_F;Xb|ra`jjFiGpa(H597YnpCXJ6u`?tytkNk8vs`2IlbrZ2jF10Ros>
zL|cc#Nj=v%dx!m47g>SS<x0jk`~~=o0*&{+kK}qyL?~KRKV35!esMYmP)i#RdLqn)
ze4_i;0HOJdg-j@>O#;!;);^?HZlrNQ7SqA`qL|UhVUez$3ItN`*w_lZC8O?WUS+y`
zYJCmh5a&y4WUtgFD!MF$=ogFmY+em%30kgqXl9l1^VRWj6=nmBytKB-FqP6jPlmE1
zf8{GON>jBSMkbaOefhsuyhZS7+ijh?GO3vls2(z<-C{+)IYE{vdm$HGe*mACRn`)A
zNGoI55V_`{dYcZUNyfre{M7xkmy3F-4$U;5Ak12#GC_&5bVM?28gbpYmt8q$Ri}hb
zSzpJVnfcPrKcDt)DX;59kawf?z;uFn7J8BylLW4X>ZNy>#Eok=NEJoyx1|1Z8!-WD
zN3Hq22Hh@%R;{=R*f|ts{0#SFH|YS!Msu_1cg`{8SL%LmTrlu`kSwvyPHaS(GqlZL
z3>&#|o)mI`3<#T2OGnn{#qfhgC}#_7ZN6H3<!-^emP=0s*+>T4mm-Lq#??Yxt{<-U
z4uc`PI&CYuRR%&8OSD+pk-8|WaJiN)c%^rPZD4=<ixHc)#{oueXW^VjK$Pn8fVoj=
zxtOl8WtLNHrlVfgEi)fC$RbMUeA5iHHLiR-<rDIwru2`x;c_k*V3Df{7+-3#Q_Ug!
zaQ-$;?7;YIF_A?dcTjnB&!*csv+e=&5qL=ns&KD59X{_`^{wg_MCbpTElUhBJJ`S4
zd&VqU;)ED9$oqL3q?0rYduH4h^wMyQSpzL%gfB9>2P!{eg*LXZ(wI@|f%=taI$<{>
z9-NBp-u+DJkHh73wp}{7&u0$z>1&=Vnu-JRgw0<LpNpO-)nfklE&$zEbCIWY>&Bb&
zZ-?RQ2fjcSkwiM+xMdzsH4;+apcPuKL!+vJpKajcbBU#aJtEj#$B<h>-0uZaR}o~l
zVfOQglXbYR<XVP9`Nbn-?Y2mM7XH)Q{#|I7un)**A$rcsZfswJpZji|+d^Mh*|WEu
z(sRr^6`DJ4H~ZGO*1tqC%8_5BCHnOA@b_aVihf5*efQ0NvrJ|RddWYU%toIf7>)jM
z61s7p1QQ#umZv_i;-3?yk@Skr`^{LoEa{=L7UqYh`pCI<faJ<HScmRpC1d0R(?mtV
zbkPMXk8A3;_up%6UmU~{wsxc^ctgB8iC`EFo{jp8f-AS_E7}v<kJt)?3zMEdqueKQ
zoB&axr@!X*<-DYL9-9H}^vdq2hk9#yfx2a#e3lb>sL?X_0iNQa*c!6Ar814X=RZmk
z%&%xlwC4UU4O({$V0;~Nf7X}OavEdXRReyur(aURd~3uy{&el!tCq8-nP-?Zv8Gk!
zpUfXld@*>N$o>4I+N+m?;_*=5Pl}xxE$54GTeiAKbb}-cF#GmiAqIys;Y5V~eJF_r
z+8B0ocU?xA2|uw0+O9sW^?+MxUFqQ=8j?<;t%EAHO0l>T=why{qW;a;+hpfM2TcX(
z+9RiVJf>?Q8Il^?UTU~H+lV<iy{D^YRFL|ce)in$7w?jSDLNbqEhf)#75C2=4Z%Y+
zw70C0(asYNN4q_KqT(J@*P<zW|C3g>=(d7@VX?Ei<Akqv>NaU-_sMhjyQZ2Y2pwvK
z0CI0!IZX%7duCRYa~s+u-0=J7k8Iqjn+|}PF1{!0{Y({lywAJcj$ng%@%X(6u7J*b
z>?V$v8_f>YbnC7DlKI|mahqS_tyru8fiF)F!i$P2?CWmpo`lm4;3PIfdm*oD4Uu$n
z`9zD?XUyvU2*PF9S(gLoq$L@H+f$C7fUWWDbu+ZqkGEU+$uT#I<gWarxfi1rv^2ao
zk!g!YFxJ$op(JuMOU!Apbnia6LTs5~J}L6r?!)dBzlfkxB~c2_lRmSB40c)03a47M
zoz_Mq^8uk>mvuikP)GC5toz*Qr?VRep0v+S)Iye~*L}`_E0$*+z_M>a85z#|6RNAM
z>+~MVnowNQ<tc5SfV*4~?B$!q#l3Sxto;slkKiwaS?ZOF@Su;l>&a>}UoU<X`L>y1
zyX|>-QW)h9C02-a{|kK7yj`opOEKuUyNmyZ#O+b0*_d0qT8j2)>n+Erb|zA;zCQ7%
zwns0$b$>Zmv<)xqD~xE)Ka2D#*9USm2zq)0Vu_6m<X6dFeU}VCrtRp*8*lbO3$i#s
z)_F>nrmp8JIPubwdS__?$Q;}9Pz5q9_+r27bul&1K&WlGX;N^S7M}34p2=(T(YJIV
z%Yc*SwT0VpPNk{7jI#$Uzmd6A)(8KK5f|3{Y(CpgenpWg<lXHzZB6MLvEz{`p>aGD
z{Dy_qv|JH@fv?Szdu%`K1hbuQ7hOI-Fu@juV!+_b_ps%v%7!<b*Hl>q_-Gg8B*}Gm
z9wfbj9eR59a@KwqxAuBYl&nVDu!3=WlMv&?*y7?DyIJ8bTzx0<v@{`j;=y(Y7J2UV
z1zlkJ{Cs}C@vD1-{qy0<XObpLVMh*1j@TEwqgu;Nofr6Qocg+gloz3>d}KZj&4)^F
zNM+aV_PG1=zA6iO|BHQR^(%v=O18(N<Po@_E<aPr*)it!tnIGyc88N~n9|NtKoLmt
z#oMu+q08^S#uB)S=D?fh6Hi0w4mRH5cM={Y_tT^}$nm|n1yS&mDG3??mwbb1WE?JS
zUJop_mVb%dhulps)N@U>sSo0SE)tuf>e)?UCv{~s420k}#em}W()>s2yA@;#A3KDv
zZWH_`qpaAEs}T-hdZ_a?Qr|QtY+HDJ-~Qo92qV|fZ&u`_jGojO`E+qfYOn)S*qp8X
zDT!@PnzS~XtgthD1#fqQ8g<&&2h@UhCSTPF@gW=L+Y6AVC41W%&RQ*+AXDoe^~+6V
zP}7E9P04wmB|d+C0_t!i_icvWebqR)<9bBkHa%kE3SFU<FUZMl@>$uclCf#cZGB;o
zBt2Qnz)#CCG21Qi<yq>?o<1U^*#(l)|LgL02?#pd2x@|!LDFMBIxzVSF!<1_XRu?4
zWO0w~vvA8wleQXyzw9L5e|Y%@f0@rlVSh(&mDE~X_`QY81@jt?CZY-fQ;7e2dRAOx
z-5&NMo=@0MW#KIuk_H&YQKbC3I#h7Ipgy6&LT?r$Ki${u!gW1A+wf<{^JZJoV+tlD
zAx6I_!{tv<a^z%8(fCxDmoxA@$JgzaM@b?6(;AT?j{_EFnD#>a#hEfk{$|%>BK1tA
z2-THnor@22?E<&Mp=#O#wjBUk{vu6!FwAi?so;$1!i?8@aoa|*tkvmK9Fy&G<N<ve
zYV8Aw!)I~bMEi-*g!Mmgdmo4zwxu9*b|g%7vOK>R9}tYQ&-ho5Jy2zh+QyH344?3k
zyDvY;sTUE>#`2JR(qvi9AmDvebN`UYfQE$AmbZGmUCyA#b8(wIs!e3bxSw->up18{
z8&}3ph<Q;6&&}#gYr$R(U*huj)|tI2di9l!)vL!p%inVx)!(MjL*xZtoXPVP5Jb+7
z+Ysz7#R~}7%V>LJeUtX%c~w6R&!&o7@&AyDP4SJi+=24$s`KF}D&N3E^R0@15`|uV
zCnwdwCi{k4X1bl!iid*Oy7hQ;9CB3Yx}mvU!ux>F_0Jxjb!4&fi*WqS*vXdvlU%TP
zu++`r{3rx4#fHn!`%)u)cM2X&Y^ldNtCK+1{c|X>ba~mZognAB)Tbu<*|nB7Vr%zt
z`AuOz)zIi2g`nOaZ==(0RpQFP=+@?$sEH4DsGJeh&A*jtRd8iVmiVq|-f$B?-ceht
zIU{pqW{zLxJ*lL<*6OPMCKZxxSlDApVP4mOg5ukub2W8V8vDS*A2Z)Tk8--53f^^l
zOPw7c>lpUghmAK)@f&>C!BSE$bR2{!T#tYu*qy|xZI_Ak&Na3k-<i~vDOi{(LYxn<
z?<FH%Ud_HS|CNwcZ^v0==67Nu{<>lHqT89z9oW4Krmx#!Qvi;)9Cf`Pc#|i;?bdNi
zxK7acVOz#xNPp*sv-Z9GhdqVwc^p*N7<Af@3^k1J3-7tN`})dfL<3MOjcK`7y+O2Y
zl+*tn@5(=9mUCcOUAQhxuu<c3fg^A&Kd7^jg~aW+>8Q(X8_ll_(o$!^a@5vV1*-2)
zH2$NO`cZ?y$tOy=0y|U2I^Z5$dAb~BTlvG7aI$0?-JpyZ>GO1f2M46!mEm{VmVQxs
zygoFAWRV?Fe$0Vzuh_lS*qeMn!*rwBFb?unYq6it`Bo^mQTKNaOx0ZB`UL~8LrG+q
zRP^dVq4!gbRfCSVA@WgKLO6xTrmw*369qFc@sh<U7I=QF-KZeC+3W;44i$Nd%NA_+
zUgm(E=f&9d{jNZoh-$K)6|Q+x9$KHZ!y2QOyn@#r-gsN9`R9&{GpK)}@J9;1g(78<
z<V^@x5?878hVOGlt@^J!p8Su*$OV}Kd`3|xO-X#)){gd{q`QhM|5&j=&*7md$W|m*
zNLTMR9>TdOayWGHt8hzegoFBoblsFG?B1o>X-j4A|B%`1pmd~~VdFuz#dzsyo$)I9
z3K%k(X*<^1SnOtQuzkJ9jJeDr!tUhO^S!{dt5OvpR(OBvr!0I{H1M=__i70{Zi(PD
zzc;*X)3r;-7C%{3+tOpbnG-nk#dEM6V*l=W$TrzvEdFjuOtJHjv>On~H73Z^&GWpw
zF>F=bX7F@%7KVCc?$>n%cjtHeYmxS}BUAt4h@$1=h!3XF?&cb*iAEz1r)!)>Pax<`
z8hX;U@l=}0Y;<Pur5fPCe&W}@YZxCW(C6#4)kNk2hXnvABqMvG<D}egmpOnM0Z8>o
z_+|uj-Q%4;UadAKx&5QZfPnXH$MsQU-ka-gP^}nLO{e*_xkefU*MzXnt39@voeFi^
z>rUYe-tpU2Q)$>T(uRu#wrll<!KHYUXQ&H>eHKv_YCM1Y&g(?Yw3-$yQ&f_uqdDlW
z6w?L0h~Vs@<8##O_2VGKd*STwXfP(-in5<e5?uR>z9{FZSOcp2vgF2M-^wh^+7|rr
zKnOJ94O=0*TUorp@bh}%InfMQaYiJ901yF52UoozcII08cUo^eZ09vtz-@qWkgxdp
z3`F669&PEr?~v`9J1{Xp&hzxQeV9VIDcjJovFIV$U)#<ZSb7OU9fLO;=*Sm-X?)~)
z_S)W2_Rjl9LuwUYNtQj9LLIxwUP7B?Z#vjPr($MdrE@8l{aHQzAi<kRhR3pc+1KWH
zRO!sndaO&pIJe`Wk-*odqkXsPwdShRCw%Ys*^%w?XWe=a>j5W)zkixc%u|!4pDBDy
zG8U2Wr3S3jofyzyAI7AquWNb^|3)3{ZO2MUD!#@B-CjJf%dDA~`q>_4Ic4co56u%F
z@c5f*Jw1BE_73Tnmi7&9a@7aTTRk&=vyd(R6<V5tr4G<Xf0@*a%72gpo)TpvAGfu|
zOkTeI-yq__BHtS;7+5R%z4kp<gM(!nwd(8h+tJI<?sv5DV*94*L|U;C-H5bBPPK%p
zUqeKmA6VhaLziRx&e5}H;Z&Sb9~}!@kXwE3r!`(xYC`vV72XajP)f3g!=JFy&sW5t
zK%6gfi%(l_?VO#sn5#Xn5;<u~=84al8iR$zH)O((X7I--LDT)@A6VH9*jpkMd#WiA
z^Za)dQ1+prvR0uPWy<Fhk)}Z*6pwGr*Z^9WN52uf-W=k)T+e+<@vG^Du&v1a(f}t%
zA{9HdhMmwyRb4-pVG;d|#w6)hmxqQv2leEZlF^`dx?-un)C459W%cZJLeoA)M~v1#
z_?sLbE|&hIwfG@RL%(>Qz^kv6xfcR<OVTQP_-3j*8`#}i{PlkT{Xhc0)Zhrulg+z=
z8rid}lX^XAm;;h7Q5T-&PY}EYw#3jJnml>3z?O0L>MO5mZ}*9fd+r6h=Rg0ovClqd
zW1e}|o|6RB^HNRxNYYKL#cKqVz4*e5_K(|dcYx$Siu>I2FWCJLJYcW9@`^qF*kktJ
z|NKXXXUw&K-uW*FL9V*$N}D-zrak!JgZ8Y-y8GYv*i%nEZLh!nhW+ocM{UxiNj{Ix
z_++L%_P@tfr%CqmOE25AW5;>?`|iI_b7hUvKO_KXu>hOr-T&Tu?~_#5GM_WY3#{S!
zQKi56mRq$xP7p{l!JdEdMM+k@XAeF6sMg;n?ABXlW<yeAx7>1zJ+F35RM}GnLLosm
zb?V0gr9M$U_u9DUpSLHTe9B&b<4t?;p@;15yYI0{6DKSEpY0i`Y0jB5&%y3_bLZJZ
z3V->fSM2GhpSFh{eAsTe`Bratt>*qYv**}jk3C_JJo2bZntdQ?vl)^cd*aC_Tpjh#
zfBCD{-vz4oWA?^dZ`#7ei~N9)Rb^}ZFo^UZHSZW8m$OXsB^d~)EJ<z6#|0|0QYXSL
zS+Ul-NeA-aQN!)n19!1)`{mi{D%rkUslBf3BjyO)(?R6Emeff)YuHZP+3NzeUU>Np
zdr33{%&c@NL;=Ve>-4+fTMyHiFVwrJwcdRMd<wwZdFP$Qe^yBHZj$xvDYa4oZk#;a
zr%!JiHhj2^88gOSctQO~pc;T*wJ?M30zWG%B=IFdAJ$c_*sTle$bf+ZC4tx1*GDi6
z?7t#iIez?j2ka;ZHS#rU*0@9`YbE9-mI=HoE$u1^&tmJN6N~{bkx=X)&~}>MZAnQ-
zZ$~cy(8V2!9FXHAT0nW?F`soP?%+Usp4K&7kb?DxX8%A?y#)Vpzmc8ZNlu<rTxGvb
zioW{EL+`a-?^msn?Msby**&C2Ohrf!=4&32c73a)`dI73zJ&cyR?@DS_u8|2HybK@
zXD`3@u1i=UJ%ueefC}8K+4Jp@$HygeIaJIX5=yvJPdeH==4mGjWca})&L9KGA-VO|
zJ0D79wLxmHr=;s(ssV?Pg2BcbOb2SXELt#!bZ(e2B+`&V0zkti9a0I8JpP=Q8UF+L
zRW61Y=_4Ef8w*Bo$A}?9QsR&=?Bmis_#?T2gabeW5>0vYu=A4V;@d15d^HIUiKW4V
z`uii&XMj9?dUu!J`(W9-)5%71NZmZ}$TNOL1Uxkl;$WMOFc>3jsvRl`D!@D3Fi9i?
ziASFK+Fq!yBLJWALn+d=h4{gxqi+ZcSAZV?DqN|gQVu#`Pk&cC3nYC1gDD}JOFKE;
zCAIa)W8<7o#YGLOYe?rY*#nH=kX8XW+H?0ElX+|oH@t_?PNdcN0tk(80Km9RZSCK;
zw})r?^MOFw?Y13eJMS1tAR@hjbSCbV*WYvSjXux2Uc6+v0~UlK?HBA1_U+xnKAt*5
zAoKPPkay5KAb#8d_#&w{Y04+A0!Y}BrOR!S-p8gWAIYdY?|#I;7$SiLs0ipgSvL5>
z7zy>|s}qZ4yd8`sByn+o=1A)dAG%dYlDvLJ;|##AsX62Ol9C$#{$!gin~=;aNDVW#
zc&Go71m3=~>3P9<-|%tu?DMZ>9LE%T+)>foaqt)RlJwBS$$G?Z(#82mCJF$5n0J^f
zAJfN*&B={>{&oL|0Pwo~w!^*t`|CqOCI>js8oD<(Pa!4E9DeTuPugz!xbo8rzU4)y
zj>~lOc&KAb#&w9xHO%>8%(FhQ_V5nBu>YQtmK~Q=tKW5}ZEd@4hQ*WneQMv%G;c6R
ze)WXI?UKuH^!^xZXJ%SE$UIY@nxHuwP@4YEkB?lhX<cK!z@_V-P0c+=9=5+EfBSga
zOzU{+d+^Bm!?<KEW}d_GvEn;FywpJ>p3}XPbU+kww-mRbY}f^rSm?$Em>-*8elSGt
zC-wjX*m_Vb?Y12!&^6&u)ml}y+8I!{d8Bx(@x+h<n=>{@i;$;V5)TPmaAiXeQ$}9l
z*Mej&8JLs~Bw^NNDeyU?0FrGH+uL-*qVCVwl>=CJR+;C7AO2|^5_yj8CC5+lM$$97
zR|IFeh06dCB1cD>;2LhZQ(4R(eoHDj^1#U(xjg0$05ICMQufl3rW!qZAL}fD1DjqY
zk}lh3o00bR+i%&>p~LKe0}d3>vr<xMAJ`5%Y;Q{ijP&Ty-3AXHY;V5#md`hb9D0bo
zKjD1`<^XJvlq%G`#_wSPTD$DBtG)W#8xFFt-`j5c?Ol3}xoUgekKSjrg96>e>vob#
zB0yq+q~+MV?7!ds0uRU7C)1|86dK@8nd(g&ciVMW31bWte^YO7z4exza_Xr9b8_wK
zYp!)EF5)1iHB-RZEVXl2#Sc<*yYIfct6oNcRE`ZAG)Q*Sp0n3qd(BQb;RNv)9qo=g
z{%Hptbdc?{&ptNcz47``xWabYX(#b!rQ)3z+twq7`5ZWKzyRBRhaGIp(_<t>Ho)g)
z>IvUEPwJ)QJ%8SON$VBbw%cy!G=uJYNuq9o=!*1SFG;HHDhWJ5K-vw^R4Iu?-Wg!9
zuMN?gj9#Yu>sD)q+doyG<K*z%e9@=2!rq#-+L4*9^wB=IQ=ZLK)Jbb<ZL!)=D0H|}
zexYC;z%JQzlj`#UyX|gs#1k!^JKwr?>uOtXJwhO+p4HBscG@wLEY$nlLG8rm8&YkP
zCry#m;I8U39b8(ov~w3<&x*C52jqda`|rQMRGS4nt4&BoqBh%I5}J!8eb-5nZ2RrE
zp8&dkl0f`O^xWEMM8D}+(lG%DR;j#RwzJe;r%(UHx^?eiBSwz&yywXdT_1sa&~c!E
zJ|y~3r-c_TE$yr{yITML1MINF4)?xO(xIayHc=&|-GV#S7wLmtI(L>$zcL-fvDVjO
zq$&Xl`M8f7cL1z(%l`()z-{c&5Y{*#=D*=?*)9}ykXm)Q#)AO+oE+^X^iBcoYpvKO
zOs#X9hDD0Ea#gLZU6Es5dJ5##$<vYiZllUKTQT-2>^ZWaU9+SzW3&G6|32oOY|wzd
z4rGL6d@&D<1%9Y+@^u$*ih+U)pc9BTQfH{6ap*+=_lWa_{YF{up52A^Pp~Vmz0K9n
z4nKH5f;=y-Lj;g*pJ0e!MheuqgG&V~@JD4foHWEUoj=Y9fZF5QC9d3G^4lA|zPs(R
zosjZQjX*xa<1YU78}$;HA{a_0{NV7fklmH$+%97FP-U7gNj;<@P{k?`07E@m;?lJx
zo-Q4IzkTLO@hHjn6g>S4pB{qo*We#N%@evKX%`3Wpab9{eE^3_CIHjs=8!<Zh4!)^
zNp)>)Ydg^`4j{+xDTA`1A0JtvpSrHQc>hhOE)~UU_&Z)e@*i%#QxZXYxVm8o*;M5-
zh7h#}>>n|Fkb}Yi2h(THaaG_@pG?>A4hRRNPWKK73-72xY5};=_rjdPfjX!(1FGN`
z9CO0emtW`~C7yfn4VQkrQXeIn8^?k6Yz$aj)46nUs8{@5r%I`&%jdJ?_u&7=dUcRs
z2Dn3_8tFUUb2`^rx;HmZ0YalvjilNgcRlQzoa?Xp**ZlxHIIir75Yr3KDAD!36IpZ
zhq1&a85i<QM9p|<YToFjbr8U&v~$Z&_0H6%!nza20@B&>Lp0L$Pb!>g?qM?-+})D$
zO}CDR@YE}PKE4)X;sVEB0k^*I#54IE{b4f?ZNfW>H;v6JVYQO7<Li8?V`Ga19eKn7
zyATh5;;?^lz)txEL*qOnVaL44Kj#W0QBkG*mPx(qjo03^-S^l{8*|iDa{WX-L@XY8
z<YC)$)F^Eh#NDT#4ny(lTqz~|2#nva6FK4G^~26p)@3R1Ii^64`Z$bm*kd4h6OGHp
zjgE#Kf5WeFcvDXi2&Xc9IHiuM%=tCMOaOG$EfF2Iosk@r*{HYk6AFi~3AWW3$77#;
z)&>tA;(!)vk;8@!cfbiSi1`R03;>F(r%s&~sYZ(bgP&x6LyeGd+Ky`Mdy;HJ8VdVm
z*I$3VU3<;d_S-A2w6A^bYi_S>&YamE&fcxPR9g!Q^L;)AXaVrUHrY`}9c6F6@rJ;|
zw;hb>tS}A>cuv6DVySy>HE^rMdM0IHy`vE$G0*afzzZ48*PM(5^n0>%1`xB)zN4*N
zYO8YvpiyR|##$)}!ROtM8gnsgHP^vIhS=NhyyKt_ANtr=6ciNeSKxIe{fm-BqkW_I
zmByQh0>IP1e_z!n$0hZ6*8o?{^Y6X;o~x14uI>Um0q97JsizsUW;)HVv-a|9ueuar
zi6p(4|2ZH*ivmn@;^$GxT2Aj<<?`+TYmma$Qeq`qii+A*NW!Yvrt4sdS?@2m(m55X
zSAmsw%azbTjZToQu@3c8{mkuP!uOO9KyHm}pB38oPX4-;7fNzm(pfm_8M!+3i6MTw
z@4ox$8uhmU0!(pyELzv)*>T4mx2|`>XV9QQeh27^8!oB5R5xJY0PlbFv0Vh(A=O7e
z1J~F|_URlD)ce2z?BRS}5?#0sR38ECJoM1RJ*?pmAI=0@iG1|$($X$cmDPH$JrWYA
zyieY<=S7}${Irgj5DQ$#W?d{SZTj`|EGaIqLk}BdW1e4N%OzM+kgNS_y*h&Gk*AY`
zZ~yD-w$ljVKefU|$~FG;JJ`sf{jDIcP~R1ViAbHcB@Q|;Hu%w}v!GoIsD`x6U;cit
zOUz(vF7A+;0}zNi>`%dTAf1N_<yc9rbdqEelMu$rkx)DO@B<~K^g@!kMshFMxWh&o
zCoz8OjIVfj|9*WO7zBVoH46vh{mi&m?DVf4Cn=)oY3=Owmn|(2ZPZw?do<?RSKMaa
zdEYrDUftw9odSu3%YXF)S7)6fDW<S#=EOGC-+WWcXp@7<KkSR6y(3|}?-WTE_R*IG
zRArH7Lh|Pssq}3t^<G@MJUl>ucH3oJyZJA7yX`l?Oe7Xwl3McRvTc{@n824VTaoJB
z<a0XuHkqJ_z%dEBBRz+GLsZ6Atk9R0gaeR8V(^fIM*BcRiYZ!DLyXP$S||_}hfTT8
zok|>hPS;k=#Z9^$B{BEUe?KDWx~ClkzvsRuTxE<zfLnmDNRT28_K<**I9Qi1WA78o
z*X<KiKAvI2hYWO;TGX9`+f?OK9+I>4fv?LR9nx8-7vct_oMMe%rgjk45{IfgAVun&
zffOt5d*Ax1OH3lsivw_aM0N$gD!Y+L`vB}AVaptpX&igPHvZXr)XsLZOah=j|K5a2
zR;Eqe=HjMHRT<j;?dHpp<N2!VZj%bgoA#w+zL>Tdt))9=0aDk2c*d9u;IJ4Zws>FX
zUU0c=f|TnEX~Vees1He*=J9x5@%wms#&uH;>F2RpuQ+8Injq0VOk<2Pn{x5KooSBb
zL^DiA{P25U_kMyZD(bOKtsR;A6zdKk;+}i#<Py_Qj(N$!oTlp7(zz$oI-ZG+*tKLW
z=ED@`9gvu3@6g=5)>K_T&tce^3ww`vJK2A*apji@unXat0J~}daP%kg!m%k1j(b;=
z4IT-x8W<G}repu8sEF}VZ#zor1EvIn>d!p=jF>O^>erB4$fWhx4UtFdOU<UpQsA>m
zf%q7W*U(jBHR2e_^#L(+P{V!VQQLS=K25pC<wSK*d>_CHi-8Jmn^SYoS>HG_0->Z<
zx!bP0Y2VvPYeA{ZAZ;yPVk^xt9R+gjBuVye{;RGowIb98HM#68sjKet#{q0$m#)3$
zvK_YH&i8z)rPet>V9AK#l0wsmq3@k@j<lb8**DMnhD(`^*m}53!^{yc+QIWiy*_}6
z^_t^~#G|5GiL@W{@0zl5m&6({pr0N8<>P(dgHQ&NfyFvJ0?9$<%iVX|!=}%g;gW;c
zi9>>qg9xex#ta`eOaduA1yt&w3a!V5GF8CbxkLR9s&hZLDT?akkw+fopxt~OOu&I0
zqxad{CI50%$I?!v4o(6dBF%+FB6DrGZrvqiS16&04tB^PhsciKDwpc&D@~s-9e<o&
zLyoJOB30H!^%*9*K)*sspK&M%ZSUW|za6mOzAiC{UBN=Nn-`cP6qk8_oxZ1XQKimP
zxU0#k{WUd})>r$k(L?&$xJgTFWsZPQ**aUku*~a_zqmlsm37up`3-7cU?Y2Ukt%JC
z4m1%EgSmx#)N9p`WBtWna-%;gw2_NHZ=4k)v^}i5@Uh$<D(Sh@^*5}ijjEX8p&?(u
zyByhT%(t#xyZSp7!PKWjchSlRc7{CG@pcK@b$lZaU&l8bjp|iasYK{bKdP_oHmq2E
zTXrJ-qpm*XsjNH!u{lyf)@dWwPG&UP%fQ`${@r!HK^K8;RT?)st==2ge4PUA!DpcP
z76;m0{`)^C-)gZYk3awM*Zz!AY<|IA^V^?9x1uSX>hMGMb(=VGl{R^&b@;<9JS}zC
z+r*$V`2|}yM;~#ZgHx!CqIMfxe=+da{_%D{q=K)+XA2x;!nol3XV{Ih%fm(!Bcd3w
z$9-4K_hrAk)t-Isbywwt(PM&&JL>%t*(Afp+|9S$?ez%ui5kUAq@z4k)-Jm2kNT=n
z=mzwI<iw8KZ*8~#tJ=PK?yv0cH(&0_0p-4T{%@QaLFEY5KgvAz$S>GWWvm`11(m*Y
zzx_3jpDvG3kL^YdbEy^V>EXBn_+gA42Tf5O#G#6Nm820@>DcT*R}aviR2l^Tbo32j
z>8?>(jp-TUEnd9bzVV%3_?IT^N^z>=N&%YC4|nw82S{ymrhQAa!qI2qrw_a5X8H#}
zbq4`Y=l%F{x6PEPt=KjU^hnoKRH9L_14y2~V2K@f^g*)E^_oZh-nUM6Y11(R2Ixbm
z%QXjjVr2g2+wReODD$xz$^;w$us!RXiyTA_{drTBPd#}5Pph4~idknapf8|Wn9jx9
z5tqyfaTy0qxlD5gpb8-VH_!Q%*P&Aam|@-kxclx8e(nAo{DIMY>X~UAXDUBFMl;1Z
z<J9BazT}H9zwH1f<^?tvhb=j5UdH?4f%}f~4=kBLyVlZux<1OJt^?2~Nc;Aaq#gE0
zAC*Z4J`5ds=zdA{)%du~G>>PZb?UetG_YT$sD3!n71#X5#wO;#vrhlAOPFU&kO+wP
z?M(B=4LVF_Z>=M&Czw{i9_V#f{?wXUJ2Let)aZ}VdVAq7ul5?SUSVgoDc91uC(}Bf
zO2_ct7?(f(!I{36BX!q7HeG(6P;G9iK3i%SpjxV9^9q>9SNU{cC!5+JftLxe1JEnd
z#+SIMF8ccK=PE|bgCZoh9Ey)biOht^UQfMj3cVu<j-EYxIFrrh1Qjth)0N6MNOq>?
z-;(EMruUX)k&Tn3z~_nr?CCS@dm6?|!~zEx0~ilrh3DY6Nr(~$U8r25f(~eindb!8
zU8E+8Bp35UFM(NrNUY`Xqu3Kedj|=AOhWJ>0I;t(0aEqo*~_}S1eSmf0Zz<MfMFa;
z0q8+KtTlW*S}QxVU(~@4%$d9HzJ~;RWM54C_Z|+Qar!J$Z#k0KLo-Y^%B21e5IAbo
zo_<IG(pN}0M*F&4+jCDz601IbFhGK^!t7j1uCt`#x7~JI2f#WBSnDHTt$+W1eljj?
zN2QZ`mS|sDuKAmjLEEX0)HP~jt*d?_wcks7<8n#fq0WkgGXPFk9qf>&x}w5Mn&3)0
zlsJG#9fu2$tJBf6w3kCFwi&sN157T>o_G(aheG!~N9|!1l2$B|nWb{Qi`}If%N!2>
zTC4e8h*2carn<)++4wKeLC?T1RW)i`UWFYh(5|?!#9p1g+Lj4Gg@1u)x%K&O2W~`<
z5<6<U0X9rLBNABE0)J{KDqru-C9k4&siB4O(i3%Ya7wjkT(v~a;_)}!J#=CH<I4Nw
zP>Xm4ynnZ$IJaphT9ck}4zNjwqny^ebqEs6qAmHwlBe8K+jjL;ww0_!_1>XK-KB%~
zs}K#j*LISqtCD@g_WG!Y#A!)~_EulLMw<%l5j0P5igMzcU`Uqs8fgt6ff$+K%BiU)
z>1W^ZQmLq4^<uX_*X)HW$|Tv9p85T(v<MZdK<rQ_HjJo+rQ3KSH30~e>eA&yoJ{_y
z>9I$auDsNEJX1F&^Ps{LkHZ8Q)P3=16O12Be%$e%$S2jGIH`HW)3x-T{8>C&yFt!G
z-<Fnp+Sxz1o36XaRclyanwne~Y^tIIxGl}UHSy*zTxR?KqQpM9i8UtrBIFB-COqED
zQc3@9tnrch4qMw+fTF+Nai2@TAyvuAzAOqqkc3Te^jS7A@kKg>rMvouCBuZD`rbEn
z`RVGL$*-w)WJ;6HKi%BGfdNP{ruJLj9~-n(HT$N<ak?^_^8;++eI9o3zOEvSaemZ0
z0Z})!V|;Wg?brxp3uSEV@e#@i*VfWKwZDdZ!Zp*_h>y#r=JAkE>NTD|H7xZR#)6MK
zt#PS+yS4L1y81QOr|81~Wi4I*Xip~k#@pJ|I-ahcA#H2c;*e%zT$>sn8>76I=E;eL
z=|DI73Jh6LC64FEy9j%caOgxloG^Z<#1fbJk1KtHeI;sGNMEpyM(a)EO+GfL=FFL8
zW1kr-HLIS=tH!pHR1AjLvDI{i)X%QI`gbl_;*u+g!ePGRIVE{|6&eW!NbN=HwadlK
z|L~@V?Ywi3w~<Oy>a~ieOk|jH@%pO`sq=YCwB#f4+v-|cMr!_TEwioVQGT|})VI+1
zxvjMQH0W9_;KS>y;lS1ZC58swxmx!hELv%I-29|n^UJSTyPT@T$*wxxQ(#FL=Zz^4
z<(2B!`e(*d!<f>nlFUL?^^a}B`(rT_EMxV!d`a4|=c)r;luNan<{*ar1I;5qLwTZt
zA9Dbd&?Sn;Q^F<Yh4`}~dLVHH!8Dqipc8W}`*7y4cpm}7N;+i--DxR5@*-ERlvS;{
z5otS5p9l*duRNaOkU{X{(E&4ELz(2`fCllXr#wR1s4U`oHY9I!?;f!~e&TO<RvOAk
zz7w^}=_bFBFErpj2ShSKTaqJr=k-usz}Ko2Tq%#59Pugj6;>m)NK|9Xq$0Uez+aW#
zZA1~JmFg~e7K@PG_5MmEwOt?;$x7+SRu_n0%MqWW^sEUSP(ha<e&nc!oK7gs=r|Z7
zmO?pXjM~-!=*IdO=*fW?nOt~}Aw0EjL)YK{p8+@P)Ni0tJT2)O=%D_llUIXl3E&mt
za%f0n`Xoczd_&K~<{|&0w;S~r+UBLHzn~^h7+6J)-g^|&eVhb2deOO>2lDdc<4v*D
zX!<4ll3Mi@B<unoyv0e{wfPOTF<~lTM>Y^Y69bVBup>>ne46qnEbcOu7mpL}QyKT*
z&ovI%@f=O?jTaI88F=XcJHk@)z^}EA{4oyQT9=8wEzJjjiLzV5tfm7!TUyR%JznZN
zY;9Yy0fyukwhNiCQ8A7KcC^1WeU|u50l2B}eN&fD{aWgpYDY`+AYQsTBYt>GJg-de
zuc>hyPv6peR0IEX>s`jdCNS3=*0V7HyO!2xQ^jj7-BbH(YCSWJjrh21Y93F`FFeQ7
z2fs|$mdt^vX;b@lrhb>2E<C5JUvquR=W78nt#O&?8_%Pubv#`?L)w<)9pYxM(dHEp
z6woal?E<q&csj5Te;6^ONN~J2{J7!|xD5l~%qI+)^AizMLEpg@NWFy(H=y%TM;_r!
z?c49X>qg?EdbL*=@dOe$v**cL^r!W^m?&H7TO(<aYDsxe2WLK;DX}GSGG!5HktsZr
ze_P9JYkAaTODMCgZG=8;rR}FtCX6u*H@pVxMV{0%Sx4Hi{io@h-bK}4r(7g<#mUP*
z-3-tGzVWW0JAg?#7v5zQFBXGzvBx;UJWZp(XkH9<%3DHP;`m31ME%I0mgKvdpvIu?
z0p{?Fx6toN6Z1!kE}D1cneg{;(raD~>BE&c@%Vo4l}R+pK^kHyo)URo^e3uK^c;oC
zPh})vF~wt+7dWJO9%L?}6MpJ{9+F7q=pEsJGU}n~n}s@Hps23ex+vWMd|79dcjQ97
z1eR*P2JQiwL&8y_9eO65hUy)2OR_|gl!qw0PvNiASU}{4bV#??R`c;Jyn)o*12Izl
z_1r{In%EoI3owy)rJg|t15i~*rB`d0AU}n3lC*kFZLS0&1d-IK&mfPVBXE{es(JIF
zcQn<OxEeBhmMmzufnQ}dyU#ZTZn@#&&vyeiVe7tj;!(!$({i77`JYz1Kh1JcQ~%v%
zKmIhUkS+UjMuBXf`kcMcSaV<$0Hh*dY+c|L<|+!W%M92leE{r;&kq0~<O@R#v+4|5
zau*$|gl?+@jseJ3%Aophued^az_5uiQ(hl`Jk?J-bjguM%vR$(Hslj^4uBm7>01h>
z5U-_i<MpMjPM^4E3-6&(TU=YqY-<~-<EK$3j96P-Tie;zHd4n;T_${atr+^K&VVVB
zgjIjyWLNxLNKIpoco8@Q_@gKKoP#*j`qOlYaU+JlUVscNJ*>PtP<~g5)Ke0?Q{8Ed
z+P1MBMZ`;iY)Pkk!sA{Zmhj-RPFON=6iD9u=-r_?O{P)2v`(3<^C}Zl3fLTZ0*C;F
z0h-i9Q%>^~I6|MO^$K_-0VRs<nQ87;rQ##c`?f$S2S?R^5GFv4Q7EwzN19#apQ}!%
zP<cspmtZO_=}BRB66gZNA-dkR-YGT0c@@-;b)=DgL{Pm5QUwci1Dq4Ns9|m^FX8i9
zy)gdb&c|Kc<MV#6cbu#F$X^|_klHICF7G$rJDxNqHK;gIxK`4?)#@1DHNvO^jSlxM
zq!nvv7PM<2v9i&!6v$E_OMxr}vJ}WtAWMNP1vWkfU;@_HhFx63jv51ykS~B8ryz$D
zXxR)q3*wwBo9~F7bH0j=w<IF^_3JD3)$<~zPrGkSh@jRL*ez+ez{<638{U}TX*DsO
z!Bojy1L%{=M5W8LtpFN%wIu&^Wrq5t3v0@+t>uv?bZLv*oXTu#8=*^E+qo&rq>jAB
zT%>SxpC|AnS75uV%%uPZw28QYVoIT3X4O3fZafEy<Pta002hSgb=N43%2YT|QLg%D
zouslj3?VmP9}qPE5W`hq)d~)KFsb&^jZvS?5fJ5h00vQnXODD`66r^~`T3(uErn-~
z=-?9X4%J3ZSp|>+oZ_TZcMvbai=s!Q0EwsI8s(R-Llvl>$0lxYc*LHOn4-?^C$&GY
z3-SnHnQ~MhiTDK<C7?|;s#m>Gwmf|xX^5hFE6gRDLJ~dW=hz4Z>Q}3iStIQ$=5n=D
zpdG*%hdnq5Mlk><qNPi~iIBPa)uImTfQzK00nilgzzcQ2C8PkAl{?zQFC2W5tA{#O
z1i$FL=$`i}`a&~=)1WzOj!t{tgZu&Y<gM<)v(`GPej-Oj|3+GycjfO#@wxI^QCnus
za$wP$tuWEqp<os6IT2s^laIf15+<C2+=cf}Jg;;zKt8%p+AZ{O{ZTrWL|2VfIX-_-
z9_wb*XfMm#oS+wFvqriKxcU?07e9}${Oalidh)@-%T@~#aVaaJALXczDt}*}b<O2~
z4~-in6eB89HQEay`5(m%<&d^s?*_Yw*oNfU^V2&fk6^PAKOE_BQ98d}=TBt&Hqkak
z_wsqsUOMkWJ`jt(miSRG`jp3YC^wp)`1qip#4oBtM2{#x{^COY*tcXsyND*)zgY@o
zDUhW=mI7G{WGRrPK$ZfZ0SW|3xJ)XsAv}{xEa5@IF5Vp9w2Rq*5eTX$zRA~?T6^rI
zN|*1X*_7)?n#7ixU3#?rh5=T_NLS$G?JjP%BQODpAZ_Bqovym4yw<wFkf16UZ%b-f
z>GFk1YDv6wX|sM=3T#RW1V%MifD!jF^?`|}9?oC;SWMhIcmi7-jaMIF8f5f$nDe+x
z@aS=`w%se+*vt?OXuu!`QbL&K2^A<9CYoP_p@3C@*f@x$_HnpQl^?zU7@#m3hk6}(
z(IQmr9K<6~!OR^}uR|>l$by;3Rqr&R<RaClXX=Ht8FLKN4z>ZSt7IlXr<YdCR#uLr
zi}L^%JXC+9tjXP~D*=!MYRGR*RfU!0cl0V@Z>^CdWAaz~d~S0fOf^anm<y6=AWk~+
zLcfqfvM^-;fDwU`6_RAGui-S<k|fRQQ9bmOu{08IBPW0|=J_1a%O&g-B}WZL0TCC)
z5j7MZy(ef>>p+_1=&Vo~RIgpDw#%kzq3j>m>r`3Ny1Juhp+DrM{9Q7NJKD-m{s3aS
z_x9_SgEQI{wzG;gYy5z)yn=R-Jzd%OTeh~s@^xx&oh0;}R;oJ(E|ssT@FJ>Z!@FHO
z)f})?ACy>D0Oa_%gt-k4*=Q%#<I3_1U)S=~Z}_N1SHZRCP>pg)@+l2tg~K??%GP?E
z;v%(6>m3APEF^lB;?Y+n|0k8*0v(vZngY1U!I$(&2bmJ@l2cLXuZ*VxB-53)s#XA+
z1L-+#e~tANAQCCYni{<amuSa)LyhWFpt`66{AWCh_LK*(<#q(Ai`s#?iVBSd*7bI(
z6YX2Ra)qB*Og_-x)rzr0t9l@5?)0Hv(5Ipz`974C*W(~?RaLpyn-i0f*kvxMQM&;`
z^97P)f`e0CDKO9J9huO829f<mwO?U;IH;+vu!8oYmEJ!9c%j<C>GBLB$?ZERTvt$~
z(y4*+R2^s?YOxWhuekI`;_F>SlEd<H-w3EAE$=_!>H8J>dKR>cNRs`Vr9hSf>q!Ba
zAk>K3V(V%>i{2uVvtYE=p#By?n9Zb-ygQDzPqpi|nN&Yp%`62r83p1}aH)l|&ala6
z1Dgr3OO>z-d61Sb?l2|6=5DkRhh2zVU^v%#X8+xUbEdqB@C_9d>c=$;!fhz3X7l;1
zQoyBtR5_PQ@k)vVPIdBX7@oQds7RWqsYy5XGZJC|NigXFIs&lBMVd|y@CZZnxw#y=
zhT6R(!7#Wl$+4U|9rWaFV19~VC$J;;axf(Vj65TOVi6UH=WvUPp+o@#iknlA>ni?`
zrkzeNCvF4HV)Rplf?^%Yqk^in=WJhGtegd8kcU!%!I3}C|I#-6sE>XTTo}axnxGVb
z86XRwOF|+bOc&1~Jm*@6qK*pIVL{4|m_&`BBLEEI@rxW~(>f8-!4%4_7tQKLJFkjD
zJr6G<N*Se5J@Sxb)PEsN#hpq7CRMtWUC16VMJt68DSy!*a#7jPuU_D!5_^!hPjQes
zTeftmOO%zbDR;08um>A|0Ez%u6;+jfiY)W?>eZ`kX$7YQ7pV!kI$^Y2dFJ}sR4kfD
zhbHMTg6b-PSTg@0o2=ym7}w||()LQ@2Qezo)vH%4oj|k7a$BJT{y1T{Tma#mIZL!Y
zmI%lzx3xNauB4=+`WKR_QSYExtcPpM*ZRR*#l`IfA{GcVtFcw9R(rax-E^|C)>*)~
zRjbO}PBv*ORtacS*=1#`l(xb+l^5`=QeYeLJ9OxvHrLydC94(I!`Ep{N~~7C(1eqW
z0qn@j?b=b9YTjnOEnl|M>xi@|hf@^j6yZseCfOc3@t3-;SiZvZUn^R4DJ}Jb9x0o4
zcJ12DX3m;vLx&6&{k2aJKU$+aY6TV|y}4BHr>joB1q`bcy(l{`zsOby6a*~9&NiTD
zSy`FF%->O$u3fw>^nN}97V3xe-r~he1mNX6NL!`%N^j!>V~zkn9Q`mjXrAajgy<JN
zh4ALCw1fA}AzWF|t_f;Qnljx64eaYLqKRnPpezNl6c7bIoH)(?dH2J1_2n0?7d>FO
zCQhDiJ8U<6z4H02C0?;|wHAj}np66<scQ4)FScJ_aiiUK<8RuOKAUL$DX>0k0tayH
zy7M-6&;fg`e?_u6WGV1Dra)j6QkxioZjp_<jDVe(hIA5kFcIX-7j-tj<b?}NOt^Q?
zG=JE{yK7><-TLi#nu1#C<@HZiu9b<i(X$lzj8h<}@<r7IF-hJf@9_dm2_fA2kVyK4
zuuXrBst|!$E|>-WCMhJJizJn^RtQzG4!T*eWR0~iX(vEJfD&R>Y7iHIoSb@{#;RNK
z{tlXfC)EqA5^5lS@<zQ@;Do>?OxzO}r)c1VPBK8ZHERS;iCBOONEkJe3RYa7zlbjo
zq(FtwU$)x1cP+IVfm?)meRRb^Z^~g7r3@mdS$-upDyPKoe*!|NB@%BzYDs|!2gm`a
zCkZjtacM=pz>;$7(_M%DDTMYUW@<eJ@WYGoI<2j!mL%3%>)N@<Iu-$GMBpWq00u$@
z7AY~nPO!Er&HGErDs7d1#VVjr_s#;=+WUbJQ9;yRfE<M@5g=vc@Q_Qi(IF;Yh$14n
zm@9hnF=*1nN!F`pZ!23}W<|wC4)_4lb?@H8Dgc(cb@h)et5=rU?Af!dZ@+#vd)6!)
zJa~vroi@!|*iP?f$l$@Ye8ma}qgIM<=+V8K&6qjUI(P0UfUL?&I(F9kTqB@xndk<1
zw@S8EJK2JT3$0J@J~naU6dOK#c=E8MQUP3RRenc-cbz(Qw2u0fttqp)bLUC2u}C1)
zBDF>R5>QS+9BsmeE0TGoT}r*2l9CczC6Evh4{5l<c7?WJ!2-1>Uuo95PyzkAQ>RV>
zzE->RU7eo$_3vj(mn>2Hrdvk=des8Rx(N^jL?iApox<L~e}9`lZ@#yQ_5)S|f^NO_
z2!Ve~ob(lvGMq7Ey7lVS+fQzvKYyML)G6*OMJL><RjX|3)M?g5;2m{bBk*nI%9Sdw
z)&a+I)p^eBIW}m}R;u?xgC>h;x2V2i`EsXAxyqoOE0ibsae^y*2VQme?%iD~Z|2Nd
z4#tuOppdryKYQN+7}-^x`%5$Gy_c1?_inH4b%`qmV<!*{m_S}g=p;Zw3TcFNNF#Y6
zc>xmYBO!$T0AozGG46GHZ`zf1wX0PxBTdoF`@a9&GjnG&BWc&WUTOE7-O;`GwELg`
zo^$Rw-~CGoK+mS8CMn4;LElGzV}V@3bS~a@#=z&nwTfNSaQbi|2M7Mozkg9qbav-R
zb<vIkjst!UP$c_8gb|2z|HH>Vdm*ZtQ+4dxb5K72U;l4T(d39ZHx9UW!nyIw<#rr6
z9}eVFi6!91k2*O4J4(<&WhOIl(e3v@%T1Ji{l>zYN2<6`O^ETjkf!vA_v6=i?$mhH
zA2u<nCgdGylZfhB_Lq6@i+#<uDLs%TNX+yj&CKt9jtBFk4^YCyO4}L4#Ed9AL{sC7
z>rec+Ax;7<snnO^j2mkHbS2Cw1mjJCAkd@|cbI21K<bEd&RIwm?cCQXgJF@Ub{v<k
zz7YwbhK@4{8IBf6*FZvspk;R&!c=D=+|&nYq<)O?FWvu~3;>%t8_AR1$0ITj3CK7A
zz+RL&&=ZxD!y-qzV$wYbFb6i`_8*U<&baJ6cv7|<=#tKXh@2XnltZVYa(WCP8Hl1X
zU;kK44t7q+=mdZ$ICFUV*$z1~7?sXb2>~_+fFmJ&ps9B-E+<Y+$}sMKsy9#eAAwpc
z=Ft!Uw;j8N<f-RR$mzienLt~PpN`7Gj;QpF<;kc2>q$9-<H6Gr+0ij9-66DXEFcFu
z^JOTMC&QtH?CY46C!g=coF)K<klvq=BPZejuRz}r`+~@^u7sTI3CV*$+$~3rhafO;
zQuZ7;j`H*bUI=gwkR3V*)p-Lks8a&HRImdNrVtWbJNKNB=XRcwN1yJH?fd#50SC~u
z5A=h-eZYSXADfWzsBt7gKvF?T@Q2S;pDm7xyJ)S*2U_FER9aF7(6t;uPOWNH5d1ma
z-3>tOtO8*K#t32&80taXS%6Uk0DgKPwZ$?W$BxMe0H85|X?Xwv2^<lWJAS-F!8A&;
zm6ulnh#FSOy)yvJ&YU?dlscp27eOUTq7gJwFTNm_WvDhv0CAwdUydF<q7rxPf2X@o
zE8sOTF|I17#{mkKL4}u6Zmf$^d<5)BM>pEheY#r##+sTc1*izLQ7UjOG>SY!`u-%q
z#QYHezin;pa`MzkrC}73grt*TA3;G%#+~gw3x1UXNb6K!jv!ifb(Qo0cqA?TpqHQ<
zrU3Ar{{V2~erylbkO>fm(Md>KFZg-#<VgkV2trZ~_7p(CGpq~JcgK!(NHf4bO8yOi
zM_fl#L+Y*<eCq~{!^1<$SJG7nVD&WGN{K-Nlcc-1x6jN&;OSUsOu@=d&>h10B*rtr
zHA>v^`KtOa`ba9E5E0{K@3ATDO?K9>N5-WBZ7x#klJ9JWD@xMtiKn;8*T3~cMT2j?
z=^A<C>+V)2Y}>I<<Hthd^0M2mmsj0=n|$&!Uk0K)Cjb2L|CC=szP8pTdEf_+$ot>(
zW-ar;_a9O5&b#isN&fIp|4DxChO6cKKYmQuncw`zSIMdsOEjPR<2W#1I1obr|LlK$
zQ}*sZBGves^K1X>HL`l;68Y()&&ttbopQYMlng;c`mUGVD0jc&7Ht;C)HlELW8DyK
z*}OJuQ%{~cBcJ}iU&n-hRu;Cm$a~)TCWtjx%D?@`m*f?9+$bwoEY=D11Ap?5^3Q+w
zhma=wxYqOAfB1Luf!}(I&^zR}A9zR}{@F7s3VqLAx5(``UniX>Ps@LQ<$kHc7o**K
z56PCz>*QB3_GmkS_xi$@zJ<xUTUIPvDDQa7>!q@yT-$Q^=n3gKaS{{v5XS1O<(cPq
z;iZ3A)~s48?|b(z>$rYl`(F9Rw||5=U{tQ#vO(+R<}Me_<lTRK?yGX(PzS!U)yccw
zdY{s58FH+nOTPH!`|+h~Lgx#5P|Zan%VcY>tt<1$d514x@`d4Jn6qAe&jr?90RR9%
z07*naRPFdu*Dkr{JX?PmUgU3h?On2I!|Kdx-E{^BGT#Ze-F&Tl?f?Bie)jltx`4X-
z<u?o82Yk7H`Rm`4$DVvaRq)>Ux_jihYc{0S_VsW5K>Dy?fA`zokn<U(6>t}h16MEy
zW+P$81-$(l?PnF2x=iDbU*8#6pDu#2KBny+&Y${aJZ-&f7RlT(FfWaRGbq@Xx%l?7
znhg5)CHtdv>yC7Gx77Tz%j$AD4qS2$aH9^K3S*YiF5I~13b|8qmAKIHehT#5+h`|I
zA0kdnz%K~3zlre?*}mhX>^l;b9XmRt2mr|odr!*JWvk?oCwD_#v_{HH^5jf+k1Sc<
zC`}E;kRqy)?FR;B;|&S<&izlwvej#`X5TNbe&uG_dFZ(Gj26kz$sTE~Yn4-d2j!}3
z*2~^KV*oj#nCB7zq|V4q#f{Q)dO(T`E3syMMBeqbJLPOB22a@I(tWaD*0l#@-I_Kz
zb9NHzn;{t)8<0&K7s~Eu4#>uhYh^q<3DEA8tXN$wM~(~t*r=BMhx#GW6a(l}A*Xx#
zrDb6qG)ofl{Pt4-xJqPQpkAKdc2;hDd0Y-2ff{9ELUtV)1He%v13lxiesKf9n?9*p
zQZG9Is=f9Vs{rbZ$rIa8OK*Qj)~s9zpkzSqdgUT{;K6Nj{Y@+6=!p?owV_lZol!`Q
z<w-HrUSWU)I0#i_@nHs2Hl^&0Ej~&kLK+T$-q4sxXZM6m0&rQfyhwidGk`eJu+-H|
zO7EFbfMyA~t7)kOJ%{BfX*&;gu@BlHcPf3Q(olH6G(tU<pb~*A0zy=^Y;SLuC!c&m
z-%l%6uEaiIOyi9`wx9x6Rn--EwzX>8kbs%e3gC;<Zo>qw(0A$})kS-590j}wRXz!T
zRaHUC5%$^mF^lo6m#8N{R23B!t0Wi!MA~XAfQc5qC#fn+QxOEl3b1FQx@uE1CD;aF
zKduS@Vh4b`I@DPzJw0btg_P2S<=98jV|qUFuS8qA(GM0aS*-UYcvgY?P~wkZ7p3TW
z&KP>CD$B61tU_FsN*q#MxC$U$N5^r^SBm>|baW^{RSMvcHXg}swukolVgSbYn&pSJ
z{=Qz+UnEfI)%=Vbf>c~%V<Va!$MXwGV?!NE$JNFir3S03s^!^do>3mPwzlfM2+*-C
z0XKr1rKK_S=c51=LvTFRrc!p4@}qhxf!F2BmxC@y`++x<up{ut=T6#<^eXxu`bGk@
zqWfh8b{hXefyuTbG0C2%=dpkt>E!%(#ejCSk@CsUd`159gYQKLuaJNL>{ozp_mOMz
zfBxgY<^8|$D|iUi@;4v-l(aO}%dh?NFUro{2Qiu5C+k)(*Ufkrzy}-pfYhpoA4Hr2
zK(G^1G=Kib@4*DMSN{H=KP&(Ku|HSvz~*;H$AP)df$h8YV=^z05C7S3Dd0em;$QyZ
zk5#4fv8P^;5B>hT@s%VZfBR3LmK(3XS|`R&eeP@WTNpb{jrH=;fBBrg5Hj2O(9fQh
zYpz}=H(a+_CCvy}yz?#h;S0<e1+kc)3$ng`BjWsl_rFy>_!l3Ozy8o~N-1n_Jo4Cc
z^8Ft@CLjF3J29Dt<?sIaGt!Lv@#RC6TmobS+Bxplu3jeBU$;sA>hC_O0Q@_C?ezc^
ze<c6-FQ1pcLVZ+EC6L8=;4py5kAM1q<X3*_Rr03$?vX$H@W09So%<DR``1r?QQOth
z+@K&B!T$U1y(=fp-vx-zFH7VXK~4fTZ+!hdNmdZ7eBEnap#aYx{?6MqJ{OI-+Dp(e
zTj&S)!wsnooTtX|^(oh!cku9W`SHU~${+piJLF7HpZxQ`{il2kbQ7p`AvXsy-wCI%
zkUnte82I>3EEq=2xY)W`!DRM<e}I~J7l7sO0C4t$c3=JG_qCt>*&qEz&S%60hYOAa
zjspf@<Kmce+_VyQSj1-rf^90D2fH>UKEO^l|5yN9Fpry-bTz!pnz-Ed7SlM)CE$x~
zQ~+`+$x~uT_iXb{DeNK~2VO!B*f9pE4&%)Lc6JD6BZH0txbMA`{oAg>sPM^P4a{TM
zaRO27j)wYmV^3AqyaE6=jncldO?pH95`wddypnopT^y9}e6LSdtz0Bs`vHn2YUK2Z
zaap;zPAZG?q_wtH+8a=QJRoh&lk)5%JyHn26j6L+Zm0=J@4+!yb$yBa`0-;>R=-9L
z9UFv600JNh>F5l}^?{h|+}kC~maK(Mx8;zC6G)i>$m)T_SvOP{tKza6jfi5-ZC_L-
zBcVz;(KQOiQ#^~{q;wn|myWJssc(anRir?ctf-JD9vuM4m@k{Jg8F8D3qTeCcx8lK
zW3prW4%xKnR!DmVkS8uj4)jV`RZ0W0d{s3-%5sT7;%@iuQ}Xs#H_6T&m9RwyNy5GX
z36w-+^VXH1D<*r6bjfXrb{PrBq^ben6C|Nxur1fnv|1J}0L%q&$H*(e&Rr0F25kyZ
zOpbFT{_(R5`$r^EC|hq^D6!C_JpTMC85sa?DLeqp<ig4lIezkpgz?TPS5O5iwvb#i
zlAWvzm1G2hS^TI|03eIfX9U1XAQ48ehwl~Ity{HbwK|cY1Bcq0TG_gFs{(hVYvIC$
zkO0h=EnBvr48S*(CBU|J-C9*s-Ez$qm6RKS&;(V8E3g+}KB~~NYyrT^jT_cOFrh?l
zz3oPTO@cjHBldH2MuDe`GNkPYr0iC&TCF@Fy-Q*HtpR%}N|{rtjPF5$cvY3v5Ui-t
zb`U`0eHKFvmG57wRfhl+a=%jpkoo6sz8TVgWeR$cEd&<}AO%OBl)#qW>NRUnt{8i_
zpsZTGS~<%55qzYYD}l47<{H@Hi$TJzUO_lIgeZcehY2{=2texZ&O2YOe58tT6~H$-
zq+ogVyo^42HTXsq*=DE(lRtFOK>-PZY)h9d2Ph}%go5vTs^$^^y9WFxPl5ms3jqvL
zT8@&71R~dfW_3=1`%t=GopnH6mmmEo!FT%|w`)IOkD_G1f~4pgbOu6OkR~8v#=yK@
zKARo=Ga2VAZ|B1+2DGDhk#dM(e&rhv%Fo@nMSk~vZ$U>Y(#<P3x0Kr9j}ysL&+Y`s
zuwDmh89FH?cV-Hd*x^Qt(iY!&;9-?YTCr@=OvPNf<G`HZz>Qn4!po#eo_k>rzAE&?
z&cINTwoU6-spJ+TS^;DoI@|#OYy>ZWC9u<FB<x=Ii!aAQ<Kbi(dqPR09RLKM#<-%i
zUf`5n(%2m7M~+j5ii$ElZria}e&Ln3N_$(2UQ?=d`_6rGEhOMd@iMp><C%fL$i4$d
zL1!CY1QYUlfMg5=<=*}NztpcHyuNzVTCJ-dBG8|MWZ^3yImiid`O<~b4@0h$uJgBx
zU>&6idCV0WAzk-_pFA%2KloEf{H;y$%I4=+r4rf^!ONloFF1ZM$VFqW_TF;SwYIuh
z9dpfj|MH11>er!d;2{IQG7)^*dd<dJ)qAC8Duq-c7jO2R(Av@{Z+r7=W&gpWP-%dk
z2SP6vnFK%SbmD6O=e7W>{sVxcHhl3b-&LUQGq6iYL-<@kW_vH${O;&Da3ymfC1D3c
z+*pfc1}?(6K+h^+hp}ZrISbgaJjWdC<&S_KH(2vAkbdq$BQe?@qEy1n!7lt~&gpVE
z4qSQ;aC2RN_avolC|zVgxpcbx0xf{;u;1mT7Xt%M2>{uoXMPE<NCo%d_LzC=SR8iH
z;7PQ!C@jlcU~GT)kTlgt<$?Pjk=@T1%GFn04}<zqdHC2d05jDRg!EW@-7<g?2^k;h
zk^{R}N+qQ5_CMb**K7dDfTqU7A^eJ^6cz&N%JKo=6-jgqHqRyp@hg<F3V>DDE|=qn
zhh^1L*a|z-E2p}5VJ=(@FQ%h%Z2vycQ~-&!TG+IMG+_ROJoCgsIdtS%dEaloSzhQ5
zLn<na_0CC1ww=cFsD<Peq_4{1c{C8hv#OA<e&taqtq9AywOeHfYPh3=eNr48*T+#&
z5|VDH^F~I_pzb0mDJ+%>0ExAzV`wZQYgRYOx4(8&PM_QZAZn{DZflVJ9ewh^Hy@B!
zyz&OAE)UE1?%yxbiEb&($G#&riXSEE!f^NspbQ|Wnax2w`vD(6AAkpp(1u?Deua}0
z^58cfm8yy&NEB|8)4{WH<lwWAYFq?+e&}lnC=BcT3h5>fu+!&fAE;iKKLm9cP02n6
z_F1(Th&4X}Ap%2`hAXS6z`5~K8iiCG!6j-58HW-<eE5ZeGXNm<P71(~;2ypE76Jfc
z6X>0kVBQ#1R+&}^p#_3$p%9!PU|`UZ3I3p7?la(V7T^*aA4DGBi&B=i-FlmXS5yT>
zRy<2MUI2<rDX}qnu|+)#T3dAe8bJNcjWwVPO3nbt2>b=nDT2X5sX#k|g~ky_1=_`T
zssZ%iS(TFOe81woOve~1DFzM^Xk?&N`y?<IUHf7$M6fUfTZ<IJsH`khTXu0g(+Qx+
zh3FqO)n?t@H#nww^5OY45P(fu@SVV2AtYA$j7kBhQ7Vy+Q(|!NLC~!j>dNDAIKh1v
z`B;Vi-!~A_wRdf>8g>Um>iLx(XDLzG*0xZ>khr9y4+4XHcJvTSP*0tIpj~|4RAr`p
zK+ZGdE!XmNwBdC#ZRffF(T<w482QEb_xxO~<ZM>%1U8li@*jU{8zf<#k<WhN8}he*
z`8%p#%~IB*-<`MJpwc?oY9iBYpj%}0v1DL}vw<KVJ(0NJI53|$@IPPso=Tw+1f!h+
zfAHHF;snLOK5nH=dF>wqytd)bKk{#wKm)Sns&%RsOF+X0-FV=_9&Nn;$ozac*}(hQ
zI{bh-L9yZJn5OY7j}3NH#+M00CY^R8gDFCT-VYPL4a`qF3^rI=?UC_R*QNB|Gtcc*
ziK}b3tcL{P8*Gs&N8TeBjnlPvN=06TpB8(bYtG|`2|hzR=kY@Wfmj#LjRQM&ACQ0f
z#DB@HKX<LFMBCB?^ZxFyepjU}zwqDR*2M|cz8Uy|h=KME`C%y6Gopm23yuR<G6y)1
zan9!AIVWI;%}p-A&X%<*v3_2fx{a+E#@o5ypU0l((Fi*>JOLQ{o=bu2QF_y(p=^E>
znr*P}yV>S<`5Xr>6$c1_5Y*t-iylZ#@D^%Qh_dPSI3>e{j{qtDyIIO6At^+VkrF!0
zpsKw%a)VDiF~RjI=9EPX>!C(k&nS88FWsqo{_B4Gmy>j|$yfjStwzd=RpGj%Fi(E}
zcgzRrt2f-Brm{Ht$)`JSz6R2KxbM1UTF39d`<3d90=k|lLO}vo$6UPyS6mIyBs?&<
zyAJN|?(XjH?(Q%^fZ*<$;Dq2BT!LG0&jfc3E?J)M?4I}AJ^d5zy?wi@x~ifJ=e|uD
zB`~E%A2=HP%jdHftw_J{>v`g>-_$X*pC+!0^e!3O*w##ZaZW*4$AB@9V9?C!u}WWN
zYSP{ar|)@R;&WYcf@t3yhCRwo=}@jjxVmt2{i$rJjmXwvSi0Za|Bmt8SoMuHi?7GA
zd2H70!$0%8n+#O+-SdNp+YgP&$p}R+wYgflJjH5DXvc1-f2C{|$bhu{RyH%1`hnzd
z7nR{}80bZf!qh*p_}U|d0Z#PjYjVPTRb`H1)C37m5!MYFaQ1OJkSA#6@D^g4y2sk5
z0z^uUw~Tr7pB-UP;@pBYfG+Rz*&Zb*alyRhFNxeb1~yw&Y@eGr&gvB*8K2A{2r!5f
zfWXEJEcsrKOK~3c8me#XfQ#t|6MN>kz%jXbSRM1S+btbqQ-n$sm|XLXI)Z+q62obr
ziZaF{w2AwoI5_q1Li#noIP-ec=`o3HXii2ykn!g`Bg{us_%(*`+8`!un@4c+&70Jc
z(S;GY6cp)Ap~__g?B~iAgWx&1OZ$8mtoiJ+QfS|Q`dMPgvZ-W?Wt1Jd7~Iz<7{Hz6
z%}@=KoO$nz*WFv{5(V7#`5R4GXb-#0PrGu$o1pEq@Nux(PkZ=cA+n2cQu#>eMXQ+d
z(e3#gtk`~iD-6x&GbZOChVF6MYYOF2Rz+ASl$vS%OM_<G8cJ;LeXcoG;QL&9?LC>T
zxw+W{isK4eDr4ek6R0yc9QJ&6?~hP^FlD`uvn^gHs2(2t7`nS5mSJQOb0igZby`EI
zR9)QqE$f&z^t3g9Q5Byiu_|t$zg|c?(xxiBS3qanej(ocXI&3G&-VM%uOYP~1{z)Z
zFD?GRp!4^Vl7P1nz!x--M!xX}9K=My0`mg@io>O%-x=I^wic#e9#8*WCUbJCUm+K(
z*6rWYN_8QR;;hc#PeI`M`uVDl_^cV2yAZVig^+)lU|D?suCl>y)I*^wT}`AJnC7m;
z!?IBf+aNYxFVLbhE`Dd6<Ro^L^SvOkR77!uRW(B_^pT;EE~hBowyn??#~wb#rF`Ah
zwuFGE9NXZ~o4d#<XpMKBVo&MC*-b1I7<g*zMJi#S=-2a_l)q>5C@<lV;kEYHrtMVm
z$9*3*8tF+2ZpuvA`dMCP_4}Begivh8-`8*GJ!-$<&)QMk-ZEFjCtg+-c`28iyhKWw
zVk_&uCjoOokRU1snrx}Tq~kS!(6Y_s0rXkN(-#=90ZM+5%{)6<oq!wmYQwpYoK@G{
zwMFP{`0j6XR^kl}1K)wwZZ9JzXpxk_e3MA|wNFZ(EgP;PmeZATb=4j-{f$Z`<e%}x
zRpsK`O%r@y!V;MJ;lvPN;zhNAFnI1Hkk$vQfc1+V66mTffRDZDFm8kD%a9L8SO@Dc
zdXwU~(+Jc$dw>UXKilUH@(UgC%MrRqH{UMOwbhfRyf;*y=JOg{*6lxeHU~&OjJUD~
zd8X;-!1(S!eX@<QmlWAHqsu5SC8k^JHxBg6__or(pF$lY2c+W3>-ha7e{tVe<>FFI
zci#MG+QexweU!n!Q=TIR-OV`@is@ux95uAV`2Fn?BtYQ?F!vhkex-JL5h~pWToiMX
z?lb)61f#|zKzTf<qB&%TCXe!T0HzZYc#%M&5+*dGqVzUe<BVxhloUkaZc1e?*AVAe
zzUim26K^O4V(UI+S8fFf`6@#-5?uHosp6>)ebUogQMhB@*xEvO>l!NJUMriobFk5R
z)F{65>}#@{C0%VkO--jKhAz=Xn{9@<Mi9mNL^am#w8Gl@5WP|AjB?UJQJ(JmN45B3
zi8mGAyNH9Gz1GEoh{QgH4rZ4s#g*!4^#0c=>n#@ypw6ch?Iz*8d>3ImW@?B2YaHu_
z>RfsW&%mIme*sOHy<U>$5oSgq7>2Y^!Tn7XDY>hxyz7N|LLv@hcTQ~Osu$_+4Yg9k
z><0C5)d)kf>EVJG*GMzY?B|=CMwJDa`O&sUx3b}(3I=xpY7LuM;xe;;-~0L{>oHC|
zrahNNcmh>}^vNF6lO4HE%~viW$^5g678rigiN4tgn-lzw3BN{l(i?jTy&S4ZlY>YI
zC65*~+rjU#T)vl}(YvlYK(=5<!=Hx3&HDKthb!OZbR@C|Vh5Bh1VF;wulK}zKr(Kt
znEO3WARmr5@Aa3ycfF$*d`5j6nk`dUJH)VmePUF}qEFq-u5K!L<r&2!PGN7AeGFpg
zORG{1L-$D!@3{w^u&UN|@MEemSZmOiPeFZmx&W$w-`OHKSAUkiwM{|D`jnfo`AGQZ
zQisU;2T;sj<MG-if_~r8vV45Tf|HMxVQ<}nHxT5j!iMH-Lf$$vhT?yg+S~8jVwtlc
zJ3|5vQ%j~1!p=sv9Z<ZlN7RQTRoVA~)tpl)PBW#8rGE~K9Yt&S_=b`yk-5D3|EZEc
zDm2`?e3(<B!01^?n44B2lRG?g{(G+2MAz|P4ZR5XIbDP0;?(E3K=eodWlZj$)cdvD
zJNaqQ_<_#{kj0b=ERgC1i<uz`x$3?$HfF`(q3rDx5(~a}2n@zfr`_5AMx83=VGoRs
z@>}*~qfEPm)<GSNPdLw0X*kbOG0h(JfM|Mv-!k5eUYNv@wkqvdSLH!q&>;IJw-nyb
zz1@mj@o6PtQUx>#im(y^9yrn)iS#dv%6z$6(UwYiFZ2H>dI(iCzS84M3x<DpFj_hW
zYONB$^bNsbTb(E@X9_n~SMM%nx-hbwPjzLFJe>k9Ugg+&GO})Gj~$n1Ci4?VTAq85
z@97lRHHwl#ILN%jXij!=(Fvb`DNRH%T9~~`N4YKShbYcJc^JiqH|8BAsk*a#eSE6*
zbOp^y7!UX6%Qf}P*f!c+B3Bk2tLwi-o^X_%kfT<BK>%98O8-AmE=|EdJ%gRuVzzpP
zVGFBv6f;$prJjTjN*9m=KbPyR%QQ&f1MOw11p<?3j+TIzt%Ze!O%_A4$HhmHTm1ah
z;2$hcBXlxE_Kp_N0g1QKj2UElh;3Yzv-BprfWGG!c<N6tygWRALf!451s`4a-sB({
z5$7Z$jcDfr0Zm#9A2js0wjEVajGcwQj|~yc;mwtJG@KmHDzk1ZUrquPzdYc>esv3}
zrL}E-_k#bd=s{6QDLx_~<SoQ8Os!D2--#(es&!YYVWS<8MEj_Wq<zAUPU;g=2J6vd
zQmB57S_4^vi1!7yySO;0-1~?!F<Bgj>D{!db>&s??Usb6-uFy$!~7$U{z$@#WT}q|
zS?igJBe=;tr9iTo<25&BR<!ulNhZ&axI~3VfBKv0rn!$WYT@&`7iCc*pP7NyiCZoB
z4(oV2W8_c&m#S|eVD91B>0C3U<LS#+s;9?)?<t|3ED@h8r-M{KbxtJ#568kUxZXS`
z;U{e#MmhBSkwIua_hPR8&+M2*r;m`G;<U2dU30;C{tEtTgE>kg(`AJqb6uUKgFhX+
z*;wnylPCpc2<&U(OOneTteO_s?qlw(E{zX6sV%9l-_V>FDoS&)bhx1IbI&Jac01d$
zA85_91^(^j-P+!6I_DqmrtX%aVa=~SPd+7~-%#8Zrkv*9c53d45zpm~&l=Cta}{^_
zf;!YeIj+IRRY3)6BE|(=doX8LuBABQwvg^AkLf3#je=P};)Tberc3!O3&_d5n<GWD
z>p>;a!i7oKmk92xS3xzYT_#<YQMqJW9?*>E`_syDu|e@c<b*0IZ<NR97!>o!>-Xd^
zqwR<7ARAmPr*0MPHqW(_DZE3r)5>wO%NY{*13`G^E1RQXq?L_E#<9q2;*mUeyV;W0
z-)f;|qR#^_<Q#Cvxx%YU6HMHk<^&J9CHFsx&~2^U1SUePkm7bkvC0_VK=s;OOCl^u
zQ#^&<$=|OfNvB0-8)Y$Sg*+|^SM4}93^f^NnprGvQe9rx`T~)N>?fIx<fmisCZ@BP
za4TnlHTfCAEjGK_sh=FF%l8trsn?SZWrZ=88?RUgUZn3>6Hj*L=2AeS!2~np=9Oq<
ziIOR4rF=`Rr_1tWWqs=#>*b}pIV}So!yaJY?+qj?0P<wW;``gnAL%a&AC5(pZNKSZ
zRp*W$V|SZu&kY4UUiraos3#<MXKSWl10ftYf}yS|mjUSDN0PMVEZDh|BY5*x@uHyj
zfPj4yKM5lT3{B5Ub-SntQ<(kxA=f|O+qW6fMgFD;hMI3YZkG`;Z1};rl(ZWO4pv1}
z>a~5tA*USZyE|R^2EPp3arkSO#QkrBvhU>@3*VMM)ye0{?Vg~P*@bWC2J%NHA$Ln9
z`vRS|ldbj}rgy3v0Xs0th!Vs|yJ@D5#lbrYSN0_Ry_haS<q!H{Q~-&rFWe#`?REN%
zl7d}H-*!<W^j_}IV|*8K)`v@_-!8Vg_KSip!V`~y?&b)W%_+-PT@10S$f(rN335rK
znWy!ArZi|&{hl>{oFl~<x-en6aZVdWP<MSCAvw0pG)9C8x)p@u-S?TfXf0X|=m4%J
zuS-?p&)x0I{h^6oqR5&2F!IXVP17iP31x+CS*Wsh6L@1~&d4HS{G*;3coQhvJPS7l
z^PIOooIco%DJW=^wUGgD?n5H2cg{{;X%OGX?3Z;1^zAM}!?6x*bFXu`UXfVmgc7Py
zle<+0lT6yRG2tg3u5TMZ%-jWg{!Ev}_w*wF_;}(kJBys!^0u1CMsV@{%00<H_EB`{
zHEqkzej0K)o;+j5MwpQ$dfpq`XoZZZRYP0vbsjz?Hs>ITWlQYxqSLFo&6sIj4~ItA
z3TT7#g)*Jg&_CZV89F559(Vm7suyi=Zt?!U>-VPHA~lb5X_2sQc|gh!`ZJ2oldsB(
z5d4qD%Bst7mr!-~=d5RzADVymJhttV_6YWJJka~cbVi12rQ&WjP45`<W=ASgroP^i
zr_TUq=u-G5$fmr4U6DZ0V^@}y+PUw}EOwRFO7U}nzi7RvODr#7KTx!LqA6ZGVX}kL
z@4SNEC0x*TmrON`6xFiR1XSMQ$L+EJok&1GwE7oR0L@ozqJf5kEKgW#gtN>+4k@-p
z^LzjVs#&Wc1%h`z`Rg^Qrfx?>7QH^BwiFmextjN_wra7>+pkzRwz+0P5uBL94J04+
z?&XRh&y@qG3@X&7UydWn|7vYz0j&B<-%t?h85xxVNXz%=e~qBqXDC)q3zDw!);S^W
zp#m|=V)RBZAyilJy5KfbpT&MwQzRBTUmQVCa)QbSSeA@~(i%Ghl<lxzMHY*CIy$fn
z9nhJw)T_Ec^e$~!(r{|>C?3@ax4$`)W-u$YRs@c9nf6RHK&KMH4WN5+vONO1Eei-W
zYv7%vocQJCc`1o>Ls`^F;pM{hmbv4-uC9tRiB3E_V7MC1b(DG|J1gtVa2z`X4gUsx
zg$J*}s%H(e7CB&)siaOV^lY{ctowsj5RL!;SKTcjNHn;w7EB`Fc-#pkv}$rwc6$cB
z*#@@h%*|nSw;B;A2V-H3CXp^At8C(2F?EVrFJG#89sb7?;YR~EHSJt8-&U$w9-=yb
z$A6E~LZ~EkoEwO%m^g7?{*!!*{DtB@f1dtwWSx}OtR^~KJ;DZN`wV24%$CL1%%GNO
zd=qVsVIicM4o`=KQO%7wu9%YwwS1c6oeCWI5iGBRiD202Ssv(8z7RVo$?th2fUMBq
znaS?-=?62(2_`uswEsw(x=1En1~e5ytN%Eb4xx=naCRd~I5V^+689J25<tJSg+Ryj
z_)Dg#8lAaY(!-Z6Ud4KbvFHy@Ho?>yaap4&A<an7q;+kzOlmDk{fkWxvys_vfFLnN
zp>DM~#Q?h^n&wFoW7m?-(uu#tT9XYY3i<aclx=;?b_Xg@3ZQ_xkV&^z`<PGhvQ@(n
zT}~09sql2U9;g;qhBxn0mOt;0vs%JU3Z-&Sb5jB8r;!j!!iSEru&>3~q$bx}SFb!Q
z^V|Ay=Sk#y?Wj(6TW8!#G#@C{)DS`e7|2nCTwiP5G?WK~-;`T?l~}>pV=3QTD^8sI
z3}qi52Mu6U`EA**06Ze_K$JWf4f}8fh=_r>9`i%~uVNR0N2s}W3fApM`{o!LTQn10
znAy<m_vfJhJ*UD)D$x7~MzVw?oY{i{G9TV1yN<b*R3=52hmA-^|73X+kI7rE!}fc|
ziy%G-9t3YY4F!GV&0`*(Z-5_+$Z5%KbwP2I0mzeX<&RJ-%P}Vz;75<s6ql<nIhf>3
z>68?e)JZw8B$TDu7$fRV+x|50+@l!$<X+>qFi4MDl2TbzQ*==2r<6W5Rn7Rf!0%9O
zgeu*S&9nmkRBK61DiAG*#|sV13SoYu`axyhLbL_rOc|r`8dlT3sBZ;6=j<@%Ytg%G
z6Z`GDsMY28X+{9)fg)`FsJdJ%JM22S%m}&=?A3wdRlMe!c3;^WZ|G)qlsBlSMf3J^
z684V2U*gaiw9BA|U{Vq;g739~7FMD;Nul9YkCb~7Id=Ie!cF6O@QON8Ls<@4GIW#o
zF=ygo7bD!H9hASjjj3qu$91!Vp$W-p!bFqJBrZ;wBKxJ<l0ol~{Y&CHb<`Zl_#;{=
zA|@lE6i*jrK2f`r=5f_<{_9y)j7l#CNCIc5v{tb;;7%E96LxGh;RQdy0XAi9;XTPt
z5+DRhf_65d$=q)U=Yu{ZlXr8j)xx!o@PRo*5Y&WjsHo6{lF*_1*sLomh%U|7d%1W|
za_W20PP)~VbTL4$<RX79mDE$oHXi@XgqH0F<v*?3Dk7()@9t(u!nC)jQNV@B#F(87
zn5A(^C3oI+1JAu*O|aTJ^99kSOwh{u+74I?lQ>7A{&$71xr;*yIqQ2u`6{oVCMq(Q
zt;in>KnLm$CRHcwS{4$6YEB!N`+lgUw%oeisIv+pE|EG%96g2;Gpw(EL1M#yh8>{n
z8I`6-Ax3+;itu-JvvNf}Pv*9Dr6bHHe2ssc;`TfLU}!wZ1=iER*j8zcUXi#k`j6;X
z2L0ZPLRISxgTcd{pZoizVZyG+_#<(ow8EH)vN@;d3gQs72>n160+{9jPZFyGH-?Jf
z=u8Y83j%ohp&wOQImv<q{^+kO0;&Dd8c^Cq;Q%~x5v)j(U&8!{5<RfB_z%O2RdVx_
zDPYWAVe}zQb&O2R4M-1ytMXTO!UO4T;CrnE$ANxTJe)ez04X%RRSO5I`8UA+l^Ed&
z6$QhfaNL@)r3Dw=!Xi{p3}a|S0nCnNNjPJ10h^V*It7B_e5Ic(H08(_MMI?i7_3Bl
zMC!>Sb?A9_Yt{>4QbM4cd(zD(e>!Z6sf`cjxauKx$jccefv<bCM}gTbuPhIYUe}%P
zC3*l)3~dh9xvpbxn=v%Z!#SHz8`DBj;DTFMvr>o0|4auN{qYz|ky0s6y<Q2%>Ze^+
zIp&Ur2CI)hkuB+i1Jf?)s)jjJ+6cN=Ia_fKh*89K%H$L`t^-<IxOd;33Cdw2<s<D3
zjhn?dQ~s5gN1Ix0e<t}niyMMtKx=V38x0LeL+qv+fC3%&5WL}@Q}ipNjoL31WPDY<
zw}HDQ<(=h&X-JqQqA%{v&aGP!j(A4^sj#bCvZGUGU-MrkHa#i{9_`VPCQF78gpj^v
zhtGy{XWm4D4&iKV!(d=5who@)ZW0oW{<6-M!QL6<*g3?d7SpmvvQ=#f4r4wptL~uU
z*-}7?P@IVuQqWr}paZ5Sa&6sq)c6F(neK5#^5`E{Jo^8ig3Nn;ytBcuv-{qXG-oMA
z)uNIUsOECSzFOyt9$IO&#KiIkg$ja6@xFnbrC%=3H`*t|-{2RYV9HT?ucFw-e!rjp
zw)z+2Lcyzdh~-`AwsJy0w*S0H^U}F^bR&pnYyfK5jT)kFB|FFrqY6F_kc?xdPXYLg
zZ&*eGOK*mXh3S3=LI?wHI#mPyR;wajTS4E9K-HjH@e+(YvCk!A+`nMUAMul9y9r-K
zNJB8g&rzX@cQ>(N(*`{)0NRLPEe%Bii|6<fkc8ktd@2HfJ4!}kEyx<sj{{)If-;v;
zC}RhQt8-J(%}VbLALjtX7QAujo}n>jrqsICV0;>T0T?5(3RNM{4OH4ZXuUCI;?Drd
zq~RNygj3-;uDGUxZ=)%(`!Vh!3D}NQ(bzPeN7M()TXfW9WEu#l12!1_+<=f@<R^&o
z2;jU>XNffnW3@ee1-r`<;r5q?PZFc<1e*4wA+R>M5RgAFq4xTt1r3~g1$w|&h>?PY
zzyywxo|*JL=oD&O6BU9rZ@Np54RwhH_!04#1BAq)Nf9uE?drH`eI~fr$kZG*l1k9S
zv#k4-KA9UK0VFYv)sdzTn$1B2gs9sCBV03KuAFOqc=F078(c=waz^b?b;?QFKUl&`
z%PF38p*di_{yi+`LJzG_A#L0yPDnAl2^kZvHEbqU@G~_u)z9NbzIm=^nNFZG&qnGl
z7ONLH3`t9tbf5~ke~*^UkJ*j6yIn8)U=<#k_e{L-r!#G$^PA6&o98&bhTC}kwp1-Q
zCK#EirWLUK;BE-uJ*VOE&*17P|EE31PeHM&KTXnFj2dnHU0ZFqO`n)fHF%Ysr@nd(
zXe!jYv&CX;Vwq;~oSfbIN=|l4@!4<VynXy5Dfmi<EDaNpxkkhRf4S7WB#6V#syf~a
z<o^p)LX8eY{{gka#5Pzo8%4#tRkM(%7E7V1NaO9wlmuVa@>Nz9-B-bh>MWmz{6kJ$
ze~6YiJ|~aBJ6J;v1^Lz`#)@2XTMpGnCfcZk6~!`77B^l!BcZc2%Z5A=TclyIWk@lt
zBjec-B>60RV{H>8u38u;0n4T4cuElq5B^^72dz2ybaSQEwbz#BL=lAtE^HxR#D=n$
zFlp>_gLaJl*?^nHW&$r~f&5*6Ldi-~hdAYZJ7;kb*8G(W?Nl*BJw9RLdY7sx(4yQM
zRc3Fj(Zaz@8+E*rT-YZXf&-NV6Mbv_>#L<e2+_8%1aYwCpsyiCS*Fx5l#MerZP2~<
zIFBA%>i9g-QxAHGZ0MVaTXx)h2OvGYVqKV!G*SLxjb1noPhJjQxS~yOya^VTliz@z
zN)xf4E$*4Nto6G*(Fu}`IXCSn+F*PGj-mq%^*4(3l~sN6${7?T9Ru+Z$tZVujF=h+
z<Cy}&l!zPISh>00B1FqP&$b5~=hjvw839t_&n;RV=n+!X{iN&7L#Z`&8Br~oZf%nW
z{o|(jRN+EerKCMx6&i)!7tw?%<(*3YX`C;hbW8zNgpQ&h@-W+=813`m*H8dYW?HE2
zitsH`ixLlo8Y4%E+{kS?V%3u~Q32!W3<&-}41VY6;p|^#c>(>rDb4uEbyR<_YcRFJ
zj%pnS+J^&dltvwG*L7+<7wfy{VZZapX!#!0QbZG!@9R!*9q-xedC7+&r%&5uKUHE$
z)%I~l)oM2pHL<D0B|P{o-%PJ`TjK13KSmw(=))#Fv!pW5oAlIIELLmgO%tBiqoQ;A
z!0Q9Ce42u)bEObVUxuN=Pmh}y=8Y$1P_drJmcBVqmsfYeI;ncX*w~Q+$IX|tv@a>Z
z@XitCGw#cY1xp~s@lLe&-6m{$p6Yh~dk@jnT?3>bra2QUmes-0V}U?0ir+ZUNitbZ
z^8o%N=`|mKOW12ht)YKp-IL$NSw>N+q(B3onW~@9cwDB^ekTckohh|RAw?z(G0}7k
zj$zU3-e}hnl!O-3qAoCM{?}4s01Hx(?fK2tr7$hurhkm^->Xo60hj&)MD#Kl*d~94
zPGcXRF5%~4jp~}}>_U>=o1RM%>h``f-lu_N-`!AT>wgks2$F)TI}*nyt{GcGeiI^n
z9WuVoLX=L+?ee1<{@Onah>E}_zoauiv>-#JCkWu5QJjLLnRdmOz&U+ZI{*%;Fv9pj
zmhW08v8k-n$=(?R6X5;LMi`WK*zTvOvh)e%?}Nf&u3^C1H1giqHEF<~C{l3r$FiBA
zC}oxF{m`$)Al@7EK=SFlMYH<b_XxdZMgf0wjN2zsgGTShg5$XHqbtDKuRl)!;qo7>
zP$0&hCZ?aU4G?+zk$3Kh5N6yzcl^@qVv*-52aeHwp~sDcO|<C&^?N_h)V%$td=uDz
zGv6{EWyY7>mSuj=+dt1;3iG=~llhZy!+1P1g+Qo4>$wh-A4TJ`723eoBRi$o21p`B
z&ltlgKj^ubm8({v53u?^Xhld8|LB;jSE-aQlXM4Tt--WJS5YHA^=*XTk_3Jx6{z9t
zxcW~3%@dXg+eVa6)YD_^r&%4yywC1mF>A*)2Z^8Y`u<e-T0*kY+Pg8h@NM0gQ;FF3
zowtD*|8hB+1b<9H+&NkWH(hB`asPh9b)~p(o8i!LHAL|&Ku#abs=(xUQ(Wx#v#w;f
zUl;=ZDS}eXAfB}H$eX=cxG+OB${-<{gnm1lfE!wN74ui{je+eVxFXPJGfn=pTlFVA
zS3bmbd$wl4uPF5=>JmMjZ2-$~iZnSzdr7My+PM(T(D@^vSTE^GsjOD9%rC4L=NFYs
zt?F0osHR|#_{D4~65PP5Ux@k_NZC8UkKG3cXFU227b~>QG&+dlY+eklb%A457+C>W
zwrctK_#57#`Lxc2RZX-Lzil7sPX=IHC|nFf-ndVceD>8@lTm4+th!tiE{67FP8*~M
z7S9C_n*gxfd44v~=rRs;b1*POw3wryVG#XkAlLuGdp3xzK8|X6!9ozh(qnlXvuN^g
zt-*lIJ05XQwAzSVTI&#|VpFOtJ3{dUXB5zAfhebBo?QzEv29#j(VehLK3A_6`zbC?
z<x;gYq%kmfuS-aJv1C^aPx>L3L<uUkBm_m1h^&501KzrDa8_6mNX{}olDuxU=`+}v
zgv2CZmd-$Vm?Wj&YaH?fx{4bSoaWzJrey7qj`ZRhOXU6-&=dyydz^7_qh|LvL%3*u
z+ZU^zZ&4JH`P9Ogv~?Ejp9i}pkE>1(fADxd`=iV^wzlIi16&K~EA~pyDz5-sY@W#R
zI&%U0CJC258n!vppwPO}HQc`%U-{TwxMx!_bB}pleOsL}d&R0)lq6niRb<suUcvod
zfQQv$c61V_2I&0amL{_6T+SJQuljLCk373;XoN51SC$RsEE(F^-M3P-j4K~9zd##z
z@OIdLuW8ea_-B;C8Q5Eaxr>P-?7B>bkM7$1?~njQbU7jyXLfNmvC}`bYvp<!8Ly+b
z`itM!HB*1RA<|kdOMF~}H53u9iS=E35KS(0;K1#NyXiXTf{s6_gRe#ysf-EcX!v9V
zFgIv-k4Lp*`p#_xv1O{z{Ii1iiE;^6{J0$7b6Fp#hzq|}7a9k7Vxs&`(*VUS$I1k7
z?)Zgsy(WpWtrl643D6cy05NOrkend@vf^pg{I{4S(<Yv_+`|I1p9K(@Gh4>5w#>>D
z_2ZNpgxEi0Tx&qY2>luO84gh2S%Ff(C@rilXYsqax<>uv^qV>_BTtk@wOds-=bXA3
zYQE>GVL9HR-|t?Gny;BRn_hAh<#4m5F4GZ=<vpV0jlUYC*)O+WZl>q?xapY;0o<&g
zo}JhLaEr46Z3v$?iw>V@c)3}X3<sM$Lejy8)lLPUT+}}t=2uP~E$Gl?|K>5R+hCo1
zpTxtFl<}80EWz4<A^%=prw>O<w|8)g2YvKep22^`*nrYVUC+b?3e1;L&zOlN&&gWL
zlzD9#h#r+FxHxI$r4yTwI228Gwuw7XVJ1Zbl452~xzTfrK3vwUI)N)kbL=mtfvS#h
zbm#c^i$^f-F}N&#@w+ZY)sC?#wi4$JshFA|5HypYUXdR*)LzI*l5@KzPKW2ImO`k=
zeSUkec*|zim&^pTO#zgnNsBhbf1sZ8(w^tQt(TV<Y{=w!#T>_1q}F+FRAzq7U}*}!
zjrx~&y<RgVZzRsOr#cl`W@~uW7$eR)3hUM{YA&(W^12PXB4YDsZvV2-4RgMFFT_i;
zm)wVu(!NEQHi6`SJ+G1eeVld119Gzi-~;Vm4gO6pEWc^*%j#8cWGQDUq^vqcNml8&
zw#eN{(u09Nd#w6ol4T5cu=UtM`6I%~8V_yCHrSfMcl>Jya~qa#Csda=TVv=)kSSBo
zXe(tH%*hxsbYM1PnHzJ3ro{8374g}x;&>0%kE_LH&|I?Huyn#-&0f0l5ndzn8Rt3y
zysO=k`EVKX(4++Pt%hASXi`I{<0H_X1?kd~`qFUnvn8=!`(Ti*`bD?PcjxsMagioC
zc0Ct^1vCZj;Fd8Uq_x&G4sz_%jYdYSyUYN#>&K~@(ZoXeYPwQeKPqx1A(@ZfD9m3_
zWn=`DL+f^c4V@xNRp+O5f`Vo>nMZ*zkxyRqN(__(P~NfA3>RA@d;GUOwBienb2DQ1
z?@}IPCwD418KSJ$5*wsqh$Z4w(bZ+X$F%G7XZ3IX==g%A`6;K1qX$d9YyXFDr;8IY
zt}4fa>cmc$-q4@OR8^yeHhBlid<0SGpZy^osVfm;!9{TH4&PWKsbU4^NVBoZGL|Ht
z(LG+PBA82hu->H0ev~6Uh!bP-5wgh$ihR?R5LxzTQyE75`m-D_v(^+L1%t7rmI@Gq
zV>?qWNV#bN7LD+-j{5?};mj%hNpcjRV|5h+0Cg2V_^bF<?1)JSYzne86ok;N!DO!9
z0)&bE9Fo?<yNzx)!wMBNWQXR{)+UfKZP5)h5SHNXfiF}3Bit^D$;|07)xBWlg;qzw
zQ0w;i7~;T|)!yAMqveG(tlhWl*aD#4Y<TUG$&WGA_?z$>y1lMhyfI=|LU?wG&Ht$R
z$zmW?>F)aF#;FWHS`+LHvUj5@{?*h+SL0>v?3hdio?V`OOqjiXo`zamkMdSAT^$kp
z?D^LmdaDDdi}8&XhuIBQ`OITKf3ht+me#ln^jcTKZvB0+WEO<PD;8Dk-<{*65mty<
zc)0RE(H?eZJjv3T+ih43bgi*IR`xY3`G9g>KslfIwBYiZ5yV-V0cqOa07zK-X(t->
zfpsVvV+nf&Jr$cvzwk)dfF!vFdDfvb)G@8T-G(Mga-)oUUW0{7zWAKdVFX};2msC4
z;(jGg9p{)I#hlz7tMC|B{+I>#9b_lnh|rCBL=Bmxf2Xjwfexqb7*3fcHl*lL_A&Y4
z18b6VTBSP0z$Tu{v55MLRASoeys3_Q#RTZ`>Y!0)h1Lc`t~8(yQ%EUiWWgvCosvHg
z17V>%sGJX7);d6r%`H?DZ9uSeX@}&b)Emqc0j&p?HW)2nRTUglr3*Y1&SHfz;lRL&
zWZHn{NBGJO%CC2^z6}VQletP+(mcl-E)jj@|HVm99_>k=p=O=x0(qN@S^cW8SbVvE
z$n&qc_9n>(EMSOxi3$Ik8~GIKw=!)@)C2Th<;vLMmf=RtC5jY!x<ZWN-w()Oubrba
zZczzS`0L%W;upD3E1zqr1JE@VDkigAub8Rcyj9GG)u4)N#8#O$nv7dHi>FW7>d}P>
zEu5|?uTbtdPHy?$q8Zxyj!GY%6-Y(J_1$OdRP^~s^6iT`3&;OzO@*CB-r}_Y-)?%%
z<j35Czlzrx39vGm<8+kqcR5O@wO<T-m=}4O2U9|4Ut&HblVyz2{g%QlKGQ;i=L@5e
zxvIm7kfY`kJ$Op@+nbFBg2-NVG9)Kvh=FSpYutRIO&+5^P3k~7=Z`ta=ZBQbisOa#
zs6tuoSia8Kqdht?i4=*)wL)EiwP6g!Zz4{Qd$WEQ1(R(Y4My%JUAxKqumeILfO8!+
zn*JGO-N+yW9cSb>r(7wl^px#7I_VUNsz(<2fo#7k76f-MxRY(A?Ml9e!2<RODa{Go
z2fnCk_(<Ktf;mIDC_xz>LkhR`2+e^ZA2D<ZsC`XEcYrw)ZdJAxX9hrLXo-U{SKr||
ze!)!o`+)=GcXR)IDJnrJf4PF;ra&)pB_z{&Rdaw%gdthQn)#0Mssu?K-sec9bVHy4
z!0qC6NzHXr7d247Gnt1gDbB%`=vKLi*Tf!X<^p|8rI)->hCB27Np##}&vLtVaqdR6
zNF*m2bzs*0xy;N_PBly&x>M~BLUOfEVN4D>b0Q{?%GeVR4`TYNV#4nygu7+2UECHA
z9MLY(8RzZ;vJI0*nZ7R;KhTJ^Yu}EPC9F7m2>!!JrDA6b!xwx!7R>(PweaDhe*eQW
z`)0x7DP1F`lJuJhEbiL%fUzOl2tttH)9EGrgsXJ^+Q8y?a>5jL;^0|wY~D-Qnz;)>
z(z^1M!<J;KUpFNM*^^=F>w=NoQgagU;^4j68>fg2zT?jcF@a1N+po~s_t`)7=}=~A
z-8V`1!k@Fl5W7WC(Gneg5R*;7JsfiG0Y>3p0t^%=%FYsyCcLNj^gmM41<^WNCS!qz
zf}*T88=cEt>bz&18x|5muFJJQzK4Yu<eJqZ5*WvUSAMjHVXKEU{!QF2Cm-Kh_+TFQ
zz;CS64?N}PuTGo6U}29qOQ`X$hE<50(%9m;MjJ+59CS8FUKUBsL55Q8Yg4zI>BmjK
z#!GjyXd_2FmfUpTGvb;NVRV_<xaS{YI>*W2jOI<7L9^#Pv+hORd$BB$3oTxzmGINC
zlqV?zN?*N;Q9qf+^4-+E8@l}XmqR^Z3qw8_@DbZlJ(3rE4*?EfkxB9%cUAVyI3L2G
zo_kU1cneyzYs-eFWITq|MyX*pW>61yrrD?H7#l@+<k3`dQ(%h9<2cImaw{E7Rh4<u
zU}*=R8Y9{1W}OP&bt`whtyGNeGYVwyoMU%gaR<Drzn9)q8%}zqSE#{W!@=?5RIQP^
zy?TjG(gg2TW}o7|A1v1%RI-l>!~k;p!-vNq)9q@Czdw&%hV)9m@AalIyCw~oS2TNM
zM~1Kll6r#KFl)Fq29v;B6*Li{vus8%w91j)Qii8f)&Q!8B9DtdsTe7Ne4_I?d#nc{
zA2SF!y+nV~+tzB|I4`5-w9hWpPh>yeCr?Q5=m+@l*`&l!eOe7!f)6^dvp{vVDHKu2
zsK{Xt{<P#%p~$SwOWHn`I-%8Aj6TxsAyOW?){M8$KBLoa=lL!Cj0RLN7&7~tbfgRN
z0r|UwJ=IY_fuOM5dCe^NDI3^Ye!&me9{ER;jp;lUB8-J?B<W%)ro^A3tk@F#G;fsL
z(hW<_JhJ{Y<jsG#rA~A56X6zkd;<6>tm(;TX1+=7=B1fUrHd4iq7*?~##){pSXk<R
zp=(Z(K6B0T+%hzA7juAZBiPi>TW5clb@buK18ucU%GTHL5r|$S771Nta9!cn`4&wh
zc7n?f1M9U0lit!!zXZUqm-~lbpxJtO-M{OpOoWMM(7C;=U<It0U<TazMCzyDehF^~
z151by<8bNJ3weP${(>Nr`E9;O`^l<wy|>EhqOh5(?R~<meSz>VJ+Nm@eFV<P-oMZ>
z1E2|C6$MC>#&Vl2_(Yi_H$6-}$-RQ-u$==GQdxKGods4V*_s<&gRMP>P0Y|fE@XCh
zHLoKsdp8*yn{To56@>76kRC0DwDkdzR~@$MOW1A;1qLIgR{1uIZ4FImF+-ff!nFz+
zp`{)k%NidxH=EuYo(qbpSND&Y#t@^;-tlHAzcx`nZ&1fPzq$6<oFhsK|41>Pvk33%
zufbotLY3``LL~<TL;QSRYDA->0H@hFak1UBARRX?H-$<7dcGA*fU}T_<2Lm{34_bs
z%_<BS>6rrx0#^L$@au0N`Do<oR9pr0Czw3?eOoC}pU{wjf4?L*5K|^1(tJ&_sFC;i
z(Tz};Wr*p&X#7YpzonTh72C7w;TsQ9o~|o*$xW!4XHAFX>cJnkX!;eM8IR=6cMGku
z*1XPFm;o#!Gw#cFF+^7sgv~^qZXy}GV6T=j0qXca;VWToxZFs8lU3AEi)abBrfUkX
z5SRr8oOHFo+6vz+6Sni&bQ|q2EHoaF>vT)Oq0+Wz`-<XFGj&+1t^Ql{d$XFDMG3Xv
z`w>NUp2HW?^5iu$;Dts_0^!d~vKB;yO5pp=!Jx+$KQT&%Fp*8hk|M+_y`Q(wVK5Jh
zVLIO&GDqWGNZsQnAKHELJoD}q_TyJ0UDu&>@j-lgte3OdqWlrZTN4IC2O-_d*eB<n
zS#?8kKF*KDv}~10H!u(pC7oFJbL>a#_6P3(Uby)txcQBv(YaySAyZE8o{5ph=U%&1
z_;$vx!TbGDAhPTT_>aZlHoak2C`lYb9r|iGEz^K1Tzr8$Hcf@v#6{NUf4SbOROG*d
z*h6cNFS|K1o&VuJ(2a8E&Skq?-WK}t{M|wPVQ6KtCyRofN!+XsUbL#;4|jf+EiWsk
z#V|iX32o=!q8Ezj=QT5s=G|y9w3_2Wl~F$q3kD=gZ*c*g{%~-q1-e-4$8G;@@#?tI
zOBJ5g<omkwXemMDih}$5|9AlqGI!Y4HEqp)LxE><&gtKrdQWxK3v@6wQ0R2#;Y?Dc
zWBz?^I!4-DPZPj5r)rLN2?KN*xF-Au8)sd{#z^(15i7le@q_*T-w|DN6-IdkN3}D8
zqDS?^FZlt3ZnJLH3+AkYK*el3VVa9qa=$iRtd?d&*t6{a&{ww<C}sk=IWi+&01>n~
z6>FCu7C`W3e?e>_JBjNFAU+T887Oiw;bDH^QPM;W)qdj9>F8iA`r2pNWWn*=6@h~@
zVEdb|Z*Rjkns!yCKm==VE}P$MFBsVQA$dvW?+<At0pe9PuN*F*2(h01N=&}}^OcE9
zkKg^vN7r=4hvHgiYl>e{4y^Ul=|ifX9(pKHVPjy>@L|j!p(>}?aSWqvr{W5QEzZeF
z>3O-I_%9{c!O1CoW&6djy83&n99fvL7@jm>+XEZ_6Hf8}C)WM%2%~4;@T;cc5}c*j
zfoI*>Lr0q`=I7Z2hw}zaUqvyU(~b&`Fz56%xvkAo#xR$0=>iN{%Fn|AaSs+K^#;X~
z$~n87w^xP>3Z+dbe;L40{=Z{ltVy;}-|ikA8V=uivC|dTZa7cM$AhJh$z8Gl)7}t8
zA8px2*qn^(>{rQ8aJrvvKGQX(7%fosOmnJ1!{+{O*~(xKV>mycuza`w-RbhJeB(pe
z!^WhlfPPU4COH~NJ(2>n3?+X@xl5Q->)T*>@s*~*$@`SGNMO(TC~f0V&fOxnUm@gV
zvtJ=Q&L;cPZ`V}ZcDw4|(=LjPlZVC3mIGEMT~!Fw>`RagPU;oSNp)mx-eUWn@V%Ju
zjoW&WS4C5H=C;ooUZ9>GcrI|Vx7D<bmHKyD8QH6%kDRUuKIlu9gg}y{nA0&$uE!JP
z`}%KX-Lu&!6v8inQ^XDY&Xruh5|UWD^t2F6I&0|yFdSjDg86P5zc?D2?mAmIEBl(f
zs^c6}(4P+>gI5I5b~P{(AHJ9V2}`Pd8OjNa*quQyIXg2;7U4H1%*FG`YBY&#dDNq9
zh|(pZs2VT(f}b6pzrPoS^K5d8)C|SOHMpDLqO-{>4v23NY+Q3s*w1>`Dv+LZ?7VtS
zVz&@4a+kK(h3-(B-)C%I^3N3JJc&$<^$r!a$zxX*QF1HxKEcq?(E6ch3oDNxyQzuu
zx1rX`^*f{YjAHzM?ie4ZpR-UVOdC5tDEncT$5-JkeM%4ydWtpyfw?MqejZThou~Vp
z8?`H)F|B_Cyd4@Bql@$ZS&L`w8E(naLJ>=oGo2nF4isx^ih^NluRZD)pAkF&==wtO
z=J9{R4QoGP9`qWLuo}>vx4;6}uSjd6<FIvtmb~8^T{tkSgK`;rRAf2%)bzz1tlqlg
zMyNC~z=&j3JaP!^l2O_ZxAHbw0P2&R^w}jv^fbBdX2d*4HcdGfgoO$?w})L!2edse
z&c_**{G4b%xJLyHoiNh_z?6H`GwuF0yz2P9To4Uj9hD}X(#HCiWqtZW5)mw7mMrX`
z5o^v(ScgkbgYIg@0C9zLKtmiQKMHdMJ8b!Rm8+B6>;wL#8manxe%sWz$VjTG%8<Zs
zClu!RK6AYL<j;pfjG!X00zz;GG?PAj`LscO8$y`!3k08lY-Di{IFStrslI=v|B~cK
z9b_lbAb!hks*}s&6ymH!$+}*A+w&_RORCXYOu-4ejJ{l6kX)zJ<<NkTIEK#ZuSw12
z!lVy58}rXbjq&(IC5cdV9V0zvw`?9I$1;o%6S6PMF^4fhIos!30O2L4Nh9fv!y(Wu
zS_{>$_nC<zm6p7%Ofn{{f)sZbL9VsLtkc^Y{jj3hqz9h?56D+fad@Unb5(x#Cr|6J
z`+x2OAfn1nj}X>ypF*`xug;js(+^V{0m#T`aENEp#bhE7t|7<+%a_Ah_4TC9n7GN*
z)i6i4Ym^JNj&yewMI-If#&472+j4Dm%{etlI&osAP^he>MVXI#bF3WxAFbho$MHCq
zv4J5=$5`oq`Zy$b1nIp6Ol0TqHHg^-ZIll8FC)6sXTp35LC1wmPsi`hryc&Ii-w!f
zjQ3+fCjtYwg|r=NJQ+uMk*K?&c-(3`@^(TAUs+D9Wv7dN#Fz&9c>FGDj{J_Z@@O4i
zd=ZhFxj&WMUo_x<G(`b^fr8U)h~eQxXW|*gZ1@t1UKp>=7fzn;IBzg`U}JFFFJUEO
zs9%a$;o27eB<}`7PxZZ~|1SF{Uq7J{ApThhs@M`yHE0640N#KOffGV)G<u(!9U7SO
z3l47z%h@-}4q_HG<K#}_ea#lxnS5X=u?;eXkrx8mKvP+92sF4D-_Q|}d%+9s>|=J`
z%{V&PGiSp0;-yh_#gwu4={~D{+JF48BWP-byDa&9<K^wFOd5Peaek_2(kx?Ww1E>`
zx_D2$&EWe_Zb81gz1XrxY^R#!W{gTKJu#nGNydiZanzF%2n1p!N|!;A<&RPA&~UJ4
z&)yw1mNwZvxWXPjUOU{?ENPmUur$((|G*MP1_TEa4N+Mcj!MesXnpNQ@P?Yy^1XUz
zGaw)HBBcmI&ry+qw1fh3^8Cz&S<N2rJp%S(Lvuf8C{k-sa`?uJYa`tR?jI!TG}+MX
zvBgKu^X1Wvl8Qx{VrI9V@2i&{@LLo<4*h#xKmhJ=M6{2jiWTy8TRGAeC@yq={xzNy
z`8jd1U-qjN<&5-o0phcqSJ}+p`8N+x#~!GmX9XjTXzpxiee}stv1p@1NwtmYe~vaF
z5nlZO-$OPFIq{@^V_I`N8Wepo67K6UmNjn)k)gmB*xqD=(W|4+!mo2ujJXZ=*Oa?3
z@cDGE(X7_wAsI;}I51)VL7ogCa(jGcX0SCztE%m4!wcT8Va)^=1+zUG^SlUZ!PdtE
zd_~7x6$eKy)dn$idfW(AGWp6k2e=s?XSIoY+zo3msAA)Xf0FSg2x5QVFU(1O3%L68
zaVY1T<6|kzjB6u<g*db-;_9aFJYmmcYB17(wmemG$Qv1Z^S;yjj*d@XRa0!J>15%M
zNQJzEp;)5Rp|BXmpc;ike=Jj<r<^=;)d)jFPmL$vUrp^V$G|4&E3Twnk^n#RJFrkT
zzEi$Uglc-^R`lJxPJ!yAe7eW^TzfcWHs%uTHem-~AQwYf(hO>}nqSnWMb^Vpv<m56
zT!b%&p-rYn=|{Prpi(a^O!zWjkN@&;@3OJ@Dyil4P55qc;X^mk0TKyRCd$vVUYgKp
z^1C!WJ~>G{t?R+_K)tzABZXquqi|ZOOCO3s8y63&Hx8O^y}7FoBLQq60DcH|p45D^
zc4nqV7kkCN)9&&))m>|M>%$qe*jUnY`}LqpD9YRDbypzD!spzhibf(x-qRD}IfTkL
zQPdM;eLVjYaGx~3Rz$idK-G73E5>$rcQ-D2aJZ4_t9txnwCE!Ji#*qeR;TnIjA+fA
zYiVVq9jlw(c9*oD(*c?&Bi`sE`&|!WKvUoGiMIWt>uPkQ=0Ewz-;Di+4=T$@h{waN
z;R^*Go-yrklPJr)%y*^Xi(`k&KbnzO5iqzhP`Ziic9HbSvB`nxyz45iBXSq~zpFoZ
z9}IQITKkD4V1S2eDaJmyfYjQK_-nehl46gOff`1Q<R*a!m(SlL4TCms2D}Rmc~$k0
z<3U)(Aa|-s@!nNP<>*Lf>2Cl2Fcg<5-BK)yi_lXck~=rn)D66s!-#`p%d=N^%i#}L
z9^(1ML>223!&wyhVXb+RSlPYDSnQgQiw1GkIpTk`-&X8}$evD{J;wN<GRG{dY_aYY
zr*ShNkvyybrvl*1^K*Ge8LaAYbop1%cD)AAH*!?%p#&)ElIHru;xN;blasRQP6LF$
z1b3$8v~OzB)HqN=G>8kj{Gf0`=&8=Cf{Jfnb7F33DfnO*Cf;IHC$1nJi_43OMoy^0
zgPJ;8W%Xe&`&LaQ-|?alt}r`*t5Lj%;rdcc)iPIT2bKqYSuQY8DiE%QL)z$DmH<0|
zRTz<LbQ_U5fjwOstz>X}|7n1QxNfa|+RcGNhLofMY0+WB>)>SeMC9+&Uw+cu2?y%1
z9SEp0IxgofH>G4DW<;|Esdwx>4K5qLZ{l88{SvVIa3AhiPZPK|xwFB#uD$!V0s%K=
z8K_x^3-NJr9IRNL7?3T<966v%HsGvLZqZpPB!uK-Af$ipr7uWqTVv8@G>JshK!@cN
z@W^7kn)I-Om^l$I!Fl<S!n=M2Pxe~GY}RYs`@B?Ng(FaY_4Oz{IP{es7fC{(r9nDi
zm*X-{NL|p!8AQu@!*o|zOeX$MLJvXtU}(ou8?S9o0qDNv0SNF}deYRfc$O0_JNwM5
z#iR{P61+$YL8rnyJd1A=YeM&Ao=;uw&T47K#w4!51_p_Z;-Xn2TTYvi{w<J8m$}VV
z`nXhs%zO5q)@#LH0lnY7{@O15sl@a62(|b>b(;g+wBKvuk{ic<_Y^2>IQ{@v#F!p0
znD0QEt1^vZA{(94d~iG!|K8`b8)iS9(^P>p@{%VfyDmHB;(t}kl!)UOtknn{^3Ug?
z$L0?P%flR4HKS?}Z1j57P2swOa_m6rFNR0AYgt`da)ee_r8wGc&}<$X(?nYvDQTQ!
zDg|nSLPGnHfk+}V)CNZy@!W|xq$vjVu9v~Ei7mfA%^zJ|jXEmwE-r<NmP<p|(+JwQ
za&l5lAI_u4F(+0!GUYYLw^lHRbTtxaXlN(Kn2{UvyCft{zFUsR@Z$JrLq&w(ZjqpS
zz@kA3Sd|HoJGaU&PObO=t6kXCR09n#L>2%1N%(b4&1S7>A8;RS4M;QmII->zfx5@d
zmiN)gL_tpmWW*_utj}$%RBD>Ewzj$tva|k)We0p^B$Oc~cdf#1+h$Mx`G++#2bNp{
ztd9uRhA;1QK-A`9qGrpXGpVHX+<8>UL~ypROAis-qMO9$8LRnuR|QArrH(H^T>MEL
ztr7hl<BO-8tT6^AEx{j>Af6YheNu;_&mkX<hfO#-b2(dR;j=6#+;s>iso~_>G+&+t
zMRC%l^A*tho1H<I$j}Y7+0@_eSx%B8!}_i-{3a2=%d?>uUY=V%D~dwkZp^Fmy>Tu7
zl~3iT!wMm2FZZOMxHk<9n!ICgI=(b&v>AtFLP7ny|1e($<^&C#BHyK4F^zDsWetQ=
zfW47z%&q0`hrZ08=zN<?9zm^whh&5_0z;zGyyNlNvULB}tA(9t-PD)`^GsxynDLad
z3X|0onnBRDqNQ#x*(8qX`;We+Y0BrUqdTsCJFO~DYtK!h=O!L576;9m>R7D>JvGA@
zRl-cYdciiU4;G1=1_)?75pw(n65HeJ@XK7uY9vKZQz|8;v9A9I&58@E+g%n2l(=*Y
z{g1q0$`7qdS~g48{aTR3yppkOmB0pgra!aZ(Ck<doQ;LBJHoGLE(j%^6*lc;O7*bi
zXJ)9&y2KEL0XwIU#-0-Iv|jc@UE=qHev76dC7??t)S(O62VF0Dx8HbQ92x-s&qOu+
z7CpRKr-4Ej=zi884g^fXl_LT4__^x<qyrxs5zfd+sgx?gl3O)ByYK?RB^IWv`V_KP
z2s|eqQF^{>w?TO&LdF_8Vr|grozXtAdUiJ+V`dB*>0ozi%Jntk|KjQ$!!zr)rQzgG
zI(EmlZQDu5b~;HX>Dab9wr$(CJGO1x$#*|{f9Je=pKJYC|HqnZ&M~TLRwb$xID{4r
zX}KM)Si#I&uD3`5^?KxmwgnEaj?F462{KS+saCKUAjX25MdH4WVs*fK!TTY&$j20n
zcE{VGjor>5DEjFf`egFFH!ZaKK<1X;B{vFYBbkGheZ+A6>(#=hhb@bk{4Zz0(eZpv
z2_Yp(Y+!_-7b7}O(r%qN*Qaauy~sxVosJk;2HX9uyYOU^gvkxSm*5yN{@vHl9m=cJ
z2xh;K`fL!&`(#q(qXWY`OPZx{3W{Cn)twkOsb50kAeblZ;D&<R_&G$R&SV1J?YbQD
zI=57doLoc+vp^ZDjK?2i`+&cs+xrU=QCiijvcj)({__*m?e)Y|we3c=+Px7dy%JC}
zm4L;dk1J=liDmG4k%{r8QG0Wm;=gO~{PKG{ptJF!5zLfMB&28&`Bd}|XT|d)eQtBI
zIMCjDEy}pKN`C78YA)=^12+flSo6;zA=hrwsXVPc4_`Qr*Z<6B7*F?pNp93<Wn%|3
z=J)Gz5k_aw^7qz)7G#eb&{gtmwV#}Z@3mO24p714E#BtJLnNjL+Bra|TKijoJ);fX
zny|`J@km<{M?d<|n2CEcMJW}OevUstG0}bIfjE{rkF&uaMUDd+jOyuP410OL7yG;n
z0~u4dDbTgyBQFshuz#*K{QH^o15@jxO%Bv$$8m0QR}CG^OJzUDJoirlVkZUx0cb4~
zS<V>|N{4_^N}Rws82U;lzsT>_$CONpe<Bt63()c^j))=i%ba3ucFSCFQ%G=A%tetW
z=a`^tDK=R5qzlV2M+dktDQCo0m8I7r`%))HMi}|=8!SXxCa*3og6`K-xN|w-J&ZE$
zj)Pd?1WOtVRnZ%o$E`V$G`hV5EZ06eq$M66A4|e$jz)KPg-gq5V}GQxmkwLFlam>U
z8`v(Ks>1Z#^aIHHVHj=D&@f6~sWXx07lir{%ri{$Vkyrze}Mc6lVmy+kd8-ID5)$}
zGYAFw$%!)8QD8NbCl+(41!8aoMG7{&jhib;cJZ4qNL^PMW?HD0+KU+3TU6-d#SZ}D
zxls4>M>$aFc_4c9r$Vz^V=^mpRP#EwtV`pR@IzH!ojgeFSr7%n08)yf(IX^H5>cb5
z_wk#<!|taRg)f)I4Hsn&pP+O$+BO~vEToAeDFoVrh<*P!`e>uJ+L$~6FZ8Coq^=lK
z!9_4pswya(va>>m2uMcf>!!zzM`NH7G8QIw(ovR&S{3MWo7<c!%zTAzyV{oWK1J_R
zC5H|q1u}?3Pk*{~o79$2gWq#(w5RCX`<eceJLgT$FeUGByZ(#xH*d+c3*cP)Ev7Ah
z?0&!%b&m}3@uF(5v*}bKck3l{D>&?eF&I9x8*{DFWy1->><<`jm*UlMv@)`*Sm9m_
z4HqhCfo@Zc;3F<~q^VvcldmZZDMMB?qU$m2*L4u+%OH>FSokdwU204}9-93d8``$z
zbjicp>y)D>>mC*!fuGTB9q5H+K8qi`vlfu&JS2f+e!KOw49H*kUmg4QpslZdN~`Mx
z^fFOqj;=E_kLOD;sUJbj-fr>(Q_bZ`QmET<hb^Aeb(F-n%bJS)R%uYfz5dr$LsHw~
zHOZ~IyTM%uYxwcv{l3I8KiLIQ8mD2Rq1r@j{XiQ|M$kLOJTbmvZ0#7_Ep%YSt>^xG
zz46UYUuRvAbMb=KR<Yk8DRy#s7hT_ASLc(krb>$>x2p)c#U;1U(9ppYMw8K(+bpcj
z<N75KM8baKMXVEmX|R?l*)J@x#RP`+K59rV(2C?LLW6qdpOT#6hOiQ-TAmRqsv?AP
zmWiVjl$Fp9lS0t%?tuvjPntN^-JRD@QD<WSXwR>%fC{wCoK`7z%k`W|T5@uOJ-C<h
zvT_w>8zJrVGCu^5d!$V)NWObp?BRgzVg!HSe}m_zWld+jwqd8#r?9kMXIN_qiKMBg
zM`RV5sHCq*8BhZ)5n$L;n&Ta|%IHLKkF|!doo>sp4K_(_GK?U>B!JC0C+M`~n~*qM
z*hEG|A@K^bn;@mCS1Ahl4c|n9j1xMvca;AG?=0rFh^f@9Dz*b43GIL6`GpD?IH<1<
zbO>d{mMRrf4I;gUaAb!2OcMOY0>icf!jGiL9W7{yilU<k^7|Z7rF{Yn1QSHwJcKdK
z1trs8p$sJnZsEHnQ_q$euJaRNqgbeITJH8+5G!hel7AdQQyAJc4j%qD_`)Lk2&yvT
z_#t7!;-H!}4km9Cnbid~)De%ZHnpz19z);r50G>6ZG~^TECjQ*ZhQ8>wn%PEtpb$5
zOQoeVH$BIHwOY&ISZ<1`0A|m4S@0=$q-lG0LEV_B6M!t-|9xzsxfuERqu`~b;sDmD
zEu|yhmRIh7T8c7*6&^=;@sfxY3*xX-MVK03t7?ZEK2an~)8EZBeOFaEMkQt$06k@@
zv2L$va!Xk&SWTIaO;dF%i9coiSnlci+S^Kc>U`4EjHF!vCt#N5zNR1KadAGdCB$o}
zcg{xDR=Otl&+Y6qmE`{#y&9JgaLrC2CnuZ$*p$2|yp7W+<@n7?{mwoouBUT&KWf7p
zW;Q3b{RwsyI-eMsIbnC2F`#58IS5*vN-j&6oCj(G`mP|H>IZQ>J|=AfQq~p_0CpOY
z*U%seiVG08gb-4+LcmYS>~w9o`>B%)VGP(#3>ihl_M;38G1VQc0}PpfF9Kzm*ECRZ
zupmjjhuzXNgIomlDMzt^^JS(w`gm?!1=*uM5MM0UQ?-u7$RI6g_$Br*tBMq42fNg(
z&{SumfKgb;{pm*`xBIv2CU*dei^5x^*zkh2t{$LA4_|OB&AavT5~B5H@<2%`6j6e4
zWZ0dud!h(TSY~5#i9^<yo6cKnlzYvC(lA*s64cPjIO_^;sQqO)xitQY$$_EV&axA}
z-p2x8AeHOc!Yu2`XJ#4~#m;w$NYOMyvL^9d?%ZdeqIH;mEWgoXL;`hyWrAdRoV(L~
z)Ixd_WyEy*xOZBaUwNYwBuAea{=NI0^rB(mGWvh#<A2Y|Jsk%iz1;rxtsp!_M@cm-
z?B^AMnc2`f;N>3_zRoK>{62afS@1RW=Dd^6{g(_5^hX%&pANZ$2Tr)IRGfmAf;UiC
zzdGb#myy8$!l*)scYCdu2_N6)U?wtQWr)|<3a#qNSv;in3Yk69O5J~_35XXq@Wuq+
zF__bVDGcY=2B{So0E8F@lYO;nIuZj10!x~iAVH8}2-A4~CRUpvXXAsyO{B#`gNytz
zf3By}JKRglcCKy;w<Y}MP5qb4kE5$Nsj4z~f0vre+YD7H+7JsT=+uU5o(NR#5VV1&
zvN~>}nY|xb0`u`3Xpi9U$ehU8D1lUm4uX{Qv5a#%IS{iSfMid`S6g}jP1QB^j<A>?
z*Eqyly_fDR>B?oEdO}J+$&KJIZRaM5M@Y!ki6m|M?EhOru_F);p*euFp1WG2hP1H3
zT^xMPUf+_xp9<fO)8Vg^JPzw54nnKNL;R^xL?43;Ab63?21)7cpGoiM48T<plP#mu
zVnR0o5#kZ178N)gZjqei!5lu4zj;Z@=*sv(7MT&yr#Q4vCSZRZhJXnLv(oX3`P_0(
z`bH4{s~~I^_Se*uMpEv4a^=z{!#D5cgmovK6x7Y(H>zXFQI>%kA7L{_5YU^)hr-#8
zI@H-vm7}0j3!+jo#2J^^;u2cKO?ML7K-Z$wMKh<CF+ABW74BSF99rGS*IC?A$imsq
z<T?S6zcQ)vOddn`8eK<DbiVmu7qf1ARsYjk{m+{o8Ircd*&D_A1gQN;H#jYtAU9gq
zoHNys(ss)I+va*PDrGDqZOvRy?jF1D{$g__V2W;?LMH&VYIl>he(vD}gl~Ed#z4!N
zC8wjZ7-7v||0+w#FI|w>_WF__BYBt;AI<AW>HlO$cg#lITbY$s<tNci=2u=}H(R3z
zG=D@p{PH~;{4QAC@NNQ8)|TcSf=H=gqe_V7-Yz!CD=!JY{VNa3fwhMl5Qz*(hhpR?
zZrU~Dpw}=s|3+Sja`D6SDLu@?<fxg7J5erD-GK2)VOpu{cl^Dponuw5P<5wAj5x{>
z*w6~cGi=|=xBQpMS>B?Cr(_e5ML8=Ct*RGy!?&;2+3G#9Bd~sb#79|=;k!<GCu?tG
z$DEB;`{e@{APf7SPYWe(id<im`MU{_+WjRo?ymQfB{csY?+LD9c))Yr3<)l$v&}r9
z`DHX|n7*#Q@CVM(g&%DTNL|DaTpuFQRe0nRGS?#@i<~$BN~4{Ih@${52?HA;ig%Gw
z$UcTE`)r3~em#lBClLU8p)@dIsFWx<enuLOoE~up45jbHql%icEdp7cU&O2k+x|X|
z0}VX1B=QuO#o>FP2McPYg7YN5$%#?%bktu*F$w1E;GB&rwWB0Tc16E)y=Rze-bH^q
zb|zCdfG1zjSEqiO*Z7{_lg_Pnd;6PAa?W&ux6}h=gwEF?4D$k=IJAiLcxCYy69UKf
zKpqtS;t5mAb|x%7WDnyfg$!~-^mfLTR}_QpT+SD&P@<NfV*JF1(|;A~pTe~?;7Z2(
z-%0NHC*~}?EY}#JX`xfgICA#3S#EQ|SAxOUC^{Vd8RX&M1V?XWvIkNo(tExen-0n{
z!yxFCw|9PTy6Mq3)SY7^$(+wei7V@?+`|T3TM4Y`dC9!dUtG^q3~Yw?o@a<h8}MfN
zh<WxI9&-TtJ73K2E-=%f5J6)gWr6+IFxbVXO-mS|`a8V7kT^2a@ib#*tM{mdAngt9
zUHcf|Sf+17se#3-u9z=7tx0~)56`$zb#q-=TofQ;J((9rZ!YfqHTW2R+Xii1mZVl&
z^>+TxDa}a1)$@a{w@nAdIU#4<q(2J2?zB*a!4Sy#jygn6e1xRaT{0bm+O@$`UtrqB
zON{zsd~dm!*WMihJyyLrf@Chv-x*wAN(AaQEpTg2Yrz{i5f$7=2|995#0vFa?phs&
z{Ty}#PwV9#mCnuC5&2>ubL#jwrx_w6;h&*I)18jXM|xZ!JNt(~{1u6#6;i$d8ap7F
zQP%SYILPMnm?SUIuxyT3j~>1mA8$9Vj)4jO64Gy@H_?6UG#I~@WaT8lH_;rL78#qn
zQ`$&vzLx2kd9(GWS75ol)jE67n!1~Q4upe)8_5&97@8!au5YN}WAaV=mXn;dBNHy8
z;{JEBzrpv(FwBm=z##`o3oM~&&gt9psbIU~XA8~$-pu>=1!h049#CtTqU4(Nm0(@j
z&Vg6UWw(pnpD9l1bkWtdSY?XrnGGe>bdSvOc9#B*EQydroq$B*ZS)YgNLIh<E^|5P
z=@o+UyLE!|!(oCWphHX*Dgroam$(He^#Ic*Blw)Z-f0huLEtZAgaI;?A#_xsP%1E*
z$|P8aSa8K(ig<-lhem|S`lno>26GL)OH|C+y|SKi+-x&$YwLfmzOfwP{2>KdvsTgG
zUzc~XN)!}Xlq#`gK^10esP2}RbIekhYAcp=-pN#e;up%qL0Jd7)5ADMMnsIba?-Lj
zvcdGhMMp^KdhyNDm>Ad!3emw%*XRM}bEi`d5y7s1|F(?tBie@zD%g9r1NuAD)Jr{;
zDl;?l5(9nm=YjsV8L>%+zp!wzXAxB<IExz=t2Ww6{ojCQ6;d8=!Uc$90|S97>gqCN
zyRVQCg=KYG!4e^bn5QY3nZr&UY^?0k@>5uej*Sfn_lU<lS7{bal$kr%fw<g`m`!hh
z+4))GAdr)1cV63TUw|_i8Cl&|52$9nb0sS~>&WzUO+-|rw3k(-=b6V={L;Dy!?~*P
zs+U|OEUPa&9D}{2KEp9oKi&$)1SAa4X3OXE*Lf$jua1Nhy{CJoSE6`(#b6TcXk5n?
zdlM5TqYM-#Bd-Xf3<{xJ2dObp3=$#qi$0W$p71sqVmzcDI8F_L0o)J-4$gQIhi2WQ
zSF-rH*<)7W+gF#e?nbjmo9Wik{ND@h=Eqm-4Q<sezTz>-cBU?@qz)njC`>@G@4sI?
z(@5KdiAr{Zr01Nyx%#=fKU2Sta=&^&^R(Th=~ucP0>fO!GgQDnV6iUaB&oRNRwoVY
z7nfb7<ubX+U>UhITg-?GwtqWT;wJ^vp$4$It#2FTYjTPh3=vLm&7tnwb1oe8eMRlv
z#ap#Oh(yv^f?k?gveeCo6Em(p2|}aQ$)7Y0T6`ggREBp*!-4CHi502@c&>GMwf_Ym
zJH0>KrG|VO9#!ea2=d6kr5V|3w>hSsZ?vmd^KgIHII0wtYRDgslGfJ7fod_T`!(@<
zrPCt1NK;Rd9H>!<pKNkY^_sI>skKV4&}!6r>%e6H#bvk4`C7mtT@bgu)^5u1r>}*#
z(J&w`$mHNa8uK6D9VQFNoo2I{pDP`1^^T6tlDfK?aY2oZPWIQ^Lao<*%v?2JzCip-
zMbGs{Of%HA-T4wc*F_wfOS&OD<Tb{zTyTX_Rqob`XH3jK2F1(x42b`brt7&&xwm-~
zl(k8(uJRP%oPB13Kpdr|HFPj^zt?rVs#edoDG*nKeVW7!u*8S^#yYpUE+_u?hawd+
zFo5PM*)Yh_&#38tbpexHRve2$0r5srt2k9WM;Q6mz_s!^Dk2a|F3bJ9%);2glBEFR
zaKxtL<wwf2L1hOKlJnp#vx`U%(g^W1!Nt%7B{O;d1iXhuimXz9<8`LVFJQdSghx+9
z3A6Mh0!2(;O;4o7Mi3=(lC=+<I?QclUY@X2TQG#=l#qR7S+-?9vSdtQ3J6LbtLC>q
ztdB%w3VsK<vrdu~sDTTXlDVp?3&#lc=jqfm<q3?IAqjd$M)?g5O}~A_02SX0aF&e7
zZq%Y!^JA=eT(5nHb|6bnPk$%Y?75fFk}N3GP}8t^Q;_bZ#ggA;@wnhG?#q;ju8+o3
zB&wX9o+{185R{CK(-eHCt^w{C&)Y$-BnW3CtdhI2q!BwMrKJn$Q_(-Yy?CTiP?G6O
zkftC*r9!)bvK1oS`B14%BHB=y#bUgHf>>v-Y=TW56qgQla`Pn&0tY5=I8b1H82|lB
z0RiWfyl{c%k?u0An<g+EmXcBEn^X@lpNmET%|Nvy<ekQL#AS3q5g84bj0%+Ij=2v1
z>B1*1Wa)XR*}4;qBZ%@-0p5Qq0{9^#5C9)D2BgXzJ1nQ4HP?K6ui?ieD=SEp{=V#$
ztPB{!*|`^?rrs$#p%SYxw!|-@p>>Hg>b~n`L7mvMW=F;=afPpb!__!T2)h+cRrseR
zjWLb^1$ZO$LsmV*1dmcqF|PUZo46$f<l9@J@bu`yzpW4?>(C_|CW2VCG52v*wN_jd
zogPsCupJKap8zC>PVC_+^?&?mlm;F8siP`Sc+)JJmY#lq8|8GiC?z99^QXg^?5PEg
zM)j9`mZj*b6Sht7dr*{dMaA@OZCheZHouqFn_SsS+`KVf5}kI@L)6a?RcVkq+JEe0
zLPZXRgrh$SQ9KFhOSxs4t8u-qXA5P71j$*Wm<!Bx-ZD_X_^akN{fy8zEy~<+%sDP>
znpLO&r|!V=`<42EK)w&UgyOAWJLA6F$EgN0d<L-bZAg{SHww>M6Oa?r)aXrn{^RgZ
zE8xR5(h<n}wq9?4N5@gh+HWw2E8B8zkO}7O0!N+|!~|Xh21r<jb|68Qee5J6NM<r1
zc9r5lagGVyP5eaD`lA0nMH?(A09C?G427~aKY|ui%L>>UHa>IhtIkS=gQmom9@Mo3
zCEc6-g|L_do3;|e4U2s!=*L$i6Uw^KILJ_)Ovj^N*iKUpbVkHoZ8-I2VK_{W<Cb(U
z7uwUWG4RvUB$uwgfu<Dop2+S7`J|^MnfK!@$lb@?QyU&<p0z&@SgJ@Z{Cp9p|Halr
zRo<cpD%Ful!|)gUj%PbAf#>V}uCc?BWJXdM@xd_7WIXA_?ctQo9shWEM?j(E<Y>yH
zx9yI^=<x^V$Ei6R^M5a5VJHQZDx^~J-7xP#vhx->yu}ikD-@gxX2{NnaaPXMoXp?>
z5DMB4tl$F#&jbz5kZ=7*6PYyXdTy=K;<(FOB$Y851}F*Km{w?-^32q+srVgF>S{m}
z&>~oX%31hNqOVz{7#CN$yT~f&R6ALL{%sm1QugD`FQd#*b99j$L;&HK3Jy9x=@nu0
z#p(iOGZh&Wi#a!})bUsu%sHt{UQ8gigDF+U=zx%5qsNmVCIP#{<bJH(s0O8Z)d^&u
z!h&-PVhjb77X+=*XVui^)Z_<APc39Hy+Xb-jyab3l7QZ!#ebY=zC?_2P_`TCp8dUN
zl8ZHS&xD=t+sWUdQQR_6V~+#m6upyD&s?QYsYO-oiJXu2qC9{GM?u)imFFw%>IiuJ
zq}4tj7cpwK#zI=h#NV3*!Y{){LY18P7b!SH1>-PSNv}Jg<rX{AGvWPC0(~h~OW8*n
zd+K<++O*uG{2a6Rg<l1Cux41K+|qaDiXR!PoQNEf*k8kj$VR_!9d>LTXU&z8Fl<z!
zd+DL@5L&DaOORMEGP09vFRkB8)HZ?gI^5Nie<E!Ua|_`A{1PbKGLz@KBW}{P9-DtE
z8($K+YS(k>;oxu91O|AK9x({WSG73Op@&9TXbk1<<i%PnRrFxY>DZ}eFHhlnp#;?Z
zZoRE@Ivw!zT*rpnT&&<G;2AKm*gsTzSx}xDy=d+v?spYv-ErfxnejZ&V%Eo&&rE#t
zd3SL8YTrtGQ5tYWr^}!Sx0|-yYLw^6PsE^II0FWBjX5xMRfG%c`COPVHyf(Stzebp
zb;w$~4K8SrCq?S#Cedk<(oE{-Y0Fs%pAfv-Y;<W`cU;0a<wm{dM_WxZ&l&FBrSEi0
zoH?9LEbYR&gr2W=>PI`GXk|ZGFeDK0-OD)b65hU>gbyaaSSr`Q@2bm-1Qm$Tw;M<5
zG@Jqm7AF6vfBC14frAB&`%R+TF9$6U@#a5(0o(6%{3<zYvdpTkBaL9|cV1rACXMg?
zY}g9K*;NKjzdk?gCxDS<Vi=X;g7PJ3=^(8Qw?0^D1pyTJ{<or}hm<=Q(F0_m_VyVP
zx3M8uA_i?FIk3n16NuJbSJ?v0G@Q?HXAZm@igmA%=m2k{@9YF#1o=A;{;c7F#IMe#
zumQ=|^tpy^On`nmWmne#j*j}W?^{nTfi2mOV9(SAhI75G2%9D89o~pM)~Hj&``OLA
zLVr#7p{_}cuE91E$S=I#=Y|u^h=s)adof*L-`W}8Z9e>^`z{P)Yy`drs}C4H_eJdA
z_o;x<R1yd9)vcP3zSF?83xT95@7wNi{}%`Q7^^`9@~y6?;WC&VDIS8S#^z1J^d`$>
zoA+VFeV45-gx2$2w%d=dr<ynu(i+J>A7|ZL6xna{1ZHW7AMbW<_WiK-WPkc)799*I
z`s}m0Jmk8rTLqMvZ&r?)kJZK^zSdzG#??PBcy8O)tP`Bi7lD~d-kSV(N8JpjX_MwF
zsRBP_#ng4RND+^Gm){2Ww))lgTNV>dZKCjO!0nzTgBvV{7st0gdPSsH`2e?<pwFEr
zkLuKRPy1g_XmoF|3|8?N>{ejrt!nW*zRCKXmmb@u*wwH+rCwhlh~w>BH{`9L1G^Ob
zcVw-nw@%DH)&cL;)!s7v?|v>YQv59cwLBm}<DB?9V`BP$E(Jv><Ir`SfDZ@i^+lca
zy6%PYJcz6Y&6|5^WYt0wLQEQJ*4TEfJ1yz9Aw5yi4tX8%Tn=c7JVW6Q_i!__)=d`c
zQ>xjP?L(f&VlF=R?TlaUt*s!XOhOfOoazZA{+)$vFsXhG{izo$s0cn1Zc^IN*9&pW
zfNNn^^==>%%99j)Hkq253RN@pG!7<fJ{#41^=d({TsN{cmaMl)RV>Fbn*4b=<@mO@
z<h%cRoc&n|3<AUmD34K5O&GW7_)Nt1{OTpCvpU-3FW3k+WgjghTyDBp4#@1qt~~}O
zFrY@hEpD~^xajtN6>B}x7EqAtD6j6&AlsB|<9q8vPmD0ajne_<sd$Y$-HubR|B~b(
z7ZkqCvhmXAzyIW6<NI>B`VdHLzx0e>x8GAe6&>yEmxwkRKd8%i_j1kRgZL+bZ(m;E
z!ENRGoV@kql_o$aY?W%E`S*c+>qC)+iv86=WqZSVM9r-~+3wl6#bU_eL-R%;o8edk
zGGDiOd7MMV)R|B)``@Z~Ckyq{ReJ1Y@BeJMFo^+Kjx=)1T&4BG1?lRQBuq!ZNhB70
zuNN`)o+imzPLW8pXGR{=Xaq{d<cJ|9{99-32<M?P|Bo!Uh{l_Mr`pNkSq^Y=Fu;c*
znvPJNI-1eVxmziBV$B)DqH#%LqG26L54tF{Jbvf?gu%1(lF?tiyI$urd!tW!^{nBQ
z6xIz+uuUIlTzy%$*~{K+K8TYBI;}axt|zNHn=ivw5b9cMWHHGC!yN;?D;`^oB$3Sc
z{n={okBSUS-hj$T`G6X&MM$zTx44S3(yD~vtaVD4u7^i{L;7~t#`h~5PxV#8M(4Q)
z^^xSSgY;YNEBE^M*At9=w3eb30H6Y9jimeJQG4I#{p3gmCi-_9E5UOm&;Huh2eOK?
z?#cqPK*F&$9_5@>b%$Q3Ua<QaR!NRhUgWQbprdi!E7$zh55#6IJ)fDNI@7IOp?K$N
zkB7(@*?0AqX#!8Jg&?Vp7lw9utMvkNCa<zDJ(q{VG_(bemxDLxl5gDyk=047Y1FMZ
ztK$dJU%OW(L<Q*8prLMW7S^|eb@l%_j0A}HNcEyoECd5X3Txp*1qqU|p*t4ES|Amf
z<;MzZ4hSyVd|kLFghZ#{cMpxRI3_26h<_HruXV31EXaCH01Ff-8Y|2^$C2hBi>S{R
z<;`E%TW8OtAwLnsgufLm(4b8s_ketzgY|p+SAd?Y&G3Gt{bs+^BnG8`wcO|(-|%sp
zhGxo!XhL!KZ;0{J@xzUGr>$q)@_)XW|ACAOTjIhV#z<P4G*^hzp??t;kB1!|cbcAx
zJ1}S`#@7QM#iiNbcx)ps)p#@3hyo}n$X;N(Nz-11iF0-=-g&k0*5!zE<Z-@?-}1g%
zTew<N=(ghZQv3W^d$Q;vZSMfrb<-?;e?sik{@n4|0L!x~Wc_QeO*q$C*obFwVUEHj
zu(15&kc7Z9xee{LP8M;|Yo@O&mTTlbm}3*C4E^g);5{hLK_&6ye(R&&^Fqd_aMMD)
zI;Oevh3$7Wgx|>o@TW7uAiXbvc`MVdQayU=KB~NJ+VYIFT<y^PJbOcwGBpJ(RX-@6
zTmDDi)8h+eo57B4vFrxjZV)W>cb^M_*f5!BAS^mQKyjhU4r$Y8{cphx#r`&KA7<LO
zdc@V#KC=UsmRSu-5d(Xom^WTu%27F!8c6{H(WK-{!hOShpD@^{1Mv)<#JX8oFYx6q
zfR!C9wdm*!Zv0%ZkjRnFQDBB|IBm27=batBrH_(d8~YY#axo+2q-vr6+*2Aj?b7lH
zQ>)1VW&i;;m-Q%O>US$@ofyXU*RTiom<H{}pRKsOjw($e7m2|rze5lR)X^05l=&Vv
z6a+f&qSk`ae_UHwPxF4BMJk0ds$hKd*mVBrbT-KUlf$*No>x{`u12ez7ZXs1Q{4_!
z!aaP&-JvrmjMjrMHs$}m(6#Z&m+p*B*;{oN>VM|gvPEOhTu!so^V+f3HHr#QE4sOn
z_fZ@l1yQv8?0I-{onKlo-kt8dR#7E0cOK<#cFsbqah>5!oaJ$UFW`1V)6?_Bqi!Rm
zq>4O-=B|R3R94l@8jVhIy^CsIrziN>Xm`}@*`vS~vd@a?eq9%k!nK&Rtq%{ck%A;c
zn)rWs3$Qyy1?Lou#8{bNqajnDrI14So#}(fUxL2khi?9cXPgQ$Y(qk}`HDJ#3)~nD
zRFJms7YJUU4`r<!=x;?<8~^nm#-sW1*0C$dlAY(Q94Eh|+{QV-DCMogKVG_Yi+%27
zcg2=IzHK>#TvD&OzDAU>Oz)u)CSQKdklfzs^OFI+cX3cOu0-CQ2v^J~v7Rv3tGW-B
z$htPaV&zY*^~!4z)<bGm{5e!YKTb&G%NnpY*o&5$?&8eGlj!5N-j?-c=30Ldh)n@^
zHm6%+cCYJTlLK+=?vFR0QaREa$@7a<55jl>zLK`_NLsTNyKg`GE4U5c4@PLrC`}~U
z7Q3I%1<KkOKR&OYHp_*qd(wRMLDY0)s=><oRgw?fomiv4Ub%GRqaQ7*+BEom8y0dL
zG9aniEpj2=D!*QH-)FA2DslWh_Ynp1^{Y#Z-j00kdFU%Xu>Tj+0@hd(Jgkys7%?oN
zho->1r<V@0$=fzP8x5N8mFa>|ks}qFCn@saaOZ+o{*d`-&w44i=MPd3cbu!i900{I
zgG7U6jma@V=^<F{a!@KPx*L>%VBp^^rz|u0dV7UNF6S?)pMRD0F2Re1`8GP|9yi4O
zE1HVhFwx^zGvj_EOCq3SXCO3hCk$Bxzgp^A(UaqXWDUBzsdPVBfFe*JUS`NNYE;>o
z4*loMn@c!7GZVYQNsKuqvy6uQ-Ay>k5T<m%ep{w*s(ip55V4Q9r(n|5(NS%z$M`kV
z6w*Rs1!Js3N@Yr{_;M^DK-m2hyOp3iQldr$NdbCH2B`^&{|nA9HBeAKEi9j0l@&W+
zTPRetrJP(aM_fl87}gi+a2r|uuJU<AaT&ub)dN;5ta$Q6toD=rj}7lu)^WPjvZn5v
z1mW{df2I793cu5YlBfyK9&ZLuNIN3m=N|MU<xre5Zw6M?Y+m%$c&g9EhT9~C%WZXl
z;c#D;c9Y8Q8ZYE=E*;O?Q@^8@>Rvu&N}yjI<PG#{tbf_~;}7$5U4^Ec-?W=np4DQ6
z$NO9I_s&-ES4~xcjxJBqK@{hVda1yr{o%)}3eB@v3TPjUYT6m6$gVNMw<LTyZR#IQ
zPq%!IWDownwfmpH7?P;(02*|;a3CIqp7dC6H=`kBqUN(3Fq-6bR7>0+UcZi_uoooD
zWMUqfGldEK7YZN?8_F-2#0@2y%Z)o4wD_3U9-jP!s>Y4nAsIGY_kb{F%bJ&B|1Bh=
z=Op}{GpG-4!m5VqFl3x0FF5IhQ3P@v3CN1!_8nZ2&*@+1zEZ*U)=g(c|CshE!HW3#
zjN3P9$6$!mpH(wHF`CHL@)vULpn?3t9<+w$|DjF)LOuL_<5_8Bm*J)Rq5|<$ewsh~
z#o0YOt$p{}(A`jCpHy-V7{YgmX8Z&5fgQ~j3EWp$;Qb^GJ}(Ng00`!cBha>2&^C_N
zxGj&D&g|gg@Syi(u588d1$it=E|Z~NKZq_%1cYPSV-Yuv`<Z`iOf1$%1;`HwM<D}<
zBACpSFl}7>qY+rCB$w;GuH&v6aKT(2Uo=of`i=YBZN*m)a!fG(v$4hme2?_i?yq7r
z91evE<-q?&cFw3#ludE2fq~-8OHA0~xejAlmpDM^&Ww$4Udr81;&T@<s-Z^{PsF$i
zbzgLFJR-qq-}gh$iI0cBiA#t5PsHD-x_n&}nJFMdnUjDO%Ed-#&_i$W_P52P|Cc2k
zKZLNpG!n77&m;vB%S&{bNloGnX5{Zf5=qPJ1ESE=(dOP?BkVmMve4XVD!zZ<cP#v0
zDRQmhpKNUv<$}d@9^^yjYGL9G<8~am#aF2+9*zFv`~>bASV)+)fx7PS?FPD(wL^Z4
zOPd#iQI>_vhDrMy)1<imR8gH9@&iNs6yv=}DV|WG9W5w_t5QhB89nIi)^X<p=@0@;
z3>itS*nlA998nyyg6YWTq|!J=QkMn-B2%zZp3mA^d%i*3?}QKA;f$dA^s|3dl)=j4
z>%8)DCBxatJZv9-C)LhUp4(!I%oXc>9IzR9y@vC~5P<wGE$?TXV&aGuN(yPNVgx;9
zf!pLw4r&5*rC|EZxtVoppr}PKV1|C8ToQ3S{dAndw8HV4+iwZlBN}3wr4LBb{Le0%
z5u6;w54qAX#II6%*)Vd$vww#Xvg@A0P=aNqKx2!j4SoEdt{eo)7KWcQpEVSAEM#n|
z91>$i7z+>}?8}<U&d|VMPb+=SNKT98XVt{#RU5A{PJULg*_)|cHh$4ZsTp#%ZoBf_
z%AOrXaweJg(pAum<F#H=?<~7<)N_jPIqG;ObC~3PU!@QQ5_}mcWLfuoKPt1-e!j;I
z7eb4lI^u1k&JKsUiAEQS80G+jV`z{Y1vh%S*QUh7oMi27x!VAULx~=aXt*-~f~fyL
zUi+_?!B6BIEz8^=6udj)O4T{iv?H7wj>Mh8x;5wt;<ozbt;&|EaW0!%qcqRucHG5B
zsPD&9Hyr|;Xt#TBjxl!BF(yV(vi#uBaL-4%3McO@!nY!bfe18yGx`<6RH^Aij7We>
z6TCi|bo)$F<7JB4!iT=dc0U@;eH^m2JkyKgsr^I)`+@AHbGV(rMj0%EP&+;r32qY<
z;(-2T&3N*l<DU1%#^Mck!kNU|eMR;mD63Q*Ry@@`T*t7ADUDQv)m~=z(KX>0pclvO
z)fT*CIs}wyjQagttZVjrXC4pfi=93jEsw|YGP$ruUVmxdFOlN!BU}%4UORt`WJOS>
zNH6TSYhnL;TL~4;K{6Z$t$N$lafRoRKmN8<1Dlj>2aD{E3xz24n=s{=a`}Um<m)`-
z<1ev~|9*E*wD4n6AQ59JGL&411I+1RH@DZKX^;RXE``5_3R|FPI1m)shk8~UsVCWb
z9_NR&#52R1wzRa6{yQ_wAsXX;LXJ5kM>Wa!qsA>xGn5~~-kb@tsQBs`M6sAPm;L_J
zBH!zql!gBOX8__1M@q@oQmX<Ar5QOTEFW`Rg#v;m$FD#V5%1TCk5nRwX5O(*q6z$>
z@V3If^@U8QeKzzJSs^~na8W9rR|*B;V9<l4u)R#Qx!t(;2|&<d?>Mb($25~XFS;_1
zPejAGpdtEymtzzN+wH$5*3i@h<DK<LMXXH&X5GBu+k1@v7~?OchGHlb<2k@FN*=Xj
z&V_I9+?lLsK5g%O0K08j7x0!OWvKKTQIeI?G9O1L?{shHKVT-wDkL%WCj7F%({@JK
zH}Z#+K^B!hWGmH|wb}`%#7LpwVvO5NQ)vZOA-^V69LEWVXIjb4((5P1O9&D*E{1<X
z28x^IdK$|2>32+VcsVWt>)Z5>!wdhY6`LkAuli~GCyX4Mgq?Oq0{kpd+L$ZK<dF9q
z>P~w*k@f1oz4pge;%_<GNw7pB8`A4RN@UxQyVjW^f#GHv5O;yPTXpd@u$yP+=}0$!
z|MQgmhX#xX1(l2HNYF7%TrP;up%H9*X^FU6sv$uZbis}@Bn50NJTEOquRLVnSI<pS
zWo)6wo19->F53Ur95xbW|5VV33Kk>)Zy9$$J>v|L$yEwIYN{sk+m%F#BfRXH>(^w<
zrubJ?6oq?A_3u6+et=%%%L%zpHZn;L6|NB!R<ykM!g%jMYD4AF<wb*fES2}Z1UyD`
zE5xB_8czR6=<{cR&T-6l@>0nGEuS}g#ik&OWL4YBCLEnxTG9y)2hpcujcN!8+ArHQ
zTSt=LEac4U@e<`Bv>U!ms}yu$P!vvnLUKX03YiEoe|0p(o5nQfAQVOaUyA47TLv#O
zp<!X*hV4=fnC23W2EkOkQ^vePnjeZQY2O&l*l@j;*X=IjW_nJhwISTQl-_jBdoOoM
z{s$&t4wZSht@wYu06?3Z_`fz>#f@S(M=KB)i@V%VgXId|z?mUM43?oN7XZ%R95e3=
z2)Vw6{3+x5X~ir>Ni~NPCWZKlu4Hp=)B@0?#Ptia%;3etoskoP4i&273GSj>$MI`W
zMg3go1Q;VaXNvv&6B0p)Coatm&C%p_DVHuuO4{dWM;RJv;K~1-vCoh5F()WX6Y3hZ
zZZu)`8ok%ITrDBU5l86gK5kp>>Vqb|9VQ@g%{?lEyzT=|m|CuAD{ogQWsaI{=I2n;
zUA!UL4j@d8|IcwhxMzTHo8mkp0X3mU=DYhxrQvW(@59YHsn~3s1>t>I0bdr|;k53N
z!-=f<kx+hoy`;u2a>@L?LEP{t`st6nnFu1r4P-*iOyP8fF61H#Y}+E3jLAQ4L*Ms1
zi+Ci}x@#psE~H(Y#YDg(gNufo#wbk=oGB6a@HW2vyp$y-#%XFAk@t4fNYg?&HeDsd
zB^q6%d2l#2SqS^x`m*X)SHMqoz;}Ui6}1~6E1Uf5*w>m?svY&U;Ihh^ijGPoO9MNX
zgDO_(96QW3x4sh=pi|%>2_gi;HuNypmN;Kjk<D>VBQ3o*yD}5XPZG#$Uz!!eEGu;)
z%)cJX8pucr-cN`rh2-83j}(@sxaQYrh9Gi>8FFh3#lHSUS+o0`i}6H<Pm@glN0C|=
zwwp8x>QWi5xuCEROw^(@AzAH=r?eTvi(`c2+GX2TSAL59V3_=JaL{9P9aregZ#%7{
z)n)c=`M(db9wbata0oI(jz4VY9nuvH{Go#K?y=9rSR-drhRiJf>$A_jp5WhE@#Bj+
zS_d0wL=0q+B>fb&^}BYI)34HeG6{yO;QeBWd!Cp+6BS4fP;yBf-C7$QgZ68GNE~QC
zT_qfDw#H<Y54X1=K<b@O2k<T;CxQ**930n*+-^4O(1uG3tq<m4r%U?j^d~{o#Fsz^
zWQ6x_ZoqRicvUs7g7JiQ+=elq9G{DF(x%4v3V^@oDI)nK9L_mi11;eU!YRe@8K^)@
zMV)>~=hdzAKJP&8%d-{{G;p`0tQIHaBhZ#7pJP+W&GC67Iy+ch$VoX6Qx!7B*`fhy
zvcmZQ?aj3Vv-#ONC8?&puKQrJGI+>G#sU(qOOTbd?$NFpPQ4wz%%lQ5nj}H6D`Al<
zP#L~ho`44*k-tkw#{{5V2Kn!^_~FvfU4KMtDX+}1Jmkb-rDRN*2^o{7#*9m{6M_93
z71T8>dpGqHjiI_3JP*izm$xbKSp0b?#Uu9wTZjk8qj?du^q5vr*l3RhAQ3SzOK3~q
zFPp}z6#H`>3%t}gB?{hPlFOtt85w77DCrz@gZu|vOIxD(oQLZ6`g`OoT3JjRgrxpp
zJJF6BFh9M?pRzp0*hN%}N7{G`G}bhmhe$?`3DH`YT4-r@g{BxMT@Zx45H8L-VV4*S
zLtNxi96y1R%x`IRHQ3DndU67IE1Co^R8Fd)QHqM6KNc~M$ZctLof>#uOuB~&Px@@8
z<#VbuO?j;9M2F`VS_XQgb5btOMJJr@ZF(S9{g5cnOruBsdq%H7<b_o0Q|O%i7h>~R
zYCK*Kgp6g*4+T1QRP)%hH1tw>n_vx}^!a4<@dXThS{v^TtyE=1)fN18T1m-A|9luD
zIeBx*FS{zF0#aqJDk=tsbiD$+Zo#IeeB}68dYag>GUm|Q9WW%8;2srGUqqUvJ4w>E
z16sWS(o5=bnVBNUpU2@#i&^oz%PCXyVg|HXiKXGeiR(xyZBVXME$`T_%+)c{v=pSL
z(a}vpi5f*aAM4xAkl(4RnD)pi&Sj`V8Igl!Y)<@$s3l52p^^rZS&n}>ix?CU3IgcO
zBvbF1PKMQ0F-vu_051xJ8riOg22iM?gv+jV&Z{jrv{F1%`sQ<BQ`6wkE%~O}1$DoY
zI(FE?_tVD9YdM6ZyY3<}3hOzjb@>wO_CQq3*0>8w!IW%|1Adm$pPZb>!OIKK$n(8r
z{7qG*8lTiAjiitttI(`3=<3o-Vh|v>>y|66DxD$sYC4Hn_xbv`{Y320XYYLGB?VqX
z&ug?OY%CNTZ4L{Ad3p5l*5<$NLL9mIPNA~VSXCtlG$MffStW8Rc&MtTI@<N|w!hsA
zM)*{AP&ZC5vXvUgVmc{_BPsY8%6rKA*A9m>cQ?bXh@js8&jjmm(PH5GTaOx-Gtic3
z&C^%eFBsIx+!yr+e&Un2ZDq%$R*dVmOuF3T$kUaFVwRU(bH{0LqEcUQ!Y|EIlu8_>
z8eO+THW2b*;Z8!`al%>&7Aw+=wwiV|2aAvdp=b|l5v$%YNL$8oB1SSK!X4SXC<#@Q
z)P|hMY_28hg&GH%<6LYHx!|yrploWWh{t+n)l;hjR`4PmKv2Q<b8TpW4pCp!!&9Ih
zzoCQxiaswVNRdwrRK6Fns+`k%6!Wd@UiF5mGa&(O{ZoDYKS#y&R8Tp^A}TC1WQ{33
z*WH1G9EP}3lRVuV9&!0r31LsuZV-`9`R*a;3P)Y?3#k>{spuN^?shlE04yfw34+VG
zr7eey#U3-HqD4*CMzQyilDYW&_aB|NK{n1KO(Y7s2O-3w(8?v0t0X|wF)6LhU9;P}
z@o!bN+U@z@mHKT~Eug`BKD8l-&8E&jI*!8PPCV+SVU@^7OXYZ0k(52rJ*f)$C9;X5
zw1Y%oR#>rIc9O1#%XqvzKXhm{wq~b$BTzA>fp8AYJ=bx7f0rLE9a6T(-dU{F1?wWE
zHJ!>*JmLSy33{EMUmUsF8#W%DEi55E3ne+)!9klYwj{<38)>cgBv{x3(L5qU2300q
zAhLllR1fix-Dr7jRZQjRme8`jQj)SZ*=5f&$gZLuw>0?%#p5s1S4Enmx~)z5QB*;M
zJTt#ezo2^Hj#~bnP?>|ajsya*T<VIf@2uZI99(u_Ms1)yR}nWTm>N^5YERriO0kBD
ziP^&z$WYkFLGU~&4#b`JyoHD6dUflg_wgKQaFZnuuoEbj0(QAr(Y`+DFnowYRJ`y<
zE$FhLc8PlXUPEAJAQ9Yv9nyJqyTF;D<$b~eh)D>GK`AOI-g}DDKzkjJN4(ghrt?_J
z_dTS9vWfw2(`7pLd04-2d`rEVnV_0Zom@Gsv`PO89=b@vIUpNffUPDGh5K#AS(5D7
z`EosRrY3Iy_pJk=q(KSBW~<8!sQJQPsda!XI6{zy9Lb$vuu2jOM?ayjl^6J6WfwIQ
zB3PzNZ?;Uj^7(qJL!Wiiv7s|k7=k)gP}IwH${EN?^+xI$r&v*j@Y<&a&wIzg5yD7W
zmP2yNR0<^$`}UaeXYY@H!@(gLAJW`_RkGfnr6bQkntOX0Q#{ghOw%!$RXag(==Rk#
zn8dm>$e(x2;6>j63FL+5*5=8t*r)x7e>>M4nCYxLRe%10f&*Hn{6t4z2hOWQNTA;4
zhp*1Pz2#F;0UGjc2R7WjjOR}o0t+%NI0O)jjOQ#TRi9A(CMx6sqXg~s9ke8f`s(^}
z`WQY|rXmJf#61U**S%@8f^t@fMw<;PVaZ;z?(Gsdi|@r|T6sSc(+I(Z2`%!Zm>F~?
z5O82}T4PBU`E=vSj>~^4gup|qam61!W+wKB$dA>9C&50wU4AqAe$^}foioJt-uL-T
z&RNic8Yroxk6+sQ)LLmZ3aQeajFxe7YK+O^p=fuxigUX|H;Zf)$6Kmt2eRsd18n7}
z8^EP(vd4m>`jJT8xNiJ&@qDGuXxO>&E<n|24_|VRY&tq=EDVh%C+>|^#ZVhJ?8Lhk
z<A~YwIgQ6At0CZdoGlfScF8SRueFfQb!iTw0N0q(Zl>INewrdR{DUH)#K>YsU~=gJ
zXJ`7xI9q^AoVsgPgts1`(;xMnMSu(ECkn8(DREFWop&;@Yd&bssAI|aP-<gY@r2mF
zvdy934m4BEmo>cL{YE1|LfOd9!z7nys+)VToh!bF(pxtTY}|FURbEjfRv4|O{Ix~C
zgeL0Y{56~#;G@Cyd=&cyJ-HBYwhB~%BrPm~^#Z}SIc(5NuhOY+<n1$(vOn!)6LOtX
zQfW<pXM6jP<P}JDMkH&(`5}|USlO-n3NOin$3{$1yP8svA=tM9(qSAkevHC0I7u^W
zQH89X?xRY!9U+qKAb{o%{ZR?ZSMsZ&y5^BmU>sGDwe}qR5i=idki4vy%Hz`2u>;?o
zYpe~Pj#L-@+vdvFVw|Y>_Ey^MZEdSG&SCw=X)=Q=rh$hr93z`TUC*hpLZ?<~^I_{U
z4x&PW!*o*T-s@m>IJU-UE7#)0(5QcCNSrEY)ug{-MUXtA@#6I0@5-D#y0I?!fB^?<
zYYIF3p4|l-izaxVE9Am_a3L5<994~j;ktSVGCQJ_+DLTvd7^d|s1y$3=*|#6mvf!U
zA}vF*3gAian^i*VI60^9#M6s%TEm`iWV)O!JP)ujkQMQ@SkLT<5+NmfjYq9HGA?R_
zE4SeX1bC_4?ydYoamc~}Ite!<RUVpy@jhTH4UeR_UOoDv8gqCcyECB7R|(JOBWHQP
z8^2Cq-H~Q88qN;f)~){w>-NoF4W=9g#DQy%pc0--x{9oZb^!1xvs3_MuEDAEDnl(*
zpFbv4zt7Z6<F_(nMN_gTP!2C8uWATm*G{esnWpW(&=r$`I!TpH;6E?o$1b8sH8@L|
zR49-2$Gk#7FUs7~>-fVH9Fim=ZQf8>=4sN)B-0;-Z*{)i{YDEFHCbVPhWv|`te<P`
z^xzb;8ZP{59r-#L+<^DSvlNo^B|;z^#}u@Id^njoE+KYzAfl|LRV1p9Li`gO66KPq
zAW@V{1O20|fC+##WniJ}Bzx&S#r#tJ_Bc{2B2g2iOI5QwPEmGR`}JClIELtx5_7pJ
zj#N`<zw#<`5XLrMNRD7%jUl5Af3q=Q2NO*tvs#O6FY)6N<qT^CYu&rzlm!X2$)m}K
zA5zg8I_k{RXiAEo*qQG;GUnfU=I?g3+&F-EWKanOH1*I26vsi8pL|ppq~{v))#x%l
z-Te3)jwtL{euBxDDu8|zAp)Brq!e=~!5lK9mP0k$jPXv2dCKDLM3Wm<hlvtdS|HP#
zAL83o`DaZwhvFNR6_Tc|hEY{+hq#{49ZKs{Z>K#u=nu-$fw5oD*Wj^jMTaQ~`A}%N
z&YDg_vQ-^FL7n3-;>@5|sYuUT#PJubNeq$Z%oWd2p|G*H2BeD6jNBKiw9DHE$ca?5
zB9tQ6k)0ys{i9@LNoyDJj{-K0vq|Ej9Ya<bNWX0?LjMV=n<gZCXXN86P5<~azdLxp
zcm|X~v0;EUJ8?cMB8?zXWW-rfnV$h}LdmY6EZ9_&WNOffFFgQHq*#yHB!7M>bY(sD
z5wy5SvItYjMrd+grnVK}l`TZVsHhqe2?AF&oLEi)DFo9=)ICiz1C;0e1=mS<c<WzY
za0qv`U--moMnIaCc)MU5#**7_cQ#srsc-V7o$dVA;%HB)^3UToDY?M8am(RAm@yt=
z*^PUArmY(W4-R1NJLnk1ObqMx-Pl6^?T^K8ekC?lET(c{d<U@v{lGDAhoq-*)LpQR
zRGH~oQ^SZpm}Mj-oj!n@dS2b9wpQ^mo0HB;!6h=$w@M}>5gUo!B1v^zTd!I6bbMOC
zZv<L74&GkV5Xl*7JwQk%xW#P8dz23{Ncu-yQ~~Z%y9_A`b|8UAhoO7W+&$5H{a{E0
zX?Cg~@*klv=GDx;A-ovxVT)jth*6}(7v-2XSQ&GX$OdNv-JV%e=dX*HQ;kkio;75M
z(|Lm%h;VyMT5Aq=q+H`)Zf+~6<QEE{Wgid4=$wq_=zT~jt57u`cU%g(uiF%(j*Z9G
zQ={`;!)mWHLIydeCXV*CD*y1I1^-M52HY8rF=l&9hd-%n^#Ba|Kw_tbVL`5so-@>r
zy1qAqJb44EZPZDif^{z(#5hJLn3HS{MZinChtS(j62;m59@+#UxTl0LCXX}2-YiFN
znnDq!j5IDzqea46OPzkHQai5zu1FtM={r<6bg`*k6dg=yD<wzmbQAoEqKPe%;6wW;
zXm6EOCUncA?Cnr$PM}&1H|e@0As06#7U9-%$h|ITUvYn%nF%XXSx!0@re6f9@gJAO
z;JCOJ2bI_$zL^y=CZx8}OH!yc><UAuJdDU5D`jMjL;q&2JxHHAdN~Wi(m=dnI%T!l
zD0w&<!Qd4jgrbZ*5+-D--`1+J><||oqC24i4&kl#i<()@M#SKjBqtD$TyhYKhe1sJ
zPfb3-D3|onHy~@4_8t2*9jI&e8x0ZkL7^&Z3!$o3zINCTHc}3Y4585fs1Q|#1J!N*
zi>xabFfZk3{{Wz5l180X`#lXVwe02*BjJ33PM5eAPVF|VAjwi)TW^!MpTzR{w>*dM
z;)l9DG5=JB!_0NiabAX*Gm|TLLWNQL2pM1hx_Jsb=oeg{_Ftqfcw?69C)Otjd&}Kn
zR!c<Xl!kG&1<U`YlICDR<wSwf3Z_JjCpK=L7I@+wA%>3+`dZSf67B&|#*6hJKFUO-
z|BtJ)4vMSmvOezG5G1%uaCav(PSD`)!QI`0J0WOrYuw%4-QC@S!`IKe&&*dde{@mR
zx2b|UeeXGYuk~9y%Gwp&%uQ=U2)?qt!ZMPfY_??HOQkjKvld3rYE!F9kQaramH(vd
zIKa)K#L_|MNwX07DtpDJt3hK}bmRQF3zjT1QFe)i=Y=jk31nHsr8muH^);K2^0?+i
zJM`OdcmzDj(CewFX^$tmjt~`pkO!DJazM)mB$dZ>UW(Q*YY*luKn{wr$JBY{R%>@O
z6sY<7(vlrk0k@RoP#Zq`&F=u7GV7BaEyaJ(eq$^rW7)@8YM>z7e0%3zzH$z$t3#6q
z<d(9LFY4%0+xf{xmv^wV;!Gw%cO(64=3pU1u#c0OiT<zW1Fn8=%&7R|{Z<-rG|8No
zSY>&ev)BpulAKSokGpXE?IKv_Gb4xMorIKzc%#AZY3F$vsTq@qDxc_;^!Eu7hO&(N
zG3-dcm5Vok$^44f7b~*1t+q<t6Ee*tt`vD@ahde<r?Reb8!k!w(I#}VH1z-xn60)%
zvTd2eyfOVemetxA8b`A@;Y1+QlsSnX)*o&tC<rniL{~w`UvxgKzvNEC?R9Z8CgS=L
z-UXoH<DXX;7ElkcUcUZixR!B<v<QuV(2K4gC8cJVl9&41$N)FQ9r3T%!W}+bKGunJ
z#$$Js!_i<%&d%ppk7jghTc`dc&^)fweL(hXngi92ZPSoUuM<2v==cy|!f258$b+9k
zA^DB3o>WC~<mvU8nBy}JngIXYY)A9<>q>B6%3u`vc}IJmuF!K?A?XkCn#8@AjVv_5
z4sYX%wo|bScw_L6<%{t8n2YnYc1RGW%bMVgE<95@I4Hb8TIt8wFva>mk{}8cqyh}E
z=^o7qESU^}#beFqfXc#XXWnYMd|UqTooHE%OcV!4ES>?XUHk+@nh{ayP<-WcI^FS%
zW@f4^rQc(f6K=fC`!Q4Cb4fhu7Lc}z-Xmg9pMN`>WrK>0#h}_9yH5?J)i*G1=Z~vB
z1&O5JYv9mHf&zva<@C`+G!)oPo^*yR2~=?T5+KzR0q~&gTspwdy!^6mPYy>eC(WE6
z+n|sIHm+0la}ZN(kxJu2OXHILg2j>)pfQaxSXwHs%~R=uE!Fm|;OHUs13p$WNB8fR
zmMZ*7xR148RZWU;xrF^Cz5C*_qDgY`eHGfVvaAe#-@x5JkO#DpvnhJy@&$7EPDk)D
zO{zIUDpu%fCSsgBVF@94KYXw`k2#J4d(31FWs~23J<)-;xs1VBPZ}c))+C>BhKV^1
zE|-!9sA#}v4CI$tiVm(C4U4y|0LA|5(-mTI72L<n30?;xw0c9NE!>zoBsPu04}ehr
z!(JefZ&4nFc7_t|!Xxr$Bf@uN81VFf=6nhsvJ%guL<I{zHF;$)v%_DSeT9bvxPD!U
zMoYnp|A|!F<k5;${zwy~U^N&l92Ftp0Ri5XzmtjtropIaxD{mx&C`yLS1fVlh?SO>
z=9kvU#1IOS7b#{hlv`U_<wNuTY^bjv>XD4R5~ZgLLnBH70~kZig-$bbfla3S^sKHs
zCV69-{E9dXX|az*dwavX%KG{==cFs(hD^%JidLNCIylCV_{x<|v(3HwuPJ|noyLR5
z?V)&0CDf#-j8?qupD($Tnw%rfXG^S9GY6BuX}n@MN63>3&@5~1_QEQ1KO2bvZtmz7
z*r}Wj$3&Z5N5RlU!KYxY-4d0P1!oYxslB23cse6I8etM_B+dv~hV015-c)xGo7dkT
zTN<FteK10^T<sHP)bQiUaeNmXB2;7F4OJm7YhA{mStB8QkqJBCfDw<YV-I-(F{4NF
zoV#dR>_Sp`<-5iPUZ>K&m<Gdi{q_Rey2ScBlmJ9YfBNb?o3w)>AtCesdh0(6REQ6y
z%DN*_oF>D7$dKUZ8*pH7j||=`{J5{q=b0Z8HG3vfQ%SbyEJY$<K7Z7&myMb9{4)KH
zfT3Z;ml1JN#a0K*`{|#ZkeK5HzZkN!o#NyGa94;iRb_AJLkU2EB75VR^E@aAV_y0=
zWBR0s7;03Hq;U}O|KMP}2y7<@zim?niT%JTzfAu5S~Yb3nzv@PQApckPo&Jv{CE}x
zjY38oFKK&eDSdL93L8rBTu%t{)TY`Hs3;o>agn@Cy%I`vDM~p%sfm1A^1%utXhnEy
zn>0Wpa6Gjbsdc9Z+4OXjS(bgM4=K1ptSK=%dL{&2EGbylnYW}(u0GUY`z2A?QQmwq
zP)8s)e>)VFARqGHAWIk63Td(yfi<{)6i-p}z7rV|ytZJoYC??A^hUZfq3xXoa48bG
zs`k^5Iz4c*W%AreD5%*k0q2>hm6;IiY!#rASBkT)Ho8@2NOo8+R;VC;EnO*nX5F`Y
zLpDNi!OzZNNc-qxv5(;^+?E2?{oWdJgC5N2A!`a<xA<KRbgCP*IL3z(m-M$@if+J<
z<dABOO3C_<j?>jg(Isld+7sievs#2_DD@!*aHTYV{f3AbTp}`eWP*@@m<0DFBH5z-
zJ9o<}t0M|^M}aot*PkM0dRfc$m`rhXh#`d2=d(p8TLx$y6k~EEFwd=r9l}%W3ktGS
z)o6sV*yv2MTPt##T;2DZH9Nnh>)KCFv@|<jy_aDT*%OqMkR-!d!i%_g9bWTacW`5+
zO<@bxV#G^9_}kXO32vyUsHHM8GiUqbzw`IkG=B-Zfs(|MIb+;}ksuq*mfMYEGX#Cq
zSI9UuO84Y}fO8`HOjm;sGBxIk^3nhft&%<mhKx=GWzWch&$jpXwfoJ{;PEnL!6&xZ
zGd@y#V<qf0cWtJnX&%@!{^iC8nx6;G&2>s!TwSR}^e&Q@i*d(YF~SZ-Ix?ZIfo#<%
z!DIz6%YN0Bh3R(OCkoPCnfz|_hJzh~Q7zm-!5PpDw5;Ee8Vd`l<#%Z*VU3UAPfut)
zmdH|d9biwKfv)}t(d4o5bK=N?f!WwxDO&-72ZSrBd4dvGxS<M;wAivFbxv<WZpAIN
z9i2KK2UKU^Cd3$?bZY=tW|Jcbn({->MqoPmGO3xEc3e&bTtlfK1c0x7_lno9^BNt^
z{G~N*v!1T}G|?Wi7)1#FjF{QK*jm~&0(L^+t+FH7_4ak?8rcV2VN}E(=07;s#ARhT
zk$2b8lx-ViQv-VKNd`@rPEGo!MmT*iY2~V~f91-JNGNO;F(1r!nuTbqReL5T(SM;!
z-W^o%e?_9hZ*;pP=5=~T39k(iQ=8(yXcAY*=4F(MB~Ah3Vke$XlLEEhvR?01l#xr=
zI~FTDo~@SAq-!Mph*OO>cMwt47=0g&26%ug<>35foF7)xOp5O(8l_Al(M0a!rr1jw
zb&d7MQp7SD4p`w#<<^Tqb<7=m0N~$owPSvOGfl4VDCc=`Ld#>@Z4wH_w*#&oTJ_nU
z3x-y0H>Qx5g|a<u!SLp{m%pQ^+-sz_IiW8{d9hYR-{E8i#xwb~Pfo4&i_irr)ry5-
zCqeB8T3huZSw8Q)PxHI6Wp`_{igrrF{Vu1AqglGG`-Q)46Aty=AuTUeKIxS960db`
z#>cE^1fod1kstfk+DFh-miZY6)Xa)G%3<mBkj>4m^Vco#N}r5~E*=-+u*}>C(SPgh
zBx1z7=sl(12fvV>Jq9a(*d|u~U@F&JeGGsVN&}-qh@x9d5$tSb4fJ_pSPXqi*;oVZ
z+iG4x(k5q=2k!?ePV9>x9+$jS$Hb2p2~n#l6`3~?oqX}lXj)m1Pd8fy%cubkQaPRG
zrfbN?_+aZJScNbCo1i%2pxo6_4j<{7ntZ>0oa`$Q7_@58L-@#Mi%8ANAvY<jI2G&A
zjQ8lCj=}LL7Iy%YOmKwbhxNV7CW+g88L}Ip$Nr<PX8wBRBOuFJdvjycg_Xx%_E#mZ
z;cfaD+d|s^_p0|zhWD<%FLn0EEq}ghi-?{`APr$y0)yL{bE}18^-DLNkjnxwT+rMc
zLf&t7Y`Rjv_xazKMuZ&igacl`tgDXEsw@FOs)s4RI7(U39tAgB*l4l)DO#=spqO$j
ziYh!pbwUDLlVoxZ1$=L&TJs{5TTnqT9=GPsv)fu-K*GMw_q=Eyk{1eq%aW_Q=L`W)
z)#MI*;YC((Xs*ncg1M#2d$GdU()S;YuRNay53uC)=RYt*kE=oZ`=$u7)=BXsjdho@
zTOOh<w#HG0GonL{$O(?LRkmk+y1LC9#IyUh_2vBBf366m;|NXgT%AyQIkhc|@`+ES
zxv{^WN|kt~&=Z^Ut<44PQF3o0SU(weHNsE2<KBGPMr-a0I(@`EMVS4?qC#u800W4I
zWVY1<m=egQat3?WwqN@m^99F6<>v~=;!{`_)la<OqZkg-Qr>fAoh7{IU)&@#$ch`R
zkcsq6V7YWSUV3X+G@f`c=AQ#EU<<Asp_W4aTb2hKTzSGD`m}_84N~%u<@$X?<VV@z
zEoSb`9|}9%3k@>Lc9ph_cwUbEr<aBb<GeA-Yu{BINHT9S91gAq2Oz;njH)qJE?`@|
zoOETVQ)wqAn1E`L{>v9q-37{aObnUzCCH@h;WY^iI3HX$cT-{YuTbbdpAczE5B?ez
zX|f5lQ3t4?iB*=3a(V)MDSO@Lp?iLYnrJ|o=+dLzu*$zXleN<#h@>R?5D#+z3`$ed
zA*w^&<+2ykbEqX21%jF+QD0?9ErC#p{JRMZd3;~oT&T#Temr)U6S$Z(8!zdmntron
z%K+z;H@Noun^Ms&Mn40v+)$M<EJH-(Zqn2G<G*6>n{9&l=X+xFNoA!=gu~>f0kJ{g
zlqJgxVq-rvoCw>f%|*pcukIW(=BO@_8TSz5UtkGK5aWuz`st+7n)!r(IXAr=|G&*a
z29yYKs=Hn7ot$U1no3bsP7bX2GFYx144OS4dmWOAiCF^3#Nu>?2X3Bj)RiI?q6#K(
zuPi}TS9iUIRpL)Ava+i#=`WE1LmOUuyOGYmT~nEf_%3oxsfX_<lvu+oKy8QHV9I=O
zKu5t$0EdEsIDF}B!sBeL@-?71!ZiRQlFSF7MR@>xmyEO35f-5m4R7v<OYr;dg8oJ$
z&Gb1LL4tU?I1$a{6>q4OXJNwl7cgl$?s3<P^}|2t8Ta}6jZVDIIJ141M$xKs+_|Jf
zc9`|=EG0eNv{a44Y?$z_Ypz}r1EmKL^b^Ji2H>2O;kJ)Nrl&J3@?34(7x~8DD;39t
zzSHOIA)JKGsJi6fB;K9mJ}O)b(U)%V6lA;M&K>IT(D!mBkVkb6%0PA)^>2QOul-f_
z<**N4_4haoS0ovWIOZdos>#QJN;9RdP&K!BZnYJ`e|*^}SdcWZQa!e5)=P#^y-iO9
zTK44K-5tIagZUyf^1TeZ781L0LKa}}u&)_6xLwhK08`X|a!SPW!D);T#R_$%$j7&0
zy14=E*bO_XRtl=C(*e(pFCeyVtFLP?Ky6l0*3d_GtW<d+ECq=jt7xTb=QL=6_?uFa
zm6W4S$1~$>v>T;iDeug<$Ks!E4}+>sRRb#wT{Ah1un<c-7ZxXH<cW>0X}KDTXS8ZI
z?}C3*M8j!%09=Al(n;iARQFb)?)5G(Mv0tC{_qp<50w72)hikhT1*UnvfTeWNcm7h
z2B#*rw?AhDjae%#2hb)a<sEuSO%-nS#K4WwG~=*L^?Lx$c_b<xdANbQdhDMdO9u`J
zO1s|&R?!jWO}LE(`BfsvrH1~y3JMJrQSXVdUP``?IH5X1l3rr1dYGg+<GCuxR>5@K
z70jgEi_Lx6<AFmv=7j|#`<uHZIeTFzV-9SJ`~wh}vNITXY*2bQR3R=sRlxiNVq5dc
ztwfGJ6UIO?77G|)PQg@V2A>Nc!IpKo-K$ZiY2F}g>0p7^vE@1mV7Vso2Wju~q7%im
z<Z-Rlj~@HSD?^Wan?`Bu1UH+Cb9xW;(EGzCy55+~);*J5>2=ZM;3ZUUJ!UYfih|JU
zxm<7FD6=rXus{nor(`%Uu<+NBigO*UP>>=D13Rl9jM|&L&KNL$)*f;c_i5XCR&?c3
z^43%(wjYjl3P0`NUoyoYtP#W{#J4L6|GjLD-)5IL^7<1~S|ti)m##WlYKVYB0GZ&B
zl#`eK<DJh{F3A@~T)0w(|7?um&%X!WC`o_)BoFLW=N{SNeP{_N5W$Ir&TQclS{>!t
z&9IOH2ldF~b~DMq%V`Atq}*t#GM!l=EfjAfT5zV`E}{&UyGot9`Wd3Ae{|TJzwq;y
zVD!_Te38O9CCsxZv4|%6A67|6XG+q|&@X@K=-j}G+Te6wQ{Y1Vi1!)oDCb&(-DbeL
zHo9@@a;*{~s<es<7Ld6ySAy`Q>X1<{5JefGQT{-5g(-BLqQQ1ky5c*p-7p}(R-|AR
zjZi@3n$1#b0|*|4!EB>(HkMF}vyr{{hED>T!v7Q0!YYNBlKUN8V3xOCiCJ3PsYHmq
z(Zc%u9lwD7b$P5~8!|&+)A)YE+2QNW9Up#6{rD@U>9O~v7q;o?T8ZxBqc2*u#xxz9
z%a)^C*T|(8ap@m8MT7}zjVk5$x3#B+&$;awyi&sdLr`|vV;<RoBM?UR6K%)Bg0z_p
zQ^BSA8(q7USgeD~jmTisa3;_sV{qvY*5|Q|SEcprK^|?{4U9A{1e0u?;<as}IDWb;
zuKBv3QM^zxhGe*Y7tG>6Ot7yGY^&DSbxTw52SbrfO~KPI2{zBptkFn>@)y^LIDc}k
za|zXc`%IuHYa>sjYN72SC;&SAirBufVOxGltrWXXFZ?tdq^$Ri>~sN?h|Aqh``cbs
zyz~Mb^lT;U&+b-YV`~|&UR*d3-|#ZEe>%0vs~eE(U1zWa6_yxv89#tUvv-It%;2RI
zJ2E2kgL<252m;|O=N@6Fkcu`=FIV8}9!`@6meu}Xu$<jw0!(GQU}G>ixvCYp)giKE
zu<$z9WL>b)Y~I+(5bKQax2^XRv8xTj7z7NG^kO>}%sLIJ?*E57@EBp96RW^y@^ACu
zkt&B}eKm3!s#n(asT~x}V4(cAiS|JP4{iS5%j+3g;9Q_-C;p#J=?EP%j+|5zm}?;I
zHFhe!wtYNp9-){5cHaKL1QvK!Q|rPG)ytGrRP@7PDM%*Gtgd}aRyOAD*!j91MMhVd
zKoJ%r0^9J(s+zOL`w3RYc78!^B!<Y#87rKJ>(BQpi-@+{%*(m^EhAD$6<`^1{uU><
zPNmN>|HidzNhvM-xA1XFkvXa=1!6Z5bCSh{jTo27CY&{%VUygB*GQw?@DOC&VF9oe
zXi#Sz1?u!~eICg02ODNkCw?r1*JIswt4xIK<<~!)*6xa<x%BcksW!t(V@AeY;Qx#^
z5Mr^cRmHL3sG%)m2=P2ZP<xRH9;fwRA2%K(lwKeR>{vFLCm~S8raAL;aomOP=%DpI
z7s&eO>)Pck0%4+i(dNddI&#7ifw?tNj!n61TSON((0-&i)axuFS=UxBMzzJ4+oGkf
z!8p!2|Gmr>lPeXR883#xrZWiAUeI-puQOyvmeG%g$lKFJf9CkB86hFIL%J`f)Lc<g
z(j8N?Zhsp8vj%X!2=)e+rV#WVpbvQ?0Hb??0)INXEm4lhe=<x+`9{T1oyRDnj8r0i
z@pv*$yLXhB{(Q(HOq`&z4<FhybR|wPNaKr$PH_(Buv)_Pl004!gkUL(5^x*=5z)j*
zda(c+zQ7)JIRnnYsu>AiA7jm8L6rR){nFJ$AtDx|{~H<8HDk)&Xm&R8{<11dq2n6h
znjr^^+WDQG>CHo_!15Ip{v-*@vDa1D<PgI*!-R66b0j5?j70_kJNqC;87^fEMT+!|
z`T)w&WJ{nV&=;CP74EkZZD2>fRHgLNbX=bi307#<mx3nCVz$-kWeU_<^X;@~4jq!Y
z1vo|_%1u~urc(Zqo=A@_rOXu9tP(4&03ypo(tY5OWYz2s^qNy?=T;#JepDV23H}Vm
zEO6*S>NMrxQP>PfM;-m7^C!5k&|8eoU2Kon%vU|>RI?ZI6VTNh_wc>x{!4P?&DFbN
z4w>d4D-!BCdwN~#%c1%HNb?)|0#{bm{W*12yVgP?LV)7ye1uSIUqVwJHgUA{lKh|F
zrjq|v_Zs{JOCRe93sn@kV5#!eBpi#Lxn1i1PXu>HIT-Fi3Fs!z!4}yt&XfIGfOUo4
zZ7^GFAKI0JNlF(cyk3nLU;I;M{_L79T}^M5q_Qn?UmV0V&S@5C;m7Y=Wpb0LfCF$P
ztemnR19!+;)7`&MxWFDA-sut{(hYL_V*x-7C>=p?r5w?{9bAm3)a}4W(fqFq|Ee27
zq6RDg*Y>!oFCf6GN>UX#y=DY>`Bb?SL^o>@<{<7sAQi&}O4&e>AQeG_DQCw(D7*Pi
z(e==<`)!SYaL0tSe26*9cl4I7(1Re^B2RD#6ArOA=jHouTy_VuaYw6eEFol!$|I)Z
zK%8r(mJa#m>MX0{9uysmJh=DiEWVXqHoCVh^;Lr?!!rHfHUSF^oLHA^_b25DQ=Ln2
zme6Q&74m_Un)U#5iYv=m+A1r>E~PAup{3gL9f$o`Z37DU%j(}{A<Qh3uosCU51&(x
z22S7z-NUc(6}!=`7^g56HE1f?(`{Mb`vDbinIm-l<LgGhdFn~8XER0=W_Rr9V#oxT
zclDKQayDAYo|?GwbR=FY(UBiW=pc?xOySq<5^^zsJMOX66ZP^vc=GL-dfE<ktr#`L
zj_P^!CVui@hk9*u>wbLW#rZje?o8^&u7@w{hj{EBq8v%sIEFWK;kKY2!)N*53)0wG
zU^XYsUugM1bR8Z-z_ea(%#*{`gmY`PtCAAcLRl7yYGL&ax*?#z&$nl=CPvLH1w_U&
zj&Y@8Bg8Ia64leYJDXvqr0H^lfza`ymYir~j=`<(K^J^`?P2EKF$(U)-|kSKhp7np
z;f!bsN8=xLQukj3Jh7p@Q;of{{W7s}zN=Xsu47lUDhh!`8JM$fLEW@?W9L*fPnTvA
z4)Xqx>mpCd4P}l)@jw0jlR5Q)j*?DV_)?#A-8b`97Xi+QSm%&A(=EjV6>g*&Jh;(>
zXwuZwls&AjwT_HhzoS|mEOK<5`0yg2-UM2*{%5@n?n9_<u46fe4uv*(=+%t1<Yxa#
zANnubKbTwr`|(~=&Cm=Y?fAaw^u%1dEAhob8)W7`1?D5N`|(a6ZYy9>x2&aflCfkV
zxX*|eEu_J(I<aRRO|G>8l@0wu2z?b11@0)akmzF+8j=$hu5G^e9_n;a5nwNzNz%$M
zd1!^JDs^dd|50*eCg?x^Hey|T<C&-I5x}zH!*gix<haWY&1eX^%>mVQ1tIa?i1gol
zW)cb6IVN&TxIf8k$L$}v9AK0_W78?5ypD>mqaeL(snStj9Ne?k*4jS|1HdjeeSsrf
zZw@6=Gomvz57zYq{@PTP+Pbf-NZ23Uxmmx=PDE97!`9seeHZ-ypJGiKTmKIxWIzf7
zth)avJW0nPd1;OFEYK3H?v2*HY$h<Itt>4!-+ZC*$-!nFrsp^!X>DUP6*nj)i<1ka
zg!B@d5d4Kw-a95`Zt&NnRBdsDe;8xPPrS_Y3xRQ0+}J2;YWqywvaF~RagyQBB@Het
zb*ifw4f?(ij$aJtdMhz#0p&Utd?ty~MJyhQYsqdr)W6&mkqW-?SU%X&Vf#|rj*Zqw
zVqAE9aQmMwsi`JeyGF6+0l^Zk$*P832?62;&LTz{CPLhgm$|{ivG5ixs(%#|Y8t5L
zdi<cpo#1s5fUC4_Z_GdZU3_?!Wl_tIn7MTx@h-dbjGui<)b++Fn~}@fUqeFQL(H*v
zb(BXZFw%4o;_7zARp1Z06J1BdMaF>Hzupgf6U*4t)4>wJxhcz=KRPa)=2<;~*KA*8
z>K0m9EkIR{y%GPf*$_L`+}3gUZ<hRrDNp?GvrZ=2xE;41B`~_g%6h9a{I~d5q1WD@
zH*Cl!gSvUNg?!T4Q;83wdczrzoT)>M_CMQhYV!!D7Cr2q6NiU0eEBk-6rX}GwX#3A
z!SsKKH6kd&wHsL{bk_(*5P;tukzb+kHF%^TTAog1EjdNu>;^R>y>G|icw{YLtM1FL
z#Xryw0x3pBsM<9Mkpswp<K`Wv0wY1|6$+*F%OwiaKsZ4{xZgFkZ@aS=o5Dw6Iwd|>
zyqt2e4!ROcIi6qYuZPv}tiSI*XQQ^wwhXIHbeI&WQ(<PTL{?#`VxzrG-hO)OaZaLX
zTeWA5U`+?h)1tGRHTE-xI6tn~!oH}q=f*E=TkKUSN@ZFGM@4S(gl@vds~`F6Qx}0D
zT>mSg2~QjbSo-90^b^Y!T6*bzohrrBk)`~kp^E+7TQi)sT)jKLmliUj_rSKee}E@k
zak9bNBIbI~>SE`%3hbBd$LLD9n29vsH8BQ`d?}-hXtw(bh?tB59~74m;#hieFLmE}
zpu)~0wMC9R?d1s0qfBG~J`wCFTRp8!9b}$H)UpPq;r!ISv<M@KMWq%bQNsYgX8P(e
z%~>KjavU=Rgh#J&SVlOzy7MFXdHy_EgC++wY2G?I;**n$Hkxy9G{ROq%fo5#-}1kb
z1%t`AsLnjenw4~@T(1DGPs#s`XtLEMvD=|MQ!N&wu_VQG_@>P+8$)E9l2yPt6|*xX
zXuuPC$m7>G4pBRxQ^U@W@1ink6o31LeaIbpelxNGBF~5y9fo9nt{BwkB;^GUG?tmj
z&kfVALa4S-b-TUA`r=1S8@v7Z0$%FMHRaYdT|UvZTiN8<XSOVV2x@M<q0@6yB@zWX
zcFntL6BQ>;LwvE8G+$uLw<HCfY=LEp+Cw8cT$qEp#S$1cGcMQc;PGyZA<-^jQvok8
z1^=#)TXW%L7;8B;>T+2oo_UP~hg{WXUc=w{!ZRl2SsYYFUY#|pLB)pb1tbc`N=<*n
zyI_X7KVVv}P?AvPpeBVAWB>)(kf`x*!-W~q=`IAa1jt0RcG=~DpVTH<nG6aA`fm`M
z;LAa48{O-O?^cd?CaY7(ufgtvGj8&ygYH*S1c+fZefmg%6xCbBZMf&yl<7KbVnqJL
zI*KZ@|8u{<Lh1E@cnrCn5&6~SsK`k_bwgImEIAlN2e5bA$2M+b$DFWYCIv+P)OWqM
z@_580*#GnB*=%83kyKC+$}<OEhF96|c$kdvBXWs%wY`C&Z^6_@!%G|M*+K7`+$%H7
z`OtT<{u(Camg2L1N6rZzMZ|R>Jk;NGhaRU&oMtwr50qta`{Y~W*+5@LznEPA0q90n
zg;~j_)!~k+oF=5=GD}Cpp5jGS0$IL<8XBbKbgs-2i$1Km3l&CQ`U$GPw@mVWFZM5z
zW#pD$A67=*lEGw<B|WLCSYD%5gO8xj>9(}R>m0{$Uv4Y==4!J^W9NSE8KxLFjpqu&
zaWEs#vC~#v=l)|v+oWCsgS=wQL-<LFaVE$&*sA7Cp(#EtVbD8e3!{kQ6(G3oJ}40a
zBcHa%ULzy9gieOnyR%s`cp&ufMD?dU)$gs)6oNfO5-?%mcxP%3u)kB!h!i*pz{va2
z&z?c&o}C}?4b3u@&N(|S?@+`9e1d!^&mQD|p)MrZ+~LSE{3O>@{n?XwR$DfpPBx^;
zmFWWZH6wt?@bPP8egyw{Yu8mvE&8BYkP?rKjEvk26LRG8|5-`^q)a#1kw=sjOawo)
zCYfSYEw@@WtRN@ITSfEM1&zgry^|19Fw;~gO1xgBo6f9Dg?zYZ5Qi4QKXHnY;nZ=>
zH8x{@I>{$F46OH9+)gV0Xv#n{Wh0Te`Aod+ZZ`7niSdmyJQQ8ZS$Ph6s`c|{$~6^u
zD}<6`;X>tN?n~%HW3pggT$gRH*<hmEeM}Cy#-+Nr@6XaYzB&WQ1E__+5r4am=@jig
zHqnnmbK7};KDNx|Ghg?n&1g678rDvRxWYZo5$g26E!O<i!2K<`3d>SHysojx<o0jg
z%~IavFluTR^J!|5OgS!4B{(^OF=|Os&^sOMZ9$^wg6pH<UJYlf6m0tYr=oy1qHKfm
ztY;?likWbe&P$Ql0o_$mxrL9PQW?;XmNP%2q(@PP%bW<;W^SZQYB-fe7rnpABc02@
zs@kTy5q25#<G9WGV!0^u)JmgQRAh7hxmPcMdm?X=irbyU0~J>N=$K}<W%6Q|a7YKE
z9&iHLe@J;sr@J{w%16~+eFFk`>I_cEF7;O*Fb=X560gE@I{jO<{`(^h0S5dW?@g>y
z>0zqSQ`S>2)UWVq2lgrP83~}`(jP)(8~Y}ZCN*e7a2@?E(-@v@jU8IRTE7{4&zxDE
zrCyIvpg|pa5;60{tt*pid8~V(I8XZZeX6XJj&R3eCN1WxwkrS;og_I*ZKc=*;k@)+
z9Qmz=Zc0)byZ({nxoCFkX6j;gY@k3@3^d$1albEkAR4H0E|+NA-2L1<V~O{Q8MGHS
z(PLkf=3kge9XLmFibgNAfhr1RGn6`ac)pl%v$&BR;xL0>*Ue(>rW|RPO#E}}+_-7Y
zISnGgKMzN<GLVdRI5CU%k5I1jpU+~q_s$v21=Mlx4#zwsug}hDB<Qb7M)T`I25s@n
zKDr#AOaR^E(Gq_WqEd2iOlN-4##>kF(p9$Zh|z_C%2j^L%Qi+aSVs!ZVh**v>Xbd8
z6J)9=Mab_!V>lasqUvDMQqjFRn-;vO81!TCN{<QX2<ju+Ky3g1lMFjHu<1*@W;K1Y
z%{Zsy%k!zJXfaeQCb#l%M_w9NGx5h7ZX0ZKY@LuFY;Siwc!A5660$C9tJ$7G5@tax
z<>z=QCKyzBmKYu4tY&d(&b<d4=g#795zx2`d&>_IO(lZvRIEC3008{-XzPXN?+#$`
z&mYfu(3?e+VRVLr4oKjl{;TH)L&yK#_R>g2<}qZ3udSWP#D#t154N~A?YB;;&SbW;
znGFZmEfeV!I*^Jovp2#)-C}o+I<XXzpXii?GkT7`lQfjN13}vLKn2bRpo)_!V10ci
zq{ZP+uO~L=uj<amM|LBayb`A=vNUo5-b;Thn%If2j)NiF5w3pcV)=sXzaCFT-qZic
z_P)(bhUFojzpof>8=21zt>AT3O=J7V7ak;@qSwBf#3ABB4=TH)spd*F(MiWiEZ-T-
z`WZlVR!x*!nj6GMwyH<r;UI1&k<DNug`(~eIo`fUA@3GGab$i>_v#-SOgg8zuUH7I
z#5X1A3Y6({HAbNlms3=7mWMh82MmnBm_T^)g$dcupohUt*LE6Y#Q%oi4)1$J$)Pj=
z{%Ml_7U%ZKG`Yq^p?Pi!*LQtnQBovOoHzax@`CYRe>FBZj^p|223!i!S?F6W!CmVi
z6oEPTy!6xKzh)j5ySp_nLy*Uek_3`os8lTl*!+ZUbuK_{?N;aD)xGUQUq)nl^U+r|
zjp7zJ4L989pg2`^RfJ90^>A@Iy-pKxw?D|2RNhOXzs-f0P-nv4447YFIi3MO4Eg}d
zfjTb;zEUE716Mk&$&;|DlDqtotx1mU6B6bcW`i?8p2Ev^5L2lgx!_%VW*m5sFAlSd
zZzfUZ5ae~ePSX2Hw;F=sZn~Z#xB3YMZ#WN%cyHSmdQrKACQ5bS>V5k}_65o&^bR{t
z<T3QvVN2_11x0B@)L?9f$?N#|WE?mDq#|NHMn1jx&Fi$Q#}!R$!M+X@B@<r^HXY|*
z!^|d{qWq$ls3fEB-?Y@IG<4k}z!L??>H6I%#yGA)Grll*?s*T2wNCEWE3!+~sNf@6
z{Qr*a3hl}l>%#o!jM-c{{RI1f1*?D)IOD~~^VL8RF2&wNkZGV6fiftgF4Ixi{s3w}
ztp`Y?T4bgXG*(usA|@#<l!6-cG<HX3EbaAZ@-j!JXeQpfFM-yVLqkn?<vMIigT-W*
z#Iu_kGjJba(PNU8#)O`V#$e@W3f-2CJ_=*`us@fa!@_H*ikp(yoBMgpCDhcrLEw}U
zFHv5>@m3xJzi6V*sw(4E!;32vP}k%Pz}IwJsY+7gdTVoUn!7{lHzsC)zEy>_Mjb<#
za3`P0)@1rT0`Dmv#fymYb-ewC%)=ECrq|5-`1=$EmXSn?*uD8WT|BmE?e;JCJEOt<
zEa%LgV)vF2ijh_FNoSbAilJpXeA%9?HF@rg$Ea`0t;ozL>ol?3tBR_i<}=6Uw;c^>
z-kyQ0F&DC_(R28{EW3|Z4(gS?spYT9^)g~Vf7*56Ask(<KL{?@8mH<wPiuMXS2QAV
zw`{Xvu7&5cwW+S~Va-fW2dwuSgFzTHFuTFT#az1JW*R6#k_8DcUnd>?Go3~#?2G-T
zT^YJsYu@-{<t|~(`Bq+8Mfc0*%Z5*l$+B|uL1`JMuQ@pxl|y+doXba^R4m!sx#K+N
zA`si>8$W`;16r^Z^}@xjR}g&$+2i@9AH=2fosPRAv4A_o@#a`6(z`eSx;jk+e9BEd
zuBoJ2mQn^4)JuYi!=ml*?w`mSCtpJMHv910?2r#p4V+N)c?2CxIT=1){oIB}`LWy=
zRmGp#;Ea?zKl@jmCv1AZsok9XPE^*!NqD14xam`ox^f_+<F5DxEqArBP|4Z+1mO0M
zbmKR@23ncD@tSS3?oyufO<!@_EK~p1TcNKtUmQ(N)n|yromkWc|2o0Gwf;xL>w3|L
zDh^Xxs?+aK&u;IIE5#3L<{zG#7agZ)B_Pn}`noVJ9ArBL6xaY=ufL;N?eKd8r=UJQ
zl>N{5+fvzGpZT3k$4@?ap7-kbo$o8FY4RTJ!FvvLT$4NuQ*?SOFH|%uZ9H5wj*@u4
z*79`9gTqQ)f+l*Q{*8?S=bH(Xa493Uk{aT6KO1xS!Y{iM>OT#R8WbKPkYup_b?YN~
z__QaI*@sI>d9|;<fBEV!C}`g0E@<rO*~<2}11D8nzYChB@V~PF++=h_N)quOSknmY
z|03>67aCv;<gkzj?G1d@qxa|%;C&lYVAJuI6P{_^Y_|RwwHIR8H61M%(sDb@zQ1;W
z7s4g?go{Zg=(&y$87496lCEKo@!mK2R7;<^^~_dl1|#Pnn~guYnBlfoR?<?Jk*%0+
zo*7j{0b@r*1<A=l-HVc%O~XFTwsW?MX2CcfI#=8oFBbxyKW{$%TBF;N)cmE8`O^&Q
znR_v!Y4=bc5o08C>w?<o?g*$a0xH-XpItMh4#vOi1b>C{+EB2Y#^i)g%e2PXj0>uT
z0b=Dd)y`cW(wr&3XY0P4d8@=uK~0roKzW)=)?83ckWt=`A8XX7=9S6r<#JjH>q{cA
z37YQRN}pqty@Y*^$SiqRDcv^Td_A_n1NW{6iGwJ0Bos1u$hbG16AAfUb^e~MQvAbI
za<?5vJ5DZs#3opcrZR&2I)YTVm7Or&13!2jAFJYWTF)C+_cpvPlfmvwk3n!!=fw!k
zer_0X(k(NOzUSfnkl*Vd_x>BnqYba)Ubw(}<e<shbEN6h)8Qzy?=@}y86VlFC2HIX
zZJLkwXfKm(u{qOzq~#h@WcMhmwMUE_UdqKy_dJ2eJdyxH0qRTdMZZKxAkxJ~y=<2E
zjkIQD6DL9|*4|EGD%Y^CTf24&lWr*>sKTaV29}K(&L}<`BqMS`B;c-eFqwV1b`@Yl
zpJrPw-Q>ree<v<`CA8<2tsL#$`A1=x>uK-BOq#ANaQmwdqxAT?;|=!0ocu%r?S<ea
zcwl!@@_;NuU?UC{xA;*Xtu9zGI(O6!?3kU}KudXU?|hNE;qUw~7jxWV&wfd0yN+qy
zpC0tBs26ktNpb~E$@-TN|MajNb@kXkcN<Yr6wZ$Ly0hK7`9d}nYHhN<GH;L^mg-6^
z3U-?926w$fhwV+i-#Fd8Mrv~m8V@RtkofIX?q7afTmJ%h?`l6-r5Pob$aM+G`b~CE
z8`JE`lC}_-&5v5^`_u}Bc@s}&2&Sg~)cx<f3Y=m<W4IVA!vOd31aR#eEh@9_H|Sy6
z2;B?2z(dA~3UZUtzV0fO;wh$v0mQP4CZKL~DcDA}rG4z^Jx0y3RxKhz!o3kb!lUoc
zd$OJ#PGj-Jk<{+yT9=cdz6Av(P<wvG%P->J3J7sDFJ|oB2okxF^ZJ_u6H46`{MPO1
z&flJFMmC=y=ot@p(CvA*b%vf|ss!(#T(0w3s6xz~@eeu)56!p5*P#8IdnePo#U@TI
zGmr~*kCxO$PG(rF%F$V`$%GsYa~87{i!bviF2d<(;Zwn_i4Pss?&?ojcr3Y%b$|YI
zlvKYa7KF^d;*M6uzK3X~wkq<I`myiJ)%_+>tYiv?pXlO<4HZ0xXSTOE@RckQm3J^r
zsh-Y>@fbni5D{?+|LC$NvSbp<DQTldSDGoDCt_4twNk=MXP|K=A49Zx%t&OcO&nX>
zrmW0pK^@wRLv^uCv5PBJenq`}OyHwd#}3ple!G}|1id8sVwD7lNO76-cq!uem&=cU
zx%owkc9ol+$loGa^ZwXn@u{Nu<2GqQw`Nq&6Ip_JrMuv9rP(q|jC$V0Sy)LpgDa5>
z!;#Ewq>}=-QDC}VJ%)sz{^K$LJ}3Qi>LBq;!RxNDuQXqGJV$^)A2g%>`ws3sK0gZi
z6}<2xWO%PJo85*$vGst-dm!vhv{wgHnMP%bCMmM?jo{-h$rr;$?<Yr(o$JB)$*=#6
zSXldevbxvta?yX|cXTQu=3+b?c9Q;?aDE2GvNa?USJqlKGRd$)vlL13Q?GAc8FHVo
z9X^^br-)xE3A2)7xi0Q$AKLEGgzVKwX-J(e9*hn1N(7+(`Q}7h1<Wb1A{XF#C4i$R
zL&-e`-B{ktlJeI#{jRNRd<JcwPCH+Xo8LGqlbpuKZ*o7b5uf(Vg_t|Nk2={98X6i#
zV@W(!AzQAW%kn`fU#JZl$vKW_vOU!mxUy0TWWn<tHFTLOEXoxH?oq-+sGsg<CreF~
zHNnZCHyQ*S6K%~-caT$&UFh93%Z<j1#QF8#nKT=}%H;l5fU52QsWWMIeodd?91S(s
zi@Ueh7={A!p0Bkl{=ML*t!&x%^kIP>{xy$*#|gvK>6}@3zjIL0^A{Yt{QLeHHqPDV
zoJjeb9yLL>pERiRugsfFPyJ`$6_KE?7?W1JGP)~(v7*9VFDnsQgDG|0>+fkg>Ql(t
z;~F)uPaz`FNXShuydP*I5@(_p87c1&%Ism|?a{GT-pZ;pcz>_98F630<+*&#^Y;Gp
zZjrE`Tz0ApZiU#2x#_MGGufGzWtw1_$j<|le^rHF7<kBt{QANZ$Gp5-!Qo%w`}p=B
z$OhieU=m3c!+aAGg=bLW@66rM)>^$<Sl{=i;)T+XVc?#04%1IPK5-cQ<yqf@_f^8T
zDw0nm+lF!Z(ym^JgjgUCfR#CB!0wCwqO$@naqLjA;0w>&f)ce-SbyVCJUd$JvOrE-
zFR<&9gkFbM>oT^>UV}Z={k<O9-T4(RH<(a|v~Iz$3jXrV3Kar?u{ES7cAp}?uZ|cG
z0NZY_{lwAXAl&d_?Jeak36cg<t`jLgR5{s!NBg!xJ{cMK;ixnYkkgn+w+t!cVF<e>
zNR&VyukTu2U!8h)9WGPv15#HyGFViv99D}Btqu<EYpcnq>XT+WFG{yGQ$db>;T%y=
z_vB_7dCBkFsIMXfDxV>R<S!Vt5C9Eb`5?)I9;KO|@NS9c@&@B<7AyB0jnXc3izTu$
z;_~eYu2Xr*S*{o^7!p7ub4}l31W`b<@5B#}i+)^_i;SllpVLu{8_N`)g%k=hSCn8q
zgp&erf_>^6JQ@)GG2*#}&(h8^c{aLe4+hARU@2Xm++gtzb)3FV%1r9Z2o&^o@t66M
z1=;o^CCe@Ahqr6qnFKzl^_dTxc(L2lBzR<}#j0OcnH_x^QiHDSGgo6JuBSEy(1A#Z
zx#UE$6litGlTl18)<)^EIbEpm_9)r&^zh&fmoC2PvE#~WX$H39n95_I?}@5uc8Ktc
zsHc$Y^tLs-QwKmHFoJBPI^Xr=MgP=I`QZC-L*&y}`lwJ7Z}At@Bez2D?)UBlMfXD<
z^DA4s3tDnVQrZ)UeBU7o;pu)4xYcRk=;(gLMA?8veIoB@Z9+4M&+0U2qq}@u!Xnr!
z{lXN_-FBf~flTw7{nSS?GCSE(j2=<BH7In=ZP8`3q}-;P!mLgH;B%_qh4wJCy76Yn
zac7Kyn^}42*8VnrbHLs4_2LCQBs^Jy1Xnc!z2S8jb+U9-<73jVc%xbIx4Ey+>)fWd
zsPA2(l*vQ}TsVkp<Wp)zs^4?iq?ML=ditJl=e6R^BbMT*{`<Y~5d5WYs`p;wCdGsI
zZR^d<=qg!=vkD7uEdf;CPYCJVPq+-Jhupl<{6Zvc8}(kybM1{oGE2*5o424w|3};S
zR=)>h(nNIHWx1PY+v0lPyWUH2^V#AVce&V$&ZmJzEB=R&f)PflN1@m5harzhoT2v3
zk9g1P<{XPhBD;=t`1#uh;>QT@zn2{u!(qqoFP*;M5PO;Z_D^pfCog6X9~D1#oaon|
z<sSt@&BFop=<6Tj8Fgnp|7v88<Xz)rKcyX<AV%|+3b8hXivgor31?TzuByY=dxL$X
z5JsX>N47~ZWc*0sh{)8cgx1PPEKOded7Cp7o>4bm!)W)cgzv^%B#&GDN?F*d2Z0Vl
z21h%qZ9si;Vh=ok8=dJs3*tPB+-ykhTne}CI16|8j5}=PF1dS#+Vdn$oRCxCKyg6+
zt(XaOP%zOh&kf5dN!?RKHnV#59cQLU-&TIy{(gC+Awpx}uoJ2Gz(|g&ilj*9sJQ@=
z=1dxZ2d{6cc2Js`O}JajoN#tK6DC8yN@y|Fvc-8`7diVY<T;b{^aL56K3BF8+d3Z7
zp<r+@GR%C!AvSZQJBWn(#XFRAe^A#!dg@qC^Yom{eR_{mP9YH1k&{N;APymC_}W34
znDE;YwRCZxs6euEAljur4A-CVxw)P&XU9sNhm*w-(emAe_#+5>+(el;?X^4V;6qv@
z@TRfmUF-ew;j2RIeI*K<7*CO9YL;lQS)~T!LWyOS?PxQath&3lkU-u9i|RDxIY-u>
zZ?N?MS!}hWWO2_5b?Mw&k*RS@i#Ra0e|`wOiNErgCD^0{^Ge_7+W5w@d%iOT%-Dk;
z2#K;x?W$QDS5X~NsSJYXi>X6cozKZh6zl0LR=}QQW8Eb-dmN{#20eaN$LcyfFs21N
zAljuH$$3>Q^CFP{q^|EAU)q`lo%$`3twOII$rJ`L9F-S%#u-GK|MLg_nJQ#q7l6BU
z>npZOzX1p2pKAQeH|4mrf}`FgjV+?!aazxO<-ek$KfVbL@m;wWO;8n7NQ!Ly5wr-4
z&^qW$s1p{kHVO*7euFwc({8dQALLMhCrj~$IruTlONFLhAs|eXoctvPIX0*H1=Kj4
z>DKn`{Sdd4ezW-jlGpvQSjgnE_4J(dZAwX$<#m|mLmeD%Jh`X%zU8)m>-Qq<u^A>r
zo&9_(9QWI{Nh|S>1VHWW;_X0#bU>>h!AmH1oY_vL=K|gDBZyRJqjbi_@A0G7jo9A-
zTZ4q8Y$auX!>iGud#Uh20Z5A|h=@p+6r2K;4@HJ}g{cgL3J6vb3xh$RQe9OI@*0GF
z*zihbkbQpdY~*(HDr&8zbX%f1Kfk#1;AiK*-F(=1J>xbTJuRkyYZiXL7fn17Pmh3m
zzaDacTZvBOm>nJ@*-wm^z=Z#c2Oq=#Z2vH{J2?_}<SIQH?V#cFaC(uv7}`>8m3YPm
zLnLJ3@AXaOGZ?r-|LDI@Bx>3Gcp`yg(tk{5?jH^9TfOvsaUw{AY#^gNd%r~YbJ|qa
zZ@uByXKxhV^!fdA@JTr8A&*Kn^*6sTg9*f0-0REfrQdl<<@f!G*Aeb@idexzrbiiw
z3;ExyvIaX=r|iY^P;H9w9M(lK=enorj60T+xR~(dXcC0sJXIf#q=}ill>If3u8*|=
zBJ>7Q^1mL9mIx5}K@UV8T}<jwlpGuZhsK~}eN%~Nky)Pr00bsE^<(w0K;to0XrLNI
zBos-KGqn8|`|B-PWg|+2Ct$a3@}`8&r?7Ho(tF(2a=-=-O%uQX*OEqZwSR6_>d>R>
z&Hb%ruJ?9eg5O3<hE|m<-+&FvH@9oszuICCUvCRmRC$-`0x?@~(w=&FvG9V>vDAhy
zm$K9WzpNM?zlBr%cU7W+P4%!<39^VfNfZ&irhyc;gMpj9zpJS~(YiAH?w2=_spu~t
zl`ZwlxP$2vUeHZq3+Oxl&jV|L&C+qYgCBbI1;a$jnT*cSNK^qu?m%6#2#vLzC7+M<
zGTjb{Y?%s|p}a<akj;z{)ZFPTcq4_<f89yF%Zi&zrhE<`4J*SkxwUOwumn0RUmTrm
z3YxUWaKw=x>P{<OlO@vQ?u5HyFNwu)+3{`%W7*JXisb6GKQDd%W1-H<)xYJVO{TU9
z6_LD;ob>u!kZPr&S^=3%A||u>c)-ng{yq{^T_827*MKPLV`)P7CwW)aJTtF;4-J}x
zfE#klk-pbVWpIC&(17AnAhAWIMP_YgE!*#8k=dRmYpu7P+bH?VdV}UnT)KvVt5|}E
z_v7<h-t2mgFBPb`Dn`4NYSLy|ebeQ9vxoA+z~4`U)WB}WP5m-wAnFkEu<oy^P>wm8
z0g{icNbB=VYA9D(^+i;iXHZ1(Cge)><K<FEW<>D&HZyuU{l?sJ_65VQsCRa=3D!=m
zSpJ!b!I3Rt4&BmLJ)}76E&v2-moOKcNXv0}FPzrW5zS6l)*i$bN6z}GU8l7HH=wlG
zx|8z`dNc*H)2or`f+SYRCczHEbxIm4IotE1Q~4!}U~_E$P9=uBYXYjz7vhW*eW^c#
zJ?mh2g4p>aVo+;SBHd++?Cpojuit*2x)5{HNG{zy{cugfFRx{2_j>uTkfanpc`zJE
zcSQOEpi`ms0+|wni42GgXCPe}fIVDiX`9RWyaO?g(tj=0YV6YT5WTOc1R+#<_Kh%&
zvD~%sseh&-Wx)tBga}Mw>tJyQDDL2BqgXoZS85u3x7atG5EE#ksaOgL;ruZinL0F@
z@(Jc!!cR-q$C8@0n;caJU=^Ws@D1zRGEEY~wr-%4fX*xVayHa=L8A#6Wcd4I$G?k0
zu*kT`KXkr{0VNWM@9UgoJcU4+h^a~1^8!%X*41*@!?iSYnUAOd&WI`p^HzxP8kE^!
zU<H2U@OQo&u|H0JR5DpQyGb>n0zS!cGO!jRo)Jr;+R5S)nDAEPkSoe3n3P|!I4oPg
zuhg|3pnh(J%=BtPH&aMBE|a!>jw%6(K#s!pROg))&QyR{Xf|CeW@hfsmij3Vkxmij
zW*@Z;{iDBHXFA;x@AycbR&3?~7iA<+GuO37O%@<6Ib4k;;~-bflcu?tl)l9)Nj-nc
z;ls<Of}}Nwb{;)9#^`pE<4k@)xrBRGx)L&khKbf|p%IWQ&0E(yQl=I!M1G0Oee{63
zqQ3(bpd`Uh#qmg#>UR!3Z^zU)Lf^*~2eC+t@+P<CU;JbwG^U!VDITw3#rD`$ROT%D
z5f5~6Qzlw$Vj0wZ?xzO1wGx3O#I%+;Q8wy5i31mI=((F`IJI>ov)q+c7c(7A%ol4T
z^O<2!koHj@O_@K9jQ{5Qo5czTqdX@-alq(bjUn*9=I<I30$aEfR!YL(N*;q~_;K=S
zd8XxwW^q|ixVd^A^orlu80NF(>vJf0!N1wor|UVau|{(FR<u0WJE`Jcv%fx*xh##-
z<4RnohE6C(jy^9A5uf_O-PZ-6Od(z@#E%tx3k<pbJ8(w*9Kll+#^WC?c@z+q#qsHa
zsirj?brAmjDHw9o->I#5$&qkg1Bb}Ff0@#sz-o!5I<I`QVp2faw~GC#O#hXozy8F=
z!6Baa`L5YeC9+Wd^Dp}IYAK=<YAdOu<AetB(%5nK4dTDK0q)#ySEZ$hU%@ku|MSSV
z7qK_cpgc>vt7*Ch-vN&|AgHaNHs{q2BbeK-eoAmSTxOl21g~kcP7A|0Uk@e}xoUtv
zd-W08s_G;4*X)BBiDslBC|pS-6ip1i%t`QxW*7u~!X5)eggx-4i8HW}jjdmlXjB2o
zqUNWe!hEsG=rT<zr*ub59lw=QLcJf;=@q7l4~^<X`O#l0jGkc0IZ=;St=M$c&t=R=
z^hrmy(to-VtsvK&xkexE3F~pdHw#p>6XsPp%ReNhw=Tw!E~u|hU9kZD5IoqQRgi{R
z3Jj7JLC`goA*HK7qTYcZ%=vU;V6Xgwc;T>UQGzxu1P&#SyNIu|CXJ|OkLBA)#@%bV
zzBT)QWPN2@9MQIB;}#&n3GVJe8w~_^2<|S81$VdLZoz`PTjL(wt#NmEAI`mV=F9wp
zda8EqwO(28lGe73h-zzeSI`W$R&H8suv#3=bX>8lbbYR5F4FO9(-VQOD$%{#6kTqH
zwb6gXSEJGIvH)enog=o7z;@st3MdsiSuQ^oCk;FSO_A0xp)PPzwKldDV&y-l>EEKF
z9Ir#sNBDK;#Ke+p9<oBwh5>gG*V2Fe?2x>VgU4_c2cusN=+DgnlgDUC?TQGitCUUA
z{eE0y01(}9y>dwPPHDBpj%t7<(U^aZo;XJwyyYzmf|5EwOG}=r+mWY;dUVyQ(^nqx
zwxOe6E|AAusjPsY{J?Zj7mOBwe{U%C`0Vij3aI}yfodTUT+{6w@iCZsxCdPMq0c+Q
zl?d<>bw(S?1O<tB7Hg+O8`&0=Y(8E9a3^D31?y4i`DBP#2#6S+MGmTbeP?xjmZ+5L
zyhqOBE?^LOAA|Dpe?K%Xt@j?h*TiFOW$9WF;Lvn^j=*{qBV2?b1k4IvU5G#sP1`6J
z#%l<lh-Z5NrU?&;J48+o8&GG#DSEEH;CnI^)K2{z;vC0w;?)(5Q}~Q<J+D2HhC{Mw
zT?=#quWFl533QBSHubqEjg%zrFTA(i@{mN+%9355LzMMK3kee5#Z{L<0hcH~<{Y9s
z(p-Op`v%7w%>TXW!(b3_5TKD-e}7%B&P%55F8l$_b;4is`SPenlDfJ$oQ2OT$J^~L
z;ntvi2bUZmq4hP${1$&0FVr22_)kE8jsk}+)<-ys<bG8FEM0XaVp!K3pKcHqcK}V?
zkzzj+o$#2gi@8<_FM&qN5#H)T08B^s$?yz$)aa#V$}XbpP|~n|i!fjSH9tWEiQvJ&
zo5t})OO^ijRoWiF=0~2T#b`g=kje6j_SjU@5qk+svfa{|2e<9M7O`g|@G-{}zLM<6
zfXKrsBrMm~*8h0Ew62V1g-PF~)lqoQ32^WL`qx`@ykt$k20dCEwJivmPU|a%VZqE6
zQ3lvDD)w+@@!G{hlz4u4+6BiWJ-eH~3!+(NF$bZy`2Mkk0fi*6<U}9)In8&b1;?g4
z+7F0aql~f99|Ibvv+|+kU<J_MNC#+Id*ni)TDY>{{EFayzj{>)x7JPY&sFGmPJwK7
z@24sTp#5rrcF&fnG?rBpJh!m-M+Bm)EWX}NB``(^=)y2Z^rYwY2{9?FV8c63Zbsh3
z%7g~%WytFfmzJ}KSMRecYagS-SLJvg7zEf2Xbd^LZ6WC#B&Q$%hA=QcocuRWbra8q
z2oS)A7|sjg>L5#6>V=&bxrumGmhwI+!Cgt1=&-okCVsd+ZM=?!`*-CymXxwIUfJ1v
zYKt(rH`J-E{5-z??iI?__>k%1^%e~G1Nl~4zq6|nJ;7Vx;D7>+lTPc2GYFZfmGsBQ
z4$%KJ2>)|xT;zHxS5B6Lp@3HB>kR%ux-IQ2(BT2EDcnArnEDEje?1Vi;oJrn*=2ni
z)keSu6!HK>YNOCfllpO3Ine267@?gpJ}Rma#r)BfO`gr;QMTIWljv`?yBjn2`yfM#
zPFMu~f3fyMKBf_BLYH;Py9ABNErtDL;n<H9a|z*LSq!mgpMCm&CxxN56pp1Ywav|<
z8e<5hZAqMcL5SzwSWXv0=<w_1GCRVpMjcMr(GVC?+Wol$4uM0}4ORP5*#U~JNu%;?
zOocSgE1Y1Jo$8nte{w{P|IR_j@E91wHb9*&FjSbE2``ChZZ1D`i}HPexca)~QB`GP
z?Oj+<n;=YPzMDY+cexo!sy`Jgb0xMGB^`xi+@ww+P&Ma)kOu)>pc`pBsY^2<;^WEm
zWiMx-9rPtU2D6I7QxUqbQGLdq<l?)g?g$%l3gV%^6Ezf~cyOh5nf-R|N%V@!^`P}p
zPTk79bIEJ8iO%1juBHA}PK}UUp>dqf$=o<3WtFIVN>g%Z3Lcz?Vkw5N?XE7eJZ`k1
z=8cm(bx}wmlYZ~o5pL}GWiU@m@7(7<frHR!=~YET(AU-qn6HIYC-~})4JwBR121Q6
zEV}topLriJal8CFoeWiGRx$4ZUlNg)f9Pc3{~8<SbZvU<U_z>=-SHk=!8jDom`4fP
zAm(6Rq|Fn=tEkM^tM#wTBLs@_HacJ(s&uxsL3?X3PYxd6vKvk*zTv^HTfLY~X;52!
zRv}8>LDYYa(-=-kB)^MozPIYf22xJt*N-&V4<$g^BJtp(!ypCiG|;r-n31E4d-zTd
ziIt4ZF^X(QSWZJ5$VO$*#emLAOviAzJOwr+{@&zg#DU0C$@~uYsHUalMI9I`UE#h+
zDhBt<t(>1RKy<UZke={usMU`=>lGl}R=@UG^6m<1U4NV+2FlSs0Ws*|*v%7Z0Jae>
zC5-F-ym{dG^t?<N4`$Wf3$2JZ|4YxSk8qRlu6XH%LL2Rbzf2z<>|wy<@~U&x^mDnr
zpMwT{bQ`+Uq=aL>?byTb`agEo4@qo#)*K;xY_sD})#r9rIgw@Jbgxb1+!oIdQ|Q02
zvmKI57H2~RW1~NntHpV(OQDLo2#%-<l|{_aT;!5aN!HYU5>A5nk;{`2ZzS_oCfIg0
zxJ5pE?rUX~M^03o=UG>V4jzys;da*<Q?n+anBo1SUdXDsf?AD<jzu}%u~>(;#%)NP
zfEMrMFGl6SFGZ`dtwkDzKbUw^zGGq&d&!}H4jPbH+iZIlQjd4ZQu?#pD1zRy7X-GV
z4yfTQK&&pK8~l6mOo4!Be+O?MvHDub{!Bsgm;J{F3jPm5=&E!uSfD(CCU7aiaOn^O
z!pgEe_QS%We5LM{{c|sYO#N^|uZ@$af<oh#mz0kLQhW=?q-jZtXXHC7rdXLRnbFZa
z<XY$uMYtcGQD`lz>d;b_U|7kp>o}Y**F25pzp|M7xe?~#Cv<u<vr6zwztgtj8M4rE
z7J^2wwdVCKw@|D^;rfWJ-b`kP+Q3Q#baCP^8?{Flyl_=7M_(Nzb}R?9@^gDVgjN<e
ze+VtR>diQE84JI?H{oO}Fv7@BQwRY%v~+ZiGRcfwj&w{~jo&8aCdK^Zi)U4Y(n?((
zLt4+Cj>kf_=a~q0@4`p18(fHhPFSQmds!Y=Qm$+6`_z7qR^RaQPpeThsV5--l-+*Y
z4EY@04<J!G=zoGb*2x3_eG-cfbnF2zT0K4RLUdK-IAZno7{a&C$-U}ljuhu_3draM
zJGfRB;<so`nYKxCrj9I%7B3`%#5mnb4fzrOF^`(R&m#5G^!fopkam|2{f*EUFE^R~
zSTSlj{Xd`<2J_!mwfdgduU?iK3HZV@eTp%%GrtuAS`3ysw^__J+@xwit-h|?v)}M`
zlXCz`h?t!};kDUr!>j*Yy>~(Uq{$S^)b@!X7Heh;4h43+g5AFI$FZ920kBtR=uY|m
zEtCXo6K`h4+*CI%urT(ALpy_WOc9b~oADCrdy}gT2DM~Rxl%4F@IGR>DxR;|&KGg4
z=1XBFDF85%X`^ffz^&){o)y5ORO6LI%Y;=pT>S%&n*%yldpR}vG_3H_xU)Z;Mx6Yb
z-_FCGyyrLT@9U_yBAVB;7Akd*#iPES7RqIuHA<&rS}Nu{XoT%adK^CPzZ)yde&}p2
zD6>BLK8I8vjMO=P7{Bca-u(^7L~|O4P}IT%PQ4E&f$QpHaEexVRirC174jDcVbN?q
z>?&xadb9g(d`rbH?68lr*#>)q(ahlj--XH=Ap|XyFd&VuDEnhxLXP)2Mq0A?%msOl
zK}Vvs($wst4`q@qg!+q5F2#@?4fjv?wgkk6n>z#FfdlAcLJ6jDIoicYa#G*u)g%06
zc$|2!NtMRlH_1tuMK*XJTdGs5p<`OD|J2X_ez*VmpNO}Fsk_kV>WJ_Gz%ITQc9})G
zO3D*t*aLSY;P3M}m8E4H-@gW%pBYtfkZ1j_3Ls$6p|b1Kp?UE}cWIUNf~{?HSIbnM
zcsiCx1P;@x=Xu*PbK3(sx9Koe-Eo7CLo%b@$yY4w);4f4y&AYcnGE)y#e8{*cC)=d
z4x;2K)GY5pjWJEh1P(#f25+fio!OX^UB??3c(=H%6LTi8@_gQIXT?wR$Nq1>lx{{^
zo=?vi-SKR`+aVQBfU0C*p0pQl{uYl&s^UNTFTGUA)9V7Ax%_36%|%z`@l!tAtjebj
z(Om|V{1Fimx~~2m#U}fbTQ+mUNsV}?q~T!KIki^j<0DAZ`Nmi2VaJ)hF{_E*)t~CR
zyVUZjIZu6VDN*fn#kcafTXT{W$XD)LfK%pMNqt}8hT3T&+vVi3uiCDX*gyqfD|~5z
zTn3jj0T-zH86MR{UmHd@ceWF$Nf%>+tHX*>LZvF}X$b6md=iL#pGrtiPalsn!)z;@
z#wS@=CH`|kv5lTW;~xtrdAj<sNr0iYWjI5km1iY@eth}%GW4E>npM$#F!IMxG6qcE
zS1x*-nBkk~5l4dCxKde?l479w+VYr5HpcBk?X>VNF#waeE*#4XdeUk#XHk$GTl#lL
z76|z-PE4YQ|LBjzQpS_$k?V`IWZ!be+3p@3EHHSwc*ncmu-79ky4ddMDZ_L)k}co;
zy710F@_uh1D&u5(J-I^r=B&bQ7r`WNC4<}U=OPaMGEPL3=?IRxLdLiGq(gKrvRun0
z=DM28u@LS8yY0lIo|eDL)Np-y)kv|3^)fa#Q{MmI>GSD^qOJz~N~1hs{Wby1PhcRS
zQ-xuTxve;MH;?<Gn5@ZyxtkysYIY5S@W~z%)}R~{@C#BxW1U_l)qeB|+hS_EM1_WX
z=d@`xoF;RpP&SKFThE5Fre2<Zd2??pV;^u;&7ej*X*Uxhr}dBsZd&&kxy5>D{K!-0
zc6=&oOtqY@t|_a6+X{e-0Ofv@?vkl1)MBKoQe)C?5k$C+v&djPIxU{uQ+i#kc3pEp
zN%V0H_WyW&_A*e~v9%XL`UhNxkkCtWmQ^E+FgA&ZjCes?Y{MGt7tyqw>BMm5_+c!@
zC?Gacmc&<uOH#+IrH2IO3Yh*1n^qU--zj*sk;9xQW{52q!YwYRkmc9mB!>ECo3q$v
z<C?X42V?69$GuTD0}4YI+NDaoh?^q}!wUR9oZh)8+~8+IM^a{Hap24*0y6<+yaX}?
z_YVIfuZ)bq#NBpeUKz^H8MXRwsjf)7(JO7hdSALJ1u>Nwrz?<XUK-}0ng!C~?HR0j
z_H=h_M<VZWcd*%Lp)*h~k|&P3DuO^n$$356mFXP3Lrz8fhreuH1!Jmtcz&?<@r&!#
z&X5^HgXXoF?NkpH#J(<EY7ytKcdE8vME4qJZ1pZ)xqW6HZ*flhJedhvK)Vriwl|ht
zg+;Gp90dn&gnYn2x3mYTw>>pG76p*pB444vO;&IUqmh1IE<c4dIvNi|I(Ys2>($n@
zff~Q-=PMc6JK}!5hlo`+*#RF#NYbbEvHljY`#XX_Bdg`9x>{$#c&1Q}3kQmeJbav2
zNNBMA^-lXNQAOUN&TOL5yh)Oz4`R))&FY)w?RG$#fFT-+=2(>FkuD3%Sc`6cy*HKu
z@kLmWK6-cO_rWg5ummnW_R)e0Ah@QLn4V;AZ_3<9{$>DULs&?->zDsFA^(Fy{&S0-
z=o7Mb*-CIBwPr3=qfnlFaGyf>X3&v|fhkUlomNDN;u-~COo_i)7?g*}-of}Gt|iJK
z8+LVvHnU6F+?=nkf1I;XU1p#o5uZ!-4><jYjBmDE>ECR~Iko&9On1$yNp80=<@u-l
z;&-(O)rJv)C`m+Gq=fl!su9UdIzx>ZO>z+hXj-b!i#1(hTe&6E5Nf&*<7mNo=c5&=
z-7n1=%SndiYEy@Gy-<`f77^t_1jtUpf6<V>#&UGsbJ=LMCddmet(Z-u?_R<3&-lci
zofN{k*7z9<KN!aV*YcA$WC7(2vFBKG2I|dH@HXF0l%rt(l76%r-B4UdhBJVC>1AY|
z??z?*fShUP0(fy4w1)G^`Sv#m!B-%`a%dtN5oBqP79hGvstX3C3AdkCstV&w>uOUv
zfZeaDrOf9Xm#O^KCI&PH-WFxZbeP*mtfpCdlv?gApInVgeaFri;Bssn38-`zYk#0f
zxpK#j&0({3F|1b%X);{M-X`u4#BY1qi(c6#9D(I99I=zePPVlLpfZYQ7gC(GK5F>t
zzb_P@>KW!d&9?`lAfWJ7_of!pt>q#1<7$hkE#YB#KVlLj!B?jc>s4@66deJV&F77u
zgTf-ioGLyQu(QswPId^F9S(T|$<!FX#(wT$2n1q#;Gz+J`<KPQrTh3#v2ef6=@2;q
ze!%BM%_h<DAUCv>__0#bc%HH38n>iP4wlPy{yIazGkLDg^F9k&{<vBE7fZQzjuawk
zW|r}=eIK4A58VXBE!0L{Aqb%@LKrv^cR=`Gr2F4WU9E5L7fz4ypL;U3Z!1N!C%U;f
z1=dfuSy|9V7>EP^Oc9K$^p?(Ym1Vzekq7q=-~100^_EtHjg2*wsueu(uP_{u^pgk#
zfVYiyBU=*V1DC}lnHHlBw{roP4FvKx#L4wwM5t7|-DJ5^EP}jCuE%v2I@B2+ICB@z
z1hgGaDpc@{S=7G5jvD`<Y-Z(S0jKMo*$w#fS-U5r_<16M@F>Lz?bNrcB7q22Y&vIP
zmqV**%9~vm=y0ePcxw@z4r9;HGWYej(vUU<+TF<308JjQ{0nbts|>ox-?pv<2%o$R
z4NUlFd6rd`2ZMueE81c7xG_kByeH){=4G}tNt0C#lwfRVNvpmU9`V{7skVw&xI|IP
z<FaU3oKv3R55_gtHYy0t_asEvz4~{M`PTWG_mhEKwpLS6HgKs6R6LQpXybEySz?#q
z{5X#$m8LhY_r{a@Ts!>6)NCJXv6IL6mO6GamB}~Id|fj2>Rh4#ZA_KU8C>vhHj{&Y
zUE)_(3u7cDBh?X`VKzYIhXR1Q7RUYOpJnsSg5FPHhwXu{_TpP3RGZE6Tm~qxiP%z{
z?iu-)jYt+0Ok2!Y*-(oc`1Fm7p1Vs<M=SkV%SB*`3S3sZsh(il_E}SO!3Tp@J1SsJ
zYW7CUg%9kcDCF1PXd3)@L$a?@AbFEU#^uE*q9_59c-81ch{PxY@^jrjQKb3oU{+NJ
z*fd(M_%$)LxI(j2Dj})xxjg7VvsdgnAW<24g&VZO2;0PS5NXx*lTSkWPx_iIgp$ZI
zcM4?cL;Cr^89a2o#t00g43q+!*C=h(AZ*!ojHs16kA1~m4x&j)c?M^npil6RVm_JV
zg{1Y5_8OKsw$nV38m&3cRn0U^WhR9?gmQIMJui(9w^Y5<-6nbeETmokPm_s3xKZXQ
zu;gvXXslFI#&yzTOlJAL4L9vif?z3^EQIZ*jXV4hSdc3z*;2E?;U|aYpW(;#rXgzC
zk?luskBFnihzFpwryG1jrQ17_X>S=(GO^7Mx6i`hAg1l)FIkQ?@A~2cCB}2exPj*U
zM|#XbYUMgApqqgbDi(TCiLO=dw-tS4-}XR0j3lkNDs^&10A<|j7EvCS-8pDKbzV_%
zAXS0fYHN6yVC2ICk!Xu}^XVnQ%Nq-*j+B0q;k17oW}JjoMyX0A7OPh3Sgb{tRxm_K
zC8oTx6T~3Eq4M|Sg^O+~vKuN)DU?bbA|HGv$EP~g!rh6d5nColcMt<`n{PDnTW#WA
zZvGyj3j)ru^`7*h=gX>a6t&N%sA9zU6mXg5a_6L{WM?y!q}U`kB3vqOi{ED}pgp+k
zSx@kstSYLQ6xl$`S+n515q&`cS7#eq@9-<E$wu3s9HAFw85Z!QQ^B<rjUIE-Fl%lL
zJGeV(u)4ilA;XP2rS(+QQlW<d<Y_b?0XA{|-zArA7R*E<D<q@ghy)LOcaYe!rc<ip
zLi#vgN4xBIqnPTQ#7GP%@Sdi)b~71b8BeuDH*0Tke}85WSLVu(&<vR?TWIci(i$vY
zuhn+<_BSJ#w^Q_G{FX(o^lz|sdYXM(y=LCj8oQ_j)So*%tl_82=f?+vhOXZ&sicl7
zVuSMg#2SSz3pA<xFdgOZ$GV6eMY+<QyB#4vEGZt=St@(?L)C4*!YO_vc{m!a!d9z&
zXr46>?LRPLA1F`}6%mWWzEO2Cl)e<-B;ejJQk%Rik>2_U8X2}ambq!`6X;dwH|f!L
zGBGhfUU{+FbhpMg{t(!7tQ^0K>=$BoAK-s~X#-T>l1%)vYrj=*qH=fvwB*)-7?zmX
ztWc-tavo7qng_EymWbRJ0VwTOw_2|E0_d&XFwYj#)DAzU&fjigk0CAXH|Y^4KITHA
zYxtXbzRxhOJDVcug8V3t$9CYE_WMl>*Q0QW7SH#$M1g8%X;0UwQ`h&^*XMq2(}esw
zYqH)j1ZZ9NSDQ21%io#Hci69wb}@t5{gG+clwj?3zMFhHj+H9g&WTLV<dc3@jKWEe
zC4bG1Uk$<<@Q~LCE*Y$r4oW1@)*t2i^gB$FOgEPIbE5mcx+<``p6^E_S90q((Q-eC
z?LiSJbY5w$r~Rg4D>jlg%0}yZ9@^;=dUIY-#n=Yx8g-{i(ze^=JGZEI<Z*wZybaB)
z+c^AslPm;w>~K?#+Pa!f=kty}!GUWGx59b^ApfbTA{3qr`~B5ngJT40fSh_s(`M1q
zXq23;E@%}E2D-<O=+pJN3(N^D1^~^2n|jqV1<=A1fW#N^sS^>|jC5t>2lojVf(7o&
zW}m+B8wd?7f=Wv&dKe&6z*NWE_^%J@*}iT2G~KfmnK|{XD}nIQvC;a>cp(Vxy5@ip
zWV|WG)KwS;Q*1#N*d;>RLiw(lno5EcY@J3p&8~D|vY@e7!*8Ssp`-f4g0ins6W~a`
zDyD_hw4<tg?&h(%gYjml-YSorD%mNWMMtN0iGEosO{}?1jjc*%{hXq;|EVD7583Y~
zGN{k>sC%VZR8Xm*r*y;lH#~!AGT$RK!2bQ!PJu22(re66ECF0!0T910a9Yc8>i8RV
zVNM^~b!;*WS0NQ7*)A}$=nXPxe8MqA$2*zt)e0SJG%60ws}3B-8A8*|8VB_$clyK`
zq5?QUT7E*CHQs~p$cvR_6x@_ufVx;x7z=W}to)fP6u{>|xgdHY<+2VI_es?1Pk=vf
zf0g@(cRjW23x#IOQW%C<g<NQc&yV*fI`rNIz2xobPlh>j%vz*ccV)hRR*ZZi*9lV9
zhWY4S)7rM7s4uq#Mj>F0qswNBOhknjaZEowKSMyqMZ`lf2?ZQNjS>Ps^CUG!svV%7
zVKN;LN$BMWdyc~(9+h6Pod)%)TfaCB%Dni}abl1WaXILMn46NwoqDI6zdM_b;$=s3
zQ!oEwXHdZ5`gR5JxYr(ySRO=(+Q1|%W-Wu<%>&;pK^Z~@A#ltxaN;PMxKk+m01Asp
zDpY^L{q%f3TTa}rZ${jf($xhI(&1`8?B0z|)vn%Ce2#Zs0>$L_O+u?inNF^bIEMua
z=3}n+Z<{HV3g@=1z{d$WkNdY*sqjJOx~IGI<(XCQXVlAX?j$6Y!f~e<!OL~k{fU#;
z-kA1{HS7bgHQpkyb=6b4H)r$dc;{i8P4;X{<BRWY)cwkH@1RB+)c(8MzMQSA-@a!p
z`rAne!%A8aQIq;(n-q{}^>sh=-YQGU?0-8l$w4STAX<iM5v;-1@D^o)iOy$r`nq^4
zNh<0NFD8Wg-a>*MT>TQm``30H-Sq0^I8@N&5nbxm`4~o>i44n74Y$mfU1w4UQUGc#
z6jYj(C}ChV)P)$lnq<JBN^~XE?WYHvzdc)RiYT5qL-5Scep9?#UBnxH?Fq1-7MNhm
zON#0!M`5=>DOUH<SG5la@%Hn2<fz>F{ajKrD0GhV8h$?|(~>1wkqlwZWMrT%S$m$)
zng6(_e2IzC@i0yuQ(m(?e8RU~T-I*4YR9Icp_%X_A2!-(@xXsPL&kTbGQ{&^{uTmY
zbyvR_=<1;7Qg)Z%wuQx`qti~pw&Xe~fL8tz^Yl4+)di|u)>G0lIJ`Q4rrI#>$-Q!V
zxQQ>Pq~3ByJObUW*fHxU=!W>kNL_sxK*CG0sivPpb`4F5jY_#38YuptdzNj;S|q|C
ztn8bOD+TPs7>vvy_jbe&0xdvZC6ujL4H8@|M4oJC7wOnvn&&c|dcHvVO_QFN0~K0}
zvOLGe{%}s*p3bcH2;Nlf!<~%%ia~4>`5qBn?=i-gP@lo-4t^f&eV<38i&|MH@fq*x
zMi(SL9_P8$xW6n8XU|#e=?ZYNgpq9HyrDS#>=L{Cdi>tHo@sw#Xcg2#jk=iYO+Yr$
zKd)!G!ToxLP8}`^7HD;4A8J4#d5w8qNO=EAB;;VTT%Q<bYb^B?<siEDy4Zd({TV7T
zVr4`0DP*~gK*%Bed08mifu-%Gu}@&ZlDnGtF247*!<YY5?`fSi+*dlZH9L~Fbd#dH
z&TJL_au1(d4nU({bN+TsaW<CQOO*_fEgfcJRG|Fye!us8)`Gic&!ArE97?#dyw&*v
z0iMk!MAu%)r+!<#0;tld3?9$r)e$_MAr1;mzzoqpu(}!O%T;0~*d2YlX^%VWR}a-{
z$>6j+(epAb&Kioa9bXAPn-uY0U2%_~BD<5;DZS!MGF^M2s`OllzBCs}GoR2k;os1_
ziuYBuBy_#mpd@zSP}n$oefOHLNOamOW=mMHq#>~}mAGxutQ+96e|gw<J=P?l@UsA6
zOhEaQxE<hgn;tQG3NombJ9wiX*}`}vMOq!k%6Wu|lu~1qVEGG*c-wW}dMxB=(^$($
z5PDSmyLpKm%ohYUz&%|0^$<B&_*$Re3p^y=;zPvO1qI5zFGlg--yW;po6&{7n#bpM
zFl|fdKVED*RJJ@Uf`2-q)@%1K7p-(=c?>-<JXUG8b|Al7Mr^(;RIMMpIh`AyrM<VE
zQTtw%Kz=F6+>bR0%{uDQdLme_=7>Hu1AX3efI7Pc=jPV?1eAO7z-&R|N>GJUbxNo&
z|KSs9$j_N5{G}%YF!;*!RCCV1s_%y8D6NuF@N9dc&FIuIXdr-E?kfZ(=53$qboz2}
zfx_!;slvCGZ8tDx0POSiT##5m$#~ssL3A4>D9CCAM{d<jj@Du#l7pp<zc15gm<@jf
zPu|zJWqe-!E`?ouH;m`PeGh=Cx~5I6igHc<0BPeOaOq~Q*>uxMpvLr`Mhx^HwNXS^
zeKr$^mI5*q4U0c&EaI^_E<|+`vPpCnBX`Ww6y8ynnHxS#`8N}!kYWGhD<yfVaUMli
zV9GOkbii$<9M>U>GB>{rbyO5=39bPz+AzZAg1!_Z;?PLOAxh%(O;fIZ3zd4;M9x=k
z7n;u15y=hk3gCAr+cWIGNhp-nT+N55o$~jXhU1puxX;%|wgTG(UbL=wM*|a&H}HRF
zI{fAsdJ<mYbrH$ljZuS6dj+Qkl@w5!Q|5oFSK)aQ*um{~!Tc~KNNx%@6S1F6>6J=D
zN>)qsgN5!U$K8BEIFsLeR@~~02P7zFc`b_`64WkiQ2?CNw2G-c9>KM(je?6jB3vsU
z5&!0QQ(w7lclIXq4K^^3li)s*ZI(k}@K6Ajqnn9eH+~4VEdc5-i^dW{UoBq{>c2-}
zRwK7s+axZiEk#|&F9qGldq#Q!Va@}xQhJ0}=}YGvler8HV4^K&3YXBPv4?%1BGVun
zhQS$vMA{CwHke41C`zZM+hIQ$)Q8^IDeG(&G|r;Fayw<z;}Ec$g!#LoQZ2!E4_ZPH
z1BeRa%>HoORoVx8H2R3ax$Ktyw7p6kszq&H%$oTZN5NS2bo;x0e98>B#=Q%^f?)q2
z@tOpQ_s-sEmNfwvcCHZ#jYCq1BEv8a%SM)Z)UEPKNXqbtIX=H=`|8b0m$qA0D}2d(
zDfu%q#>Ny4w1S2cMTyI96N^)}Y=$Y^7QbX^?WEnAhcG~a=6+ebvabJ$<n5}sg+;e<
zS}v1odDZQ;X~i(`IfFo`SncgKcYg(Y9oz*-i<o#1XuPx8_PHK8-ZFgo0j>wSTI~xG
zvW*7-D9bfk#7nK}Dgxy**an4pNJ!Wgv)>L{U7nXSsvP^^s*MeOmsu*mEV>rA%2;(Q
zH<nP?EgpzRW_@gbz0^D_!}S`XF*Lt=IEGOGv-lpG+(!^pvD5V~z}YkE*FaV#gzmq!
z=v%(HzZEnwjVt@7ohZWVD`Nj}zQX0!+mz>fvsV$I{_KwC>6<8p{CZVbwn7O-TdW>}
zR5IWRH>%^bhJOZsd3D<)Xm32|Ya~nsKp{mVo#=keA1Ib5pq_qrn}u~v%36if=j|09
z)Dr;Xb@g#%^0<fiqenFKMig;={k(t-`ZQyz4_xqDVCZzr1wMs|elpc>c5~;Ed`UNV
ze@jtt&E#uz=6=8N-0KiKv`eZK5DSIY2vBw($Az9ndq(PeYN0F!xVjHKbBtv+{R6Q<
z^LQ9-e5F*xH^BPK1WKMgs`Bw^@b>_e>+&_Yc7E(v79Lj3X`*rabv)6*Qr(v1U)GFH
z!nP(1$?&<bk<k9w0x*bL40rM)^OnW+U1!2HCs=0iefDMj(I643(RJ-kR3**h<8`ed
z4H8-j^UxpZcRqj^(7aQtjDXhr$K0Ssu+q8ux}<IA;l~~3BNtL~+Kv3>SxQ~KEty&0
zQa>=@_@{K9l_v3|n`mp`dV9V&P~K*^X;9+|-~FSH+9$XrBppcPf_`17T>We}(>#-{
zxO97pub6lVwWXQQkmoKg^uPU4F&RQnPI}BRY%;pn64i%V>ns>8RM%znw^J7-R27N;
zCH2#}e&644iqtNS*QOtdIL4A|Y%M8=e8AL;Yk8wDgZ?`JgtNWDze)>?|J<?-jS)-o
z`Bz7373`}gBZvwMdyP~AWT{6JDPjxJTwF{7C3a(7QVOyqp1|WOytLW|MY5NP(JV5G
zSzTuFuA)c&$9&RZzZ@q--Y&0-b<~JgTz_eJVSi(BQS59EBEMZ+^4HCU5CUbm6NDzJ
zxgJl^9oXkA)mKj45AhFpmvdb<3S=y+q<rg{dXCZAk$|fNQ)m@(@JCj>%2bIFI0r~W
z`J@In1P(cTggLsFehHS)Kt~${8x{*+FzeQ7_t%&9`!!AitB*i_&e#v_EA4DMCKSar
zm9eCS$#$nW4!XS1Ixq;^wh>Td30}*&okBS8JYVxRPpu9oN_VYF(rxW;l*i{Vi_GA=
z#q<<vr+EKho6=sJ3S^QO<<}QIwCgS6o-H2io2+i>xqt0Q`kSaUysd9hD`e3^CG$cz
znrVLpon5RrP9Sb98(3CpH9(k@_(tkwj^YbOR)UZ)KY>ho@%#i~sBZPXJzKX?s6=bb
z&16X$*LHEQi7E)ZH9wmS(=_gV<?u+n(x-unQnP*dP-P8!L*f&bi{<zRB8e)9CYCc4
z(XARrp&D(NoIf<Y`SE?Z)dQuxZ_F2ICZQRu4sA<tV*N>Dq~bC7749OrHZOpf4>7Ei
z6GTx!m1N?t+xEPKx26B?A(pdYQpeq_wwo$Mk{ij)WqWhBszTrN<L(W4Eh(36C`OKx
zmm|7>`0}BR!@ctw4R!7IkEQz8o^O?G<6ndT9=&FQg6ge<<U=8_Q;a25My*Jkys7@b
zDM|4+p!_gG&{;l9!swRvzx@<?Xb^BZ>vS8qgitr5ridp{Q4Iz>R_ebmei)#pS3r)4
z?Wtc*KdBVf$1Q$O|0HbqN7YS1X!n4pdZt}_kY3*}qJaWw$L1XBD>Sv?@>%|Nj6F-|
zU8NN67qdw}L3qkvMAZ4uv9>@bMIpzx&Sf8yOsD3q-nDjcswxICE;62Id=!V+Yupx0
zP$`SUPd_4nETsqktw3>x)IWz9k6j@2<v2Faf#nqqhn%!S+)0!}HOlBewuA~sp^iKD
zglbXptHA~D5eX?i6`Cv&NBnZHolD#({cpCEhx5q165lP&gAh6N@qSa{WPlOz$msGM
zFfqCyO&xEho`SN(0_SxF*?reZ;}1Jj53yJ2Z-*=NE}!cPnwnk#UXQg2(l<#JwP|}u
zlZlN0fNXZl!wbjQvFCdGViys~*$Ib2ZKFFxN}|=1vIef5%r7+snv@y~aCmJ}U6<x*
zy(mHLz^f7OAlV{v6Qla}{Bqg3^TP7gO;GyOqWf<Fv#Vw0oWHp?ZQQNLQ#y8`C5M^0
z&Hla*9qn}q4bdU7=hLpeYU|yppI~Z<{`FtKct~IitWes~S7f7<!(sN*8D9A6seOf%
z9h&L<lEm=An;6#EMwT$+|7HQmzu?6G4SY$BPgi>&9#W+=>rJeTG<-kc`(N`|!!F<)
zL9lUlHiYOA>L1iYu3*sXA60Uj{K-2KX+YTMHWV#=gHQP^WmYB!*@`3mPGILA+vp90
zQ!kV-!WTUT!v4Jw)6~k6LT36=@vJlFs8-x@it625M|p!B`3|VKA}N~#(Bp7gdH4j}
zBb|h{#R0dZs-HeuaLkuWNr@j#{1rZ68itpEJ}(23vLoIC3%W0XH)R9EJAX&5f6O*=
zsV=`*B`lmp_liQs#FoDqP$pMGSgzd_oM+Dk@SEj5l?Z9|zCzG_YnsIt;um&4%ud<j
zPSHHot-RHuTCTh4=lgqmt=)m>bJTE5Ak>?u<EoaralVoEJBW3oQctbv2<-HnYn}N7
zSF5$;5NG1kJ~EVf9|4C)IcvDbond(6=m2uit5_En0K2vTp!@nva)KkN6&>~Us$oE+
z*0!|gf(>?vjq*V7Q7nL!<`1ooVadG3$k@1+z>?{91FJacLfhkYJ^Ybr7xv3PGSpL}
zh#hSeOF^4u<*g&h-FmJ*VAw4YiR#nsu{mH{P1UWRBASVw#HtEJEJAaK5%A*&YJSDy
zY*HA@SbYZ#>Z}PAl>+co)yAYoZ#PByH2N2V`F~WMW4kunAAKh9UF1kT3F7gpeQ3nf
zKE*>l*24h=(;+(}58VS;CkG=Ui@%VlPX+$Ah1W3ac9f9d3#sQ2<)B$PN&X_@;sKNa
zD%Nl$g|{t=Y{GDv^von%%!!HMjEXeEY({&r@T5l_Mb{qxc^^+#1+|yzP!#mYQ)l&9
zqGNpy9zI}~0+V^))#<MqqoUtVW-2L$h_xWk8B9%tD5A(qc-4r{O{wI3jkktD9l#X$
zl8v@Q_lFn;ZigmZP&QRUN97~I@CIN=N}1bc(=os{#3%gaoFsb0x%tz|GcG@imBJ>j
zbBjyzP!~K2|KSSQ)KLZdF8bsyKH7pKR_K|vWEUkcz)yi-1iJON;LDrK8Kj^c${|cS
zbR-&Va;~Sl-G6&4#?HJ_=}x@K0^{7U%B6}2bVOA|VLixZ<64182NSa5yu}a$mtNON
z-Ys8mhVAsl66trY2e;K-SIjrKUf~X9pR~AogtUS8IaDyz7&c3^+MU#T&3`tX<oV7n
ztmZg%H8-@Iqxs8Jhx?4V0z|Oa64cf2?%xP)7dDTbtV|Av4`%)|XZ0U5dodG28)_@a
zkLbGY0ywze-)!oaxd+5+m8W{)d3i`W>a;t1eHJ%wmwDW>J-|au8%v|4Dk=#r0V@mh
za@?0Fvf5Y`yO#1U1yJsxn$bWLB29~P&coO}z;dLK62Uz03_!DeD<DtZVxV+5W!AU>
z<gg+1aRO%iWQ@pYePc}-Lwb&gY5ZDO@SX-5k`Q7vR8dSM_4ut`$m7&kq;To*gWHW3
zHg{l(NI6J29+^3z^jXi(j31wmvNR{@%j37>&g797SiIzjH>a=aU1%O>y_{dXdC<>s
zUA7@T0}v`26?_zg-<+h7N-3zRf5tn@brn#`>^TaPUM^g|*Oou_!(cuxoyJKGhS>yG
z#CQiP3@-y*RW5<9H|Gz>3|zhqXBV>HZ&Z{I-Pfo!mN^k(UE@Mv`Z=4%d69Uv)q1Qe
zI+wQ=NnJr$Sv0LQj(Q`f8x08v;lprQZmg**0kk4ZWnD#oHe85m5K%cbK(S9{NLt-x
zNFI`%`?XNTq5)0PaV7T`edrLQ<o9&wqDih~4))=-;7YSY1fZ#J5J#pBUg%M4*>D1F
zMmF(_@UO*c!(`lD1ResfVp%^+8v)O8#x&|>qeeiDIf5IW0ZLodA1Ro-5AC}BdK_4(
z2rRifSsLMT*I>@UTy~9Wu!I9%%BO!*I)4B^krs>*++aj@qkz%4oB++h{S`;p$Y{sx
z@l-M|s>S?}s~kP_jUkT3^|1Y3{(=0NpB*<AeQ#<<tE$BGQCLd|wH3j?X`E7pfnEN+
z#z&O^*Kf3dj|6wc)?RsCFcR5i9Q@OO`h)}b>I=exTux3(aSuyUZNV6G<NZj;yx&{9
z96y$2@+LIy2g86+GNjrf@zpN%q+1E?q>AhjRyZ6>o0?B@W5jV{WbY3pO5A*RBi^pW
z+>MZOXuleXva0Ah(c#n0Q8Hax{Tb*$#LMM?@M#Tkp-y5y-##B9*5QMt>R#p!{nXSQ
zDeT+wj+Ef$rQg_4eI1(FoUWWO@brs}7_`{DL|I=bn^CgA(kadUiMn{a5CbE%Bm=wJ
zplh6%C`=xWwU3&5QHnr_jw~r9ecs<K=7tjRwQ;wy<I0-rpK%#FQn#IC1y2%W@M+Xy
zDOfDt{vVJe<LSfGZbJTqq+C#x=@p48xhQ0kGf+tuUz8#Rj%$1vz3x^|RDBDbF%{0M
zSoayZEld_viLdwhVm8532quiK143F9ShPFu45u?WK7Qpz)uuc&p}y7k$+~%UMWl5`
zZNLAith^wz5F`Tk&)$V`Cr4lQbfdf(Ll&g|_#}b!#Q(1wyL|`>9c&7J0$8n9N@0|e
z!*^HrR2+wKX?}EVz8^`vTPru`sR9f_r%vYjE@NW`u0pezWUb7Z#z7tAaf%nL0NOM_
z)qTph`D&%wx}y0;3r}o0GOj^L$!>yT<ox!_XmG4R`94a2$}75UTD>R0FiA@xsn9R!
z*tYLjer~g0N`&Uq*D@AM{G$AQ1%(;0^=b6K`QFhLz@qPFHd98XN8uD|4bVfO0lp2V
z>pY45DOH~vDzRdGutOI~ixWyL7PZ%3*7wei4s87PMf#ti=CAo57yMT0E>v;JUSPqw
z+4Da`HaS)pNo*HfC)@7vGJ!Z#b|tbcIJ-$~8__MzEuj?R3m?;@><Eiw$+t2K%$c0(
zdd7Y~69(jN^h&Lj^+E~RyC{3rs`PB89sEoHR#EvqNNbZtc0w@Y)V}O<0B%^12jS^T
z8*T4JJ4^by(`AHof61*}BS?cax5~Q?gEJ(W2>8#|hhW*yKT}P+!HNkDF%t7&q0C$%
zZR#lBiJ(=l-2=IN8uA?0`!gC$?Y;KlrnA|boCJIW4a9Z$`{(F#Y0UjeTb3DF5ov$M
zo1CrE_uXBcC34@1t6go9-*bh42L>`c;Ki7A>L=G6LO<bI@WX<3R@+1a@x7lF{XIW|
z2O8M9tmjwe*H0l0b@fY<(8B2aP(MvzgV2cWt1m0lt|$dtyNF#DH@Bo@3bOZ~klX&S
zo5o8mlFcDhqx=4*434Qc0r^F$gXgzpwAR>4ALE#^e$1l`@F<Li3Vu{%Y?Ayjygdt;
zfDiEspQIWAjvZAP0qSJc{<R6US~wnVJ4ERDa(6G~$=C|%7wigH$>FSH-*BNsbopb^
z@iWNs{&ZCr!)AGm8TZSgB2?EW&b7>`Id!kO)yGhT)#@@ILkxxW$36GUC<gZag12HA
zimAaIs0;f;D)Wpd8u1ffa+rr^<H6H(hE6Rid}@^rreFeWsJO(Z-Kuw^c;S4{OLu+A
z-!a46OXgVzwlBNqV?=L;Bq-Gg7n_Waw+nl?O{<sOB};d4UqK1^4{rne+0E!*x!vzl
zp3WM$S8Pj5@a`2*W&Wth^H0wfaQ`#IBQ50qcQ}KRy%f1UMKiMETGi4o@az5b40L(m
zT1ynh)HAM`<<1iYbNIBE?KSZ#-x{vxa9S}hbbufPK4XWuRzB{&?mP@#XVVV5w>HKE
zaM-!B5zbR@u!Yuj*aytc;x>=;D<EDZMA32$%de5VKNWjwSWSc}>60x7E7HG@vE7Mw
ze(%5DTYvl6%7v|=eK&10NX+?fl}hm=d1uX*V9FwJ&T@a#i(S|Jcp+_TV?2cC@F<<W
zC7n5Hq{FAu=B{UtxVZFLH`a1L5n;G*+vzavMz?(8LS(zR7omA!&0{?aJ>IRj=VRFS
ze<n8C`=K(LDd39G%?@c58%kP&h|U?d*t_?2`^9*i(Gr+D+jq@WJSr#w-LT!PGqsNq
zQKw)oUo4?-qj~OH(V=1MtOolZvDzZV7e9<1y9jzav!OoN-{IT{N@QiEE<U5r$Yo;P
zY1S*SW5GuKj%Zht6)pDB?n_c#a>`lYaQDz@=|p@9l<XaX=7I<b)|GG-Fp*`X4$Sdz
zL$i^0zvsd;ri;SoL+wn%U&XPxBf7)M^>Pqp^Y>43Qek&k#$3)(x@XFIoB#49z&BLe
ztS<XjiY4@hbjFM@*<8C4NA=JI5rP?{P4-HEkHcU*Ghw<RHPJA#M=K?DPf*IaN$}Fn
zhtvJ}7qqI@{+7kAW`Chz;QQJE5t8Ufw2Da3F9CcmCl=;De6DANDe2;w^D2Sxt4^A9
zbRV#z2zlYVwPSuc0xBQnp7@|#Vo{4Q+i|ngo-QeC60v{>eXz93E>#J$F8FBUch=Zu
zkjgigS7)~XyRmdCR`e&q+igFi?@c(=#N!}AL=N6j6mkoD#YgQ%3qyy8!xj9u!*+c&
zTa5cq5+AWq1>=q$qlIXCm<=jaonPgg7Aa?^V${tDb1_L|&vb0I$9b81OwOuE%Dfw4
zNUQ0$877^K7JZ(7p~D&qp95NfR}f4~m?tQ$*&vJ90_6&ss8AritDaE_*s^w;QP~!B
z1$B@X<(qsj-=q4GJhr)kuz?CAN!^nbB{zShT7^sIzB30yC)Bu79n-{Ox%9iCGA$n^
zEvRt1@($BYQv1hK1)u7S%NS`N&z=ZZ_8`uwa(Y{Y!UpDEC;IV3y}DkO-swu~^&dB-
z0&9c@n|;C4Sx32Jg%??8IXR%$dnuPI)E{HlBX<;><vrf}mD`zmfGag|=*;y($x8tU
z;PTeL*-KQs5Axm>u24}u3xmm~Ld&@dP_kUpHN5_`$;V!}nQe6*%o=(4VBE{>jG*=6
zwr?!hmvPBDDSsX%>mGc)nz;bQNRuON+Jl3ByD31mBqDdzkdRG%?=H`!d5x?a?c%ve
zeh4?Lp{zE@X`=hrQZAe^4YV*DjE`0u^2Xp*h_3(|`dlS$a6_db$_hhH%mAIhH{<N)
z5bHq%aBVJSb%;;Qs)TtM0a8l`w%+G;0B;OaQDNG?CB<}WmRH|m)(rJeOnTXN@V}kB
zh7%N0-fN^YqNOp!4x;HU2Oo6<=X`IZQ$i*fPSg{uuV5C8q>*C;f|=V@qQ-%Vwk<gM
zyzy(f%wF~qKR$INCqb1^pGWIBgJs61=c40(Ryoa%6)BMc=8Z!Bs*NRFAYF;P@^0oa
z6xdK<oh!!mhu{GPMPIHMzx=(Jh-o42@r2E-%2<^Sel8z1E_M}b9fulN<2kJTZZp!f
z$=4`?T$&JxWTjsNPuM2vHke3fLF>avMwu6fQRh<({|`JmNF~WNS=ngu$v|b!M|8<3
zG*{_OkkjNKOFn^`YB*Cm>61~z-=qDw^frXk_!Z+E-L}fTA#HLc!36Ob3FSAni7qm0
z%Nwr*h$Mg1kq+gRLeSkr;MF0KiB+2j0SY9{WR=QrXb|a&X;ts&%7o^Nkzj9S(;Jap
z^ppZSLM@d15Sg`46V0?d+*+v${a0zQTk`@|HHFYouvJw-hPWw}PT^4yQfSqoGuWe`
zFb?gX6e?!Ny&sWnqOU%T%VzCqxV4)Gk>FFCHKbAniYr^5uM4e{_1#;;cf9^!i+A@(
zQsQB*FtbPor73+rn<wq)w?6fE_J_4jq20IZ^`_D2-USvu1||cE7g>J!6c>75Yn4W)
zLvh>xi>8<nSn1nasZRb8_@OOx`MLXve@1x)_|-1I?jbC~Xan2wh8xmhdbGg<E#_HX
zYpYJTaD_N!rg>bK>1Xrh^bRycGlQHq8VAVJokz9v5e2ZVG5Zm?$EJjB&CPLT`rL-g
zc<-e<DIZ_7la?~y6~#yiclN6dYRN6Kvlgkgd@4;hnhMnQCvU<dj0D;m4gbZ!A5c!+
z#qNC4<8-`Y*h0LCiOI|3fn{oyPTpwo;8eeg=~Lk7-p6{@->malh8@C3`Ds}sORtQT
z<W*WN!$&LiniMcF(+j^R=V&My_gVC|AWe2fJ_*P3GRB6jf~-xk$<kR)_E3Sni8=^^
zR>(UlnIpp^<!3FtocdqmdrveSNA11d1JN77!PohSX^U37aYB~maUNtOC}hKH)x{d8
zHU2ow$foa5e#-t{G+)G$8*#Q6odPK&8TN=^fBR6Nort4R-sg(-w5cnm6cDMY8ck%X
zNgjAhC3cgPm?GWBt9E*8?xpXY9(Q{R$O&x8BjZA!TBVPieX=7kKk0KJb;Ln~V1Hm@
zk~CNI@Vt6KN5Y2yO5cy^$j=T26Tbj+koDKQ5P=M-M34V9z~4b3u*0}?4}3WkjINe6
zG8);mSqzRqy9gxt*fk{JE(P@MteW5rn=D~=mMtgM2m>%m|C4V;9Cy_PlWYzsusD}3
zRJx#QVYl{=py(Rf3i!+KR$9W)5aeg9WI&XvEED!@H@f^GE1;6dc<zMDt1*a$P0fcG
z9q>F*kRtuFG|h8&Zs8WrHx&4C(OW=PBkear&22R+S$BG!kl|B~?h@QMtKDH#;Q4%-
z`yoJQ0iO<xO$fcx2!I}utrve$O!O@SUFiQ5do3&>R7Vp*TA>i`U3){&uqWe>JARF~
zP%FhU3}HWvJAQx4_m8Zf&~N@HJR?{ub93(dzU;kOKQngsd0;vPMRi-VAr_34GhNQ>
z_-Vzucop@_nRcyH$q7Y+%QBU7gXuLFQzD$2rEB-w>$4=#pf#y14up<tx$ib_Et67F
ze+6S8aKF;|^A4rLHg7PJv*NRh&dGdx28f?~X0Qp2<9od)SDE0~=f%{sIickrX#=Tu
z_^?{$0MB1gP$f-NxP>>y*bCQW@B9X12xu<K^Ol;ls_k==*cAL`hJRYiu{%XjN*&Kt
zV6px@!eP>&g}D@v1J{5&gD*cf9Lz&Dy<4~nj4zi;O;tF2yWwq_3Xb4o8w|JAO2RnV
z3Do5B^%|{C`M8bxB+eF%V>koP2T6PbpaT6mB;Sp<poela*)1lb<5GblMipILnJUp?
ze~Y8YEMTicOyY|Al3b;HvnuKxKb@30F{qc@i{8F;+V7>^c`Xc`;oP;xhG^G#1>^78
zQ8?0OBkve53>ckmXylLW7s|$cd5_1iCJ;<H%$9X5vf7u-lMOZ`sub$l4Eu1b6Qf;3
zPilbVerMY+D+eZgQ;kO<p+YP`+u;^M>H_AMmP+`Dh93pX2bJcb6H1!Vs5CoS820D4
zes6Whq(JIqR}~;+;qAZBwX!wr6xQdKLuBXJuhvHu)b1-divKku=RzE+S5WfB^;8ez
z(sIb{PrIz3-W9^%QU^D4c8Sf*KHmFzZC~e%7%$RH_scpCDThGsvUE4nOGf%*^8}cT
zCdptW<*371zP~<KOI~|Q6;^}(AnyVfI`NwSP)UoKgu)HjqKhRa^i}c1(g=%>EK@;J
zD2tX`5l5XVrF-oM;ZhtvCDdQr-m`#pqraJARf&faX_HjV>xG9@mShDYhzM?kjCQ^+
z)c)j7(QaOCzZn>`9r}HHmLvGO3ZBc*X;piyG)(}Xh0|m?y*}MKS}&A0=pvYprymYP
z;?t1kFOEGpg*+cEF#l>=yCSeDoRcL;8B6iMDLiYxU&lmuX%=j!a;LVeW7akCEw<io
zmI~K&+yj4bq9cZZA=0jyfZFd%KaWn{p4V|35J%#Wx6o89D`UkBR(m{bZ;Gd+o6<6b
ze6#Q$;H#0cEI%m9HNc7uq-_a@g2>d-;_2qlpY4uL<&&5whV4l57`18thg+caTyUY?
z)0Nxh1aHPZmDe%Z?_bneUX0NHq3SKe+G?YA+u$xmTP!%VXtCn%P`tQHf#OiyODPn0
zcX#(7p}0GQ;O_2z^6qc%bI!ij|Kvy3%9`_;_ZX9?`ViHYjK%D@a^*K#{BpzxPNcR<
zmvYTYH#>__U+A^+iP!S|MgK+NNK&ek^DKn@_bHqRW-QJJj$RW4>+M0<Ny2wai3pH#
z8rLEV!M+Y{O)NPO=YwM?DYbE#Sx6M}C#4Mb?%8Bb)OFjHw#29P9vr)nN1PCx<aamp
zpJp(dWj$GNCywMzO`)@;o0hc!vveF+GivR+lqzmvjeYO(`(>$XX1``|4K)%1?q}7N
zTe0CKL|#39AHUkWj(mF^gH@_`L)`EzBg@y;GvvqzON|Z=AQpILr7Xe4XUmB!i|PC7
z*RyYMzF$|Es@spFaAh%aj6t_`%UVka#XVNu#^32`9jjS!i*5=;yOpt+k7rx!!L2*U
z9BK>zsM?(6^tK$llpgAK=5Z2Qd%nSF`WG#`d{KIBlGYmzjp#?p_04wAEB$8s6*|vm
z=*|A(7}3)|d%KOpCy;sStmQs;ty`fRIQyif;?sJNeCpZR5XQF9LVbP$jv_3<D}FGS
zfEjRAR{OUpUz6}Ty{mO*vZ7H((bUBxA+%Tz%7A8>bN@sc<WFy@R+088xb9b99@4@g
z`Opxplw!7;^Y3-m3}?bO#i8D-FeAnv_igg>a@gMj<=WK)S>=;T0m7|6c0YI<3f7N?
zfb{^&1riUv?|VIxNEVVm+&~1$V;qPzFSSYGYI<&2ffGI?AC)II|Ic{#e^A>0O|jha
zp#Tz6z(okh+EyEuJjV@sFl92D0F3x_!ia}c{FSO@c7;xA{FDJ39DJ68@67~|sJw0E
zB=BEnXX8U2ZI(SkY#@1=M@}m4a6sL|xm;lgXMCgvoJjzMPpZhzbK{3EM4}6lq($7s
z9@CR{s||~%aH0S&z<5mOkE!-n4UI<YWCF(~n|x#oGD|doGQ#31ON^ZmpxJ3_0R4Ab
zQG3(-K}1~jYQI=fl9Ne>gQ}Y&o)%d49;y^tsoV6K66XNljj&e~Hl;5|g5Oe!mf9(<
z$x)fMHo$7vY5b80r>{qsD6M_T7RRLt8y$R&BxH}ue6Jv{p!kT5#utza6Lah7fwM>_
zVBgoDw5A&<HkS5f?(}a5v+}?B@?-~qMeOib9TlO&x$<T?iYkrQ0KZv6H1>jnG&%Tc
z$sI8~Oq%`RU{|DmLeOrUc0m;rB1hF)4OI+v0__qE9!1nhOcDD@JEmgL$J@53h3{ZJ
z(-*b|vUK<EZvgjmaILAjTID*9eKT|u)u$_MgkfMd@u1s&1P!TV7NhS!O7xoTx!IkA
zG}5dYN^Yl{<kBCTe=PpH!JYiuYnJ~fax_55I<ai5`kiu<JeF%mfU>P;EtO2_V>foL
zgDlT{0!gTH(CjLN(4`KbWKr#wVV2{_6qu4wUJErflan{S3nxD+#b{q<c1#jH=;?zF
z)u|VcHwn;R{AYIPati3|8z8{0`oM5l@^#5%J(8rWbtIepwMMBn9y;kDiCB62PEr+-
z`Y{Ocxlshge&gp3eoXLJVwu%%({e4rGxBXph;m`}seRK5=*sf~e9WvOaywLN|04I^
z(Iz<3gvACcU<0G{cAx|0C#iMjw8HvGCm|Q?_*8v%u4;h(`-w&`W;SMrc-wq>4y+sa
zAxYb^fR6AqsOU(->Z;>jpTT!fp>ZB>>JKw^5x(Gk)=hBdj%d?u#}@@R$|x-Fco9{@
z|91fKelPa70t&?QFX=z?gc^KYT+L=I(Hc?H0kCkPfdlX)Dl>*mwEq`cXFy#GIxdGK
zyfT+6ip11V<J76Y3(=_4(l9L47o^uZU5D4~GbOL3@1Aa>-NjeC0z++B<%&w%%5Zt>
z$6%fQ5d9O34aSvi9{!rf+ehv@`tEd)1_ktivlx9pmfRGM^;l8csI1`k+kXB=97Oj}
z9!aHJt6&>;-e*Ip(Ar!7I7~#g{%s=5piv=*_7V^*f0$lC1ek<vT170Y<Zzv!uPc{s
z)rP=lIDZwwGLL&P6Xm1K<AJvtTsw==R;&9aY7#5=fwFs{)g?w5)O50~sRhtrSg28z
zK$u|kPiD=eb8T92Q$VaioJAlQP3E_5t}<9IjvF;Y2%?GRpSFdXP)DA)l>*E1Wy$iQ
zmg>E6$c0v@OHY%S+T{vzlW5m*(V8CRLF&a(n>!>38#M@_3GcxS01dN5>rBy+t!N=>
zHK%mNX^flgseBpI>~wBB(>M=OM08et_BA{GwZR+U<QlhXdto^7$2BDQqqG!~gWa#B
z26y(E%XJnCQ##z-d+?PKY2n2IUb6Ktj|q%qgBXfhBP^)+h(g(oz&d)R*a)AdzZ|0D
z!uVaVli2_$lJrZftIYyv&PKDWeayA18#cgSJ)~?Go1pd(-;7edtm9l{(`G^0_>b_{
zL~mi9YAb_r%T0lEUV({ypYYvcb!@oR$it5o2-ng;JYG?<Y;{F>c2ln#H~ey;b?HL4
zKa-htw@J9|X(^CNLwdsqm{R1Wi*Z$@H<w)7f;qb5m`qLbvqKTku<x5rCJsn30rHc_
z1WF6C!r!Ky95o2~e_&aQxm?N7ag<JD`-13XS=X~)-#-Yc;76r-ktf7V4x`SgCo;6o
z{uN*|(URGKU!Vj^H3%Ze_~1FIU16*}xhE^LoGVneSc*~;*j_q-D62E~ENdTP3f-fF
zl@7OrapZ9eDyFD4H2PGEhF~&{kY7cHpA5@{CbucY7URRr;Cji=v<tmHRUdW_NW`OR
zM*iaai}SupIYzIA#m64@A#!W&mwTtNPY&)g-$&i<mhW1;ug~1gj~V^%NAm3_sZd(u
zm3cWHQcnill?9)|(z}fRf_94678V-5-bz)v3>ae^oay`4gN_zNrbjqyJ1+h76HBag
zcw_8j6p84(y^<}$nmmS_^)x=GF01!$!_eC+{kKjb=5WWS)j2`S(TqKQciVI~la~4h
zoZea!OPCS)(ej8XdyZe`CXCmS(kWoYObCFYJs>cuFcf^$O%~-2{~EwmikK530*++Z
zWQU{2CRL+c#0PjK(%0_voQ!dTj7jcGIOALe%-b`B%ykHMU|tR7X;(g1^AKf>w!V>J
z+8v(NOsCs-PA&@BO6f3gK&GtHpkbz>b2()9xvYvs^O`38M>!JYE1tG{3OGYL&a2$<
z!Brxhxbnj@xm*PKm#O1^?qqq3wN788Pv0C+9yC_r234`=*_)WBxWjerpWFJMTy7<W
znA`o<RXsMu+2>0HXo&P@<@8JO655BN5nkgv?c78+sq)6wC#ae9|ER=NB=^eXIpvCi
zfBo~RcUq_@-CfD0Rz;o&ulPGRU2neRX7^mHUCV^TSVidQnNld(+48}Eu5((|Iny)E
z<dTK{ShM43EM4`=z&<X14DLb~)<w~#h88eRhn^#_r*w{a0N&sv_d#M^GSuuf9}^k$
zyj&5%P;u>znA-wh6)1-sAxBhB7?EmkAUn!_x|7<L{Hl=VOJ-AnThOC#3lNf$({lY@
zZE%YBWX9B1{fhfifDFaGn+?dO_P3$u0H4|?n?!h!+mWt9-hKz%H;w*nWE%Y!au<)|
zFgMRS;QL$zW4S!;u7Mz2A)z0f4o)xUzIVb{-Z#thCa$2m4{QnckAhpNA*_tXDp#Wx
zSV$9&2iY#)&L(+fc`m&Avq;^n&0LjOIhU~y19h3VzD1;7Fdv4BHGJ8u^=3|oU*wEz
z^{t{i5lns@!98ASUNerku+I*@3N{j!z{z~+%Sh*NE&4ATeRpJJ_@q;!s}b@Nfl%Ff
zkp);UI(>FgUNfUxDv(=U@%MuWT}*(OqyM`(70+It;!jc5-u@hYEDeM;Q2*&TVQu}I
zb3pI|s~p5SHw*h1gXpFEACR3AV0#;n)WO09&#g7DmY7x}5TQE|w$PMGy9%W+X&TfX
zUtg})(qf@N(yrkT<VCU}Prt91HQxAZK5r6&#p9}M+e%1)9L^RVziYWpg#v<Mm5@B@
zgaW#3dJmY_jEl&YA|gMuDImNL(};mink-v1ZeZMDU4j1cA(rd;bJzt7AGR?r=$;;=
z`G(ECLXRw%%OB>OH)}d4d~%qWXWs!YN8iK=a)un0i<hMv>CY!Ee4AeWD-n1Mq53wY
zIx8x0d-!fPxtB>TVbD;GVtDgp=7hF&P+${mxD#-L->6C(%oH0n4|#V@g&byFLy5Un
zU97nEZrzYKgKn3`LXaUKUjvglBAreiUtthX2;oMUI3@F8-jei1sxAK5ajD4Sn5MEz
zkjy_pKpF3ibvc+IIV$wfdJoR!hgxi|hTLtH0JVZrx?Q4zz~`%7p+3{r;|1@0An}<?
zT(8+W#Yh;*Z8F)<)waqNQ>@?q8Ym?ny?$<ed+uktv2Y50+Uv?n9t-`(!M@aQ;M=EV
z@s<x8{G59qA0#jT3LepqwkKcNfrVN%Y)p=4-aN;A1)YEOE|HE@$Ge^X*zSY{!A@mF
zo-&_$$iEC#NmOaz?Y5enMLI6%KX5N%e{{hSdHwYyX`~>~;BeA;6?vujh~<s*=CQp7
zHL&hHR^xKf@_P~=h>FeXk9w07U1q*Jaq#IIejM<A+c|ByLE(|>c*+V{p(FO0V$p7x
zb<5%ZX>4@24I{TIm*kg~9UjbJjXl*_gd@#>qB9n4*z3y(TkYfHHDA}=#``bcr{X8)
zjlI1uT~0%M_SY>R?GLXPPbt3=RCgTOd@nZrS8#Cpki6Pt2UX^~kafRJWzgl==01-R
zKJ_h}DO48-S;PN?@^f)v!W98Wc(BUI?}YsB6eWMG6SbZHprvPpTFzeRX1V;9(C4q)
zOWXBk{R)hTX#wiLV1;v<UQ2%Q?bpA{bjY&2o0>S?0sFr`B|WX@*WMOhjm|{5SY~)d
zqzhT*dY@F@ZB48<epzeYn@G-AHKSij9(6t9(e-~1;~=~@V5J|<;xRUGc?~9HT;zfC
zmh~;qnx*NFc#@ppS@V6_tgkq!(Crw9#o(t-nJlw^xM@=OJxj@f$76@3YoWu*7I%f=
zAQ-x%L+5`#16qz;@E;kAC-^8(VQ`<wS%Fh<6yLDXdPSsT1gUYV7m)DG@O-?G8}(Yx
zwfr{Da+=j8bjm9Hrs%%u6w><hrq~~*A3d_a551V5VC8!YKRuUtVko?MR&Z$Lw)xUh
z-suwi1d9lllOEO&kh_$CB(49?I4cxkkuN4Dr~C&r$O#hgMQ+*SZ@c3U*@G0sOpVJj
zJb@=9&>(fUgzgg%ts`ceOsX8$*pkDY`H#7>(%U6Et>7~}t~IUgrJU#B=JpRNV;hEG
zZaoEEQR-aD`^`UrXzvyG5l2G6LgYA*Z%y`9T9%co92^GxtC5c-vfhcdU)#c?J+u}Y
z0#sWcyT4}%sb?WYpnf*fx`KRE?+fx$3)*EQHU_Z`x%1gB*Os%`&C)7qFwPnyd=${N
z0n^%mDAd21Kc2lVI^5A|<+tC#n7m9(mWDp`$ix756~MVoK;+Fu4tcs36lgONM&dB@
z<6Ix5v@jCSMe*8<y~fdFiG`c!lV*gZxLi(VhWpWazS{41JuQg3c@>86tg1Q8THi#$
z%qBgC$mnWU26Tn7Ng^ifc;g|h%2}VE8a7?)lqtpZ|Nb_>3cXdSau=i*|3OrboO<ja
zR(hT3?=g9EG_&%uyK95gG9)b-!7kbEc;O84-V0LwUzkc}^UEZFhG?VoIvqsexB_x>
zhK&yS7fVXcRHB1m8qHc#KCif^2Q01kRy@ZYu~2HiAXhMV9n}W#m?zLuA*rf?7vQGX
z@U&;w)zUxRex!_(`t*hvTEjGJbo$x~%XbGN6Qsx-7uSo{;K)SO3jpu}WWij=*KlqP
zb~Do&ri<Sx&M%(XvROgIb}M5dFNT62Feg_Z>(4MSZFeX<#X$juxUT>lEj0FaQSji}
z>q7*L#|a0$%pYMXX27E58m#jz-ftHPp#65vWh{6#L;oWLlpItR!WJER6+B@UqgE&Y
zWVGxNEO2n&vtp*)VQaDq6rS(kGj9QHw2dqiCL640dF&FFijFs~^b{#&(|jAuIwgiz
zA0l?d<u<Yk^;ju%$vL#ao|>@V0;>fUWRIuq`Q2_YVKV!vtsl?_>MqI4ub2ixv*s)G
z98R7P;nWaN$hMV)E*JwHElFc;7f`YiW>>6lj{ya6u2c$oIX7b>t;17)-eBMi^5E-v
znnMe*(T5)=?wbi8;QKBsGs!*g0VpNNEB8STOApOoj2H;xC7=2~t7jKr;Q;wo4Q?A<
zDp{4^_FPdsi0PjJRn^bq!G|^>h!%?K{!lu~b=WUD=zEvGM|w`7w716AdC;$%VeeVH
zHGzO5v{yyQ{zjVU9tC!Il!y7P{^#8rlZhY;A*7B?5NC!Upb0M4DCFZEecOXsf_?Bt
z;o$P#r(;}q52}}O{dQk_+B5db4qBloIQrB8Dh3PGid#s#Dx~waa8x3p5sTXE*ZP3{
zut5v8LkI)dM85E%rebztLwR-j_OgpeWq+XD#5KxCrR%5wd{KM^rG^?~b$F1LSJtoP
zEx9M=vJ9ObXWTg%2G)@;0xeU4>{4wABET;<87zisy4zwrI@4uQYgGj%5r31#CZrTU
z3;1~v1!&xdkIe~Mq0I3O(j*lLU9GR)7g+#B-=o|?{to}F0rLRF6w$|*LvYTrcF9J1
z_6SAvvK+YpyxI}dYZrF`WS+UuQJ8uT%my{}#FZA5OccxuMR-a;xW@1my!4IZ`EbV8
zFf}W&p+2NwUYc6Y`R7^A8;3#@yH5SXOD)4yc(EM<weJE@Gwxc%#E(%@Ff#K(%JX+m
zk#c)lRRYyb4L`VD5#>ZQq$AT);)%x5QgCa9bajzm-P+@gWA8#2A)8cAK$L~nkTqtQ
z@j9|PYpcH(T*zJ@la)$42^gZHopVn9aY;Z;v>ISfjEWc(0{|VObnz77ohcacQn9{s
zKUNJA|2$*lC-@@|4k^E1sp&5*o(#mx>f=FM^B>=B6#+74>&7Yrep<SKlNv8^130n%
zuPHy&<YE6!?s9KbQ+t2eYJc~wGfA5WW%};QK|fcN3Y-+=e;pnKg-iq?U&kUElYZ#5
zJEVxc#-CQf<X8a><DNZ6BIkWZljevDGANY}a}U8jv>c-33z;?P5*AXtCMWd@k-J1c
z;J5l$V13Gb5g|zF!Q*uK69XZ}`A|+KRX_ybAqydAi?KR=?mJ}=d9+_<YlHZb0nVj1
zUHV5`p*r^EbnRYaZ4n>XQ)*D*t;!iBrfH;=V^nup>);j#HYw3iC<i|9ORZC!+_5*t
z_9<xgep9=$F!t;KaEtz+)fkA%F3X&nCt;Trgd%9@XIS+tTOP&V<Loamt@=Zo>^HuT
zWdR+s@69Mv?N-7IK1m62%mGV9`eWWuGf0_@-xx$XGxnvGh3`c4Fol1vIoLYx1dDlQ
zdv9R5A5R6XL|4BgUG#@U|L-tnC~r&_!U0dFu_98!)*!7(h!H<HO5aDn-@6K~ikFl<
zrt`h`Vj_~LB5ROBY#?FUGlt;|o{VLsOHIAG(c4#3>WdWvj^9nc&*LyFIBg9i#oNBS
zD<NDq@Xr>)rSytAvr&$}@;kz9BXHGbTHi!T?t_VvYu_&_8H#ofzf)Kg{lFsb!&*UH
zo^IIGe(Np*W$j)5;Hu1tTy3)qcY3_o+ZtEOQ?S98{814iWJS8&eKr0L5K;Lhz^330
zvmz>SWSCfie{q-SQ`rWWjdP||x?HX4Ly1QBKix=xw+qA>&s{@0SZOHUP^`SR4a^C3
zj`WDt_yrRVgIQewqEV4{6>p!o=W!_lMpAg~L<;TFRo=gwonr31k%ONGnr0%s(Z+d~
zn3Z`m(3R)WhUWYQCB$5A`PMCk5^L~&_TQQ?>4Lasz*#?6M4?d}Cv;uV4m!BcGi5nq
zvEf<Z$W$b-DA8u!bV!;RW$~;}-4lCdZPbjaLSRngX!dN<No?-f8meiZzu$}VjaHnp
z;S7Tc)xva{!>`$$fJ!Lu975TonD2Ww6bR<?^NFMfKXrSen*8fW3Ls%)(s<|TRubAY
zuVj*swEJId_akn3Hf=B~x=j2}bzr=(9zCI0!Lr|Nxwn4ju;^mBgzFLVAx&_tOB*lX
zqsb-KNON`EwA$4z=#biOuGqcVBf-%JEWv2+EwykS&f!hnzGw2@qZfFiJ4=*030$r&
z&h%~HZ-3%tKZsXeF*^1C_a7Hqlt!+!Nbmj`1vxWe*F^YM@hUF6)PVuf_>NQANsq(%
z+;0DaTo2WTX9k$n?cLIcSfe6gx#e?s_GKVvVS4FnfT#P*?g0HwSOH^u%U)HsE(c%%
zw}}R>;((#6>qYu5R%2)F$+5xvzLt3T&3Y@D2OjJHGs7Rc0BS-!@r^QO;N5nUSO1W2
zab0n4hO8lNcxtx>V0NUI8RZD!#Yz1M7$Sqi`&9pW0@&Vw4l@N5E7?*IRz#V``_6_o
zfU^2z<Z;evn&QesE7#%C*gh^Dt|X{a{gnW7(&?jYD{3%Aeo~{{D2V(_fIY-ekoSr1
zL?e-dEhZF$3N57^t!Af`<Ctxvtju-sh1G9WaRp9kOVA`Yx~=|ei7NhAo%^MF%*25#
zr+wkA!WL5XAc;+hXx$>E%byx895+;M<8;bd5s4oWf0<~k;rHeFG*Sot&QkoU=Zdkg
zLVM8QQRqN=4_C){De&pBC8Kg|`g?>C8pXqnUu#`l@;|hUd9kfcewtmeJeZ3L7OS4s
zU}~}<o8_}g&p2S<YRinb;{kh=Nslmmz#4o;A+Tv~Sc6PjpUzip$qm5woz?5dC=D)!
zeQ3jZ3eLzM5gLc%1=<?p`2!(2i5Z^*43>QY`iFZ<(#TFZ-4~QT<v?D}r>$&<W8~Wf
zV~8YfPBPfC%<+V<%y>k7AZ~U+KUL;_s}xIp3LT=v6PJz26%YAMHtm9oi4yTBiQ#3X
zuSgwrWGKYXWFNS=Xj<E4aipmberd9R?QNKV@@-0kM6f2>`@p|Pe=Vquv?b7d;yikQ
zuV72<Z}mh;(qn(@q0!Qla7UZYN))ecz#N<*du<gfIc>lhYyl|EI8o_sp5e0I?d9}4
zQF66!Z+;tJQ38mkvNph@I#&iba%y=zUMds4^;Xj@kl7klHYCJs4i>A41ZpD$g&cUL
z^wZ6vA2QzyuB;sXi}_kH%oQGFkAEihBF?-+T5PbvMY$4$B$utGRVr(KQD*9z_03hh
zkvSntkCI)?GmSnJup@fBEi_8vTCq5V(cE^^)kn0!kN-v-K=|gsv;Sgyw#}5Sq_C5e
z|IsaKWFxdoVAkO8ClS@mv}3*f1e&K1Z4JCbKE4kaG#v>FEJ-+3*2v1|0G-7B!Y`r9
zDU6C(+}Yhd3U3b}X1R1`!uYv;sEZdAK>iq_?9+XR7^7;B(FLHzJEmu=+R%Fc9`hM1
z2Os!vPyT|a2Fvh5HPX|zb2pC66Dmu&6kCqtPKJaO>~`++D|!aX&DPY?DD|-qoxDg5
zxu%a3tyOCeDoWK?sRVIMf$n~YPG(U~)2#4Zgf|j+hSlO)>+nJ%ZcmYHv(GL7^KkM2
z-Hjg5*|x2nA=tJRyI`6TV3{Rg>b@f%kMLz$YrOVWqGel94r4N%#*lR<+nPnpw_>aS
zVEaiD{%1T8cm{`hHCu&Icxb566-a(_G`G;&dE@#BG8pL+{fFh*@X<{@q7gV9!T8^)
z10W~~?hN1>(G62vpQwPAGqm<Kx9452xOpbx6lXC{9)%1BFoRPoRTK#P)Rj87i*7E&
z?NX?)DfzYb>j(NPjjWfY;iF#BTPh<e!U7lJBOkB*Nd?_&cQ0x!iD&-G;0%B0dePUX
zJshQ(^4CRQo#^I0LV!H!#{Rfu#HVHxPMp|J9fBuiSiW1IL0*Lecy1zriCMvoGs?oy
zmFK0dA1L|oC)0Do^dE)EEdMRT0;`R@{=>BY!om)RZWnfl5c97g`tPX{7ho<zURz(!
z$4i~!maf5Z;`ppv`Gu~MMF2dEBY{5v5V8rsVSIni{>t!rzaY~n*B6d#Wk3aTE}d<5
zcMstL^4wF7188ma;iiD4#FD;1-?~xXyEMIJn!7c7``2QAHt=lc$w)Mml~j58eq>G0
zx#XW|5NjgLK)$hshwQqkQx6M;R=3XO<ve;707QAfvUDE)qp=7pHFq+l!X0WI`A;jo
zaJ0*S$S#+gu_CBqdhkBZOX051308A@8D~I~e^CkdTA^FJ(-u*^5X$}wzMZ6adVkU;
zx0YWcv`|3d<lq%0`*R}Ho~qHY;MC_8B6ocvpqE`?Ulahod%MzUHtG2uf3BeCF9$Vw
zx|my7YfRoHRu*BETOkAaCA>tfz4g3ojA!!(fX)p3(^=>j&HEkN)mAv9HvXsVhhgvm
zD06l45I6{$q&yw{5QXD8EOAvZBtRo8P($2PMDUb_SR#u_T@y|VmMZ5ZjF-z8NhXo5
z(nR3<{E`27CAF$z*In_R>9faIZ5B+X2GQ+)BAnY_*leGEvE9(un)^vo7X;J8F-dF+
zQ@Ij)Aa?~C)YmB7r#%DAVf%3fTE4$S-`}74BKVPjn-wX~bk3X#U-_TqhccyQwk0XM
zt=R9}n|V=(a?0AthHX(^^9?n^g|?Q2!{NE_MvabACp7`5wiKr$Rg|wzQ#{P_Dx)3`
z@a_Q7e}Aa^&z!bey=9YPsG*F;HJ7~u11t+2t>q$lwc9Jctv=ZO<S(@S@PQ%nJfqwN
zF{sg?z8U4mq;df44In!b$Yo}d=E$=;oQcJt!dI<gG&r^1uDW%-JS~5BQ88zK9T92o
zB4wb}Up4dKx;%fwq~Gz&uF3)Q=Tsr&r;|`)x(jFEmQTb6TXqtY^_d!BuEwoGY}i=1
zoW>rNb>RhYMqRdm$STC*Zv}}}2#Y#Gmzh}@n|+Hz$|t{bXVi8Hvsj$2r}0CN_WYVH
zV+;BC)JQ4o<rzY1ef#HnIg%yNX9H?)@K?`^ES`_nSx%XPi)U;0S6I75ftpmxfm4jn
zT)*n>KWEoQ-S#>j4s_WT(kW(=Tli4(pN9@XU>Q^Wbj`0e8XhUZ{F&Lkh2gek4PH|o
za|=IB9GPNGULE-%4Q5)3Zo`uBAuFsC@t^%P45;X{6m_S4-_f(o+IX&;P-jvv8ZR33
zF4So>&aA|`x!$L-0B12$A)bWLpC&_F6VQ$N#MwVxZd1wANDumLEPA!`-0=kZ{Ht?K
z+2BD%JDi;NloRFkUPV{11wC6Ut;KAGHfO?0MV$Ctn}42?andWXif`qB#r&3?h8OVH
zL6-fGmiy%gmpKzOt)gpDR%<SldPa+|gDd&}W!r`A9#b6tb0@=YDK202sia>3{_Pi6
z0J(l|w1N3&5j^@$r-T#68EVvnjyAXKF-2M4*VE2hFcQ$G)J3OoxYFihVH?>ZJ!=fD
z+KQlDBb+CDx8+p6qmr5jv*{-$x<=L9;JEAZVLMd>eK-$d+!18u4V&dn%2XU<%Mse4
z!eOlNk9g(%hk;0Fk}Hf~1WLXBeN>d&QEewUbDVrR<HryY|EAfhZj<Pht=sq>K|Qm6
z6#)s+y!1%MMv>;!uDcZ1uPP`+h(Rh$gzeu)?34Ij*(nVR7R>Ok-O=}ApZzfsJ=z1a
z{Z9DeBmTW3s%zNkC*zLs!CLMyflr212Uo`Ah?m~r=$o}-Jgb};zW|I&xHX~xI81-w
z6B6yTjI<~|+LRYG<fl*2q1Y;3a%<_8vd_Kce4E0yR!BKVtH#jYGN#Un%8BRSA+bSP
zw<WgvqP%rkUZ2$B&cN(Kw=+gdWw17D^l)#A>KvsgpkeRWkv{8`jCr_=%{uH9{CF$w
z<tpFYD%e+zD_UIigBNbP?1AJBZdZ|7vocdSUN0bl;)Nl`t+8%MN@#k4_JFLNZThEt
zaF{DBy$#x-$A%WlRnq4e{J4HWYPi}_6Y})iX&T?!BADKf3tdpn^Hjt;;Pdi(iq^h=
z;-z@{JZBwTXqRNq#yw<uHbBCSn=2>(Q19EL@QEB3x60L(7*cw0eZ1P&@iP8ae^(^t
zMy}<zSL$0W{>{V)gHqNJ=}V228Z}+&Y*kY663Ilw$}R8mI|>=a-{e;&)MWUd?FL4D
zYP&|KuPn%#ioM%d8uc`r+vX~hN`eXG92vx7*2BmdkM#(DtnIxCcwTipQLHi%pz8$=
zA{wrEy9jwYw|c(bZ4YT3XCE4)$6QRDK<t%wu=4?kvu|Nlg4OR2bm85$J%s=Qmj<Xt
zf3?P>?5cij+`r+xZ5llVlDrlCn&0p_P=jpps#Kok2I~$@p&VX^NA2|i+zKq?%6RB^
zk9y{&CDV36No<E@^G13b#D}aX&um=T1Z++)@sZQI+Xf&<cQOt{Lh3d{XKX|;*}|Vw
zj1z3z<?^;^V}n-n9uDIxGk{gt{E{|}E*|MC9g+f|f#jIQ@?Xk+Ho}L?JBJcX|94xv
z<+^?BcNOpRmcx|Z|J{pLws5L_pDZws@O&9dJ~~Y2c3E$Z1idQQ-b~t6f_oez_LKW1
zRa6?MJhw?0Q@v2g635Ucm^}Q?jSlZTpN-RPJ;=dj-ep~Gavz-3jIaU!$AD&>lyVz6
z5-tT}B8zKRCX^Zg-9Z}11*VnrmJuBp(WNcf{+4~YdsU@kLLp1ca-|Bfrflb+*MBWW
z4OZ1yefKB(tt=rkI{OqKg{U9yF;lp7pGGcI)aIb=z;PH&pj_$x5RSaR1V_=m%Br!k
z61rNpA&_rZAHq5d$*t$)$%$qH;utg-FepKGI}<xul0H87rs6lf#rwu3LtSIG4Vp}M
z&`}Qi`v)rD?mzoS=YDPT>p>PdkHQhO+T0nycxhMr5^Y9n^ko+nIB~h18MjQ$M>#Jg
zkU9GG{HHjOP`c2TaBnClmuy#gAxxt^n0L2%->UjN9rPj!8vK3aw6i_>c9H$IbrkD5
ztWI_h+p5<k>my6{|6TW(E?_tT>vfHKlMrNsLL6}bR>6)|Rp!92v|tC+?8=loHDl|_
z28fSKc?`NOd9K)JCV=wpkUpoGts2Iibdv_Re7e%Fji0z6+>XQF1ysvYaM*rerhj=V
zaFBjZr~Uy~ZCy9q4?bv=RJvZM`C?l%_A}G@K1dXwDE{)@M794CA)#3mGPxu!N4os&
zy`M78ir@4AU(;g8Ej0m@Bvd=9-oyjKw|IQe;S1(nUN1%k@aBARh5qQ5i)zfMi*eZ&
zYac2tg$XAS_fr*!G+MNjs`xe%#Zc8Ht#Z#KJA*Z{g45p|J2wxm89U#1i!^k!qrL>P
z-nkfaCy<MoE0g@a80Gx;{5t#^!yrxrCOYZn{70iJkbzi{>1A314-a3#gU*Ai%8?V5
zs|mO6vS}^xAY&WNcrE(~xRI0?=Vr(>$6==8JvKxYFSD#>JWe=ouw@D=ef-S25$zw7
zNc@5T_5Aa8{q-L6YXe)DpxB5qMJm&(RQAuWWGy7vlljB`+XEFjA9OQoG_N?6$FNw^
zjQUTm_bVFR8zE+QH_*NLMqcng)kro!Uek`uo7?#fRRNK2HbH3xdx$v;Ez;146R$U4
z0iX36yRI`aQWA<f4B~MNRI>VS<qMFb>W=SrCnxY|g^mT$icdIXF%OkH{ERNC4nrB!
z?ep|+GsVhFNi69-A&ikXFsl5%#d6h*fz<3}G?mkBfLyQg8xPG9SJNRkveav%dlZ3T
z$UB`*gIlP2=Q>$x_ILW?%6bLRa$T#n?$vz2D0S}25@UKH?}<6KOF8`%Unkgtb+lQK
zT_jxVIidJ%WY>Ne{E$(4131e4<Yh#`_9FNHyAA*6hHNqMUItMA9~S_bC}|0`F~i0R
z90*;{RA(KJhejnQuAdtW_=myJ*EGD1Dhe1ELz5w}*S^_hDIo&L>s9$^CC(p<QrJdj
z5@<U)nUDKDFR($^9ze=W?b4zti!#9Lr9sC?q320m8;9g<FabD5XRh8*mjda;eJA*q
zFbBoQITyBRcs&@yZQH8rcPq<0s|of7cFf*nZch`;i-w{ciqrY4l8!6i(EA0;+wtk8
z?f`nKhqGw!dAgj#a%8wGs^5XFExL-t8~4n}j|jCcpV%;Cu<g5~I66MY{3TDPMA<dy
zZ{^V|Js@2v;}%D1ZV3Mn?ALwJ+OX5o@B#4hZvzokB0xdM^s=y1{`U|jqA@h1vUgAm
z{qnh=q2JEgRNl8z2c;|Wo@XTLmWMcIX!xU3x8U;WQnQikX-(ED#g}(@4UFRNYt6FJ
zDN~Ns(L~LjnlL=@_KWDcv9OFZ1RBwPMv*)bAgUC(frkC|%|r#u9Eb{-gu6Kd^!F>O
zadzd?8W|kqcYc#&;Jw?3zn5DKHo#<;#pYC{D7uC){K>v1-OtQOy|fAZ{%vc2Dj$2h
zQm=VFP`)X<9)zmSP~fs2sWBYwY%qUQXVpxyw+3F9YFyOLF*w1fhC-p@K_6L}f0^YH
z_K;&8x-aIV6pQ>t(CUNxZs^JgVB|NLKk||OZd`(Z-<x7adeq=1p>&`wACIkOJx`>0
zOXF%$IuDUL>M$$JBu}kV9zP)eHdElK=t8_Dnl1b1XUke?yyY>Z4u5`r`MX2=#h*&u
zMtKyrtatZrN-l04kr9y)|Hs#C$h<%^v{PAR&S!pii6bN=q|#wa`e{Eux}xJmppHqH
z_Q^BS?Q&Z#vR-%WOHW<3uUJCL?w-B(%gvkB+i~_Ar#~@AwUW&%=oZ`00LQ)Kvcp-o
zM_*tIn3wYJ9&Ys_s<67(GuGpoEB+InZ`i3u1<IN3Bk>#H*fF?#y7ha*uHmX`3nG+{
zbUM2?@c+Kj#{$CwG6RrAW937XMA=N9%i!F8!-?itfVugJCTHMVh)nZnidreOMEQ-*
zY=*EYQNSA2!NRy`B9ovm?!X1r6Px474Ql~^KT)t^F}c8WNpJ@j6Kh_WmQ6@B**i$n
z(0C@F4L-EV)lhs*XJyT0!XOmub}9r2RaX|Vm=Jku=SH0cJ)PR!4lw{RM5l;gCF5~a
zr5>VlB=oN9t@w8BCElMp?K>T=pH;N*V~N_tqW4*cC0qNs%~Fj?COE-uM`sIu5BM?#
zT&g$noVR25zn>boz2Ax!&~|xU=9~Hn$?|wcYi1A<<T3@VF79xgI|$yUAdb2H(E6Dw
z=(2w<wsh5vay!atMC7<|wAB6Q=j7b}b_@5=_sI{|NnHC}ssJ#3YDLb3B5IC=C=wUH
z|7kmh3P5ro8kn49kZ;#&7LK4UA<<)hbiVvhzqy5Uv@~l8^uPRzF}>6*V!YS8q=_a6
zVQ>~`<v{zjelx_7jZWqZ`GdrWtw7U1qUtrge|%gME%FKpYy&l|6#m>o0^8e~>#rAq
zxfbF3fri=quEULD$#=}nGnUE%p$juE7Cdd?icG6h*$?Cpf3Q+nL}#b40Ba3Fvq_Ms
z_RR~;ONd>56O^g};nP2y-~CZh*s!RzP?!!4?j1JDMp{}LcU95JuS2vL$BB+5jWvKQ
z&qz+^m*iJ6K4*>R>}wxbT-pNU-eq~W=H7+i8b2+V>uXgV7zn4=@x3v6CZ0j*??7Z;
zZuh`Wr!PuFqwTCNhrp`UOs25!@PBKQf%OkgM}+eJcqsN<C|t@5s0~}}6kItU09MjR
zF%C8<^SSsv_->{ivwxD@7lXT1N#jpm0%sWPz75D9O)0Jl<~p&@(c%|y^YA)PrRnlb
z=JoS9Ky0H0pF_!y&a~{mk7zMBcX;2S{RZs=(E#fy-d#^CXTxr<dTuHt?yst%F0)kz
zXOH(LuSW~dYk4efLGWE4WQea-k<T6G$`WtEFF26s*XIdeLqwJ8%2f2NJL#))o=?%O
zEvU;ECf`jGaYTVfX`6hgqyA_Odhg%VD*o@sr8kgt6b|sEDO6(>Z)9Qr0S<KD$Zy+h
zu|XP$Mb!VBg@s)d!yD~)20=Kx7Q>{XV@7~f{Y!}QVi~vlQVJJx_S24cRpQ0utqjsA
z7Sh(UnvK^}X0zQ(S|j|l(qb{tpE{>tsEr?l*zaTdbnE+L!e@u6$z@Loj+@x-p>F3k
zKKpq#iRI|$Sa>45MV9v|-_vb#*N*70JepV6+f$c=(fvPS+dU=$r1plka}<?7?16x3
zMsEIwJ6+c{Z*{Zyn>*kgi?)E#>WANbiA;7&O?J2Wz?VVI3T>*B7&(+f$R@Wik0D`0
z`mD8&Y&9fYybvklX2Ac(3?z|84~x(@em(jES=^{+o%Lg$yf`TCvYL21)N)H679T;x
zN?>Hhl6xx9p(G2SSf7DKR8JzBqT%c*2vq*kzo#_H1n2K%`*&;F=s{87F@YX1g*m79
zvrD$RAOAZwPqo|6i>c!3*kg4r^6qyl?gCa{Je($x4w~2emfG6dGNMB0Lf?)pCl*O|
zhBg>%7OIj&h4ul9-9acqC-2apM+?>NfXg2z>&R42nrT7#tb_G*r@w8jgszU0UC)Oz
zI*Lx*mVoUO-SUsV)eXovK;i9^R-Xs-DIRm!msNM%%<C!5Xu@TJ)|Tu@d(RM1aNhgE
zpU8mqhr_B0TfaS!-T2j8Um*jvtT=9gC(ZWO_n6q2{GlyQTgcuIJIQl<Njl2z(csQ#
z@?Hc%dSScU?kt>Hk&xrk;;g!$kXr#O;-9KvP{!Kj|LU*{GL^1{XF-}t?46I8=#K1C
zm0Z>`{q!ee(bwJPd8_;ucc-1MD@_&_$*!mr>GNcoY?Nu)-#yExd^ov#x>M{p)S*^)
z%f8wE30_hzC)GwCVt|K^VTaj)-rwL?Hopt&r{=fYH>aE@fv$)2+e-yD>*I>4kQ5x-
zfhZZfo;FvvyG*@;SRs3d&WECxF=fBJXo8z2r!D$ygx7PNH}L8FGb-c03(c8$Co)|#
zDs~AHQo%0ycidj>w@?KCd>1Tt-;(Z)%yb^JgtCR_w2%j$K(}u?iST$R|Mz82gi;fZ
zWR+~xF0HFggx~KVj3odlD(M&?5(1+W%@y>}<EH6;SwhQpG5Ivzjko5{eA$}p6JU@p
zhlX6a;^OAy18q9fwq*J;zqCpt;U?V_mo)b~9x0??<+DKP3AnCxhKjw=q34Hy(_w@H
zX1Q0J?Ortwy2jyc+ue;F-Z{6G_wBJ0rGxlVq3#lYBTKEp?Pg8nPfg=QTMoIUlZ=Ml
z!^UqIkrhN2m~He(l=C*_S_&?chXKWUg_U>H3SF9Qs!x~6T@?*NoxbJe<ufxkKf;eC
za76Z@4ztN_1w!<Qn~e?4ye%%G0rP+38IBXRj2az$u1Ht?8sSl4uc-8ni=spCSAAXs
z<zLk{@v`N|<Dk<7>5UaAtDtSy^G>z-mUXyIJzNf4TF1?<9z34%l2+$q#BZqTj=vg|
zJ*Y`l5YkYnEV|0){dK1n>*v+3uqyY_Le#D16t4{o>8s6$KlbwWwi}?qSp+_J19@@f
ze4QYwh&fP@d$kP-{5V`_V`HQC+HPc%5!3-N8lboKyt{CcivqkosROymU8!Ju9TY>t
zf`FbXqcqIhIJ#-@C;-Ma&nI%Ynl(+|?}*}lR_Q#qttXY(7hBYT0xouMuQ{9oIjv&#
zFuq2Qg;N8!`+XB{S(4x<Y_b|nJ7w}jWaYg&Y#VhDO|sHQf5NT1*n;^ep1FrF3AZI&
zfvZkKKXu%b$+bvXjT-+wVS863SMN9aKHbTI&MSsJCZ!t)-AsS{L()-FFr>oD|6BT*
z^u2BEm>$ofOtzm@-LK+HE4T(#DZszFPdW-xD^7hx=I@!TDyK^~@4MU9^BxW!{wwXI
zuqP)b8!+}ULJ;?Ra55{!j9Z%`&jh$lLX<KZl_E2<JB@6X3NoSo+Xd+;B{S`Om9;#=
zOpy-cs53dWuj&3zXR=RGEX_r&R^cz<ZwLOj|K7jVu6<|E7Qr9X9DQn9*}Lex8ar!|
zX1cg3tH0fKdzvQhG*=dSNEmpNT(XX)IBJ%0KR%B}gXr|k!hxxZu<|gjun6T&oyh<-
z68PR~@g@>M^8{({Wv*XMJK%wq9TLCw|Dm8<?*uNVfcC`>g-6XAK2uf!R@Z&zhgU2+
z!v>&*r+0p5Mz7_}*GX-Yu>(5#`$szaR?P$te<8hrHviyopH+ST+Q)uAuwtXlb|PW$
zv@dvCN<~N}WoqVhP+P%ANkT`N^fCJ!fdELG_>&oefmn(RLBeX!^KD0+zc9qK4rdsJ
zPgo{k5X17iZ@p5$%{Xj`sZM06gOXfGgx|&^H1brigr0SDOz_-Q)^Qe(L$_N3*x`hh
zct(_T)0@V!c+LDDJKnaJFc%*oOEWAzI~~~VwI?@Kpr%EBYuA&PYkW8Xgz+P3yEohT
zNZKaWD7kaU#eUCi|53F7;2V?K4ucX|a=&y9TR%~y*~`H3mjd7ZKos>4=br0eDq?ZU
zw?1N{OK0tLk+<jS0v6Xn3ZH!{hhojCw!0Z$Y{p7_ROFmLH1-neR(JReN@d3sPh)G(
zNev)u^g$i#75Hbj&dV@B_Dh)Fk*+hO(F}9|4u-Ra3fZyA3hcC4SulOl^|cj~qKRrc
zIo|(S+3tF@(8@#Jgmc#QCcJQJ8qTciVC%F(`IQ|CKL%P|-I><3sduv`f<HAqeo?wO
zQ@1M=qGrdA!Fq!gVtYtUSCc>VK6)AXZ@F5N-zwOg2sf+tJz`ci{rN+WA}Ip7%Ds0M
z<<7q1>KxN*@XKpoq(;x4lK%Y~%)gIZQrMYc+#+X8yVM;G#8)o(3Yq#ysd;j<slX<%
zvQj5@U)r=jCr4VWq*v&9nxILqXBG_<*?>A*9b#f)YroZ+P0MEd)cdnxz+cs_hhE^z
zTsiLENJmsDeczpQb@hW7>YdoYQrxK7XTSc#`p_U|p4|9iWct3K3Wi@dS-`tZpc52T
zR9UP{?;bhX$u^zZug(^K#sy#=qB<s{kOD5A&82TJ9%GmO4l|~I^WB2T*O}(FPJczh
z?)4ML^$mR$??U(eG&+<s2WuXZGHcUPAM(A&#M=Cu-x4Ba5geLw$BGWq>@<q|q81L%
zLtpE8G?z+Rzt1Mw3_kbM`!;CL*;Rg>E}FL~wwJynJ@`?>fKFfeT9KU$td7lMR?MZ!
zupwg5M3Xnu-G#@l*`I?wH%LwS5?mXT*!L%QIwXa&2F}S_q5vTa?{8N#shoQ!d0auo
zTq6Gz0CWG8>ERB|iKrkkbBV5hcG<|B9zJ^IVlA(AYs@opM2i^{CAWg4pVB0L+;zIX
ziaxJTmKd^^Y=;oPR7&{faXGC+9gW2?YQu?TD$6B`;XZ#zXysBGeji8Spogt*U$NX2
zAxEf8rY%kexCi`(H%0&>c$96UB23y;0e-|JxdU?yxYo(8C?kNz3Wz9Err@giF-IQ@
zcdx>o-;=ywdXn84V_8Vy+-~@T?WN(@Du~XieSfYRdR$mMt-S4ivGYXH`)+eQr*#Ki
z*60v=^vHH?JjCcytHVoCHAKxQD;xO^?LORm@0$2~T~`k9aRyr77l;kf2`WYnw;JET
zg_ZgG9x+4&*CsM(l@(%vO#Zh$B3D6Fr)^iPPnX19>pL;nc0yd}kRMMe$Md<V^EopH
z-zr9!8nD1P4AGZ3zY@8FE$%WDNvs0;DVI}TZj9b~J6S3Po^ihq;(W>HXLLuCE~`F%
znmd$Vn(0T?3V`jAHCzCr684z9GY=5r$JW8E7gRn(U!VO%iSJB_v3Exu7es!&hV}<|
z9?s;txr!e%SYPdwgZ{NmhQhO#`ywYC0azjupk0CBONs83(EJ_+i-v~(r^HssO%CM9
z7j4yxZ=8)>mg;2iv-LzH+9X0mX43mm)n{udTJ(_QN&gZi*P!p0`KyzmJVR1LM~
zTYM1=*q*81vaF2b{4^<nx+$(CmWy(2!=!)XeE`?&brZLn+;vVNzF@hVN;qp&CE5GJ
z>^QfMrX4lps8_*Kmi`OT)Jbasz<$ZFGYLHaS=8kx>hxrI_(N~a&yEg0(KS}yl|M5H
zK}KJ(d_Rt&Z6NMWqNEzz6wHkZR)(_+!hNilaO<ocGu#I@0#EsEWs1^msTBb{`FvJh
z;%8jGT>Dv>HN`xxi)-E<9d@%mBBk2uH-OJ|E?;__BshMrGYk`zlzDAI3(#H9*=Zu5
z6v)hE-VEaPHUd^6v<{W(9O0|-7!BV8b-pK?CkTFW3J~5TaX~j<4O;ohw9B^og?En|
zF14qMalBizaN&ruUEuuM4b9~fP>zJFdBciycSG-eLp(`YC#_S3S8@Po8`i<eU}K`!
zY$=$g!}9J@_E|X0dDFZ@F0?CaRb(y8+N}l;afg|_H3_@`D-@Lh_{Pm7ZI&NsJ-ot8
z??%Ys(EwNg>1Dk1X#5_4qP8MFu%=Lq;dKR53maNn*}w1z?V**zgrk6WJ0yMSoe&!W
ztShWE!sj$#m5(>f{Sd#1z4^_@^F@I@hVrkhs1RvKlujk=4CyzKF21KcDrNOYM7X%W
zD5#YHx=>&!DfTs?1=d}V(QkzP_2>F7>YzZX3f!=n{Dwv)`FQ(OB@J_#h#JBdeHBeX
zL=*Rdsfo->w+&UK`X^?7`;V5Ax;o@_nS0>q=fRmwbSyA+p?K!-1&BF{!o%&2IiSJz
z%|d}um)mc%aua~c9VQ}~FU-q&4iCUz553$&q!43zDT#9dtNeOvAPMP26(xJrkF~!H
zp?41^9mW#1z|`GOZ0bg)46*0U#?V*6o@Dz6Q|6PZ>IVS?$b2aQje)3$N{{Hi@SXft
zx!#YTtZT*ypU?q1wkZ7;nA!M7PUms@oSOV+p*ZZmhqH1v1pBKrWBe9pPN5i9@;*(b
zpmV0STpY@nSAj~NU&WsnNE+dC$k%Q8tiE7bZ8~jumt^D7C-cTc#zwq5bi4|369Zu{
zxpMP6n!0H+c$H6#Td~?#ktb_rVt-AwZ~PL4vy{b&z{5pV^L}0Tte(|6a=dJ!%Fd>V
z&CbBaH;n^&Fz_{=rwWJD#bvrd-4AQjKR8ycHLx9JZ#NQk_Q8I|Hm1+;bW7U>ZD|dz
zYN{l1d{0NnI64|mF^yf=^zc2W0h1Hu_!M^gU;mAcByLe*v0y%i(Xq|u)xgopS1QIQ
z*}jn&B1&xFAmAir!Snk#$U;oOFv~}*dwsKvaAev%<Bay;wP_s?be~{|o$2+COLoxY
zv(D)>@5en^uTFBlnwVN=flInMJ}2W+C%|M>bZw&2-#I2_3@tPPc$6}`zZND69<6`K
zZ)h=dyHo-4fb4&pDScOC{6bA+4e8^PpSY-bg_=~`OB`(D9JOs|$`AytYN>2u9JOdB
z#~T`l=NQ38@T)`t*q`)waX;P<qWFvT(E|17rEFQGD{4kV#r%Rh+eebS(UI`-!<mTU
zVzAfyEi?_}i0hrHq{SZUu67cbinq5Od^K@J-$gat$9G|XVsUX;UO#@!XIA<utRhE*
zf!b#)_*BP{5jTiP@hRAw_C>Xw5&}08+!=*T<@bDEkiAtvtC6$NvrSx0LG`rttK+>?
z8F;{Ugu-ul<gIiHwRp5W{H0%EHd}kbC&S~+>3ZE$l7Jd{vl?)T;NvoBuq6Osrc$f4
zQAfrCQA*Cl{z|v#1Y|0)I^{$l(D@qr+8RzOaS|7MEqpFQT%IbV=T0q^IW+72Ey`!@
zKEb_M5b*dh5(gV6Ph_T9_1U~)mdQ6B&?PNu)t8ch)$ZhLn@Y4Eamx8h*yfKmr`p5n
zr5Og?QW0iYcD4Xe;p`qAH|$8Cn(o!ej+}T{bawL@UBzc8r}TL?;W>~ss0(uSVnDm$
z_xG_Xl<DaU=c=9`Ld7^Q-qoRkG>4tgo~9P>f6P&K{L9_=yjU&^byH|*#j{=rM7Z{T
z6xj;6P#G$8Qv1s^bmq1N7VjTE>5tb~>kTX%4jc~1Y{;W+Fbl6BF(&3d|6~n8VprDv
z{s`{#{fYX?2_%0FYSlv1^m3xHlKbOgSEJk6seor={y92<USj@nx2jJlO)9M9eh{?)
zjdd07xE38%$vJ>JPgSO6xRop^SFxvmh8bZvRL9aVS)U*)S`81F`#G7?Kf0OJ{my2P
zrpUGKf<bLp{<kvqp+5nChi=}AO_qY>0pux)#N|A-1<noq1AgXDeT9*j|A(x%jA|=t
z+jWxw4OZNW6f16}xLbi1ch^#i1}(uM6e~`PySuwfaVhRl+%>q%$-DR1=j`u2WByq`
zGDb$S=34WS`@WtE3zCfq`jZc0wb$s7XqK2YgX%8zU$dnjX?lf4%<`ORHvA9N({<ws
zzIe05(=;X#^qOJV{lP_$6!0khEedT~IXZrC{l1M27CY9R&F2&m!QQnR=KA@o`Y`WL
z!hI*{P^cb*xo&PhB6;}h_nwPDh1>hhng(3J(Bdj(%Ih!5x3`JEpx@J;c`PL%XP<cw
zZ+_9>2vcH{;-?401QkDq{}Rljt9XxZj>Mhc@`J@$7x}a?YScm^G!A^(=gtri_Cr1>
zxj%ex%H=Iq?0Gf!hL>p`=dLfh5Yo40A4ccZGK@v@v<hh`Ly%1W6AM${ZHzp5BL)9^
zdb8<ALA`DX)){)#$Gbd7C!xzwjea?DojskRSl&B2tan(fudxs_8A@Kw_nunADAq}?
zcJ)r?L5<%HUfF(51{Fq!@Rn@Lw**LTiFURu=zc$~48#|m-zTK({Pm-<PcgdhhxYAo
zeD4CeT7uYmx!Ti0GuN&SYQ0RT>=6A{Y!q8YYV2MfC|e@dfORZT7LYEV*CY82wKrYK
zik522h2`6>BZhfT?3?-RLkd;KLzwh>ENhKhG+~|MH?I3a%7XK1=~-+(Dm7}Kv$xG(
zM3Hmi{FNm<NABdp4U$<iCYh0NUu9cs?r_TrG`Da=MAH&bUN4M6)I(+y(S6n>-9E<<
ze5P^QNqx2KY2OmNMKY44%|9<;{<Tg0DoT}^0qZd@{r(r$y<7NTvC&{uW6~@6Dk`{q
zm9d6mI->Yejs~vw(IFXwxrB=uqBP!JJC10-m9IzZau}Bd#u+w6S=@2@+O$iMMTw5e
zBEu5jb9`7GTH00Lh{2yb7|n@C8Oz9Kby_fc%v9a+o{9P!^K80a?A*-le;a8k+LoGf
z26+I<UywSTrutgP@JA7ypYdWpw<3k$8`@^w8tlvYq|+pntF>DDlxlAz2UXkajz^+<
zpj`44Ni!(D#;kS}Kk!FubQaAO%P_<ONRF>A>5)F!So`1=X&iDZF+0-TEn|^4P9omj
zr|)Js9oMur0AVYc6514%VbFt(4PIk0qBgr#MN+7v#M`5Wz%u{&_a&Kj(PJC0mgUz5
z06d+fo$tuqrgQ6!X3&?CN{|LHXx?N^ZRW5~5e9<2uB2FUsgBHjzS95sjA3!|FV31|
zXCqK$74&LNGP(6G!hk5W==<bj7?ujd<lehzNIbZQXkW6M4UUui^Y8@&h?=)GxQ@zS
zA>#W%bS=2^==r_;#JLU432j^CF%yO3;E3-t&N;i=x4YiwY}vWKu)EXnZ)pjsrgl8;
z0THMu!JP@)a39><DJ0$44_VPe_NZgzSEq#&92t2VANA6RN6F$?lD}L^iZ(j}c`gQm
z!C8XgVQO#HKA?Q7auyz`E^=U^doQ{@ToPTVBSVf+9+>;P*B-7-_a>S}3|Q_{mTGp6
zs4EJC_jDdXk6KnH+2(w~LFCS;QZ!+L1z@{^uN~DAlxp(_`~rF18U#`9F)=Aii~6;S
zT4p-?GUl#MN_^z0AUE#Ob<ygggM5t3zkk?Z=jwkSs$FJFyMM~aFg*ItjQ5%*Nulph
zREiA|xlxWSB=)S(VmV`nC%ljBhRQ2QorbgNC_(zZvBD*X)+j>g6KtGAi271|dtg3d
z;|x>(2*b9vT|TBHl<nF|1UtjNZNablWKvEnJ}T!*(9YLwBSg{XoB(w~Ho?|!)_7Bd
zf}Nk<NHhe8)e}v~-EkUE_PPJ8Hgq=f>cVdCbUg|N6$=i;`vvA~3S#CK>0UqqE00ql
zdpYg%<5%6GAE!!(y80LnUn#BRmp=#7Tp}cio}ML&pRjIxGMy&ucHY11loACrvl;bn
zQ=u)AtT2A?UG8P8J9BSmfk+EfJvRtj$_9t&Gx3l7M9~R;CA;_TqKYPv4(p#Dxyf4f
z2sRa{Gtx)-rNh9OK{z5tzoZPmPP^Z)H!`k-g(pu5(PwUqCpSqN-bh+~B!w=<zw_kS
zX3v-IW`}PG#W)1SX<3zWybcbaT7VfFY#s{ILRe=X*GRZ()Uj4hm1Nf(d;@z0r2(%a
zTC-_o>7b{Ku@dtJ62oB(Xu9qWpFzdKsL^Kn>}tg)fM<3`&UDcC!!8BC$~9ToRHFPz
zQFX3czaW9Q*xhG>Y!zY!)9@uT+6ez|%}yo0d8ZnT0gndqtStD=Aa7K=t)kMJa}ips
z&hgi0pY)60{IE3mZh5i3mX-YttD{S5r{8(aaA%zuS%;3OowT8<3ogIe%S}C}c7K|)
zqOv0#6YNZb)CyXA<BY1kA*aA`^*6mx-nM0)2sz78<KRPkyoXUn!I5}a=gGXz8EK=F
zH@Z^OiV=CHa<7kO+fF!d2E9OJ908~xzc2sa$zJcDFhmm+EiIsR6w$YZD0Gs5%eeQR
zJ{0<MwX_I9zI(~Z5qFn6RC&2qZ1MX+H><gd-2u+1>s0wl+u^pv;vKq#IviBiYHP-x
zvMpnL>&WIKA|BZ9qdvA+0IYl_Yj*an{QO{no1h+UzZTyT+f3!3uXdOe6an*h<i8ca
zIAp4Zs&sefgqqI28@Duo&5iel)jMs=ZL3xYhTkQDcw9i!$hADv!|yX_9#RL%$?|y%
zFw#M>BWUxRDk$QOstaYkSVEbk$@ZHdPJws+H=GwF^ckdN$vquaIND>LqPLy(%WaB_
z+w(1ub9Xx}1`{N=S&Yo@YvJz7`@ms0`Z3gJmwMNM41WsJM+zBT4?n??{`;sqv|aKw
zbp}yorczDtTgT`aO08H5K@ALh%~!%mnMivjF_d1#nnHqm0{w$?9?HPykVw4=(iN$!
z4o1s~(Tk+??390tkqMZ4^kEg8Y4f1_#mRrU(nkKSzq^<;8=yS+R}IwQTfNS?Uyh2^
zX33fS5@BWK3f8GaDaJa6ks?;929Z)sk6JsOb>u7!A1LvTLy#IifN}HyYh4fMDrJHu
z4OC=M1fm_|m0l_M!A&q$vI|LEBd2|G6?2#LV>TEwR8aY_pYT0e_inihEMuclDr^*m
zHU6Z>MIf({XrOi_)cAsqmCBr1YFjB(k|&8P3@eL<Lnq+;{BXDUFro=nSU}n@lXX)V
z0A85knfx)Xo!MW)V9oU#)I(Ifp_#eS^dVIF{4X#}$vGa}`l>v8rON13V3sAG@FI^Q
z8|jF7TZt1heYD}Yfwv%p<RWaYRCCj8u#Q|WOqekwR^+2z8x{?>wY8*qx?Osxx0Ld<
zScx3+@%bb5!$3x9A(>Z`a4`Q*5KhXKBfttsh*DnoG$}#A*Vts2wXu=t_#34wmi!}i
z*|&SVPRvE8bu*M?-N>uG<Ot@pdqL{=5I4(#dz5Df0G_w~_K+s;`}b=m<KyGfOHIxN
zkkxj>%$3icw^_juH|`^>)L&i=-;VX>`h@r#WX=+V1X9U|_$kI#g8heVRPO$H--rl`
z=rYh8wz=*6wc;qLshN@q3O3X-X!mM*93z>d4aQo??5szWAUXVn#Sj%&5qqeL&G)Y#
z<&?^>oPa)OANG&;>!yZW*ScUXY=_m@*GE<0k9_dY+$%wvqX#@TUT;NQ4r<GE>eK+{
zC20cQT64S|!Sx8mjsSg)(+u-2rEsc-VOE6GY=tpgm<;!|3usahMJ8R;d-0BkUDws^
z>pa{QQD?oqicV-NZCM)45Q8UwFU9?|MCDK}%dM<nLSH7q5TD`DY?X#lEM;$Bk&%w!
zHdo9YD{W|rZ@Is>cj}(~mQ+ya(OZbE^7yF9Iej&GrbMcZN&apVfEAU&zwVXE-ecGT
zjkv(PFTAiy3x67y!k)i#_6HHt)vzdjcYMxM{*!QrmHl%+adoevp*G*p52&%oa0vLS
zpg7{TOVY}p=hvGsurbV&|9P&*Pu~wo;TcmaGQbWWCt{I%>=CsEPxg^psXV}p>7)!1
z8w+UJ<#{mZ;e$oP$Q{`D*=l#^Dp?ji2QOf?k3&31Kf8%<ss4`L^HM*aixZ9UElE@L
z0)>DI?TSozD1a?S4EPI5Ddgf)Y{3X*EZm*_6n&Mw<wOVY8H42{*}S%LL)5>DX!s9{
zf!@m3(Lk5exUwMo4}(Rwd1Js=%I*cfGnP^=1T?WhM-DEan?=1P<o0Pn#s-(eG^|J-
zx#5GfhSlnVbe}~+wp$hCOKgV*`xjAthP4A7-wx%?inixs1fU)2`H<#%bZGq049LU~
zZOOoku5;=|_q-V4I}TxZ+mP`*qI|T^;WG#<rwzu|Z-IU2{8PmVB~`j>IYuCappuz*
z;&|eeq!yO@ZI9>j*PTd9$Fja>yVrkLJ^I*DO_J00>uy#&$FvGD#cP6*qmNe`#ypVk
zt*Tv{`}_KjbD~6<Z8hnZ+n*i~UzbtKXXLvak3rJH=-}`a^x9*$ydg(6N-o8|YkN8>
zmwN8sWHDPF1bR7uYZE<*wm+68VzaB!U#5Rj*<kEF!^_B~GV<mw2i99*v+x0Y3)nVt
zTX$cobj(S^7ni94{KgaI=eJZ2#rnFjjF^a2OV01m3H-R>06JW0^E`fjfHxqv&O*(Y
zFpD1eI2xchi|RiaiTsEp-1e~Id6Y+NTnj!ys3|^~In@D#IwhcW6hcsiWFObX5+P$}
z6Z_$v5vYz={>r#u=^=GpKLWFUv^yqZp)7V4+t%=abhuRA`w;9Jdm9}3EvEFOxLFuV
zILDoVHXcbT>&Ir)o$f#+^jLiU4h50ISYf>{-=C^7?)NMYbG-9P+?wRq#Uxfw&KvNv
z5z&hOLV>S{c*i1vyJj=?L51-ZT$EpQ-_`symoPjzWoX4S>G#0-^G&T|M*%6y^^1?A
zLHg>I&vnJ|q<$wat`hp&_HX9$1TNCq7aSK&fwt>cQ9&t4ZlV5+o5MdUc^OM_vq?1v
zKC3zzKO)F-h6h9EgCLB%_>WkQ@~vMUKa7En&7Xy}hJ<#=yEmNQhK2hCvR(x4wVxLL
z?Aczp82(x?&~ol|o-GxQKg<}Re^0R4W0Uo`_p4<z<HI;vj?n9~tVPW?U1SH^Z1C2O
zRg1SgJf<ZH@NOa;3E8dH5trU)JtZ)2tu;zlPT2-!bzOch;XS%Al|n~rpM|^VzJOz9
zDpFmt{zUY4|EJ=RWS6_2^9?b+ZLv(1w9Ot@%wpRYTS@9ryR{!3{-k;Cb4(6Jn#o^T
z2;XvV<mbMjCv&N;s<&JAIL;<*P(*N^=t-9Nk`DIgEbD-;%J4G#;+N=qqk^#~raV17
zync|pdFx2#^6n!Bc0|L)?$|=UBH2}>?Z`@?^U0WO<#jz)8?A-#$XaH73wo_!nd@uw
z4}`T14P>2jk+PIm$5k3huFQHcL&G$v&YHfqcEVJhGE4`4PFU{F``z&qyi@>!bW-1d
z{2`mCL&@Y{VJ-UI>2xT4dOiABv2Fd|@=53t@0q#56(wHh?7x2-+`K#^pUqAh?FaMN
z1J?WMmfga{E6=JNh4`VJv!A6n+u{0OeeKkQrE9Q+9AKUW69+N+vvmr99X&AIt)RL+
zQ=#@~?G3~U?tQa(vfR>UWO?_CV@ZFZckm%0%G*LI!};|Sg4{j7;&I4U;3C-~1iYGm
zl3AGlv()TT(#8O&lJ!F6QtQl4C3(T$(W<L{aeeUPRJkntIHGMTf-^@CXt!m1{tJUn
z&l#&Frxv}#=hyaK-b*&v=wurN5>e0ycc3;cdgMAf)sZXgC%glfckAf>zEb!|hvn5L
z(D@@N(6!0zk0J@ielaYqs{{z;grpG7{@dKhZfq?jdm`_|Z-eJ)!u8qcFp26Ns?o<E
zi3}m!qhq9VzIP@)0bdpqgANr8@LMdJsD4EadgG9G)mM_x-#dN(Xq+Hi4c@h|8#K(O
zE9B3szYY~}*wrWFsvt%4EjFMA+1&3*riGc>^|QS?2u&;6J3nNArRce3wiXd5=DoPN
z#?Hx`syfhAG}?vU4cU6Ox(LwP$+Efik!}0W6k4;Vf6-?m*UP~V{GlJ_O?BUI18~bZ
zkJ>2m!Ej>E*8BUOH<X)|v4f0c@Q)zum7i-Z_NCEeBwuv8#`JMNaHmGlZ&^yp3@W~8
z!Lz8;;xuCosXMwnPJ#)v+RP`To%VXZ23W?`t2mhepW@y#r7iqH0#kf9vjaT>-9Y~~
zf(@H4b~#X~4zDg1L5+fO@$SD`$4kkkq2o}XDsirRaQ!N*c6`9%>(^;u@d$#3ic!AW
z5S0A})!}D8390QkFd78{vnbIjja8G)jB<p|8M@wqD}1a{udX219?{<d0Yc&>GsRp>
zRtqD&*IM=C*}z73=Zv<NL&FBT{`%=DQ2Tw<)e<cTSy{5i@(AbC{M;PFTLT9p%U7-s
z?p_0uNI0Gz(~eEz-Tol_1h&I^(QWzV@$=31*n36|K55?PgAAh;>}QlFxJy4Q@2f=O
z8@Z~>=2+X2?6UnDbhpcOYZfnPGR6=?;~I$XD$V1YtDX|-4->S$)-0kY16A(;jdDx=
z>m1vse}!I+^daO*?r;8<j}y(2X$wjwP9-j7b?-Ke{ZMRSF_#R@;E(<vtFo3K2eKHa
z-rMEE$$K;q+-s*mc09R8+}&tzZFjkwat6j>N|hPH>!6QbJ5XCET4(gw#6KgkUb{MN
z?%}5v`JvV1OwJ0X8Y%IPwOWtcL2A@YXBm@LW}w?-qrUslO4?h9oWNgUaY-FTZlob6
zYt_D;Y3L`BuKnwq8_EirVtU32H8@?nSexm%hq>7e2SqeGY3`Aw58d@mpWeywSR8@d
zmyckAP5<(XAJ8{rS>0Ae8d<Cr<oaopO*C@$gq)Evld!zA06iJB@stv-hDziVDD3gB
z-hgzPf!U51EO%eeopR25Jb#W()feT?G^%*XL_tve9IMI^B>;&j`!&0~6=0itfD<g>
z=Vq3(iB<1l30ySqrZuyZj|iB*LZ*_G$4=P>7|Q0h&E~3Wj9Gi`wcRZ5QsJ5-@m6``
zuc4RmU@2|{=&V?bk9q!z`6A$Dsuuu6-XOM;y@>EQBVYAK2ws~-uIJ4r-%Wk4abB<0
z6=xNda?n9`riIcxb<6NZpN7@XceRp>-aDwVQ}O}wyx27b{#_{9Kx`aEvvh+;ny9U6
zfgiIM>K$Xm1+9=kpPYWMjsdLszv*$zX1J{e`crz<6Tu6`I<tRjx1Rb1H31f7b0ffG
zYY}tOus4c<iaKuM4~qK%y7i1m^^PP1%nOuT;+U@J!Sq;(r`$ss?|qHGy7)(p7p$yn
z-v-c=7a%*Epn7GJZ>YGHYBK^}#JL{dm4!MjO5PR6JWmAGGPwZvBD_zz@~nv8{4Nhc
z`k$*o6s*%pgL+z$Zz`)p_gcuBa;o~)oRiX*GkiB?<3nz+v`1M0ZU7}R0eP6a)=T>-
zcEbrgmIiYGcu?6BwdMH_hhWnD=4=BNXTeOFm-lbDiP5bm@$Lh2-s{?)`Gj~?%%a%l
zJ>tNvY~}s5o;0;6X5~8_%WerVp9wJ|7P^cI%mzpt9nILC$9SvxU;Mq+$Tws7*dK=W
zsXdVKM6CYGKBMkV#Kq!@)YyD7HgaIkslMgAuWEgXkKCkLzB}{Du~OLH7EqanjXW4V
zr;EBCKNx=YWg_@>mEtx5FlGO7P9n`^2YA`W=I7zzvKpC`GxM}c)Ik)x9bS*HxF#10
z%n*v(%fRrdu=K4h@~^52mG-&kYL07lGY$1^!uqP~e_NBWTt=|ivFO{@MbyfS@puq}
zw)kIzyxkNl*$C!J9|b<g`4gOSz@&$wsz9*UI4-MgHy%lXlQV<cA9cu+A(nx6S+dMw
z76(`qTWd2@TvVB@|0oruHt>Tz0MIXf5*mVxs5&QiOl?a~_ygJu`i_<zS*HBV`d-JA
zYW~aQ_kJ>D00U%93K&5lT84;kFVlQ94jYc-!e3256c)P&g=N`1G+TE)iyg#UhXp8<
znyOUP^NHQv{t4Z1xb;s+5b34_9}lQrp*RE@9nkmkfp6XH`^!eQ0+C|Pj&Uj6cPYMe
z*|+#=C3x}Qlv)X=cZF!ja32rp#-`){xAu)2Jj8RX1E`74z^<hIPtf*-I3mCbjb+|{
zT|n@BGbzwB2053^*Q1o^6ju{h6%~z({iAu<g{>ca*vq(5c8D&#w@&N_{)^5dt;|PX
zX*Ob<PZ6xDTd))7N5&l^kKG?XTB-VL#^O{-xjdbc&#CY5E}rKuo}E4#c`rC~@iiKq
zQhsg?WyuPDrddeZ2^{+U^|q*jt;fC8ixNo3zAu3>xP9Mi%JPLrwj<BCf69z_a;{`M
z?y-Up98Y4IKnXrzaaLWDn<*>7SRyqvQ}kwnL3xsMl4McT_P@zwVs`tft8ya2w8-%3
zpu6LZ8_S?fnYTbMG&7QMu-N1*ljvDx&Fr*6#k1h13C@x=uqyxZWMet^=;`AO8pL!P
z@ah}ro*&M+;%h6i&1{@eLOY;Qwv7M_gPGeHit}`bp0h;n#&BnfBAlhJNah3sT)$gZ
zoTpCo*jo0mGw8uuGrL<-MT7Dw7Jp!wc(fGT$5}-G|Ly^zflUwAX{3q$YtbEvXcriM
zBE#fY$0j;tccA{uVh<1rNXy&Ej!(0nnV=B^z1}uaG~zC*KjuJ%urCr8Yqv+#>Mcrw
zmK%3KZ<EGVDR|L~2+G9yL@jYv+!}NoG6nMv1f6;pIS6ix(>Do&3im?$PHSxC_69dR
z^ch=QQRFs8rDTu;FjV7FEq4KRKhGik({a#su}|hs2m`_(a0UMnFxxnKNT47r&bPue
zFLZcva`o`+qohjV>S^Ka?cL7vU4<bb+Yx#{&D4FeIEc@1JSqggJWeM+t#s^`X>nU`
zMRHhP7J07P|6#iT+;9XPy-n+DzKRrjtOR380JdzV<L8&*?KZAMk$MeBZG_xMJJiCK
z9k}Zsu2LAH@(46a$F_??;WNYity-L*=;pnDiJdbF<7wh8($1W83jgJnX`ChhnMn%z
zgiummSkD8mKVM`%ien(Np1&HG^7nf{jW;|LG_dl4VOuT%iz|6Tj;mRx4ITcXML7%1
z6ahLv>f|%RMm)&Voqa;%iFJmsLmC5&=m=ef!DDEop$mq1%OXQV(JP;}-R4G!LB!hM
z1o)E~stnx5E;uRS9?L>Y&fb}=slp;CdT~F~e`zz)7>e4ti_(pmLz;Bj<G0*jzx^Tv
z6hvY+!~a{S#WBZMA+f*|w&af#$eDW}!<cxYSro=&S#sFZ6P`9<l}G&Qm5bg%;}vA3
zR9#p0X&ej_?jz4Mh=Mf&DM%0vv%KT1GU)mA=a$XLGK2toxZbo|(DQ0W8~LE_05R9y
zX!gN##kH)hX6OMcO-?Yk^_8Z~%Y@J2{;?xfv=n8K`Ay^vHGEi(d*yA}^+Kt6YK3mi
zyYZ8ng}x%K|2kC2!8C<^G<BpV|LaU)mY)x=-5UZ5b>Y~K>-=0YrRXu!M-Os~hlL?z
z9!OAJFT7On{ci!xL}J7FS9_uYD*Yu}znsv*LWrPX%S`}DGAJume!8ALW-3*Dzy_|d
z)Wj&4u&d-vti4M!78@AqK&GjCeK{!oO<!p(J6$S*NQ;Ae>%9DuiP9<OWIt_1idfZz
z9H}=q92X`Opere0&WBy?Kp7;t*8uQL*irji@yL!oxc$8EPEB6O%TD|oiq`w<HE8Aa
zdJKv;E2i(2U`AMXB6^#(j597g4w2qB=P!FukWkm@T>a5KJUpC2D`YuF2+Fm607%|d
z`b+wQWDkxkguEpJ=Z|+6vlB%zO6Gljl}13P%QIDq(n^U%*VGjcxkY!Ixw0F4O#~(E
zXvtbRLo`oVYarb)h7G=7r?)Vg5>kH|k0XT7q}>mMk|F-+1Ghvq21L8?|6T@CSjZ86
z2Z*j=96%`G7%^kg={LaWJ=O|M_sYMP@d}o%DK&@rm5b(GTNbu}a$yrr<432{Z&^!d
z#25{KWru%b<Ja(Cy>B81TN4dqUu70k*|5LJHE0eYW8}Y}OI9&OJP2kn*GU>aeUwRC
zNkU{s5gVPUfVe)Hqio)L!oR6fxPUci`(w2WhJxpL2*c5Mmj7fc*(CXDxw=`w_sRXr
z427Zn%2dE`QLbggxoGluaGn+<#IVY%>3I2}sO@>N<oc4hgHgPqkF=J8NW;T`q1q{0
z(%ah~>pMw}S$|YZ{i^>GWuvO5^0omnRu3Of{pnXBRZ8lrgn?!{ijR(lB<UX%|NEiF
z!*aku(Gy@*8KwxEv*JEtp3e#k(-&{~M!~9j0@xp~l;W3+@oROs&6&XAfe%d?c38l|
zX~=_c_(leQyfI0@aB={p6BxQc;(y5CPSmY&C~E&*cXIuWCUwpl?6sdDpMsr{GOVQX
z*VE`qq(^i2kETUOCnhtg7_rqP+{x6&Z^3|<)SHZ21Xj}=^}%rVlWI+*)ABZ1h2+WB
zrn?qu%3KLLOe;NKCR4X4hz^pMF(=jV%co=HyFgZwg|@4PA~$_V!N}3uVWg7BqV4ap
zy*KI<6Oq4xF9RT~Y;k#W>T5Ey>#z+)1+OLJivGsj?k&L)o(;$MY|-ZV?QgKNO}rdX
zkr}F-qT&sCs}=e%xMlnO871{xIN%KcmPBq#yuv;aI7w}`fMvE+LC55i#kc%ef7=+e
z#0!6V<P*n5mO81LxrfT3kIs><f97uk5)=(;_hf>CC<<w9hgL0KKO>I4SM&Xie`+O5
zhqra=#<BSlh8Y5lf#6)fHxJH`vd%>rrGf~ss)LffP6Fay$YzeO@_)i`6_H7>NPYgl
zH}L<yHb4UxgP@l4n!qE2Zl(1ZfDrdQDpDm<Vc00JHKkNF@N};LSEiF4uYje?;P$SM
zby@aI71%8O3F#|p=10zO^?jYAU}OGY?_oTaL^M>$S-;&-e*t?mMCH`S21D?0a{6e+
zLziA-NFQ)W78hpoKQ#tNCW0M-s^w+F=ocWC?KF&zdKBZ|WRGjRoxdgbrFuQlR`9N^
z>PXLkCfLX!ygkxFfmNFR@I2qo!8q9V0usNWS*eADaw&mMQbNS{+*DFp<^C8$i&j6S
z8UNvy^%|J@8(+(rlHb!Xw{5&hMTLyAq=hn7{ty*ngZ+`H3s=fU`lRA|U-C0J=9zZR
zI?}0CSw==XEb*}d35*zN;N|_Z<51<CXXLl_K%6UeDef9V6T=WTERvRrZ{`T&n3`J9
zlDW(B4h{*<55kO9ReB9`zP~dlaVIKsjG~2z)E*CnNzw03IeM~Ryjn8S*VC`|iG&uN
zPq%jVr&m>}ZkM{JI>xohre<DRpgF>f2z;Xn;TLmiPEWMC_u$C8_Y1Ww+sYnt|Mg($
z(2xT#H?*zfS>N@Y%JClIgzMbWU^b~#+yYy_WRctcBLraIG&T92lS12LUDu<<q?xK5
zh>O>{mc!q*3LK+<2jEy?cLsCo?IER4f7-K|CVnDacJ6&YH89Y~Q^zf5CiRF?8UxU!
z_4V2EFQe=1A@x(Sv;&mmfF+!i?z+Zq$Na=st5J)nML=}#ezY0XrD)fb8@y1N{naGa
zWAo3v+Ufk-CT_y5--8jH-(!*MDb8?DNEOGgf_!L6cIJ;U>R068IcN+9q4@C5@Oe;1
zW?CLqSaN!Z-s3MJ8Fk+<`Av@p1Sw@z8n|D?d7@FHL^+8PgNE#SFsz~h4ePCU(j?lJ
z*<wnHMfMW<s8@%veM~MT#Cropi7WOZ6lVh%Z;64f?(bZu1l}uWFoF-cIaqax`*X|V
zc31!{dwYI&79PA8=Kh_$JKcpd`+8HN;v+Ks3?fZq>6Ji}2*=^Jga~M=?BFvaWd<Vn
zi<eC`qsmh<uc8wU7`Y3nbtdIH`Dt8)r#rgu6vMyvBqsK%mDWwnK`LZ{TssxNY>W0Q
z=-5uJCGX3B2ktw&0P)_L`AS;0MJ!Z4)!Ps{yr4d1=fJW?&e4(P=GGL#^g$OCHM#hw
z;)DzzmW2g#A#to)I3OHwvh}8u->U0#<wx;U0+SzJsHlQGoZHE|wkQ~SDsm<7#VKJ*
z$RE$seqW<v0SJ^ai}8OwF4PCs2Mggw=A&)nv-ie~l{%lQ{T2Tdtjs^hK1DA`E=feC
z0a!B858wWC@$BbIE(6MF0()I}X%HPFJvagktbyPr11ZHDetXKHF=Y24BXX791;d4m
z@cKdsTAR{$YGR1*99q&!4#2I(1n!$VGdA`0PMpuXk`-V0H$rs7PR{tZLzgl<a2$I-
z${o&6WJX?YTFMkJyA|bXB2uHNzu)~`P9YnteW~&N-YcH|l?BSWv0%K^+X)UMv-<t!
zY5r&%?Ztn8T91-3LNy+QX2qUSOP|_S9}-@eU*+0ti2v8>99aX1lbYaSMgK5HWY9#_
zoWh8H$`pnUs1w;FIP3@JoR?nLS=bWRg}cG3CvusB$&}>sABtLzt=?veEZkjKbaX{)
z;@%P$p-d{miMWvEAN-HxE?opJ?_9os=m((ur<$3@@7RTyI9zc*x;V_y_7&dtl3s6G
zx0qtzzJ8|^sW>kLZ>9B=Ppelx6TMxN+SQg<ud!Kqdhor0+m5A+Ko7P)x44~UKRxb_
z>H7M1lo>blNyIj+cnteI9U3on24c)I<Lu0Fv|CoRT_=-C!4HnAN6WEhSf-v&7Y#--
z?#4U9bpwxBK8XfamUKu!^RW$8+EzW`-e>JAi%W|bZ;;|Aqne%{n|6=ptIX`?tOJ$Y
z!yza7T3lJe*NQGZl47shGW$fI_sk9_tzv8gbI39OnI%4NMu}ZJPE1X0Zc^<44I3wZ
zse+9jqTaf&k=qKWLBn@{m7iiiF^+GGOvBfuOVu&^m5A21_hSlDu~AgW7h_>(-UnM&
zp4)ZWwp00vk|Ya){1*M@pEA020DdW7yZ5i=Rx4Ld?BGkW@~Wh51UegQbXTCl+@n+S
z>{}hxm4tleK^hU(WTb5~jto`Hsvl!&Q?)FI1dd1J342nO*a=Yywr+8k1$)GYZ>l4_
zLN18fFV~L_S{XN$jl!m5`h~xY_Sy&-Qoq}ArJMVbzJDU<oH_nd^Oi>Ov#2#^16R|;
zi{voj9HUq1I<0{%yjJ8|ut9Z5^nam0{)7Mc-^*m391x9kTli|;k*YVmtHeI!H7WEC
zZ?lWfTI?6!jr>AYbVhPA!8ou{hvn4bUxSRPE#)2jD9QPHpCM!M0yI`{?>kO!-uM_S
zcI#Jns3GBF-+tEoA2WGLBXmUX;qZ_r`2Vl~&Z3^Xnw#Sn*4Cn3Tx$2fcc)Eq+p3Bd
z9C!Np&n`@uwzakK@*}#rQ}E{#cr))t3;gK(eZbEQu^VUL=jHl`W!Gc<)%*Cir|YH3
zS1I@~x2}`67oVj{AAguQ5W1-6`D8#4RAG!Z<1AB{T!$_CIL?lRwTSSM*^VUhK(CK<
zJ=dPWwrr1DEfWoq<f6725C3+_2YMPG_ooUd*8Vy5Ya#sO*bvEM7erBau^kC)yS!L8
z%dCQ!U8IIZ-?Y2p2^j->BHKbPz1&X3T>Jh=cCy2!@k2dLRz(qDfbXOLrMXfg2(gQt
zc>_R%`<UMkk2Guhm#i!5R!V($v;BBcOxv*M@pO^8os`W3(oG3R?M`vTJG8%<P~^&C
z8<2SwXxy*xb6mF$qW_Xv&!sK~8yYQV2N|AzO}V<A4}aQ|6{`hKylllN3zor)IgZ6D
z$J$Tt#)K5d5SGI>-{pyh1-~7IVojzdXoYwbzSGn*@~;-BGi|Q1tpkJK0-J{(kyXFD
zh_2u3M`+QF1p`e8#KQy4y`9Y_d|(W32nFhqTE{zfxwUS0^~!(E&mRG}tV?WjZ@qu2
z9dRYnF$&&!_DN^RpOEK9A~W5vxFy`l`WplVdTc*V9@p&vAkt(OkbDg9K%Y$?pV#Jn
zb)jNRXnNCLs7-kiEr^<Xz+zs<|4h^nIeU*^din`Vs4p#z?CWMZ7{#_{W9?os5>y(I
zN_Z?_g+X}Fv0z9TyY9#%=a_b<T*m9h-rfaQSIg9uWy3!AQyKI2FW0`h0J3$IMF**F
zsp|-PpJ6|x#min|UkJACs-0O5EtcI1OQ*%*Y|Bx_^Lanw6JEp5t1qW;$jIVMy;rZ3
z=k9TXZ4)fb;b1+SOp@}=n<`q_$a!qv+YE?193ALI5!x}URi<a<dzawLG}4N6y@jvb
z$oq!W1l7Agm&xUm$vD2Uu${8^x)r#fJSp1{ZIvslpa<S3O69TaK4(~eGo@@;f(wye
z?PE3??*KGgzZ)=PIsE|`|Fv!^#9YSb+x~t{e7^<JN}cOCdrd|{@?D(3C+7?;5nB6F
z2wA9>eznto#2|JTB62l7g%u7uh=`1o(?3`AwC%_8w7;=CJl=O<<LMNIEzXq8eR?%b
zq+wM;A?!AOvE*yg0r53ydD<WrYZ&qNW*5AsJam0up$a=~zB+^$^ugsNTEYt=={_~~
zL~BcDvI3m0vQy4@-aGt(!dGb7dTvVf*Vqdzu8Y{)K)3}A>xvO`caA`)rFFSMQ&(Mb
zX3G6@0o;4_`Na3hcmZQfjDt<+XaQwc*v0Q=r@=S3=u(i<FhGD-KE~jB-($;tK~g<{
zWlfx72Nk&ySs&U7l_mzfc}*6X=|bGuvf(WXeHIDu6=ls$e6bgOdgR>vBfzPJ_K84*
z!#M&zHvF;Wog1gQ;qO7VeF;jFa?BoC(LEk&`1{~{0>{s8^O_FB{!n?xDtGzooR8oC
z$06B?x7OK83I!d`OKN+|ALWrktK_zZu`4+$O#27D7IX1(*qRQzqlB%;o{lU)g0GP0
zz328Zz~smP=kB10`j<7IhmWML*uoA`{@fi`4Zcgy6)zXQ#11zwfBJ3^0((2&s)rbK
zmG(<Z$5}qc`(bIdUhH{OEWUn@SIGOI)_25$h3?UP%@2H(@jUgi0xXy_^6u^H@6Y3e
z&Ni@IU)L^}`YDJ^4ha>r)z}g)SDN~J@5>uIIaJi-%+ND@5OS4|%+Z#Owh{R>pvPWW
zs^0l#jXXIc!|Of-P&0#o56SggjEm-`0VV;whbRM8ZEkTJIQ0g4mNvOhw^JF<5jXN1
zY%xS%UG1Zgj0c=7;lTGC_&7qmqC2fGt+f*do2pB3Kx8H)GDkp#Ehl6n_A79ry-x1O
zOCe03`;6Cq;Xl?|4&?m$CMe}G+We<`z7@Cbw;IO#YQhFh^pT!gKwKQr2~gQw{hXr}
z)}(76O1q+x(qhk6fKSW{JX*SFirp^`oU6<KL6kX)^kGQ5V`Hg$X>rjY^H|F;0WI@n
z&ypCjPOwneOT72V7axo;IU6J>ZHA?j8@`$>@kdJ8|7XExxW>s{|09gq^(>TwmPX1_
zGWXx=U6<3uc|%oU>*`f&)ZP?f?0TKv$7UABFZ(iAqA_s31ctaKf)PuA&`!U;-qgwY
zj3Vd%v{NI>nS@vxla-q#KGU5gSo4~5m0?yn5iJ84fUp!S)K9+$kHZ}~**j|OZ6J;j
ztVE|}i$i+q_*jXVSkuABrOK!ScZVI%RZA&{@f4Lp@PF20q7S8=soz$4L+WQKpVwb3
zUe;Wn{cN0%$9V^_AW;x}mG5IBHy)4AIkHD!v0HWUFCT=lJdy&x^V0r#q+_;zga?bh
z?Olu8eEGu;U%M5y*kkn5@alue5`wJ2mTlE<7R9uzeEjnKwAw%+^tPtL`?zG5{<yV}
zk+2S(X4QV1#e@V0UNlv3l+bY-ctQMHP@K7bxGQHC6ZR$L{iBda?P?vK5OQdiWB;`l
zOc+o%&#-^<Izn(;$K7R!o~nLzyx#M2LiRX8>?P3qVrkXMAr>;&JsDt7XI+Qr6^=+u
zt*_(4$pF5=SQJhv4!fgiSCD#uhyP-zAU(qER{xr8c40J)!&7X&`ATWESxE2$d3}{f
z_g8Vrc6`BqS{tgCl6~~zg2^(kU%SY>JRE3u>^yzR1AO6rbSP)a7KE=nl|OO39KPf~
zPuO)l&Q#cb(svh|*4i{Z+en!d4xkjf{o|`;2u_ogcF1Y<+GD-B$hON7qvCO=+T$(0
ze_dkT9u-)XrC6yu#&X`?SEpi@u{BgdVzj7j=GKnapr!w6q)YfIp`$|M(7Nc+OuVjB
ze<H&U8L7Op%5LJYbCqc{YQN~v`uhg@CwbNXPGjt}u_{Hda2Vm_1kphh#;J%{Db2V$
zvX>(hwUao^xO|HY7_0>}<D0CKR*7}{HQrg@WwlT~EHr!Tyy&4R!~n_pXHD5FK8Z|R
zoBBhX<mnyrw<Qvcmg)idUP7}^wC`S`x1nY1exmh{|17Vfs!91NiL@q27fkgFH8ckh
zW@L4>sI<K~Ag(85m_omH**Wfp6LX=Z-caT@hM}(HZTE$NQg@7KsF=yy@}SE_Ycj)e
zAN7p5+1@V{ci2Y4_D_Q3n~zP-AZ)%Rj|Hl5Xrr~YQ#1JihkIV4T8eHq^`Y6;n?tEI
zhf6sA<o)IvzPNckS|9&*EwRlf)cp`LuL5Ll-hC4S15S}Ej`Pg=bk59fgjXD-Apm&S
zmobydIRZ7Ga62~4toza~I&VVdHI!hew-jn+Xk6m-^Hn|Q*1Q}_eb+m%pS&x+&p%mI
zUL(Pk*sf7hHJ8bORV5bueWPV(LtrPQ^mCkC%yGEh$2rmn<2oJ*9&6u>8gHeL3Br=E
z;&FB6yy@rMM(_vz6Jj+iv!Bg`{idH>q|Ju!;yK~JCA<0CdmiF13q{%YL9JYJ5RxFd
z`|nw(r?FAu>M>lCl^9T&yUxUvH2crx@3Q~<{)*<1|I~Au0k#a=%u64)F$OdNvI9An
z%z>xzrOuUqdOJhk_1(vUn{|v85p)wTigYAHrCyf-?~t!d>*zpCRU%K{$31OaFK4s{
z^rE=Mkz)nm^;dT6`E^b7<X#<ZXdY(m3xD|6?a;W%(8ED<6;`2L_k|@d!$Pq!)WpNt
zGIhQ4>9H4M_h%Ou2?e^<|Cj~ef~(sxiZ{G*I}yw}Bntu!7BSety!>u;6k#r?6~jL9
z2q_53opWcT1ecB@KD5hC<5l1Tibn6|C|CT2^B|~Nzgcw$$%IF2)H=OlMw?4~>h9oQ
z_SBkgMgRq{;Z}k`zM&4!{J(>;ux$Xw<9<o4DKXE{Id`=EfafB8-a0g=?&!Rh_1dRB
zP}Du1@uo*Idc2&RFQjOyE*uGFSxEp%NfNMH`q_|r9tP6{oD5C=z4?@41mDS8mD=o!
zATw;K(b6xY&>0Ya)#aFQXnZl_FKmsF=>K>>P=mQJno#<MgjBg9p=Cv6?RsOUu8a*L
zB|950ePs`yoJ2*@0LJ2DZu*!W1wj9rp2{82vXSXqsxu`#Ha4OuQuaSc-ff*p*BEEr
zFxUF9#JT5PY7CiK-Hu#PNBgXGrp;2{|LihV$4IhYSDdWXCoM}U{Qu~A|N9CDtdlA8
zx}~J*Kfih?DfIP+^M09sYA)>E)YEZj&UqMKpfKF*a<CpHYGQBn>DGrYJ4x93*20a<
z>yWo>!Fben%q$d3Kp47`{4+Wk8C~?qHlUFN?$j&r)isSQ5Q%y1xU~Kf#k8t%2K$~p
ziziqxHYj8qPftEj<2)k`OMk+~W|x>pzWPj|cVzDkPkiWG0p1<lsMH(H)xItkb8h7%
z0V8P`y+Ln^yO2@4@N&P`m*m@{t*y<WoOcSfaVXlw66gAuV9Az;`3XyK2`D^$X4Ynf
z4)`cTD@Uc!hUJGlFU-kVejKsr#3EJ?5sEG2zFPe87I2(dBFi;pn@3w1-ZxJ?)M|g3
zGd7$(msYOLqr7Ulk)Ytdo<nVq;eB`}&`|!qLwYA3Z}=YuzwnEKUNXJNfBZxLa~beq
zQK34J?kYehZQLbTjTUA}U*9GK<7<8Hj&!@l7tNzISyLkx#MuGi^nVeR+d7krki<N3
zKpAHbQ=>U-GG>RI@a7tQ@%<G_yiJs1ry3Zti#JWDA^iv4%BSccIPe)Ok?4@rjZoL{
zQkx&9vO?>N82XyD7xEyy+KZ&3;M$3MCVDYsC?|F99=k(wKG4q|kurSFY&R%oEaR?q
z5vvQz?DZlLyHCLEJNI%n-`RAg%ovV2O~t-o-N~v@yWeVfk2MaR3`hEAR%(JhCKiI~
zl4Ryv`gnk%G&j2EV_*{ACpYrde`fgA+u*ZlzS+gva}tV->gFBNHvjy8*ECROvxb4c
z{95__46$_M^>5JRpW1YjLgYv0z_v0P&(CUtx(%Hd$cu(UDO)lBLtPWi?|{#b187Nd
z$4b*_eBB~^$Lb+)7K!38z0!>xk&|}_3&6p?`fOAm4f7Ap);DhkMvWf=yaqN|?T{%<
z)n14;aO88kuOr0>+rFsu+9;5{P750${Fm2EN1goqjbB+90e{^%T$A1>L~E-p#Uq*&
zO$uiAkOmzK>-p8Xx-bal)EbMZ#YG!XJn^n7J3%CO2VFCnn+!+Ed}6KlM-o6k&i_VS
zis#(7yT04lI(Tmk<@><;7JXfu48?+bQYp-?q!h#%wNNdJJKXx~s+Dax)H^bXZHZ`1
z2b@Tx(*JqvinJo5-F@P^)qV8UD7Ji<HG-HaTUwSU6<l?xbJM5S0>@y16#I15<tHDI
zrN*q=;$B_c^|jnQ424I<YNDIJ+m=<&;}1Je2~L;Zc4eVYwm)f?xmrh}bGCRyO%iXh
z>6wpJ{2zh8_(tc9BS5hcwRqbZofHayO3V)iJBnolQFOK2%nt?``V6!3)|8`uW#YIL
z6l;OJCw|6#H0O)JFmHx2NQ|L?uji3X0`OJ3nR296M-B_V&+E}5<e$AJys%h-%FoTM
zU&g#Nqw*tZsN_TwnrR{e+%bnTBfIDy(LW8o%|2WMEE0J(BdmFvR?T=GEN67z6m*!P
zzI+1s?a1r@bRV&Q?8LM$BZq98s0FG~G!D}h;Yb^O#1T(*$<&*UtrlGu=_&b}k)nPx
z#GP;_1B?8F_ou#^G0Zo2CBb}Sqehvj#2HY}#bl0k8(CjCH#?U!q4#jRtbWb+a)(4F
zv<j)4QoMJVEIid}VSFmw^bCevw@pEhj!Yl!ea{l>Sk=ER$_$6>)m3%4A%?DQ>9h8?
z4L`q+ClZW$0P==*IIOjnRv!I2cMBeW+L=KwO?~9r6Y?eNMem2|VZMAGZVr@cY*fxP
z+_G+_|F4(8KMgDml%w1xmDdQX`(^kM#x}4?2aTwO+N*C-Pyb1jJ@;3{H`*=&{C|H-
z>eUG;#8UxW3*yPiqz#dySSciwHTy-V=p(vj_+lShtyc4S_(rUpi`Bnjgty`lRhsvO
zxUhd?97`5_(uL)CRVnMyW}~>5Rc<>z_vChuD1ravw~HDZovM#W=C&diT8_(mbQl4}
zaRV&PlV<RnZKmtplM<0=(IZi-+lUO)E&gy=yZ4gBRdgmlhO(~)`2|TP;^QAiefA8v
z>}{O<&ZC`q#mSc;qa69xnqU#+785Kic7Bx?g<M(JO5e*?y-hun!Gy2vPw_rkR<jpM
zlKB*Fd3plEK=}f8t;@D$;;2#RMp=t6mdJ@{BuIbhC1~<u2OfTTM0d>5z9XcH^+Gpi
z`Jt4GX`UdfG&YxpbO7eLpBXu&re;yR;JH2+O?!jTly5r<c~;LZ9`u)%n;Mve-5)9B
z)bYBy+glYIn}LmlY+5`c7p6L9EV!;}K1^jkmtucz+=+*_@b^55TCtUlR0kK7)q<|+
z>FG-gERxD&JUV6$Pv0#J#)#$ozR_z_()rfHhLo4nHaMC}QG0*yVPj+C(rKaQY>?Aw
zzk=Z$%2!6VQZ+Tyzv_RmQpTpp%PYEWh86v@D#%7<MZ;zBkF@Q@*&o($<t}^qgb|@r
zpD#{b?%k<@TJCM!?3`{o2I_?!KZEUd->1ycjNOuG=J>;QoMV6SAvx7?Eqj^gRsJ^+
zuE$T>naXmWZ8V5N5=|0S-wszp2RVmLJUzgD1@BX`0n3+(cSgYhsOGE(bysr9fr?bl
zPA;z@v*VbV)Ifzv0=Lbrqg>>m&sN=o9je3kXnvoP3<6ESCbFXLrTGdzg>qsf6z*0r
zk>`b^$G>5qdIkratO{<3u1u4-9j&GF=lq1T%<_`~f3k9#cNbTgiwkO1vR~pKE(!?T
zVr1VQv-C7y2HlT*3`#&zuis>ycuDqya(26oAX!gTOcI8klNS*bOph%EXe7aOnRvW$
zMKzo_z4I!qeF9tGO?j*^la>BBJA6BX$FBP#84=GK7*ZMN&?)=<XClx3<=@!)zR|_;
zCczfZVcv&He3sIZlG)MplzORP>*K9`)rVQ_l;fxl*U4|P&9)x7qU4j4$eHREzUOT(
zmca;S)US!pOJ0adrtHfeWpRe`zL|pmivCbb)(X23dHwo?sZgVDg~;u=6faA7c}K@;
za!Rso?@%1*Utd{UnPO(f4iLe-?BRT<p?n_Se_Whv|3=0K!E4mE=$7h!Yi}UFwl`2n
znF#FU6Xe}l8~^t=SMk7mAs0WN0r~Co!M5>&h^u`~T#1%0#4M*nej-_><rE5aG@Mvi
z$+~fN3wEFy?Cga3myRf&!B}QVrtaG_yJasqUU2>IVsB!`?C;h0+hkuHj{CwFdK+er
z|2}El{P)(N>-7W7$N4};@qglsRU`+cE%mFrO|O`l9{uR}Kn?$F#l_826JZs?-@Y+s
z<;M{a!EwWSJ`pWtdi*y;l`MgZhb~JYR2J)l=|x#l(@L|aep#FODCs-YX$-~^DZHOp
z0_tMm$?qs1oA6{WdxtE43lOc1s|@)o2`rXKO5E9g?syNL*WGY3(Km13vKlO49kCSc
z?VU_?Kul<-GPa%ZJU1XI)2v~{_^C0PDIj^$oIQe`alSkp(<IAEDZxGeg$C33YD>OY
zgt9mH;`kqPc#I_(GAlRtCw)sLfbiZjh}^90H&rVvH!S=&ygTe~w)KZblDm{Bjm4I8
z>iuUAM;I_O1K{>jz{$zWdE7ad)tz(Qb%~<i(7YtN;yHcK3tb9{=|5I}u}w0>$?O)g
z_~NCpHWx6WP;|^)^*joH^!D_<v3r=o;8<FHdGH-e_w^}2a3&|~m%S4vQ)_riw3nWr
z9!m4_W_<2zGUl6KlOgZ%EFgGzfAmnMA#Khj-sk%T<r7yU_Fmn3xu&jbr_}mY9&u&5
zb$al|&;Q}}LB4*Sr|+l7#DULf8&y4<JzWpbMm3AHFEjftH@jS~`C~7n*tgp4j%GAa
zM2T7#D5uq$J;_2wlI#9M7?mfh)YXHPt=mjoeSxz@b7WHJrvSB<kpqIh<=7Hn4Rnke
z$M-gwD0v4q{sDGzUT8XgXIa61oO|3RJwM=bWLL;EBy6XH|M#v*>Gq>BX>cQhs&+?`
zR*qi>R&pQbzq>_x#m&P;-8mZaU9!n+hCNF~Jdo(FWtFm)@}<{E$j51V=K$FNRh$|V
zkmD*H?EO4Uc9c}0rJJBc|J_g0rKJCDVvBqrvKPS2fmx<id>+;KX_H821BW(061q==
zgZDIuM7;T%jYR3&^T3mPA9cmohIDvoXPU!+G{8eL74>6JVtVaqLA5=#+d5xh_=ci;
z#6a=y)jVld*4e!M^0Kk3ERbK!bxsrj(3oG$$LNJ&J{fdLOAZAA`*Iu(Ofoj`-#%dZ
z_(U0h+VLIyg_z;w;)3@xFev-aB;$DGPh06y+)D2zB)JWp0+oiS1deywM!ieq(fTU7
z5k45x?WKuuuXN6ryN%q+l)pd^hRD$#@?Pihf9d1}t8yhNQJ>23tS7&w)YbS~K>G31
z?$<upba#J~lCtzZT+V3}g)?ESI7>+pi?o>aD=m`Qw|+wi?4YM>)Z1b<2!v(A_1&15
zm43Y~f&rUdR=xbeUd5&ad58y<(c>yk8-l20Ed*0~BY=Xf_EAUkrX?t|SCj(QV5}oV
zAVaitH7azS27iP+tWZAvDkDO@4a<1>m;Ss#44Er8EH~xLV{3*pj*gE<rwO@^rh8xO
zKAievdxc+LU(4B?mQn~f%_9aq5WOm7Y+0r_4%&R@vEpvYaId8U`E?~4&H2+ks$Ig%
zb|_oQcn~)@!~c)&qu@^4-(T&w1m06T|8H~b|1`<g=pA7w%%Jg^#mX>Js0J<Q)z<66
z@l1&9iLp8Eu^-<p_OLtnT_q*GJ~UP7XZ-Rg-}U0elv%y?2rtB#bP8ICyLzCZJ@<te
zYy;U1`+vCl#^^}mDBtebn%J3mV%xUuiJeSrCo>b<wr$(ClZkEX^`5u8Z}*-1rR$vj
zRCTNV7e9nu>|W?Ct<N3mq&yO=6x%9RHkI1PXYzWCLD3_uXj@u<7%`r<)M3$I#&fUO
zZSJ#eUY-q$WlE+rg72mAikxhGq$GBlfku(me{2+AsVx&1XeNZxA~@pzLfa3EOOUS+
zxX?v5S}(00b|KaskQyqvrjIZz*vjKle{+?_#UD?8YKs(tQ0yy$)D3PUote|u0%Fj|
zv{GqgF?Q=U;&Y}(`|IxB#iWM2blO+bVeAhfyViDQ*lPRtxVY4%rra<-0-^QEBRsc9
z%T~W%s6i;cLJ|}C03L^eq!^<V46GKgMP*P?`a{$eqFo7m#C3iGm)X=EXM$+>#Mqw`
zzY2+R3x!uV7@m7jf74z;n-G3fL0f24PTWct9+CF|x&0pV{X}A4Tdwez!5<F}3#dT?
zJt=u?YxUb&#%^2l76Nbe#>{dp8~mTo!5}uDTWp;Xuk0E4c-o>hgnTz$<q6bed%WxZ
zu~GX`mKU3ZLMzmUSb!&J@z!xZ`o~d+Vy8-I&(ZKYaE{f|w=2iPTQbe<f}aCC<;lvI
z&((QhO2!(=ZD$8K*_prAwr+|zx4`3Yol`ltq%C-3JRG(9E5K<yiLSms40#<yg46Tr
zR5HV1x7)CQMkctu8KrKWfL^$Bb!%*V_~)|n?=(Ag;d6rJ+a9x8uA8>A#o8<(Ki1Tn
zJc)dYZl~V>LLJSW@jp)-l{w@8zipY^^#^xFL%4-Xxl15sooFXl-}OLjPe~GEIH4$1
z17MHb%{jpYg5ij2Rwf;553L6?hO=PNTj|(j$`jZ$9G)oYY_Hn!jVDu!2VJcCtjTA!
z8h$fYVdo-=<f3~w@Oe;MW_%6%0&Ng8c?@b<il<kSvpmF?=a)*s=`Op!^u7G132pni
z57uPdtishu#TyQgB>VSfB?yyt+$Z$kAMWNx+_eF_VgkK()6hh#6tIrv%N0#-Zk;sU
z6xL^&W<KfcYk&4AZJsWlDm(M_cJ#XO6hIcH{CETe^^}BP8BN-mb@_Gu4IpwZ9zK4<
z(h}x+vwbyuIuGHx5v6=a&Aj>4N>lq~-KD8snS|1{V_(%vw(N7);frq*v$LYScBa1t
z=x+&#l^Cv{8y=R|tn0J+AHITPRsl##_3=h7uM?JM7$^||@AU(VN!$${Gt6MRDc~iV
z&0AZ3e$|!QwS8|(CFj44oZyM=H(wu?sy>;>Ns{SW@3_-uA<aI~jlUC-GEydUI$UrH
zn(qa{Y4n&_Doz5{7EeeO<0oaOG&Rg4hlX41lRF)J*M=BaHFa2sR46b&tTfH=*Fxn$
z-?Kf0j|LrRIqzL~g%gpXUvF!mQ8%vr*+Z<!&z}?gPXoqH26rab*6BV6G}GL^6T9dZ
zotfPZ`s-@zF3$s6UWRY3>l@2QS8`2r|1M)9JLu9m){EEp$1(5hy+80=o98~3>_3vu
z_x0{u@rf^^crLGB{Nio4b2kUQeiaTKh#xG^Z(bPV3nC9EDI)#WO1n~^ya|2J-AtLD
z0TZ|O(I%>X9_is-o&oWBAeA{)!{SeA0vuyCK~9U)l(hH9FFXE0)BBTC{t#<oc7^{x
z=%hyuG$C97iN*8{bolFGW`VXQiGRYkVdMuPS>g8!cdQyXk^S{@!U}odJzQJa7dYU0
zu<LD~#;@I%nRRC8b8KsE*?Ejyo4$fG6U`*jm!54LA<w~7jbguMC5WWX_7WK0fs1SF
z>lX~4x78c;bJM<$AX#G&yfcQCeoFcnByHYqTOHhPXQ}Ib^|swy?e}rEmgh3V|FwW+
zl6+EtC_Q5Qwt#1!_3HxpoYr>TwfVyHgd8@sdk?B*8pat98()!&0L>!DAao`1F~p#o
z%C;MRDZgVCF0{w}cm{ZOe(Ed)l`eZVTBW>wIEi#j7tb#FOC|_hi4*#K=y8$7?`(Vy
z`&Cn$n?|=s!1cW4)gse>gH4`Mn!@YpqMrL9a&{IK`VpiGt~U-HlT5c+41w9)<ieQ}
z;Q&{{%f)8tR`N0X&gJ!((P*!G^)h%{?il0{yxEa{MNP!8Nr|M(1Z@?f8L-@1C^0#g
zR?x_zyk`B4ouAuySi$n`(I$LoDC6U_8fpFWNt=~&YVF1toL!HnEGSt02Y%(xgtSpf
zS1A|IGgkt}Uf!=1enW>c+O(Y&$9=}Xk$6jI+{Om)bIA$vY5$}<JjO9~1R8q<+H5vG
zi;1jInxdCieh}aTTcX5ipm%w1M@S#>qWOOK!^*8{dEMS+Cu3%_T7X*8#=)ffhad1W
z?{^CP)c&PYLcBIz!h3K)_YQ{Q2EMFsrd+X0G!BCkZ#HE9Sl6DSVIBx4Ij}oTo{a=o
z*5{vzR*yfbwt_sqfhD#G`k|=!u=N@6>j$paZuPPXh2P5M=#fv6cmMASZt$0(S)Ua}
zScRFDXtwe2gHUFO9>5qg{owtC48o#4)Di?E`6hmZ%M-j4{7vFWq4{389E9_&2qj<>
z)q!5uU8yl<^5!Dm@pOU|l*fA#W@?)t{(XYuha69&fgW<&=m2d|Q5*ia5{0QlURhYg
z4PatPm8-L(J6yL;uaN(Xk8i?3Zrk4U$bN?6@E`KtAucj1KRa2Iqwu-@g^q(DPWg0=
zBA?`bdqaqiV^hg`4(-Ng>H$ua_`fYRUJp7qyB_||L!!#p6gP+k{?oDVym(CV^z^)-
zw;beS2s-XURJwO{by)#NwsGq}vhRFIYSJTUtgUri#tsMtDfDaRZ03x6y}6+MbL)Q7
zvpg;BmS#+Cu}<#<5yiQ+9L1qFIR0>yxjW;O4?ujrAy*$0<U39lj(LT7p|y*6g@@^$
z3v2$az3x6p*uU+NrGO8|vD9M?NY2eucA#Rh@P(j{9CyG<O9e@#6KjUvCQISfRomC=
zp<wfn_t-iZD)y{5RO(aXX@c25m2U%j>JeWP{B>SQjGy~n;E}L%#2OTK2wiWvd3ZLH
zFg=!}p2dQy6>>7!vtObw=3p8%EraWbcc9vKjUt2Bv@hz#fPdcv9d|SuX0d;2yvjsz
z4pK@riA{Ez)nnd9jA9+d_FXhS>%=uPN0=^&w^8lmCVS9<?$BL|iq51okKNR|_=k}?
zuIp*_xW?k@QCH2F{>uT-k`KN|rP(r8eDj4R$n_?WpY`NJV42h8?8?50he*dR^1=nI
zi?!RSt|YBVp0YmASPZ$p0N{h^C*Yy#Yp0MPuK=O<aj#xz&YM#^9EMBut<5}Qk=n77
zwch+7+DkM{nw8bcHpi>Uc?!n4pSHJxzXAYv!=G^zZ7QcvkLp38atIjPF{lLa0L1Vg
zSM3VMqeE$^pVp!?X4vKAGK8b$L~gX+1EOsx&1lY@<$16_xl-VW1~sxaO>I>w!Z|Cj
z_^;k`NNDMd8_8d8FF|JS78?8NZ8HB00ISIgZB-OnX?9)#;L*zL%9Rg4TcwU)I5*6V
z%t(ltv2&suhy2&Lttee3VMMD7+$zgN!|Mw#9yqk5vTMe;CN~PT^&K!rmBog)Yll5j
zGLdn^3jODkgJ&ek?|vFq!%WU2&Q9GcnC2p<EDYY)zbJW}magoxa9@wzJ^!V>nqzI5
z)O)){XvqzUCw_fl@x^3Y+_tj=*9X2{IAgIt&~tMG+fIDJYlA_+=^&_6n?{}?H}3vg
zlTG-W7>4P=&Zd2eaPy|*WAv%JSOxJ3T2RSbj3t<^Dh!z@(Wir=xzJg%DTacQ@_ftd
zs{ZrS*YYDXMy?PkfK|_R+vjN=+4mZ}aWLT{-|s#8g3b0ML>@wMjk=W=dcjaD{m93D
zr1NhP+YIK(<z*b^v=xuXX~SCCD#(@KYh&FizGoZBwmr&_^P)wmhbAr6CLOZIxc!{#
zp&Pim{S)D~Ump`!D9E?&Fal%+MvvvtY+b%x@S2fsJM9t@*rQYV52q5QOXG5fi9Q)y
zFmj@W!p+Oc-!Au$)6_+zmHJd$a98uOLk_OjdpMqpr(0)d<6R1329Md^t9xI!nUAC~
z%}d#2=HrChRsADI9X!Y2<M4GZlz-|8(oB?WYWm*$FduzX`E`MLfEZ-AP1U`AIfU=z
z_c-L6v~*HKEMdONcbxeSaK{d4<JR5O%65S2m<XY7HI3!$PWx;Q0V^FMH1aNttz`P5
z6+KNMtvBcM*XkP*ptb7soP}i_q)uGcep=UN+d9%|Y!i5boe_);!zO?tA}b>dpBt9u
zPt6{TCi#<b&>zvY#xc=!RQ<|Uqr6W0!pbZCrTc2b&3tQOY6A1Z%Dm94aP?{H;%Vb;
ztNqBUIE9nHKF{eV%*nXTDVP*nig%N5pda`vy=mTDcQ>-VHx@qR{|<2p;Q2-nK_nW8
zV$*iJr}-mJgML@Iq{=8L>m;|lT&DZS+na|cnk#tQ%_JnJX%O%fA-}Kfg(ftz<qurK
z&m02$GU!u;S#h)ilE8$jpkrNZ+4<z|TQXHNuY;jvefmL0jR8bn5$uTFa6F{(+W4@2
zpDP3E#`*Aq;(VPt#VCJh99gi0_g4k~s{D3jW!#2d7Gg+`!*)I<na`4?5$$$MQRD+E
zHQ>8Kn`aIh<W2|zTza82MyA3$2zM8#z38pgY?s+_)p-SEDb}0gttf_nxW9Lnc64O&
z=Zv0|8Znm6@ySqJi$WkFe}jUo){S_pwVBV!2n`L&|Mqj`yVvOU36$%UYm7_egOAzL
z>B@4t-3HSuN(*_9_)zv)l#>E+6fyS|d6hv~!=cFE#IuU&Gy1~Fma3HO0BcIT@Cd7)
zd@&>WbS3%|Tx!;>{HolLmZ~>R^>fi<ZHBzrPn648?&=$qK5a!GtjI!Z<jBN%h|W8G
z!vwZ+N^uH8aOo+JBT2SroNBdLy2DbPg_S$^-{Pg$GJPAXLfzpUHiy8LnFVAWGQs#k
zbwA5AzxfOAzNc{(5ZgIFcoDEHjy+evca6D*qdqL~;%?|Fg5e67cBtZF)9@eG!s2g%
zFgmQr;U%u5Y>y3n$VOgw(A0=27GCsj0vQlIpI`g4+Gcm=C$zL?pQlCb=<OQRt7bO_
zkT$$v4|`2RW!(@kRrvo>(ncunSuy_`X=UQ#lu@e`U14*&0iiMJDU~#A9~Q5`(%n|U
zM|o^X_5(JH8TqJxCe>-^2=h%YJ*b1?BfbMCo-KRTaoFf>hojq1G>KN57|Wo=YJ#WT
zdYYfhp+>)|^OPA`t#G)~&g1-#dBfx?OL4SEx`^7ysP}$tv7z^Eux^c2YeuuX(A@Wp
zijUo|Pg*Cl$(TX-Bg)CW?*#uNoyDbqCEZZ#NJ6KuKNWGXVaTA~xXE>SWk3V?nsDlN
z6Y^tasg)ZU);qF#BMCvF!aLp`c_5UHFXA(V18_pXuR$nYDu6w1M&^L^SoJ&n@1cma
zpOzK&@x?^z)SI1jJ!n0Q{<Gtw^eQ<fo_eSSTsgl&EE-FL{*A3W<|AK6w)<JJ-DEhA
zOi$kSaFuQ0J`jpp>yYTGeEi+Mhwa<%z2@viK0}SpeuZ75)ou{A-R(Tny8;6re}pMP
zkfhJ>u9@cIf_S~fK);y1HKZ5vWA5h!M6lBS5W-$l91~AZkTt?(9!e4Id^G!gv~Qw|
zEde(GW0xvs`khIERas#dt%?N9)`Yhf!H6T=kYLP15N3XD7dyl{%&=yPdYMf=CHmC2
z7yxxBvd9C72{?luP0^OVVT>+`9PlnnuLTWHc3*e=K%WPSP%zza%?yauYXE%kuj^P?
zLIWetsIq!JK;7Hj4hGKjKa~qxfc`5P2aQG@+_h}*y(L3Iu2YUW7YgvW@<DMh(FM)@
zZs{c_U{^~LCG83MlIPAFKfw|m)%;Va%(w?pHhSjOX1C<Umpdq+0pSc9x&$U)4{}=k
zL5PLz<9RCrG6VT$;yWE@H7{DvUaU_+DT>e1Z9kN+d6IH1YQ)K^-`78(m&+%=JeR7s
zd3)!0rX)n(_v7rwPq*$1`+fUM_ek~4xnI)!@3qro68zV0%&0k=n_u_Ub(UvHTE1J~
zUv4?NNVng|y2sM)G>~xFIYiEn47zt0ks9zs39xplcK$OQaM1yVSlo?7Z_f(`dJ6fE
zOf=Ghu^;$UrJ1Zfn<r8$s5RkFg5|EuEiB@UXs&>i9!XPW01pg(Xu2yH>B<QBWKP5S
zB!eDQj7j(T2BLlSY787nUjPbh^GL%<;;&H*c=BrWJbbE>Q*CY302GyEW<)CCb_0l!
z5-AynC?Vjt=utzaEHp2YyB=$1wubWI9(C9e#)?jpNcHiK=jw;UTsv2}@m-6;!x0-s
z<l(_b)}4}zke$Y)k0r_KTTzp#BqQc&TXwo{U&E9ZXfoIZTNX4CrZ~>xQfaD2iawtm
zmZ$O>#kMrs9Ho26#ah+fWdnEUw!gZla;1h)9RluM-Ka~%MV`f_p@|_=#%)UESddfY
z4zCIlU?k^+Ff{z_D#D(KfUbx2x!;=5EU5&TYG{`U?o<$yg>ZD}+3Vw2?KZw*=#|zY
zysV1?Sg04>LPMR^S^K?`VO)Y0SR_Yo2zzdGST_MS5z4snIj#l@g4`r}xPj2iect}I
z+|M=A%H<F&WjUf4SAYDMOiP0x6!NAk92xYpI~5Zl1fq+Jw<J2Slp$$G2b~-8++@l+
z&ZSOK+7(oeaD?Dsdx^>lO{xNwT86<NJ^a(NuF7u^AkOc(`jA0BEtR{G2eSmw_vY>a
zK62o><Xyp`EVKkXSRu>cR~B2l;<y5G;r(ZiqDTLV4mFVZ@h^soD%VX9>c~CiPFgP7
zA4fvUHOA)8vNYZZl69TC5_$-HbiBfNUnZRDoNt6zq2KT*4Y6G&A!%;doU|LN2I8yz
z&h%ShJd)_OQc{8kv1Zv<%v{t$bUkMwl{Ga{Y{QiO6IQJGSHE-UJB8c>e7?Gev*VcE
zr`it38m-`i6A5{Ig_rog0=v#(`qcXUt$*&wL@4{Zbzf!Pu4!!j@VjZ_7{9~gpoF|Y
z8^3*}>R_$hZjpL(`21Vw@WRWIW;?wFe%p6gS;M9L{is@(;(!ruT+p)9vWBNutjp<1
zzx6y0-t@JhboSTffKtzY#!f~afZZ&iX56`lo|_VYxw`GJ%6loFKbz{_=QDKzYTY~n
zq5lNnxk?M5%;Zzb2>8dOxCvL)DrppfP2fF!2$hUE`e|w5#%OG)!y{)j#>v@4z0CC5
z5PPENszAlWS^s6gz9^l)^!@%d@Tgq-m(Y*tmHiv8OiM)dQv+Uj^^{&=vA?uCAY!L(
zEH_=20VQfjyKo`HwCREgxvUN$qfFIWoQ0U_Bz{C-ctj-V#o5Y8?N?*P+a8s}5S5_@
za}>m-Y6woxw}E6Y(i)DxPt=*v4nA}6)|dc-EqHJg95$<F_Y@jpXjm4#_27%=ox{^+
zm-XJ~E9{JX0AH7@NPjeu-m%z%<i^Y0Y8{UEetjSK8RyTn`TA-2^|Kp7)WYQw{t4gf
zm%=NYOyu<-7B5u{TjK75pj_BD6Yc@h?CKvlzdx1B4d;Sf8Ndv=T|1<@-dCeX!vsFL
zUOtFE(IGFgJnZtlAGbgCic~c$3FQYPPS|eyue`+qXryyq=2JdFzcGGP-+835dc&B0
zo^4elOTVoYcSB%o3P|f+*sL~x<q-Nke)wq^S2kt3dMo8A?R<rp7=9D%BV2*qeK^y9
zV15aE>Jo7U7<%_-`auU(nraKoUwuR~jJ&rtI$qpBdiFPJjCBgUr=D*$8{i^wjHx9X
z;3rcq4i?d^AIRB%d12#(DxpI(eKj(8D=+DL2fV*)bjK_BT$ZnWO8JMM5Bq%Gh^2Dn
zi(h^YE6`M)V{1Nk+51W*G3ZUG{EtF&iW;s2u^mC}j~p9nLW^;CzZi?MY3lX!e0&X_
zP5+btaiGUW%{-pY5YY9w1efb5R)EoZV*xt%NSgE@cL%^<ARGtoB&kL_1o_hF2Z(br
zBpi)_sLTB<D~wDK1-PvEnW!gFGxG*y(~e>Pxcl9pwAcC<dq^Wo()gN~8r%y%9!*I6
zF$4i&e8uX5$&@ahc2`!$F_yRAZXRWeITj8*1*5<kE<PVE)r7WI6LFU>l!Y69%X@X-
zqT_0yLe&65q4V@U0mngZr?0}u;5$pp4i)1Tx?(|OxK_3@=TAg1hrP9FD1|9#^vtU3
zWbo?R!ootvZ-OT(C7*jQlShrzXNk*RP)d#g9zU&hgz$9h5r+<iP)hQ_ZCTlRot(7(
zN_@Zbnx1TFgEp|R9<k{qX%Z&36%8Q!<HBXD<m-KUbv1uu0@6fV`L-RkhDj!w*c6(J
zHo5XLMIs+Z8+=n6wS!eSY56bU3a=5EQfBnlC6$;}fa-JP;Vc)I!9NBnvz$^>uUsy5
zN-!8tgxbRhJ!F9;Aa%&3^s07c--mU9k?rm`I;B`|q-O@ZR-rB5BZ6BA$#A90dpG2-
z><azX1Sw|t$790h6Sv*j)0Pd_H=TX2uNRh=_hSAE%RhcF%Ba_`ean}z&7Th!vnKQd
zi{(k9H2RNdl}~;|&z0V<@CM-SZd7SUW#bI7$e$lP2Qmg<QSZmaPvhnSFGj78W8?c%
zZd>Hhee486?bSYa{HciRPG2rp9L`GHzDMl`JlkIkFB8K8*p<UsGohRP*gU`<d!Gju
zWf+u8AENgb>20}mZQFW8Zr{DED;n&lJ0d?kcEeu>K18p<(ici)(f*qU$@&n0`)nXP
zVX}_F9mNZwf3IKL8=p3Ew{$%|`Gfw;P<NsP3H7mHyAYWxY82T24RbEY1sNMC?o4c?
zRm(kk09HZjsoIjA;<sVpLsK&LbF^_C#u%^E2*fdbv=~wrNN~`3cM8l$Jt-z2bU<3^
zczOUf+;vSsgF7JkGp{U@!oKtpBPr&A3tWCBLf>H{l`E%vo+pV2c`R6Jily_gErYep
zm<gvRp#RqQM96#`!1|*iPOiEd9f%(;Wtd436e!&C7s|v)TG){R=axoWg4OLjSPl6{
zX>2X;8q*cC2RH>&m1bMS#O1hb)EbeuRISC~?li?3^B;spxu?3}ACjE)2b~rMwVL97
z=@i{3R<tZ?KaB(QQ|c2mc0a6ACt6ygO&_OP*g1!T(DG1gS*wxRLpBA`19(6$GjkxA
zW`(yn^oe3&vBV?MM)9;^AUjJR3t(-RFUUm(n%=o+Zgv%_m^UN_5Egb`fzP}Cb|ZVG
zG5jL|uK1qAwnAAs`bkyEh~)gpE!QSlRaIkbX)?Xga}B*@^q-HvS1y4thcg^{Fx?E2
z1+p@>MB#Ak2ru6?r~IhE5C#TD?xn9~V2lc4a56VfI{@G+X`~;}BsDDRam~54wG{Aa
z+Iu7O=U%Wb+NDH~ZNsg@Ej5e+88rMVK<^<Lo{9FYkM@?oGsY%ZHZkV))^_Qo;hLmX
zRaHNIjw0kMYe?fWkCKkbw6R-a=E^~xq<7A-@si*<rPq*p*&B|Mf@S?Wwg~;m{p*9&
zL-U{??&;z4ZvYmu0S;iLyxCP=u2YCsEXWh%ggV5NK>ULoWA#d<va;_n9pF0`ymFt0
zYs&(SL}XzQ9YvJV9P}aBst=>s7^GfckIKrHzANMJLwq?0exw9Jz;)TAQp~u0_%ZDG
zYs*@Z1ElIG%54b?kF`3<5=#k_p^>%bMi}jiB=seQxE8x2@Ud-hB1ml{fuSKCrPLR7
zn$EuA{lO-UUY5(O$UPb8%CYSp*;Y>J-i&EVb&>Q#5e(EOdxo#Y+^yH<_x7gF7mt4N
zUgN!t`FU$lO%4f~W3*=dZn3Sli&7FZ)uYvb=Q#0tBv^P?;A_{9uKr4QJGt4(g|g&!
zRG$9uyZqSogI9Ce{ygN_|1|iNzifRPzCBIuR_$$8@V@`}tO%Ma^?a*Kw~zUkCoK22
zb|jE1QFh6!>-JzOU5?9(tuDg%I5@e^n&o$V9mpZDXh|I+aXkeo0sPMhaEb&As49};
zGkFwH5o$MaJ#6t%<8d}Li{r}N8DgIe&GZY@Op*;}W?LCqmt(pU?Y@75mtARH?MUxF
zhQJZQr;?I5<Jskxgn}p`vKFjlTx@8W9qy)OWc<OFvjxKikoz5laZdg-kBvn{SkM=O
zlp5rqfiKEh043AM&)^9+Hqf{mDZz*DnMm^Y1?|M{0<m`eJ}<Y1<P~KbnE-=nupnTz
z1}ueDj#N#IPOPr1tWZ)0PmcS|GBJj$YK!F7N{OXe+%bVP@8^#o1y51fm_Qf`r*r!@
zCJCpP^&L(3X#XUBVF_<#PVQ;e;{&N~Epm-^lL>B<1Cvdz?RVpmfuGdib192ct<@eX
zQf+nAG%m1FV0%KqJ6W=r4J5{r!bY(qI-M$F_<+hzuSZEOkJf)^5Osh5!tI09Hk9@F
z)V9SSUqXI8U!#_mm8mO68>*O^VhGmgTUuHsY6E0!0pZ#}W|uzrr^gE(6F9+~qN03k
zkjP?_{13(j=(pGot@X#uxW%LF>gmPMP)~pPOh!ncPSY`bFDaO|&$a5p>@4KxN6ADA
zlSmX1SEv^YRV&0J+%AZe(C&JXpvFk^_zylE(3CiSvnOGCx==a?=}nHjgHB+CR+Ha+
zS2y>I3wT}L)kWAM$d!TjK(*oyW~j>)Al%`$`XvUB)n}p^3uXiH90iOp_T8H5$ol)K
zrlB#uJJdgiKx;l!0fbQ@P-3)O&eB7%NTVAD2BXT7!AS1Z6GZWA`bjzdnRD5Cf2p%Q
zQ!g}<kqMWcLxr&AT1ANLO`V&WAyxw*M-vFpJ6W9x?qOc&aIBg0OH0w~w8>@*JUoQ$
zlO5}*sTF!W`;xm$0is;5V0`Iyx?~@L3O}G?hCd($exji7b3R_IQ`XNMfkPvWba)JS
zmBfYju0a>*MZFr5J&zCLeY#I`@JSG+L5xg}&mNKN&2_BWM5cOqWA0=iZg*W#);!D>
zCMOhtENUuKV4wmm5JanOEo>o~PeU*>bQs5n$O*Tf*Vgw-&9lQ)H#%p@0yXUYro(db
zJWD$s<m_Y2m+cdXK9@gc?_)C*^`2C|o`H0E`jc_qs71JEk;{68wwo|)t2|q;`Y$uX
z{Q0NlA`jUQ*;dxku7A*6bZt6Xu`SM~q2}`YR2EHj7lPs^ccT95$cq9y!iCJq!ak1d
zl%U+ZZv4Uy3ue|l1=%LzxJwgWCnMC5jtn%Iu%By&)P{uAWhHC+W||w~EM-c~@c;#S
zM0${j+^D65I>?9}RscIgXPwYLd+1SO5WxuG@JoXUs#&4@jH#eI=ZcVO8(`K7PO)qg
z2ZgO>rT_sG<1DVM>KZAbk0>J+t2zG23_jTC^Vs%jCVKdV!1I4?xi~MBAYJXwg+KhI
zJ-w+2rqIL47{)_c+{xWr!5vaSw(2j;lzRVSKilK?A&ay&+aj_Fy)|~k&DNxZOa28L
zz|lD$c=5bDko||*%@!K$ds@cLjb<@bGSW6#&JocffB{9KR3Wefb*2Xp*hINT@HDJs
z*hgi^j}6ov9Syoy%l(PU%9IFS${Og(<94n%T7ko24i;mjWLN<tUY6BuZeZWj4;Ua=
za-|e(hlIxjknvC?Fpfj5EI~>&(*un3Iy034MtEKAxY4X-4LVX%wbG4?L}kfr)=ML?
zq!J64yoL1&z$fAqv0jou8#zE3Ou_+>iWbV9onX!tBFSBzZ7V*K5}2oE;p6pm8Nj;5
z+QIQw&`_ZI2w>gQ8-2?}bN05sTx*m`%4${xt2q?22{|oFDB^)Kj6}0}1FBbQ)(RgL
zw6tgnF+FCYS$0tPH`#yru3S_@T`v{$1Agz`gGHx6vKWW-kiobwE-q0ss_QF}gaFQe
zk#r8dLcc1U>hJ6b`R4$ZVBTH8BFJ*Y|8NGHLm*L)EQU8M<*BduBA#F)<8v2GV{=a%
z8NhH)Ww6O?3p@aLtcw(uxgXEBDnE|aU2u<G(C-iIm(EvHs%v5{-=4l@q!-3{u$WJw
zO)(V`QLk!(6Tw2D!fq*fBF~Cz^G`}2>`iq*!|n$h#(3UuU20n?2f23pJS!0lWD|7>
zw8g%SQ1VkE^WXpWKK>Bbj>PG@UbG+0bn8&}g|_4k#mLHs%kq1I7D%*IDTXOrYqDFX
zw)eiE!OmoMnDsdqxr*1=ykXZvm~cn?%?Vz30rSgNh%X<uy6Xb-CEMU#JSy8FNqPa~
zgZZggxW@0i{N8d(bs+Jl6^j^BLrsZ39CIQOk-<j2-KQf}`Q%r991VTDq?%Q!xUBOt
zeaUdwErXppLrcSx1dqp^L%-r}RMU%H>&;qA(`HD%|9?hLt89Q^^$Q9oJ!_A~<H#-|
zn&k$uGQUP(Jp;xl9bs}2XOyI`S&%El;+)J%VY5-OY43nyUsOQ4tzD?c{xn$Np74&6
zhBPsfAmnT5oVnrFcYvKmFfV3JDy1EeS3FuW&kEUyMVKFg1E%&l905g=Nmr;M?KqX<
z7{jtJLQc|d;J>s0ga|RNjJOQe1yL?AoRp8J69SBrh!Jaa3?cs<^MK#6RGS^P{1*QH
zTuxpyOaVKSvH@Y0A|rEaf(_hzI+f4TqLIzo@6Dw~3;QjvW*<>i1jfT&-BtidOEweY
z=IM1bVZ6u7Q)&8+?-LTXP65zhsV>4bZXeHZQia%WDTuJ8`ey%iigruSIUEZ2p3X1o
z<i2_Ey7&<C`Sf(7Uz}{WtvRQ0q)Y%glnIt_P4CaBi0PlYEpU$lC=r$nos1Kgj8v+#
zLn1po1uCQBlUj%|Mm=GSU+alFL?8>V(dV;bU14>luMvZC<Af8?jXyeBtysz}ot>DJ
zMD5;WKCPdqKHfiEf&yqHlw5>#EZEQVn7-k%*~*64r{WUFm<J`$XjkW(s#Vl!r3HG9
zN-~&h0u0%Rgb?ADHIEyZgDAI9@i)pe6Sy%#OPd8>7F%3@YB1LaK%Zt3p&e|RW5gza
zWYtao+lomSI}Bnb_hOlI3XfZr^j0nM%ZP~fwN~B9AeQN6hsUe;D&kH>nmpqT67nHL
zqXN027CEP8@RQzT18!o9wH-eRjYef0nEQF5_74yXHAcSRURPkKza<inU9j&uMM(ov
zPx#u(2m7v%Yqiyh^3_F}p7RT=Q{527Nl+UFg;%%@oHav5hXw-fB_oZ+yh(cbp|@5I
z@_1d*PZ9|j0g?}|tb&v$6B3cuU0PZ!T_6?`D|?J0b3nStGMx)_6*Zw&a^vHzeeLeh
z_gXZ?{W_vt7PGALd{OrJlHe~~_H%hFKd@R!u0PG;&~<8kA3y3Y3NG|K2N72#8Z!8H
z5eEeGm}CR&UMK}TlQ$lA6;2=eUYrg<{b)SV$NAA~emo3Rx&gyEQFWAw<yFurUEw-R
z0aFGvL!(=V9pmrkfTs>Q+q=z|sCHJO-X@LBM`g&p&jWaa=(QZ<pXj*{Yo>UjuP2;A
zyMc=|`?hXfO4Hppg9>9|K+mqTs_0X;v-fh24(Vx+`PTm$_3ltPRH+cpV8u%ksc1W}
zxZxY>9mB$I{q-5hjYPBT3$27Anhs2;!(H!j6um7UYMNuJki$Xp{=Gje`NcoYE;JN8
z0Z7d?3BYqpYV;?#)1>BEnq>V{mO3Ucck0+v-9zEw2(*WwEQyossX|tk7yHdUi;<M(
z&FC&!h>kY7@vs*x&sRz<L(Kw4y~?SvGPQmUB8Fq1KYttUUD8AvM5kgs0iK9~^YMMe
zD8oqW(|5n7d;6{gdr;8{4N=h~5FnR6Gv6-w|Jfi)$Goo&ROTgh>hqy_+XV)lD+<qe
zqWybMmiqe~H!rpOQWyE`-16`WJtdA-{ef6a^hdz_^=^P2bWs@OsenR73VwmSFhg-c
z{d?4~Xi2a_Nxz?L@Sxr!HT#aoLbd37b%ERU+RTH$ouV8Egu-YqaK8I_;&M#M@E=uA
zp>*{aO;Ytt_Jx$KZ6;p`#HKJGLzp(Th^=kqPY9NxHv-{V6?aYY`opQr;uosp({4WZ
z$sUQrcW#=Qetgu{lhAZlIvA9{J1Rd7(;qKM4Tn&w%cjP_e@(J!SPGORO1iAT$YRjy
zG|2*gfa$?w(JNBhbcx`Y3H8}5MWn)^Sc#SijQ9Z;-1hpwoDN`3#``?rO@O}Mv{Th=
zJ`v+rdK1-n8RG5U<H-!m_=z#E^#Kk4M$9_Rk|O(<@;-{zY<}i&-{4CQPY!I%6z%Nx
zhb<x*;+&r&_6!VxmAo=vlg>Nu?|Lo%<W45evg%i*EUJ&RuIiM}F3!-{8<7Yf`Y__7
ztrn=ny7GPx_gVRQB?q%J9+KM@$rT<Y(Ehc2%J<m&<_Cz@DNJFtvDwiI56Ia(+rFoN
zxgWkv!UMcN0OaJFsPSRB+Ke1x8MsdCvgLCs`M)=ZFqWmzD^4cH^Cn2!)N!wfmqjuH
zmFxoNrOwIA=LfmqIR7&;F3@4vulzIpya|ZTW|sd<jw*<aUC-9yQ^`Uj$P<;t_QbjM
zfu!a&o1qX#Y+yBLaqm18iiLd_50mX7&jGBnH==c&s}43RN_0!eE42nt$0D7Qd(l7Y
zH;7gGjPk%1KP`|#(m#k7zW^Pm4dH+am>dIezy)sl>ps?#eUSJFFvY81U*#7WjiSGS
zWRW~gtd0S{!65@}Y@M$6W*9fdQ?AEKw6<Z~8yA>sQmdl&GnDLScm)uL$bm%hMoCQL
zKFIO6@K3*P;G!^!-@iu0j}b-y218S-Sj;R18JDNGzPB`bL%7(tx;r*hnI4=oh2<e)
zMXD<2B0UseIgBA|veNZ}3sE&{a0SsKCef>b6qqVJH8nAf$}*Nc&TL(lPnW@2&Co5P
zX|{eXIeax<hn;-LQ+itJxyB*aXHxrxb!5x^;1E%f2ai^d**?`9@u%75-_qk`htX#E
z&V6dhRtJb<=ie!qAphA~Dc|BMo5SeVvqFoxD1N<~rgaH8yv<Of^wJ`FD@IF6cCgeO
z)}q&*=l3G7iIIkRe;@j#Ju@{lu<hk~5s!(Q$eRxyd3&o|;)T1Yn<l$6J!e;-Y}~Xt
zkPmr*UA-r!5!Zo<7LItf7U=pp;Y~<3RVko1y$a1MdLM-K{rMdi@I1r`xrVk?95l8L
zGY8*2kYh-crJ`x|Lv7@<ruu$o{C%MCnb2&fJ>BV-=dtonWaj5IeIaE?G}6@~Mzv4X
zn?LFOsxP5`%?;)smXjC)JkKnGma+pWAXgaM|KDd3H0n$N1KK+Ya2~K4*ZnF~0Qre9
z7)?XHn?pPnii9Ui**SQtY7X1t7fV6eY0|AE*w~x-H!q<5S_;)G<HLEHt_boch{nMv
zX)DRlO0wGz5Cgz`d+EPw9>3IkZpr8r{RJnOP4AD&IFBzLI`oR<v2)~gQ2l9Ei!M72
zJ%bj52{Mu1z4mr*Ew3n3Ra6veL?=od#Y2H9<RkR#N>}ECbb(&%CtfV;8I&fUs8#&;
zXA80t9n(^Zy5n3i>K*`b5v1~0*BhUsVrVA8l>hqsSi!)$0A5?gIMX9Kv7y9d8d^yp
zPNR8$MIHILX1s^#?@2w{XelPAF{kLGg%?vUNKqRKuYq?;_+5VH_KNT_8>)yqLriS5
z-wC%bF+XY$;q3~>_Wu3H5?Wcs|LF&Te9~U3f`mvzxpa^870*^eJTC(5ilg`IIga9W
z(ll|DLFa=o-IFZTW1_RbnNa(>zH5BPerWj~zJjLkbjW6t1kw9yioZ*fyqhz+!+!_o
zI<>=Vy1HFY8!%4sG_waapo}z3$8_C^oO#9}5j|Kz$`3-k;O)#rz86(eNp80KD?xP>
zcpV2$?Qi3o$5-j_y2n|0sDgf&e6fJ$N?LDZo_-A;kYF($7VCg#!9lMg>?}S*ZfN%E
z(w)x%_9j_5xBe}z)kVb!4;n4y<Dy0eK`@_zR^l|M=4Kv-x_}#C@iG_EGEC&B+j*TR
ztZYfm`%f;+jlb-5W()0tMlO?C?XMBu@%1j0o}WswY`{g9o%<ROb@%fi`0ZnJH@Mdk
z?`q91<jUJ>VI1b&;bahHr;62hn7=t?0i)S;7I^;No7&hPWjTm<O!}1SIXTu)eHPoa
zGNSpWZ+xG#F`VRib@d`?#ppu|T+0a%5DRgPh@(e?LllSdRJ;SGKP`36PzHy1J-)BW
zZBm3_!(7fKsn{cv3G`OnwN-Y?aRZLk`i{LwdhOzn7iWCck#BFZ4xs%!qxU<-XQH7_
z+YM2&PCQz+k4NJk+e^MnMn^83=Bm;m4ydU7(a*O`4z~_~I$ceM5mlhl!$J_e#lE0E
z4s+)hcwxZx79<!)(WSWF3C!==&-J(GTbC#Od&Wsmei?|fM>@ygWuVU|H(@*Hk)7&=
zcp`ZA!izoKqrZ~%GCkjzx^k!L5th!N<sscUD?*no)-W&89`s61qIHPw=&DN{7Z$<p
zueXwtjm`W-HWefPGm;@>K2|k-z{F9{?Y}d{0X+o(cO8Dw6@M`|GfV2DXnU@~hG%mI
zz_(rV7R-9zGyCJ5Af-R$d~$LY2gFX-M^Y+pR4a^WVP2o6wIK!v_fgJFCJ!%{83uHu
z1B44K<I)%YZ^|6m4@n=-_8SaIt#}YDBJvlf_JF%2m;429_zu7GN0fVau!=~03fgdh
zS3$kHME&|-K(=jiadsfIKpo$+Ld?NJDLdpbOcg$_Dg$E8xJXYGjNzCs_MGqew8DrS
z$0kJo3355p9W$}NiR5wRHH<$;ICPj%L<d5Twwg<#^n&eX9qge>o$1~XmI+P=_~Ab0
zNE1PO@4`c_tmNa>dKeoW037%o48PLfGEG?0uF<VWk}HKMkh_s_Lf&P^n^Q=u_M8_W
zXq31Czq3^nfMBd!Bc<OU*Es9w5#|zGQBdiki4mbxG+`D0L@3m3CTVpm!4r}}BfX<k
z+lYGSc{6DJJNrc2n%@zO5F@&`ho@)l1%A<iA8~KKNX6Qk24VY2k_KUVx-y*xgf><a
ztlBjUlJ?_&+Hk6a8`^6JUdB?A!VEXTY`M5S7-mi{iC5HmvrEHrb6YSGMj1DR57h=&
zkuG7%n7ipYppV$VA^1|9z=<~`;upT|E0XwR4ZyuWNqVQ<SXt{BrwLR?5~b%~+&K)7
zzV9ukucSQF?s`QE0eSEz@5J(lK9IAA-*31k_{L9siwK^O+M)h8;%f>D?i|{%xe~*m
za@<@}?E<YdwOiJVUYn#It1_-!->F>pt64+lfVt#n0zqt?2VdPI!}5rny=TY*y%rq{
zCjGE|s_L{J7~2SUDYE%!)wk=YqMr=r;4Tx`Ekbe#s+(lT@neq}(nmnL@BP`>Evu&7
zXE`Rw-Dx_Cza`pn6lghWmrddjzCl8JuT*?PKTDQjpi2y=uS_tdDF<dLxuCQfs?dUY
zISDBk$DB6!0M<F>!Q1Z3$mVU_+t(rOy&Hnw7gQ9$B+q7eAvD=-SM%aj$Bkq&^-(P6
z|1^17)O6(K38zJIlqM{&N>0h8vy1T^RO&V=KVEL-qiJo%wB?g+pK~?-s(T^x&mdLS
z)1w1vTHM~xPxlDENjK<Jps7PRWqG_>R%R1IQctqo^v-zxdt<8Q+v)5hQp-ao2;>lb
zKh~;6S5Ae;q>b?bn5J$;a9vtlDKbXulX?&_Ro+PEOS{-@)Sy}y2#qT-hgjE^*TctU
z(80}3889NBnt?MrQ6RQLtCA;AFd_DXK+1Scc+F*U+{z;6W)S$?Z+YE+$P2AEm3C<J
zdSL8&>Ma(&@u6Spv=r~&MNH4Il&A2_=DS_+{CCm!AH|<608*R8rS8n6ST?g>@b7q;
z3u%!s$uaz+iNp68N{z043N6<g$T`>31m?O##c$)&p~g@pyxLyN6Y1F+2x|S_tDR2a
zsu=fU33<JSix3Eox@lyRJ=K$?9UVpWM#I(r9<3W2jfP*(mw#o2op_VvgQ+^GM)i1W
zNMMmzLMQfg0jcRieeevsOhZ`zA_{^Z#p;i&JoG{lE~KO+7q;b2Eg%63QHaUO&x^op
z;QP`yLCPbA2mo0;RgKa};bLRe#;Sl<TFaYrmgx~{e=7%N%2*po-As#6E4%!%zNE&a
zQnH2KpocX9D+~?}j?u%(^c*CuA5K=*2cq*#slc7W@^%r|i#6)`;-!(li8Kez-5&&F
zk7E<7Ea>l~-;@z`ymX%%q9q#bk+XW4NS<$4vslXE_k@AWzkld~F(#gcKH=MLD4kxe
znrEvtF6+C0n-bv%KcBPklMK)cv`Z)|FJWXyx9rG5l0F4)VPK+D&ugiw7P$QC(&EVW
zE55EErOE(DZ+kJRFYEuscglBq=&5_Ss&)zj62-ir*AS6h_#RX|5~jb*?|L5pH@*l|
zTcuK=SgrAvT`o1djt({Hr?wjwn)G*JEq1~5Fj3J1k&*}p0|87hvQ#<H#N-IkQL@cN
z%kG4MO#8l)Dg;&A<nwPlCPreYWVPZ`yGW{Z#&<a1DxNggNx<wHJj5NSwQA5@M>FI#
zYoa}<jD`(4x+{`T?q`PTO39w%8o8DneXnYpE@760sCXp60Bbo)KR{FG`Z{Bsu#Ou<
z4OoaJz!0P=q6^^hGRxh$`FwSg*v)50IF+p$;_;s$(aj1|359F<hsav&IFz6SE`9(+
zM%lD5x7A~XmM}FnY2<SC4*5m2lAhz##A-|nytJ22JD4|w1<XIj%(94!8b@^&pU?)t
z&ROtg9q|(B;&)5v$Oom&xU&Yp+55;W#VSY+#lJ%y;5pA0dEX7v1P2*06Ul5===8+7
zKBrI(y)4yl5qD9MF^!22!{N@%`DMOuEQ9bxt(D#bZvm&J5ULlkM+gm;i{5!+#RWxX
z-2M*k@Ix8(5w$+h=?V^t!fKk_Ot}~RC|Sl0;De2EVU5FH(PuS8w&-9T`K$&~N`Iui
z>j<UeH2pgZ(9bv%=mJnWG@IP|d`SfboI{icKYWG`3m*(eKWlC1FOB^SeUJE-6j0qR
zi~apR1kG@)J@Pt-U%if|rd{D87QARrcF8WL9@Tb-j{au?<f7-`8e@6JXuuqPi?BhN
za4@1T%m<7B6X5-KFN7&PcM#^OQm{sj=d!en*tyh)z-|29rsyTrNFbFN2j|we=wwGB
z$VJw#YB}R#i>0l(d!l50nR}v~>j8q_4b9KUuY20|Qk!d!U$7T|40R9%Fli|E6{XaP
zuR(gZ<IwCQfDWreGm-Cbu86goIa}+bDprQoRR~DZb#kdEiXM$Zy>ykbCKUeMp_ckT
znbk}vw4TebAJ3ob1Ev_TkF{cIG$1?RZ-;v*Y^WfQ`+C??kqxVAZ)#*mD-#lFl0<IH
zP)()DyZr^rfFUW%A%6-1y|#ge5IyeGC>y3bodYhyM`+-R{YXMz+-OXMfu(EG>%p$L
zcelkBsdc|tzB)!kxXWfB`;3v6=`o}AI83=}JC=+q)qnoYA<|r6&jEW36ZlV<$rL#p
z=gg&Unk|R=e{T?h5&<j<K<R3LKU@HCG6X^z*s>u&V37nZ?<~!O(kug4x8LYAUie#|
z3n)sR032ecp`_xvZh0Ojn7mb_5yWMjSWY|~sjUA&M#-QPMPkn(*v)tzJ=jlS?)%$#
z^?NUOpjD~bPZC>j6c!vqb3rc2W0K4twd|UuB>MANm}h2NvbTiRuhN2nIkW*h_sC9O
zdzIn)CT~hyE!9GvIwH&{)IbLyG}7vaG9Mio$0o0W^bdG+-kW|Li0~KVowT{_mK~Ge
zYit`DI0n2Kq_PBShHlkc%V1=q-MsIB$PDl@^*KGkIHZ?+1g?gP&zs`GpPQ?e%KlH_
z<hxXsQV*7aTM1?RKKaC2DRbE*F7!fz44wi;zO*rBd;cz}4ceN~8;jo^dP|YPpN(4w
zED^tFp^bWYaIIlUXQv&3UBYiPdv8JRObkPUZlf5mUjC!}S+<dP&2>h@8z4>SFf4X{
zl)BHQd(NpSc+_7(QdR7pUKPPH&E7%cNciT^7ySc-rwn^>P~-kzCshoX2_rOj8`<0v
z37=_=SlHx>--UIeAI}DqeHK^_J+XnnDk)Dh+qeKjb)2HSq+uTtnn#SX@RmJTO?xqH
z({-5$KnU#iWUnT2*-Lq=xkT8rw<UB(kr+SFO2LB~j=Zib-X4keI0?6=o^bKs;%>rH
zOwS*wl|cZH45XcRY89I6Ncj(sRI_>c;+c3Vuz%umv(y;Cm-J@cQbP?0l}vbj`2L)D
ztrZRg!%1x7Iu08lga|}S6CgU05JA5l4*E}NhLHj7SW4~OSUA?&v;sdEOyO0uxV)Gl
zFhdDEZzIuA;ol-07_ufhBXYl$$Gu#{%gy9EW<;+t9QV*<6^05=rIe{tC8ZZl_x8X7
zY@vpjOoa5<ez%^5pc5|Yb0tHZy*s2sp1seNXJ~;<APD)}O!WVF$qZOY*OQ2-Kbx{f
zi}T}ql>~RLyr@;!h2h&kn_&N#`@2a5dP<_eDxNQGK9R|&Djc`)h$uVr994*ECit;J
ztEj9+OPYmCOMHvuzsmGm|Bdqd547J7D>cf=al$u)PKC7}Wd$cmIwte8m@iMpoy_*y
zP2OJeArt=2<CM{v30_Z+qvVK{zdkB>xn_wH;8rNsof~Aj-0BRLmJY`G>VIJTZf&pC
zy0kw}K0u^XUIM|Ur|lBdIk88&-w4pC!b{UK&6+7I+==`foqyDd$gB+7th_)A@#vYn
z-tAlmr5i$l1w&jilZysIZ2<N|r-Vpxk8QsIf?VfI@HK?5PB64WuV@03qXN&U?>P%f
z?mam=F;a8R&;E-ys2j$AKix0&)*V?k6(EI~e&{78oy@NhA6Q!NDv{vY{+^uxMoQy%
zuFaxcL?|Vxo-Kbjqj&#n0cpIW9aJ0?fKv(oFxXg1ZtVAu2R-}<2Re<JkxtKZEYMsJ
zETFMMP~91kN)T$zF>}@t#(dS#465fh8o+}#sVHH9DA3b!j%=i#71FlTBSPPrgv|3;
zPoBO<1T1KzID#e%@g3%;|2KF=2^}{|&<bB3SjE@H{M{Xf+9FfvDtcwdgY;$?FX9Q-
z0KG%L#r$7Ze#h_do<?|M2_Oq)E%LW_i;=YpXqY0FfkXdk`FeX;8K4|y3PSuB!=IUO
zL@lBPk`~x{(bRWRC({2nF>pZV)Psw;Ar*{AEQ-%!p>y(Rdq7g-2T-?H2=I~mXc$n3
z;o<IE7-ZdF*(GQsPsX=~K$*OazstW|ec&C0RKaPb>5)i0Ez5jW;Ci6u=oy-Kz8_>H
zD#yYn=fc=e*d<E1brYv^j}^+N6;_-Ss9tVR22|O#U}V1M=z$KQ2ruSDO=g8h>xM?7
zqin3QMMrx{*zffctav7nq|9dhzainUdi|*qI+ab}l)!iS0S4f6$zqhibB<*@{vqHY
zs(+TaW41!i0FB%#$I#u#&9A%aqpX2%g$3_I;cwq}kOrrDo|V0ev)0r&M<Y$7#ypKD
zNT=l@hVmHF7*b!8Dh1ndwl(O+1-jbq=Y|R-?rqfF?v(_uz~`npl9d$MaI;&aHG%3$
z)d&hMm8&ntNx_C1fCk(A0G0}Yq<)33RG5144)?>KUh;J8(%f#ppr{R(vYHQpR`aO|
zU~XMrI|#1k*m5@%w_yX;UL3D?Eq6@$g5N#z_n{4;=fPQlhJnd3HBq3F{f&ocZd%ve
z9MVD}r>eaj%fL2o0h`6M{qO&5$tVOMTf}PEV?Djz7S+*!9XCiH*GLXFi@&&-E5#qL
zc*x-Iq)n%`2yRW*rCRGcgv(^$_CJR?q;Fo23QpVDl)F!U(|#>hn+~rvqE%#4vbfpD
zZijlBK;nZ16U#m9WV1^igr^teS(KhzbJNZnt$d7xV2#+YoeON`r>4A?E^#*m>vbUV
ztgG00p9CbGHf=or`eqZPZ{D}16hL9Kvp9q@ix6lQ6TgS-unrJxXT(>m>3#+efQ<nE
zZUao1_v!xbRwE>ysR_WN6+;g$Pd9bW;4E&7q}Tx|)9BYBYYRkYof_+A4Zy>%X;E`C
z@WK7d5eDOg+jpOU88!}5OJ!9irbz01g3iRf8z#EQtRH?KgeDjBPPqEP{?s+%^vQ}8
z0bo1FUu!g83Q6T@7jKA|vbRC9X%+RQO(IoqhP<#Sr{}(c_|^Fqf8o&if4F+b=*Xh3
zZMQ16)3I&aNyoPBj%~YR+fJur8y!38xMSPaspp*WzTfkmvH#SlUsYqzHTT+cUH5&j
zJhs`3X-R%^xK1nPkoAQs1)lMLXQ8Qz+8cxw0}1h^(&yPv0}fwiRvo@_Gt1!8*-7D6
zj*LjXURXp8!(KNJ*XMk0*4B!VMbZ2H;<vQ_mOx*?thfyv2EqRyNa8=A1`7e1GM5B!
z+pCUUL44k!er8Yh)|2CjEgkLiuwqxymg-}#`mwi#`R_V#Mprgh{Sw;DmRb9Q$|l!Q
zM<thL(d^Y*#2=}P4YqUi+P!Y^{}$KcY8yp(Rvgv7$=4>>7NGww=Pju%R3_YP)wRF6
z2nmU9WJ0ON%M0Bw!gGf>)>>lfmb8|I|EIiLO@zc`L}70NizS}b_njtCvTu6ji&SZS
z3tHE-{ROOATis&JR(zX>6E9BMxsMy^d%-K-2_#5*#RFzqA@-FhNoELTAq+(RolQ(w
zY=RG#%|)MMyi4kevIDdum!qeu-3?*V^#!XzgLvIt5C9<8nX>2o$UN^|imJ)jWae@I
zHkHGU#FOm4B(Y{%o#t{8b4IFNch-+Ac>ND#F7ICV4Lbtv{VW7k=a*)401|tCt+ehm
zOr{aRI^-Yz@3+@6rb_D`bw_4mp(<3K-#i&skH@_3t#B^7@{Q(3rTv}L;#mTpq`oaN
zQp9>GI(A!VZ0rBX_jt@$k^E}@;%}5-wf5di%sdO~SJ}8HVlwqjG0pMo&9oKlAWKx#
z{D}B2WHiD{$ze6puQKpogxP;cv!FzkK%dC!0pG?bT<aa<!z;+fmw!QG^I5r6g*a@b
zmCcC4`cmH%n9^R$D0yHPr+8F<nyoddoUF8nRplEpQQbNh-gfA}j?<PpuBvGBcgi7w
za6;NRm#Uv7RrH2&gM+46fgOi~vGYAH>0Mxk<};kL_MV`ZGP@ORSUw>m%kr2$eMJW*
z0CQTdQQx%tIA2z*U;*a&ff!)sxSx&M6-gM+G!V<BkQAW~iLxrl0kA(%ON8JIgCO$l
zv+|U98Z+mn&|<$(exr<JkU7Jp0kP5%JgxADT~)z=9}SuSNeV{g%^ZZw=o79|#Kq7W
z!Y>FD-%m45e98Gwa@Br$jeZ^!E(|M4G-{Z_9P=1rwFV2N6O=1C<d}uZ0V3Vu-Zrgi
zjOJC-kx);*J$`2b09;fWMH6Arl*9ze2yJGlrN1!UVk{SI1V_b$<s0{nUV}lx#XQmX
zkf@)tmU-R%o{~3MZ^En<x`V#MNVG?!MHrEc9{gV^yCHcYzGW;!5R~gU^VoWl*ZfkC
zF?)B8AhM&$IGsA!4tD3ih@}54wiD_;0f;BGb|qti+CByyOU2rz<`$W{MoFD@K2$N}
zEMTT8BA)9?vpF!q+TJ=nFSpbD?1pkx+kg?wx^u77U3%d!&aq+I<S&{KKQ?ZKK=OH-
zl`%4{g{4&n{qi+(=!cP(;608cHr?8XdtMzp5GduIQqyP@it7QDk(Do`#d|dwH@}73
z^C$UkAyzO>IG=h-#I4VFQph}JTMHY_T@44~9_-BnqJ1>nynk9h07BQ>Ks6XqGCX4n
zzZb1a`tHlzUC4d=h@-7Wg|$Qqq9%j2j&2aqAYI<QJ8~$r=-=#YGX?a8#B5?=HaDG1
z3E17aQTt&Lu-pklUJv{e^3M>uq1vw~jU(B{#T9CeL6^@4fI-AgMc7j_s4eY@10m(k
zMdhr>A7l2}uxHeKF$%|m0F3i5y*HYJT@bU>#xhF09ZOzCXMXf*TJm`H?smCO9(MHF
zGv~Q!C>M;9a=^PC*df=N?%fVg=Dp2OT_eUUk4TN@f7yQv2-HnMQ_26nuo)oR(y=vX
z<7l%IBF_MQ-}<jG{yM+78FUlVQir&#;STzD_$~2UQ-`H%u~w{<K*GaQ;Khg_m)rzD
z7ouQ8p8KVsB1y^mw1#&2lz<cdn4z?A|Ie}z;hGNuVbv7p)cPadu=7Yp(+t?hU$+8l
z9PI7~ZIx7mLp;O23n5eqwc%u_FH_)W<|ES*QTIpvf`*J~qFDSB&9d_H?Rrm1@Mir3
zDm3Go?kE8WY{y49qXZ3yDJ1fwI0&iK()8yn#8GpP-jQb6c6xE2^|}()dbqq3bO#?L
zKMu82{rr^r!|C?&@(8OJu(uOp+Y*oq&Apl7`=Ijl-^CMQXKAY>VE$-BGWjMCQdniK
zqWm?xgNG{?Z~w%$?0;&^Ik)%3kpixv4AFj{0UHMAyoi0=+lVQy$I9wi(Ax?<eYT|<
zh2}YJi*P0e^sY@}Ag*A1pS!TypQU=;elR8Xwk*`+owZM~L)^%AVT2ZHp@8z6G<FVo
zuKHe=PV{%TjJH1UDvQYG<lYRlT$U)K9P}>#{$Cq<qZJJ7tM2b!UX}ko`aQ;4TL=<H
z01c^twuvz)?2y<D`%kBH`|9+~<f$ac+7^+OwzHu9oI@Ts035NQhI0M>Oa_B?yV3!9
zUjzYhbUr|<wZJ~E>*5r?<edH*e?l712G9L7%&5Bz)J=oIje`qu(7-^{qBZKzXs<{t
zx#ck;qBYX9WiDysPtm#vuX)e&6tg3Rp<y9%ALJ*QiIDaE-)!l!IKl?3es*>jDxr5U
zB|JVr>||r&l>wQ~6Lak4A5sJ?FYT)UR#-IAB;>P(@^a)r_~oO(HJ@`xRhg57>T{Ia
zeqB=5@C1bgQ;6YFUzOcjEMY4qz<!QWi%eX2!9esO2Ldr!KhfHj>2a_Q@A~No>GWZD
zV3R`1R9HH{MwJ}$8I%Cbl38&PVbhck2mG|@iiZZGopkdeSD^2bhzJIs$&my~INeQx
z7KJX3wro8vRHJ)+lN>kM=2F;$a9xa?g@Hd%kn&zuK{+ulOPHG~c!t%-p?<3ra%g^W
zj*KKS{P58H?4Q%LRdRBxE|J>82}T9L0#LC#^&lM?<TCEvfHKlNJV~IRs}lT}LDd-Y
z#WOJd$}6{R&b~d70RGs@V`gC(K3CKAXE9GH{(*59biWnR*YW*h;jqg`34>gS0=C}*
z;}P!gx8D{s2#pBeY`0@>=O!(Q&su7c1Ou#o(~lNUHy)Zve_L*zDoz|OPRYeV|B(Qk
zu{9mdmI)hB)KpJh#N+yY3`S=mBxjgm0#*~Tfdq@LYh!`mk{4RMbmBnQBJoU!BdC_D
zbVc3~(>F{n)|GA(gTJSV-cbN1uW+3?j*R6yvKmjEl5!OBz4K5jzK3r|$_7-GUF~}R
z-7Xw4Kn-KqhY2-Ub2)nR-P`LXer62(>qD{<3_S<DDG1HQ7=XW1jM!jXpzeOP#Yj;~
z(cn1-=5^oh)^I+c?hNOC*5a^5an%2IUgI4|%62Hj$rt0t+}g`fzGnV7PT~A=!IYST
z&^X1p_ENx}lNx-tEYc@YdYq7#kDS;LT3{_rex4DVZ7#D_ALk1Yo3sH3Moq${je%th
zO$n5Bek!5&RkCKXSt8ZEl@{^h5o_|zH<lC=xFcqF0EQ8%7giw?p8B`=VU(C84gA+9
z%s*Ua#y0)l_SbA`(o6!0HoC!8^tCB3E-sw$IWf;bGWT0dx>>aIcOX3!ZHSIbDb~D-
z?h{dhPE#gg_)elEQR-AS7ag0^2%ZD9lpdvIJjY2E!+@`=yL;6}H$8x3V<Q*s@~4!t
z6RL1JV=4s0uou(m)!@4_TtjiASZ3;G5B*F3(^c|v@8<*HLG<(>{qF8LKY#YIV=jJq
z>l3Q7h8lb};tkTJ4YGv@=ZDQ1bGqN{Z=W8zuj|jJDhMsCQzmL^fY^6T&JpUI=`|>(
zsFz{nZRY+(#z}L|68_GPPBq?kco!s5S=8g)Tsv$xqpplE!ZD`Fp?{&J1Xb_v*mKcd
zu(Qkrhw(9dz)r?$bg(`%J=pQ2%9$ZIWLyTYy3N6H(EaBg#E^RUTkyBB#(;i;d28qX
z^taz$V~3)Xw&_<glNEBTDXi3NChv{h?KS=QDI|?{IgKwgYR%qU8sA`u`&2Fq911h1
zOKy*}pb+%+A|ums#!bfG0{z#*4z>T9@qzYmQRM)NSl(@pmfl8L-u|3Nlk%+y#hL_y
zB$QoE{T2yeOjV`o{#tfTdM-5HepdPhtt4)|6jeq@bZw7Zi(tFBg0Kn`avv1?jM`K+
zDCaW;hC5r7wNIf}34D|!BN@MrEzqDyhW^B4V*Ui;jPlsDAKzz^{xz{1yaGEYS6r$l
z^sUkarn2eNer(Di`F)o&Qxh`@o=K1R+LH9?%eL5dWtMVP02Sbj8fc*HT=0n^+{LKv
zvufUO6NUvk7FBI<StjIhJtocwto!%5wmklH`4*(6p#f$)rjZavtjD#qTPPM`HawY`
za5|Ar^nMgDF8Os+tfB@{DIk?ttyQlVH+Z<)|2lYk&vv%I-5;W&sY&H>G@WV*@(w$k
z$!20JS4_t;@Kx5))!A>+?9qF?5TZU?5}=Fz#<0}B-tCh<nZqNCgwI_NIGd_zK*8s6
znF4|;6Xdda)fshtXif#lBkCUw!+nf|ZZB4P<T<xDwY$BW@x|WG2UDuxylyMY_y0s$
zthTt}_4NT?F0MWSG&T0xuqe*`!7nW8lapE7(u;VzdA<Wmr%n@Tb`3ucoOxiFTf4gC
z9(SdprXlZ+Xo)9-ZdRMniJb@l>R^LDpyJ+5Letj;2ZXNIeS^KO5&Q!4+MNkV({8j7
zX<&nJL?&j$otU0Z9E!%Gvr5l=Ix5K$Twa}13XJwwVy3O{!lTZWKQV%l852f%lsK`&
zBT~IiNkduU?yVA`#CF6l#Muwo$Gjq`8bpF{CU%mPHkLWsA%i^)K4-3J;1D`fTzW0I
zj1hw<?K~G4IqH^SLT`o^c(-<vC(Hf%`zIp3k5|QyU73b;UuYR@<RV`yRbdzoM%(G0
z9Ad|xDt!$TrbLKj!$t7@Jm4}tU+9{yG~~;-3+C=d(N6+|9}5~Rc6$G}Zvks0*uNqy
zu?}i5>0-t}NrIIMkH;_)>EOF0+IELCV{IbF1W8@!{pf_zbzK#*r|NZ@ug<r&bH+@{
zt@U~85jeW~od{L<6|=KI2)KzS@C=%WP=ZpU=_TO=28%uWx;+?s+qcRF=vPW8R^*hr
z;_=^ZydoCCct)StS{@cqtg=edlS53k!Z^h?HNR4NJ;ihNydG>Tsms@>SH%DXMhK0C
zt?CJ4!)SQEj>)O&>bKW}$TYJ&ro*m0UbiKG7pGDYXB-k#9mD7Uy5je3LBi$Ptu?{E
zyaGS%5>6Iu_Fo>(%va~{N}8H5F8XNTz$mUBfiWa265IEQl7u2J@CP7Jq+%~mB~>fw
zzJ7#I^+A1lj3m$p#JGor8vPz7;&Fxm7}cMzHLHRIFJ*y<z@gn;G;N;~oz+Im_^KO1
z0e3kWnV-Nvs4-zb$xE6+Pm01Hy$=zmpu9rf-~@=Pnznb9Ocqn9_m-xK1w|o>#YI(D
zd^6t<+HBrPr{_U+_O&f;S4+8H<nAIC$xS8Y7X*Cn0CG?q9rq}Y`+HkXt63D7<A~EH
zWM6s<2M#VSZb?s%NSraDS1-XxeRsF~6-Sj|YpVyf=ZH`G;}tG4QQ9E2s-|Z7d`YYp
z)sb4kbLvO#Z}8T=J(dOVZ(SFq0;hKnSbl)US9O)2MtGYPo(~p~ujD@48T-vwDb?X4
z<aJN2XloyIW5Y~sZ_7z;*QjIGI!rwJ&=g#=vCe8=P)5)ROaN))j{b32v%yMa!O{L0
zpxs*56M7#jX~?LewI<Xi8^S%Uf>P`iH+WNh#5)C)s{gF&I2UqDoGthM?uX2nri^DX
z@Cx?|2LWWqAA<wtNk77eSu#tBGvdFX9qUIF0r-PHy7$J1JBw*Bvih|rYs%egMS<fO
z{8^PuJ^Qn1fyGJhIkR2roGh|Zbx_DV*tEebiYYyLoA}~<<6tPB?_x2p`>nK3wfQ=~
zoWT`0>MYO4pr-dS3w5#1YeM6tJpK#5r{dG<`+=Ute>L+U&=FB@?y?%jndUR&ic3+D
zTeEe9ya6DIA_DjaGP?YD`K?=0m!j3V44-c`Dweh9kH&NYCBUy;*vjgTen6h1r1-V(
z{PDqc;_p1EI!&}46qS3m=_)T*pBdP5V?lPWzkO0>n%qF#i&{6tiH3K4OoF+RC%KX2
zSmPuDp(KPvqzZwnoC;DwO+iAoU*kdfqY-fem7h}K$@%b_Fn{l`riPl7xHtuQG3UhJ
z%7qgA<p^R-kMk8}ZuCGhB&iTNV4FJ3;)OGEit3_P%0_tncxoypocp7ZA1JC344?zM
zWD68d)k&Q^3(l?o`O{h5kOD?iM~5;tHlh^A%R0XtTt)R=T``js1dbr*nE$Q#i&^>#
z!>m~#^hOdSKHS*Sg5-Ae>o;#zGi%+9WIQ3HQY*m&XVE(X4Fe5$#xs8($%+hkh?KfE
zuf$4=TSV2v;Q?-1_(uj@lmKf!!tr!l1l#PNws;bC@HTmbJH+c07s*uL`7|`AlmvcQ
z-5eK-nIys$h5a>JYI-H&n#NyZN3B&=DslKH$uwH<b_rd-YHOFJcRnQRS`pBEC;)bR
z^#-^FRr1+k2M3r|Z0hmT4W2}vMP#ZzmX@p7JUP<r3Y#;pcT2=G))7e82qpWDp?+Kj
zciqz-a{dMS1M=CWb~CE;9*%V6r%v(2@<8SSLmo8;`h3dOMornVE}Igf8AkuVFz65=
z<bKQ$c)tKc&x{knSv;k+uQ$qZ#5h9yb$EK;ni9hqfMETko9WLx`H%6LDCZ;8S3j6H
z<VELuZSzx6l_tl>`$w>3;7PYhWE!FBBWU{g?=^w^uEB2@c35xd!<BX#c0mHBLfY_w
zjGse|WTCI@KmEACO<J1z|0Z%y;K=T4y_n{6vvx)hD~%mtEklUOz0StuH)6u)NGXLr
zL7vXvX_?$l#%0@_<Nz<I6=s-x>C%{@(SnOUWYg$>8c^j`2l$iqJWmdk8J9CQG^gv8
z?7lMfwBb|%nj5Tkg8z^@EtB61M#f$JYu5#(#)LdScUgG{1msuy*bDsW=Q{|#)7%MD
z$CvkUTKMMYw79r9zAFxYKe6j_#<gv8;P16tX?gwN0?WxnG57vo77l&N#EmqLJ4L+h
zUQ;SB57C|EXI-U9dq50S+m)Y20ra?FVgD|GR-!o@dnEd;ew&-MM1lHem$?llOKR=z
z2cqgV(#<E)OMGJr^u&@z4DB+u&P?_Aluw2!b$32d%{OwU8xr2gZs5%0)!TO4{n${!
zMo5E3{|dYzmtcMr8Po6pErR68YTmY0i<<c~!640(^byM9`2iVSvP?bSM>qmD`BxA^
za=DqK8j0;jSk=s@f;Z|WYTNK1kH_~r&T1fk14aSD#p9;X7b(WMg>GJBQ(SbvVg4vr
z(Lz`8s@ateM(WzPi;qcAmcmt4r5kuxR>^!b(Qj>PlHogNnfKrR-P(oWM+0F>#Y%wY
zbPn&8BH;5>DHd#U9^lY%LrD`NFmk7vU#sE`s(Xnu<J7;|v3HBVm;l5p^w5Qyx-f2X
zYb)6*`lUa5sT7(<hpakF+LY{lhU}7%vu$1=y~2?jo)j(QuS-s1DTtQU1oI@*^?Vc6
zz?B#V1O~mhVG=+x5y&uc?<p_yO!J8}S}WVkC4Lx*{ey$SVdE&7KWG*itfe|NJ+D6)
zBx$BkPk;D@&WVgo;&9-+ayMe&3}K+T)%PPCz3ka_sIYiDg)91g;9F08)?0CCp>RGg
zu-ms?AaLc|S^37{!;0{ZvqprxuY|x%k`YtGHsPmi5(FgG_|3=ykPoDcGcl$zif6_S
z!^Ip~-M)j3@TrXpmV2f_l&Q;7<GG7D86H?*$$Ai}nJQB$@dj?C^c9n1<pt(pcv4Gg
z^FIQbgtJfO)x@iu?4)x%zuQ~1&UMLQdTyz7)L_}|0ZuOUDyoa+9dgkMz*-_bqB(!s
zqcz?BFvT54{qr7PfTyS%kb<%QrXJK~g)C<&3PG!kF>BEEN55*?+=%}PrAbzjI9b6B
zX2VJE9zphBvPvW_v(kJYcNX@C@Hupa3sh6_^9P-wPlT=aC(XwD#cHGCrRRd~LD*5A
zl=RTkrdw+j)MS`ti{;Yqba;*0B>m2((WD{xgZ?c6`X|35q5azlMtSW|7sL0T|GuIP
z$4}MiNE*JXyFMJQ{#;FEeW~Vu^2fYQFUiCAvVYzl2`x@d_4*#(-F9w$0nIf=P2+`V
z0=_mqCft?{7`~p$M;12+!F%6h|H@^b3U{Wcd4OcO|8r$Z22~a5dCkz(CQ~gtq?H}z
zCGs;@YC~TCgrQXL6<OD3er)MjZ^_obbZk!^9%hc2B33u?DOk&ht$iVSAMqHSUsY|-
zwkT|*bX1+J{d}i@K39=ld703G<&(t@cKe2)1`De=F;HeXJog5MJSziO3j$BtRcQ+!
zJxdh&faN?Xk<XN94#gOS%vfaf5`WQ>G)n2CGXwvw+hE4>!eRbr)QZ({Z^r!l+s}Ra
zDvg?1a|tT2?lvTmU1NnM`iC`X#e7!;$01D3<F#>7qOw5^0x`^zYj5v2;L>Ec3?mLx
z+h8DDyv$0`S;R5XOuH*hyCgIO*M=u}mY4(T44IFZbu^7?*^f;^&zghJtUC>8;lu|P
zCiNdL#Wx=AT?kbjcUXUE8s);7V5~86ZI~6nh3Urd^__2Uo4L$0<$d6-M-=zs3%9M+
z5{jrDF4zd>V=3x|9<yAB12R?lpr7JL&$Zc7ADco(#lQOmchz!3n;F^cbcNak1ubYo
z7^Qi^Bxv@<k>*|_0Iq-i`UT!-b6B50DTurON)m~HZ=@6{NGcGOCxRn^+F$<?0>pi1
z`Mi7X`b=p$3IWjVQxXq6x3TN?3Y7hJ!$+4~?FpdQ<6qkRG4B-D5bK2R)=|X+Au|Jc
zERKmpe*C}z$SwwgX>3rH);d9}neAwqpCZucxrOa3<VGAB#;MT@l6>eACLh}Al9%sg
z+;bA7bkW!V)(*r>2npML#BL`|6~{iqa~n_wgxN@%y#ZiCjg~XY2t^4=zq$o}Fm9W<
zL|5gg@;)3V76Uqdm0)b12-w;wJw5n~^updM%WyWAyYi2~jurw+8((bm#LFeI*DnP+
zN!Xht89R<irM~)epz&dDipN2yTuDpI5_e`$$^|@L{<5XNxp^wRUK7mxRXZ)Le3Ss5
zj;<~c<`8CzW%iP~TbXJzfYX7JsFGq%XttOr{`T%V5t9j5u<`k(5Poy@g(N!YUXw#-
zoBt%AE=%Bm$Zw|b6SP9Jg&Y`5&eO(C1N>F&J9c=zj*;U>e;M3hy@pXyq$XU4FZbg1
zE?0%F8*aUDdY#?~NpYNqs%Zuw6|AAti0}pbfWk`sZdb^9lTSDn%tog5Z)3mOBoi%L
zo*H!R)4rZATYuebng3!6=N&-uHP)j!s@0)z@Hxv}!B8J4xE#C%#mnk`p2n>wJ`pt7
zjVQeQ>-8tq_t4M!Ux{U4abKHC;J?vP93=Z!rW`)~o`=ugw0xn@F8)r_e0)3G@Vh{R
z4SYJy$tqQdV8#^DN*daf1G=N}2_{_zrf#D|MNA6u{**auTv=_4cXaxS!&b2)hg4z0
z(&MDcKh7@Mas$(8mK%OX{8qhF!9oADEM=G{v3Nt9MTd#Ozz-oVYPxs$E57v*zdhLl
z(S>PP!ASj#243rk7?SBg;}P|t1Z;>c%rRDwZc$Y!2pASR^;3Kiq6<MO2B8Z|DoJb%
zwh2f06Tc!aX?-*#>)T=;^@j*rqJqUD8M5sKHF_}jiqUf4gS9{;Yb+<!SRIOQy<`!q
zZG?y&;f@qk#6}51w6QzFWW{707f*G(%LG}+uaEiw>M$^WO1N9A{8i(Y!98mTjU6{l
zo16T%Uj%M!P|K|9))bXG*R8|t*#6N`rjfNYpW|D+y2Ozh5S8Ma(SB`59SR~pVQ%Eu
z{FqOJQu5f(FslLqw7mUYw}Pd)zW}8U%pN&Hgv~h~o6$arDtw1|<-Ej8SzMelsvuuC
zziFSWZ9)nSZn8;5BM-S?uH%Xe<|bnumga0XOPWE9xDA7B{=-_8A)*~VMX5V1E_H9O
z57?ev8bwLjkkC)758G^^>_fwx7I4lf11duFSJRPil1%FgCaY@8V$GRF_{;cMjz0tU
zwfcCL3Dga6CVAP$s)1l?1_0r5_JNM&QJ`mV#CP1alfEpbUwI5eM_a@^3s_Q?Y?HeC
z;B}`ADZzL42`yw7NiL_6W)H4`1IKuP-gBiI{+EBn4NrYY?FdL-d7ihh*5Ma(dKC+T
zucO6)=G%Q4Uv96%RksAkJlK=n%G-RQcg1$cDcnq`WN?NA3xi&#5E%tSr=ipz3yt7J
zcb-BuI?Xx;p2o#Z1w9;qe_Edyf9HsNuSK-mj0)EnH`;C>A@6>ioo>^Yspa{fTCaK-
z_3F7Ts;huUog!5<I&3yT-Y5?I5iLCrCzu-^hH8H<f<O3AByrcvltZ}PU&=1on;qyr
zeHRxt;ht`|@eS{@2}eJbt;R0RWwB02CIBeo{hKgMB|%*9x6x?86;i(hjS$kD(;Q)7
zh`6}8^QPBP<%itbu<wbi!`xG>;PM5#+<v0U<+D{EvJ&PqO#c%`I`qZ8+mkD45AvPy
zC3p>sAQp66OF{(Epai-aUEs{Z97bNXxd9@R2E+i&+Q;p3Z(_jfD0Bq=`21a(72z6m
zVFWptJA&%YPOO9mj^K5FJS}zw*0al1>z6*o?UJ5n514yQIqik!*To%YG?;7Gwx&^V
z6oXbZ0;pZ4IQYH!D8<{U87Y&20I2_Q4gpOBV+w>J+zr5t18It3_DSs9uKC+tPxwy;
zD7R!P5L#(jzpX0SO@>6wn%H80Ob$7o)xB`X$sw@7cJ?b!(HDSB4)(O#5-nc7!}68Y
z(+40dfuKYcR%&=7D+>tQ({4mTW$Ivxo$bKMY+Y)Po&!;9JETFRTwsr=5pF#~-z>m&
z0(=i<jO{jOJjNtfd{x~UzUw-!!e1$}hHPK?5L1#>S_k0>BjW~(Y}O<MQrq)FNOO$0
z1qTa_R#c~|V^=q3aq4q@NxPdf2xdK{>?VE+W7+={KA0^^<m_p&co{a+cZ_m~xE8iO
z$#6K;{J;ryY=YTc$#9{`IxJUZIgK}LV~2NiEL@<JKG0lk;c2u)pW^PPTNb1=nh>9i
zI?I}T2`(oPG4=93>!ub}!g%%6PueJM_%Tx<FzyatKixpP89ba5I(AEzXey|HBcu}D
zlpO3F63puyIi0UGwSrQvxsCePmhHB}r9kaw#QVtql$mxZT)Ul6ITJJyEPDz0CSARp
zPqN|F;9NbsjQq$_&m`7zQp+Xn*CHGBu=Z>=(&Q?y(KqZ=bN;eT1~kJ1<Buqz`f}<S
z1n9?9r;PPqo+7W-!2x!6_K?4cLkyNSvHX!}4<!FpA>&MoHBnhcICgrOT#PtUiiY-3
zIIgYI?3mhA`^IpIUe&*A3b|-XQs0GIunvi`QrPiqSL<17yVWB9D1w)Oq*FyKEy=Xj
zNV53e2i^;4bECMdMCt4DP4zGSm<xl)s!~lamW&5B`QRQR)hzKIuV!;n+Sr`AqHNSb
zt^s_KqDdg1K;thlT%RcK!?I-37HJnqtl#a}qB4qsP|V$d@lmeiE)}0BIk@U#4OeX{
zg#~rkXfx4&1!?U{KX2j#QtoDi40C5@Ne~4j41J~^ZV#9OASuxq`$sZuAyGZ9HW9yo
zUP%%00L3Ci6WSU6x0pCk^36vay+FLysC3gpWXI`FP8sU<h6*5n%E-S^Ctt*Zlk$~m
z8PWf_cK*!3qs{)DEwlw%ejE2s5BLm5Sv;j<uCt+7>Ve#9X^aIv8KcXcJlFV9&o$<1
zlNVjW`8WD$_=svUibSsvpPfsPq0Z(1cmW`HDQ@0*Ts5Tw9%+q*pEA~pq9rJEP%@i?
z!o6^;!1oVoJM=$yYMv^{H!;&|Q)m1?w`@88FWFj#6`UDRZb0*34$6Mx=gv)PFDxRy
zBvg2Pld)xlWZm>y-Nex0GV2GsBHGc|^tX%zvd6G%LMd$|XSYNkfI=yM9N9QNQe0In
z1$=>8s((5++oOhT7yeqL@G+d)H)6+X_9n5mPthw3l@$SkiamkEypKdDJ!-6?7oW-Q
znx&!+VMK6%P^E%d-AKPhaDd^n`jb8Fsr-g_L6jGTiBj3j+fJK+kqFE>4YS$wr%|`_
z)T+73p7jDP#D|EHBd!&ISf4m~g0-4TT|wqR`61@1f#_IX)1ia?)&l}kTQdPI$lGq%
z<gIT#u%+w#St>#<f6LX>-I@jNS}+c3^N#^UzlHy#G$zdTjbLH9+FCK<z@`=PJcBs+
zM$!VZkE>s<<FvC}$IZmhNWsU$?*>3sjX<687UVWxB$1QJ!{-`SpoKm|$yAp4!7aYm
zZq$f+WQ1Qq$w^ZshhtMC!3p#%RYlo=HheA^YTH@ZOAsioqY`X|D_~Ak`{}%~f{*%$
z0hHURWDLsUsmZb8B|#RrPpDc_nYSMtj;)LCK%93=h#BHuiLhSy@ppArT52pcHFW@D
z#p_2jQ=mdi&JT6Pe_dRi9o}jk@d{zLz&59Ih`kWNq4iM;l7(jgy<rbp!6w)XsHm%5
zZLI}L-QTR4;@zcWN#-Q2^}HiNT_Cg0Wewyg@QulU-sNaY)mmUp?srudY46KaE#`aq
z)WRgZd#vLPdH6H?o1nrZ$6t;odNt)kNh!hnX`0zMD0l0SOEIF4jIJHG+I|y)Y)K|{
zZS+BBsTsQnUb>5g4aX0T+dF7~hWxL2&HXW<4-yue`wm!xR&0B(6IqPsw|?Y+qRn<}
zO*OU1>?$0_rEJ$Zw*L$N31X8Cl5#JE@Lr#`E#8~O9Z8JpuloJ^W<hbBB)#G!Rz2^P
zAR|j*Tz(?lX2qW`LUFF7&`(Heh=UpFs+3EK7lT8dS?4q}QHmu}VG=}hc6pLc=$Mfb
z0uNc>4~Y>T2$fk>1XfjI!oRYO-nBbQO*0gbf<i(nIy_E9KY^M$FJ>aNCW@#7%!Gua
zM*Am4e^yJi+CKD|R7$ZFb|QuI?zQU22k~u=h_|9DT{vpsBO#4s91J$XYB+_1E&3_`
zEXd8qw2V!M>sP~t=R-mb%^-0l*ZMj+#e0Ya=a*a3IZg3=(-=7$t}3tKFCoZ<i%v5S
zSNS^ZU1(zCVKZ~#Oeo&^PKa)6<T)XkLz3%XcYVG+gxIeQD(J3$^@K8OBo4H~aX&6-
zV<W=D&z$DBsMhlYPP^ly^#CxRD3ai6!qUQc+(?6QE|ARq=~is3ru>C=)jYHf_(YhU
zGOZo+H@}bJsg7O6njCo7D;VUniwTQ=^Ql`(u3Ct?eYVR<{j4#KT@JG)=l-zadO2TP
zv{iX&Cys2MAbe_Jm)T$8%xugN6@j1f?fWBAQVX=W&MLtJ<I_&yrvuE22gwI}Gj%_x
z-zFk|gq&}*>dF{pyDpBa&%^P(r)X?6V7gz|3Bvxpv6u)ep%b8UhzQ-l@Eq;ApKtz;
z$HoD-n%Y&@odS>VbDe)qkqgleaKhj!8*A(O>ny_7Uj+;+V3MpUS_eL9S7KH3DnD&b
z=FI`m{!9_TGJVfETy+ltsIm6tu1mLu!-44i!mSU3i{%TD@lG!GRDLhE`$dZkO`zar
zBL!gZId8MoA-`I;Re`bdoHa1;;P%-xUZlB2?{LO25cKPUz@eKqY-)OR{O^m2#-6S^
zHEY@*dDWv2pgH0m$kn{hkQZ%wV>c%MtY$ykfWGdSdx9(<0ipSvt1cH5TfG^w#r{GK
z{x10@PhxuMM<A3-rTexeeQc}ePT+Qt$<N&^1<%+X%xkOr=<N1J(O+WoWAjOt0^!O3
zAUa<j9%DLNm#Wrl(aw3%jqBISajeo_b5NdTZSN(nw$H)CZ6i^DP?dqr!p7Wx0VYQ8
zG$><1txs`edt0;Itp$77N1Ve&-u8N9)#YI48EMB9OD#6!=hQsL85jm{BH-YMtF^l=
ze<AQwzZ&UDadfKic45l6|6!%o0KFg1Qjse7G66Ku`-Q*1gfkuwM3b^pk;4&BfKvW}
zJZ5$&F#X5ftlZGpBU4{WK`o=$CffZKyCx+nQ74|Sg|Ey>t}-$-MnLcz?G$L)2%kUd
zauOQ|DFucZIZXzv^J)Vu$BL@qpXepiIYQ(HZ}ZHZJ#-h5SKj31pPb!DK0^!BL165a
z%OSz;o1}G5vHC)Ar{1#P2J&!&^K`I-VypyN>&I7KM@})BORu>;R<yA)jb)&m2C8xG
z)JXpt5=^&WrjlAEabgMh>$oHmYOE!o$)0DG8oU~y6zv6OMoYde{DA&4b{<b)WYNc^
zlS|H{q%qfoqF9l6-@{KC`@T{woxDIv$$%Oyr^+d>Qr*SVc$bAeV?&oY;WGV8)X8Au
z&pQqlvN#)+g-}NxNp958U!qH8=_yBl*uW$A6Tat|P}yj5Eq3Gzy~KNWPU)Gnt?|O#
zY%}6kj6()M-$5TE4Izi`;XW1w$aC`(Y;89pNsxcWdN_yyweL|P;Toa-EWLf8O`0L*
zIWhi|>?fiW!8HUF(umYdkwq7tecPw^hxKlOkS)9-c{~*Azlmi%7eDr8I>U$4V;;p%
z&`^BVMsQHec{-=vJNNl$H<~F<0@9HzX`b_+-_yn;`$Z!0ieu1g6K1S3=@A7N7ZF;l
zBX3YYx>2c}38aZ}JoDo@xOlyRRW=)MI@xi^B3#|frf>ieWB`?=m0gJLt27Gr^pD<4
zr1DPvjSVe89SLx5<xd}CSx*xh`oHG?ez~upR?^X9E^_WyeIv137A#`TOyNmVCErO}
zlRHg%EQQZ=x=1&d&}v>Xdm|}ZIK(T3qNYi}*3tk9?T<w;5I_ySgI|-Pz`$}6Htwhe
z#bHv?qIeREaR6ZJ{d2^ur2}r1!1`K*k+}h&LTMq0(IW;M<AuB!HD@KfhRxsvnZU~)
z^!8!vl-akL#+W8ZC~vkTe`9XQ9Ns>@a_BR49CP(~xBU4{ib)Jl;4Xn+!ZGo;<u>+x
zxu)0`&$=*QDR3zeQTdhm=frd}yK%?Yzr!OZ`Xv$DxWXi8N}SkAcA_&)N?ckqPHL-&
zp0NJi$H$<|$0)seCJ4$=OJ#Xx2xZ=2Bm@ibjJv-9c8qGQf8b>GB|B2owkaoKG_%KE
zP2Y?wlj&!y_UI8+Q;D)U{U+R%#Cj-<$z^UBXUl<bb7b_(&PDR#Wly36Em)j(JNCjN
zo%EhD43}#(40xZKI*-58_4vzWWi6$RhxoZ6$5YXvTl@8v3}CkjFlzM3&1D^ugI6_W
ziTDE=kw1(DuZ(X2Znvrk>xAqxgAf<43E#oH`xZ@v`OtTSTD?pp=lP-5a8~=ZepImq
zJH7_ds6!e0l3E?f;@+~me<5eO`LcQ5n+H7Go?M(jSw$a3LTZV)z8xxOXSA`ZoaV%8
zZS!TF&|5C3KV;2tREu~cAkF!+)?Bze<RmvmC!S5_#zNGY*4`FQ<kE8YF=CqQb^ULt
z^ko(bllT5`4skyYD1(Mv>XV8!7?=)pjv^-J>Ram3r)9pDTae&7RI{OQH1py-;AXh{
ziP+0(4?#DYLV_N<BJzsVp}mi`E2<_C;TB8!eImZ-{5wX}S#1OgBBELn_qPlH&4SZ2
zI!lF<%|fr13KL2I;{^L_Cp*hM>&L;C)t6&Zb--s2WgeSQkRX0hpuP#Aho8MlUv+8!
z6Qt>L6Y+QP^<ol!%Qk<AK>0SupBPL%dL7W-CFTCvO<V-Y+m%Qs7nfnn2L@v_)Cp3n
zt~8YbhHzC!(jE}z#A%q@joF;CFSe~SpQtrb?#7M|s3!xUvDZxRzZ|`c{XiE&OhtA!
z5lrJo6%(U%tw|IiQ4naTSN>Q1^1n2RjxEZ>N&4i8UCyws`8lp)roF3Qa!7*>#?ZnJ
zpu+<HzUg2DW#(Dlk_<pyxZF20o=J>^yFpE#+aJ%!C&UtX%u!y?@%^LVH#tHw!5Jp|
zD_Z~dO%UaV6Js-^VzVNJjBEKU8|<p85rv+4xvdDW#Tl1|iGHacVoPHFkeiFlt+i@!
zew_Q&hR#<0Np06p#4_pfI19C|e6^Neq8w%ShZO-=lYUHtkT2MkcPW%V3XsJ(7|LHS
zBjGjN4yI32DQZofnsygn3SDxy8B|orSunNk)d#sqh-hVb=xNqn7g8^&%KQ1ljAQsn
zK~uG(=~+kN>j(cj?o5X%S*t2x^i94O{BZOxTZ+Wj15sy0c92#~p10RK5!kUv+N0=6
zShr<?mh*VJ%wmJdNsTsx2zM0B4o(g@fGW~E7&74xZB0`3E$<0z3UG9=BXlKOIm#UG
z8QV0EQETZuy;q%+@QiMzqQ@rWa9G%s$7F{6Hw8&81J|?F8u?TcqG4>v-LOfQN_`}|
zrSIm8PZp)kA?3}+PZ3?-o1wn$uouVg<2M^Imgrb1)26qDC29EN;y5OEqjW7h!h9+N
z|HnP`|7F`zm5BAU$V5DU!f&6wn!zTbs5#GG$ss8#F+@e7*y~A}fV{UA(hin?d{!t-
z*r1<NuIBr6&5U(;UL*kne>2+8iPhDMrwT$c1bNm+@9&HfTWv>u#-yOAi#(LefsO33
zz<r;v#i>0G#ov92gFO*Fl|YC2Zjv0@laMgD;v-5PMyeYAN0f#wFEjM{62(0-{^p4^
z#Y_**<eBy4_O1pRn9}3>m||4koNT@);bPWlq3n_rqmvozu9QmQh((Z^EBXEVl@kUD
zvYpKCKMRYzIakUhou;PWthg+v$@Rai|LV^M?`_22)CheX?-9x$|I~l&uvp=sM}waq
z^8UFv(ELYy&@J2pwicT71+aHZuBAb-YEIY8s^ehFqlLfdKy6HHr|&6<3_)xj@r*(z
zLI80B!(@{isfcSrFw47l>uFt2??e_o!Q1BO+t6(SdWZag3a(kR$+mQr445MO-9J4m
zH4*FP9|OEs3eKRp&tr@E&Ymys6sZ4`#Rr+BahTri!%H3?v@=Wohc5SHHg4}gU@!Q8
zd(nUF|N5+`w=Z%f3^4E-9dGDi`+ErVG~&A6GZ}$VfJe>tWwwn+n6*7hj!YT)Uv+4n
zClu!<gv;+!&U+I?7h0%orrR7iUs1>jA^^vcsU8^%;cL?4)wbfb6yx*0n7LV@OfcSb
z;a=Dk$igadsDYT^0I$SwC%)tmj$GbkhPVy}eIl`xrJaPXWGg)}1R6%1$9ZT-cs+7T
zY$;L}&YdjR0Y$HWER?vp$`w;A-9(^20F54b#V9ET3}*EGRsz?w^=-d16zBP~PnsCu
zP}fFITrRRjQy&ouwmgZn0ENmBc+^UH_d+l+LY{hQnp;Ns<e{QsWNV?gC9P%p5B;Fu
zb*%*If_iNdG3WoMttl=9JfRgMX?w8(B9Qu9#Bdm#%F)~*&S$sekjKs^o$f%IrT?g4
z+^hfHKMr)_opBltAes)h$2Ue;z~}6cy<wOyI4a~ZWq@0gN^KY)AG2wTUV8N7S4F5Q
z&c_|7=|`Nv@LSHlPF8-%s@E6;8Cv?V@u3y=mT*H3CDp|L98;7tpg$hVlzrGDbW9FA
z8j%D}LXgli8ZW(Ib27(Nd0MWn-sYFn{<v&atGu~^`#k#?&q{`tnZ6wq{>Ko7WX-qv
zA%d6Pq%DYgFTH7lm7M~X!Ns<qr@V<nnKWb5Ih>TXAQhrHy9yA%T^QsNs=404P#eL5
zO4{jESPs%85!$~dSX^IEUouA9GWQ)ZH>ZejFM4?89d*af$4)wUII6G8HRfka{=NFg
z+iS`x98HjNE}KW77KthW>fCygN9sHe-gpwcE#i46`pFDJ$VISVIb{8M^OyS-G;W=L
zT=c=h1uTz4^_GwXpJa$;P$iags`Lr_-?rb4)nF^%&3wiz-79oh$p!F!Kp-_uB#b$3
z{2!n<BNSuXV7Cb@unrUn0qf3gQ4-6yR;QY}5{h_d9s7dtjS{>c5o8h8SC(D}KjM|w
ztZ$|b=D*ZKP|Hv}U@9c|dAKr(?%R~@d{8{PU>>yk^>yA29jHI1ei*=eRBd0mIPS$B
zG}dA{%wuGVUx%pRxg08l<1P)4jnD!N0XH&Y=`;eLFzJH`K^(5O<A2P!*~hUiD#1CZ
zzD(miy8iMnx9|3NdpOgen~afgk@fbw`t4W+vLN<;^1V_c@WOKC3YmKZi=A1-(sya4
zX5Lj5c>|u{SA(-ix#IU?UQigRLH?coNbJaCGlm^EwJ-H#eE4Mq_-Pk3W!`S}0T-&}
zd@rPhOmk|I=mDKwgm>g*6_D3~#|BGgTm?v-g|a6tBe<RUf-hiY<+L!pH9>q1Qn!!o
znva7=sI07dd{rueMQY$#*<FcVqE4ogKKQkW3Q-l^L-xg16tz5ESZMs@zOk}mv{&p*
zT-@|?+?mhiut|LsM?}>n8Npf>-_v+AE++0d9w8MowZ~3yW9{bV<{vW3$@BT=u1g?=
z`*g=C3_F_m&tWA=1(+<Sv(Bh7n%Ix(#iencpj$-5IM8ulGGcrz9zeZ)*h}ZOAOzPD
z&qfs;Se=_jpJEgiQ4NEUg&L?vdDczq#X)7SqA&;?9Ur%O&%9zbi~c4jLpU)(=WNMN
zn$NGelc@JnfCV(pqq`qmEZNWG78+D^8w%ud=g&-%=#zEHoODPuRzG^7I$%lt-Q7c>
zj|iX_Gq@R;_P9@3(^ghLdC<@p?J!I>R`I1_VrurDiluq*0p&jrb7&sxYNwv6SXv#W
z+{#xq2L8i@eU`$bETgpbcGhz}Akp!%{2LE@06tljL>38qlgOjPfZPrEao-)v#GO&1
zq`;@P9J2=P0PF)iRBXMJ-d9Q!<dP`fYrTL^&Ovo4h{XdcG|L|P_U`2j)q{>Gx~rQ8
ze%R33db-XF^lCUkK%arn7kWRV;8#C%Hhvj*9h)NDd=Lu?mDi-25P}a0o004Z4+q77
z<3O__nc<IeJ2K*L4<&m<!6Utk>Ta1+sH=2I_%OoGG&H6<r;#w#r*|ww4S8NMEqXiY
zBh-n_Wh_m&LmbTCd!8JW=3rR`f5FvyNTi_c0`HW<8B_btY<>GB)3Z{2!N?)tE3Rvz
zi!lFk?3Vg^?nU=PcX~%Ap~>ftMr*@(M=sn9D6Z#Q4x$ddxI>l7O$u%8&O|v^)Um$b
zCR|!8+1=?&l^>YS93V}gMP-$JE5Z^CYtDi1Zucs5owm~xeUOWG0=jp)3+&hoR@JC4
z(KG*6Ig_*=3(e*6TZ<zSvX708U0Pi|>BBJs7arUZleAqtRqq*&QH*)R1;2(qW?|(w
z;Uio#c6)f>q<z(GwRbDnyFXFJ!zFAum{?c7aB=zCuS^Cxs}dTvW@Tqz{G_Wv8D+UN
z5;ONI&E<6)7ZG1e2(wHB4|CR3*Dt&wXj}j@M3#o)<xR8k9e7gq(@z%OrukLP*nC40
zq`qLv1F%*pz%*jG1txG(;DC+N{)W-8=2qVM2)(M4_Um0-TyD<+W|6oYn2)9b7=mPa
zrfmdjfB&xU?<dLkF$K$ivA40Yaajc#IWsGq;Ty4Qc+FKIphUlAWzjBT2{ZH%6$T;P
z5k#k}jXyjg>xKn3oo3-SD+*^H1FMxcgTx=83v6_VUR}5Qfa`U}AyAdy%_SkR<LG+n
z_x@7R|Am5rt~R&}?g)<vhtP=sG0pL&qerV_n)JpC)MUeaola}s$yn2;sr~J%s6ZWi
zQ(&w3L}O!Tx0o}>sS=b%Mh4am*`|5cURyf@0=0h!xXy-^)>qE;Pb;VLZLFWUc<I<d
zru?d?LRsP6Usnc_6(R?6v9kY2Jw^B1tapj9TWwH(NO{Q+Zn~1oZ*FC}YcZZfu7fE!
zy&|NA4)mxAVyHj4&Vjmk78Q<^kjUqY5H8Qm->?J~Z-Nu?|5wd3gwUQ5+xojEkWaMH
zmKr?e)S1{#Nn^$zMS^99e)ZGbPw6eCt+Gt%-l!IDXSU+GQyQGd<y!zXhTP%O^gGe%
zI<eIqbReI1M8lqN0l1%c<x;eFE=H~_MV+{dOaoY8$<uo~Y4W)~eZTF9d6eNzeefv!
zwJmH|(!OIl061{0wn?Ehj--jvj1BliyJeyEptu@xBu^motlT8`ZCA_oD7-Lfaw_OA
ze4_Vegom9Qs8@{oTeMi#+9QhdYCC|`K<TLW)J{wyOU{htCdk#ZsOE}lXqM4<0T<G0
z_#hsbq%HC}Yx&uscJ_1s2>f10N5^(5tJ$8XNiJ{%WWa6vyf1Ai%L_SL=Z^rZ#|@ed
zhIoK99STNQn|}7+=jZ3m6a|`Rf+FJLkPfU9IFwSs;Xoyyh&f#%@OoU_qSy5L`Ucr>
zuPY{&8-f6!j~95%NQVs6YO&3Xjf>H#4TKb|wxrXnX+oz`;5Nz#a(}7!DZ2y%5SU9F
zUg`Ymd;_?|Yq!%=)x({goGfN&PRO{7YQSl2cpSH7VfEEP0eei*i#b_1t*7J}mWW>f
z``%_pgGltvj5du1sZ8k9(99Z)FN6d{jl-`{&^9Mjfw<0*T?laqd`2x!d%Qs|Y)D4A
zNnLrUN<&Y0-|_;j1EWS~>u$NYIQSAGFg5E&vr!9{u7rFMk&)NS<g;xZ3$_&8o^-PJ
zQBbmYfxmihVr$pw3_n?$I}MBu>TX^6up<w$bgyBVZLD<<`#iD(S%o{@&X#Zh+O7Lb
zK!LFvY2ZxYvWM>;lF!ANfsG^*QGG`TufsCx6vH7X2j|yJbZRc$h1{1lbXUB!pndPH
zOn%5Uwo)7?5td!`3U3-y>rRl!(c(|ciEjCFg*-HFL3;RpG`zq64qOf=amtrxXSZD(
zeSPQq$6h;hre2Dn>Lh)1Ac*q>{f1wMW}JhZnmL*UpMdi~C}cwZ<2}ds6_!|^R=1k-
z`G3{3T?9@OeHy>10M%G%zPYOFOflnOP1~fY=DM=K6L#uZNQTk2>HpK&|95fVK!4i<
z^cuY}jd(|R>VWB5+}j72>VBKf1xKm|cDyjX-}OuSFG@xUN9q3zBVY)mWa@<&S2#)k
z+!kLdW{eWD-4N-|%FIIucl7?vfC@rGx!LeIZ_=g}pelgS7_TYQx3r29f>DbFuj6=5
z5YnCkNLQmjZ#>Lz4}tJ~h}CdEp~QU>$x%Dt%^B$9Q@33x+DbQEO6!m26#j(#_UdyB
zw9^tX8QZ-Z=;t4%4fK))UW{J6Bp`p6EYhSMP}h0mzH^Xqaa}vYi(=6W<p0i!rm^Ip
z#2q8C0bhPeb}$>QMdTtZ@*>*tDN5z<TzdObh}Q~jLZC`U(JiX0R^OxBQ@yc_BFslQ
z#2SQt69E8pAf7F+)@&&9VzY2^{s0FDM{=#ROMBtsL7fH+>Oh|n(?<ecKw;Z@FY!XG
z%#?xDP2gvg!V#Q7Jc0Cq#CkNzVU|C^VPe3rVi8H+If9he%4iCp>BfUTfp*3W>24Xr
zErpwT36pXPvAX&DMhD}VNK2fp?C|usY2rt1`fd-4Jp?Wq8fE~$WH8s&LmuK;*aAzf
zzL_-+8+`J$ChNwFjn3s745Mbt8GBs@qnFu2u{9O_9~-pm|NfCCR4yUGekYy%YY#LX
zjd#FGoxIrWUa#rA<ULDM$6d0_&DF2^rTEQ8t8T2yUU<FPTpkX^?<m(}t>fYB0;E~^
zw!ORqz+!*77Sl?lpI6AkZYl<w^CZN^Z<@x;U2=JiY^kY2{_q3qUFL=vd172D``A^C
z7ZyA=jScs0EX5Q?Cid>8zXg1|DcU4Ax~VMBOM2L-`>oY8@K||evs~jwoa}k18U_%h
z*W{|gcZu+lczZSPj%cP`H`&on4{Q>PK<24kj)Vdb2EFbK_V~U1%W_+;(QmQe;N^3^
zkNnMGNLP2+G{aVHp!r+JoX`EdF597F_4Mp?0}Yw(d!U@B9Fa!F*KCH$S2{fZpClr>
z0oI_Xn~lL`UD_vcRTT`#C~Cpe^Z<v>97uSnCG1VFyt@K|52!Y}+Fv&xQ_0@_#inC9
zq&)Edv-|na8tJ>s0rz%rg^c!qYWZ`U6DAuE-qmyqHhlzoD#+@t3>ipF2v{v2YkF^D
z9d&Vx#LNs}!iVD6$!9HP3U$qPil^v`pH!1gFW-Q--``HJN^T0;o#h=&lG$d%0Niae
zA2b7IlGpQO!ciF7k^djI-YP1tsN2@9!h;75?ry=|A-KD{ySoPu?(QMD7f#Ti!QH*E
zBDl-t$i8=<^WVqyvL05OYqmamALARw2Kc37MF<>4Zt0}DwNANIIW+u18Of~U*UhfI
z!}%d|o?LO9sA85aC}`U_#)#3*37OG^q}&rf%3#d<rV5i`X~7yA2yF~0$YM(Pco@fa
zkZRO(MA9o&x~Uo>JlN{J6Rboxr#i-`dQb|KVqw*d)Za1KUH$%WeOD6Ib|fX@A+>Xr
z-k%Ts>GQ-ulHiwtRW{r-t7<o%=a`!2xs+QdczPmI9y;e585}<CH)Ir)6Dgnr+59?e
z)UfIK;3%e{hn!uk7EzFYVPG(iNTyv~w<bU_Aq+_S;=%+2fH{g4R?SW2#1;|5$^V23
zV<Rhv>^kM8(LPBg;RvXdy>*;nD1;ZO&<J*{VFZm)WdysFl$f<U6y!Q^f8{dfTs<5`
zlcH!0tg5NN{KZL|SUz*DN>RwSJ(tzPo(#>ao0v;MbKBT~v}FKw2otJ8!WQA*m`1?6
zlO=;5xZV%-!9b2ZAR^_^Gi*SmBm#WdPI^2jOgb_t8}`)bm3~rY$u0ZFkBQ%`fXl$S
zpX+weq2%$=z-A{>0fuCR6K{$7d)?o8`sF0<e9}3+MH(q#(T+u>HG-)trztnstk^m*
zaIktaZjXfBatujzJO;Uxv}V+F1Hjt&SAvUkYkRlTMxe4;_}(raD@EH)&e2_zQ|{d(
z7BexSr%ziWXi>xIn!WCf20+L*`<l8GM-cG%1on^Xfge^qD&GLR_~I{4pa|#%K`(qf
zSIQw72;eu;RL3Q&4Xs=+p!hAQprTUi%AmnUeR0qTfOM7M)1un%r-c81LjHeW_h4f9
z$#W{tW2<HCyFghSdz({1_^SR+H<LxH8@%4hAou*)sweq&5qQo@3E6N^CnDTvfcF7Q
z94QegabfIc(5)d!Xg=&|*=qj3+^qw)WU637?W3d!sztF7K2zti&`5QCd4|#?X0SmF
z9t*h2D_c}1VL+9ynl06Xnwjm392qA|LYKO%PcGezj;8Ed%Y7;lkFUJfNVW(U_jD>D
zr9!XVxvK8AkNQtl9F{e%>XurZyuQ*A*U$7bA)a#wip!Rm-2I{^8X;6FEJrY!zl!4;
zC%Pn$cD~vl#<zKo@IzeB8T8isbFftY_C_5i`pz=x%{OR6ec<egs{QMOC1=24p$U!W
zw?2Nf9Cii<3>GFOOy8l{JCts%$L+$f9*t47D#9N5wLB{s3(YE=`d|mcn8Bu^Xs1Mg
z_Uw~vm>-!Qc9gq-PXGddc1K4?*CoJD$J>)<TP?Q%cVwWw1Xba*N1ymN0X}{WRYQz^
zlVe_Wow-X{SFowW>Ny@E@5tQg(<i&+G#r3iOD})*NM)sSU?{d;T7uxBwY`;voaI`h
zW~b>hHZz3*lpV17r1=)4V#N&g(k7X)T5tK+)}aovnB_`U>68_w2>3vJR#Ez`)-&V5
zJm~!n><*h9abrY^S5H`%opkEjiEwtzo9)wFmkC>K@wv7Hsx;=RbuP;WUjOBOaECjC
z8mUUI=3lP%`IF^oA5uo5om!hANr+?3knR;j;z68nKx%c_us~47c}NVtGO1~^ytTb0
zsZV;uT|E$KS&cSBdypWqXOCot^vxzQRp^22U7S;x4gpRF*=E{@KpfY2<Bv(Pu##qi
zI*`2w1S_-6aIZJr_z7S<B49P?61aJ&kkh?kw^Vb>1?1!UHO2GSc#S>ynC~);b;z`l
zIcsiy%IoD3W(;b1W+}O1v~BO*U)sXre^sUbO}nt6>hr)WGb?vB2+<;69$+Jd;5$^%
zA-^GY8#=0>$G`@vfML5eWxx8k{dSfEA0lU4u>lAWEHCJ7;MX#KQZG}Hml1z;)P!JK
z)6^(0$_9Hr-ENM<{EAEd{5?3z9UcgUmC_Qfx6W&GkmQ*HgC&=*EcR>eUMjgZK@S`f
zMM<W+cNrCmpE{oypPbDhXgOs>mJ#F%pcL}Wxz-pw8sC<kQYA8b*%n)`?Aj-;`~lrS
z>lH%0mk5etq&y%^Yh+H3WXomdrqC^!OS>EFaa?P9FLYRKoV8_u<**j8VQv4FhSrFq
zEAj#ra!4P&sq`a#`CKY~Sz*gF+(EaZsq0AW@w<ZNalKE7>H!qel%jKpZ?g5Fup3D%
z#XfhiSEZ2~3>D!;>@`FmqyfhZZw)|3dyGaB#5&v_69h*LZK|P&0CwYAP*MJn$9Sr7
zYx1zRX-Qj9vJfJ8jLAk_?NaOg144Z%_{zP2L&goDmKU6=0|9o2?p(QW;4ip89WkVp
z|1~DVUPZNrZxb`DEd}0K?7Z-zKN8a!A58GDBT0(~UXe|ptFD*|RorF^RD)oy6p`wO
zb}{g3ra|(7gi!M?cAO#H2(zh^omJAoq!Kf&J}FR42UH3Q(@o|EY!W$uqIybLWH&pO
znFvjH`(Cb_qt6<jh?hHJy6Il~bW<7FV4O8-+e5MGwnA7**ZfC@?<pTMDQ+ZH&$pO@
z<4UVso)R<)1iJVH|MH5;?9oU1XB^ub^wydLWT>Gjk`*s>`ekeU-of1(x`_No@&vzS
zB@xL~b5qa*AFRI>(s9qJ=s+IN5i0E?a2?_a^=7m0A6JN+{!wK`e(D+6=GBZY`o}Yt
zc&lrAA^H3AE!HAeZ~YkWNjhXsS-{~>4!dU9V3MNVHXU%)<wHFS7CfLY9X)K|2N~0*
zg|nUF3KRwCC&5>LDmfr~37fPqvjMM<z5QS6oDEgLinku!7&mRXO^|Uz)UaPBVN8@S
z4%avpjqw3+rYsOeaS?hJBi+&4<gDbT3{+{h9N%w-DU-zUq8Lc?yf+Z!%YAFk6Brd;
z_NYZyP(sx?ZM5xt`^nsSxXM*kY0(;;%7BH9#Q>`nS_(Vu#Yp8(kPfnTfy0OqZ=Y1j
z)_7{0{En*Ut&UnFN)>`-=4>G<yS%*I#t^7YxD7!+g~AfUD)AR#7yH}pA2y!yAkPAf
zQC3zdOzJbvDq?j%(2N0rQi_m^C!X%OE+hP>l|R$@l_osjRj~?4#oYgpQ$GvMEbfIr
z$nwUrOto!R-tvuf%^Gpr=bNg9p*9N{q6UxOq9Lz@bVouKSlatnGZy>^E*7V^^(@Lt
zV*wOXX}u$}N)!C^7Pm?`;=aU-?3b%}M_LkI4tjB~bGTmG&tAWKpY;q>9n+x5<XV<I
zHQAtuqcLPtteFwnNu|re(8)d1gURC<ZMm}npLL_i<;f^t^`V#&3fd0<p8<EWu!pSN
z>!*#4sw{owkz0Vz4+;;bd7&gH<&3%X0BFub)N>!yw1uV&XWu9BEXuE%GXzWkggxBn
zQ=O42G^!)JibKP|2x^JOabB0+pr|OS!FlVXtSEK)tRM~1Ky8yBfG`exAv6Zq)HtLY
z7qof+V|Ixd-*62G#0<Q=d8O>N(m%BhFlhOsbxgtctau-GB_9)RC7HJigJ4_#I-m>D
zW4#slR9MQ39-h|{@kzP(AL8WiJ$RN$BN%|`U#mQkTEHSLeDI;vSK4@?Kb&C#mz`;T
zpzUO?y<v{8t%*{BjH=oDIX~OA+>U5NJjt@=<?sRI!Uzpq80&Wg7fLphEFC|4S0w`)
zh=lIPtSRhpd+}_@sa*AK;0uY<zOxk>OovO!-USXcef<Z;ButU6+MKYvlK>83aXdKJ
zvsjQS0C!<p+mq$Ooae$%IBiHICf)WvXBEqB)(85PhWXyG*B&Pws@4X7C*1oi4!0_)
zXuk9xszojaI@lIK^y1n>YFvH;3*;|@6=BidmZS<%#3%?1^yIJ2@Yk^_;#OB*JVGu|
zeQsqDa@>0GZN(}<r8|b$)-hg{wxv#JuI-fUfvo<SEpm7DIks7(wVZDBK-DXaWy8}U
z(&AD<nNydh{y?G>^%1FnvNt2Z2*&73BX>u3RJNUu_(F)DW{NZ0oF*p=gQx%_Yz3^x
z5D~*3G|hlu6YsiwL3h(N3vrDOWnR#VOp0_%*hZ7()WdI>$V`_q9!ne5g)@#sPwg*k
zGrbHC`BgB(^a0EAo@h1G7-c61B)jWqbp_a)JB2JD<x?dY00bEYU%I~0y=e!2CH@i6
zynW${kKZ~rlgVON(@M`-V(vT9`s3rBC<X*}=!ALdqkNXSt`Y)>j~s;spiXl9G%CK|
z3eC#Jk2Ki24!JF;A;GVE;#}k%9%H&CsffHXqNU5kzuqfJ@PiLeev2T@`}U3(9`&c~
z0vn2vWx1L%nR<Y26oxlE-&uC-To93lRNaJ>6W|Swy^wzx@J;v>o5_rT!-Bo{#F<dB
z$?e?`rXyF@pERJ{)NTr8uq$l!(@pcwe0K<=UKFmqSu0Tw>7h|EVOS0tT_?$KT!NW`
zbta6y#RmZ%)G%EGOCeJ!jg|Q`3G8awRVrMGA*}bt^v;Uzyu$JA3IcXajX_uQpS%$J
z)(;su54o?Q#-|q-zv=8MSl6H>@{8bXIl(Z#w}A(|fQv`^6_F%H`m1VesNLJ80?yyL
zlvNbjUcYs#x-(DOAqD~ZclDhOlUUQ(f0o5~3(rjzDFk~K*#oXp2W*DqX5px_@ppxL
zD;yVL>coBMAbrQ*^^`Etim)FDT!(l`=3a+0q(yzAr*7lGFcV4(#fTDeHmp1~56<yg
z`*b%{+6tD18@y~^$MgTobo{R(^5VuVIK#Obu3l9ay*`D!@r!Y!D@p6zHwGGAVw)0q
z16dQ_N_p^({J7c%p5Kuuh>{7{n8u^Hdg=pN6^z~|j@j6pRh!`<Sr%{|Pkg#M{j0_!
z&JpFahBOunh}I-LBpJ?lPcOOD+PP;ovy0f23NSLP6Qqrat=1bli#4D8nW%oMUGT^&
zSVkLIsQpv~&cMJdI0PY&hQeJWH|6~-L*D(kI=&RvR;Rk9z<rplmN^T-WSu{NgoBvm
z0(CGyFn>36^x4K-r`B_1<zoS;KN`~Eh`5An-SYlO;!@>_Z;i6EQ;Z9u047lh(dS<Z
ziR{IzQV)n1$$#LjorccRS&oc5FPqjhFcWCz0W)e;1Dg%DWU2AfLP=kcC6Ax5E9aQ(
zQpLMfL2Umh{F;{)<Er<WWC2uVztZE{ZVkd`VKGOLC1q=$6b<LKtG!{YI$lV{={7Vg
zWTKv!!(+Z9tjEcm6UqlSYLS}DI|%3%%3BLYtwN>c#z{BaEIW1y#&V?lZmJ}p-SVKT
zR-ci(0RM$aR~siyWLRKybw=&EfA&$YZRaX_<SS)g&Ri07)dv`F7CTISKpI*!u5=N-
zBcv8x94gl9J-hw9U}^2_?Ps3^i<P<$ucF?AL!rMD@q4Ydj^ag^N?$vuTJ6>(mV_HF
zupZ^h7`^9h*_i1rMMF<IEMz$h#}_yQYQ+t8fP2onz1c7ODN2vLKXMr&xlJei_hK}N
z)ANSoi5DKd1o;@8I_s>Ebi!DbrYv9p*^?E$l7uN`lbBCU%RjE(8l{=0lT5p0^}q(z
z%)I{=kb5xMrq4}XI7?Fg@1y6e!UOn)!+6FsplGcj8f7yC<k#7it^h-~VWj$X2cA;p
zW^5TZ;B?P1-<=pLAJ1JJjfu(zAVh|1X)E1F2|#3+Qm%|PzLF1B&KO>V#yQH|PQMD?
z4b}>s63}W8>u4EE(pae6Y1o?7*YddRmIj=jcS0mtx+IBF{K|4~SDAfwo;TmG@+C&A
z=Yg96P;eym1WsKl@J>q=XVuWYB~TgL!iI2mrPArqPWI1GKTb$^cKsdZLr%Syt7=CJ
zgugr`TVk+&3Mw$*Dkt#hyNACcL1(!zT&^70&pF#J3fm2cu1RbP`4m!AzVG60TsXjY
zkh}f8%RfKKOI!enJTi^Xx<|(!8vQhFccV0HAHGz&N#QXnSKQd4)%TWOII8=@U9cwd
z^8F}6)K(Dhvqwa4XyS>QKCG@2xnPf{{WKTl7(vZc?Q_nN@twvyi;&md?s`fsVH+Cp
z9g<xRiT4|{_iE_F))j0m2N3^nmyBM6yza8=bH{dwCJ<3PTRu3{;_mtPJN#XV@KXsh
zMava6UPL-8ToiOXrs(HymgVN0G3)gZ=WjS(tO8dfC8(6uScNJTO>5tpEeN)80m;2D
z-<77J4WVz0tq3C6ROk-RI@m%|)f#zjf-U)3u>Q;_?zV}=YDUuVNHcbQB1>f|{c0sg
z)t<INcQ_jHX7}59`K1cRBDB&86YJNArwL2yyhII_S0W2;#_wpRv0;IN^P|_Yfsp=m
zKw_MAECcDn`G(TyuI8FLY_ss)5e3v5A7tF<Ey(q2!)ABYE@z8GN|BTz`52Y|Fh|hi
zdH+sd;i5)x^W6baAoJSAMd9KduwcsmcF>Q$m*5&Wj8yKcxbg|;!PCvN5(l2gAedes
zZuGi8H}L$sptbf9OY9?*%`BZnk_0X<RffT%TF3F4uGO~n_XIveKn9AW^%#~&4y@?(
zviPosv`wrI4R&O|amM+%<M31%dqXGzF<|00-quxDNs4Z((~}7%L*7$TVb#GzBS|xP
z&%giO;Qn7#;{~G&sdk@2dw&DEaioQsOD`%CZ1wOJxDNmr6yXIin*@9l48&2A_m8Ok
zb-bE*)bbeHZa7&UP>`xRuMUqT>+zP<+m;<c<~N{MTd&nqIRmHYp%<R|X4hI%&*ERU
z-t&?+po$@BsoEPH#-=S5uJyc%|M6vB&U-hZKhQ0PdcR#tx^`REs(0Tm|GmxBFoTTR
z4Gi!3h_rpLaylL47fD%yh8WIbjUI6AG8W)o0w8uqRStO?s`SI_p;fwzW&m&RKm6_w
zzXVPkCg}X_!)32mJ8zILZ?dW_?`s7oTf6=4JHwFygy{^q9=C-e(<lU7tCNu=pC33K
z5`>=W{UX+X{|g380oOVX5OsE#yiT*>&x587Uy?JHFZXCTxg0*xYLFMUPZE1yh{9VJ
zEZ=@NAfxj8m*TfDgmIcan~+9{=<ViK1r0TFGrb+vTdxWKtb9iECrdb)eQUR}YLE%=
zEmsy7z%Us_zi_u{rux$Pe4aKJh3DrC76&=z0s1QtJOA~-!<?K?gSt}gYQ4JG&i%H5
zrw`yD*ZMmLC%@P^6I&pov7{!eUKv+TT(o5t=sgX(*5}nc&0cO&DgO*~_!Gxxf-z-b
zs&FG<3i_PP&B7{U$_sSmLMlMaOn`6eP}5~%iU$VEQ|U<sjDNwB%xUVJ?duczMC<@H
z&1hoEBT(*1ZIvWCHHT@()60)0M5V*<F!(z#$1gbBDt2b<q#bh~jiD27W<d${>EW9p
z{27cNeL?P6>X>R81|2yN8QFu{+#`f^CDfo$Sb*iNH&TElX177^0D7-eBonBh2z&C$
zgKqPq3B}EbBqpI@g#QY8<i{MK`cM;8jU^dSPCJ*i>A2SHQ=+%Te5zeSl22dL+NlR#
zy6yB*W8C4>bRRhZ&BhZ7o0eO|Ep_Bx%jnz>o69Ug%(mQq>Jgg~)DTWJE<jb@*6F)N
zJ}=(k=!_FJ9Vkj&e}nYOF-VbI0JUjqf4?^$PNhPBpQwu?SUQai6#{MrUs64h6&iuN
z7Y~R;`k?+6>HpqIS#0}4j<(y>6dO50Vlg7B(9Sw?Ap1Zl8_9QNqiA_<HZrpPpubph
z<VWC&lBH*isz6=p3a*ZaZdu>Dx!3riPwOPl(gla#{s)U1H{i|zluWd$TaAJhb2*Zw
z=ZagFDrxzD=1l+NH}sC+O>C{_FJM2r!tp$Y&OH|Mzl5EZ^UECCTPwp<mN)0rq7JW+
zH~ua#Qmga(Pwnr9&C=_YrJg&5PVo72^K0c`ZD-Fyx|b&{n&E>xPL>FigZqR>SxebM
z{fMuGCW*a;!yH%T$6%1Q*F9b9g=y7%{)V4F!O|oV|3<cpeDAuV!&Jv!Jpb8YjuVI`
z-&+hYlQ~D2M1`<Mu(BA=rlO~n(ds_7@buDV;>Vzw3lP4*gUz@GelGK9tnRb5eC@cM
z{Nb<$!Xpu(WyF3x;~lF+c7fUDIjvNTTx<okeEMPMYSHObXr$>?<?uI~6C_qhnx6Dy
zZF@U-3wrW#(P?3vX9w0tRkp)vBh7+v%_+%m_$MGlKLiClQDmA<j|Nc9s$Tb$!Rhh1
z@Af<!ba`L*dw&Jp_lkC2hI8xv%bMdVWbzvS$Pin5AT=QIbbf%sTM_g;SzI29{sn+8
zH@OzsJ?&$vzr7DbIaGqK6}7+8df=%A)t68>aN=C6J3*jpj!A@ofM7=dHEcqZ-#3Uc
zw^deG)tPTBIt?or&QM5jAK@q><}e^tZYG#>a%w*9>H;bgg)xfZRWscOC`31&s|3Zs
zgC_3VVcxKw+NLjjb59-~95G3w$szO?{3sbSL@MXcGmIKLE$Dam0P<KgIE1kMJ(!%t
zMvYkD=FkR@r6u3qE*AMTJ8tOO+1t7{F6b&PGUPk7RM&YI8FV`4f%T~PriDGOQavgJ
zYRm(+`OiLB0lH|}0mLR2YYPh&RqEV}evrn-p&WXgo>Ojn^o?(JN#XypIqfzuG8|gZ
ziF9rN$U5B2$LPRLxsD{<-!7K{Q6)@la-FeLTR%+ydw<LSOn7{pw@q_R;H_1@0Cei>
zt7_9Z6B*AYsS-(IV}?S(efT?K9+SzR@HnMySn|-(zZN+(zIt9%;ONchJ7^g+eC)an
zeh*&vI^Pnex59>2-58$d;-x6e)gs34C0ijPB0`<!<ZhLYK1Cmi2rmLz$?|qxPda^?
zKW#+x5tO(*J3V!)k8YX=2&`mBml5G8iXafipp1lANSmpZF!;neROtTDn!4oxrS#=&
zk5Fib%+OR@)z{itTPF{1NtsLDoANtve}AZKI)<s|<m6l<b0{Oi!%J@&|K{KzWCo8$
ze8c|hWnDDH>)2sqylnlS?~BV?9b`w4&kxbKPIOGzn1qz54Fi5EOmv!hbuTy%qz)u(
zgm6SSqZ$y)$_|L-T0V6A^X~56UnDqld%uAl)hGZ+=$uF&Z?$?AIL(>m;7qYi=0N*O
zJ+<4#f4!!<Pn5GHhOBh!c^t_zhxF#IMN%0V7=(SauxRgjhs_DQA0_TL&$I@x>#aaZ
z_s+nPTGf|Qe7j8EBG*XL<^Y(xCcbA@yD*Hm!0O}3Xv1KTYH*ZxsJ3D77?-=Eu2u;4
zg0&YK3<S|;j|~gy=!Pn3f9w&CqwjhIR{gxVXdm2GpXWW~v%}ud$-L4pMpdNa*7Mdu
zOV>wblgXPK&F*Y&EXp$!xVJin<jwUK1M;GN{z;+t$Kd@{!%GgDU7~f%@98C(tQzc-
z*IJ^lNz!PHv8(@x^HW;XzR#OXmQuo8=)cJI&?K5M?xwdex$)Al+acsDW_4D>PCIoJ
z%LsQJS>XY>FPf@L`$a`3>-L8+_g88LQvcu&Fd7-OQsWM<TR_U0072hxPnURW;^QrP
z;z_e~+M0QSqg=Th9#qQdp&`sQJEOY)mzei{a|K9R6frfFVy|H!wayw#k=-k+s^9}Z
z4r*aF20#j-O8`?pI&D{y4ZH`;L|?C@qucuoz8yANXz`E%KiDzM9iO{AzX%i7&ul8L
zbsQt|3TA>>{NLI(Zi6QUPZn0pR%10pn_$EM7!za103ZX+B#PgM0s(8{1PeNO4-k}5
zF0P?)uNV4Xh0=%D$$KbIWwCej8QCvS@jli43#fb2v}N&I87C?YYXwN^^Qsf|LQhuD
zw=2}1Ny0w(6yH0nb^NW-0kB58zmZrye?EZ~;N*;J`?2Xg_qVa%&dsj%lLNnF%EI4>
zTY^Dh2e}js12V~=H4p?f(bPmsP3;uNBbR76%U#RJBaX?*$Z;;G+}wbR!lHA0IF=Q_
zA$eHeD1OMpUt825x+X8RUuxbDv_$Q!OCCZ61d||?e>U?5blz++^(WdPYddyA!Zlgs
zauM?|y<Sn4kO<KWsgy648}_(JjlT>vw3p3nKBfPg<<;@Hds_NE`JD4iabc_p-ejHn
zg{mB@lu1*xnd$X>=YWcCrZE4@?H***VxZ?Uyxw0w$46<_G?~Jr$90;^Pgq7eUR;I-
zK>>stN1Lnu;l)43HIz|mJWP>*@4$rWrY_%y)t+}D@Aou;!YPA!8gRE1_;~;r^r_+4
zb=igje0rsen;LA+{X@%wDmo^K<R<>WMX}V5x>)hKEZDO#|KO!(<`XZ;XY|pR92{lw
z4FDvV9VvVn?GJk3S1B7-(!a@}jUgr~IJ!3w8?<&lJotz9RN0SJy9#GG?c?FaB7{U^
z2h$4lL42$Ku0{A00IPwLo}6$KGy+wsD2j%m94V0vxq1rW=3$R3%-c1J+kASeSvlSd
zhsfXF{vwQ^x&FG^d^ff^HB01JwfL(C3>c-@V$oe2Rr(BHMdfulOflK&o()(g-+#2O
z-*?lzf=R<;VZcl3;sG3coYKP0n4EUNWTEmm%P-t8HKv2$YrlW%3x6O4=Ytg<c5KFA
zP@o=>#2Jmg6bRyi0h+zlC@skhBwH1u=Hc}D!m<B<0>9Y}a9S7+;GcA-gIg{V!OAzu
zaHJhWx7fq;+)t22wFxHWY`JE-F5E#(=0IW8b-ocX#G*GW3{&MiU9@T*$HqG_XoSk+
zzz9b~s)*iK4iHW>JQsBOy_fn5vGTCoP)_-KV&93a(9}3WyKw1I=2@%-pOAnUJioYn
z_$2f^N|J#Y;@|<LC-P7ABv~*1dklaM06Pn$ib;4+108rUP}3XA#JKZ|zy?p*02%iJ
z6F7-AiP1;$fcvthJ#YG5OD?>xGS^9OhtC4PGk(bIy9=>&?dLXG|HZUmGs<`U?v0{!
z{5utBzdNS6;xdXJOwUn8mBNETCKxeL{^#tj({qJ?^9`y>!#z!Uuh5ijbQkPSWssGG
zjc;`iNrIRC^JKvi<TBHa=gVP7v3mQ&|9-l4wy|~3SEXjIa1eEv>#I$^?aURt+CZeA
zM*+p(-&K?llVsl+xl)RvKLQp-2<bR>!;95vl~xUe62T?4IAhpG&*J@u8f^OZXtA5I
z@1v?21Gt>H))}ph2Vw!Vc8CKiG6h;%nkytUlb~07v~xy+F4D*O3d2P_qT>I2j1nc@
zZ&$MU;H2Xot=P0E6%qwgyN$Ij(hK86n7Q7m=$3hu%DU;MU|O-MjUkC>!)ccUwtG-+
z8?%v#Ga5jb?yP^+4+7X7wC%rWAECWacz0%KN4yxG`HxeFhiN#9!4xA!_!F<58b)`+
zj*ew3F^h!^O0w^dwT<}u{}&5jLSj&6J*@j8=b8wpKfX^2yN#kBYh}!IM6MKtv)Ihs
zO3biwc^TY4d#ZI9n&{N}jT=56+k9+c`~mZYaK@Sc9}A&)t+@0|!t1SJ<UC<-rult~
zh)g}*RixiPGUEa$QqC2b`v-NyT_k9qN&chdsB6SGBJFBUuq31yXZKlq&Y;&>dpLIr
zpJhLq<a>SmU`JMO?qATbq57TG;D4l@%sB9Xv1R(^4;!2Velx~C8YS4^4VgdH?Fz%2
z6>cJSOsnBeHJ{DQi~?i^9xzOAiq-c?C;rMSc$_c9D}{hWz{qSWqQFC<0c40~ErKWD
zVrhkFp{-5AN5JsS>%3>l5S(k}^$SzqJPA=HU@Wu@c#g|;>`ST}LeYFH^SHVyApP1v
zHp+SA_;^R>Ce1spBU(fvnq*w1=@F0?_T|Dw43!QbKZbEpS~vzCEvc%i=%MyEfU&1w
zccrR5VgA(!lqRDh8J;r@VY?K$meoo6)=MxQ<M3m|$s|);P#vOkILH8ZVLiU60P<as
zEguIR4T*L5C$@YY)<0Ilm0;I!ZjZq$Vf2;l`5Q_p_~)I6EiqrE;t$x3X@^;x=o3D>
zm+dKJ<_FF(#-+1ZVKymmh%*!wOjjI(AzTob=A7|HOm!+WpjUJY=Jc-#mIr%Do6N0G
zhx~TCNCBSCdc`Y1m{=k~F9HV8t>~d3gH(W_ry+kk5^J?ly@-!r{63~OI_%S%02dsY
zjMqSUIlR-njo$lifhiJ;C<ZuB9+3z{Y@|%^S)t3%PZ*lzncz$V63vGnU=B;DFqX9L
z`qORryv~dB?+7i1bx>Ysc3vYX?pI4*pAPCY(TitWz6sqqRVc(88<@mNM#ySJux1L!
z&_e{KT1yf)uXlNOl!ylvuc2!tC&TlAJ|f!JZ$5p6)hYjFGylJt_!J!~k8x{eI8kuk
zY;2xM2K?Ef?qfaY=ML>w;HrjQ?2ajr@VptsAw=tx&x3XJk7UGxrHZjdDd1`Dt`9A6
z#HeNOlnZaRZnqsuu5HJnN5X3U_{G_8Z4IR3w(+_1G`<@ORrWQ}E#)BDe$)PO%(L?V
z)Z%#>n_eL-?g&(`V4uRNZnF-XWn$jsX+=m$2dBrF!c8q`w9FdF`6F2vj?x+m#WGEX
zSaWI!cpNtb^8&m^j#EL-<a65LP|Rj1eB9PuWgMnt6eW!S^<#W8gs%w0lo$=POS};%
z-a4AZ!DXf)F9*rt7!K?7m=D0OWpO@F1l7quE%NqHEF};D(z7O?r?odmU}K7UaZ)GC
zSRimnoV3nql4<BIs+XUTIzQj;Wa_g9?d_;7a`RZKx$cI90T>OlS9KxT3|h-qzJLE#
z>iF&VI{H2IJ=?d{83p`pwccA*@SNl1URk_jW;kYD>n>UI6ztH7hpMN=TCTav7#p4F
z_<MRbcDh#M=o3vO=-~MeQ_5oDAyq>i@rRYOL|WG=U(VS=tAUM1BM$vscK8g6rnfG!
zKrf~kps@c{^-XnBCui5mgg1iWiUg1%!dv;{lDNIMU>U@7hGed%dz0%)9Y?3jMqWzE
zoX&DJ;fKi=aVE!AUunMjH4=(etD1c5(u8!@184l%|3?@%QaEo|yYkO*0ig@4&8yr~
zkNlu&AJj!Va*INPc+nMw|EPe<dV#^5LPJbvJVwl=EC|bVL{8bP7gtD$!<?ykbh4e(
z_#z!$jIX5&r-Io`YU2ke7h?>qr}CskILzG_!acrzu4w3_*g`X!NE&}6HTdaWs!&po
z*{W)*L1S62RSWI1|6a~p?j~ESQDi-5@jPD;2Cm5i=_)jA@@mw7!A<}reo@qX9Tofj
z<(9#|MD_W)LrgX0<g>!=agKdJuHc?)wetDeFpqFWeR+Fv#-&2X)b%4@>)vtKSDwG-
z-&i90o88+pt=>4Vwpzbe(tXyywVfTPDQ2osSZue=3%Da8X<X`hvbD1{mgmestQ7kW
z1QHRd!tFG><>c9Z%esm$$ZlbId0jg5sPnGSP?QN}IFOLk`&Q<NxR{x0p_4BaOiuP)
z7PpBIqbsvAy1fi!tU-+t>?nsq<#re{Rxak@QIUtox;7(d`TjN?NKldNweRY4!B~K<
zOkLF(qs!07XV>}rvG8>{r?!EgBw)Fx`Pwe~x@mEpl%FS$Y(<#Iyu|^<^LaB8GP-H_
zTvzuZbov|o1M+kzn)BtOgED_o;8d47(P=Oug2rJutAwkT^PuCS+xnS=-^3{BmlRmB
zc6w2_iA?7h1vySv%_A>wQ`lThL+Z?<wYE_+BvxE}Pg5!HtB4s?Pb3uyct?S1(X(1^
zVFAbm;b*6hBwuJmKn;lRQiQhASS=pEd)GOrs7$ulf$1f8hsB`W<z*|}gB>h)$t#c6
zAOT-!*yyo9vlYE?u8IlpPCntE(A6mqaJbvw6X6jjVdnDXnemu-pt#x(c$z#2dwo%*
zV7p&jqj!Bw<e(>M=-tq{BHQkPI*IYGWYOQY$--Iw%04emo>G&Q<aEH-)7xr*l=x?t
zjU?C^w^l3F)g*dj>Og4=tHoK4ZIG{Us=MxA$Bs{ftH0CZ2qj8R-<flWviAhk3Y0er
z+JKh?fJ0_<O6{FEYwj}qv~XYYQ}|XiZurq7dePofyh7Gyzo~hQ!;*_*gv$6Fd_B@X
zM!v|eBzYSa|35aBCokYv#E`N}Z@fc|eOBI869`ccpYg08&-0iAKJNzV%xZ|TIo5$h
zK4XV?h{pGwK_01YCnl|bpy-;=FwihWc2;z(j#LzAsfysEwlwU5wlN92I1eTHJ!~E+
zy7W{2yP&_@*ohf}fDN*Fg*3vN{|nbMdjfQl)inmQ?RRL;;xA06FI|$&eNk+*ap@x}
z^&8$0M8Ag_yyw~9>&NNIE`%C<Hfn(3UJm6+vd@GZST{o?unq{@zh=2+GrG2^^?v^}
z1SEBR;g^mWfWy}8@%}1=4TD5|4p2CR%itWWlJ3oBj4_7!Be(|j7@H_9Ipa-=2pS)c
zQRYxY&RG6ly)(vfuj#(H@}xneSxZfPn%C%ePXeOn{o=hZl0bxa)b#1^@LvM1<+v*D
zPsVjEA)_w*yt7vKn{EXtBgZ3?!*@CdGroC}I&~F#7E7CLe;fmRQXp+stLN=t8G;3}
z&|%cmmq~*?s3v-QooC(7omIF~eNEfeEwA1wb%wdS`_DenLUaS0nB`X0Elm^n*$1Mk
z103v@ivg8Om9|y;F0G5czEjJWX2UP~6AU1SmWEHDdb_TcvaAwV_rUJ!ye7aS88m~=
zV#-fA-oj&&`=%ym``%1-&9S*(A_5TqRyrN3fz$5iJ4Aaz3;=CUwb9=8`f_G9md0os
zBZifwMO?*gn^AhC!+5sG+g4No>+-BVjocr4-l@;!u<o}=68i`ty1?jzw<>X4X`HqX
z7ASf*Y~y4?KJ?<GLVkSzJ`{cXyc-~&5^p!oi8o%YKNc=aMe$a~uGn1MNIXh~`TO-=
z3=(C-am(82NE)N7TJDd!AsfDMDxyra72YO>q84jjgtDh(hPuW#lzI_A#M65?F?!&5
zV#^nQ8QBHkL0P2RXwFaHo`YEq=FNcfXZ49FtChSszJGLpT|8?qE=7yu|5OGD@Pzd#
z#X5xb<9f?3Jb@+%|3f`?y7SrCM<3wZTtmebho-;=Wm(!`skmVwHDXCnemA&O4a6e6
zi2j~iUQ9}7D?`>bQo^RHblHJJ@x9UeP8BTW*Wla4!Q)Kk|F`0g5&?r%ICGo5^cUD+
z?QZjzpAg7hC<DK~BX5dxZLVy(IsjTWm;}oc>sxtJbMnh)04b3bjw`)giME~%zfJU{
zl^YU))^gfF%_+{V8Zlnc=FR%`BX1;o5jJswEywk_|3GH-@I^g88;9xb2^hO7$A0dR
zp10!5JZK(6?|0dxq5{|QPRgsNF70L}AjcM{yr!qQ%Ajd*oNg8gyX;`t-bdW|EIJqM
z)zi|Vu4h2=eMf7ItyTiZzUkJs=*xn-kt2m56&L+!_guFb*SxUlUrrBCNG03aFG!<a
z=i=Jsn-0IHW&e4HUtL^0@<^X_C!n}@IOH?XHlXCL#%aTXpw+&fp>C7;!b4jiog18%
z*VvZR5T*qAT(54K!&Td`ITzMAP2d__*x9+p$IpLY)25Q{a^=ad;iPo7da#)g;I57{
zZn0<#Xg^@s@75OCicT4JI9;q+&1R?)BSLfjS*Mg9f`YpH!6oeE)?b_#R61`sfM!tN
zDr{k~OB;xw`xvm{6wqR?eSLlPJUde9e0w?-Jco*a_(%GU9$c~Uw@RP;3tp}T75AO-
zeu{ct$IDYHsk4!5g_(+%1RJLDN<Xbz=jU1>QBGD2uu~sk`npU`mgAE?^B&9iJngq4
z&Fe@by<MP9wZN=IA2il$K4h3<>`guH>-YF@E7DKrWOyzjr0K~LS(P>2AjfKG(UT!q
zQOy>#&tmWhwia}K?73#2c07KWa{Z5JK;SQ-_I$r0OC8uZ!oZ%HrN>{H8LWLm3k_~A
zDm_W9$`thSz@`+%sMqZqfPBPNFGGI%vUG+FDiZ4*bm2S`0k@M$48CEKm{y68<L%b_
z<IHzYEUNjJj6N}o+URtAk9<h8h{R#4=`r%y?t)CWUFOAft}Bp7m);e_5kJ9_FZ|l1
ztbI_ms(^)$+b<J(#Gs;!RiXifG%FbHK(cb3y$lX}NKnw~S40D9a^-KRCTeOcb38sf
z503>=DbI#|rKgm00(Bg;V?Nw5yl%tf^8iE?Jz78J&75+Y;4-{COkTSBr0d-ia~rNI
z$ksE7-x!~rox>bwPIY_9C@LyZYu1Tu4z@F_v<}mJnZ7U-G79oq#XzL}+yb|DnqPcP
zBfWzYNgC{GY4zA*&2ghHuM^q4M#c&gi?-GK&Cth~hHNv=Lex97D>*xvQqR+lan}T#
zB5_L^4=4$|0nf0XDP|e0J*F@+2dVxe7i15fgeNK_z{8v6^$zyosqc+(SVbk`v$pb8
z>Xg(=o7_Kz9J};7y4z2zuCAU9MyJS{ot~7UjQO7ThP<M#3btD%7$pI#Gj|TIupzcm
z;lTqYI<F}Fh1_3Bop_Qf&eb+NO%J~_9*#jS!xGjMxHtFhuG_lg3ItsGr=SG_cT=5~
z;C`Kwe7O+Nh9UQAZ*ZLyFbJAtHUrkm20NHz_eoDzNy<@JjSgGTWk~>`65Nlp3j4Qc
zvkhT~WDH5af^iVTWsbq#EGnqi$`a%kICJD1H%(r=*gHIasyJc|kOuoM>gp>gCpR&Q
z<YIlHi^K$HhOQSgA-$PSDyv*0Uq_0=a$yQqp_7VDwd36YS!hoWkCv>m4R$s~9jgDh
zIIRvunnM{TzKFJ#eOOA&Bx7(47`?ptC9@-fb(1c3WGu7CUN4uIGOe_IVzA-vClk$i
zymR3F;TCMi&Rn$zP5M+W8>ZOb5#@T==M6^yb-Ec|741gjTW%%`Bfc(oD&r&(Rw-^T
zaUU$8SXV@Oagc^%k-nQW4ugIonGjB^x9mbPHwWD}&e%?E!o=zc5~Oc3jcF;Q^eF-|
z^_Ba_nJV<3FR+08s-qBmAvRo^5HzcktRKguJ9$hChGQ6$0aylqf$J&{yb6VSzK9+Y
z717~H1!ga^wKGjL*I7M&?-fiNMdVXS9buQgg@lsy`_5*?=F5tx32PlsmYuHS_<GDp
zZFC`;Qt`y-+BB!4HQ1<QNBZ;*h%F|(Z?xE7HRsmN%}#=%tJkOx7EILvx;8Rl1s>6`
zTZ7)=L;<#{i~d)N41vMjX$?cFk#OmwoHb73*muGlymt4(frGV9r&rf(Ru&B-pS5#8
zOTF2Ic->^UA+0P5R6Lb?;1HcE`8~7Un+vkC9xvMOn+O6^KM2@Ox&eRw3`^9_x6Ude
zW$LXgSloKt<_i_I*lYI^_HJ6g|N5B1l@-}eYy4G(=AoeYh4?!IB|r9VbXZ^*g>Jc}
zy$Ftbk7or@bCtZX$n>P>(B1@0-JciQkRg)dA&>}3IjxzCGV|SnN-1pA9}7fQb^i71
zRv5BwbIB}OwJ1s(;roj~>LgwOBjfl>k}z{d5&7HICEiYPop2z^Jdw5%eT+}auuq2j
zCWrO6KgxP<5nQS?Azc;p6kNwP?XGWFM}wZ;c!CdZvrCjYbHP@<`AwCiS2T<C@29K`
zyn{K*_?MNzn#^W1IsWa%qe$NlPmR8gODfV*b0?KtjO6A0n%sT7ii`fo)N&;f)@89~
zcHK34{-16U8R|u&uaMR95VLXn@VJx5tv?dKb&~~19$vCY{Yj2v?9-|YJqH)(s+{4I
zsW3FMBqOz2kGigh;%9QQ`$Tf*bUk=v72`6ai4*g8Rh_q@AJ00bl@vj!+GJ$(KWgaY
zbDndxaKL|zj?`e33in>*Znyd-kZMR7f;3V0LB(X^G6-g5#?re<2`G)BFwc4BOriZ`
z8K&YmD$(4Jvq@Ystm%+eZC{`7C11*bl*&U?d?~CGRIb<U-iXcPd3WDuEj}Q1{~Gcp
zls^87hxXUqt}$1jDT)FomwVe9v7qZ}1jl>&lGd_l7J~_pd%DhT8Ag*+A$7U1`U0+n
z$m3rxogU|`Sy~x=c~_+0T~+R6(cm$(G{N@Z^7lNUSvxzeg|#D*_P99twUAdDSo@=|
z93lQq7OtvAOylMIM>~_l@D4+bzWjW(Ocj1Sb8f30e$+KB6`F+^pk=<fOGNv-V!hgy
zp1G1$F8;#>MmwjBq3s_94Is<E__w$}Q?*li2kq*9E4J>y1D{4$JfK~3Lx$|-?5YgB
zUOnyXoEocY+rOQzeecpl8npY>8h-$B{i?E~C@Y<V!=s^TXj3zePncM>_~^-0Gwu(u
z|96zgX%gm9V_0&1Vq0w{8M$!UZWv6GBVFa5X_`^}sX^7S$+IR`SKaq{nf%EfmQr|x
zM@vYBi_<ZR9W&DV_sQb**Xq%A6=YZJBN*M(s7W5$kP8~}FT`na0xwzEg@UKZh4z4W
zLDAc!;p?PU((l<<NkX?cBWJ+|sx&&LXmpSb-9p0SIT_0yZZV{26teDGKR*c?`vI-B
zii8nD^)_d!qW4cTO@`K^k8n=Yk2peLR}&bd*qK0?*oPQ-XB@`ufT!oCdYFIAEsb|^
zWY7?D8s=@j2tDU+<b0*J#73~1ktX&3Ngue--v-Ej)>8#;Ox_~%Kj8*e<ogK`r<2v%
zM}wT==G-cpf0+LEZF0aF#~?DHl1uk22Rp5*MqRFc%45^1-IhtraPG5Lb)FO#l?I|V
zLzDJZ9G3~vh9J=jS<Q8+hUHe0WBcv2+Vr%m#i&c7D(ZV<<ApallWJF!4m|z{H`_Tv
z#it<6c^B8kb}fWKs|`4<^d~0Ombg>qOR?T!hG0XhyQCAXO~|OPWJdc5KgUAA72i&d
z{lnB`yxI`RQun?t#Zt}+q_Jd-FUop&>2x1%++?CmEiS*Ef8zJl)pQP>uiV!F**8y|
zSm?FNST!jWRJ5+f(ED9&0}0N~TPmXQ2+}<Cd;;>~tgFr%Pq<D`>|5~iw7d?ZRT>J{
zef=U2_KUx*X-ZW)l^Vsf{Dk?lu#(Nm>1kX&m4AlU-06kffxCF#$GYa%IEY_mXYcMj
zZ=0c^XXcQ#Sfo>xSgysyxf-E+h)QA^zWlW`*gmCkmO_0=9pQ^!d5diN5U0iBdhzvX
z>K`7B5mPiUsRLx(K-0KjTNda<1@hdmB_J5eQmkm9V_CBGiPBiI--x(X)Ejrku&nX?
zX(&gg=P#!rRb{QU`h-G|$Nc6^KREyM@S9T|^4mJTgC-0B9s1W!npEi2gGLL(QQdMx
zc!j3hDB`qra{tf)canu5oX-`xjBe@Yu|zU|_@fh*iTbY@{YN5m?`k;+K2&5FyM|uO
z<@w;qOopG{4G+rB1{?}LxHU4-NI%OFh6N^?*8T5C^kqe>R1@g<DwcO!+gnP#uR<HZ
zs>7iY%wl5Xa-VN3Hht$fcyXZ4>y_jBmMR}E^t*)Gy?#UZokw!wD<DrTcJ|#kMDnf$
z6&LL+{-c4{W<l2PFWd!<3ssu=YAv{`clOvjWKp=Iv7<=nTQaX#YHs-eiv}+C(P57-
z^o8KeS`BYbzVQraRz4m5|8BZDKRO5BL&KlloHuNzYj>w?qcmtoee}aXKwU->)00~^
z<`!Bt?B|v+lSA9e5e)iW>Tc2j^`(2Toy{=QqQDO--3A}=s!<o+R29ul2{x2d@uw{1
z!FT2hsoROaOxlu&tSv=fSbhoS)sZ)eurmvE6xJje;VSZ!)PI4W4Nae<Df+9!{@BU6
zmolZVuIFmNUqGYaI2pi<MDQ)#wv#bpM3r8W0k)o0C=^q1?R|pGV-rn&EOcA5qH-~B
zoOUCp?CxQGDa>i7<OkzV1np<_6VF(}Z(WBcX`V~Wc?R5NuB#9vbWV5kUQL9=&c~Av
zDk%82#bK?snBs1EkKY2~sk)|p+$2)4N!ID|YT4;IehZSpam3ad_p1i2o(Gy12>M8@
zNhh34$mUUK)w-SVX|=9^s#YB|tlBr!yVt2<W`*0WGU8Asbk!{46i|skpMc>68Cq+x
zbtm<ncx&p`M8;XhUtHLLenkG^3%aE4SOs;G%|APIqj!Cpr<o4c`L9$ok8=gTgh6YZ
z*tJ(9+Szf&%f=K#Ne{1B3#E2Eb>ku@DXL9*Kp}SL0+hw7;j<0NENp6SR7IqO3^gyU
zP;8ZwObnYdTeWz<dj1HYV?_6|>HlP22&1gSCK?Do-zBn-xt)X2)m?qL|B0kW%F=4u
zU<FiNpgY)HLARnb*=V8vx(GVCV$;E~6|gjqJ|;9Zk>avA#_zSCx%nfuz##K>(jXmG
zLv95VVhU>WSR7)DrZg(VcMCtw6(E<*=XF6!-IMR{Cq?zeYCL*R7I=yyC9(Fl_ZRZC
z@uG_)kz+u2!#?$q_sgzz<0CqaB0__>B&=Q_?0AyJJsukRpvAO}xUJ5fGqk>!2RyyM
z{LS4o`Swup{`h&V!)Gt|q5O1bi~+Q~_Oa6Rqe|hm!w!1&dbba{(+aXGc%CTu2;#7L
zGa9X^^2d5v#(!T_k+d4UWRWz+-)W8xR0r&AIkv)k3RGUhd{h5t>38kbqw3(On3f$h
zF4k-}71(L}Y^n5e27cQ>CFHaH{o*DpAbjofhfsLNf#hj~1`-so3w<~Ae(&LQy0&=(
z0n0Ekr2qHUW`QN%UO)ThWIgoyxz0(kU<2Bmdklg{pfPR;|CMp~Fu$t$tUgf81)6s5
zy%EM;Y?N{^1H3=Vl4=#p81k$yy>YmU(=CImd@x$_d-u7(G#po+HvLg2s&jtrp0R!(
zuZoRH=~x!&k9m>(F}YP|0W7QPPl-n?fg}N%OT(VR&88WFsT+4Dq1LRf=7jC2A6OQ>
z{DM%$@<-KNMVBCboR*f;HT%6voRmxbVA9keSyZlN%~e_&3>11@olVn^$;_d<Muxft
zJnz-yO2lz<LCp$}lE9y{m2xN5x&ZONF{+)nYfH;WhKp2nXux0OPVHQlCdw+zNG)u<
zy_;PfW7)cV4!e?9=t#=6!4CfNb}?66#zWMkzrNiY^SKZelk{T~%@=57xo0Xeo=4?a
zR5@Z?d6`)6K4HvRWM&|-vMgG;g{~%{xhzmpQw~1SrojbWS@h?DHGkf?^3o`Ywjdqm
zsL{To19?f#p>$cbN@W`B)`Ht4em)~8?*rs#g;@wqDnx9=1c+x>0$Ud1$g0d8OdEB<
zC~%RC{d58HKn$x?O+9|5avC$k1ib+<I7>P~3Fc|zWF#owW3!#FOnG9!J|y1>cIJ&z
z|FbU3d@~0dS+MpE-c;b-XXCTSM9jyWXU8NbXO5oTF9~1{YuwJ8mY`QX;SV5jBuSIe
zQ?Jw+e9$iLnbG_CRJDv%;)UwnMM)=eRTopv;@X0iBjyPaj?=p4mdBR(d5`bfqQc!r
zpVnuY)%^0is&!0PnHnQ4$2LvBmk$((^>UBL)GNqi?wg<ORv^))j+Mbj26Ve*c);S#
z`a0&IXaC+e;Mx@M=VSNFnmKiMKPuq|7)UZ<AojQKGk2b4%>=QT4*k!X1Od>vr*Qk!
zVvPX=(g(#fyV2v(1WB{lNnE|0T{E;sc{(W9ZhMXQbNG9bhPs^e1`fLA^}D&Gf%t7*
zehUfrxGSskp9_2~39=`7YbgM&;s=;9qDMqXo$UoZfbVdFUQDJg7rA?MH)G9dUOB@5
zdH<Dz&;;HsK|JaLqfrAUbG{2HELfPc|4(Yu|IPyCen5Bi8vbBEo5k^Lhz<7iU&cZD
zG7`%sto&`7=`eQD^^&*KlF+->6=0TcMQ`krji%aYl`qIS*Uigc4Ac&7!gE;FxOPqV
zlo1ax{wlz*)G=46uK_h5y5UeyL|>HxjUXwHsv!N3zSTu%YGEX|;%Bj9XNX+i-oA6O
zY;Sg<>;VDE=lL>ULiLm(Jt|G7n2arWp#N$yB2@WR?q{%F0xFsv&XJKS6FizJ?jLT<
zoe}QiDkuvHYg2pG=9P|^u*kxJ-4}o(|90uK8=fWTu0Ttf1Q!Z7X6_mXM@jc97f?Ip
zX8AX46HBu41UaMS)V0VS%XvsvJ0lMbFe>V^7ExPR=Ps*&R>lkc`4po2j=(7X$C`9I
z``=FshR;*{zGv=JziwWE1WTEm9P_JJ@o;*b4gH%JhjFeqWC?q0^3{ng`?=Tu)Wt<!
z+eZ5j27&t)GS}Z42Rq7IQ+XfzBE6k_?lk9OdGO_B^>;S!igU~j?#%8!h%zpIH_?J0
z&rbDdZ;LeMeYYe~4IO9G{|{I18P#+YW_u$bMVf-rn;;-vK&gRHq?b@cdQk|WMS2Mx
z>C$UJssbV)9fEX_7Ft462)*|jdcVxPGjr#@Yn>1Ikd>8{oOAyB?6aTWvzUKs=Hy*=
za}QA~c%ag9A`M(BGt7sUvD|dAOrvkcDW;{`t~5`*a<2@oko*3l#>QWntd}n{KsT){
zGZ!+!pM`EU=Pz~%WX~4k@4np(%-=OM@5Rt=GGQ0oN}9MPI@>PCS%~mwxZ3w0#9xiI
zoijK*8=4#QZ>ZL1(r-ZYV8u+mVsAQ>fwo*)IsGGrv+V5h$91xPCnSMoHTbpFG@(-a
zFr@hn)&xM^z8~i#ZOL*oj9!&(&OQJ323IT)eV<BII4yy<Ap<r;+936<3zApZiM^-d
z7~B2Z95JE=QwYoDE=V#q_hvPI5_EU&JKMjv(#Pz(ooT+jFq<2=mb+8Ml~a3)c<<Xg
z-P$SYWa=>g`$z_AB*SLTLeoaj!c^h^H#!>y47eRQ9cp4efHuwF_D}D;src=oHGuJq
zb~t9D0Dh=%J-C#x!zlc}lFBWJ=A8`9Hfa;GD$iNY1R`yx&KK-+4K^11OC|X-+oBG(
zrXkTxtgE!gecZ|SXy!V|-b<h#>-We=qbGPE0uTPj&k}W6Kq?-Mc5xhiUA9h8h!>>a
z@5>AR@nbbgpZVQkdFfDG4jcv);fywi9y$Ijt<vL)BMwbeOic@^S`_lsD{+j{oJxq*
zso3Hcgcm6rZD<h{bm|(s%9I5Jyi9*Lr)spax$*rGw3u(vh&7>qLjRq^P_fG}#f$Q{
zq5e#|B0c&j>FN^xRd5y|%|DL)7y3OYpPRXzu)AUN8xzVPZP_pct`%1B-D)b$3XdQD
z#v`2P<_-^YeQw-b8&u7GoGBZt%1Ywz)+yyp@QBvOzhF7X@dVWvhyIFeK+A=vr0YL=
zX$7xlZ;S|v>sIiO`9o}W8R}W81aG#PyX%cTpwavly9qme#G`|u*;~?9T)vG^?~UL7
zXsJ)tsimD~B&hKIffatn1cKWV$@=$COU0=lXveocZqA-#o|33HlPO`&?xNw83One9
z<zo-&lM_fTO$-G$!?2Xo@AzVWuPX*ce4Rj%97<IJt`$W`0qhhr*}k4kup^dmiBE}~
zKvpI_0urg5i^RiwipA(3msCV4<tfs*%skB&$FuGBHn-+}<Kx}2Xg$`yYL5t<2yS53
zWc@Ywaf-=nZh4inixH;@K6lD?l}&N?g^9-URHW_vdDB^NHUc`JgmybQEju+~Iad^_
z?7uxcvcUd6W<epYt|34u7szuubN(Xa6moaAzhl*QD6_pO4b8nCYpX@ycC++_d3I)1
z#{*girZ49MuL*ah_r0TM1A6Os)&nlYb{xEBxL-N8BnNiHPGAV<&c;qJ1OtqMrnq))
zBbcdwdssEvw*g&uLQ!YQ5{N$m4{V1t$t2q2#PK($91xhfn+V2Qt7x7y?>6ia(4Jz~
zZ${>nFwiFO`0#8Reck1|YY?zZv4hukOodDA;JD7-wDS&ar!rY|i)CRv_q)407xHzS
zNIo5zzpKURu}J&7l-J%Du>-Gt1FzYV!A5~F{9+am1zdVBphx>{Z{XE~d*2m%PBZIQ
zHl}uG)b=SgB!JEqzNY4x`+r4N4hv)ZrF92?)w*}M*$S;-%W(JSifY%r`0N5rl};tQ
z^$2b9KqaA7{!AK3_8PDH*RC4J7wM*}I0tr*Kn#mT#VvH07(89I5slo{_AKyiT7ROv
z>Zf>{)(;$6C*hxec{cJ4QNNL82o@?_z5Gel+A`s`@DsP&*rDsV@{Qn_j*78h|HB^r
z0n<muV4TmF8~+}Nm$>)7elsp>V%=9dT^Xnnf$}wzbs8_lpZ`o@E5g%=#eVr~milW5
ze@gb7F0%<lz1D`iqOnIYSoGmA>l~HuX`bs-4|)hX8}&fz?X2NBZ1>ve^~;(N%dP10
z#hGDC)z@w5dZZ(BqBt_$PyAb<`Z}_LMT5DYWr6a;`XTF9i%+_0ZrP|dKY#H`c^_0d
z{jntW3w_#A;$lFJR4c+_`Xd)~JGJl<`6Q~x&A#N`FPz$qQs#0*FZ+A0Ec}$dJ%3`-
z@TpAm(XbUjeW2*!Ms{t$E@~Qa@~AsZ&SoZ}SE(6lo;ZbTOJce6=LZS!b@210C$vSX
zNOF@(u7W_ff515(-V;3iFcVu`X7)pI5YN%kv(ghY<xEhvB)BL{=UpV~-w?w%ff4*8
zj~d~#bJR+fUn`J;<^5ID%A&X(SKQaN+n=k9a6)%M;{z^G4eMgV$<Hdwtm_DAAccW{
z8ejy>_p#G75eB6^cgbTEF&;W0TDu2Ep54ad;{OYO7YVfNIr}z1UfWq6Gt3uVHS2qN
zd2<zbvmEZhkmh+GnKA*VPSjP8eVmH6aIb0E_MO|AHtajX!kdv94X)j;S0=%Z_=rhL
z^P4X;QkLr!inq;sZv@YX@x8sGW$R`^;hs<XzD9q6f~R?dPoH@1&Sm26;vzk6>djW|
zihO)-zTSpBUJU(wOQp1mL6j^!O!dZ5Zf~TWyOEyXY@e%d+Y-Hk2i`R@NxBZE)rGlT
zet~xSpO4I*%49<)$^|Rovz|3LBh%3RRt2rSue|k>1i?<BsAs!N({fFVjl8=p`vEmQ
z)@_I@`zN{^o4ankRJRG&9ivY3!JV5wcVzyzFXf%%%-WjwqiLXtOpE(Jj49i^m~Oa*
zC-?b)=%WZ+!J)$p_<EHP>`RKgo&X0|PjWoAtC!}}QuTip8x;0ExbI?-Gqlco1k{OI
z7fZuil$|c%gFiCF`t?^3wRycUoo0U^HC);|^3~&E6SqObqimfY#`s-2O0p3qA2!S1
zA@s1;LV7%x_R;lnvP7&bf1kYL`2~DjK#u5^cq~hhx=1;qSgjrDGg%IMF86}*l{gE%
zy)t(;(1Dc#swrH;67=nPmjjko@R%3grMXdy$8fL&z_n`BCQ5i&+`qg`K$JYrt4+?D
z_Nsm>VM5Mq*r?~-`}EF`v48VYU@~DO45JR8J`oc$vH&&2YU*!B{&H>FE8#y~4;21D
zczQam%>tp`YSJ(%wd?$4eGp8zS0x4hbu@N&1F3VX)KXG}TuT)hHDPhqY^<ReL1*Wi
zaF6P(?Ha1yIFtLx{ez(RCh*K(19R|wHEa#f=IP1F31azM#L8}SXPMM}l&0CjFwCRO
z)Xv}k#<Ouh#-zGpzOtjE;O-jjG}TANRhUaL<zRk9Z&GI;>oIWfv#d;$InrTgvdRkg
z_JDH6Cih~{0z+}TaJDU_>s%+>`he*T!Vx1ZWG_&Z1%q$0cuSNWy<+Ivc0CLWT4sn-
z?6fQ{u@`7w3p)7oJ$+f%_+P_%3%mbduW3ocNAzrF;1zav&YMvO2k<0d`3AT@ZPocv
z+@Z8da`s8ry3A4AtVCxE#ZF~gLP+HOftYQ(@ywSF6&oFVwCT+FL;*l0C_`f|!7CUp
zGfVT?T*g~S!L=J3_jsF$iSA^b7On7#|DQ)Nlzt^jFy%P4GGLcSiW|O?r3eqe`0KuR
z%G(rr7lgz0P5112tJx5T7QZ3>!Bghi92{0!yg5r^3Lv8Q_8{;swPhuZp{~A-pA+5m
zC$r|z%lsQ3+y9=>zxgEEuSnm!hEcm#)f7Byo#}Z!$31g@7uz<niNCMibx%GKpD*WG
zNzRbJ+?hKUc((bhHBgTIKQU>hl8grp*?B;h94oUfY9y>CReYRd$Z9@mYZk{e+ENpD
z*An)E6k`0e-JWq}gsf6MgXq5SpWuY4atM7&Wh)j<Vq9Tjhg&Fq$Cu}_;x4cD*QdZY
zjS^U-<&bJ}+c2x8qHjYX*GsbcapuC*PHCJ5UFf&4uB+C*dHx(YxCjfz8DsmpX~Y(2
zyFNDduic7ALGqY__w}16>IkFkZX|O36_8#okH7D?cV}gIirnAhf)^he{~6PN{iOrx
z&VP8fKEX0lWi)o0b2jsFm!IQ3zj__UMWQJEm%F;AyIFHG-qftu{w%_0$iC?+rwMvr
z|Al+_M@RP_k6A~^>^F?Ca0!z>9wzr)W|+?dOws-H%z2FT+!&UFcksX@0=9~ae%06a
zmbY%vH|^hEy|Zbmt3^yDgJkUPxq^Ra!n08Kkh^QbR{?oG8B+}bH$DsuEcN7c+$S<F
zQ$7!AWiBW0vu`>M`RrB*xu%;uvcUg9`R%d+K3tvd*2ysi>+6{m?GM{EmEClIKlXdn
zETuu%9{1+08O6e^#^<_0_{kB>K&9<STPD5{5COYMt?<{A2RfWd{~pT*G+%Sni?jYM
zfPM>=YW1l2)jVf&Hggx*{4=0C;3}le7PJ%4UtiLCwd;haZ$7N^JZqtt`aQh!Y+!m8
zcYo~etOmFF{dDpb`6SovhTdsr+bIdc<>o7g%jQ_%h0(~S^FV8_2V$<NZM~_P5yeMT
zyLeLJUpU_jG_Yv+>vXrCd(Cond*&DKzZh+CxXw_~Bxz$bnyN^Pvv-^k;I$TXX83DX
z=AyW*isd5M>o<6sX})p3<xjx=^n7~$#ovl~=={~G*v3u^p8Nu#<L=kg)|Uw%WT%Z7
z7>@EdTo}ZDRo$H{y{x%g(8>6B`UP0JiyWbPfhGwG&FpGBL(=thbUx6?hO0iwI-1}k
zWHb7Ic$hi!j6^}R*ZgIPyd$3lZXDb-mRlZg1F&z~1wK0$xS%gQca#?BWaD<_LW}#f
zKdG6dS2ixs^5{$hq<JQWiKx9_W?Vc*3?+!(y^(quS-q7&iN8y$%{H5vRjy@Gi}87T
ztL=480^I_aK7F2zlD2zkXg9Sf`P1tgi}HP=VArY~Sq7)C!Jw+4oV{J+P{h>3o5?--
zsTiu|h3oh6o6&4pX9sxO;ffckn2*;23-|3-`n_BNs1eaVB)vRq-|p52K=8x@i(|Ss
zf(YWvVI`U9SoX~r#hl!wc%mTww;m&7-D9j{-zrkry=RGmiz3Abb0Lx5xhFf-Ol&uT
zP`0-h8uk3+tSX%_%3h4}$bdIfiQW7Dy|E6E{UhpEgPE@&n^bwyufE2l`l(xF@P)d{
znQ>A`=RT|8wwNqJ!i%|2{Qcfj>*7d0wOr;k;poiJV-rw*B3U|^{93en?(5%(=9p#D
zb@)Xyan{FL;*wF=nic=lpxKi%PoW&W2A3bRDN(C^g`g(^qwLmpau*sZ_?REF7al4v
z6dqg9LQvq+$1m|&7&p|<3nRP1^V1J26Ngb^({>leY(_3Q!%rRxScg2U9a{G-VT2J0
zOh2@Gru#1Llsk4e^H*-zbHS?*L+?+u!*8|ULrW4AJ<Hp;abqHKrHgbt%{Ln4m3dN9
z>@rKT5>ryP%rkI;qzq~&Z*P>{YjM|E9@UmU<$S*VtIwsc&H96%Uw`jLdoUitYhR|c
z*uL^AewIriSE+BO;ICNi@384_A@@yKT1Hw=>!xFyd%-83+hz4r<z`K<MaK{}yOQ;T
z42+BiwW|XLKlikZrs}4vmV5t(-;g5?nTT=3^ZdSDe<ECd?^*V=;)h4Tt!i*U5p+8Z
zdRh#;(DUt;ng@60cTS~xjmF0W6)DFvdCXNjz7h0Wv~V2zF?4#ru`qq+7B!ozA9R2x
zv)10WD8@e%lPHGvB}rtd4iY2DToaR4Us?$0U3MOQ3_fP7aj#;7zc=0i#IX`hd*sZX
zwXE-+D(w3g1&%D#op=Rq8|>Bxp50e$-<^lAU-YqD$V}IM$oBQ`mUuXAMeLY*Gc0%)
zGk>?(D`UHVwV=G)dv6q9UqGD#T3WWi^^MAg@hUe_P!+|#i$BoQOqMGJFWQdNNtTO_
z{gV}V%ems|MBp9ls*4NApFEZ(5u$7oxL+SQ6tL}eiwrm~3K+>YyB<Z~hN5zsgzNdm
z%z8hbnXEis;)d#*&DQ;?Y1xMaB4zGx2?AEy0^84iPi(&Wdv|Je*WJ;qQe*=8d($3&
z_r>JMfBr1M0Oh-_Z{S#+dl^PCP3Te1^ql$oIs5#bXZFomv1!Ix>s8Y)?keh-*JB2#
zpLi=*cL7@lWtwZP5(6^C&X;fp#AvIcxqZ$5WbOYWDFO(T2>M8k%FC?q?nrg3s*E;`
z*=H~u`xb*$_q=?VMdOeIdjiQMks>@-WCF#9rYlK8OB3}UN>O~2z$S!KzT;N(vR5OV
zcJm~ARC`+$MgUIYt;Jlv%>&$U$ifj-n&}EZqvDT?a|7~&G*Luh+N`KIW@d~9?<B!v
zwS80<M*8}Rr31t-0zaC$+2$)90gK@Q`UYX1-HmwA4MOL?skBom_~fDy%0ZOJ8J>FK
z6wMC`BCmgy>ooRop3+d(PM19|WCVfYc{wXC5~#1b4P&C`@%yP%^3Bgx+j?63RJcGt
z#gH9c$D#GabaGWi^9RWyUlOQn6&n*hQ_z#^3C!(eqqMv%y#?qLc8XfIHVK6%uuvAE
zSvlrIs`gmFP)2l;XQ$q}fiZc4(1={?J+*#!6%UxuVYkAYh|VZ5tBl?%4ryKKQCkN{
zvX5eUr()jhqUtoQ()T82WX1%y;JT%ai;$GvNeG8eCXUGDGyFiJ+6jgq*n=eRp3hZZ
zPB;qOHiHrEuTMB)lnr@pMXs}S7(N;cm;pXpARl}5cqWoNqic@zu-s3FHgWfcMF63~
zMGx+*nyjX|2?du8hk>eK-L~d&$%<va38Sy}R<zvUF->C`BL(>&r9Xm)OkB^7ji|UM
zEW{%QL8WCKA3kj8?a-{+Ii!HzM80$~7^Ir+X}-7VLAG)Uf}<m=l>od@uz-}peU0BS
zX8ZJeunc|{ms*G*$|*J0qelol7sjIZ2XNd|%;&0U4)-tPsOeYE5Rdx?3eH6q#Xs3q
zYJZmSU@DBU>y1%Hv&EbMJcL^U{`2Je=uZ1f>_lzI?r@e!krh>FQ5sV72)Xf#Z+HbD
zJ3HG9O@?Ax`<aqb(%>6@5`E;5d>)o&p1;z5muROsJEwpn6KLmDtmj1i-e`skq5r2h
zVs8d?osfs5Tb2S7<M^*!dgGYxk@&^zl|4H_K>$R1j=0O83Dq@1)}3-Q5Yf5A)12WY
z92PA;3v4y~(e>5WIxoHn7fV7j0@`^=qrozhrVavd!PvyS(>+fG4xSHLQV5Ch{0g0)
zD;nQ7^1a|S-`w7)1~dKp*ElHG{l?)R3Ni*}%I_G;u<ZY%Wu;*GW}yjhTa~P~w;L$q
z6++bWGM86wkAw<qH0rg&KT;9Zr=iAW7I21#7qa&OaWJ9CDI=ddcT4XJ{LWwE2U`i?
zh$JR4l{ngC+P`tRIv@;?YoCptb*)H06QOSW<5{3ePTF71U&kbtjYzp_+Q0wvsn2LF
z%_L(sAG&KmW){=gnC7nX_mioj&Ms)4Pa7>SQ6E*dS9!G<2HAK#p+IzFDaH75{`D0r
zRt<A;Q3LO8<1t);>jpQ`d4@TB0{@So21vAbU|yP(`)!&<;US{K@&-B8KFARmw7wH9
zO5ogFd?@kYZ^89p0AV&QI@RX^+skNS1<7D<T-fMlvtak@WBC+={_o;XA{DMUDFlz3
zK@V`dYQmSV-WM$1=w=_zCSIQBtw<~sy|(53XK`r-GhZpv7wrFZ9HTxYBuiuYd<bpG
z1^XSZ=2<{DMOyhRNXS-PTsGhVz9H3H`V>u;4*BH;#XKe){BzYj;Gvq?0q<}cC36xW
zyLMRMJc@DUg7!jw8aIKc?Stow$5_-VL?grxXGbO8N-<Zv{3nh12cx8QuI0y5dwJ$b
z1VF1m`B_!iNbI%sug@n>Pk30l?7b2|-jqQfSs;IhJY;|hvjwnRs>j0rn1Yq2a@UK3
zvOdcOUWnU%YaD%GE@I;?p&0(rcNDvDJ#IKb)a;tasTlIwwyWwh%RvnG+w2%Q&s)ro
zz2Vyg3QOvM9v3cY>^*?=I72Ka2Wjz(y_OfJAdyQb*5x5zX#(63A`_SlBmNmeh$h<V
zsSfiG4@mK!Qfxhc&fl-Cf(IZ`lUhdl35s&%JL=`U5hPe5M!s>Sv|FD_IcCykmdNe}
z!3EcRD<8%9lOK0B7ijfR-~fO0wz|bGyx$Rle!0)Tgke=BtrY2(X@fAY=J9S`ouxDf
z`GvbrrI-Wl+#G3c2xn{nN7tm)R7b;tYmO_bF%jg@!T4t<VQ=K0`UMDUS>hrMV~^j-
z3SYjBY^H&XGvjz3qL1@qh8yi*cysk$Gq)RF%=IISJk!6yVJ$ba(Dz1WHfM9bhI0`P
zW&7@h((dTzbUhkVrRMYY_i7&Qj6;?Z)HYVsqz}p{vvsP{lSDnz&h`wUItU?D{`8>#
z!*hd*qrD#Rji=J3YbGkuDpp>pzbi8*hZ&w9{(}?hz%&xCwfw$FWa9CO%jT_>RsO&6
zDK<-&@%vT{P>r0V3?lKbJJSBfld?6rUK96-@q<sYIZ2?G7Mbl$*`lEybNuzj(WAD6
z(7Qp4K&7TV(W%V2W6lxc<@G`1mH2o<`2$mOjt_o6UIVwS6F1xI(g8v;-0kms^Q(Rj
zZnDi2XC;@4;4m#%y_L7rN_Cia&ytd$__OrnsHvH+`7Qy~?5$-o)vYDC`c;NOAe+U;
z;N9TtCEeJQl_RoO;sW$xuc`5NkiO4@m{u*k$LcW#Z2@o%Gv8WGg9ruA2hL@*?LC5z
z_*A+_Up79rRGyLttMF1&<L)4@Smu8Z%$>~6-z!-|%>QrkHcJG#>i_&*=*uV<MTA>8
zru|3-#QRAo`;0L~wEoM;)#D4IF6C8JstmVgqUgRu*P&JfTeK_a%Gp+KLFTqnUFK=O
zA$6l4(VRdb9;KyOl5a7W1gxV7aG{O=(f8xUBqYUl3qQ*RI#`T1`4C(uT6o>-(|6zG
zrOTP+(FoT@{;#A6&+bdgYGS8xfg5!^lF6@cFUbice^PrBlWp<BJ^DfsBoCwMf0@g7
z7aV<SJ4il9qSGUISqO(J+0<~MKln$}seE`ck27T2Qw#(1Se|<KKS6d%Ut9An878Lf
zC7axJQ2ixqp~b~{Dyz|6d@TCXsi|74LI1g|M(Zq3V!pzxVW(oz%i$m7Qx9#0*ky6r
zgC1W#ZRf@BmLp*)&CAt>>@Wa6m@v80|BCs(s!Z#)R7^wn<@!YJxOaMQA|vZsQ6?$E
zy(f|P<~xd#dn-{)$CDkYK!>|~RvkcAyG-j$=8+&sfz%P0;F{H&+tyqOx<Y!*Hj-)<
zL&upeRG9Z#hDrznl*}p75w9{FL*lD78)%Uf&PwxGtZF8n_$sy#5M=*h2X~Tsj2j&R
zgYQusa}OA@hln%h%^8ZpRFwx4(eA$7QroOn3#Ap$tOv!Ww+qbq{H-Ei%QJn*?sz1C
z$aMHMf8VhfXqC%OhQ+aep8H8|U0r*D-7eG?mLb4!nU?hMguh?4)$G82&o6#ASm5lJ
zo@vJZ0Y7ejL8oA@!IqetD1s~Pq)InO{C!vN!gAN|?Lbpss>4VltU<7&DDMV-5nX?m
zkpHq_e!ow7v(53H(>?&_1#bz$-^NRH-OLrG^929Fv&YXKkAogO1ZsbdRMEvh7P(=g
zeXP^Yr_&uoOO*8R0Wpu!XWS$=8@ISSSjnZk!P)U3N?>5`c+jLt`fTn|5einaw`)>V
zx>uKxOnpAU#We+6uWveXZEiW(5fKF^N#S0Vt<}6-pF&pYK{q0+On;2pH+SGgoKwy{
z7qvf*v}PDcAS88$Y{~9dd}0?_b3Q-#9F+)VPZn|S`Y9y(@z`+RprP%^YAD8T>^io*
zwD2gWzIkaTgz)*DY)W8c`m*FfR+Ev85wQs@pWEZtf?!$D`fnH5cilj*E&lZjXHIP7
zuLlAA7SI!YGidJNdTSyvm3bYs9`g?|i5)V}*+-fhkiFZV3sDaQQaFzeWlK#10pzT0
zKfgHiF{0*)jx*GLo=h8?7NnY>q7R;}wxUn|T=`jK*ctrsZaHmu`6@YvM9Je~eOo_c
z<x3Dz<o`Eh1=-p)q;jm@0Ub(hEJ;yn5cL9AH-=52mocvqGsnUTp>kwmT|z&f^TRo^
z;hwADPhE#m$FAXKUw&Q73B;8eD)o_h`5UdQbL0qhmh+(lnBV=&B0)wbtX>6;5xVb)
zu!7Z9tTf@8uw!!nJ}SwDbDrEoML#6+WKGU}MOk2zo2)2IgoNv{9Y$u$J=2W3CSRUq
z^iRO(qN>ST$yMTUMMh}Qj&L^i!1|S%l!!M!<V0wxyRVZ~hLLJRT~_OM!Lg70$7ne+
z<l0i65jOhoZqTdY9$q+`Bk0J+#JMr3QD-@b1IXeW*8~!;%T7Mi5LZ$<o>x&8l}w<n
zS&-kaB#R&x@guklk{Nxej07K1t|VmZVdpn;k(_y;xx=<kk~Q15f|roL0!ci(Dc)D@
zDSf0HjFO4u6if1=uBu$*C0R80pQ^$&Ty7nC8}&<=m3_dIvz!K|us<9PJ>WCaO*^;c
z9n?g<rlG81E{12Q70&4dB9(0ptbv!f;185H@z(`m<cmbTRr2&K^8a|xD!Q5si{CPj
z+C`^-h#2g_UPz`eK~@M!m--k);gWhz`c6)zw$Zv4SZ&bYUcR4NMXk=8*()L{2^IDf
z;mU|xRg;IyzjAZMHYJm;AmRq<P2U4`ot)R2A4wd%4bTXW0_XsD2kWG5dK0x~$2(+1
z$54z^Akz&H=5;4(n$4YlE7|BgM^=VqDY?6Er2nMPNW#ZlO}H~xQ;fmjhyH)F06eC&
zuO?;%r#Wb3Y(*e3huf)A<IS4hbF34xf(uT@{(lkJ`u@GT{mfaH^>`d-LSx@di?Q`O
z-vG<Ye9F;ibyt%W=H&5Tw^7RPQpwe~zKPEZg$fT*B;9t6O^p3J>X4EMo4I(}p}F&V
zg`=aPqM^XvY<$pB)`r!St9^vTi_3umi8ook!xjseOrd|ZNg8<R5NcgsG`4T4PmmRu
z1#-#pW?v0h%Q&A4b7~}Le4O>y-{yxI@#e|YI=**V&5F6;><a_@x3d2=d?bTWjGi;i
z!slNe*x3<=1gki$Ra&+8DtxzkrDjB6h2PI6M)0XC6|a@{xC%@_d~wkgD|*NXKk1RB
zFd{v$YNzv{1m*FCXl})0WDZHBHoM@W%Je2%gVotl=&plBI>nM;_bq;=Fz`*mQIwAY
zq|)16&1#sj#-_je$iG$%lfdNjB!XU?X;_M2gEUAliKN#?W`nvqAJDHCcf8O?D!xUY
zDMDrQ>Ow=bqO?|O8fRjsk|g`cl3VIclA{;-YXWyPDt)IiT9V!3Uz3$o^4^Q&xeaPS
zR8hQjw*BS@n#~VXm#8B-KwR0d1VUAC|4O_eX~<k)^d2$%xmX|eA76gcaiBF<&rOp2
zS<jV_RbuV1gwdMjmjLmdNHkP&zHc?rZ0c!smGqG{HKaFH9V(N+A$|FHH9_$%Uw_Q<
zuZObJmfC=bY6(78iG{tSm10%q-%lEUa4;zTyXi*uwni#vUx!F`O}ArT0>}vaih)PI
zmN4YtweL9WN2A&PZ><Ee0hE6;U2*}uM&LwXnr*Axf;ilY(|Q6<maTVpyiIz-F6GFX
z?T_0mF|Xcoc~mJ%@utWadTO4Q*ieKhIR<TgFZ)dF!8RdQOi_p!jLpI(XyHW+eG@r(
zKV32kRBur&;@f?D$M_x)Az;0795+ul!nqL}0!9uGzOXq!r3*<91+DnSU_!=~+iD-~
z)w)~X-1uehdmHjddYS^KeKMalgKDR<>w!+o7TK1`Tw1PN%i4ht6q|a_YEs`bL40@W
zGA`JcvLI{0a{~7j2!8nI@1{7ur>&&XoEChQIBfX*ek#AoBPFh5JkY)f<fV8#<tGm6
zZ1|Gc5GInh(KZwVVr&7vx=K9CS{=F$>I=w9cAa{|UL^kH@q_;!!OU_&3==CsTV0r>
zF^7S2wL+@}>Ja(S$mj>Wf>}th9+(8X7}~{+3C{-Wwrm=^PUF_bz?Jhm{ekX3b%10I
zH0#?_$%Js$G~^osceUzFaR4%t05fi;DoAL)kqVdp$4F9m%{N^FX6N4yF*C2fBPlX2
zs3FT#&q>s}7;YL_OBhNETxFH&kJw4#a;cL;NHI49suj#9nZS#5KFU{BWG$Z!#_6UP
zR58_BqY`^xASuukO^Ge7#%Df?*^c>qTC7+sw?crbVv8RCD3!YRC0AOR68&_^P%0*_
zLkPR@iah5DjY)sFUNFS3;qtF1D`;cZ)-5Ie*fu&6GEE2C`B|r57N`UOWA?v5)Q$i{
zmt3nyF^c=_sYl`09S<>^HAFX58Bf%5kR82LyTk)e;nspv7g`OqujlKd|A-uaLBt@w
zU`h*=Sr)T)G(=CturJ7`D=}WBfaKU`O&Cz_X9(Yu7Xcrj`q;M<)n!{SPd}HplVNis
z1V~m^uD`oi3cP||tQ1by-HZ3A-Zk=mw8~p8@dtW2*2x313DeSfvn+KB6BiHgre<8k
z{vqakYTI`3l{sA8ALL3)WMXV@k3t0Vv){PI!4DyPKGJrlnFGk+BN>!Ggki*EI<BfN
zeahS{QGB6ssS!?Iuc8KBBg~n3UHMd|-bCgO%Te;Pf-jxQ;m1?Tqk`HVR~@@Jkg_TW
zNNyAsQ`ls(p=LGl@c4)*=3|i|fyu6u^`W)7@ls&)C?nP68cVylT1`C0XFg+B1OYR9
zG_al6`$kPm>LvGoNrC?q1jpjIq_=e99&bA1=%fnsxnlB6YcPNr91-os4`^gOBvMfV
zF(a;*LlI&YS1PuggCgayrm&7OS-$x_VB`4+oa_jq=*6inma^{6OA=qHiEWgs&uE0T
z`!gpf8CmO5XQp%Lh9{Vn)~^j)weRhHFEO_}?OX8aHQeY9SsTFU{FU^(4t7lM3Ry}X
zN<CCdL2KBfeUI#^+6u$~BTbYMI{`B4=x1)2hoJZhgd+XZhoGrZCJjXx_8}TI^#wwy
ze{x#gpk-fCr|&`V5*q9GdEbfxo3T4NNs+!7vHW~M!12eg0ZZbiS~bC&VK{I95$41b
z)|20i4G8;kqhdR{V=5C8Y@`~^`)uMhL>0deyyZ&&f%wC`!}iYFiYm9HCLG`gV9l(R
z%t?JcRT9VbP^A>v%bd=Uqr(LQ48Jcpq<j6_(_GO+PZSelo|=)S`l;~K&U5J#^mi0r
z^PlN~v~~R~_y<7`t{k#Pj+RP^O9-X$MY3bbF}k0E<eP}Z9~(xe;=nYpKhQA_q1N~J
zGT%weju#y{mm+8(toMZi17=Y}<7@cwOnhB1qCUQHM_qW7PrZLQ)`(c5H?#|>l)5B3
zf%_A2Q9s`#LmRTiwCG=ut^0;4X2CIQkM=jNItIYb<{X@bJMVY{D<wo?x1VB(jvq39
z3iW2hh0*{I4ghkuReb;Wog*|nn@^75RHR2VAl4o$fd7x&+}rmqz`H81VeL8kfl>D~
zKL{ahO%?UR$YDlqiYmgF@e-`3%kl0V8Mg#eSk>PbK(CK1FlNAK=-Xwn{<t1BOjfZj
zQMRem-8-H$*VH5d!U(2$uRfS6b3LBTc*b^F-{8j<_d@T&&&@8(0K$Zz5FVqiE3nWS
zOB=d*=~||NjIo%y1U+u}Bd;?GFinxEen4SGW1PMj?`37jgRfUjEU5$$c!J$9RZzI#
z^VB}6PZhwD&MU^#Kbe6m%k({tNax8!ra9LsIeEGN``~|@r~G8WCJiKkB!4(I1m$SS
z=oBFE)MU~S2xYL6mq^!qk_v3_yAR!x?j31*C{{Sf=zm(_R`a3XxoofEX?o6tndua%
z3A+{=*2Me3!nk-)O76~knV=*=@ZK?EAq%UW7TcJ4s8*d#1C~OTlTy>FgzY3ScoZ~p
zn+$rspzxp^{YC5b^|b>D0U)J_-wFZZd3QlYj%q}dydud=S|;f=RFGYt0i}}}4gM}p
z;fk%+=OlwBPCaVzQ_?a!@Y{$n^B^Do?&tH~fTlVlIN9-2%I-68P8~;&hsTxNQpQwC
z{?MzaQ``O;T_+|GoNhN2Hb(IX^Q`H6_QI&Crvbo${O6~`U*kr92aNud)*wozOtE~&
zJv#4BLHqyy;()9tFs7<ukUdDZI@gyGndYBOi4dN>^>))hx(DlE5zIG{>Bd{5VutLb
zo&TsfYe>UKhr1yvGdxSSbIpJ2<)lhtx?ritJh1oJ&^i6g5HPsuRZa@Xzs==GCETgM
zhK+`hP^-T2s3j@f-X(U6wJE8H8=bJb+WD>b&10>NzPc7qt<}Pn<HC&FKLql3wL6%r
zcwmiS(=lK)Tf-b69WRi2LN~qFd3Y-}e01TqHPihk^@)GFj#yx8QS$t9H6BvYd3+7s
ztPa<{Tb>ZEuiQZdn1-fQh{w(LcvlcbunpAB);`@(w_a9cllTKY`+83ET%ymfK~M;K
z``%Q3O4&uQSJ%=emfyJo?6ZO+LZ#=DWnietF(`c8@-+AMg~YWgxl{`4)Df(BWpX7Q
zv7lMf$KLPqQAg+NpJ@7|n5na|@6@0R-o_vGjo*36c0|YK{B$8m9Dr0t4bzK4f5Bv|
zi+1dQRAmojo9y#NA1p%etBjb{<=|GG7z(_Cv?Ek`_}>rzdleAOtiU?-lbi4$%x0!N
z3DsU6;?{lyR@Ugn*hDUHiVxUSX0i-|0K&_ivb<T;T~A&rtArS_Xup<hRbh8xPN*LL
zwd~f64H8CUi6T^x;LK45CJLfc?bO&Ip{4@LT${)OIpLbfEy!fypIgGrkrurcGl9)-
zG^_Grh6(RIe!L4!((*%;a!U0l#vWhWwO$LP?tX^UId(1p>z`HE;E~LMTgI7u-fXjD
zFmMltfA4h!0qPCo11^2Z%Z#8hSZ*WTuLvvALT?%Q1IM+M=hD{7CU3I~Ji3$p#3`%F
zjHL8rL=F)@5BR{!^d7HGT4$c2?PvSeHm<Vt8dx5pZA9VVs)ljmY(1Y5;J_(Tbk)<5
zGxJy}r%O?`qB65l!PBvGEeWz=@VC@^Qx(a<?`UIkT4gH3Sc6feJ4s#DGZ9URJx-V%
zw6PY7P6u>|^e4XmE7d2!IGd^wJq1({HA(wNh~Bs=gbsNtU33jjXI$n7DjBEEUR;<j
zXI}-_n2Ku-myJgBBigM#XFhtrAvy{1?in=+G=jKx9l9pGm`C%X_)l-*)!n(`q>Q~S
z?z`%O2G&qHt8w?hN&c+l4+@u@suMU9yo%Vgg)a;Vkt^L%GqW=`a!evk0-HjF-stN<
zY|%w-fv=3a3AQfgRP}ChDINRR$yST7+(62~-)!Qw9_hMqb#9DApfHh)Y2fwO89qxp
z;U}pJ3AcJ~X@rm^ShPTmu3bD)EV?%4e8M4fda}^KJys^BCbl){GQ?@%F-*5D&vtX6
zl+{SPih*tga>_P8Ke&?xbjWGb_x?H$AD<J~lwN$7HdbCx=KsIv9#}0X(}UnstQK3!
z5~pa9nAc?YLaEECD(ySeV>xOulq0bY^@V<K`h2aj<>^DazhK^+o?oAdgeJ?<V)5sD
zVr5n{rKP@jV^dJUFSW>o792GoqzP%hFw7`19T;PSVaiokq(|rp=BBqO`-Q4F{G(nW
zE;2$$7+TvF?lcCwDtaT!Gnt+}yQ0n^^~*dQtnT~}u^im!5L@>u$F4YYnmMlO`&8Fw
zpG*naO~E1Wo}jW?3G4fb6grfB7(?e-IHc2R?%6pg3)hsqsS?R4-fuFyS2))B21twX
z+bFY+`_o0-De^|7-by5AMa|>tT<p?w<E`<=+Z-QEfdDhww3;(hQf)4g8TuC~a_q2^
z`vi0`PMzvjs^f(1hz1O$4d}K?fOM;evQI#xHTMF!D%7uxq>287O}T(y?XH0FdA+_T
zY4?S>Ffk?;;I=t+!3<{4fto@RMt%jp2OHRsDYaB}yJS{yENY`hU9>uQj|N3RE{FvU
zxwU4ATR)*(MK~i@Kx|)JrC;_k*+k9y5EjsU=%wXRY~^>R{i9_T-s4L7cH!z{u+#~F
z2dxzC@FN$;u6_wW`kDkI>{~W6v2JiQPAx>0?g<iUno8WgN~KA7<$!Yg_$(IQpP*&y
z#zb7p{e|q9#{R$+f9FHb#t|9_KkbcUfHa>-bH}sgu=s8}DkTuUh!_(X>QVRb$y$%_
zXy*IEF;;7^miT3j4hHiozSi`#lH3i=nfsKt&=ATP;a^2oh;^}v5TQiq8(F);z;tu6
zyOb^QFraG$7g`kDW47`k^HS8Kk%lhy>Hi$a|Ko*a#*>A$TnOe>q`j!^${IZL0tK1W
zPuuIR{!5^)i*d!+C*}}%m<zUfM;zs;Xh{}=)53P#MfN4Dz{9<xrOuI$d&#_J+>hiR
z5cmmQy%^Oqs(@cwJ=SDo!JS?~9vYEWy^HOzEO1c(84-M0;U5!^>j*5+ivy&v7eK^d
zH-kzF6S@T8s*H8;6N{-3Qk$cN-|aS|#EFF2kyh#^lq{Q$3a2<M_~9t-kh>_?$=H0Z
zV=_8eP_IVJV2lwhX$c$4Y85X5`Z?TvOA%soKMxb*t{3_iUdvB*37xV^IestK6&#h?
z&c!tJxAURHV?>d*_9C*2bavnHdcT?MaUGPO2-@Iu@G`P(D9Y9^$lb(3yN^ncUm1O#
z<>-hK9{`=#9+HnU_&iMJYx+lB(3x?5-kx>zRkk6a!{t-_6y?gW*no3HRIXSbMpxYG
zyWi-v2T4xh+)fd~nX{ScHQi=&WW40hOqm$7LR3LAHQMP#?Bml)4kjD%D{;=Ztt!#C
zn;g=0YskF2goteoWC7qt97qy(D<xG}bUq_Dsd-Vwi-Pp$J58oQQR|GC_`IXUF0CTT
zv9;Kl#pZ>Kj|VUKcT^wVP*iUcy2P^QT=pr`gA-ULs)nQ7mohNVCXy29rcIgGwaaqf
z(tEtU<7=b&vp4AbsV+WjRtG3KMm<!%y`eF?dVv!1NJ`7`-2%ImI}gH?+}75cJEFIv
za>t&nlSmeUf3#}GDZxeB=ZTET%tfa@2gI70E+@^{bHex6c{Vr0s5gBQuMDkKfvm90
z_9aQhuV<kt9LHZEOiQ$E+!EX^jL=wVab#s3>14>YID|XXCLJbIknDfoU)bC;q3vDg
zyz`c;Zc9%3Wd$5!!>n#wh37l=OGYr-F-s3`%Asban1Ku{ytJbf>P5HFI<9b0S*!s8
z_IbACQ>1Pd@A9m|m~EDHtZg})Rz5pUmGCe;X8x?4w!i5&Q8=mA$jhu=P5ACobRbRd
z;7=`K<3T>-y5?ZBI+|jzA<3-ZS<BC)(a)K7t*2)k<`n>suMBBU^2WoY#eBGItp7DC
zNFFfz09?;snS7X`W$0l=L=b$68wfV~*+=Hy%8e%f5gE@fHZ+6RgCnzKl}YG-@0xVg
z41tdZY3|>a=`p$--m2rt?6(+dshv)Euu|klI`|Ps#dL7(IsfR`P;1c#kt<Sh_SyX8
zop*?(+Lx<TxsIpRp$T+Xs)zy7oY>8cn3xZ@jx9uqTq4DXG2Ym9IiG`mf9}yl1!fu2
zaRx~DV+s%fHwS2mZhP>o0bg7!d3k_|Z9^_k>wY1K4%o16-uVU5ZX)9!_#inz^t3+G
z#lPxBzKv&|174M~y!sJyTQqgY17?>&jCT`4EH@bJzIoZXWkmS&=}Eq2lV0I$DTV4g
z3F4VEdM45|{SiIh+sSaSbh4pwB^p;{AyL+t3~_XQfys$*$KEg1S+KS!!JSST|An~N
z=nf@8qky2i5w*1Qt1z?UC;c`pTUXjfIX>KYps6`tmEPx>t*VkvpOmPBU&|B+eoU@s
zxBFmFkS_+XQldQ!O`rnX`?uLJG*_F~9dY)vhrGs)_fux#xenaYT_(`4BJ~jZwaR8b
ztHzXeSyJOsJLzO}c1SB=fcwiU$auV?%nEcov)bh*#x2Qpg{zVUpdf13MU@cs$xp3G
z_xoK`?e88%z)854<49?WdTUl(e&yQRUKllkogw0pNCF0Q`eQq?w^4*gBBME%j9JBG
zX|hDZ%PPZm>k2cTQuNVNe}Bc#gMs};leC`rY?7G{5pgRTcwC%gpnqYTIQB9=B+BYC
zP?8W}G59oVJ#O$A%a~=a)8M4nIQ>qt=Q|%dFW>x<*lCudfJL2$(zew3)TOOMA|3l1
zH6HBPPq?3Ac!8&mD@;EvyaZEK87)PbGln+^p!(eXPx^;><?SI8VU3AHE_Aj>7vd}D
zAHF5wi@6gkO9GZ>^7wXBE)l)UkHh;aKll}m+x|dc8xvRrO`}@FVqWH!a|Faj%dp(L
zlJ)Fc(2ESu3XODYbn`)VS?x6~gS34pu&Z*ZB{cl=e_vzVdl$0w_!?QSyUo2}pUV)V
zSj0@aj&$53k=?IkgTF5{@%-B4;({%T0U>ywvNFjCkjh4%O02XE(^h-L3D{;B-Ig^N
z#ZWsnFJ8`88W4DbF$FYYyJpBAb5k*y)$YvB-%V=d)HFQ}MBZZCf0^6MJTlMj@A-h0
zJR;=+7h8PXJxN2As`ReeMx&-mCa?wkJgA9<4#ZCGQbwQqwqKx`w=2ripC875BXV}r
zEj@qaVN-?jDi02j-oRd7(0hM05W&m>=N*8NDeFoHTZ3yVPN&%&Fhvu6h*rbGFxRN9
zgAL$NI*4!S;?;maz1t9RN~;)vxriblw?QUZY>3m1MawngutmO+kkQ1i$eOE3Dm)#k
z@A5*C2?=u2*5bgjtXR)tfBku#JOux}WT}?wW9CPrleWzz7{SUaxq?1iKmIVV@cdQ*
zRH%hc$8xkZvuLMXV}9_3G<UdZcW-8@H@qL;7M2jq&`)OyGb(&Bc~?N^jfz|Un|k@f
zy@Cx@x}p*z?<h_7=@>nO67Q&{dR3h3hyp~sJ0|a?J6Ry@O6#h@-e^g<bINRIU&(ck
z+WU6Ls}D`F6|a%Mar~jV)mo9TYxf+;=-GE+R2O?Z$j>-C<95)o*vB_ytNf+lD)GHJ
zvlR4_)c3p(0-b$h;3DXKNKnA@c=vzXSNOqnA`nbINCvW9(NKb}ED3A{tr)$Zw$W<(
zeb`O>cecZz7%0|CN+iiJ8Fnw+M8%F^L5RFY>#*O#&YjEyeY6XC4xv-+<%{91NzYe$
z9f|v?5;_9-xH=p3`!(^nSzc7SS9}tEs}sn4e$m-Ey&Z@oXDVj6h!r&eU-6L=)Fifj
zcU1(YO%9cl|6vC?CPw>ZRgk_`vk_Xb#sLM$Pxc5wp8@o~-w`*g3_!azzE34}A(f^5
zzDf`xllz5#+o#(F`}L2w-k8l3={Wu4m9qcXqmV(E`O@MP{ZhU4msrh5`{+y+u7$_x
ztLTC6j^Z)u%sWK^3m&geEv(<R#EM2-CqcS&ARAc&>kk5Sk#`C4KACmTU@GhsK4Htj
z=LzTl9(9v<Y5G*kkpLYhh(9UwcxQtgoec7Yv-zU;%WQt`Z&<?2J`(is8^i~y6R}hO
zFUeZQS;<{tC}iYOHl26qaFjpj^w>}-Yb+{0$Q0{lUK!sk{Mg`DT(%{VYjYKB^hG7I
zcG3m|v$IQydX4466vwYt3Ht|$%jY{TZ4KCPb|fDYWvK359a^c6gP5(y(!h83=e;}9
zoRnDigN1YZ)&i+BkoPjaJt@+5CwGMy^T7=RES7SQAQK^3&H{_t7A)hd`81h{+YeWe
zrmThxjVI4l8xOXA=i7AQ?|9x#Dvf>4i}JdJY*1lCAjhDcC|Qgn{A_oLo<`VJa^j}J
zF5I@dx58&pMGZ{Sq9Y-AG~_WHCzQ-@od(!!Vrq-WN@SuK>YH{Hw4~|?Y0SNyXCWAS
zt4JSp%*wYtM?vxydh~D<U_%u)B`DIjZf6<oK2^eJz`G4yt=WK~7&pzozMyC*+X&p4
z^XC7?zZes+*|@7{wPsN+wM||F;LUU}U6t_6fr~~t@SeD~Qrge6ZdQ8S;#?|PP!5nv
zN$eOG%@!2@_s-T{&E76eb*43=P_~PT_Y-N{Io>Q;`&}HDd7q@au$gz7y!p{&v=E*x
zr#oA*kQyVT@*G4euKFEiNg0w7*-QNFK@pv>q45{y0-dyWp^z7dRczBsbqN`vSNW!w
z9J5Zt`FtL33M|6;e2qGyj&bh&RPoZGw5*DfE;^!V@!`@dQLneiAZo}Mek@%~7b{`L
zBK}9<b`BF&SH5~`A-r(TSw?XdS#W#ag~JRhcpeeVx5?ORqN$!;3<n{9peiHyCC4Ic
zONE)~bU@2^%OiqYZ#}J8zEl?!-Ws{+Qi6<@Mrd+UIAmlBAT8Bq1#W{}*gTpmWR%QP
z*k`&E(J2i&`SJLnT0BMt&lHH%41ADF+MnfOgSt6CkW!hI$p{1Mrfm2+26WFi-{QU!
zz!D?B-Cv1{n{(4h))e|>?LPs*`gQjKz>3fJR_ir!rpp!^+^Szk#=3?@#6(_(4au<n
zu(#llcp8StV0jPU3U65%!n$P`3NutM17rjEMo6>2-`l@Hz<rq@QUQQnRHc7zokZB8
zQp8eO=$H|Ko$P)ScaxBLageXz$*7$sD;eC}!18<Oc3EpfPU4h!qf@3jpYgCO@%<@i
zi92(9X!Vakzmngi620r621Uu><Bi-9Z&4#fc*;iLOPYK7XBum+pAKQ;H@9&)qtWw~
zTg^tnSkDN0k*=i%EAg*uK8*jAO%V0>Kh}^$nRV>WPZkWm_eb)Qv$McZUHCZg$@V6u
zd4}*O4F)U=*~$S1YJK@Z@kCkH;ueBw*pHzV0u<ioT7%u?H-_peHP)q4mcP9^JQ7^d
z<HSC6SkfI5Xe=9Q!<(r}?f-WptI~4e>v)R`-&O96AOl?_{mD^MSr2n^`JH+%$S)em
z$|>fFzbUVD{-`9uRDq1-)x0u4LsIf@cNPZMDJSMatNwhc9#1`SZ;61kh+u7_=|R{c
z?Tee3>Pf|$hO){qH-Tvlv(3Z@-O`%n72VmMdOx)4_1_zp%PTPaZ{s2C$$|@;;H9w9
zCjtktQWD-e_py;!ISYDAeH%myz4O?>kdt^t|Laq$gTEV&&-v%Y4XnlJ@Snr)SFH0A
z6_}2%D<~=W#bp9YbiEJt;8Zo<M-?5H^|doaj_DAeV3PD{!?z+w(sOxH@}JJ*38)BJ
zpHSL%H;s#7Us04G9L*Z3ohGNXv?-D@9OjzH1xMpC5oF!Ffgf0zLKYLENo9moqI~i-
zklz@gOek7+IRbF0X_jjK(Ibfhg*^8zYk!d@XG*dPKoj2zLDSCo5L$pFGtopHEdt=C
zam9qAR>&Z%SKvImehdIfG5wQf_T#V$-~lGoS>x5quAXWNq4wnq?R!t`pY>IYAe^bW
zv;1cWKXh~>g`LHdV_m;6{w-#P+(_(nGZ#!Rd@&4UKucitGxQym2o6(-%Xd0M5o`%u
zqf6;-!nBG;qxT)%$fcH+nhSDv+y~I2?6K7yDXq#cnPSJ~Bn+KVp;Xy^-}E*>j6QI3
zse3L<UjPOeb$@Y+bj%)4dqyaIh>VxSN*I}xrw^=R8#K3=B)~>n-vTb>x_Z-I<L=Tz
zJA^hFmw&USK#kI3k9aPfHj?_AS{OT%t>kN;>0%;awa;LE%D#Dmz0SnFw5tkQ;{z0g
zNMiFH-yiRCS`)JP6<d(36aWRtQbK0`Wx&?efon^$)|`xvAS`NmY!akv?7H?h>#vRg
zVtkvvK!)<fMPotSI%23eD_`9%C-%5{zvy!+a3dB?n6nZuX?C@O(~p&s{AsCdG`ego
zi?N4|wpiqI4My(wZre*&=6bC8zOsmjJS)Ws)Rh&LWR)6Np_iK<+SO<&mIg4HiLX&r
zCo0~(cnl(vIJ(9Zb#+V7*cFH{h+%tSG;u1}k+WfG6iHUiMh4z$hQ120PvmYGufgv#
z&8mW^A~#5K0*c%GCvB1v)Q0j|hv4dRM*I?6H(QpVLDU{=NYNXkD@$wZME~a`$2Lrc
zJ0s;n@k}ga_GR_Enmn42n%9*_43|AYdo$O<&JNVNm@ri3KuAvyb|yv7X|pmKpehJ*
zI3<-LV46XSSXw`3#v6S(K;43*@_}DBz>4M?0>&)JdAOBZ2Md;~Ww$u2GiySkmTB>;
zatAIggM-yNlD)UUc|o&_p`;nlixMFjandQ8Ar&9<<N+5dyi6+JC``8gPkY}L)>PKN
zD}rsLh>Rjl6a;i=DjG_Fs0fI(!2%+LA|)WbCG^OkAR-_jO$Y%I5s?}QC4?dfNR>_!
z5;~zIgx*5PiT{~V=A7@lI~V6X&*Xw<C7bN5^6T%r);6e)M8CMsNhnG|b7Qkyd(P{s
zaSAq^oIHNVbk%cuku%8i@oA1MFIG+_m1b|`)^bxWq`E%7q9l0oj=KH1F#Xpy$kI_w
z;j_z6^-Fa)1%+IiVsA1z!6i?f75vX)geh8n%iSQ|bR)OY6E5J+H%Bln&7TB(55|8$
zmh_paP~MtPUYA2ZYf$#SA!nxpF;kHhGh9IW9q|}y1<XC)6>u?~wgwGGQB+?^%GqY|
zQH@j{-I6+k1caF`YK;_Km<Iz#ymEK=w_2w8$iNFm@^&dke2n-~hoe0o*fF}PVu<S8
zKvs8O>ElL;L&jevX`fd^9@v{EwyoKx3Ly^l#i&&-Q2Ne*md=WoJtH3p_js2jN`D;=
zX_1s`6-!co+AAR})*{IhQj(khTXfp!b^j<+SMt4#O+FRWWJ1u~q=u<_izdw1L%8It
z#_p&9BVLtPX=IZ(r!?it^6%*-N+Ad7M`aJ6O%1YLxo$qB7s%nPWiSETKif!Nud7Ue
zq_QB_v;4SA8kKs5Uz?^cXTJv1CSRJH(%ys~N!>grw-ElwQGxov%i^rUZOGOn7x{77
zCrF6Yazn0G?z!?i)lH}g?Dd(1LS&g~#MxSVuY6hjPUVxz=s=5iB?;({_fh~yCsKM*
z>{r^_80WonTnmU(ST_H$)hy;~GLRu@JK8>-=4hG&F1ZQcTb=XgVsmxx?Z_V)P3#Q4
z_)5s8r!B<&U2%s&1U{okFE1Xvbpor$gX<86PTE|&PP{ZK({}mQ;jL`1eJR6FSe%xg
z`bG~yy>mFfC!(P@Y;%ORZ%ZhxK0v>yzMMX(n$g~wcYFPwNgQ}gC%q{|bk^GItAclD
z3Cg0wnLD6ZR#?vnegWtkSIfC*yKbqJ+*<lAvff(;{#Z}SFjsN*tNln^law=y^d5(3
z-6rghJm%+VR@_)IvBFvc6{P#~o60v2#Gl&H7B*Y%--a}^L0)(GlfBp5*o4;rsFXm?
z?HQ>K{BJn(Zs5V5nP1O3Keku!6T^N2Qna9}U9b2FqxV%-#iBglg}Zhe$94jGTK&b<
zfH&XD&WV(F58j|P?M9gIpPlkK81&c<1+G^Z*MQhAUUx$`YG0Ehn`e<GHQdmX7YYv<
zCAui2_Zf=d-fyp{wZ=*13~oc-CD?UKQ>=wbW|2EHzpEV03T)BZu%B&QsmC2JVFhdA
zLYP+c^T1W`>U4!E=y2+rY@<U{o+E{z!VikYQ0%z!b5{7@RLnFad%ZJ?=4sBhI6bwz
zT$x6yng_(@_>+A7l|o)2h5hAHoze!!U-+N%+Y$BWJuf;~Va}47*+fJLE97f^m5yg^
zZ>EO@pV%7xs(!ZTg6LW2U$85>vYx@q-LMq!LzUwi7LOr@6V)H?#jail*rA+#2h!|u
z)8@dE*!!)W7Zy9Yo$$(YZH}f;IkObDxw%AuW-z)V?RDcy#0sKBIQ(ThYI;?c(AIz3
z?<-GN(~}PO3v@_}T_j0{O4e_DT9W_j$oz7e7~+~>$ySSF(yN)6ze8eHvR_vsS=Zqr
zICMhc^9?CibDg77zc)4m64tKY<1As7)CDVyNK;9Q1F<>MI2K#M4J81*isO9X=X#&Y
zAJ|i2ZCHXOojUWSLv>aMD%d_?uaq!56V-WXQ@(eo3ovL8I;(Ia5#bjWdZA|sYVXxo
ztfZRd+=I!?7t8;cL=a*BaHr7fvvY=4`hBdl>Q~(lN&2ANC7E6!zxSULKrMCl6*tWi
zW+_sV=_Eb3gEM_X3<d8OE>RGy4O?Y5C>KLP8UgSxf{%F=KVzHi8yVX88t)>B9oS$k
zt`v^tYzjD)h95yK7Nb`?eZzJ}BP@9N?Qq6^#`cE1{9A&4amHbSUD0jWZfWoNmyq@c
zoGC`~%_%yJvU5HBO$u|=Pdo{#Sqnp2IHeI*$*dlgLJ1^YsSSP`Fl~wn4pS@c2s%#~
z{)7-0NsqNilr8MwjUi3CG{s+8zB-}v@TpZ#Wk;o(BBn_b7YE5TTa-ai`XXz5R3mo<
zbZ>ere+!=>usjJ4W_K8u9e=r}`{<T4P^It#G9|gp)J)0eFoPj+C<U@Gf?$mDE;k6A
zS{qkw0Q8Ir$h;DWem7ZtLmsc}CxAulSbiL=onV1m9RLVfav5b|3VkDC;-RWZeAn=<
zTj12})l`(lq*R8qfo6|~*5~-rmq4JHSHS(`O)pg;4SgsTA4zQ)Yxp!+dTxLQTvnKV
z4kPp&z2R_l`&3&2u+;!i8Qnn_Ey>D%j8e)?<w2h<rx3=9+5l5t;oizrL9_eKKb`KG
z{cTV8DSqq_7TcO0I3$RWi|A17k1{y=@|NP1oZ?rxgO=836#HkJDkGemxZW)}N&;Q0
zaEYBEuk-^2+qd;$&2`t#0V7mUDQx#3?455c%0h0LYQKX?riSP#q;pF4JSpW%P2w<2
z_Wr_0OkFxxGZ|69dum*^eOfD>WdL5w9{N4j0^-FN?ztLjuNqrip;}y+w;MruSH6Mz
zGNrTi9uQ9HGp>wDsJ=VmI)j|yv$j?ZH6=4p(^kKv6oXH7eWVz4!g_#C(yJDIy8`A_
zB?3f^!fEzE;ng*Az>ry@3*K1iw7HvlWP^h8)jL3#_mhD&#xGq({Mf2q5Pt$>NCa>d
zrQ8oL_Ve%+OI?3nG86%J_DH))jEXK+6_SA$j;4vNZY0UQ4uRf;Ze_819&y&0=v@^|
z>Tzhszx=ZM#Yb*-%HUmRT1ZQFbaEMZ(0C{<jlMP_5G$4Z)MDwN>11|Hmr^9!p;X!V
zmvo7k9@fAo^Agt}AGHo69{D*av9`-xS=Uh9cAwE#4GF|aGHWi_lKUR||7HdQH|HAn
z9%Veb;P%=s(s|C!USam=j;7F-hd`O=%8XfyxYgaoNhRSNinwBsw#jyK8uWLgpL97k
z-UrhhZ-_h7Y<4ba)2z6io{lrQ(m4laI}R!jdrL|Eem9)>88URXJgxrTT%s-Pa%hB*
z=bS8(*En(N{b^kByF5J`kiExi#hqBGuj~G~wK+@edMa*t7H#ophw+MRMCjM?)vogd
z(-HnICFy0r(lXj%x@hI@WklP>05#uf^ka2t=omSmrc-8M%RqEx{`%~WeD1q>veOK5
zs9z5XRoPtg$yCKu0AL;r^Bz^3Fg|Ci&pkW7!1F$u?jYT%D#XZ;&{UD4vw_>bwG}nt
zD`U1VRuHr+X^(}q{U+}kZhdP15U=Xkl$aA9dL*TfzholdSV}hPqAiP~v<wVc=0Lxj
zTE$07ymdC{(tY&x?wp<=N?VtFFC~2SgHVoOvr&4WwMnJwuc^1hCsnu7-Z>Ao1;3lv
zdF*{Bj++l{?bV`pAXog-SA|0wIj^VTEs^HF3Jr3tab0FA9o16YxJ;AD>)OuK@%A!R
z+>;mPN2|}*j_5?L1`-RHm$F?Jgy9UWqX*9nuheCsagy`sjP*OFKbbd)A|U}Zcps^B
zsj6S`yc|&f@zoenP-d=8exgRePwo6xe%RqXqI?4ZBibZ^gA;<Nd6o|z=g0Ie)rH0s
z8H(=e5VmE_pdU7*n}b+~3AKb%xKdq*&*lSpv-Qc01w%lcs73W)xcU&{t*%7Z<k!2D
zB13p*ry4nDfMfy6uDF*WHD@uG^8@J)k<fUOq7~I<miW?EhxaG*a^T$W%*Mun(y^;f
zjJeGv=wR&v*j5>-ynPg!3#6ZvDpC(vQN(sPMTw-oK+@+|s88JjbAFpkG@}(A;gd9u
z;rGcYogLE_MM<RxJ~q;<F4%%}zOfqw!zXUc&qP$o-*dFvE4V+~A%nLvx|FFFfwOj)
zIr%}>@lCtZ`Ni^E*u~G0(5(a$0%HU8K#MS8sA`u4UgF2Bp@A;Zg;A0_bP&%FT-5)Z
zGJOF{1Nm%O`YvU^J{`-fqFV&aPMP$Ky%bQOPQ!=e)<=pN1n0`BCY(Z-I%H#*?iMgw
zA5M9n$`tt0^UyyH2FETOw6T9^ldSAz-`Z70K0LF_624~ZaH<9m=&>Pa#kq&xnz#FS
zM!|0Go(&UOK5PLl1fP5=u&%x|*&D&0mVDuP!3@A>uJkc<zzH;N@L9T`TGAs=a<fwg
z)<<03FpERE78C}_vjZ*yk7=LYKEJo9`?Gz`Qu13)V)O3Qn|Vr|p|CZEvf4T6ZU&)V
zr7DusWAV)I2d1&BdsO5XeO_K4baE>aO^4ojXz&8HFw+(Eg;Y7Q4y9q4#Zij*x?qp>
z7;2)KTY2+oc+Wx3Q&tmAQDq&Z3db^0H9BPl+G33?1G-_=mA6RrkeH!MNVQ>gczaHK
z!$Kd8*;i1#$^)G=vMdq}VxCJ?57P2{pzj0eN6J+<q66q?odFN2K*9i2L^OD_xb*4j
z8)^BE0Ry@L^nJh`1!OrYcs+;!P0f!Jr;3XLhdOs=9q)q$VVz3zNehA14FeB?t_G}E
z@>9Y=%Do~!E6({>2TSL7p;<x8d~^a+gq~9MNRi1vLdSJ-Bmh}j(YI7T6k_24k1jrH
zyojNUuiQ;3gs<4rdo`2rX5~SVB0iKP$_GQy$J(c%Mf#}#qIwaz=BrT^{&C)^=-R_d
zE9)fknN($`_rOa@C_@pCmyETKk<J}gjbmi+Kevkfxnbnbzt@mr-ymtw_I<$R4@?vi
zxg}0;8AQZoaYBY|VnDHiI|(KhWvPX=pS7X{9YLPj0|ypVCj{KvqJ$vun$dFf*CruB
zg&DMO8_;>YQ3twsoi0TtoyOFTsFw_$_CZYRr()|R4O8OmOUKe4!VqPuw2`>pXq>+i
zSKDH=2x-A5sP1&|<RyB2?nr?ob+>*4M~+tSNj559KWH`tUx3%4@t%>7Rl5ElKxk^c
zlxt}YFp^I>m$%e7z|1YhzV5yPfZ|;8RqJbUGiT+RBJN}BQ=G@h7KsO_L_M!g7|HPJ
z7KJB}UM<(FfgaC)DoaExmdWGWI$cnTZV*+~H;i851>Yo~w26hEL^;`rFa}QPvP)u0
zU`=N}wsoP{s8r}Qj*K6y3BJ?AsVy<K3}T*Dma6p_-(an&dar@<me2)@f231CQ>%<Z
z-Wi298`D2t#Lt0g!|G+13U8=S<mBM}=L_Pa{c41{f%{R@?$>w+Ji-YlOu#nb!oj6M
z>&f!jO7=}YC*0ptR|{Z6)bbHK#qHxg8a!JS`fsjC$i`x4r{P1~H8N=6nCyu|B8A7b
zYM1oWJ;Hkz$8`&Cp(yTER7_WRUg6P&PtmgGC#^RZt!GiY+bQ)gqzhgp76GIW#ruMn
zUr6U$3Aq+ow4$r!X%g*e%5A$7x(?+;|Gdc}aaYFLfIhcwBBi7nN`}#rg`w}L=1Ow%
z)ti?w)MyNaFFX*>tu*6KpPeNS`H`6s&cFOL^nb(I-#_^#b!0Uq1uCxn@)lRS!tg;Z
z!M@Dml+2TvmbGu>y=vJ(3Bvadi7XlkDL<;f1`KYS`WU_UpclXvtjaep-%Gy_8<+(Z
zX$PJpPMMe^65}uP6#_H+vib^T+B}J@^Wrb5xzYB+g2Cgc{ro3c5AAqkZ(3v(-0Lew
zUvsi}FLQBtOAmPo`?5r5SEgpHA)Ig+cFX{2<OS_awrC5Vc#VTuZtfW6Qo6N8>>I+k
z^5e7E_mnGtxC}Pl8C{OYq+AQvtEd@3z=Y&_s3<blVzI8hFkx_L=ycHPlAJ8L(ud|x
z2KL1D5@^*JIob!KEXsAbU*pb}2m(yNx(H!rx{`7rl}kHH=@GDTn1Q~+VsgabDXneP
zxUUXJ7tE}0u{HqSQsci9QDf`VvC3JkDO>w)dE#X?>x2gCT&)E%9lSvYS-ehMAAc~+
za+QM3)qU*Evxb2HFo!*8mmI>xf6LTx$>JI;2QqzP7*lieVy0&QWk6mW+b?^g6V>Q1
zMe)=cPOm5*MHB)?=rvGUh(s?`Il*u<Qh{rc(4p97{BKUKk2WwixtyXnCm6khw(CF-
z+9|rMLS4~gRe3Fx)j%<a(~SN67Px)<YzBmMwWT(f2g?RVhJANQZ=W*#m;rIFQC$O0
zl3757X~DKK+-C^xlAoI<JfgV}?pGxO+bMTh^C7)T=kg^Lc6vjGj|I?NfdrB$iAX{>
z1UMtO%8MQt>w;;xE%5phV`B|~YcK{o-KB>DH%R3Kxv0l84}OLtKNavA$2MmOy3%V}
z_D%SQ@Qf5iw{+rPA&gv!mTJ7~;^_6GLF;CR(}A$`j&wDkGEz(qJrfd>kE2w!^b%z|
zt19JUvft*P_BC@xNfdbPJUiL0=ZwB7kSLQWGS=pJ;>T}Ufc9^Ym>;l?6F&KHW;BXv
zS^E%^sM<hd3*!{%@sZ5_X@0MXihbKAWqxsxu@9ELU3YenM5=C&tH#+4fZg1O>d`3;
z(VJ{vQ0&Tb>@rhD(h&}p|7mO)g~w;^w%O1hi?_M{=OsQCG9Y#)2kcaqRC;2MDF2K{
zSYpl2F<Cm#9wo!4`S<>*A0zs+@i6j98Z^J(qR03@b%OP!44z}JdJA~2l<58XUw*_v
zcE2aS%s4>jzlh?o5cO-<3^3~7S}q&?w;w4x+~PR+kSgKw-}<?|k4>4neNDXW=D(A{
z@$Y2pk>-CV<KM~n&t~QSBgv4Zmd+2>B0CU@g=Nom_ZZR#VH_2(@zb~eu@MHs=P(OI
z^EQMHHR{~;2Ut5w{p1*`J>U18gYeJ2V$S<z=S!WOoKREEFH86>(ybKiJLhn(vk^Zl
zwX6H~4=Z@k8r6Q?xbu%#Pc7-1E|40=CGtpGR&n5T(6VxX-Of$f1ZpKi?@h$txrU6!
zewm0Vi--Wp1w=)7T(7GD;Q7asKRiZ=>oJE^AcXXX>*Rc_=}DOfRx9ML@(Xu!2zh)`
zxYv#fy&f_5jBo$A-SfK3V&4iaL6*mXLrqaE_H`J~)#!jXy{=6!1pv0s6RC1pa&I61
za2Eb&Le@`zxLbaI++KnBbi0FGlo?92F0b2chVR{!!6r4DXGPettPS3($(2%}^cn08
zYFU)((q3+_l8FMiC+X5kbj&|UYf<|)bp7l_2oI~*_qtGjxsXH{J_Ill*wo?B^-Q*7
z@5O(#Gk_cq*EN47UNZ3e$LD*r_h!b4BP>7oB3}~mV`%@||N38L`9Xi5mDatRO@B-?
zs}W*+jujM0qu+S{oc+DmSwTVn_n@G^Lwe$WyZ4W`4`aUv1w)T}_7s7BT>Re1FyUhb
z1tyAxFZup??;pX3gXZ_3;8C6q<iGiA3w>5lU_q?DZ1A78_ut9*zatrcq_zp}+b4EJ
z=jQc$KNgE6CErLdZtMP7osgRAR`q`z2x|B?*xiaoqX&(uZbtsC+^o7zwFOIP0<bN&
z3;r@0-l5mrJa5ZhApd^RT8K`(mMeoemH~e2@`#{gthx7_t7lk}u$IyE>bF0Y4U4SX
z*;;W~?#l((G;yXXKnw~!Z;u@lylC}=OW<;&7PqJ?V_SCnu9AC?e!BWdaPX8jW*LoJ
zue-a#qA7Nu&4v|ht}y`w->6+QVSt^QK@7vUWHLT-SAR*!_1vq_y5ZLd=ENiNB0V29
z|3}6$y7-dSgTkVaO7#b;Y@FJYjUt*y>q7%hBpu<Ck_eDAOn+pf9aEgC5$@eqlWYY0
zlCMBL3ehh!k?f)wE8ESfhfHa$qiBJi6<Ap6Fxemf2`G$H3jCQRuyo@xOF#Sg{?Zn!
z3&-lLH<t4XhklbTbij5P4RVThVpvs1{PINNeBwm3z;h)Ex4O@51&<eIe{giF+u!sY
zmhIGQk@%o>$jB4#bM5Wnzx5|X-N34QFn`s<>hj+S!^woYYQL2pPRu16t&Jn$B7sdW
zPbUb!ZkK7?Ew~{Q!5GK&R<*t_mAJXDQ|5X!E=u>-r^cT(x+jNatXWGVYn^fYZ~qa+
z;TuM5i4~6%&%2bbD5{Y4D!XoI#I(+%k(?&|-ciRH@+#3?RX1i#gpyR`8?jgUAKYLG
zh}n%Z5?X($^BZ0(9GO+POqE!RP)a9;Gu$0cx(hGe;I>f7ELuHWhbhM%wwvv~tN(M!
zio98AK)JV4-pT(Nbcp)xeK~!@m0sJ!GMJLeVo~m>v-bXD-{>?2kzS#ddEc+RPZWo<
zxDwNBb&mfKZ5EVp=X+P~oRiT0t1E(spK82IY4~{7sZh-}g7R7ERY4L?o+!7ERx>Q0
zB<IpE`O|+!YG(v3y~ut2(=$H5X2PMx>4NHRsAAG*8XZ?$T2~LCE2gS?G#!8T{mlM+
z?F>3BE+1l6el=Y+dyBn<RW^26QSm!ySpH0Y?4<&v^P$*rawme^Rg!|aX}bnJtNX&w
zjeL&I5*7>5{VQboBD!ecP_Pf_z&ZwG@rXxlXK4Oz_l<X?V6qx?#>mp*RzWsW)!!Ec
z+zD-<d@hVZ(L^t`0xaF?dQ9HN3-W)l4u9SvN-$`IKDX%G5#cz0V~=Ic&_3?qm_tk$
z9JVDhXJ4okF{`Pr7>c}N-xnVrcUmpeNgKZO?!E5K8o%XP=m`Au+{aC^>|)NT@wURU
ziCP99y<4ERnBOwE%yBDR)bDc*v)7B-(iPPEZ7hU2aL@s{TkD3?ExaN>c<+H!>>$xM
zk3mTr@rkS2?B<iwFP1_ELzfQ7-1rJX2Gm;!fUJ3M%UBFNyMzS73K;ZV?URO^Vy~+<
zOPu)6mY1+{>D80_rI70igpCO#TDqWyv>Uk9kKWh~mpVl1LA#B=`wDGyfyq)IV?Mc2
zT7scnrqV-44n>!C3^<m@RC|2@2Q7Q9=Q0Hb>?$?&Rmm$hl%*BphkcJ)<$ta;YwZdn
zzQ;D{{?p2sIeaR09kUC5w%F4)!38mZH3$JrM{0sTcMq^$M6pN&tx$3J5u8Z|qr1Xk
zC?oMO0?Yu23H<~?!oM0UZ(cRA{8Hn)D&<VbAF&;wk9ASIn~`&`%B8e+=)2+6q*}(x
z9V0F>MIT;kliSySU*bE5j>ecFgY8Vk9C@}Wg31ethi@O@4M{xf-r=*O<P#CJVP;vp
z0^gcgRo-q1rS^#;?BwqUZ(0Kuqu{muyMeg=^-+x&V;37J34YqQ<+LB=2xjNwJY_0O
zG*HqY&3TZx$deUqVj*BD%dbF}!!8%*I$zB^v|vs_&4+QjqIg6>qyhR+<gQ=6#T%uO
zXafA{+DhRX5A|Z>I?3ZXE5bWQU&zdgJHTLchHu{G7P7;*s8w`+)E^ME8rg2VMPHZF
z#+w0zlY7wciED&M47S{Kc`ER;vA`hcOCi=16Xa9NyIzS6C$uJ1s919yQaVmk@j5{G
zC|15yaW)_+{A^a6-tE101qZ+VvP?Zpv5gikrFJLOrD)*|;Bnvcs)H$N0nv={a{ld%
zDPA+z;h{+xGdQtqZn=6iG~E&jD-If)F~qOVDo{RoF&%h7+pk@!$5d(py$!C?j>=;n
z)ov5Nthb}&@j}Gzjinf>BbD_G@8K1BJg&Ctn}zR^omo&>0`*&{`ncO+VaN7O%wn9A
z^8f{hCYqI(VmF5R2OjuH0OyKgaF6o}oI?-sl+3$U<^KkP7F28>B>3kk;!iVCUN6Mt
zb-hL5%cf>9>eV~LWrHJ+%1M5OTtX^+^8{eO8NLetQ5qj2N^CHG;A-9q|C%sJ;8Gk}
zU{3}Re8^NPkv0VQs7t`m0=~&rj{5`GTiBh4iZXp1ji65mRr7KLLbMw^Qf+(aF7(S)
zMSKout@!oEi##_y8NdS=7myZ{gj;1HMQzPUd#TfKZ^S1uqPwt*iBelzJ&Go&<PomZ
zgIctzR+i-l8N}(XR5whe>r>J6T_-vc3@c@0KXlG7^dPr)r#t~x6YPASbQMm|Awrvj
z2D-E@`6Ttwq3g_7#2{KIG(-WZZWD&}3U{F}XnxwQF><N3jy9rwBx|Sq;ulz_a2INM
zfs}PElkvo5w<(H3uC1!m3cwKko3Q{GNi~33Kr4c|*6O$N!DmEkH>sMA(-R+J#hsZ!
z>Q+JpwdkOUNo2N6bMTZcaQZpJrT@Nh$tb|P<ru+f1MG}abav={uW!hh&(uyYJ&`C1
zL8^{wTySf#99oYgX&b6gWnjZ8)ZJZ}ybPv?6-fKDg%B1h2mqq524M@lwf$U&g|lJu
zOO{{k5-)by(>MBR4h1!_6vj4hd*e$GGq|p1ml<8gQ|$(!Q)%*O3=LDeeg0{Zg+H!y
z3kP#)>lm3C@iH7@3m3Mr*#W-3X#M#deQI_D#Wi5rTocr4NQvRMus6f{DbVKzYaz|S
z)5i#INVU5)>FW?|Kc2dN2twf6nAFzRORcP1-<tNN7Xhap0O$!Z(YLr+N0OuT5yf@t
z@a=P$F?t&zEU%n!4jw$bi{UKGb4_)m2L=2=t)4nVr<ydW^d1<Pj>d+L0Nd4f5l7G+
zP3$gH#f*5q#qUv({zgZM{=nn%mEZj6Yi=l;_0!fg)onXEtrr1;?$;&=BpKv&?teKU
zt9Z%^wgX$g(LFwyr5eImcy0RO_kUoVGu<3J=+d$V?uBE7$C3I}DG1Db&TqYN*EU|#
zu(&XI>>^=|YKH#`+N|tIHe%{kC@<U#z>9c1^$HHU?pY$T@ugw-I@+JO+|O4F3v(&0
zuhJRduoPP*j6ia_))ssTo{{<#Atp@$(1Ot8xA624JcC$@1PzTHVipEbBegeWDsy_{
zjD=N|#?qHkp5*MzB%uig1fM6&85=_a3n%*^x2s0;$52Zr%<??=qzuu8fxCC*oDRUm
zz-i+i1_r4B@!4_`-U$z@MM8p!t6f0qoD(xW?HO{2*#ISp%H^5Wv@VY-fCoc2Mo^&*
z3r+CJ5^d2MWYD8pHR7~x(8=ZrfX%csvSahkedH3K<a;(zgElqwB2@kuilcV5Qsd)n
z@k%}|-FgPPlN4RV!XogwAaz9v{ZpW?O)<z*xH#uI)=rRLtC{u9EZp09)Sy2!Z<g|H
zA=M2XizSG-(<y7ajT=%BWRkG0HfDnIo25z+xpp_cRh8WNS$Ux@o5XMFe^r@MGm1Jj
zQcN@(j_}p#T>0GA6gMW$gBx^Vykbo6=*D|pmN4EOp7_K9VyvVBw{8)pWm5%Q^pu(q
zh^G_Se3OTc2k3NJ<}yyY{G8NGIujMo7=_dV61gUZZJz|qMOYS<yJG!XlYW6N9~y{4
z5=YA89h<;Xb-&8)$G)m#@TfmZbuP6)*s&ihm69U0N*7q&-AVa$D0sC2x<u<jTOxhl
z0Oz5_Z3Q1?v&pz@xH?k?GxydKrxMJ-PUBPKK8YfC+s<wDfYNM|7)xYyB=CS+CBxG3
z{b_E@O7N06kS-;aBM_Xkv#7^hNHfjRFjTT?BJ6`T5my|jhXAWpv|{D;GD`#W(%osP
ztMn~Ir*U|VtrLy@2epRyYO)BpS{mVKPnu2ALxF?PL?ugmpo3K^BIwH%GcP2+b5u<A
zC}=cUWHCK+z28y~ok}!PY>pWmp=pjFT|i2nrC3$Rn*60&`Jpg+?I=i9wupA$e%Yt#
zy?4pjhY2sThS$gFiq2ME_yD=-T{U>h=*`|ZktY6aS%K;h$G%Q%P$#3(l7sFa6ux5#
zC3i2Yx4AY`(P-Vm9W&1itabc0+wZTfwN7uPWTNK{2=qEBkWdVyML+#=$2R>_0b!xK
ztDHgIPIW`Et5;#VG6)?X!Z&l${nWF|=!V-3K}~p3xvExD4K;Bc*RWoGR^y=NRcKEx
zgg_5G`Ji2fh1YW%Ag+fl$E97a8HO_hpn3r6YIHfC$AGDSdz<XCQ6WB~uft>i0lPED
zkvi7~pjFX9=+v%PW;SK_@6;gE{nNT$%)2pzHgzyvNhKtoF81~O3H5mt!1#RLEjnx@
zpcV^D5{b)-eO~T{dPejbVOO8G3FY>Sc+&Rjdg!Oxm{(eyh4A!aoC2%VSp&7tHKM__
zBEb~Jm*je%6Qe^)3a@r93eG^sZ-!Dqu5=U6M0F~+k$StkEnqxx;hV(82KV8i?gF|$
z%j%EzHJM?zxJXh3hO;}F`tGX7(f%v%p(E@(ET1@ui)tKm5CYo2Bl>MH)?dgsoTe$<
zJ>2el?&YaimzudkMM5A_WJ?}df6MCqq{eRA=P8p@5EDx#4`w)Ntp*3#&BqSRUBIG1
z{Fb|e?{&sn2o9k>!?D%SUey<@$Ye%@Be}mV#t`w$!>0M2=~t=Xjpp^%ya^Uax{%+t
z{a(?TGT2hh;l0uUC?;FBfGUO;wxX46;q&3zZ4FD7Ulp?CYbf%wo0Gi;hJ+-r<QOX`
z)FY&?LO%CVUJI$cogWcJ!hO=!w%!H|t5!R$?0{c}M)5?e>_<@wYHSjNoO3dvG-YZ0
zx9cuVlxk}YPyg0?JEqp&1uNYn1+O2)qL$u(NA6tGl}jvZ3Z89|ZXBeJ7d5bKjEXu(
z^gj|)e^5vP?V?%ZZv8@?^7bNw+IY89uQTz~(~AumLD#5F&{woBD8vAgc?o22_OlFf
zO|wow^8uuz-?_K7J)F;A+tKq6tlx^h^Xi9K009!d6j&V}4Qdk6ff2aiwZ!11)T7kY
zW)VB-!ivD(x_W+3bORi9DyS)ue-?yCyXP2iSfJ~c2k!@-<hTAd%AzW|ObV%91h)HH
zbQRD@oohvtErQ=HE}j?uW2o(AloK(wlv#rbPo7ImaaGzU{whgnzkL7mi*5^nEAQmk
z%^$Q1hGc)?AU)Ep`+6dCxVe4^anZ{-{knilBWHD#qIvnlUy0(Q=I4scD>&`aLsk=B
z<j0aX_{|-e)eKjHD?t&KoN&r-sHgcsk5JXOlX;&?%{_w)N_RY=7$9Hm3d8G;rJ64j
z+xpgrE)(v;sYEgGpOGOjf@p~i1-#MGni>4Zhx#CbmhMX@n!M(HKka9eBH?Oxz;Etv
zl!6Fry3L45RBFtk6KNaT)CD*5X^$<h4r{s^u{o6_<a9S@Dmzhl<pG=Ad_$Oh&Np(j
z$~nfdhO*#v&}AzyGMk?pw7l{3qRqg58)XVXF`t<k2^kt2#?L>cxUVMBj5XS8=sl+K
z&S<86<KR9^p21<|HaR8hPcEfR`+)RiN9f3e7ez`tsvyy6IHdpR1R1wPwhy1Pg5lNZ
zw|CW@+J%~Del-B1l}Nr##Irei6wh2IrFHc!>>%@tZe|{OZ&IrkdaWa}M`6{}SvHxs
zEKgn$+mG}*8B#INgzBmUj(>&pc$y?)p(h8RkYS$$oIlHAEY0bCyl-N9N!iNS%x>xm
zyBpDGU{%1wD?TeCyWmiebId9ynpZpw|2($A<qyy>{jF}{l0>B$E-6OsoSG9YHwS6h
zKmH2eg3yr}bUulO&l{`r&1(hhMC9DPTp~DfhVW_l;C%iRdsT=I$UaFwRb7p15kPVv
zmfqt#B+_L|hmUMp`}oPAu<mjs?=~<LReL7uQU;kzk(h4ZpubY0N^{Xb60h2?E;f4h
zOy+(~*>pq3o@9fZU~lco)fVis9Iy0Ig+<rtX{KwpoOuoTZ7IxL*tdPoD$xqIzq7?8
z$WhLkZ}4aiVZh8a@zfbFYt*LTe8p}P;ZDj0^}INocT^WBa5S?yPzO(-G+=6*3EsZ_
z7Zi)ek3Bs!Ms@2jz#^c5X8ysa*-60*=c@;j+Lz5SjP<RIpq;FM_t~{kD&9V6!q8nk
zpfJ?`J=o;kYsvlC@H$qq?x4Up^t3Q|;#Xuby+Uoh@h&utX1Pet+et~5-foj9v3We7
z4=B&nIFtkF=MpeydOowif)1EBqin#d`W80k6+K6onK5)5Hn~zo*DCAQ;5?A7n*=j6
zg7)?<JP_Ss+VW|}-iP%_!x6Beni^_B41V?tI+e53kOFA0q3N2KSk}}=A<gNR&U;r*
ziYoNT$-lJ{khL?|Y5cGncO<c;bD4}oz^LA4HqW+2Us`yW%6zf&qt>yxK$-Dg&XwJa
z_})d<Q^as&(B)z7)$CI60bw7d(aq5(HfRxU%(IR+;-Yqs62T@u=k@niE?~SL^g(k6
zpwz8;a2!fPZ!G&*b>>=?_^#!fDW44BprEC3x4lb^>iMn;mB|b&rIChkRC4pZQ11XQ
z)-<3&kZUP{pf$+*OYURYoJeKw+R{%B5ct5bht%#+GBw=hmuB86-vuIXbD)~+gn5VM
zwfZ*h!>R<z4hU>5y?uPx69ArRf2o#!6gHj<k;pj~S|-B4IRRa3eQa}GyJbJ;sMnMu
zD5!E@4cX3O?7FYv8;SbMBig5fdbk;sr3=#Xl@Gku?o-dgaR);rvYLfGto$`(Q9F<P
z&O6FPWm9sZRnj#GB&2wGhjFSz_^?o5%B+#4(k0oeQ+CHMIZ~ri3*5-NuF)c%eS?%w
zqQPnj6Fex<n00@v7H6zA3j|_{`22o*WWdg1Rvx|iIw>>gK@A?Uxb9MZ3t*V8+JTgY
zSv@3eKPyDUy@(c4sA}+9y!FI%2EW-f8oS`F)=uCIb|cuYa8nzWalKv2AZ)!4;*q1Y
zJnislRs?xCz%qd_7$;Y{a$8!4+?D>uK8G>MI&b)>@C#KNcccCCnXejLjh<g9JY1?C
z;xq8Dp$5L}0qwZ}LSZ+6G6JR3f_XS)kQ%NqL1QQUDU}k}R#>dIyAi*u(c(bx&01q*
z{~CX{refg!g<pA*>Z^6D>$o7EZSUJ8kMQ#CqjKsqF@RI9pv{FN>#~-v^eiOfvq*>r
z<DtKUzvJ)s4S4WdEKAr+F!z%qW{(IaT?zPtyjo5-vDBxxKbLMtV@{{r<m^~~6j{q0
zTaOWyN80m`Zw72<`$2nX@9~b>FH3~rMS=c~2jt&9UyP5;VLj*)Fx066Ee+b4Jc1^B
zOi<l&WFfU%%gL{wWmict3RdjeZ9gxCO%$YE3UA=f8UB0&wk)F;_C3w~tLA%+<6+D-
z!m#r0>ZHYK_rS4x^R8A}--$bK?A;QZdhQFuizgL+8Bb23&3isdacOKW=~Hq=+r1Y=
zbv8wx2A5aonvyO@OWf<@*L^B3+oht>yp3azCH0>SDwa=7(6Xo)XFXTXTvHG=t&*2#
zK7C>fcR7_O9Gs<)-`-onle4vZL`13S!l||v!4(*^-C4_Gz20jfnF}{$Zxnq6k4f3l
zO0`~?JEvuoE(_(Je+N(465L2}%z+GDz0+NMc-48od3>@9i&xo|!+*W{q>JT}X^Se$
zfz9kR4c-}eoqM;pXJC`}qu%^uB>98fA}!ax>kfh<UwKO1`9ak#Od<>D7_+6YWDNG3
zT2;GaG0}T<xG)d3!+U66_*+@8ll9tS;-Gdq!l@9DVm<hYGN+!pplsPQSKE7!y>={r
z4z=n&e)VW*V4?_WN$lk*ygfUCppqXi0FM+*Urz~$G;=kY_ooc=lGa0e)HHB%k-tH7
zrjTQ8rQsC{5BGwkXZU9BD^OLO`ZPU;&SoiugCULxWnV#rZ>HrIrS!Seu;)tq(Mu<<
zUh$G-T?SW)*D3^I#_=q2&bCUghljAK`<$g-)@X&o78s}EIaxIMq0Jwr-tt)h|9u95
zHZ@Anw-{k4xGbaRX2u2|tDckI-`{@6zD3qxbPItvU~g1@r(!Ln6KP6lkG79iPKOW5
zsJF7VYL36xYYs8-8rM|+C)veH=hzIN0Y-xD_GN!XwnU)xUzPg0xN{dh@PR^VpXf0>
zk|1l3Hd!5_gzisqyJ>}Ep>eLb@{lV(;J2A)9LW)icK$2bXmARKRjZE6z4AAZz^aso
z42XYYAmL_R0LQ<Nr&0T3pY8^vGYu#1ZF=&y74!4wC%Z?xP!|Pm)706P7SyGue%9$i
z>@-=}ot>t|+MleaRsa1;d7G=W5ttO(Fj?sWPE_X2RTW2}Pk0$kk3xPn-v;pBrO6;4
zXQ78=bkvnU0fd<Y9PTd{_ouROk+uC!C%ZT(ZqsMPqIu-E{JIhmwHyvhkMHLe9Ig{u
z=spOZy1zH&sw+8rCWlxuR`Bpo1>8Q&mL?`1##N5<nqIAxC}}TARrR}FBFf#de~Cfg
zC}+R~Y;DZupOtmAJ4PreH3%&r%5-&4iAns_-;AX1*k+PqQTw00dw}L}e^FY#Q64L<
zh4<>Jbx<nVzA-8g%qocKL2ckBooDR>qXaJ1)p*p^)jY9JAsmMMpW~gu@Ze@EUBv!^
zhy4ZEgpC`*xOI&6-`w-UM+vBXG%*#FCs<ur{Decfw9j1nx=_G6Bxis`a-|XNix>{O
zfpmN!8NZo}{Y5|KVweC_ijt(<Ahcdzt9|~w#1GTMYRnxj?La8FT?fD9{_%05Qpka$
zCx-%Iw>naQgYWfI?G+#$Xup+d!6mH3=)Uo6q0mEIr7T~9+Xv(P;?;Z7UflV(sHK)_
z@Uk<#zaK@J!%Pzzy2^0FTSukyS33`v(rv5OOiZmX)s>bOf2ew9aGiPu!L601Ko#uU
zi_U74cwrO*e%(`S4~k$x%0anhc6tAkFxOp{coHfHqz#9ZTh++AYu|VC!k2BuwFSHE
z&L%-Td|;9$?sXoDZY0&ziB1eo-OQ~3s4VW10<efQ=7!t%a|tISd{mp|(tL<6so8c_
zX;9tB(zzd-031&2e|Vbko2-P|pX>TCeV;+xj;R&nWGU_si%q@aH&Gpys@<mIVeA*|
zr;F{hPI0R~8`L@@>{AbTPz%WYO?D4Vu;|Ych=nytnXSJ9<8Rl_2%Fv9cyDT}`&r=E
z%b&X&jmOG(&(qBogItc^f4EmO9a-c#SI6ItMgIQk5jJHbl|PP1ItRqxMP+5{N=f?4
zA@KJi_mmOp;#jmkVjSzls~>^5ZrT%J16|=<j-M>UCx=T9v%zzc_mUL$;I-e4$2G(6
z{6NFUT(e?(hO?KwduG4EH3Oi}e<8)PtjUb^cdmdnmzd8FS^7U32EesF;M)%q^k?JW
o8~i(o-yP4ta`6Ai9PEO2s*QW=8w`Kh$9m~#8r&?nVfDxV0xw3yu>b%7

literal 0
HcmV?d00001

diff --git a/docs/source/assets/deployment/dify-settings.png b/docs/source/assets/deployment/dify-settings.png
new file mode 100644
index 0000000000000000000000000000000000000000..7900cc774741b9884869a5a38fbb0348f1b694a6
GIT binary patch
literal 53072
zcmdpeWmr{Rv@VUbf^<tMDInb-jdV9s(jA))5tQx*rMtToDM{(>-gGy2`N`%x&pG%0
zxzGJ^&i%1@*lX>%X3z1Ccf4bLmX{SrLnc6mf`USmlz6KM1qH(eeD0ng09WJ?;0>Ul
zpta3JMC2t!M9AdrZA{E8jiI1kMmj}&mxfVz+S$q=%JL0;I6H_B-Zwy9$mvO6Hzq~}
zwrae3dXDe3p$i2!w&VWu-+E7Vxc9S*?)=H}HkE6+5#3*b`n3wjGJKb=51Efm=Ao>}
zQ;#b!1hdWYHSINZbTw39OAj*r?J*5f6M55mvhv{;rU?d!pXb+#92NI!*PXvmXQdf9
z%XN-bUbgX+hC7Cjj`Wi6#N(hB{ETT@!@vj%=d>JB{23S(jK&|EVsTKfRhjpje(h6T
za_kB3A(kEG#42ubo#Om^J)Z7ek$~-C7&8oG(qReV4kDAUktWPwmb)!{CwI(AxGr>5
z%dbJ0^xGlP?FwSPt|Th2Q7MFpL}Kh^=C97t_`*jRSGwM8PaThwKsAzXavwDL;$F!j
z*Ol1K4S6#ba`HQPQjRam5+0Bu9mc`K_zT|Z2DxYjT_FwKJ<;Y$zf*W`BTBcW0}MB(
zvAU$myLV8u!2eI6paadI;DG<2fe!)j0cPbZ4CD$7*H_rb|L^|X47639f`Sr+l6)(q
z><Yazhv<skL4dHxgpG-5F1+7-j#F@=D|%9(FS_H022bawF0UZ}T=_XRibU*u)~9**
z{Zv6RIN|A3?`6gfN*eMAqbaPG`oW&5)YQ3D&-jhK{TMzH6kNtHgK-Rmv}z@AmnIod
z@Gk|Sk>!10_ULWbeqrxSmcx=1suqWpDr9ndczVuVx~aSTx&8br@JoGU?N%>hl4sAJ
zHBfc+t-(ObKJSKuAvvTq_5&|cL4GR;O#>~L%U1IE-B;#C8yQXXtb{HCq}%`us(lJy
zo!CDOc>Yz8`k8)2w4^m9lmFlP1ffl#5x53Ov@;)?Nf!O&b$1UXM^wDfLm8h+D1RbT
zj1q;1CPqlY;jJ1)5%%={Y4D$}wQ2YWg;gR>JoNK<HziOjOHb&kF{EjW^lfBaQ~nnJ
z^bsgxgbCD|xGHwU0x4sQqaU%d^PLSc5-gvg{8MD?DM0v;GMp%{yY0>v2_RideCs15
zOI;t?gbFE>0*|-K>24eP(6#?j!(rpn80LA6p?~K`)iCXuwuxqAQ)<Ly&@+rZS?+*w
zw1y&fUP2tr5I>E^%v_Fl-R`Q>WE`CHQmKJ*ylBqnl#rdm{S1otr1e_S{bk(aWctJJ
zNkmjy-%?lY4YfB_Rd%_w_tIVJchKkI)L74a7TQN2(`Y7b(Szr@3rkLoGwn+XB=x>R
zV=Gj1!e8aRT0Ks<8zgETywd?k(3#5S-ZFg(%rvUk<SzA`iNoW$LOGrV9V2X!nf`9=
zJ?Jr|P{`BwLg12h)Bg5%Wz1^$@(k;+8BfdP7V1`7`;RoJ(53R!u*p?lEUc|pl$RN8
zNf|x^uCT_}|J@_czxv$5(_`3YWEviTKenbAQOh}@yQQ$3EJ_vPoF|B<=WBXm=1w`_
zCTLh`vi+B0ai!`3z0cID`m}6XGFtDGIN>KUGowEgKhg2u&?E4%j|G1dimt)Co#X7T
z!&BQj7r5_)#W)u#A08VjIlfgdducEmR#+jXtFI5$;4J&$TOx}mPDVyX$h!vq$_+|5
zF5;P5u`r^keydjuDLgJDR?2EA9>Qv+9mzJHU%^Zh2LspbCtPu*+Qr}m9&fWZ7IW|`
z-nXpTBKCxkRa;B0f0>Zdn%g%tW;y&4u9>6>L*$cZj(?hWJiRzLjzd$r#&XVAc8=r?
z(^e5Oi4nc*mLgRjui;YeVe87;!~(l&xm&;6iN^s_ym7zqJ%i)^@H3^{!Ep;Zk%^2c
zzR;7S?J;nl{?5F0D&~INj@#%dSiP{5NYZVuW5RCpK%sIc@3+9>=vHOI8&E@HEvVP|
z#NFws{d(WGhM(4s>51@lkcnusLQ<cOayZ>qk&$O$jN*1N4_;g(`#4&fIYA?LEACC`
zo#wS?Z1^nQ`v@9mATeYk&5P*zjP%X1@zQ8MtBDVVzqj}GB~M?<8IRGK(sG3?&t2_s
z1_+DQeV{2|{b=?wxPL9KKRKzlw!(HziZVx*s1$4sXNtL4^<f-O8h4=W<Dp?+JC}24
zVxl(Wq*<(ir$@72XKMN#Fq)&{ptEJI!@arRO8rjcr}vzCJflu$3E#EjT^sc6;fMYE
zZ=aILPrtjvIvp&#R?j%^yisetUPr027=a-_-Cn%@P4N^jqJK7S)-OGsbg#9vaGqDi
zNu#5qgPfnAWW=Oz7{qeQt5vgVYD?v!-Q#^bhWk6q4p!&f^qSuqhnRiUO1VTC+DeN<
zymnyM>8@nXy?^(yp=7%-aR^*tb8p1MNJb1*D=x1S)tGIBguy*&&DZ_BTjTaJ{mImh
zH25GMmtAHYg<MrM2QK$B!8exj3)*sK-@x9!pBz71P1V58xa|Bm#L7KkGy}ED_AGbw
zjjaE2GIVqM<_F*BVb=d1VqeIBeM1=Su(T|Cv+~+MUnKsXs-D2CKl1BxQahCX0)30@
zT7^mfb`^=!Zl}Hh6VpaQKa&McZbeV=>`2x(>(fZ+-^VH(vAOL$?n!J`3A5H5{pTkq
zb!PZDkijQ2giFcv3*idnFJM-ZR5jX>nHgv33%AoW>)~?YM_ucUW3MO^MeB2tA!N6<
z(-sXlGVXWkV&-H)p{w3s=!v2VPBM-ivU=mWu8keiKi1`OaOX}wry&D5;Oo+Tj2XCw
zr6?p}5@MyX=2<LlCC`;_JFQL%no8Frbuq{|Ut(lkZ|<J+zs>%#Hij2>)Iha4u|Px6
zxV4Xr{VNg7)XehKu;r3y3Ko|6CRo8FK3an;AfP0bXE7cL%SkO(p~xcsV_TQ{1_xw2
z?osGVN)Plz=axHy@>H1-2zW4K8I*pd?A->snTBOCeWJN>^min$Huq*ieqQ*IfAB<(
zC85sf^Lw}P*c}R`uEH_vFPLlQ%U~OC8Aa7!l<@>?Mf=LS2n@Yn4X7b@X;!H%ip+F9
z<uXT>=af*sB<hfn07;qhWz@o#sQi^M9W@p#NfUMao^}d@zTQR~G{FTL(%;1bo$QIR
zW5+GlZfu9@#F-&0wc+6$B%4!necN_6xEEI!3E&F-ltH_x?&HhSqTE0W#mtluXe?sZ
zL-rD-2U~4>4MSqy;CQpUZ{44Egk#|C?R_c<@(7W+=XY2qI$G^PL()uunBY2h_}LfT
z_3kzpr6~{-I)iOHS8LxWzTyR$CHXdLz`9%7Q>dds`ZufwSmG<UqYseZOai7k?431S
zAp}DRULn8kmei9Yf!Jo~WB_KA_k`-RL28%K10cZ`xF-{WGxV{53+(mJiXOqt799X@
zJo!LxAQf8zc&Ce+!*A?yiFyJMAgh!n90GWJ-oaha#r=n;w9UcErf~Xx{rXj_#M#xA
z)6d`E2GpuG=gYuVOWSz_=|Nop0D5Zc-W5?oR!S{x+g^bdwjl^oc@%b??Gj8DAsq{g
zV*KIxx%hWK_((dn5~K5;JTw6RNX2z!KbS#d7y|=?$!7Q35f!}#N2H@yY9&PW8w0yl
z44G<^I<dch@bdqyW|8q(1WwATqSQ>(3{CMRs{Jr+_wB2P6L|<mtyK4&>Wgfvp1qh(
zpo-xq-E)we5>JCZf0m5<-`_0D1$yH?k30SaGOus`%m)RTOD+V$r2&(=1JYBcgLH5B
zB{0~bKC`J1py&=1Dc|rkD1Mx=OaP+2fw6x?uRE`R=}0>dsD3<?LV>6L$5#H|HDoch
z^H!<(`e>*+C@APBUnrQuVw`^63mA>|sI|gpPZz_*$esFbM(K&T+=%=UFuEM%PQ`Ay
z*`nswX6s*{cpt;^&V%{iSPZw(<2o<B7%!T!Ea72PE>Oo2MaH)6`<1YE;rf<A17^YP
zba81To_S+Y;bB-^zWEpn4Qx=fcKP}TGM~&%{QhR;5bbuCVeD$!ZTeEL<b(l{Ya*k>
z5L}b`1f$i6WN=J)^z@^>0q&1f_I)1PCpJy2eXj=9@o&cI@JUvG?#zcyQi$7ux}U-|
z-LUW;Z>W8j)yYJ@$$6LtGBlVtc&@36OR%{Yms^Tb#PRQqOsAG~J=J5D67A1FKfRl=
zT^==4E|6FC=H=x*IXgDMEi>;Ia|MCE$$$4)=kNS6e;Zh4*6Y05OZZWft>8tn_fav0
zleud9C+y0TlEE`?6!Gx%pCPSYL*TB_qm)Z&`9?8pIQX@35N5>MKrEJVZ%o^lq0@-*
zH2=V`MUP3*(PEW%V>GP_XjwTVcBTW{P~y&CE^Zv)ny$Xo3*bJkg=Ao$!jwlA7D!D;
z{cndN4PWY3y*?x54C(HcNVU-xyU6Z!-PuxeDh!8vKAe4`UYh2*HPvNzHVc|vxaLZw
zSwo@PmQCXIL`T3N{B|5(NG7To*g|?*ZnsIffXRvfJ-Yn&2&+NDaJ7X(Lu~GXgWTfp
z!2J;?FRLN>6Yo1oI0S@ED*%gv!OUl=udOL*<Cy$cx1T+Y=zm$zx>EX<vsBN~+RT2s
z8ym8|ttH!reY@Tfj)^1=Q!#t4!|3#ERpR8SCfR>bZ>`bT>KQQsLv2iuw*1V{@Lv3O
z-Doh&<h}H>XC&c`Qw_RpXULUAZQGkXt&v$KYHBe=&N=Stjy}ni*M`gClhy8|>-6gH
z<LYArDvYHv0CRESGDX`wQ@}=e;!?OC+TZ@1K^w{<ZeVC5s*kku{<Btopi3-m_u*Rn
zmFrX>dVt)V7GboJ>PHmFc|`fF>`ixM<@wG$w6{!B7+s_qv)wP5lg;t@e8m~(z27>*
zv2<}Gm;Ff}H}~h<G4%Ia{N1$XG{?vp7>TEAUZ3;XZszHxu^6H^%-&O`d9M*Sw-`?7
zR`wM$I_?cgxp?ZxGtgu1D3@v?!K2J>zOY!x;qvhGkk7IedZX;0<FY#y4m45ioA5!t
zDmGV_2jarj>7owfQj$$|8oeCExm1LfZY*3qvC?Gk7?KlPzQt%A(orc+V*Bw+1>B#s
z))%Q$JN~nyV@q(|{wH=b1K_Y2sm;9|_QWP6EbLm<Zt$3zWqSSk8(p4zyz}OKeepne
zSeTG}nzl)zmd=M_O)IgGE0SXzMwJyG_QhgoCT`*%c5TNU!SPS?8ZxcxNeX&HzK3Gb
zsXeU8trz+r=`c82;+g6pUw=miDw5n6u&z`+mPOTIj+Nx{)=g%fwcZ%vQ1jT68gkO`
zpMD*^hf`{Xrwuo+BA7}^f-B8>(Sha`9`YDmEUuK6*&RFo88C^$ccI&{%$64uZWHV8
zY-9xDL&^nieW#A^J8A`PKJD_j6bk)PVa+0`)wGF&oUc%2yxq@EN{DAZTr(1DC7-u}
zTcKNrhmU2_b=?lE(>D+o8<Ot$+<rdo-YJsZ)moY_*(KLeEJY{sbGvUQ?82kJ*$w)3
z(3^zae0?Hv551q6LZCL%AR0~SAKV|!P4DVfm$NxqlFdjpr@-=bnpskM5Rud~z^3(H
z)J2W&TA8VttKN-suh$r|`dL)lD0H(!_&Ropbu<l))>W3{NVuj?H$S*aafH``=h^Z1
zS9W&;=v!K9U5@V0qE<Z4+e`5TmTWxOZam+Zsms|+Wp*N*?wq3X6Wrt=XAn?GHJ5hT
zAvf6#pA-bz@p?TVkR3|f<)28WNwH*=Qs2IPTdyb#h=}-TSF^OV^aLH<S%p&PSX&%v
z%k9eyPeN{PU@w$-7`4BrlGLkaLYnMbOdI#*sfiQR;sIjKOgq>KrmbjIN;T*(BD&`7
z$U0qZ$mlMv!_=VJTkD>NFdc41_;L^Zie(KP>5+<k`6c_9daHyv7Y*W)%D1rtHc7D#
zn}uywC90O87s~t*r|r-!x>Xf>f_sx77(~!l83{0y*jOl#D~r}Z@!8$5@)pR}%#s4o
zPeFou5X4ZrU;$KywM)q9gZY;yQ-N`DbdG(uAd*1KiSu9_XBl8fw&9!h5&&;Eq)n`4
zO`J0ka+;Ra`ZQgPKXDAPai8G)<_vfen3LLJA?-}T%Vqk8yw0Ss8HRJdpPjNE@I@*N
zzph~Y54#T<?Xb;B?k|S!#o7#Ao=N)=WuBVsUEwud2MdA>7GZVsbceC{<3`)|YJE>1
zNP<ZvGH!%PM>2FJwa#y2ZFo%!y;xS}^<C{VQJPW_tTrM<2)9Im&pbVc>R7sXW{%TY
zEJXiqcw3x^&LD1MzSCSQE4h<vMosJ>QE<|kcbt}@$X15idAvFT=fJ%+gnY84gEq^G
z=tKtP^j6O8^#F+Y=7;*6Xa^2a<Gq9a?L*&Rp>$Vje@g9s_{lc{quFX-s@#f34zTz`
zweHZ6M|2wwBFXV}PwwFrkwS192X4e?kt54m_lm4fEbme(^LFm!9y^;QE10&mcYus1
zZK9SP*5{O;X==!9?M%5|-292JYm}Eg_7~2X7?@k*P@Tv7Ig%>Y#p9fO6?_4$g~-)9
z5dO1w;Uk4z>4G)(&JI70uY%HxgUd>;16#WLxA7e+kR7(?3@zPIXpN`=lXAxhL)2v`
zc|c*DWobSf5WJ+`^k&rfHyfB^Y4T7>vZjaszE3x(P_2||%K2mxsV}ASr6fNqWHHno
z!_=VKX9Y`X+A1bz740}wIvxxupkD6~#&@*bZ(&%@H&FDjPi+)`Pk%q)M<rR~$+E14
z>UJMZdD#cS#ft+dlPukl%$#95%4yqOasnV)MA>^CL2o0CqYz4C<Ma@jeea8ak)^>j
zo^WHjan3cn0LXH_e)6ZNP-oayCO_8+nc*o#UPL%5XB=-=j4NrEm6;BsMh4!|I$CF(
zRb!vXyIWHdf={E&6aNxA&2X0Zt9X@ps0HHFl*H;OoJ@!Ooh@63yK8F!i2L9WNhQ;*
z_KwcZ<@45@r8{??oUSF%Bd5nA*cK-wi=b_qgfW%xDJ_%Eg@N17WH9xs`elRwDXq%O
z<n@&!D9Bzk3h`m^Cjw!F8D4>`hY#65A7k#X)OownZ}g<10EVzlzyW8uwDtb`y>c%)
z7G%ksVV4<4P%vFN$k>FSO~3}PjAEqy5=X$7PBWBh3SVLGT1(jcp#8bY+>0pplU}oP
ze_uSyFvD8H9(WvjA><N1d6d2=uAhL*dYJ|CNOmk+YnF1!H6#7<rp>_w1MFNJT~e$P
zfs%rkSj9%^$y68^7$0@&f<7@cB#NS7)A}SvcW#}MlX}Bn;%$w5^M4vcQ(OLJTZQh0
zcZ>cTD`gCgN)rWWg<%}(%GZyet1j~&PS_Fc7q1<$yZ1qJ_6QymtW3YG-a&C!zQKF^
zziUyj0jayvvj=hG>GS7CB&=^nPf=V#VaUnJ-I#fKiN1gTF6R8nbEcwEszlYRK*$d_
zaAJv4D8dTWHmdCPBTY=D-@8Y<G9dAFq{<EFPB0hxhYe(<D>CSV$;3;9y^L>C=Y6lD
zw+r73LGJCjLC-j=&7Hb@dYq#yNx&QK>Ou($lT_lXXMG&8XA!0iyfeFL^hox<a6;O1
zV7K8p{^bUmeRxOKrmWA6BqK($>``+{ssujG+2BA9g);wt?;p2PA11UiBlOlV50zgF
zJQ)xFyOblMe0Y1;5*Y`b8)>BdQc|Wo4@|;8oZK@e`G(Eii<UjOxV}bklx>lw^$+#+
zJhvycv8gJ__d=xQM=lKs6)z;1-<)p48k2VW(G^87dCLwd3GI&DO=gJiPobkc?8my<
z0^UyC%T8N3^Y#HwL^(ORiz^eM<mm~8#y+;2@=;h3uj7t1thAud(p#yWXH82**nh`j
z(fZlJS;&Nc2%$<-SnEQNcp6d5!Qo-R!{Dq2GB-CjFD@+wFV5<^Hh8{C`#=nTDQb)2
z#ofDi?(=xAs|pIVdwMwbhK847G&MIZX7lew(4*MHiO5qP9Uq<e*=Q5JH#Ag^SV5O5
zqIjrz@45W$^X<#s)PtL|BV{xklB*STf;c!XgpX|!QL3pIuGl*->HoEt3}k4}J6UHh
zYFt9G%uUTAD01J}uFj}CBfcDu{5$5hwa9hg<LM)^u0ztG#tbf9*m#J?3iyK8!T()d
z&i^*P?|++y=xan&@;WlC_v!grOk|`Kc${vtr83Rfun_}Jck|UrS3xzQ((EbVaO+qf
z4#!IV>S-yQu(JOp;I$l6GO`x*B-f)?b$R94>3(ZatJ_$G($U+$r?zh&HSp}?%kKTd
zPM-F%g9U8aPsg|nBbS*i*Hf<q*y#TCuVdaH=7EvcelUKdd3Ao8aJYH>gK)AA)L3tI
zJWkvoYdZKT5v0oS$IH%xN3pw{JAcY%!(URWYdDq<B6&Crb1=*3yL;mL_1ZlF4;yPy
zJUx6I?B%7=e?zDCqTI5B;O6oi)pDks@UXzRU1Fo1QGY!}v>}^{_E)`%#IKz>?<ZKf
zeLsh>3+<>_P8rBy=P#ecGd5b+e^zFo#SFPU+fXi2uSU1CLptShTumtH>KQS8eVSgM
zz<00rv$OO4#-3-xPSWWB!`u9Pt=YuNI$ooomf4^|0rA<yk<RSn<Oj3stM&AtC7{BL
zaeIG1oOPR=@w?DrMnL&}o55Q#G2x@o=U!VZB<@!#M4Ya8^$u%qCj)|Ai`3+rPIgu}
z-S>F+_HR=LqK^WQv0ponEJWuHeqS`8aJ)NQp;2hjHuDhJHq2$|DVAvdgmzERK2N%+
zOes~3GdBU&=ssNaIJ(szEOBkVA5kxEXfR4|0{K6CW+$rG`&=cEt>9X^M6zTTFi}GV
zAVW&ES|1-v*^S`VWugxqdNR{jt5vWN2kg1+D}4>=u#{%AOt(LQs+>XXuXL=Q<1hey
zfsO{AV5j2%O<NK#-dwfEtG@wb@H%>Pgj}yNrEr1>qH_kup$8HaNDbP*Xnc^b&8gRu
zkqJS!ZE!LV227<v=TFjd>FT^bjk2Hg(X+z4Nh*iyg@cA?O&u4eXTrJf<5j=|D;Vda
zUC}Ew*1z9YPxm>{9#2cl8B8^O=FW?PGMztJcx}4vszdGAk1#7W*Hox16vos#dTm0=
z{hZ$k%$XWY2LTmXvTeh0MEQz?d&CDFd87wFDbB&x*%Mc%9e@1VY3rGK@!Cb@5_Q=P
zHVe#*2Cp3b^Lg0G#{IAJs<o<4&BY=!I9GTT_KQObsT{_gM3$3H@0fbii5t&e{3OR?
z;h@xvaAUyG@vlYj{?ZaIU}W8&%7e?>%*%Y!%gpI=2UD{@Yh}%fQ=m+X!NkNA^HTLK
zyung8VT!m-RNPB5B&mGsPUaAsQsIC_l`=B>uuJs$Y$@pZxP=#)v=CmYuG(i!Zit;B
z`TZsh#o=9`-sWD4DgapExwssRCW_hY?CcIsPJSAXp;5m2<CSBe4$T<N2E$>;GwQJ)
z!op%Tcs9701@5KJY~O5d;=!%;7{^JPeQ$4v-N$glCwAuz+xNQZr{}g=Qq-B~au@Ik
zB;EWpC>A!x@YV#nn(R6!#=72m+jV{o)2}Hetk()MvXo5vW-hVHA~3OGyPAT2h+CRc
zywus&#pVq)EQA)jSN#_zJ4|jK(w8jR@|l`c%~suA6y^Gd_8w<r>dlPa$g91DU453*
z6(Sg@{DnE8-Uo+jvXwb~KYHjTdV6z45V@^leFvicxPh*xt*oX4Tvl@ZQf{LRY#Rm-
z*a!;V`iVNpYIlC4vt_2mP`05(CADtBm{?TR3GYa5JW1Zn#wB!JNsf0o2{RlEPodJa
zYF({`yF~nGA#C7R-BbcMQnSOzlmFzLYbQpzq4xJ{YMu<--$ot^VF(P(^+jEEL#+$#
zd;4+B-#sxNW46hP(XzFUk#4aLGp>_?a41(uu6bKi9P6gJ3w9$Ol!-YEmC=~BC*8iK
z;^OT}4USRxr7x7a000otF~QM)`Wl_AD+cP<2<xeDXnE<1i`Z!Y;f3}Cov2Rr$N7eX
zhfmB!K|^DU*J1eh@#E&s!GSFtB4Q(LR0$|9yhqY%mny*)d$Iejg`fWw33YO--j^90
zQ$sgm*5)t=o{2Wk2S>yux{Y|Nq#@Y{R1BHFS$u$^cj-(uee`tw0sh_S^=k|WC)Ab-
z2o4-fXF;kEM988JxXTEz#|QtfAJV(vO5ggzPUn`})zOiDb>gShWiqDAy6!>ILrpVC
z-QoBk5a@eXm-Owj4~O;IIobY6hdROP+peF>+hZ?(P91Ml?42|(UOr%y8Z5xW#T$D`
zo}QQY;o{QRH~h*|!bKv^Nlntnf$E3=mdNEo?K`*P-)M{W6A6ldKL~RV9q?|&8}hQ?
z13yE&sB_$Z;jIxWdgFg}OaJj%DgSs{kEqv(1lq;5MhkPbo1XR&b+Lr|@bJzsAldIM
zSj2<wejiFbOpxl6y7tOB09zwlraj_zWKQHd(Fli=O*`!-yghZB-nh)Mwt`j~IT0hH
ztP!q#qg11}jibFPEHypOD-M;^qEpr}PB(FeJv6kmzh)W1wMiv<;hpo%*LJ(pY`Hpv
zsRH5oBPQIB{$YeJObxod*VQG*8_QvWcUo2A{SEJi^1-m`jn*P=I_?Ewm7ZO)O#-Wi
zMm<rY@vS3H+z#vXBwnkpVhWW3rHr<WJ(_fU@#u_E<KdRuzKG;6E)(A4*<KS3L()s#
zYPVu^Sz6_M3u`8o5^fULP39c|+o8j!jPX=?p!|ENm{M&*D{e>ej)K#JvqlleAxa)1
zZb!KNCV|nl7LMK<ryqKp9v9vHU+j4PLAbLWe~6+SnN;8JA_CtFnOc4N!D{-KQT2IB
zjR<M3+n}8p@3so98tYrJ(NZn(*5NDJ3CZo@3M*V}+e>QqTOf?{VYm)jl|fJ6t26wX
zed?%UX(U|Wb?+}Pfe`%cUR);CQ4i1a<xAEw=dt%PR}Q?(?^h1i+s+*mSMMZ(2MPV>
z+t(Rp4$k#j_4fzR61cZG=(R|`kdt~P&06OV+}p2y*qLu+8e7wd_-Enl@k7rbaFKf5
za3M5}W6U);3j@joWSs8sT7;HQw6Szc8;4j=?bg0nD{y*Vg|t{Cv)gp|H>bU6jEyUO
zGKQfs^^$?)NZ)E9AMvXB2%#nqv6ONJkJYrlL!|k7bFgZw@`Qb5Fo_MUP^xRy?3N3z
zvN+fEV6l8X?`h$q&`i0oF%bCeL*$F@WRA(3Re)5J<mw6`;;KkCHf|NTyCQ6Mzr}!$
zsgFE@TN6r~tyicNWAl`A-kq|rw7+C1rXMlw>+EI{5DMK^af(o{HaA8kyect==Z4$*
z!4d@*KIg`pwZD<kAsuRIIa#NHSk0j6(#bm58Ul-mv1Jv04np4;bMm_BdD3(|A7}z%
zd=L{6!2@(cw>laqh^;mEv!Tw?*4F3o;v|ESb*m@cacF-;07>@^r8x9AYA&Tk8p%Vc
z)%w3N;Sk_9NuhVI`=mKtH(w((U(zCD(+35TdLq-vr3n|gF;vIgJNI$&j-1=g!3^Jz
zaoFu#AbINI7gp&1Zp~9FMA(tf4J6(9Tw|rlok*z*#OjG;)4BZ9FnImA$@?AUP2v1L
z_cmxQG+6PhGpUEP$nkGifohS<ocE?-kziWy?Re9qs^;>`G$SjZp{E?>x9b?PymVwP
z*4!_yt~Pgqg6JaJ#58w)#V`iYT(|ff97tcypVhT;(5e*#k^3+B)n3`v@q6lxUN>Fb
zj9g9fHMsaDynY}hwUGdZhRYs6n-)ty;G;+DZNCXe*s(+<aaeq*wwM5~i3Z1ib;xy&
zz#)?C9i5E%gtl#Xf9J1WYk(!@arTVh<LC&+$a~S?_m{s^8d7dR=ey7!Mqk5uUh{s!
z><HfSq|(!rrBun2Cvnb?E|Ev}&Z07%sUdb<-=aC3<DfY4u`*kV+M_Vzd&bihj{3$~
zM$hB&U6d-(lvg@(lAFLdE+(9Ag9pBGZ`^nzl}jImc=$Kv9?Y;nS!Yo9V(n=&!GW8%
zj>%w}XTz!W`Pu2_{cvTTUMV_>`-uT@o^G=n_E@3HZ^JC9SVn_!iYb2w*uPu38Yb=z
z8Dt(Cj7^sjOv2*~WBe<|etNe%GBZ!P+;1SdZ8g+)Ul?H}jn9Qd&+Cr)iuX1HT{UYh
zM|VzB{brv<r$)2*lWbQcq8T`@-%0oG=CaS~NI%Y+UJ}e<Ia<uazn#0bt4LFs(L>*K
z;-LrEbopgZGwQ{A#Y|a4KA*|KL5zF%3#42=-28HOA<)q#?-t3GOOJh#HuqqDNRj1K
zonmd8WErKgk>zL+eso0t!onJJFg8O}!S|lwX^J`Hs4OQ&xwP4!h7zxQenxaXZ&n1X
z`?N37xw7EhBO28;)`!_uq|omr6YuouZnwVs(ZSsvsTwobg7?`}1^jdN66F*Rqn;C=
z^aTTgw_I8YOq@xBrK95;>RUdvP!%Xj3@1bFo)#TKCzp7NFOI<yM}Y0`V~<xW)<xXX
zjWmkqPK=c{5kjC*Q`F&A)RXKaGfv#1EN0STFOo5l!+z??Mi74H^)yUKZ~4c2s_)rZ
z&DUp{N`W<u;TqpOG$hnwLSm!ha496g2_cvGoQv2Ly=%2_ih7>6sU(~9D`iIP@ge#4
zGPSI!b9Ua0|3m}?*Kx{>U1B3z`8J(U?>#8*QaJIaDiOEssCP$2WIKm=?>0rQO1kU9
zRB7w*`PLD~mZOFgM{=A{n!V&k#2P|)EvfXcJbq5Nr3Ci%MIF+jj3uPTMDYq{g9~d2
z!VR-{bZ9b3KDV|K@(fs(Pq!H2&MQ|Y8CizGv1hj67j~6O#A`{J72E6Nl&CfAXlE-G
zu!(k_btj~T3)~9h=Bs8`6lQRj=9%}@*J_#ap8ue8n{I8g5Z^v~e?OsuJ1y!UBWsTs
zaTIm5I*^SREnOI9_$!?$eY;>*zovo9dgX!s6NIxQTy@-=ME74H{P=s}?(0INA?nLG
zX4a0eE{Xmm_HhOT7Hg3xIG$lYvK2c@<NhRUf!o&v(s3n%r_-TB4LTg%^rT3B+SQA$
zu5OziAW$k%u6_2$5@xRP)RO4Y@67n8_ZG{~i!N+JeoHg)!X~~`DK$X3)g?%*Ke;Xy
z5N?=Nl+yD!4Mip)6>IST>EK}1MsyYrWncSG)|myTndnx1Fo-v%Qrf15{j|m}F%j2f
zk*hRuP3{{R@?G*(PfP!vSx8*}zEGuVs-uh6@_0542{-`I1!9Nuo;gYdF0=oG<?4dr
zd6k1jJ;e0xJEV~ewXM&2hy4~yfrT29S3|ttQMcbJG(tUKXsPJ1(;H9WIOI@?*g^z8
z7oaxi?BjByjwm!-_{?2j5V+dI@CJq?GsLl@M=L3GkDKCN)}xoc+OR7OZ2fvA`%8Xt
zptgT)ZFp}S>B_qSUGsJ9zs#*V(^LFsVPC(J9sm6H4Jq2YFXSx>IXO~0@sIZQXGBCP
zA1tm)b8gblx4c_sxHEn?JjGKdKs>W-DK_kuJ!(lE%^9;W=9Lu&M-+PQy-n2~6FI^}
z<cy;62Zcg6S9sAx!;yE42E*IXNZKZAzqgG}K|THl77D`sQORJ{ZU<~!B~^y){k#Op
zLcr}XwZ3Eog+n|`lN`Mjy5yPcE{|^1PWJ<w-KImf=%!oI%s3n6+qI)wHu28X>H)i%
zVcQ0pHc|<Ng<~Lo$~h&)I)8|5O-i;Ar|kk1T#NZtMQ##K-`fXI!RH#Kn^h-m*I5p@
z$#UH_$P_%spe_Jui6S}KprabAyHa^!wkSZUu72@oY98GuGByql%dU;5d5HdGrTbJZ
z0udJ=DiT3&Wr6v8A4))5t<{5=m>30=nB3UkU>}(L3xaTmr3Dd^Ar$A{ke{J;W42IO
zin47*-a<+g#v`Hry!$0|Z$lx=HjJw_q(LtifjC(h9rpTTB<<`^B<&982<Bl7p4(CZ
z`jJ@V<HzsrfO}!>jRJy(_zHEHKxj=W0QC61`HxJeHJ}L!QjIncud~bk!3+65s|(aR
zvmmVdps?_PDFNimb&3Wge<@EN7;7e=)?FKNrU%WGAha6LFzx);545o$bS*AW>sf6C
zE<_sXLkBdhL^<IhBK6g0=8rb{TB{oc5^!mY1sbMC+XqqNw(SCrQQa-WD*U4)`v2?U
zaMkjJZ#>)S`r)ni)ge&zrDC2B=!)+eeYxw<J42{h^WgMUbV>M9p+x4@#Ra9Z-Pm*}
zpkETojNo49udv<I#v8Yq{gO0BM`2@2(rg7j)8X`5eq%nC7qa;EBX4eMoiM~-&cOvD
z>-bk&FD>V4ln`n5(RWN?2KA~?9oFv)1;k7)?X#IpR>iwX@O(<ULc|>%9f7#x{+)>H
zN~!@Kmq!`8eU0Tzz`W<xH_*tZ4|5sib}u2J>zB6ifB;s<35duMF9sdP;5*pvYAR#y
z0TE?`v1K#Y%K-jALXVtVRwl{BRhF=H&VXD!f*>jEUrX)hx`DZ-Kh`A4-T*2MdYy6t
zwHKw^a~w8v-(U);f<i;b!10XYo2RgWVU#Ye>kzfxqSznNr~@wJ*c(G}&!X1&z!E3P
zST+kB$K6pen`kI1wpTa9#=JB43~+Ep?eXa?h+LntdPX)DTLRNN<yznU2rg|2rb+We
zd-hC?Y|dmDrpj|eSI7Ey6t>&#uULuZ0fEPTQ|ps0G!UYJGE`@vGg_j74M=AU$7eev
zPhO}<_f9!%9QN)<pVk0<p?tMMy8?t3mk%NhKjd|u0NhV@a5rAs_ja+bTDdg|TxLWj
zGB*mf==~aHa16>Waaq{+@S4)`rN5mDw98WlHb@_LqE=f4GZ&A_1aPndd@K3)fkal*
zatY5Ycxv%8L8Wr53Eg#jf4A!2*&-GWw<aiecXthhJ9i|h@-3FHh&UaU_h0B360+N{
zx-67iFu6Heg?}=CdVB+jHeC0w$r-rh1g20(NJvb$AdbSz#g;#6DhCztXG(n2<GDJd
zoXO>Ey5H4?!V@t@UfhmP?N^_?UGjsMFB9aiobAWabvv`GvYf|Db>sa6ZG+KHDi8|z
zTkOqR=Zw2U%??`4M8w2~H7AZAMo?iFuHi;Z`zK~J*(@9@M{NJPm%!e(exWbv5{tT*
z%J0y!moxpGTik`%N}U-6;AnpeRN`_gj1?-uI$5Z+W<!ai%QqO=@lkmmXq9f_WDbgl
ziTZkg6eQj$EmRpJE-x>uaH!+)UtG{x&Nk_!SDLLnz2!TJj{HNVO2yLWOk4*3OD>cF
z!~q$_&JWQl^ZB38qZ8%+h;SOvv~1URKx6M>%6cx?QRa=lw~y4jOU}1aY(!2e-!p0j
z*odPB=#3Y-X@USvNukSrjIvTM)^=q70>-W;$B60XWX<KffuH@4%O=`Kyh&<Ld1<D&
zP=@&Y>`WNvG($+zerjV-udUGkQ$bwXuKK~?z6r<pZkqq~!%4qK?TbYtOZM_*chl<7
zki5gxn6QL|Fox7$^`#EB<OFYT=W3QkvCWG9u=z>?W1-n90}o$b<vgg86qZPw=r44H
zf@kq<)4^J$Y*B-rx?#RNXYNjC!n^YtfR<mbc$9*)-NNln18^BGmR@)Cb`Q_uky$H%
zqsMnmDM%`N3OV_oONayK_*PJl2*f7olL8mc>T!#ZAivrABZDMn2EBwV;~fgXT=1X!
zu|4EC$deKO(VS9HV?4+rzWR8=(WeVD+7Psqcu}%)bK@K(tGaZ6<8~cdHL(6Zri}sM
zqG<kdQ7A3^^V_BgDc-VMap)#?2Gag1n+fXL%>)5;jVtk#^ewTx#D7}@NW8O{Ux=|u
zbpzxK0kDS_Grg#Lh@*_>R4^BT_;e>!7xA4+S=hsL;ld0{kPq5}avDV{faSqRYxdm$
zqRec&g<l1Ds@8og0IwL@PKvJG-RFVeA4>j*P^?h|^P^c$6o0@XEWuwO#FlR##UlEk
zGaxmQ#Tw)Vo<Rk9#$P~#e$NH5c!JP{@bsQ?1I60f!mJ6$D1ocDB57$ZYT7u&Sef(U
ziyq0VY$D9G3uOmK_Uw_nhlh6S&f+e1vA0Be>#MYbcBGJXFssmZxn-6~=Xx0${uCE?
zLpd|5110kwC7f%GO80Y6ou8<*>Ng#5&h~CdO>@)FG3WXgyJPel&O004-;Ia`YK8i7
ziLD>FO!_n}OQfGF7n_54Zv;(mRi&m{Jl5P$y{@S$L(0iY!p~c9#|mO5G{EeZ?SrlF
zzGq^%h!hjVhQ5E~)th~aGkwzLX1*zQuu$8_(YLJI+oL>FD|vsH5&L1fj?w-Cj#{mc
z;RxW-3&Higj;Tr!E6@Osb3BkdxWyrFy-<z|#Ad{6EblgdSBFk-&%(rAyboQp8=Uv&
zZrhr#$A(S$De<tjYjMk*BCr6l>ukL}rBGU}E!T^Zx68xXPj*x>w!f@NXId3@Zr7GA
zAM__II9?96+$bP&GwdOK&+dJez+y#mwkHsBbLr<uCzl^3I);K=YH$%mI+SN%MXynV
z;AE~M6j*bfu%Y$UFMEYXZY46XArYkKb<4VErYKkY@ngw+kTKoFmRk&+7Uo=Il^DCX
z0H8ZTu^6`!O7C*pzI{KMOdjZY#gMjlEC81$NSW<GKof<N?}-?;c;`N|GT3UG&mp5b
z*2P{E{B9s+>a+mPu}dzcbDe?5DZ(&Da_brp!d$rZ!BtuRe%hZj&Jj$)>xf#p&iK6?
zD_1^8nR#|58x1(Ef1V4x8wJ}lN*Wm89-g|iE(MsnC7!;<_yPZSU-_WHr64*?eiaT=
z;dEz|5olV2W=szXl4!o%sYg+7GGepO5A+Bxu_||2AeT{Kz~^#6$OuJtrgYkx#2izJ
z52?}&!8^s0P3H?wqt)+DrK4#fxJ4OAZS_&F-VNangnNfcIhLoYuy1kmO1J1~7LPa#
zx@2H@+K_MHYUx598rIzv;#i^TkP~N?pFflMZP5bME1|I^imuT1O<u0SQ}AyNzTEPW
zBqyy%3U??1wmf*G4?y~sB|w)E=fl*DRyp<zY{V>drH6}F|5_W$_jEXR-H7dZg8lRJ
zivPKjvabwhi@fuZYOe?ASbwSYo5@u5FRJY;Cj`!%Cx2BTZPqX~);*DSG^`u+%>C2V
z)*1fKdR|5_sUxyf0M;vXfo9<CIK75^!CQqM;Vnf`m58T76tu4+zizIOmwsomP*u)X
zM(1(a?;5viRLFH!(K##EJ<qV*T6UW{lrtNPB4=PFWZxBx7IP|dzEzEpU-4V5V_DDk
znlmq;%8H!NmRP!R-EUXm_Oay^v+wOm9eK&5qkOupJW_Z%R+}<d-m&(hLwYi!L<oV*
zX0AoNmPE2v$$a=kBiOOLyHG9lOX)(D4x%c?*-p{1bj(XXj)hB98o5-__A54(*L5(a
z%4G>0oZ;vVlu(8bC)uP*+qh5|YQ($QhWCQ&J<%iTZ*ArGDE(tXL%WnwBC?=uJk5=^
zY<fzM^}?#2P{j*xt4!#~VXhV_2@N!x_XSg$X%uKQN7ZYk@z$RdQEjbDzLVNY!Bm#e
zuW_0oN#S=O$(2nXV~_>@j?7tg9^Na?sYk7<vv}o~Z#zp{ZQuXMym-GVmrx25uUgP6
zH5^ymNdA2!xYTRWF(Ep40MM8QAg_=3>Pj>dH1Lx<S#ZX#Apbqh+hqSR=Zb#zDKNVY
z+CLU&$gn*muFNmAWJhwS<T_7h>Df^81K@*2$_+R8wVQE_(V^m2KIuH+aEU+U8)l=1
z1`@^!^vu|X$1FJFLYrb*)QYCRa!eGZ4SA}n!{f4!aVEyn>UG{qM74E}?YwF}r1qwC
zrPpYB!d+NGYc}>OU(?bkL@{x=<0P&0%>BpOv!pyS^MM;<w{gw#7x1U*#PRTnl7C@#
znXgYVAkbAVM*b6GPq$?ox-fY~mYmL5;n_uUs&v2{5m+u$e&?Y0V^Ig+mdADSC11|E
zNmtY^X5VxA2;9upd!5kMS2it`IRylRFO<g4NqPNx<4YH71x(3;OG_D(nQS8XYaMNL
zg1;z^G-EXcDmw6ky7~*ol83TIP^x10>hJker#adS*pg2!5=Mz=*o?E_#T&N7!f$oL
zT?(}Gi%483VGA-dN<?zXS`W``SrejPtq%`V%mwWfNQJ)c{l^5gr9Llnk`9vzjth^J
zDjfe5pXUCyxIm(f9OOEmz(V{q;+>P7%8;RB7zt0nwR_bBtB)6v0FoGr<Ss$%iO-V7
zwoqEqs6_Sp4I7Akbw+}vO#^|+`?Q~_0bX2FRoCl~dCpixF%%{0d?+OSwF++hl|<Bd
zZgREY?!3Do#%8fn<Cpoa3#C$LHe&5=)bbM<Io@H|eKg|FHY!hP7&y<JEP`8e2S)r0
z*0Ozdcxqmo*7dZlOJPeHHkyyw?-WQ6ULC0awXMD<m<RH#rYRJkPPi-D?HF~X5>i(q
zVwZwhQfHOm1;T^^(tNWtwJ=-BFHB++xi<9ZF?7N)7Tl+{Tr1KKbd=`Q0qhV>M6G#?
z+U#hM?L4j&1v~p4HL-_!e=f3ChKD-wj)W)%C7gG5jybvapE_-Ek>84ar1*p3j)sN^
zD{cE_0s$rO(`FnJlCZ@^{Xho%$`9bUlq&6tLcz`jQ8N2V2ak*#O;QydZI-YOW_^~k
zXkI|MYw5DV!Pr~n)J5t4O*}jmYKz6A3Kzh5gnw<j4<9^>RYbJz>@b50nRi(ld#Y}i
zW7mq2+Wt;tNzrl#GR5oH$vnC+;J>KOCD8|<Oio;lT+`JN<~Ub4(pWYRtR2)rdh*z8
zlSvO4g$(Ai80#cvN7R&xuC8uPldI}u8q5sVBkkg!GILGyv-yF0ID7tZqcog@7fWuW
ze1p&MG4ZAD^S@%V=-05X{uA-CxDns67P6weV{Z0Gf?NNB)Q0KQFkWLS!*FYNt>>YJ
zEgCWg&LjGG(*_<&>6s+B4xToQi81LTAoKMZAtAV?vSfB?z2X7O`BotVAwYa1dPCc+
z;9p}rE5mMKA=3-PWa5m%wiOpwn{r}0&%>o3oMI?=dT_}LHVA}$UZx0eAhFZDxR5Jx
z07+6Fl0@@}2BiSlt7?9%{eaz&)u{oH%VM7PsA;AHFs^!jzr!O?P6YUk-aOC?2rMpo
zt{-8T%|7@Df{g(Zg+6orGlb0fZ`g>c$RT&gy8wU_;(zd{WK}wAYZGOZ=*ewl9@#=>
zakju`O=tkfh&=?fQk-r#SxP$RJ3K)gfMjXJbf61J{wcHSvVJSxm0+w|JQuX~&7%MG
zM3>Y4gwySG3xi8ebGYrCUnuuFP0+)`LlZp{T>gHHJJ%4<KuOGKH{t|LPO3N4s~%}I
zIZ^><ra>GBAXRA|?2|SlKU*aKxig!n_{{o&0IQ4jsU52({>#%~Z43k~&H3K;jQ~uI
z3}4ax7%4@iNBuA!>k-8t?TN1f5W*k`7-eS91)o>vfg5y}mg0vUXHDJ-1HgsZ)zvl2
zmB{SSZ0b;Gb|Dk%ivLbNs)9oN{^Mkw`kNxXnb{hnOWKgDGn&5iLqeDeV<n-b*AB_$
zfN%$6F(8+;1HfT!*O?d#fylp@vmH-sk%IU<@a#4QzBihyT%7O0yK0i$=O~Lp+CE$1
zlP$+$W)=Y@J`AuxWDJ;}M}|SsW#)%(nr?(icNB}Cj@%{2*GWX3{*jOwU7E|JuwY%I
z6S36V0G|6sFX%q$1_KxyL+j`OAYtpZ!@!F<OiXO2OvZSM7mjIF><l{Pnqy9k0EM(x
zwVznI!K?*utSHch6XOB$S7=bS(_zm(mKOYzy9TgT*;)oE=w2vvm_IF%Q~lxZZ^EY8
z3YP=Z@7n-nc|N~z)3#>td==8f`as9&DcFwh&2zh@`~`tA8i*>_rvoOgX0=bJPFZh$
zQh_vc@EF$dT&dS2G)mikyhvlHT8Yqu-=01zm^#~W%N~wo_Zk_Uh&SZDD2gE<AA)4T
z-CS)vr`K*G0*H-K=m4VJg=4wp-+^w6JN3tPt>+FVUf+b_`$kfDom6Z6R#l*T0kWt6
z25Chs<NYPeBtYPhc<jKZ?gQdBAVKUQsRRS-F6qlVEf--;M@8;?7XjI!>r#0g+eo$2
zf+MuP<JkdWAQ_0ZJO7gtVa*~C`+BMU+PeS)%Y9o63YTW0P%{yd%DTs>Zzc_)x8|0~
zpnn$C2S;Csis_C)cQduhjn4qW@#w4&!_Eajdk$sVnPr!7wsF2W`;9G2y3bCgPj108
zM=OvrA`<7h<bRQ(4Y=GWRoOxpX>h}`Qs3oOdgI;a-jST{4szQ@spe8S-1#{cqFoxr
ztdz+1mJA4hez-Kq>>~mJk>Bm9zZQP|^1`0&*C~Tr@w!A=p}8prQ_UIYzawdBIq*JF
zFxs8QZXqY{K08r5=!>SQZmcAFK#Mgnan-BcP?PQAVc!Rt=qM*6aiT=Gu>cvMy%EM6
z-)U!+6`?z6wCyo5T<of>7<S9~91el|qnRtM0rIWUt&cc(NI73{US%Dds}_a?+?NdX
zx{nE(nl0sP6*lPZ57h+h?G4l2-<ti$%r8S<qoJxSU`D=zMxOGiN{nZZnVd}O*&e<h
zKIH95)jMk(Tg9uxzh=}bM*#BFe?uo%(Mk%gZ6zMLk{Rl)@JI)*ALMJon?HRDq&l)z
zT)z8jplmImd;N&atRg5^EL#ZUhg2xQEOdDmUF;QkBY<j)Ts%y0Y)%mh$V9vGC5+*z
zowwO+EZwq6j9gn;DTc-Ci7=)BaiQkKe(z(U7Be9SXq2VlwO%pi;~BfB6>zV8p{Gu2
zpiVt6kFYDX-@g4(k?yU^I;bwOchl*t<{NB@f<6$+24*izqri5(QQOb#!ZgW(M}SLU
zP+_6|lUcZF&5a*TIp<Ov%?l(4n{w=lJfPrWA1Z)pk?0<^#mA%bH!>|Kq1t*86&K@e
z!sPfPUoH2OwT|RF9}1rFQZ14FR_9xji-HnduEDaUg}gSZHR(cy;;4C>KN2><(3#7f
z!g9B{!@<e)yCMJJ*4rfxwhtf<^NG9y4h}12IkXSD*@M-tW-kF+tYv%eSH?j4G^KBF
zRa22>BT{nBjzoplN<@QO(csr}fw7UEY&!F+K2U?GWG6k9EK8x(a8RkY?KGufl96ro
zA(!WR%7`=MH8CuOZJ{P%s7=D4An8KM1sW3e!50{pfHrXX{PPGIYitPqL}#tW0X2$!
zh)6-O6igIT>!kvstp9=+{QUg<!HER_(AH=Rc8%o%JpKp;YqQ(@jHF90elfNE^msqv
zihp>^@b^!S|0JF1B&&_~F_}$)fLvKO9lu%tg6c5w?4=K18h@!LvbhM_Ke(D{e{D0(
z<mSC1cg|>KC*`yes#2_5xj_}86Sc>)!rS@WX@v(!fdB{^mz%3DBY=p2q6mui?LT53
z-XLxE2M)*(6$oR`QtT7B%_upe1-2B%!o|f%yxQe#p<z>LESYa!$%jEl`VvCPM7=Ww
z#`k!0@eZIG@D#R*xmn^~+C_P;jB?_rG0=VPrLJYXIkH0yBkGl+oBSM|`wYm$=;h{&
zTYCuZwn_bEGdDZEIRgtOBC=wHN8xZKm$p@?zT==q*Bu(k<*Qnky+fFpH}|24r-BVu
zlEU<;L$>YnRGR0@76DrgV;WX<*3r_h1Q;!{K9Xy-)DdQWDO!y?G1Bq03eQ>iW|=I8
z$CG2uS0ANwJAcyMJ5nRYu@XHy{*417Qwp$5c$R)<gQUax!01P`d&5CsfYBdxmv~fj
zlmWqFe{RG6pKsT#R2H)IG(NdxdO*+-uizEk;*;l?CXdKyRGY~!PU>H4*SX@Wm5S!q
z-cF|mL6Qz;n_-R|q`kH|upHJ<-?n_6<+!zy;E~iISpAs4;Lh!_Q+35=<Ndrl9`SBF
z7ju?NxN0QSNavwh_~c}KjKE<}F2g2kIaN>EfxIEImomk=ti0tV0~{Dgw&=us0T}^D
zTVynIr5_O=vft#%=Kj#4$*t*k+F?PXgZ5mXdEmI?P<g{Xe;#AtM715hT_C}bc-X@-
zf^P3uH5i*&9^`ghz;SKe{EX;PUN@^In6`ElY1%j!O(i5d86aJtK{vFA^KXJ#{?mVz
zd?liyV4+UuuE+GX=XLcyGDK1Tl!gsAHexqb$i7SWJ8{qjUhAZwpb(@uvQwJB23DAO
zMvN8O`|MdzaIm!Vwr6`pL%zT>X>O$FpiQE%JDk;+uD_Ye60|@Z*Tr=(6=;lNT3;f?
z_dqzR-{s7-PZgM;>|K$DVuR@FTrXJwgBHKsaepyl!yP19A`i&Hd#r|m7YHb>E{Xkv
z(d&Z$q+v-oUQA@=e;6s?0$%xI(6bv97S_3%fB)6+n!P)&pOi*6<wp*K)=-NT_~UUQ
zcSmQJ!R^(%I%hWI$cd6=^HmjXMFu)RVI@{oRihm)7IP*0O2rL)8pEE8x0qFzDN2Yz
z%Ks%p6eT~dKKb17Q=s1PL^Pe6Y<xA3!x<3}fR3C!1JcUB>ic?hM^Q;f-JXUtw~NbX
z0GQ5=dxGk)S*D^=<kO8-@aNF6Q`_$K7ysBkBN*t7T>p2B5}I$XfERqw$fntAWD@hZ
ztPFluN~yVhbLY}6a_BrVZpCvr-YC+KxDBY>hi=kxIM8#G)|+^n%RU^k6lqr@B(qy}
z?D1XOD#D8ZFByRzn2T`ZJ$P9#Ztj=et4i%&AE-<=TB0NuQ>uu8T^R6HG`VE5(WX`7
zuD~sSR3!XFv|2Ot^ei`RcmEBx-NGI0hv^I~f;VRV%f<zUqnrEvp2kb*8V(AX)=F>8
z$4SP_Ilf0_)1}nVw8YC2606Fl@&jTq{;&+HLNfZkyGl5sf&tNgCPpFv$XQEC9&-oR
z5MQj%kfwg|WM8(}nQxwWwXdo=UZfL_a0>o0Gb6pPnk)OxNTsyg#2!bz+z2PlErTP?
zeaq>Ou(Ro~wc6JPZJgn?yGv2~oerVAg46Hjt1BLpslnD8g08UCw$5tlGLto!IqtLF
zgpb#+7~U|QxWlp)sQtc{y)h*Egno@`F<~`yozCq<aH~iBQSDkFT*RGYtATgH28xl>
zafPZSe*H5sPL_-zHs$5j75A$B-y9#7XrE&L6f{DPmG8QqLpklu>)!o?NqnSw9$W<O
zXL};GB+X@J$EtI*wtKT6RD5<Kn*zk5EHzzk!f0x_E(fNTPh#g)BbOTk=@T>WRnC8g
z{4e(2Iw-5?Z5I|qB?JTnq>*j}q+97!x*L)1ZV~D3mXPl5kZ$Sj4(ZObQ1JK8eDnQv
z=FB-~&O5^}!+th9?)~hwu65nlecdsZ_%q}Ju&QNf@L0nPa_0&DZUv@jK$!;vOiwiS
z8@jE?&0k9DyN6lL&uf+%PQgMzOw1R|hEC**i-J6%f@v7{;O5Ed)^#wqy4p)}73hM7
z3xc+54qnr!ONvvgUvUNN&RC3@L5ZBzn>(W9Z}esfUQ$cFy7R%Rs3y+$3#Z#zDL}dT
zd5PylrN|~cHmohl1&Si&G~4?)U+qtLy*jwT*Jfz=BL=|_gBfS*IKNX4p4-tL)fU9v
z6r2OOUCO6kgZ0U(Is@{K0^F~(sWMr}c0cAUFWem(C{Be6Za0)mjV}>K2;T5iKtFdm
z6$h?xSk4zGL#a)OStfZIi5o${<7&Nl(BX|~lh$ySDq+~ntbY}@{_kwHJo*znjx@<P
z(oYf>$(O8&>du_hft2dyO(H#xbVhH>d~#CCZdlN|v7YQ3%;f4*3b|UkM>SHd2i1mB
z)kVv*9d+;sU8&vONd~f%+Wm=Nck-{FA!J+1)9GztSkrwWYj-4XzqZ+ytW10ABsy8{
zoB<n(mLl>4)~@vQ_E++Z>r&p4+|8fl*IngKw|o231IOK3_toCm^$~J|4||b$>_^ql
znc$(Jd44Ow@Cx^0%F2#O$%T`v!me~j(Al&v1#zW)Nt<=3v)TyF94kZx%bu*qsplo6
zsYWqU4pYEL>Btrs<@Gv;DZjyu?lk7MKd`chlZr64>L!wBvE5PWG!~I{QBdeADY00q
zrxQ|8;tGwsz{AGQt%+Yw1IoyEBNV8|_!^1@Dp|Eo3+GW!*LU$z3%_RO^9W~*u)Gqs
zw^$pUJ0K;K{CTj!pl5z?q`%yYWds&y90oN=EkexlRmDFN%GpO-_tm<-uSya7ZJEm;
zzv@pcc?7J=N{rsrNE2866(B^yjaL&3-uTT55zA^2?gmyx$Yg0fDXFwF7h=n-mLigs
zyJa->Z&xU>c??XIS}>TDR@;)6A+gC{H;IH0cv@+KFS78Uh~@5e(7fxZZF`Z&l-boU
zo7%H!>Gknr2u>3c*PGhv_yKD&N+8AEs09g}k8fOEu%$ifal*o>6>FpWLNCcmim}7A
zRgveqpW&^$W8C(PQrpox?$qO|V%y%M79Fj-+U1H(8fwJAjh4=^)oi+(HoJ~ktl=*`
zkp_EncGwsNmQwI0bzz;|-Eaq0>9bYRQe}KHSt>Bcn<H`!sK{<$X*=+)%!EHPYfDNX
zG9W0)pf~pHv{WaDMwM}E)R<3>k$8&PkG9siR+<r&V;>?_TT3Qq(q=?NieR6F5qB*Z
z!3x)5k4u$1W|rFh8&OOES~zLYj?#3!b5vD9=`U1DCBBL_R9dx{^z|Z2*8W5c6J1fX
zIr6RA*WY?q&yrfK&1<8I-;ed-yb&#%&wZ}yaR{{7lWEE33V-1r4+**%&`DO)>bPZ>
zc6GdZE_}chA)7O{@hsQ8zg~KYZrPoT!Bj`ZyYzVknHo0z$rA99YPq?7cHAtLjz1<{
zl10?%ac0iQGP2L_(zY*kNS%jyV3Oo!G%;+S{|*vSu|I1TRhnnyV<?o=!5c1Dn&c<%
z4*>0vpP}NqH_PM1V8Jr`;jyJ|d@#pVlFKHYOpX-Bkc=Onsx0t=+;K0J5|5)(##6?f
z9wa8(0<K_T%^U8MaA?#6-EDXq`HEErj8`S+z&TC&?5LzbMq|ORvGLLKS7$V7q9109
zo%R>`o%R+oUL9WdJIKfIGahWwRp&^~BE8+*Dyqz%r6kHz57p_au=CBaLho{0LQ;3m
z(Npha|0>{*o!5<#$0^Bi@rLW_%<`IsAm-$D0zLKU6$Uwxs<*Y_SW7UX*H#64_xvXe
z9vY7z;xhdim4G=`AM+*B^+VQC{-<2*v!dkcg&Hnzji-4K`CQMM5{>duUj9K$wmx^6
z0hZavlE;CVh?0m2BSK}>9rHs^#itevV7ODvQ(tiWcv{}|D)<<Sc_Aswb=?BIpmLA3
zE;o4dfY(eL?UKM2`C`U!Wzeqc)f3>$mYF2tJ>dRvgd*aIYirb$&&^>yhXkR0h)}BT
z%yc!^K2tU|7M98)JBG797^1>*jdswKwJ(kqdiS{#JP<DCo`zv)4!#RvfydsXr}^f!
zG@BSS@3mY1?$RdD3JGR3t*le9S1FWehJMcV^oNUjuvknaQB&Xm#lct1VCp=aTj`Si
zG(VwGe_n^17}DbdJlC5%CA-)Z-9xP1i;x}CR5*jESQFZ({T#=Y2vBNr9u=1y*T}OD
zrkS(qkkL_Uc1pCO!6Z$BQ-P-&a%eEML@&BS2y12&&lJLL&R}RyTv53FFJ(=m%;^}?
z#eOvf=^VLkVBm<2X3vR%=}E^wA#{{H=J@F7kT%t*mCYgPbYwhN$)K@{C?<r_przgJ
zIKXy)l>NQ+i_gRSo3GK@>W0}fxe<@H1NGGGP)}{PbaaT%nN&iJH2%6~Ro*R$7R`5-
zI^9GSYxL2x<)|Wd1S931wO1@)=CRQ)34FQJs{5L#vTrgYV<GCKA`iwAAP%d$T%rJ5
z!Jl)kB&AA6&L_GuA5;mi)x_)?u~xz^BfSj9J>l5Mg!BD#oR+Tg%UM^2UyyhhhdCY=
zl&W<^M{*eO6srV<5OMFvxdj-v*)Fnma6iF74C8$B>$!%1@d0&vxcihR9O_#SVr|Do
zZQ=UymYiE*=C~XpYCfs<?FrS}ch|zl^g{Z{^pM=`+LhU&i;f!#T#VgUzq5zQik<^p
z=nmyh&3=;lVRn1-HpBF4RsHkl&%PXYRqc+I7eUT3Z$k$<jg>4^cv+sZ6wla&Bxx(2
z(;l^e6a+IQ<i=vCZIMu@*HwyZRIDl~+aZZ-nxOz!MXdkfoDp}-YngWe(!w;t!NJUD
zZQO5Cr+dMW9aV{-MZB9QOw&mhHU*xig@0Vt^foCwEX#8aNflE0y8+6l+w!kp7AV}P
z0Li^-Rdv_nEZpT-DU1mcRnn$g{^UWnH@b_o!s%pl+pnfg5Fy$f^@A{r(EhB(%t)UA
zsb-odkCJdM_UVUenNFE1w#cwiXl*m2Y@1K7m0?(ByQi|o2j)V{y=VH&D-rJk(L<wg
z%y4bPNgbma!RUubFw%qdpVf>yFub^5>U4&1KGIx(DHyF_hkmG=|IX6|c_0>bzuEx{
zHiK_NsK>KmLN$*6s@h@G@bT|tB=@!*?NiFVUF6~DUO@?3-?dL&ksg*t_!tl{W?*gA
zZ)IOT#i_`&$6_1E!+Cbru|JgULy2XPW$oIK8;KxLe%bqPy<~$D%-cr)bnVM#3amUe
z3-Wvi!%SBvUxlHTVld$@V`mrxdvT6!S3IXJ1gS(qJ0OGE_Nr#OEdS|T>E(F7#N=*L
z-?Bnpe=IUGKR#qpyWr1%Zh<}h<UJ&gIv(Q758Up-w5HgLBaZq+?{xm<JQ5)fu1-Gm
zn@S=cf8;Jm8<R~0i5Mk|=g^Panh9|e_cv!)VFMmyE)b4z({?U3f@a#El`xlIkunzQ
zBv7+{gZ+yF-5^g;g7wO4(%F%hS+uGc5|^yaVjjd<jxdD{9crf@W&Z?22|$6GhC+mR
z&nta*s{<Rxw_FOD9@gY(VZd6=>dUg`!-~By>dwJ!266P;{bAj$fD|@NBADauUHG%M
zJpmiE3oe@`AM`fC5+DUL2ovh{aN<TauwmPpTLJ4KYcnVeit*TZ58gbScw7{uit2Wr
z89rPa58Isq4yh3C!-*jr?~+Gj*BTGf<(ERFfM3{v>TG^Eu?8*Ja8iwz3;*}p8jYXS
z*42gOIRaa|8S(%uaQ8^TH4m!CVEp;DwJ0k7|DO*(6lyf-kV{QQZcFG-2RqeBVIubY
zbG@sqfdW2y0S7DHOD#Sq-v0i>=zvm2gfX*N>C$C=3Q|;^_V51QEYB)xu*Rwc)Z2W%
z3DuSVT^i!Ooq9J=KEGq~NR9JPaEK`9Pk8&JX=~k+ToR(UpI~CCxhy?)Vz8+#GU(m~
zRxCXEYsu~EA{7^&`LlmCtji-g67AuZbvL74(G0FItF%hrJiLMkxVY4!SZ!&<){<Bq
zXZ4egRL%{KSZbNpo8RJC^w)c2&gH^=>Qf9)UozAC6OfL0NR!*PB|wBGD-8T(u44x_
zV!S}X#7u2V3g@)fDRidW`z0#TnL{<(9Ap6!fm{hMr;>j2S9z8F^n!Xo6OgsM0R_Jd
z1;DM#ZtEDm$oBSi?S9`Ie{8N-_8y1PQ$v;udjm`3WqPi$2r=C1Z|>|;fJtcehPlhN
zC9KQUxun?jp(9B6RO;K`n~a{KgW~)<ZPvjW+&eL`T$f59m&AE;xYi7Go-c54JRC8{
z1b0+e%hn?(L&gjBu_WTz0)R?&Gsw%!YnEgN#c<5DZQ@YVA*rQ;2lrQ8xshOfEiZr!
z6vgMHw|<$$yKTKwubX%}7x`aQfAX;BTB-zMmuBExW3>l7SQ%e-B*~jrk8CMcm{az}
zb9!NpP$XM*F19W7?pDD?&iBNWe4Z}Mk3k29W&L%IyDl$j<)B7#WccJzp;QCC?~L=v
z<jaXpvbNwsCEDv_gV;+9xLX={Ml@?fFYVwkPDlK%D9QkC7tB9-AW+~P&0);6BkSJR
zD`nC4O&H|xY<4-_fSci+B-OdHveM3IrXFSRg5YW3Mlfu-&F|SDwzBMZN{LQRwIj#F
z^d2G0*c>AbFjeh}#X19CqB~cEB4zg75_i@z=WtQU`4<)PX&)fkDei|O`agb#h92MW
zO=mUu_*CdzOLIh4U|C$Q(p=82u9P*!u9t4N6P{_jlpXsvcl7mZ;)frnvyRVxWM*nW
z@P4?0lHm!a7>pbIAsj*?8-gH}20O?uv|Crfg9-C>HxcX8%vW)tcg5SE<}Pn*7#uI1
zO|Di~;u#pi%H}`s>*|3~oYxPx>P^|_laO+gj@F$x8fW}bEa4>*0dE3rbu?<_fE(_>
zcb}{w!dzAexOAsqoSoTWfpNL3VQ<WIS_@N@!s_$o6E4FGh{&sR^b3TG&f%n59iv%)
z^Ns^0k`)7=83)|#W0%qDFts3s_^0HCz2CW12^D4e9{DG6i1v$53qgo1%N9sMI6n<&
zNy-^DG$C*kiK6l~Cww|Td8|A+NRaa3>}{s{SW3sa<*@_t<iSEhg<5-1vuj)4l<oZ5
zWvwoWaqO^Ni4A<NQVEh?zxvk#hbAQ}a+0>l=$?2ESbn&*_B4IVH~O1K(iI04_*w#k
zeKVKGS45Jd<iaO=6&u=RZhnEy0dW<K&lb*=R-dDt^0je0f+GK&@zl$Nx6U+!X~M!G
zsrq|<P(p4{p-d2ZhBUN4igAsUuAd3O|IYEE4(CQ>%Duu#Vm8fHB?VC#9ECz+Dai;N
z)fLBLY&-&9g_~tqFATk*;|r9Sns1DAepNYB4jtifyW~CzRN0fKiVj>k%pl)t)X$Ye
z3ms2WCk<!}3=lnTwLYF~utq^bdjHgF?3y~BLD;VZXY-3u+IX(sLTH52Je9nqQnm{5
zZmleq$F~56)&?Q<zCMX+vA#HFd%Pji=VNk+NG!l?uO;?J$r}qZ)9ndc=&jpXiV-Uc
zDYAw{%cNcQSBmMWEkn>bYz6ZC5xz*HuMf+mK0+y&nRy4cD}G-kCs*HzzxcdC$>iTU
zQ?A)+I!R6B48+gyTFxl$()C8d+p|}sXq0q@-WZ4GvyPYWbp_2&kAD%!@<l1Qs<kxL
zB8o0GoZ8?JhjR~)toCCDVaig*GB2>g1V4fa=0PUbU=$79qf|?CyBTvFrHXkgQ6(hW
z6~al7zWVVq8Ig@Z3;)8Gb1TJwY}7Y`ipnk5=1UU|2U~R?aTe>dRdXonciCme*d1>|
zxoFhtF)tBtN7oLlkIu-4?5#j<wIi0egoZ{jw@_GUxg!y^#6|h*96C+ACtQ@Z{fA$!
z5Vb{$L3B~&IF1`9$j=Ccp%NA@1~ER?``e+KF9`#wyg!%kC6(k3_JztQ?GB}=@E0HA
znVQ{#){uC~I7YkxZaYDV{rRT%)I=1+PLj8g1(DRT_@;^Rle#)xZ`pm|m!yb&*I9+1
z2XCk5N>6_b)tPH?2zy^O%eSW@HOh1-BdHjsqi!hY_u}=UFGDCXLZp^CRe<SH6XBoW
zxM?F5W_S3&Ps)%>e@6Fjv1VasH#GDp6%G0M3^|8TnCeC7mvGddLY-lPm1#tF<qPcA
z*5xf1XX)a`GCn7tE5*~k_+btSsh8j4=F`x8p1NSDtYk@Dvb_#SQNV*A>j$r)6;@1`
zKPe=BIuRX1C?q7osF62i5iUk2e=l|QTkV~9s->$j;~{ujoJdWtA^8^Vh_2~P3YFsE
zELJ+6YT`-z!fRW)2&lIyAYbaFfiW8^BRv(GR#;0ll*puQ-0W9GlCvV_T<vtFM-NBP
z8W9g9_z@0kbd|TlQdCz&ou<@Z9w%pORM3(oLL+faR3VdjQ$T~oVFAfxG?~7nYxV7-
zE1D|-XtP+XULr49h|WCa)aZDHqhK`b)BSPLl_;N7JXVI{DJkIzg}kDZ)Oj(n6$4D9
zjje5aF{+{LRi_<wtk!11Is@fcw9il(@u#zO;p*y^m0B`kl>q2iraZ2Zd?xcbA3veN
zSnIgs0Yx7sA4Lk~Y!(qz+JkrQgaM1)3SWZwhsC4mmFHq<Dh`s^oaOqPuMF2E!;b1t
zF3n5(XtK4+)xLSy&*@9?dw2bC%^x6`to8qQt8OEFfzYUg7`7r94ZT6uY6a=qCPa;8
zx>F|5vNX9csZW1SvB%h09&L`|>h-Dpl8Y!6aTB7yh+{Dbu7>ME=~cFAteClYon%qx
zElQfcysd-buE1PvYvOUeNmJ04R8FTD)KX1Ep1&1ywY7VeIUzq@s_UgRM`~tWX2fUd
zz?9SzL$7gE=tA-N1iAk65GwFn=MT#Nomj&F%3VjZ*e8f&9alF)EzOaH=MM)X3|I90
zJB3@J`J=S7jQUz?>sqjdvE??0$*sQ^PGiWW*l8Y8T&V0+BO6Xk!pH6F4<X8Ki#=&+
zX&SdpO<iw`Isj8Menzp}^;;8>(jAsmJX~S7KSSnI2vXhpAUnwTfIPumI$mC0v|WE>
zdAZM@6-xKX+$l`jMn<0Cc3B)03x6?QDL-A;QrDVl$Q3lXX0l~&Ezhg8H~Kw6v#(3_
zJ7sp1Te6j-b4J~jIw8+97$siJRxO4>1R6mr*{`!#j|;c|?<uuN%z#NgDC2HZ>3o;f
z(7=6lbww3UWE81u`R->RQo-!9`t88X1@&lnG@szG-{)GAz1$E5m6Vd|mLKYhl1@;8
z{+fo6f~zmp+h`5ec2-Gdl*M40+#%Zuls<*tja;Eb8YPkOM8a`?#X|URsl?_!(Li(&
zJdFV}1o+wZctp*5QY0C_LP>-_8W&B)Qeb9)9eekYP-7sBLSS{-(i8K|zpupIZ+s{+
zi!<9lZ^+%B!9*}0mWeuzS5p2S5Bvt7Gyl(go_o`xZSTjI>40LZFpknecw&5zfP7Vh
z4}tvm=NHs6Qr<zS9Wyifu^5B=&?Uidh#*;hiD-vsGG=>(U#C{LinlczSOo9)FQkB=
z6X1{&fH~)Ic=?o;7O^tx^!?=f;@BDyC<%=Z&`$z6uVl>v?{87V-R%|mvJ%ahm7|ax
z66<0LG8_WRpJ5IJ)9o51*sxk<%9vA;e_7}`f~rjUO-AE+2>9qO)Z5S<jH>y+%M)`6
zEQmUyef~rd1QLJaMWL5rjVxc_G=D4K-Qe;kbXL&g&1Ewb1nnnvHo|K`ft0WBZ_)66
z_rC6*^;R3OJ9DS56DErzTw>?g=rl^cz<yllxB5yv(YWZUE;)v-l!=pCTKSLZOhcFO
z`sKs*0Yd4jt3X3oc=+ZlX}uT7$jDh6z*rXa%kUMlzv8_=KMa3kI)7gQ!|Hdbk;zQC
zE%9(FWz^$2L;o4a6XM}X?UDYF)b?Md^Dls6YW<?XL4w(I_9tml`MdgeKg@P#uh&Kk
z&y$R+#kvCe9e0_X^Aqjc<c-;4H!+QuE49~5s3l-uk{eR=M-;GNG8?-y==I0gYVND>
ziC>!5ymnm}%siBP|B^}xq3+`OaEdTyJhv-S-6eeS_z6FdFx|KVbC3E=%<jMM2zInv
zuWx*-Xk_Z`_vH2IA{>OB8DHwSn|Hu`d9Ojv*!-eLF~@i!vF`F?y%ENBX}dfpX-xN)
z^_=XNZqCW$xjIL5*&LacK<X{Aq?jR60cCaAZ}1oz*_6N2Z|Eh)`V*;hHaa7*#%S7i
zaIlIrX2rg8!w8=4UT(4tIQz7&)!;gt@BPxGy3$6Iz?t$QhFhIaqMoAL^U@q(^s~NM
zFG2yf+8YXEdi;OCaqWZ}B?N0;uL%e8M4!F2E8q$xJ>^aJ$M|)4Nkb-8`QlSgyq{Ym
zkMYM!^QH9Jvd7PE`NKY`M^B3Y>yR;YMe>(^UMdQ6xwjB(Ru>3f!=Cb?1MR*MuF3j`
zkryRa6C$dgoPJN1p|5mBjB=|V$KTZsCUc(%CMC}JZ*bbyI<L_bf9m{VwQ(hu1Q=mX
z`F;*U-L9AE)q^{y+-NEGB|#w{>6oRI=1PU)NZ>^x$<j}k&pM?ALRwQ56eFqCJ&RJk
zQuy{$l!(x%m0ocpY^LV&ti7h8BJ{B{+T)e3O9BlVn2L)`Z+WQ=3`bm^sh9osE?Mi_
zD(+V<Z^9|-d;MN8*>(<3?AZR@{a0-j%1CNiDEFI6i-BB$0hc_$2dO7mjAkGMcV_3f
z)a2nce%#|+W^z3@Syyam`<2~r=9{?C&Qj`J(8xv3$(@gtgVnA-m?IX#`jr+Y%eL%N
z635AoNpI+J)XQ#ElzHlZPvb-tsEjO$<aSlVyQYd|As2eGIu9-r4(A;@5RrUzovyaV
zVm6s=5e(qwkAY<@&1CqhF<c$#0&EzdNAst=N7bFsvd+FDE3^kDef4f6ANrIc8-5@Z
zF@l)21%yNVS@w#cB?X=B=*!BQnvHEYHy-aoBtKPPT(ZZ%WwUqc`u+68L!kF#<p<v9
z+jA)Sn|0*W%C4zXPD3Z6GpEns=RDtN65PMvqIdC7skKw=KQ0@i=VV?Rqu2Y^(kYa!
zn2Kq$JDbzbY&8AVc5}=_!HnoSRZE&emMRDsP-*tpKYqoi^@c)@EQ2<EqWDv5q%pe{
z=lSMP4rmvZ?KVoSj4ya%RGqi%x56jo4tcIgX*r1EyC6!%>V=5cDzEP1F1#eT;bvT9
z=5r~OOZv0#iqO4nbt7Y7DXC;p=-f->Eu-lGCIKWKhm&`$z2(-Yfn)pqLEYu9nC9B8
z&;8F%c7L2^E0394Cxnqo8g9+_5IXJ~UlssUIE>P>Z4_!54-b!zwF*c$gb|ds2tynx
zzvG|$9qbT98?$NG{i#=sCW_ayqiEInLB#|CV~yQDGH_D)e#jT?bn1*J^kxUFl-@Wj
zzbL&rz@nCGv5?L;A~(9a#8a(M$Px*;2!Yf8J!ZIB`y691u50-x6|mcIJpDa3io<+7
zDytk5rk^qpUursq$u+~SKNc#3L_*vpGXT*7gxhClVYmDSRlKc}0Cwgaws0Purc;lX
z+l!~M9W4F2F`jfF(GuPiG8*n$ftydDifQF4(d|Xfnb#>g@vadIRahHL7xxfM-XzXn
zSU9u4qK$4agUMHINbX+Q^6ApMf3WW3FA9Z22#fG6ij-?yQqfqo_%Zf}6rA#MQC#y>
z3$!_O%#ra3&^$c-BFUSi-jBh<!8L#J6#d8#gI|@2Wlo$Cv^%y#V@bA%7P7odL>ubL
z^?SVP*&^`TptN*wi43tMVyOzY*za&6#^CL;$OuzVNBBL3R^>iXFrZB`U$QE$L37dL
zdz@8>Y)%eTdkmSka;kpLXdOxDi@u=><VCfwgmbl#4-cIyBm^Q`Q=zlyxFrYO`;fhe
zZ7qexBJ6$pe{Zk;wwL%jJ(a?Yr`3oApKcDI0@+||?YUnt0lx)~o|L5OGSRoy!~WP!
z)sV_S=J3jxy>1y@bDzRtkZTsb%~#7S&L>1yMiL_gMNCT^%Y9Tn@`?poHd-PU5U6AF
z`l!Ha1B}qxxF3T+5}#QyHxQdMaAz~0#HSZYlfmRl2d9C6rXqUKr1coDOwD{kQDiKF
zkzdP^=#ySYVUksZ7C)?VcJ^U0g=pU;{48&rO~R4!?LjV1%oOvSjVw*+WqNe{I$Q8X
z=wP~Vo=0bEwss<Ynq+}W#HE-V^C5j=*x%{e?M0zt$YI~q@vjC`M6qZVS#H91XtK!Y
znC(sNG|Z9g&wlPL#zM$NglJGc?IFv+C`dg+qA|T!`D3k>?r{FtBa5gYZ+uZSY*Iba
z1X{#`Fc(;KU$X#Vbud@bKReXvxeYq^D>_#6|9EMm&byONA)giLLK84ubu_iD{~}6R
zY$JniDZ=gwYGWv)L_xe#HuK==tnoP1B_j4<MT}nWMQm$zD7j^ro94tbbK}kuo6UwX
zXaawtr=;mb#)dKlU&ajO1Ou2i4Q-WWwgzvN-Zq!2>n#nTskaTIcK=0VVB!obR^Sld
zKAv-ZfwY7?XWsH9Sgh5h1LvdloD1GihQDB0c8Io-*3fCQ7lhJL?fMs5=j)S8NGkOr
zr8yX#tX+9JQqjX;j)`~g_g-1Ippr`JGfi6y+~lxysTzRScmQ~8B>NU6c;z;YjP$0g
zwA+Q2_*EbJ{)Ik`7f@dyuNJnpu-4qKudf%@*3j2%%#AhB2}tw(M7%E!IB;OznT(}d
zzq4xRy2p?Bok)e&At)t?gq_BM+vr4#ZIxSOCwU5C4`8ZM4qAbKxuZ_hX9q=8Bc;f>
zO%xKbd*}Y&8)={w>S-s+(@i28wcEtTN7F5t?(x=MG1T_LqzP)s(rR1duc&KnEyo9h
zNDO&mW?bRhVJ=@m%bqj!<sKY^V{Rw8sSK@5nrwAa5D1!>o*Wz$TBF6|Jpe);DggO7
zH&aEm26{GS0qoO}HOZ&h<P=OST~~1SW5vJUk?1)@(R@dlO8&-4aIS$NGFd*C8nmow
zJp!B~q<wT;-Hf#^Vq6#N9bmr$lJAg$HBeyaBVS>gf1L1m(ymY=%OCih!i-~>J!84~
zAA;n8^x<zb*vW2DdUQ$r0FUt@L;(b+`lyNfaFK2^DBnAZE~%Fx?}Ow9MTG>m@Oj$b
zhlU5zM$(O-eWxNA?jOu9<O5rfQCIK5?IW0RP6%J@nz?s0e-;jRhiXIyTSS4A#r-@_
zq;U#Pz3l>5_2@pb|9vs{5&mBt88~~;6v6H#ra|&o#eWaAT&OXdfRtz%$!3SuO+CH0
zHAOeae4~pohkl~inK`!X3Qay=E$Fav?i9!O0`CS<GKnj|QrVD6p=JTEuC3;DN7+&#
zkpKSSG6^=0C^5joBDAfkTQ`BGVj)zD^uQi+BUun(Cm?o&LP;0%<_2+pcR`!Bw8ML3
z^|&JL`@pl~fs4a*2NT9@Ii7s%iTUMaortP7+ZRa8#cl1NmrMm*IpN=Lt~(KLqXB{5
zxMWyqBgS|Q+-$Bi$_*m!d=3KVuaaA{t2zhV>6z&luU>t1eul8Ld5lFSgI{ptoyp?5
zUu@v`wAB}_5wN8o3htnyVSahTvf3qadg5cbjCtMbOGI1%G9fzRNS~FP%z5-+FnpKk
zB&fd4WItK%M8Uo~eI=2=>Q!51neutz%FNunX|v4reap|}=Jq1<L#E+OC8Uj^^QM`Z
znc>!6W!u8j#s+BTm%gBGoUq$4h9Dq`!4b`9uB^WlLAqIw)Lb#_Evxeh2LdkJw{Y^X
zR2d%vp#+K_S>3>!LmwfALHErH2I)_${u@{G!%<^k$qHR%`H9)rj_4r{;&*Wvio_vP
zu4b9dmlu5;;b(P=i&J*lHFxWd_JX>8+rMOu248$rMoFji^9j<V>va_x6F0&w#zy!r
zXlUqRx$muAGi9Px_0MyD74mZKeM1Hf2&vmn5-yKkeJjhf$;*C4|J^Yy;5nkJFPDeF
zV!!NG2=$g><@c{L&9+;~@)f3UgsX;#jAeJIi+FrGVlLZ}u|IqfqGAKxf8K?m{kFo<
zzM^ZsOg8vo;c#_~RS`XkAHi074VlDv%`?Va&zIY3BMujp|I@80Roodi2_ww)U1SeN
z(fi}W73SMK>XI&oQ17~aCEGzU-2jhofvtex+n1Y(6+peGVTABIkqbq{`syxkluDQT
z<0z3kYV9pjCfeZ_*5c6ohCNlF`nI!Di!@huKTl>tr1xJumM@rjQ?@Z!k9woXfOmel
zG772JTg<9Zr;|>Dp5qh3H|>9xOnPFh>KVlCgl;%$DmNN?C{V<8<G37+#$qv`&SnaG
zak_nEgn(Z3d51_f!#?bk&iUt_(C_8;N*{*O`SIFM5KMVD@B8)Uf0>7DUbE>#*%+z7
zBH?IZ_|nvU7T44aDr?M=%Ay)AID^kY>mR1d=#9>(iD%I*Pwbvtu`D!h)*?DQpocFr
z>lEp=I{&ia5O7b1mz-A;3_;pGES6|_8v!Lyx%ZT8OxS8;uPE$7OSMviOO>CBBorj9
za)J(I(>{D<Cl@TIn#>OCqotN2Ivx0pOI{HY(o!vztRf6nSIKI>G1)G+tNg$%;&R&y
z;5i;)`PyPRyU#urT%RMA;9nNZ#$IW6cMSpsHBt^n%*^t}GgbD7XghPR-wl0R$qgfW
zfTu4{r<SMr{@@51=hf*Uzag@Gc-mNw{OCRp21D9=m=#?1%taF-z<KiZ^M6e-%fA!=
zp5E$zsBL5RlR-n3a;<>!FRBgZ-7;RJ_k&Wf42(jn>dL}GAP2=N|4wcwd+zcg?M8uh
zT%pkl+tKzULY7qeFEm(~3u_yjw)ZQMq2UCcL4l+phvQGLeTfCB@CkTuIh@GE7ZQ3z
z+c($oHYxdimoJXI>Q&3|kxoa3G8WRuG0FXRBq;FkOgWrh(Q#*y(!3Q`>*P58*v1&@
zrz9%2!EY#%IIYagY}bJZ^Iam0jetZ@Mg9hnV3bT35f`e1mvru}{*n2IB$|uQZ$g;F
z9xi<trp4)rMB@mv>EH|bVd^DS2ZW#8%C?#dp|b0zOP^J0Tu`(U$dt3Aag708JYIK-
z-zJ&(W6Ahn&1ZYj_jmY3&a22{S5wa;QgYY&j_a4Qa<7HsMpRT(Rm(=+uUZ0gZ|dR}
z%u?-B2wig4?5!AA*&G!FAon+FRYHxf#korg9O#PvY^HiMQG3%JuP2ryQB#}V8=s*a
z@To`fyXptju86@IUw&b`E^HkxhSeTsc=>uG7-t#|;?GK5uGm~^Pvn)2r^GE6VD6!T
zLR_OOi5DMkl}p`N8N1-3(WLS3JV8p;VltQYDe<H+`?}bAKZCY-&*<w*0-Wa@n!`MH
zj-=8n<~7F3)BM2CbbZ*_%|;h~XHK>KI-2(54j(3CDXq%~h+csne<;?q&Incc%W7GM
z=Xi`Ts*cy*jG~}sNV{|wG#gU$TUhi}5R_Nl-hQbJfpp0zj?D-?cZ{2|BXFq}w6Ez=
zA?DtbFa=b7s1<LudT1T;788}rKBX2rKs+7lY`6&=SjyNqxT#~)|EQPi`M~uFWkbb>
zi?(e_R)lFRhIgsHe62x{idqp;8P`JmGHH0@(mmKN4wYhDZpZ)N;K(UCPIQ`+OGK>m
z_tL8HuMWX!y-2A{WT^$opW-{rqSnatlB0y9DVc}ibYDE)ALSh*d%a|Y8S;XFh_xT4
zzahCFu+NYy9gZnLH|C}3Y0$#V#l^+k1bytOT*-2@B$agA(JD7#LN`BKJtV1=;HDSS
z9yTNQrYVw2WN1rw%S#5r{uB2LSHmCCqf0BONQgT6G(X=~Gb&~GbKGMnAy_CiA7WCv
zCLjLyU!tfLeUL3xPQ>qL<v;<qNNmboJ25nPN=eV=e_*Zl9b}}3xZ1*3mbVWu@DU6V
z6oha5*Y6z<SlbQCDDV+~V6QO@=|4;v`~pBY<Szu5{{e!mkS|%8Dv0A>JRFJV-HY!X
z!qC3k9{)i3D)fit@##pjcmKc#3~%G6BuC^J(bsI|uia}t4#bfE;ZcoIg3;M)YN|FR
z#Y`a!%VZT~m%nnlq|A~Y3pF5ijq;dr{X0%1jQ2-^GhwoKxSm<^B=(KHj0ZKi)D;fL
zRdSZ{K8-NXVUru}j~)9k?vV2xc&>%^W){d_u@JBD(m@R&{Lu2{KZsf57HYedQX6dE
zXC|<U{)dMF%tul;+@dUs?I^N-@n7)$HjFn!^JthXAHr@*@iF(~zM%VCUKD7=&HoJ;
zV)N#<$$uA1w08i)r<VBI@jv0?g=C_%032@nX2YoFc7Ismr<tc54mx!;C9A#aUjeJx
zu3tl=TK$Ejx8AMc)`O)?TlWDyySKd72qReg>FJlLRDzo>p5*xq5m)Q1qv-SWk!22y
zHz0);etL@163tc_N`fi{fw9B=eSxABPtf4w=BG{W0}Wp;Fb_<a%b9*eB?gK6#z(4`
zwFA{PkP;-h<Ib=z^%J{hW>8jZfqr`FPv&avMV0Nql001vaewZ;&&dwE+m!8&M)&CN
z@oHnQdh6@15kn>acoy@nVYN-45nUi`KXV*HyK@TfN=baB4a}=XtthVmdu+bAtdGrd
zMvH*Q3X6w_ch~VYF)^{aYFf>9b({67>{A`G7`nKsi29)1>e1Nbv5>E;OnU3V*FPa{
zT!rqi*1P^D9+J-;S^?O`xVWuuiH__7YwuniP%7*<l+nLfF(EBJ0&v+IlOD4$V!>&^
zaa~hy4(EGnw@cuIKAC5_KR*K@#C#lrY6!h9EMT%8v)laU1znNNq<liYJUP(xEUxZ}
z=lbY}l(m+ZOY2f!4-Es;)G8WPq_u%36xG-NHa{Nt3uEB0IeUqqc5C;~UY~tmU|%0y
zQ3gd8=;$<RUwf#HC*KOKt$BS)Dr<{Dd4|7xe5Sbv4V-ZxfnY@-YS$sTSDt#HS{Ke}
zsvfRcz<<=TC-^mIy}=MtiAzG-WzgF<t`FZ`f)_#wY^ZmfEPnttu}>piABtv&{OFHf
zA8aI|#S7s$5^*9j0<L93G-PuW@kExVWd?FXkUw^mceQ6O8p_r~1jM;+pp)L73n^Rh
z*=<i(<GQ%iUzC6f3TlfqHC<vAhtqA6jI(N0Qn45&lsVTi;ajG9zIlH<_IDLXlw#*y
z1zR`Vm!;%PH`j=>S?Y+p%ueW1pVFi=`ZTgF%8aLKpAzV_K+4ppJ(k_YQC-pGc{G}@
z_63-8Yl8033MXq6zSxg(gZ{n_J`#;8>m3>dW<<1E#BrALKZHUcAt2mCR6eZ!Dp0G*
z@6M6Q&n#)>lmRBazai;2QE6m&lG4TF<lsn<SVH;CyhqxE3dXWc;uqnqUCuh_hD=%M
z+K~5$HoH&OCmg@ipua|wX3NeM1w!EACE+??Y(xOq&pR~=5Wb6n)1rdv4dl|E{|s$~
zP)2>BVaipBL^zx_DsYdqtGp0!+BmJ-W%srCt>nzi3T;q3gLsI2>2-TFWIRhO&=o~K
zs#9y?dZD~}>A&3ROu#6*y7I%d;<`E_uqp)4xWU8+5SjwndIWjzAG`q2kG&L9ARl`W
z>T=tiy#Q5@mCl#>HaQrceSJ(B3;|jDLVt$tU_O{vbS&Tey3FK>84Uw_RW&&|IDXYm
zw6FgvV(&|2FSxA@1ntb^joB&O&6L}Vm;0lh0ZSMjg>h};rjSRo^gl$~&Luxmy|p-v
zY=P*Fzm6-e5BD7w%$6a4t!+G4B-(!F4IRs3&(<<SL=GSlOa7ObRNo8&Pq=J*oFR8r
z<d=1315(a#wMYLlQU#%IRgFj=wRfsRi_^l5B$lD4ap$ZBFjjW#>-uUsVk%zEI;_2a
zYjVVeSu3wzlJwT4G_aymKJz8l<(xdIS9vV*k`{B#xigNG**7ZRpMJ&gyIJy=vt0YI
zwTtLCCTR#<kww`u1v!tS)w|<`$HEk_?bG{imC6E!CA7RiCI;d0Q+WPFNMbsdMH#Uq
zdR(<GdLrJ=2l%x|0mB#2MEA8XCth01|94vM3!fW@y-P&MB}Ut#FG4E*l_|@8S((Br
za>!vQcncr042-?q$UopW_}<zZRUfl&zG^cyH};7j-{b%muVuuf2KDyrgg0#+OCk3|
zdMKp(_eZX0*)`!yu~*mEBfUH!yPpCL@rtrcE$LWS!_XFjSIT-;6+`-3=?{uKdwWq2
z>_7TSWY&_UlT_Q#Vg{}Jn+IqG=Ue4ZqqgQgDHo`hh&`b>+-PB{;f;TFKZVv3L3p9E
zwuSkqhvLQE^O1mIA%lo}&QbnRE*|Y+s&&IbDg?Zgc~RFJo39Dd4=m3mi3Z}BO-?4_
zsRGo=<f)wH$^EJ475<Q1j3FpVQ?)o-{hm4h{skX@%*r=j&yn~|sJ;Dod!KpazssdV
z25C*sSG2iWok&uEz}k~QYj}3rDirJaZx^}O_&*<J)e+^6CnB(Tv|qDrB|6tS!^|8t
zS{}G7xA!Q)_}b=@o$a_(EN!0@WtTg?L$){1h`ag=@BRJi|CyCwz$$kq`)eZ0<^B2}
zfGPKAfFfG>ymbGa)kYMMP$m_DD5QU}76h`l&m(>bF)IaudjLeFQE|sP*=(_x|C=@c
z`!M$b{68}`DM@xh9jWVZiVsU(gm-t0NB7B$LY)mtikh2;$9t>#@ODPkTB|3$N-lml
zHK*<4M<>5)s%L=$Q!6*>B`i7(NXIeGw*KgrM=@euINf<|HFW~D6@+t-fZZ6O6~veQ
zvDu%@9p4}UB^jo^sv+}L>S4QhED||46E}d9i*wEG^SihBZJR;w2sdZy*6_6JzEW%t
zE<GzXIGqu-MhEUhv8GIIK$EvPESdbpeqXb>B7{VIlcmfr{~*<RYwz<41qU|EizYZU
z{HxX8^=$g2`=P|h*Da^))6(w*F+@g(pH{W973uopO@yTDmbA2z(rOwSFHUe+{By=k
zzkhJAy;xdaPU{Ac#tXFdX>M(O62tI=xr|N%a8g0Q<Q3nUO+6eGb<cLz`loyj0*+>_
zyu^{AmuKHqVixb1rToh~5{u0V8;IO_PmB~l)C%$1IXKLN*%`21Ija%RGWykccr@^{
z<;e@Cb~*QGB@(&(G*;-5yJbhZbVGW&;efepQ$FW2{4Kyay}EK5TAVzNV>#QUTkeiS
zVU@WBiPN?l4?$28NrTO4gKWDyGq&XSBwJv_H)NI8a;n%Fkw&%3mnw!K*}`)$)+e_@
zW}m=JZYdsgWY+6f^&h5jEFTNzHl;~G$C8tzQQ`U3qgd_oD?H1rI|;9EV~~F{jQbvn
zH=@CS=hm?pMlAX*j@fhpD0e#&j~U}XLcS&=6I#PEyTaq(^8+Nk-{F%q;RF%&b>+90
z(7zjQuq#aFcvDx6trCa(<5^P&#PHDnDnbX(<?~gfwO%u)`(q(zNettGCct;1Or`*0
z?Y;yqw2dpL0li;BS5*d_gFg<34r##Zw=Lk+_m)m-W9QH-kmw!4WXiw7p_DUid{V|G
zjFR5-Za?J-;6-HL-joL5zCUP%WL%00=?JIe6bOui#3O#R2GoOi-vXL<oV|e0%X8hP
z7)sfQ=*fWZ^Yd$b679QBHSX9w_3|`i=gSXy7WV$Qqv-4r!I&&M&*f-hlMm5pRDWFB
zpS|I+yv){RpteZSzVoiw!ct$b-NDRoEB5Bpt?hT^u=_g(Y79Z;uI3}dj!;CsPn>22
zUC7wrbtk&4yD&o$Bf6rPc$Ly<x(LiZN#X>+i@benJp5=#@7g_Q%tXW8ml<gb6j43Z
zo*RwG%%s^9aJV`vLSup79BcJ`GF0Sr^A?-i920b6qtE8BeGU&d1exJ50;|xl$V~kl
zBt%oGX>M^@)1OGR+fWyM+Mx2sp2l(ve?(_n5kV^rIW<cAZVq?OAi2bGj`!#$zpi-r
z<=B=AVA|-@PMf3mheE`Cs%8E3HtE0@PUGOHYO-rM!_l#BcE|bK=K=cf@}y~EA=rMa
z5`%}vv&+t6NpCm?r-}20q53X&>wJJFO|!3*E>pG+xuse=F)go0vuWF>Bb|zc05;C)
zh-UF;SE?NKnbig)si`T^?i^me{b4j>ljZ#+QK$$hSGEl88H8EynbaoUddp?}_1sVX
zyQtUbc)4}~%rDKAbR<KOJ4vS+JTcE|k8-YxfS$QXm3msPQPyJhc3yRv72d(p_PHpV
z>HfjUxb0pcS5!f2I~XToUeTjwh8^}#4$I`@n-luz@>5ZSw)`X%p8gO@Ay1VW)E;iu
z6~^wxMO&bv9NNN3B&;G8Iar?HXmujk+b}9vbTlp1^edEae#AMo+QRrcfFh#HpeO}S
z>kK(+0*f(63n*%V7e5wgQ~slJbZm!0v{wK$61|MLG_6NwUkpWIjwBMzO)0mflts?(
z!da6me57Kr>aWx@_b@G#K;_a{Y}Ts51NN1_0ncS{G>F+iCXmQN>W5fz9wV~d*7kPp
zqB<mF?Mrf}V1lY38WcazmSqmRvtLk5_6N|+qIW#;osQE5;L)@60Io;ORh!bGbl>8W
zI9)#mgkh71GxAIE@C0)`eez@r=t}&Tx3^Oy6XMm3UZ9MP-YGhrW1^r@g|)=#`PxHL
zNk?KKkJzk}FB~q8vdl3zSd4z1iZnWB=7|F0dO$8CAZL|7n~*y)Pr+{vovL~MW+sGG
z-bNKyUQVkuxp83q>~EGrLl8>M$y#E*)%$~ejT&{XVgtsak}u|Csd5=Q&XnnZGRIxs
zJ27|r_Hut19I-FzpzdQY|JLdN<u_VAIz!v^>5>^Ubk7iQ`0dW5jma^-Ye^FYGgs@B
z#;`5f8qHN9GOW??HG^*EmC+t#N@NWtOrI95sENJ>1)AXrtMvJWD#S@-%`b^7+ZZ4b
z+Oi8%g({fpm;end9bIU8@74R791{NvUbxCT?#c<t4!QY`>_ZiDmRZA4w-9w&>YrTP
zbuFj#lR%Y`M#C5W_+$V{7j=u%3`(a@>qjX5rYMD6r-H4D0*3bC1C%;>*SJX_*jNjc
z%e`we6^3yvRhfR(L`6qJX1U&Opf({(VeA8{E&U4%Te)lIxnJgFi=Q^Gu6e9UWng9m
zpxo1ZD7ad?hyF=8)f3}0Rdcd!_%~qD>RoVId7hwMF6JQ2X)lj=UYr;f(dhPt^FBE^
z88RuPowOPmO~+N8iuoGpnJ=b@$7Cm3Gcswr;i25+IU?M8?CmJLN@NN5{JFqk5Y}en
zmXF9@snGxwpeb9T)ZY%#kX5}Goz_#YFi3Be8dKwry@*6nM;($@K0ft>mB=6a&MJ3R
zhD6VdBrmaf>tAZnJ9i<Y<)fo=-g99b(&rZ#F%bE{`xV+kN^Gj%Mqa-zu+!Dr4`we&
zQF72xT3ifKPE%E-cASEYFzme3Ztm<9sd<*}o7t9(>&c)?8L=}?8wfbZ*eZOEMl%wa
z^$RTKJfQm;Z||&0M8j^Lj8QQj7uCMX!Ii5uM7#BOl}_XgDPN!_d%JfMaQN=OrnO5z
zS{qK&`2mJPY$1b8_MynM?C1<+;6J=N?+x%Ow)t4qr~4hv9szz0p|Deh;2!j|5P-C*
z;Iwsq%sraGb^|QkV<Y;ghld_01Yj|eZGz!F1qtyCpC@GLQCtu4eFoW$5czwDd5h{=
z>|X_)P$L9@)+~)AmOl4m0JsdQ2K3iR!X1>b??#j>n|~(qs5xqc?S>1r9G4hA43ngg
z2LgQP=;)PIRgE*fjI#wu4ycCZ*&Q&BS5Qq&K`%_=3c4LouUJX$uYLUO|E*%nKt>JA
z=l`A^@*C1SnF0rg3Ma>2QLE67a)rs#jkD_^V@zLbxD5~-o?UXkS>flr%bMf^gH^`3
zhWk(h(LlUguU|YcxUBtn%DGG_0}EV7m=+?hfIyD7N~G*Vv5{=4;T%6V??h&yQ>#HZ
zne>ygEyiE%yxa&uGA_R-t>2z~C-0JX!I8}#<G((|T*~g!e$b8~3t>VTsV)0sabt9b
z5<3Q-M4O|SgVsyi<HZPZ%=tg-ub<J`cRg2?%w_)F@cWw@XZ7OI{<T7t6GSAHvOBTp
z?eK~g#^!JtX|Zniml<}ZMIe6KI~4VE=YH;Jg8k{9hyrU-QiwP-Rv?CJIrEWzW7Ofc
zw%(U``Haoh$O|Y7_moz}*2k0KKlPrgj!hL=B7#CXAH+FV#J;{hV62X~*&vJF(03&s
zCECDlvm-F4HWR`mjtRtm+C7=c>ysOCYi*iO|E+PIkqb9#au&Y`<x<a`ZhM(dxdw2E
z6h>zN+7TZg|HYGoH3r=^`L(h9Ik(E9S`N+^nO!UT{t^-g26Q~r^0qtEBWs`+93S94
z_osH@-hd9K3GxjtoK~B^B$5vQ)WZBxE8M`0=XS)Lwi9sJ?Y+oTcDcb`0g}Lt+ERU~
zxGtxm^no=XaTQn*LA_JGTFDb+4S2zuFRz=2HHJJ|^+Ts!non+?glDojdc!FJSiRRr
zAISin_GvThA-Tl^c_P|KG9#;%b#A^cbSDGc*)i!K=na0I&{t!*mYB7D!aylrZB;Ln
z#D%lk7yG3qyLLqWcai22$<f9LJjkla7x>!pZ@$g4su|#h7wAN8{ZOZ*d$cu!18V)t
z?4CvGzexPg6M_ehY0KL)jyyG~u}r2IFw1er+&s7SoO{AyLGw#X0jceQgrbo>)qQ}9
z4QA{%1R1^INDR;h^oriRH0wHZU@3&#Rqa}NQ~1E_^q1gy=tXFY`0An-UP15}$}0N5
z$HNcFq~Dn(RRzhEuWE9Ut5~KWc@qVbx;I;6x^cLg<m8{+Eco8!Nz|*jI~iJ7dVtkL
z-c-f0@mkKUQidtkT(LEK+Z6{)lIw{N4XtweOADR;^vR%iA3nS=nXdE+Np%qjFpwoP
zd;8kuVexj2QYb7MI8C2Ott^M4>XRB0zEU=Jl<>h~HeZ}Fp3V7bMD|EXlE_tU09q2$
z$Xb=fYU4cK#o`uFf|(XwSnZA?MNmYJHMB}GxNJkKs#V%ONsuoS;a|bs`q6*>AZQ>0
z$$<D_93h{Z3m-rup#+3;^eXIp2i6+rmfGGd)fOwh7W#Fc2Hp{hMrGiTp6>H@g_9>5
z_Wv6s+}A;S%(LdPG3E={f$+1-%bc~LbAIVqvk4F{pY8)KWKv|Ec-5*ODWU{{%NXnr
zOctmu333x}TPEV{Q9=3_<uVu`YvSVw?4J}}vinDX0D;fnG(#;hd(lnHIPLxZwU`f*
zCCepCJ+<B>e8GF7=PqY(#|?R7+oC?&zS_o-^6`kRyPp>x!6^9s7eUjG*1^HW?#9n@
z1kb~NG>ms5*dqX4Lr{HdB<fCTML(mWI-k%Jh6diMwRnj8D`@d^Q!slF%9k<1yp+Eq
zguISCJvj#oRD_O5ktUmI{v)eTg<7Ve_%D(s9(~ymLJwGM#N$uq=WqVyt%7;9kP2gK
zD2mV;UH*-y|1C7SkNN*A60E}5j)@{iZcx{VqK}Z#7vH{F7WV@AfJ~~M(N*l`nAvG2
zIfK#5$s||qcYSj~$r^VQEk;A1qT46xhSpz6BuZ40urW9dSZ@1adL*7d%;5jNPE34v
zG}HE1bvm2Hf{@61{cZ%Ou}eXY=g{8aroDLb1+$Gn5us$+vDP+Ow)QArrDk8{MmB=k
zVEX0R4{?ubQyJI%X*mW29IijK5RlVoF}60hODqnq7#0Eh_WPIig)(G*QC{@;G2c3<
zzeNWQ?yXga=;k23A5Ja%9O!?3y)T$4e1b7}`Ez0d<4#hOd}aT!kOz0D6r>Fb^==y~
z?YEdjUQ&LYW-Zw&zJ3-o-_-m_$DW!Hl=psR-jWftz{8VfUs^s%aC|Wk(Z@{Pm1)k&
z$!QgGRI}TtsZ!_i*b{bn1do)Ibh^$KujT}suXE8eq>nZa&4B(k1-$9@7Q5bMndb>y
zjvyc7o~ibuR$rw^1vrhrr~q^6c^h_5(BSPLs-g9$VGP6k#?aoYHSN9bC}vU#O1PMy
z3TBFMO8w0PK+S-@O3!^!sofH~vRD5jymD~1x6qTX_1n5wSdc7o9#e~NFjFkZ)2fo%
zJCXR-EGRjD5V2J~7fv3!H10E0X|@jw{O5F);tFSrougJujMs2yB%(R&51<HKfZ)Yr
zd!qQeUC0-bwshg_u**|Co?I6UhO^}8Y)jC$z4iRjSNn;<*7=MR!O)@t))KvsmNR;j
zSgM)z2owtxhoUj`PjqhR)k*#$yLJK%27<M_YTfKGngl$P*;?I6&#IyJ6pb5>^+9d?
zlt}B{X|#Y@S7pCwAW-@Ve6)grGV0Y^E2^i*8@?5rqb=L^er5c3WYnqRN7b`bUu^PA
zP|tSplL|~ZlmSJA7v$#1U(wWUMz7NWKNVH+SD?j8qgI{0#%{9wh#D$iwI<6I5#tvQ
zYq1_<9x*^TgRaFoorUHryJptbP0Xqn>u?qRj3!zXtQ=AKl(>iJ*I9?RDrLAdG&D-s
ze9U+rNp$_d)=dDJmB7da`=;d6=N|q2;t>a2dghp=d%;)TGXyXH7zRP6IvZA+XinbV
z8QFrI{b#%1XXL4WtxhF&Br!7s24Ljv?H03%X47KC#i{QI*8J+~x1UcAll#AiR7+|j
zivBHc=0j#{YI^;7s3;1}mBAImXNk1``+kNozG3Lg1G1M4GA@ZK6UX)WbCvv2KKS9o
z$-mLhayOm<&4|`>JWd$;HV{SYiDK^bpY83+4}h$Z4qBmC6;(N2F``v>Y;{F}%Qe=7
z-g=coTDpqmw#<qN$g6y>&MmZ$&h)!}?!SbK${j{uT7gT~-l!$FTg#h#_0}k!Calc@
zB8g4&6@rm^9u-@R*mX>j)$a7u%Zj{r-Du+YXx<*TxXmd)a;zFak#pNq;t#P*25uWA
zH*S?7T47yL<nG2>=*gx*rpKUko;@>9Tr1`bFm9Y`YbSYBHpFt-AKzbY7IV$H=6K2)
ztxBhTaOutHKgFRsnc@#P?T<Z=P3qCUmzm{Lq9GM6hEu6Q4Us%=PpJy~RWijK+oY(g
z+MUFV&Sg6Ls)1JFTfK+NU`l~rh0SD_*7HbaTZHGguL;_OSFZz*-~WH9v=f}47Y!Ad
zy)Q7)(xHYmRHV^LvbYgH%CUoX!Q85TqkufqT1mm^@(p_m8o@A@g@l26>|a~GfdBN}
zy-<$IlU@{T+3DwoZ!v8M9NLET_+pLG@Rw-C_G+X=WhMBKlFqy}{I%v{tid}3SRt&t
z_F`FQ%hGrqZ8#k_+z<=!w{(Mg^P=5(P1PTH#gMgA>u^-cMFLSivb>=Rh$2~VwqjXw
z$09(Zc6w}39jh`-EXS7%t>qIelWOq9nZtZDm#cm~$0=s9+Lx}pQVl4`vl3$)Dm4to
zF8X2bC@tS!r!?;7kxyBaNW5C8UCAl}|D(IFjH)W^x)nSqAuXVQfTYwRrKFVZ?rs5T
zkOnD<Lw6$~-Q6YK4U&iMZaBc**86_n@B8PD%NYFGHJ-D^+WT2C=UnYVnikZNw_6Up
z^08PZCR72gpYB(1xS-C^aHe{KvT{+g$rXbI%l)r|SITPA%tn$Wrv^7zkYI9~pMR;)
z?|Mb`V=x`{fO-cbk{o6dUUbra=7vsYMEO?Fb?p8FLP<ZY!nn6^TBBT5&q6EeerK|{
zcsI7-0__H!2-OkY@y^j8xbq*m83Tw%`i2=oLiLc)(Wh<RdQT&=;araL;6PsYF7d6r
z*~ChVm>=i_ItjAn4lYL|EAw-6D9xs0TaEAC>$ePm0@*sH&D%Q8HJA{!YG<z#)#=zV
zi@b`yx_q7!nvLHJJC9sCu}Jx>BRP1XG*S|hc2rzKtk>|Qwq(sIDOzWNQRANK@;5Pt
zXE<k)+*<>9Zk?>enR$ru@sWrH!2b_rixvR~iY;}|MZty&;~}k&X12Q*ucF@B4Brb}
zDc1RCNPG>DI;JD)(#1I&$j5psEeu)@<~%(<n6o0uvAq_<dTr2LvH?HjrlX};7#o4#
zq(iJk6Wb|ml&4;8OJ7fm5)o$GtCXiWmD~Q;B#$w!4*SA;AVu=&h1JDpTkMigWBdFR
z=)n3#OfA+@_vem<@|OOA3Y*ZLGVC{68M&s$Ck(E2lP=f!4)NLZs#vt7@Of@OvFbxX
zr}YgD1s>D+S5e1(`k1%tfwx9KvMqL$_r>Z<KJ;mkdkselho)pa_Ui_qbOz=po4w!X
zskiNaHVXB}IOwr^B-|(6-(@f$6~?kUt$}z_g9+xIkGtv5bwhT35#S3NW2rN710V8r
z4afp%3zot%D``LK9)hn-cEL?5!gV&!nJ7*7zj~6u4GYDbi;n%GUnhyL7?Fz&1V;c~
z;l(-L{joWvg*c0t_6X?yRDG*=0J`~^0Mi-;qDVLjk@vT}W8B%y+p)?)#BbCRQSmH<
zPy0(BAcV9+qzI8ZGM5`1Y_t%bOGtL+za?-e!GhijEEPuxhrjc9@{A}GAp-GRiN;%&
znEpc?Pm7Mcag(anmt3U{;DStGzBv<)7r70WKIYa^K@?iF16xH#JXeq{saK7D=k}GB
zr+dWybY|w~gn)j@n-nIKbYx?#EQSMYVblr7XT1x;X{?sHr*ruYB>;|?R=gzEGbkxn
zrRL%V)8}%c!yiwqwu6||RG+Ov%A_Su%eWJrEeCK3GmV?MInUJ%n@*VKO>I@?BKaQ1
zNR8Tai7QJrYd^&-7UViItPeyeAuy_R22Ji(?aHnA2&3=jtY!hsZKXpQfVX|7W!+V4
zJCN&}3FEQfn#CiVEILh5d={p9+N_izB%cm{Jpx<(dc&RVj+5PVgD!H1&NuC_<asDX
zku9-n_csmXK!c-Nmv`c2q{N(NsKJte7MHkOK;q(ZOv&qF)DEoi=UW=;OO?Gk{Nv;B
zN@VeDk0T+OpopM1fr%YsBsKCP4nBfKcnel_RT^~fvEuYovvdL<%IqCOk4XgV%%h#>
zwuU+paPjeRdxLPa7ILqd2C2*zuI^(UdQ)_5MU>p43gtSI>b^v23{X6I0~Yg+{PCO?
zGuB3oITn`E*yD#6$Ez0iyFdr!`&AJ1D=9hjd|AeQdU@%emZn2z-rb@OE73hBQ~+~~
zE-V|`Q!78V^D<Z?5Rrfv=@U%uP=SixZuthCnTtU?CWQO+#ml?4x*&Ne(VeVmcvT@5
z&TgB=i!FsrW<dq55f@ki;I!K8t6-dICe=S(#@5eBstb|WuaL`*0{puA#}%HUiWE`d
z;<KyNIHCCD-W{|5%Pm{`F~3nz#lkw;vBz5)GkIGXVi(Hs|DFBfgXOfC2K`1-`{`f#
z%PULh3n`W9K9!2Vzc%|(@Rz}kHEWUoK;}eAUL%b}MuoHf{BNaT5WoeNB@{sg|8o^q
zB+#z^FlMOppNy7G0H|FWS9@dsV>@GsiUI{tB(W&>|73wP&wvVO(obaRKTxn=6zbQ%
zc;@6%7yr%PS%5m~Cu3R;%>S&~mz+Q1|BD5+P8u7x2mYth(-_`5o+G29+Ko%Y!O7Wl
zVk*1VctQ{TTOAf9ae@Du8|V_;>}L`Ef|P1!G_fMHr;O6#4|M}goP?1P(aXyV(fN5$
zcNj61Gjefp@zI&Je@#uz4LM}m1yv3k=yXpu5b0fCVC-=deWk5w*W0ZoEL%3buoJF>
zS?21rVLSA@wEpBI{m_NMbL@@PEi8?kQB)DM8mXG{dl>*L%a_~5x54qSP3$f$Cyojz
z(?PelO=-s^DxH0OeMvahFb@_QN~U(bSWV?=M^`a-kJrZN(tL6RMsKJ6XKV(V{q(Nk
zi?<%sY@he<qhWGRVR1d@EW3{~_`|C9s>MK*ok{|F!mk~66oIz4k!B)gUj604t$Eq6
zP~J^nZ;}Z#l%LY}k?G89P{TsMK}~-lVeu`(PRwa};z)W=;Qm4BA5Ij1AyNRs=Fa3U
z8iVyS-LE6P(bNLLxUU4DgdBH>4h;)3%<$b%k`E^5;filk=YG(9@UICcSabeE&=AFd
zw@q)h+ay8=eJNFD7$_uBi<lN4*#SLEB??~yg%+wQgUzGfs*}mBsroQ?|HgqnB_*-U
z7wL;!?E%wB%+YfvD{%)Ml|>7}dOAJVLv?X<KP@qF#7>#4_0AfGluzLy@n%Z7g+1py
zrs)3s=fxSu42Q(di%}?}WN#vg9#tI$9;|@z?$_TD@hmY0uJ_;<=?$j$i0ONBXrldk
zu^YwVZI98ElnLt~LEFyo?Lt?AIGiUMyfUfWZ3pC^I++4`@QsSP>O)|@yz*=0ta2B>
zNnB`>{9yI4$<BUEOYE>=HWa*Nvg8cPRd3Jpp;IHd-Pv0!wal``4owsxY5g&yfBi&^
zr|>uJ#QrxI>Pm*m6zOpzyTDRDX6*gJ%96Apf<T~^iG)+O<LEVDxU2rfA;jjO{X0lQ
zN8dq_yM|yVS`J<3%<23vOuX=ISGG>`)N8hARsTPZl@A)yX$%Ge=XNgv5y@4y+uGM$
zmDj|YnwpZ%Q{0#~EN*AySu&dt!k^`;c3Y}p=h{XL!H40<mc{{7d(OVbeDgw1W0&4M
z-GQW=oa6(4aJfz~po4ss*Og||T72}^ryC&=KrH@Cl?edZXK51h1M$E1`q`(?pG=G@
z6DF8qT)dtznrLBw7u~!WmX3w@$A~^&SF=;nqgVc{qnhdf5YrI4zZARxJg*q>k)B-=
zt{STl8GQB;_laU9oDg0MAEAEbOp9Has#`N4r%`>lRK6P<UJ*jh5Sgy-DNKC>yX1Sv
zD5<8&dk=jDt8?K2GRB}^?P-RG%RrAX#Q>L_i5?pTdmbBqrD9q9C5Ib))6|6vUaMtW
zI@NMyl?m*m{y6G%A*Jl#?bRw=b2gfkVJ#m2r?vLGNL;YJ5`XP7GEh@e4!^9Z@5>xv
zBy>r|*wl&Mlyjf!Ax-z-nwA!yjjE`0^VPL03wI1Iseq3Sj{01NqPxKv4-J8u37Smb
z?Pv@|SG`9{b1-&CHh&zb**PEMLzp;^+q;DScxj*zbmn-xeix8vdW*VTSiA^iUF`t-
z1$uB0`U|rUbl9PHmy3cBV`BX|Ko6VMKDn4-IK9qx9Uq`d_~iqA?&&e0o@1~Z%2VHX
z*@}53fRtbs)1Pjdd0A?FXY4lZS_;;v)~5%uUKT*xC+I?_X5^r}gzKy|b3}Gr^V9iS
zYXYOicHhdTx7O<2$mRHR^)uF2_IMRj!rWi1g=;3%p#fK%o_9<qhMzk@6fPSU&!)h|
z?EONG+>;D3EalmbZB4)wh&NTx&c|aPy-ssnux~<KmvePSvB{dt?=B-oBMk~Xi;{nD
zc^q%NfPU~+%x$(5cHkF(EOw#;Otm6)w_pZd^Q=`nczAC{_bE4e`vC&CxeL#$(l!mJ
z3Tdgv=`EDKnJO7Ii@uL?3POQtL|U^uJJ%;`9d)O1l@6kGLXpj|73^A$cdMZ;J~s^G
z8!Kyh6<kZPEgkJ+W^3-SGY9dto~<CZ!`^O!=>zUI0xe5(8~N{d^dKG=WEn@QHAM&9
zGbtZ8HBE<CWsd^+vAo7JifgoYU{Y-#WqVN$ilt}ln4gU+KcxXn*Dt&i-+G};tg-$f
z!l2;Y59eQ7Fc1**q_7YGx)LEk2c~_Py+{aIBs6UzHVK7>pR?YuHlEpJ;9CI*!5>;)
zek9tL^e%_DZ+iDFP0~;ZzX_($hM1r%07D(9_;ljd8>`!sV@Sl#nji5j#N6q%fjXY#
zex!QC_ZxRgE4a%ETp|Owm6gb|+poIzrfZo9Lk%&cbX*2_2)ZM9n7iPVX;jGVLk%%?
zlf}|Y!&{bM-C?Ug+x^qmvLrf0O=CdF99+2q)Byzs*$K#017lL}L`YOSr(jHW+|^d9
z-YY^VuK{_xh#ifa2qpur6#5z;g6*v`1=SiGhzEf1Y)1$Oc8?3#sY%xG+_^S;{@mVi
zh&+)hCkH+L^jUkeg5K5zgf9_2G$5&WZP%Nb#(1;nB(-+GWL}Er;M-XoJ6VxYJM+1`
z?0OQG7l17;8`5?SZb1KGv!)qe%x+{vQqI<Fd1Gj5&m-@u0edeIN`HX7`5TgqCJCiq
z*G_!rNiCcQg}&=cjN-Ghe5KoHJ`CqJb7bL^cge?thB6M<J+1WR<n#JhEELI4g3`<k
z4ABf4@(qQ^8^f7CAy31SzpZ}m$WW*-LlEUZoe5--EpwxWm2Jrss=$A|-wR}GAu}oA
z8U2tgXz8d(x8=2anF@`XCi7j26-cL4NsF^piWxi%%`R~jQXl{EEr-Knn+e%4B>YLm
zlwij(-2yIVBh2)b6*r<A@>2BB#|vR*O(o0H6?!t1@1n0}ThW6E31&djUcW!pKpeb+
zo5*2?adXEZzQkr3&3e7X1GqlQU4`pr^%l!V^5*S%5e*w;9AKi0XqwAtjr5RoYzhvb
z8P|R3?yo;Ftl-e}tK=iQ1ipcdXA|dhB;Ru7I(H>st8<(m{zP)NHR?X!t#*GO_wM_X
z0ha)xH1h85s(Wn41{vRsQ*uvtm1tF`j+n^;HCw`lD_GJ{P6=|y$P{&zkjY69VuYR8
zLJ+u&cXjr=U^luuYmRGQ`*`kymb+!Yj`U7hALeDu&l5UM_CNmBKtjTx70r>5%vny+
z<F@|Us%*-zH~F~E|IycioH+#06H=j*02C|Dr_t}SiTFI=4-FrX;4{&;=N{S~XNf1k
zOMf+EM%FoTQbtfV>Az9WI`8?ey4ZIo+SJIRF&>~%t79DB&N&}G+l}-t%-__;U{U47
zP?{_JYRJd>bWb%!!flug2kOR7WRZzxttSnPyLM_-LvW&EH87w9WM;9r|1@-F2;pST
zrw;bSF;vBEHJsfLLeES*YLqALzaLKIeR{y%&OK%GAojo&F@Ul01!;&karSZ3PHo!e
z#PU$|S980n!)=QHi}3m3aRH2g>X&x9zX7$A5-8R0c~ky!5p!|XlxT!O%>Ek5uMa(x
z1GI*a2&g58RzNul6>A%}5Hb_S)Ft3M^j45GC)Lffdc>e129Ce4-2%-oES#}?B24l5
ze%@c<?ki(225&8~5n9Z;z1EM9O*=D_j3pGxiTYQUq47Cfopo=;#}5;aZ{t&`tYw<?
zw60X^TP0H6c4EYCE<wHcA?Lg@)XTQOt{Y0>`nxgiPep=PY`EBaB)EX)et6%%gq#xn
z1sUDBF82sidZV`%3ZdN{JkfrWLS<X$tmVoVSJnGF{J}Ptdd?Xr6npo}oL?Se0YMhG
zuS_ZfnKBA;N&p}HG6}aY<S3BFHkc2`**LhMfY#;hIlp`~XE~)>QlZ>b;tch%i0B?p
zsplV?C6SU0$46|=0no(64<h@)udRLktuc9HBXI+E+8J;|SDd*Sn^QC*vAD|3)S?Qd
zrsCt#;aIOu0=u6e{UyI*1@qT(x2f>lscL6a%b=m5q6+Lx<UzlKPf}Act!kx9+dh?&
z)j`C)gDKdy#jdacklcqByM8tBft;q&#&{eRalc3^;j8@Ap2kB%#3w^YZOtqf7Ex~^
zXf@TWx#gHkaz6i5`=LakNo_muQ1A3t>_ZpyEd6v%jKka8=Ny4gu}M_{3>D+)6`Efd
zL`~f>%E0=#x3Ut9heYTTST}+cg%?57R_Ss{2CJeXydCDq!?WV*Jaz8uLJahLULf^#
zLPm~sT492EKe*nAw4*3VU!UHKtN`!|SkngLZ?7l?1*23q#)<J_wjhYWv}tvTN!G!6
z0UBAI6b7|M8IT`km6UdtVZ?mOhciJ}0sO2S>SiXi&Kt$-fh|nD$9l)i<{3TCFI_%K
z{B~aqTKFy@4Vr#ud6}=@A~J1=rr#1IKa(>6KVO}lF37b)d?hf`BPZ|X++l(Wgw^R?
zY<~h4a$O4euQP!zm19T8L|qsxa$&~@j6|r^wkvQUQh$?Js1hb)$4~)2U-c^f3T5><
zcBb~2XQ95ntU=n}ha3eV&UiaH2}y*VmR`8as3*tuKlyu#A3pR0knhTUPTc*=?}mFy
z24Hn`35M4H_GG_g0$H<7bjk+TKdesMFRaeYSG&5u4}re<1sO8RsgwTuW?D1;f(%tJ
zYl8nK@f^s%AVWV*i~q@F5C#K~As-8lxIgy!e`p!4=R*swq2<c|S*mEO7h-LFy))N{
zZJpxZA4mcx@|xc<CUcK<TI}!l2~8NVV;fs?|35+la7D!Gn|Ff_|Lo`kh+5c`qHfy$
zv!mQEJN8N2rTnv_?k_uj`cbF(&yLRlJBF5zYf}BQ;|su!Pv@+`e=0j)K!kpP9sjSF
zQOni$!9p+PS0}Ttg>89a`xJ--9oBkNP=PJ2#xIW|j}xHJ{TLsA4B%&gJRMmE-I3e<
z=6TqMA7^#f`f1$G-quPR8#}cR)ZFsH^YfZ-8SK~?TvJu=x=euamNJ;QxKGf}YmS(=
zf$2p~0EYMe)+NDXhRp^^@N&u3O<1a@d4+{{u8|N<-BvqPCs{r0-uWvQ`y`{KA@PDV
z2>2p{G5A7~LIF^4V*Y&7X4rCO_OGU+g7$~hPd}@l^4#7%&+7;1N9h*b9xpD&4TE2>
z;6P&Ufg!#k^+PuybES5dZKCJvA``F{_QQ^|1QZfHeCnv?0X~)D#a4hLZE(M$6mfH7
zHz^FOI!F_BF1u#ZA7BOWnL;Z2i{>vZmzw<v*sU@}(lCeLKA7wh!MN;}?XEB4kD>1$
zfwh`(H}m?NiFiD?hW525NWgbNP8^?C1|appj@N+-CQOEF49AvMteWL+^gtS60CUS*
zy~qrUXt;J~-6QxCcJmbKU)P3+=#hULU4CETEp>OudHsSI9k~?<?YXSlHe?sF2d3{o
zzGcQxITT!zST0@-b4a65zun~$Vc=#u$9{hDd`Swa{majXa|@baTieTJg|lR$;QS?C
z{uE1eCVOqfb|R5t`>j3frYGCeqW4}h=U3(6)p0B14ksT^bhe`FDB{PA77iT`u`etJ
z!*Yf-M;=6(h9UdT_76?n)lJS#zI*+RI;k4|fU`Mp2o!S6x||N!lIa6VKMyMdu@o!-
zzuPdMZS(TGXxb1S&>V?B!8$SQ+-b2{dVo8aZ?f8%dT0~4V}M=mw0P|(^_kL6)CN}A
zU#}NT+w5LwDQK;BaC>g1`l#M)ay6>e)bDg7$;VPk(KMc3>}Jc%R^|b!UGFLEFQC3y
zN|C=hm44#ekwU?i2JW9OmFy-8m0wStM~MqzBDD-ZjDzC<Hk@x7)u41`-Me?36rxMO
zoGWa4KJ#c2_k~7cG?nuu!5ZPzkJ@vO--YpXnFu^~Sd#w?mGtG{bXZ5?eT5Z}UBw;F
zTg8HFfh06++V)X%{8dH$?N%duJ+GkkmI61TOAsX=2<nr6pgP0OnU7;9^n(`;QE6pu
zugY3+_v(=bI$u|tiMvP*#&*Hzmq(h7*C4WH$*%`e+-0AwUd)C-;?qVCrdvn_`_kUE
z2h;IPrB{TFUJJ;K=g6HSqRg&qEWb(ZS1PHKHf5Jo#q}PAe2}yll*t~752M}jWQZ4q
z8X<BNhuj<Gc4ihWXRBXNFGZ+Jc-VXA+-tlot2l()n{jxwxY%obF;4*-DT%UdaoIQi
zG*^aR+&3s+AS|Rvql2|MqyyAeG)BvXIvx;9=1P^~R7%tVe%nLv2LxO5eu?SOqHtv-
z)KmKl7{y(MW`chG(#?+NKu9!&-II0o{$fw#p=h|r{;*)#^&4loF}wx7`;MA@^^Z2j
z6L{&d3^Hh|IlMs<+drN-FewDqd+@x2PXB})8Sk4751zKB8*mhZH$wQ_G}KHE02+MV
z*5b9qFV#9oRsd5OG7dNz&ktoIgjLv{kLbx0{XO4=TDSFj%kiwycYyXu7oczg%#A{}
zkfIIe!%K8K3tid9$|G1lnuD#INt;Aa8*sV7^xUs*vZtOgXf|fty1l>%FcT-4$|ri=
z2w)?;ly(lG%?|?6vMUF7mpf(><Lwj$lU(yQcU|;u-%hIc=S^n&d2Z2Yy_}^l$)+kN
z^5j=WmRA7<Wb8zC(=V=<cV+x)?cOmlQWy2pjuvM`YKa=w)`&o3E8{*DOj<JQUz+>C
z?OFXnj~-rW-V+ebo*wXnoar=vglp;oBx!c)vH>{b%teFiVat`><P)Bj6C=o~7KM}l
z9jj2-tZVBVw`(EnE1G5V0j+ywf@WZ}k)7eFtKLxF@a6u|VMJ6t-^&);&M^Q5U49_Z
z74fjxL7|pq-7I=*44bKSe%hYqyZi8!-0Gy#`N8T?vbB(=nA^j}$I=BZ+TAqK9Xnb{
zP2^P@V;gD=rr#H6u^vt|M%-wC!HT4$<jG5ii9lh$z+PWahVU~)@CzKw@b6+ENf3Jg
zD=TZ$;PvFLi~H^8g@f)f$pVKPSNFpL4Tt>2hpCeiyCHWO;WU<cXwc-wV9g?nJH(^2
zNj)cigy99T97pb@f=9&~Li&BSlx<dKb%W_DA?N0vUiIu%nTmE$@*)cx>g9k`tesUz
z1WuCPWh%2lNCMw$t*+Dv<H$oDH&I;enAfXcy90hKs2KOWrl26Gi3?gJ5=aIsMP?F-
z)*S<4l2c$Idd78eTk-W`>X2tIU0km9H2h9$VJTPw@v-y+Y%V?a;@bJo(#nRzze^WI
zeHYF7Vq_j<w0QN*`DUH;rOtc9!uIs00tN=u@kqlN>ayX1P35iiggEs6V4LmgcuwZ~
zm+a^d(-qmC&nB<;{rHL_RhFDIn3>1cVOIAQLnc~M+S5+ueW}`&f>T9dAyKAL3~w#F
za&K`7``dU;9DZh+AFSgmTNIBj#fy}+v*5ARl(y~9Q%~o%2Jvj4pnO;A-%$R}H}x8R
zF;c-Fsy-PDow;lyi(*tJio>8{c3$DA7~wr1ctD0QJcgaWHD8yZT?#kPkqV~;ztizJ
z-{pIO(x09|`m^eGyf(k-VI~K%#Cu8<wR`{AkJ+S)wSvEkMJXAYuipk(#&elloOkxT
zEKo;G0wPr_cg-t1)-ePtKQ<Wj#vG_o!rSGefvYHyH|C027I-R_Dg4s*@D4ozA-t24
zZhx*Sw4rBemo$vR^mM8v5doK0wjg%!nI4Drx6gKslc>&wwk~`LJno5~RP@UYw<R{l
z(23nN>m9b=un#wiH_Lv24@5*kIfkQvTicGG)+Tb>!lOhfCd2JH#(RKBCR?Y2T^PjQ
zx514silnL1ZHD4gvsfm7nr(LLG{131C!kekpip43jQ>O_h--C5LaS23#1R=boD>yB
z5w1k%5yo96N|I*KolK7*FG_(mS)DUM8jxDYQWD#Uwx2x3p$VZ?DPjT{U!3KYFW(iN
z9Jn45G@X5icSsnLYb*^{oz^9FfxJyc*j<~j(jq-I)}o(tgbmhWTh(qLXSyyHnh)>@
z;-$UPtYfEpUMu#4V>!r8(h)}I5>7Us9$v9P>`5uJ6JNIl8}&Xo7pK!IcRb|%nF$*0
z6KUXMI$tX&@RjOt+|ah_de!l=t^E4urt6^db2RA1#Vo3~(D8>NVw835s_-dF4PH8I
zQU3bo@FoN!+l@W=?T92&>|xW7V`#WBD9WjxI~oqKJLs%1bE!uDnKJ2EhG}Hk46OTs
zFtX-U!f@gXYp<kCq}@$UZ+x3l|I6>8p5`?%Jw3d6Hr@iU#vxHzc5{YRj4|<846y4`
zdy6=_s9}pYNsh5fHVF~S%S(8jI<+I3<?BD>O&#RVjka_g<_&i=AH8f%ga}>5s4PYA
zmNb88z7DBa+Z6ZMA`bSPcFHIw-Cy0Gt)4n&oSd(Sa~KlLIM7f`WAUT87aDA;o%hW1
z4I1nXnU;ReM)4VJIhXx?TO#*ci$J7C^%00Fz+5X;<xtB(ZEjl8(IcRvv=)KFb1oD*
zN3+@FVjlrcdG`X+^$m_`dhm%BOnAFEyluSBp!nI8)?<jQg>5R>d#~1p0KqTiDT-~F
zWlAt@pwKNteSb~4fR+dy^QGH^$w_?IRB(fC<%IE_zcr&+*;aH+r)cnGx4xgoK(nCz
zZh`j@EtQr&<?EhTUO)8o{DowhATwMPoV6pWt*X&n8&wJ@l1dU1wT-*({udSlg0tnF
zy~h5{%Xe-SN99qHQ$@$`4lP+-R9fyoSFP+#5f~Z9bAt|7b}B#xaq2@{Yt>2_(I#|i
zx<NSkkb|vK-%?=s-=WLtOW9}IWM5GuDeG@HSw1)|x|lRQ&-c^s9ttz$_uEC&EG7Sf
z5Jf{C;%eqoR57vRFIa_IfDPfpr7Dz|AOLEplPL@x@hOa|poREw*1qvY7$BZ=EO?fk
zot1b~ieWKni{Wr)Xxud$9y8f9e;ML}{*f%rhU$p6_0c0#5i!B{iZkJGktr$E#9Q!Q
zAe-4rqa<}|@quFJ)oeF`&^n!tNQX(AabR!}bfDddJTeok2R|7{r)3ErYgKO<Sy7Af
zbk=L~Nk7r${h3z|SAS%H#-_&QejL*&is6k6dXM7-y<zv1|IVywa!i)9I06LCwzU0G
z6ecF$0)Ge<!+acl1%ntKA_$yw+N_~l2o`?t{ebo{SV}oF{}d#|f=}ML`jtpcIZHV~
zQJ~8u7iT9gjs{;vuG=z%xSV1BV~>eWbia(JYmeJT`uJt9l`>xc;A(-oO;5LRsK*c{
z?S4P4HanC1fL-|Wjc5zc1-VtH3|P;y&ofh^nTO}ss`OdP$(Kc6c}@BO57n?=ZG-)6
zP*Gu-N-!@P@!XCAF|rKn$CO{rY#evj3w*2RDLdFXNu<TdrH0NRU>SCSlQm8Ju`084
zkM%wXzYtX>VW_Pr%+hc9+*5zamNY??c5MOMDc@9yPsx?yuv>d+hAhK21;Wjk&5}7h
z5LX4qHXPgqs`IC^<DzOjneLupIuP>rgEJkc`CMt_-OalbG+Sx|amzT!-*vb|yY|*i
z&UXnD_OAWrpJUznqD-(rz>;9QI4WMkx+)?JuZ;gQyoA+@Id_HZbm<Ai;&fg2aAt{t
z_To}Zv!CkapXyjyeRCvWy`|77U1gPc(Zs&9v;vE8c;1{CU7d2%@Wi=8m)2Tm5-&Zy
z<@fmcu7ekKf@j`?`=>2Mpgo>d7v0MS-9=RKk^JIWuvX`6H_LMfi8MEl|I96DyB#N}
zzogIPS@2^8lA{vMB4uT|P*qTiYd@;7oH}ftxuSK^VNNoM-ot)*guf`+|9D*y(LL||
zj~Ci(^iIhc#~jquVq-Z5LCMitVsxd=h1X)Ck!c^Wqbd}&L^P?~ed@EHT;?|VgYej`
zBIy!l*8^H!Q~Kkz{Satr8t%9a-qT3nQ*GIWDTX9DD{INVAKeyY+oy|}qcZBr5m)9|
zx)w{In{-On5^w)F&K<%~{-L?laA&>PLctf<;kV{EJ27&sn~z*I#dIwWSyrFbu&=d;
z!u5f=6|9rvJ@93B>aFD5!LoF=2SRBnEIq{BIVn;}Y-}A#9-bBIvQ5bxpnR(s8O;Tq
zxx^FN&&?tzkB*tHvYko&w0N_REmKajY^1B1mR4}}<VDX+W0XqneyToccI>8G779j*
z#XKXUv&BH6!w$qC?BgGJamB91E?4@cPz%q_!FpfyyHy&|i9enWQ`X~4Tn5;(oDE*p
zqzD~$g8;7iJl55a25qnY2Vl(RKEQNoissN)>4EeIaI2aiqZ3VB#;j3lvR|S>o?7DW
zkX`7m=d=I#IdGe5)=9R6Rpk==f{iiNA1Rsx<a@zp^*J(OzU>y}?Xt!g<|G^99BqNY
z0bZ(ZTLvyJol(ykZP!c3i2hk@a8!WyJdZ@$L)0keZZ@qH#@*6e+&-}AnHH#Eo)!m8
z>OEp3v1Y2SS{g0;xz)63kf#;7OMg;~K3SvMgM>Q*(MBz=7%eWGxPXiRo=#~>-7hAP
z7v*JIf#qAql|@R@$CE2&t8CWmWstDQ<`nt$JrC0z5AmW8);&vgQUf&3OOr3<b1n1V
z(Wc7Qe^h;3cfIL%a^3ubbG5hN)QUD7zACm*u4Y8d?&4(}F4x|;x<!&wB-NOCRE3O0
zj0JH_Z>Cw1*F2PRHIGhIS;iraCr8E+btjc(m&lT?fJpXP+DCm&i`qJ~$l$MH%<7Lr
zuLnBTbYBKxiP9Vht_8o(d5N-^K=z~`F{FWpe*B7TfrPNvDJZ`?n`&$`V`EVppSXkj
z12DXRG?n%ZS&W+j!tf|3(0#PAtc5mC@W2Nu+}2z5t5iSHrz>6b^$ERh1!V~#5NYs7
z7Mgw|g;T*{VyLjv`Y8YPBc0TPN7LZSRE4Waf@k-gad%P?<)y4#0kcQPE4Xw$rV9A?
zZJI5Xca%x?6C#=j*sP*g$5d&M?v2t%N9D|?UDRC^CQEjOc?%uAr6XxmIXTqub-JU*
zWnnQ6QpsZC>YCg7eRny$pQT5@T*d|HX^qobZ`(Rt`7cU|G+EA>Gx@Hp`Z^%%-F&xJ
z3Z8l3Y|toHG66-$^D=9FcT&$?<-v6<)Y|)j<7j+~7p$cvff4N%rU>R;hZF4rbnu%U
z9wgxzD=SO=dm6ZX=q)Y$8MAEHCpI_dps-$=kS4P+4vpTj3+y`-agmV8bc+hhx^C6<
zEr}{IQWv}O3Mseod4$WCO%|0UnB-{hE8H(}L*CZQ+uTL0aNSKdgdiNB9B(G@)=?d;
z5%0IX;t+ov@?f#-lkL10Z}U{(%0_A4c{ohUg=1uae1~uTMgLn>&scrow5Kv$#IeaH
zxDV3WZl+bQ#lltRzXW$4IaSv0MLaTE8L)o4VoAVUo7QBnC=$@RYR6)<=Y7XqsgggR
zjf=Hn`!%mY<hm*pA;LB1Eta>}sX9ecErI6ypD)GazlCM#ykp~$j>ociBx7^8G9{Ui
zr%Vo?5)qp3dAzSiDQz+uM4I3s_kHp!*mE(QRjqQRbfAvaxNZ5^i8j1WXGzVKxcr(E
zOYpu!VK|{=p!M!DZvWk&`wG6L=&p-nNY33YN<pxr-O?LXAHnmw_I3dqEjc>|GZS;V
z`Myc3ov+(=*Iio?l(_xM?5f?zC1-8kOgD@O?LI^;Zl43scIW!f+>?fh!}#FE9!iJC
zR!ip03k^UsWt3DDDu68Wcw8xfO6iv3(QYP1ou@3OpyRF*_{1;eJqKbJdLDrs*E#E5
zRg}$;lPQJHcTxCSyW{<95SaJminMNXh?8<=b`o5OHH9FYkXuc0Ru_FW+BJ*&d8aHg
zKs$g87q>@Bw%sC!VcIu>9woJy!8I$@_O2q9G>OlxgETQh`z5+TiHM#_NkeGIT4RG{
zlxE@D`L~0a!-vt#8ysYl1S%4(>o7LdAEZl3<JD^Ai)s1l)@u7>heONiTVAbB!rW%3
zlU%EjVww1&E#NX9MqIK+3pMdX>B<oi?+)f24@%}#EDKjsKwt3kB#T_eHiS3_ZX92y
zYaH_Fb8#Z`q9Wwhei@x8(zC_2xa+8M18dfee3fSO;?_+G^C&hs-^nd+QAlb&kPcZV
zAKe8Wzn^rOltXc!6l<9h^VXKUeNB1Jy?)gdJ)S#?QWHZ3)w#E?kM%Hf7Kfa}FxX5(
z@!H8K+9A9d>M-q0>SAE?cG9QgheZi0nFgOzJ+BF)NB4%qtNnKD=8dtJL)ad}KOWVR
zZ01!3aa7;$h!;>_acJ_6UivCknIBZ+V||%V|9+b|8K!3^OH$mOZO6@-Q@+>BNtHT3
zQ$6#7@Rs-Y&n*m{4Glc2JDP_GJ@3z{8rjJ2oWdd`di3SdG0w|2j}0Vg3&)i!&CA&2
zRiDi170e?<ClEJ05nLEQkHELc;^~U7*BgJ2d=Y6SgJN>vg1CD*anIb;!u}lib;k}p
zeCpc7oW?4_#($sCT1EmD8!G#@+3)h_k-x5&wZc3i&ski=Ut;_p_lF|Dxd$;`6eV<L
zbi|$iTf*<_moP*Z%bgXf7$WnnLeBP&|K~|-a>S!Mle{#Kn?UOECJ~vcZP<hR_IL#A
z{O1392!`Jy?R*%0Qm5N0lc33PDi5<Rltj#2_Rf4iGy2N@e=LL>{v63`<%dxDMM}*X
z`<gg;OiAnpJFB>O(0a(UPSiY_^H{TcG5PLvx9k5}$&nHNH%ZT$!$Z$o+0O^_mhIM1
zb}?GzLOO;~VwXz8oXTkaHCxlEM!$P<H<aEn9n?^SeMQ(!F%~HzMl-nYScApL=)%9N
zlCE=An}I_1=COJBn=whh8=uJab))QOEfVck4bewF-Y$Zsc{}7*W@d?cdSZ!bU+qFp
z)Mus-k8|E#-EVfMrFp_&yVGeU$2a{}2{^mxuZX!--!y#Qk8IkBVCH_`ch()bjNd0!
zUQy9+5Xh8jj3^dRE~G`p6Tfu6n2)?kwva8fU1OA4+^|!@MXjO0Sv=P$cirP72teg;
zZ>?^__o<dIvmbBssnknBc66#gO*kw)xII+3_guEjaKGyM5&HVq8T{X8`0kqtR~hoe
zq9|QTm|8l>odhiKr+;i0vnHiwPQC==4HyhtXfHOLH0;=ZS92#Ul8$TEZPwKu(z@1i
zs2lTkalb3$U2kUzz~02A{dG{aVeE}n=Z^h$h4bF%#(EQNO95CVak6_9IE1o+vavoN
zv!oP9OP@PEeR!**=!txRJ!GL1*mt;NUR?Q2yI_1W&F7k<#+lP`-EneVJhKs}VEp^=
zMwv)b++{JWxL(s#nOFok#1PLAA7`iHp`!KcHXYCPD|T`!#8AG=|LJ*0O8l*!tH&zK
j;G1FSe_fvcE$ALSXxjz8Y!w7~1pJ8!NedQ#(DnX5I;&3i

literal 0
HcmV?d00001

diff --git a/docs/source/deployment/frameworks/dify.md b/docs/source/deployment/frameworks/dify.md
new file mode 100644
index 000000000..5cdf6a387
--- /dev/null
+++ b/docs/source/deployment/frameworks/dify.md
@@ -0,0 +1,56 @@
+(deployment-dify)=
+
+# Dify
+
+[Dify](https://github.com/langgenius/dify) is an open-source LLM app development platform. Its intuitive interface combines agentic AI workflow, RAG pipeline, agent capabilities, model management, observability features, and more, allowing you to quickly move from prototype to production.
+
+It supports vLLM as a model provider to efficiently serve large language models.
+
+This guide walks you through deploying Dify using a vLLM backend.
+
+## Prerequisites
+
+- Setup vLLM environment
+- Install [Docker](https://docs.docker.com/engine/install/) and [Docker Compose](https://docs.docker.com/compose/install/)
+
+## Deploy
+
+- Start the vLLM server with the supported chat completion model, e.g.
+
+```console
+vllm serve Qwen/Qwen1.5-7B-Chat
+```
+
+- Start the Dify server with docker compose ([details](https://github.com/langgenius/dify?tab=readme-ov-file#quick-start)):
+
+```console
+git clone https://github.com/langgenius/dify.git
+cd dify
+cd docker
+cp .env.example .env
+docker compose up -d
+```
+
+- Open the browser to access `http://localhost/install`, config the basic login information and login.
+
+- In the top-right user menu (under the profile icon), go to Settings, then click `Model Provider`, and locate the `vLLM` provider to install it.
+
+- Fill in the model provider details as follows:
+  - **Model Type**: `LLM`
+  - **Model Name**: `Qwen/Qwen1.5-7B-Chat`
+  - **API Endpoint URL**: `http://{vllm_server_host}:{vllm_server_port}/v1`
+  - **Model Name for API Endpoint**: `Qwen/Qwen1.5-7B-Chat`
+  - **Completion Mode**: `Completion`
+
+:::{image} /assets/deployment/dify-settings.png
+:::
+
+- To create a test chatbot, go to `Studio → Chatbot → Create from Blank`, then select Chatbot as the type:
+
+:::{image} /assets/deployment/dify-create-chatbot.png
+:::
+
+- Click the chatbot you just created to open the chat interface and start interacting with the model:
+
+:::{image} /assets/deployment/dify-chat.png
+:::
diff --git a/docs/source/deployment/frameworks/index.md b/docs/source/deployment/frameworks/index.md
index aa3394c37..6708f2c41 100644
--- a/docs/source/deployment/frameworks/index.md
+++ b/docs/source/deployment/frameworks/index.md
@@ -7,6 +7,7 @@ anything-llm
 bentoml
 cerebrium
 chatbox
+dify
 dstack
 helm
 lws
-- 
GitLab


From 9f64e93415c4f78cfa811f2fb392f936d0cebe6b Mon Sep 17 00:00:00 2001
From: qli88 <qiang.li2@amd.com>
Date: Fri, 9 May 2025 09:59:36 -0500
Subject: [PATCH 249/461] [BugFix][AMD] Compatible patch for latest
 AITER(05/07/2025) (#17864)

Signed-off-by: Qiang Li <qiang.li2@amd.com>
---
 vllm/attention/backends/mla/common.py         | 12 ++---
 vllm/attention/backends/rocm_aiter_mla.py     | 49 ++++++++++++++-----
 vllm/attention/ops/rocm_aiter_mla.py          |  7 ++-
 .../layers/fused_moe/rocm_aiter_fused_moe.py  |  9 ++--
 4 files changed, 54 insertions(+), 23 deletions(-)

diff --git a/vllm/attention/backends/mla/common.py b/vllm/attention/backends/mla/common.py
index 363aa08ef..2ef66229b 100644
--- a/vllm/attention/backends/mla/common.py
+++ b/vllm/attention/backends/mla/common.py
@@ -1213,9 +1213,9 @@ class MLACommonImpl(MLAAttentionImpl[T], Generic[T]):
 
             attn_output, attn_softmax_lse = \
                 self._flash_attn_varlen_diff_headdims(
-                q=q,
-                k=k,
-                v=v,
+                q,
+                k,
+                v,
                 cu_seqlens_q=prefill_metadata.query_start_loc,
                 cu_seqlens_k=prefill_metadata.context_chunk_cu_seq_lens[i],
                 max_seqlen_q=prefill_metadata.max_query_len,
@@ -1267,9 +1267,9 @@ class MLACommonImpl(MLAAttentionImpl[T], Generic[T]):
         k = torch.cat((k_nope, k_pe.expand((*k_nope.shape[:-1], -1))), dim=-1)
 
         output = self._flash_attn_varlen_diff_headdims(
-            q=q,
-            k=k,
-            v=v,
+            q,
+            k,
+            v,
             cu_seqlens_q=prefill_metadata.query_start_loc,
             cu_seqlens_k=prefill_metadata.query_start_loc,
             max_seqlen_q=prefill_metadata.max_prefill_seq_len,
diff --git a/vllm/attention/backends/rocm_aiter_mla.py b/vllm/attention/backends/rocm_aiter_mla.py
index 4936c8201..b04822002 100644
--- a/vllm/attention/backends/rocm_aiter_mla.py
+++ b/vllm/attention/backends/rocm_aiter_mla.py
@@ -53,7 +53,7 @@ class AiterMLABackend(MLACommonBackend):
 
 @dataclass
 class AiterMLAMetadata(MLACommonMetadata):
-    # The following 4 tensors are for current version of AITER MLA
+    # The following 5 tensors are for current version of AITER MLA
     block_table_bound: Optional[torch.Tensor] = None
     # The indptr of the paged kv cache, shape: [batch_size + 1]
     paged_kv_indptr: Optional[torch.Tensor] = None
@@ -63,6 +63,10 @@ class AiterMLAMetadata(MLACommonMetadata):
     # the paged kv cache, shape: [batch_size]
     paged_kv_last_page_lens: Optional[torch.Tensor] = None
 
+    # This is just to make new AITER MLA API work
+    # -- MTP support is not added yet.
+    qo_indptr: Optional[torch.Tensor] = None
+
     @property
     def prefill_metadata(self):
         prefill_metadata = super().prefill_metadata
@@ -74,6 +78,7 @@ class AiterMLAMetadata(MLACommonMetadata):
             prefill_metadata\
                 .paged_kv_last_page_lens = self.paged_kv_last_page_lens
             prefill_metadata.block_table_bound = self.block_table_bound
+            prefill_metadata.qo_indptr = self.qo_indptr
 
             # update the cache
             self._cached_prefill_metadata = self.__class__(
@@ -93,6 +98,7 @@ class AiterMLAMetadata(MLACommonMetadata):
             decode_metadata\
                 .paged_kv_last_page_lens = self.paged_kv_last_page_lens
             decode_metadata.block_table_bound = self.block_table_bound
+            decode_metadata.qo_indptr = self.qo_indptr
 
             # update the cache
             self._cached_decode_metadata = self.__class__(
@@ -136,6 +142,7 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
         self.paged_kv_indptr: list[int] = [0]
         self.paged_kv_last_page_lens: list[int] = []
         self.total_blocks = 0
+        self.qo_indptr: list[int] = [0]
 
     def _add_seq_group(self, inter_data, chunked_prefill_enabled: bool,
                        prefix_cache_hit: bool):
@@ -208,6 +215,7 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
         self.paged_kv_indices.extend(block_table[:block_table_bound])
         self.paged_kv_indptr.append(self.paged_kv_indptr[-1] +
                                     block_table_bound)
+        self.qo_indptr.append(self.qo_indptr[-1] + 1)
 
         last_page_len = seq_len % self.block_size
         if last_page_len == 0:
@@ -226,6 +234,8 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
             self.paged_kv_indptr.extend([last_paged_kv_indptr] *
                                         cuda_graph_pad_size)
             self.paged_kv_last_page_lens.extend([0] * cuda_graph_pad_size)
+            last_qo_indptr = self.qo_indptr[-1]
+            self.qo_indptr.extend([last_qo_indptr] * cuda_graph_pad_size)
 
         # For current version of AITER MLA
         if len(self.paged_kv_indptr) > 0:
@@ -245,16 +255,22 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
                                                    1,
                                                    device=device,
                                                    dtype=torch.int)
+
+            qo_indptr = torch.tensor(self.qo_indptr,
+                                     device=device,
+                                     dtype=torch.int)
         else:
             paged_kv_indices_tensor = None
             paged_kv_indptr_tensor = None
             paged_kv_last_page_lens_tensor = None
             block_table_bound_tensor = None
+            qo_indptr = None
 
         metadata.paged_kv_indptr = paged_kv_indptr_tensor
         metadata.paged_kv_indices = paged_kv_indices_tensor
         metadata.paged_kv_last_page_lens = paged_kv_last_page_lens_tensor
         metadata.block_table_bound = block_table_bound_tensor
+        metadata.qo_indptr = qo_indptr
 
         return metadata
 
@@ -263,14 +279,17 @@ class AiterMLAState(MLACommonState[AiterMLAMetadata]):
 
     @contextmanager
     def graph_capture(self, max_batch_size: int):
-        kv_indices, kv_indptr, last_page_lens = get_aiter_mla_metadata(
-            max_batch_size=max_batch_size,
-            block_size=self.runner.block_size,
-            max_block_per_batch=self.runner.get_max_block_per_batch(),
-            device=self.runner.device)
+        kv_indices, kv_indptr, last_page_lens, qo_indptr = \
+            get_aiter_mla_metadata(
+                max_batch_size=max_batch_size,
+                block_size=self.runner.block_size,
+                max_block_per_batch=\
+                    self.runner.get_max_block_per_batch(),
+                device=self.runner.device)
         self._paged_kv_indices_tensor = kv_indices
         self._paged_kv_indptr_tensor = kv_indptr
         self._paged_kv_last_page_lens_tensor = last_page_lens
+        self._qo_indptr_tensor = qo_indptr
 
         with super().graph_capture(max_batch_size):
             yield
@@ -278,6 +297,7 @@ class AiterMLAState(MLACommonState[AiterMLAMetadata]):
         del self._paged_kv_indices_tensor
         del self._paged_kv_indptr_tensor
         del self._paged_kv_last_page_lens_tensor
+        del self._qo_indptr_tensor
 
     def graph_capture_get_metadata_for_batch(
             self,
@@ -291,10 +311,12 @@ class AiterMLAState(MLACommonState[AiterMLAMetadata]):
         paged_kv_indices = self._paged_kv_indices_tensor
         paged_kv_last_page_lens = self._paged_kv_last_page_lens_tensor[:
                                                                        batch_size]
+        qo_indptr = self._qo_indptr_tensor[:batch_size + 1]
 
         metadata.paged_kv_indptr = paged_kv_indptr
         metadata.paged_kv_indices = paged_kv_indices
         metadata.paged_kv_last_page_lens = paged_kv_last_page_lens
+        metadata.qo_indptr = qo_indptr
 
         return metadata
 
@@ -311,6 +333,7 @@ class AiterMLAState(MLACommonState[AiterMLAMetadata]):
         input_buffers[
             "paged_kv_last_page_lens"] = attn_metadata.\
             decode_metadata.paged_kv_last_page_lens
+        input_buffers['qo_indptr'] = attn_metadata.qo_indptr
 
         return input_buffers
 
@@ -330,6 +353,8 @@ class AiterMLAState(MLACommonState[AiterMLAMetadata]):
         input_buffers["paged_kv_last_page_lens"].copy_(
             attn_metadata.decode_metadata.paged_kv_last_page_lens,
             non_blocking=True)
+        input_buffers["qo_indptr"].copy_(
+            attn_metadata.decode_metadata.qo_indptr, non_blocking=True)
 
 
 class AiterMLAImpl(MLACommonImpl[AiterMLAMetadata]):
@@ -370,11 +395,9 @@ class AiterMLAImpl(MLACommonImpl[AiterMLAMetadata]):
             softmax_scale: float, return_softmax_lse: bool,
             **kwargs) -> Union[tuple[torch.Tensor, ...], torch.Tensor]:
         output = self.flash_attn_varlen_func(
-            q=q,
-            k=k,
-            v=v,
-            softmax_scale=softmax_scale,
-            return_lse=return_softmax_lse,
+            q,
+            k,
+            v,
             **kwargs,
         )
 
@@ -394,7 +417,7 @@ class AiterMLAImpl(MLACommonImpl[AiterMLAMetadata]):
         B = q_nope.shape[0]
 
         q = torch.cat([q_nope, q_pe], dim=-1)
-        o = torch.zeros(B,
+        o = torch.empty(B,
                         self.num_heads,
                         self.kv_lora_rank,
                         dtype=q.dtype,
@@ -403,6 +426,8 @@ class AiterMLAImpl(MLACommonImpl[AiterMLAMetadata]):
         kv_buffer = kv_c_and_k_pe_cache.unsqueeze(2)
 
         aiter_mla_decode_fwd(q, kv_buffer, o, self.scale,
+                             attn_metadata.qo_indptr,
+                             attn_metadata.max_query_len,
                              attn_metadata.paged_kv_indptr,
                              attn_metadata.paged_kv_indices,
                              attn_metadata.paged_kv_last_page_lens)
diff --git a/vllm/attention/ops/rocm_aiter_mla.py b/vllm/attention/ops/rocm_aiter_mla.py
index 3348d1880..ce11ce12c 100644
--- a/vllm/attention/ops/rocm_aiter_mla.py
+++ b/vllm/attention/ops/rocm_aiter_mla.py
@@ -20,7 +20,8 @@ def get_aiter_mla_metadata(max_batch_size: int, block_size: int,
     paged_kv_last_page_lens = torch.full((max_batch_size, ),
                                          block_size,
                                          dtype=torch.int32)
-    return paged_kv_indices, paged_kv_indptr, paged_kv_last_page_lens
+    qo_indptr = torch.zeros(max_batch_size + 1, dtype=torch.int, device=device)
+    return paged_kv_indices, paged_kv_indptr, paged_kv_last_page_lens, qo_indptr
 
 
 def aiter_mla_decode_fwd(
@@ -28,6 +29,8 @@ def aiter_mla_decode_fwd(
     kv_buffer: torch.Tensor,
     o: torch.Tensor,
     sm_scale: float,
+    qo_indptr: torch.Tensor,
+    max_seqlen_qo: int,
     kv_indptr: Optional[torch.Tensor] = None,
     kv_indices: Optional[torch.Tensor] = None,
     kv_last_page_lens: Optional[torch.Tensor] = None,
@@ -60,9 +63,11 @@ def mla_decode_fwd_impl(
     mla_decode_fwd(q,
                    kv_buffer.view(-1, 1, 1, q.shape[-1]),
                    o,
+                   qo_indptr,
                    kv_indptr,
                    kv_indices,
                    kv_last_page_lens,
+                   max_seqlen_qo,
                    sm_scale=sm_scale,
                    logit_cap=logit_cap)
 
diff --git a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
index 7d7bce9ec..b31af9524 100644
--- a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
@@ -123,10 +123,11 @@ def rocm_aiter_fmoe_fp8_blockscale_g1u1_impl(
 
     fmoe_fp8_blockscale_g1u1(out_asm, a1, w1, w2, sorted_token_ids,
                              sorted_weight_buf, sorted_expert_ids,
-                             num_valid_ids, topk, w1_scale.view(local_E, -1),
-                             w2_scale.view(local_E, -1),
-                             a1_scale.t().contiguous(), *block_shape,
-                             smooth_scale)
+                             num_valid_ids, topk,
+                             a1_scale.t().contiguous(),
+                             w1_scale.view(local_E, -1),
+                             w2_scale.view(local_E,
+                                           -1), *block_shape, smooth_scale)
 
     return out_asm
 
-- 
GitLab


From 200da9a51751973740f4dc71f0d1e13cc5698cb0 Mon Sep 17 00:00:00 2001
From: Chen Zhang <zhangch99@outlook.com>
Date: Fri, 9 May 2025 23:25:34 +0800
Subject: [PATCH 250/461] [v1] Move block management logic from KVCacheManager
 to SpecializedManager (#17474)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>
---
 tests/v1/core/test_kv_cache_utils.py      |   6 +-
 tests/v1/core/test_prefix_caching.py      |  13 +-
 tests/v1/core/test_scheduler.py           |  13 +-
 tests/v1/core/test_specialized_manager.py |  36 ++--
 vllm/v1/core/kv_cache_manager.py          | 135 ++++---------
 vllm/v1/core/specialized_manager.py       | 221 +++++++++++++++++++---
 6 files changed, 269 insertions(+), 155 deletions(-)

diff --git a/tests/v1/core/test_kv_cache_utils.py b/tests/v1/core/test_kv_cache_utils.py
index df487ec2c..1cdc80dd3 100644
--- a/tests/v1/core/test_kv_cache_utils.py
+++ b/tests/v1/core/test_kv_cache_utils.py
@@ -539,7 +539,7 @@ def test_allocate_with_lookahead():
                                       max_model_len=100)
     blocks = kv_cache_manager.allocate_slots(
         request,
-        num_tokens=3,
+        num_new_tokens=3,
         num_lookahead_tokens=2,  # Total required: 3+2=5 tokens
     )
     assert len(blocks.blocks) == 2  # ceil(5/4)=2 blocks
@@ -550,7 +550,7 @@ def test_allocate_with_lookahead():
     # required_blocks = ceil((3 + 2) /4) = 2
     blocks = kv_cache_manager.allocate_slots(
         request,
-        num_tokens=3,
+        num_new_tokens=3,
         num_lookahead_tokens=2,
     )
     assert len(blocks.blocks) == 2
@@ -561,7 +561,7 @@ def test_allocate_with_lookahead():
                                       max_model_len=100)
     blocks = kv_cache_manager.allocate_slots(
         request,
-        num_tokens=3,
+        num_new_tokens=3,
         num_lookahead_tokens=4,
     )
     assert len(blocks.blocks) == 2
diff --git a/tests/v1/core/test_prefix_caching.py b/tests/v1/core/test_prefix_caching.py
index ea4ec8a62..a03810625 100644
--- a/tests/v1/core/test_prefix_caching.py
+++ b/tests/v1/core/test_prefix_caching.py
@@ -299,7 +299,8 @@ def test_decode():
         req0.append_output_token_ids(8)
     new_blocks = manager.allocate_slots(req0, 4)
     assert new_blocks is not None and len(new_blocks.blocks) == 0
-    assert manager.req_to_blocks[req0.request_id][-1].block_hash is None
+    assert manager.single_type_manager.req_to_blocks[
+        req0.request_id][-1].block_hash is None
 
     # Append slots with allocating a new block.
     req0.num_computed_tokens = 59
@@ -309,8 +310,10 @@ def test_decode():
         req0.append_output_token_ids(7)
     new_blocks = manager.allocate_slots(req0, 19)
     assert new_blocks is not None and len(new_blocks.blocks) == 1
-    assert manager.req_to_blocks[req0.request_id][-2].block_hash is not None
-    assert manager.req_to_blocks[req0.request_id][-1].block_hash is None
+    assert manager.single_type_manager.req_to_blocks[
+        req0.request_id][-2].block_hash is not None
+    assert manager.single_type_manager.req_to_blocks[
+        req0.request_id][-1].block_hash is None
 
 
 def test_evict():
@@ -689,7 +692,7 @@ def test_prefill_not_enough_free_blocks_with_computed_blocks():
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
     manager.allocate_slots(req0, 48, computed_blocks)
-    block_part0 = manager.req_to_blocks[req0.request_id]
+    block_part0 = manager.single_type_manager.req_to_blocks[req0.request_id]
 
     # | Common-0 | Common-1 | Common-2 | Req1-3 | Req1-4 | Req1-5 | ... |
     req1 = make_request("1", common_token_ids * 2)
@@ -697,7 +700,7 @@ def test_prefill_not_enough_free_blocks_with_computed_blocks():
     assert computed_blocks.blocks == block_part0
     assert num_computed_tokens == 3 * 16
     manager.allocate_slots(req1, 48, computed_blocks)
-    block_part1 = manager.req_to_blocks[req1.request_id]
+    block_part1 = manager.single_type_manager.req_to_blocks[req1.request_id]
     # | Common-0 | Common-1 | Common-2 | Req1-3 (F) | Req1-4 (F) |
     # | Req1-5(F)| ... |
     manager.free(req1)
diff --git a/tests/v1/core/test_scheduler.py b/tests/v1/core/test_scheduler.py
index bfe9df10d..0ca2ced89 100644
--- a/tests/v1/core/test_scheduler.py
+++ b/tests/v1/core/test_scheduler.py
@@ -812,10 +812,11 @@ def _assert_right_kv_cache_manager(
     # Make sure the request stats are right.
     EXPECTED_TOTAL_BLOCKS = num_tokens // block_size
     for req_id in req_ids:
-        blocks = scheduler.kv_cache_manager.req_to_blocks[req_id]
+        blocks = (scheduler.kv_cache_manager.single_type_manager.
+                  req_to_blocks[req_id])
         hashes = scheduler.kv_cache_manager.req_to_block_hashes[req_id]
-        assert (scheduler.kv_cache_manager.num_cached_block[req_id] ==
-                EXPECTED_TOTAL_BLOCKS)
+        assert (scheduler.kv_cache_manager.single_type_manager.
+                num_cached_block[req_id] == EXPECTED_TOTAL_BLOCKS)
         assert len(blocks) == EXPECTED_TOTAL_BLOCKS
         assert len(hashes) == EXPECTED_TOTAL_BLOCKS
 
@@ -1195,9 +1196,11 @@ def assert_scheduler_empty(scheduler: Scheduler):
     assert len(scheduler.encoder_cache_manager.cached) == 0
 
     # KVCache Manager.
-    assert len(scheduler.kv_cache_manager.req_to_blocks) == 0
+    assert len(
+        scheduler.kv_cache_manager.single_type_manager.req_to_blocks) == 0
     assert len(scheduler.kv_cache_manager.req_to_block_hashes) == 0
-    assert len(scheduler.kv_cache_manager.num_cached_block) == 0
+    assert len(
+        scheduler.kv_cache_manager.single_type_manager.num_cached_block) == 0
     num_free_blocks = (
         scheduler.kv_cache_manager.block_pool.free_block_queue.num_free_blocks)
     assert num_free_blocks == (
diff --git a/tests/v1/core/test_specialized_manager.py b/tests/v1/core/test_specialized_manager.py
index 595c8608f..540720cb9 100644
--- a/tests/v1/core/test_specialized_manager.py
+++ b/tests/v1/core/test_specialized_manager.py
@@ -8,6 +8,14 @@ from vllm.v1.core.specialized_manager import SlidingWindowManager
 from vllm.v1.kv_cache_interface import SlidingWindowSpec
 
 
+def get_sliding_window_manager(sliding_window_spec, block_pool):
+    return SlidingWindowManager(sliding_window_spec,
+                                block_pool,
+                                use_eagle=False,
+                                num_kv_cache_groups=1,
+                                caching_hash_fn=lambda x: x)
+
+
 def test_sliding_window_possible_cached_prefix():
     sliding_window_spec = SlidingWindowSpec(
         block_size=2,
@@ -19,9 +27,7 @@ def test_sliding_window_possible_cached_prefix():
     )
 
     block_pool = BlockPool(num_gpu_blocks=100, enable_caching=True)
-    manager = SlidingWindowManager(sliding_window_spec,
-                                   block_pool,
-                                   use_eagle=False)
+    manager = get_sliding_window_manager(sliding_window_spec, block_pool)
 
     def run_one_case(block_is_cached, expect_length):
         block_hash_list = [
@@ -81,9 +87,7 @@ def test_sliding_window_remove_skipped_blocks():
 
     block_pool = BlockPool(num_gpu_blocks=2000, enable_caching=True)
 
-    manager = SlidingWindowManager(sliding_window_spec,
-                                   block_pool,
-                                   use_eagle=False)
+    manager = get_sliding_window_manager(sliding_window_spec, block_pool)
 
     null_block_id = block_pool.null_block.block_id
 
@@ -104,39 +108,35 @@ def test_sliding_window_remove_skipped_blocks():
         1000, 1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008, 1009, 1010
     ]
     block_table = id_to_block_table(original_block_ids)
-    removed = manager.remove_skipped_blocks(block_table, 0)
-    assert_block_id(removed, [])
+    manager.req_to_blocks["test"] = block_table
+
+    manager.remove_skipped_blocks("test", 0)
     assert_block_id(block_table, original_block_ids)
 
     # 4 tokens are computed. Only token 0 is out of the sliding window. As
     # block 1000 also contains token 1 that is in the sliding window, block 1000
     # cannot be removed.
-    removed = manager.remove_skipped_blocks(block_table, 4)
-    assert_block_id(removed, [])
+    manager.remove_skipped_blocks("test", 4)
     assert_block_id(block_table, original_block_ids)
 
     # 5 tokens are computed. Token 0 & 1 are out of the sliding window.
     # Block 1000 can be removed.
-    removed = manager.remove_skipped_blocks(block_table, 5)
-    assert_block_id(removed, [original_block_ids[0]])
+    manager.remove_skipped_blocks("test", 5)
     assert_block_id(block_table, [null_block_id] + original_block_ids[1:])
 
     # 6 tokens are computed. Token 0-2 are out of the sliding window.
     # Cannot remove new block as the block 1001 is still used by token 3.
-    removed = manager.remove_skipped_blocks(block_table, 6)
-    assert_block_id(removed, [])
+    manager.remove_skipped_blocks("test", 6)
     assert_block_id(block_table, [null_block_id] + original_block_ids[1:])
 
     # 7 tokens are computed. Token 0-3 are out of the sliding window.
     # Block 1001 can be removed and block 1000 is already removed.
-    removed = manager.remove_skipped_blocks(block_table, 7)
-    assert_block_id(removed, [original_block_ids[1]])
+    manager.remove_skipped_blocks("test", 7)
     assert_block_id(block_table, [null_block_id] * 2 + original_block_ids[2:])
 
     # 11 tokens are computed. Token 0-7 are out of the sliding window.
     # Block 1002 & 1003 can be removed now. Block 1003 represents a longer
     # sequence, and is expected to be evicted earlier than 1002, so the order
     # of removed blocks should be [1003, 1002].
-    removed = manager.remove_skipped_blocks(block_table, 11)
-    assert_block_id(removed, [original_block_ids[3], original_block_ids[2]])
+    manager.remove_skipped_blocks("test", 11)
     assert_block_id(block_table, [null_block_id] * 4 + original_block_ids[4:])
diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
index 8ef8143d1..c4ed127ec 100644
--- a/vllm/v1/core/kv_cache_manager.py
+++ b/vllm/v1/core/kv_cache_manager.py
@@ -1,17 +1,16 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from collections import defaultdict
-from collections.abc import Iterable
 from dataclasses import dataclass
 from typing import Optional
 
 from vllm.distributed.kv_events import KVCacheEvent
 from vllm.logger import init_logger
-from vllm.utils import cdiv, sha256
+from vllm.utils import sha256
 from vllm.v1.core.block_pool import BlockPool
 from vllm.v1.core.kv_cache_utils import (BlockHashType, KVCacheBlock,
                                          hash_request_tokens)
-from vllm.v1.core.specialized_manager import get_specialized_manager
+from vllm.v1.core.specialized_manager import get_manager_for_kv_cache_spec
 from vllm.v1.kv_cache_interface import KVCacheConfig
 from vllm.v1.metrics.stats import PrefixCacheStats
 from vllm.v1.request import Request, RequestStatus
@@ -56,7 +55,6 @@ class KVCacheManager:
         self.block_size = kv_cache_spec.block_size
         self.num_gpu_blocks = kv_cache_config.num_blocks
         self.max_model_len = max_model_len
-        self.max_num_blocks_per_req = cdiv(max_model_len, self.block_size)
 
         self.enable_caching = enable_caching
         self.caching_hash_fn = sha256 if caching_hash_algo == "sha256" else hash
@@ -68,30 +66,20 @@ class KVCacheManager:
         self.block_pool = BlockPool(self.num_gpu_blocks, enable_caching,
                                     enable_kv_cache_events)
 
-        self.specialized_manager = get_specialized_manager(
+        self.single_type_manager = get_manager_for_kv_cache_spec(
             kv_cache_spec=kv_cache_spec,
             block_pool=self.block_pool,
             use_eagle=self.use_eagle,
+            num_kv_cache_groups=1,
+            caching_hash_fn=self.caching_hash_fn,
         )
 
-        # Mapping from request ID to blocks to track the blocks allocated
-        # for each request, so that we can free the blocks when the request
-        # is finished.
-        self.req_to_blocks: defaultdict[str,
-                                        list[KVCacheBlock]] = defaultdict(list)
-
         # Mapping from request ID to kv block hashes.
         # This is to avoid recomputing the block hashes for each call of
         # `get_computed_blocks` or `allocate_slots`.
         self.req_to_block_hashes: defaultdict[
             str, list[BlockHashType]] = defaultdict(list)
 
-        # {req_id: The number of cached blocks for this given request}
-        # This is used to track the number of cached blocks for each request.
-        # This is only used to track the RUNNING requests, we do not track the
-        # data for reempted ones.
-        self.num_cached_block: dict[str, int] = {}
-
     @property
     def usage(self) -> float:
         """Get the KV cache usage.
@@ -159,7 +147,7 @@ class KVCacheManager:
             last_block_hash = None
 
         computed_blocks = (
-            self.specialized_manager.find_longest_cache_hit(block_hashes))
+            self.single_type_manager.find_longest_cache_hit(block_hashes))
 
         if self.log_stats:
             assert self.prefix_cache_stats is not None
@@ -181,7 +169,7 @@ class KVCacheManager:
     def allocate_slots(
         self,
         request: Request,
-        num_tokens: int,
+        num_new_tokens: int,
         new_computed_blocks: Optional[KVCacheBlocks] = None,
         num_lookahead_tokens: int = 0,
     ) -> Optional[KVCacheBlocks]:
@@ -189,7 +177,7 @@ class KVCacheManager:
 
         Args:
             request: The request to allocate slots.
-            num_tokens: The number of tokens to allocate, including external
+            num_new_tokens: The number of tokens to allocate, including external
                 tokens. Note that this does not include tokens that have
                 already been computed locally (i.e. new_computed_blocks).
             new_computed_blocks: The new computed blocks just hitting the
@@ -215,44 +203,38 @@ class KVCacheManager:
         Returns:
             A list of new allocated blocks.
         """
-        if num_tokens == 0:
-            raise ValueError("num_tokens must be greater than 0")
+        if num_new_tokens == 0:
+            raise ValueError("num_new_tokens must be greater than 0")
 
         if new_computed_blocks is not None:
             new_computed_block_list = new_computed_blocks.blocks
         else:
             new_computed_block_list = []
 
-        req_blocks = self.req_to_blocks[request.request_id]
-
         # Free the blocks that are skipped during the attention computation
         # (e.g., tokens outside the sliding window).
         # We can do this even if we cannot schedule this request due to
         # insufficient free blocks.
         # Should call this function before allocating new blocks to reduce
         # the number of evicted blocks.
-        removed_blocks = self.specialized_manager.remove_skipped_blocks(
-            req_blocks, request.num_computed_tokens)
-        self.block_pool.free_blocks(removed_blocks)
+        self.single_type_manager.remove_skipped_blocks(
+            request.request_id, request.num_computed_tokens)
 
         # The number of computed tokens is the number of computed tokens plus
         # the new prefix caching hits
         num_computed_tokens = (request.num_computed_tokens +
                                len(new_computed_block_list) * self.block_size)
-        num_required_blocks = cdiv(
-            num_computed_tokens + num_tokens + num_lookahead_tokens,
-            self.block_size)
-        num_new_blocks = (num_required_blocks - len(req_blocks) -
-                          len(new_computed_block_list))
-
-        # If a computed block of a request is an eviction candidate (in the
-        # free queue and ref_cnt == 0), it cannot be counted as a free block
-        # when allocating this request.
-        num_evictable_computed_blocks = sum(1
-                                            for blk in new_computed_block_list
-                                            if blk.ref_cnt == 0)
-        if (num_new_blocks > self.block_pool.get_num_free_blocks() -
-                num_evictable_computed_blocks):
+        num_tokens_need_slot = min(
+            num_computed_tokens + num_new_tokens + num_lookahead_tokens,
+            self.max_model_len)
+        num_blocks_to_allocate = (
+            self.single_type_manager.get_num_blocks_to_allocate(
+                request_id=request.request_id,
+                num_tokens=num_tokens_need_slot,
+                new_computed_blocks=new_computed_block_list,
+            ))
+
+        if num_blocks_to_allocate > self.block_pool.get_num_free_blocks():
             # Cannot allocate new blocks
             return None
 
@@ -266,74 +248,33 @@ class KVCacheManager:
 
         # Append the new computed blocks to the request blocks until now to
         # avoid the case where the new blocks cannot be allocated.
-        req_blocks.extend(new_computed_block_list)
-
-        # Start to handle new blocks
+        self.single_type_manager.save_new_computed_blocks(
+            request.request_id, new_computed_block_list)
 
-        if num_new_blocks <= 0:
-            # No new block is needed.
-            new_blocks = []
-        else:
-            # Get new blocks from the free block pool.
-            num_new_blocks = min(
-                num_new_blocks,
-                self.block_pool.get_num_free_blocks(),
-                # Should not exceed the maximum number of blocks per request.
-                # This is especially because the block table has the shape
-                # [..., max_num_blocks_per_req].
-                self.max_num_blocks_per_req - len(req_blocks),
-            )
-            assert num_new_blocks > 0
-
-            # Concatenate the computed block IDs and the new block IDs.
-            new_blocks = self.block_pool.get_new_blocks(num_new_blocks)
-            req_blocks.extend(new_blocks)
+        new_blocks = self.single_type_manager.allocate_new_blocks(
+            request.request_id, num_tokens_need_slot)
 
         if not self.enable_caching:
             return KVCacheBlocks(new_blocks)
 
-        # Use `new_computed_block_list` for a new request, and
-        # `num_cached_block` for a running request.
-        num_cached_blocks = self.num_cached_block.get(
-            request.request_id, len(new_computed_block_list))
         # Speculated tokens might be rejected in the future, so we does
         # not cache any speculated tokens. We only cache blocks with
         # generated (accepted) tokens.
-        num_full_blocks_after_append = (num_computed_tokens + num_tokens - len(
-            request.spec_token_ids)) // self.block_size
-
-        self.block_pool.cache_full_blocks(
-            request=request,
-            blocks=req_blocks,
-            block_hashes=self.req_to_block_hashes[request.request_id],
-            num_cached_blocks=num_cached_blocks,
-            num_full_blocks=num_full_blocks_after_append,
-            block_size=self.block_size,
-            hash_fn=self.caching_hash_fn,
-        )
+        self.single_type_manager.cache_blocks(
+            request, self.req_to_block_hashes[request.request_id],
+            num_computed_tokens + num_new_tokens - len(request.spec_token_ids))
 
-        self.num_cached_block[
-            request.request_id] = num_full_blocks_after_append
         return KVCacheBlocks(new_blocks)
 
     def free(self, request: Request) -> None:
         """Free the blocks allocated for the request.
-        When caching is enabled, we free the blocks in reverse order so that
-        the tail blocks are evicted first.
+        We free the blocks in reverse order so that he tail blocks are evicted 
+        first when caching is enabled.
 
         Args:
             request: The request to free the blocks.
         """
-        # Default to [] in case a request is freed (aborted) before alloc.
-        blocks = self.req_to_blocks.pop(request.request_id, [])
-        ordered_blocks: Iterable[KVCacheBlock] = blocks
-        if self.enable_caching:
-            # Free blocks in reverse order so that the tail blocks are
-            # freed first.
-            ordered_blocks = reversed(blocks)
-
-        self.block_pool.free_blocks(ordered_blocks)
-        self.num_cached_block.pop(request.request_id, None)
+        self.single_type_manager.free(request.request_id)
 
     def reset_prefix_cache(self) -> bool:
         """Reset prefix cache. This function may be used in RLHF
@@ -390,14 +331,8 @@ class KVCacheManager:
             int: The number of common prefix blocks.
         """
         assert request.status == RequestStatus.RUNNING
-        blocks = self.req_to_blocks[request.request_id]
-        num_common_blocks = 0
-        for block in blocks:
-            if block.ref_cnt == num_running_requests:
-                num_common_blocks += 1
-            else:
-                break
-        return num_common_blocks
+        return self.single_type_manager.get_num_common_prefix_blocks(
+            request.request_id, num_running_requests)
 
     def free_block_hashes(self, request: Request) -> None:
         """Discard the block hashes for the request.
diff --git a/vllm/v1/core/specialized_manager.py b/vllm/v1/core/specialized_manager.py
index f04eedf42..3fd3cb284 100644
--- a/vllm/v1/core/specialized_manager.py
+++ b/vllm/v1/core/specialized_manager.py
@@ -1,17 +1,20 @@
 # SPDX-License-Identifier: Apache-2.0
 from abc import ABC, abstractmethod
+from collections import defaultdict
+from typing import Callable
 
 from vllm.utils import cdiv
 from vllm.v1.core.block_pool import BlockPool
 from vllm.v1.core.kv_cache_utils import BlockHashType, KVCacheBlock
 from vllm.v1.kv_cache_interface import (FullAttentionSpec, KVCacheSpec,
                                         SlidingWindowSpec)
+from vllm.v1.request import Request
 
 
-class SpecializedManager(ABC):
+class SingleTypeKVCacheManager(ABC):
     """
-    An abstract base class for specialized managers that handle the kv
-    cache management logic of different attention layers.
+    An abstract base class for a manager that handle the kv cache management 
+    logic of one specific type of attention layer.
     """
 
     def __init__(
@@ -19,12 +22,18 @@ class SpecializedManager(ABC):
         kv_cache_spec: KVCacheSpec,
         block_pool: BlockPool,
         use_eagle: bool,
+        num_kv_cache_groups: int,
+        caching_hash_fn: Callable,
     ) -> None:
         """
         Initializes the SpecializedManager.
         Args:
             kv_cache_spec: The kv_cache_spec for this manager.
             block_pool: The block pool.
+            use_eagle: Whether to use eagle.
+            num_kv_cache_groups: The number of kv cache groups managed by this 
+                manager.
+            caching_hash_fn: The caching hash function.
         """
 
         self.block_size = kv_cache_spec.block_size
@@ -34,6 +43,149 @@ class SpecializedManager(ABC):
         # Needs special handling for find_longest_cache_hit if eagle is enabled
         self.use_eagle = use_eagle
 
+        # Mapping from request ID to blocks to track the blocks allocated
+        # for each request, so that we can free the blocks when the request
+        # is finished.
+        self.req_to_blocks: defaultdict[str,
+                                        list[KVCacheBlock]] = defaultdict(list)
+
+        # {req_id: The number of cached blocks for this given request}
+        # This is used to track the number of cached blocks for each request.
+        # This is only used to track the RUNNING requests, we do not track the
+        # data for reempted ones.
+        self.num_cached_block: dict[str, int] = {}
+
+        self.num_kv_cache_groups = num_kv_cache_groups
+        self.caching_hash_fn = caching_hash_fn
+
+    def get_num_blocks_to_allocate(
+            self, request_id: str, num_tokens: int,
+            new_computed_blocks: list[KVCacheBlock]) -> int:
+        """
+        Get the number of blocks needed to be allocated for the request.
+
+        Args:
+            request_id: The request ID.
+            num_tokens: The total number of tokens that need a slot (including 
+                tokens that are already allocated).
+            new_computed_blocks: The new computed blocks just hitting the
+                prefix caching.
+
+        Returns:
+            The number of blocks.
+        """
+
+        num_required_blocks = cdiv(num_tokens, self.block_size)
+        num_new_blocks = (num_required_blocks - len(new_computed_blocks) -
+                          len(self.req_to_blocks[request_id]))
+        # If a computed block of a request is an eviction candidate (in the
+        # free queue and ref_cnt == 0), it will be changed from a free block
+        # to a computed block when the request is allocated, so we also count
+        # it as needed to be allocated.
+        num_evictable_computed_blocks = sum(blk.ref_cnt == 0
+                                            for blk in new_computed_blocks)
+        return ((num_new_blocks + num_evictable_computed_blocks) *
+                self.num_kv_cache_groups)
+
+    def save_new_computed_blocks(
+            self, request_id: str,
+            new_computed_blocks: list[KVCacheBlock]) -> None:
+        """
+        Add the new computed blocks to the request.
+
+        Args:
+            request_id: The request ID.
+            new_computed_blocks: The new computed blocks just hitting the
+                prefix cache.
+        """
+        if request_id not in self.num_cached_block:
+            # A new request.
+            req_blocks = self.req_to_blocks[request_id]
+            assert len(req_blocks) == 0
+            req_blocks.extend(new_computed_blocks)
+            self.num_cached_block[request_id] = len(new_computed_blocks)
+        else:
+            # A running request. Should not have new computed blocks.
+            assert len(new_computed_blocks) == 0
+
+    def allocate_new_blocks(self, request_id: str,
+                            num_tokens: int) -> list[KVCacheBlock]:
+        """
+        Allocate new blocks for the request to give it at least `num_tokens` 
+        token slots.
+
+        Args:
+            request_id: The request ID.
+            num_tokens: The total number of tokens that need a slot (including 
+                tokens that are already allocated).
+
+        Returns:
+            The new allocated blocks.
+        """
+        req_blocks = self.req_to_blocks[request_id]
+        num_required_blocks = cdiv(num_tokens, self.block_size)
+        num_new_blocks = num_required_blocks - len(req_blocks)
+        if num_new_blocks <= 0:
+            return []
+        else:
+            new_blocks = self.block_pool.get_new_blocks(
+                num_new_blocks * self.num_kv_cache_groups)
+            req_blocks.extend(new_blocks)
+            return new_blocks
+
+    def cache_blocks(self, request: Request, block_hashes: list[BlockHashType],
+                     num_tokens: int) -> None:
+        """
+        Cache the blocks for the request.
+
+        Args:
+            request: The request.
+            block_hashes: The block hashes of the request.
+            num_tokens: The total number of tokens that need to be cached 
+                (including tokens that are already cached).
+        """
+        num_cached_blocks = self.num_cached_block[request.request_id]
+        num_full_blocks = num_tokens // self.block_size
+
+        self.block_pool.cache_full_blocks(
+            request=request,
+            blocks=self.req_to_blocks[request.request_id],
+            block_hashes=block_hashes,
+            num_cached_blocks=num_cached_blocks,
+            num_full_blocks=num_full_blocks,
+            block_size=self.block_size,
+            hash_fn=self.caching_hash_fn,
+        )
+
+        self.num_cached_block[request.request_id] = num_full_blocks
+
+    def free(self, request_id: str) -> None:
+        # Default to [] in case a request is freed (aborted) before alloc.
+        req_blocks = self.req_to_blocks.pop(request_id, [])
+
+        # Free blocks in reverse order so that the tail blocks are
+        # freed first.
+        ordered_blocks = reversed(req_blocks)
+
+        self.block_pool.free_blocks(ordered_blocks)
+        self.num_cached_block.pop(request_id, None)
+
+    @abstractmethod
+    def get_num_common_prefix_blocks(self, request_id: str,
+                                     num_running_requests: int) -> int:
+        """
+        Get the number of common prefix blocks for a request.
+
+        Args:
+            request_id: The request ID.
+            block_hashes: The block hashes of the request.
+
+        Returns:
+            The number of common prefix blocks.
+        """
+
+        raise NotImplementedError
+
     @abstractmethod
     def find_longest_cache_hit(
             self, block_hashes: list[BlockHashType]) -> list[KVCacheBlock]:
@@ -41,7 +193,8 @@ class SpecializedManager(ABC):
         Get the longest cache hit prefix of the blocks. If no cache hit is 
         found, return an empty list. if eagle is enabled, drop the last matched 
         block to force recompute the last block to get the required hidden 
-        states for eagle drafting head.
+        states for eagle drafting head. Need to be customized for each attention
+        type.
 
         Args:
             block_hashes: The block hashes of the request.
@@ -55,24 +208,23 @@ class SpecializedManager(ABC):
         raise NotImplementedError
 
     @abstractmethod
-    def remove_skipped_blocks(self, blocks: list[KVCacheBlock],
-                              num_computed_tokens: int) -> list[KVCacheBlock]:
+    def remove_skipped_blocks(self, request_id: str,
+                              num_computed_tokens: int) -> None:
         """
         Remove the blocks that are no longer needed from `blocks`. The removed 
         blocks should be replaced by null_block. Return the removed blocks in 
         eviction order, where the first returned block should be evicted first.
-        Don't free the removed blocks in this function.
+        Don't free the removed blocks in this function. Need to be customized 
+        for each attention type.
 
         Args:
-            blocks: The list of blocks to be updated.
+            request_id: The request ID.
             num_computed_tokens: The number of tokens that have been computed.
-        Returns:
-            The removed blocks in eviction order.
         """
         raise NotImplementedError
 
 
-class FullAttentionManager(SpecializedManager):
+class FullAttentionManager(SingleTypeKVCacheManager):
 
     def find_longest_cache_hit(
             self, block_hashes: list[BlockHashType]) -> list[KVCacheBlock]:
@@ -89,17 +241,28 @@ class FullAttentionManager(SpecializedManager):
             computed_blocks.pop()
         return computed_blocks
 
-    def remove_skipped_blocks(self, blocks: list[KVCacheBlock],
-                              num_computed_tokens: int) -> list[KVCacheBlock]:
+    def remove_skipped_blocks(self, request_id: str,
+                              num_computed_tokens: int) -> None:
         # No need to remove blocks for full attention.
-        return []
+        pass
+
+    def get_num_common_prefix_blocks(self, request_id: str,
+                                     num_running_requests: int) -> int:
+        blocks = self.req_to_blocks[request_id]
+        num_common_blocks = 0
+        for block in blocks:
+            if block.ref_cnt == num_running_requests:
+                num_common_blocks += 1
+            else:
+                break
+        return num_common_blocks
 
 
-class SlidingWindowManager(SpecializedManager):
+class SlidingWindowManager(SingleTypeKVCacheManager):
 
     def __init__(self, kv_cache_spec: SlidingWindowSpec, block_pool: BlockPool,
-                 use_eagle: bool):
-        super().__init__(kv_cache_spec, block_pool, use_eagle)
+                 use_eagle: bool, **kwargs) -> None:
+        super().__init__(kv_cache_spec, block_pool, use_eagle, **kwargs)
         self.sliding_window = kv_cache_spec.sliding_window
         # The number of contiguous blocks needed for prefix cache hit.
         # -1 since the input token itself is also included in the window
@@ -148,13 +311,13 @@ class SlidingWindowManager(SpecializedManager):
             computed_blocks.pop()
         return computed_blocks
 
-    def remove_skipped_blocks(self, blocks: list[KVCacheBlock],
-                              num_computed_tokens: int) -> list[KVCacheBlock]:
+    def remove_skipped_blocks(self, request_id: str,
+                              num_computed_tokens: int) -> None:
         # Remove the blocks that are no longer be in the sliding window and
         # skipped during the attention computation.
         last_useful_token = num_computed_tokens - self.sliding_window + 1
         last_useful_block = last_useful_token // self.block_size
-
+        blocks = self.req_to_blocks[request_id]
         removed_blocks: list[KVCacheBlock] = []
         for i in range(last_useful_block - 1, -1, -1):
             if blocks[i] == self._null_block:
@@ -164,17 +327,27 @@ class SlidingWindowManager(SpecializedManager):
                 break
             removed_blocks.append(blocks[i])
             blocks[i] = self._null_block
-        return removed_blocks
+        self.block_pool.free_blocks(removed_blocks)
+
+    def get_num_common_prefix_blocks(self, request_id: str,
+                                     num_running_requests: int) -> int:
+        """
+        NOTE(Chen): The prefix blocks are null blocks for sliding window layers.
+        So it's not correct to count ref_cnt like FullAttentionManager. Return 
+        0 here for correctness. Need to support cascade attention + sliding 
+        window in the future.
+        """
+        return 0
 
 
-spec_manager_map: dict[type[KVCacheSpec], type[SpecializedManager]] = {
+spec_manager_map: dict[type[KVCacheSpec], type[SingleTypeKVCacheManager]] = {
     FullAttentionSpec: FullAttentionManager,
     SlidingWindowSpec: SlidingWindowManager,
 }
 
 
-def get_specialized_manager(kv_cache_spec: KVCacheSpec,
-                            **kwargs) -> SpecializedManager:
+def get_manager_for_kv_cache_spec(kv_cache_spec: KVCacheSpec,
+                                  **kwargs) -> SingleTypeKVCacheManager:
     manager_class = spec_manager_map[type(kv_cache_spec)]
     manager = manager_class(kv_cache_spec, **kwargs)
     return manager
-- 
GitLab


From 6e5595ca396f5e33e6c27cc5c8d514835d21199f Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Fri, 9 May 2025 23:55:17 +0800
Subject: [PATCH 251/461] [CI/Build] Automatically retry flaky tests (#17856)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 tests/kernels/moe/test_moe.py              |  1 +
 tests/tensorizer_loader/conftest.py        | 33 ----------------------
 tests/tensorizer_loader/test_tensorizer.py |  3 +-
 3 files changed, 2 insertions(+), 35 deletions(-)

diff --git a/tests/kernels/moe/test_moe.py b/tests/kernels/moe/test_moe.py
index abf3e3667..d68310060 100644
--- a/tests/kernels/moe/test_moe.py
+++ b/tests/kernels/moe/test_moe.py
@@ -286,6 +286,7 @@ def test_mixtral_moe(dtype: torch.dtype, padding: bool, use_rocm_aiter: bool,
                                    atol=mixtral_moe_tol[dtype])
 
 
+@pytest.mark.flaky(reruns=2)
 @pytest.mark.parametrize("m", [1, 123, 666])
 @pytest.mark.parametrize("n", [128, 1024])
 @pytest.mark.parametrize("k", [256, 2048])
diff --git a/tests/tensorizer_loader/conftest.py b/tests/tensorizer_loader/conftest.py
index a88ae8cda..7efef163d 100644
--- a/tests/tensorizer_loader/conftest.py
+++ b/tests/tensorizer_loader/conftest.py
@@ -1,12 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
-
-import functools
-import gc
-from typing import Callable, TypeVar
-
 import pytest
-import torch
-from typing_extensions import ParamSpec
 
 from vllm.distributed import cleanup_dist_env_and_memory
 from vllm.model_executor.model_loader.tensorizer import TensorizerConfig
@@ -25,32 +18,6 @@ def cleanup():
     cleanup_dist_env_and_memory(shutdown_ray=True)
 
 
-_P = ParamSpec("_P")
-_R = TypeVar("_R")
-
-
-def retry_until_skip(n: int):
-
-    def decorator_retry(func: Callable[_P, _R]) -> Callable[_P, _R]:
-
-        @functools.wraps(func)
-        def wrapper_retry(*args: _P.args, **kwargs: _P.kwargs) -> _R:
-            for i in range(n):
-                try:
-                    return func(*args, **kwargs)
-                except AssertionError:
-                    gc.collect()
-                    torch.cuda.empty_cache()
-                    if i == n - 1:
-                        pytest.skip(f"Skipping test after {n} attempts.")
-
-            raise AssertionError("Code should not be reached")
-
-        return wrapper_retry
-
-    return decorator_retry
-
-
 @pytest.fixture(autouse=True)
 def tensorizer_config():
     config = TensorizerConfig(tensorizer_uri="vllm")
diff --git a/tests/tensorizer_loader/test_tensorizer.py b/tests/tensorizer_loader/test_tensorizer.py
index 5b9661bf6..7136dd44d 100644
--- a/tests/tensorizer_loader/test_tensorizer.py
+++ b/tests/tensorizer_loader/test_tensorizer.py
@@ -28,7 +28,6 @@ from vllm.model_executor.model_loader.tensorizer import (TensorizerConfig,
 from vllm.utils import PlaceholderModule, import_from_path
 
 from ..utils import VLLM_PATH, RemoteOpenAIServer
-from .conftest import retry_until_skip
 
 try:
     from tensorizer import EncryptionParams
@@ -325,7 +324,7 @@ def test_deserialized_encrypted_vllm_model_with_tp_has_same_outputs(
     assert outputs == deserialized_outputs
 
 
-@retry_until_skip(3)
+@pytest.mark.flaky(reruns=3)
 def test_vllm_tensorized_model_has_same_outputs(vllm_runner, tmp_path):
     gc.collect()
     torch.cuda.empty_cache()
-- 
GitLab


From 85b72cb7b12cb7a76a83c3a9f825196d798d63e7 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Fri, 9 May 2025 09:58:18 -0600
Subject: [PATCH 252/461] Revert "[BugFix][AMD] Compatible patch for latest
 AITER(05/07/2025)" (#17910)

---
 vllm/attention/backends/mla/common.py         | 12 ++---
 vllm/attention/backends/rocm_aiter_mla.py     | 49 +++++--------------
 vllm/attention/ops/rocm_aiter_mla.py          |  7 +--
 .../layers/fused_moe/rocm_aiter_fused_moe.py  |  9 ++--
 4 files changed, 23 insertions(+), 54 deletions(-)

diff --git a/vllm/attention/backends/mla/common.py b/vllm/attention/backends/mla/common.py
index 2ef66229b..363aa08ef 100644
--- a/vllm/attention/backends/mla/common.py
+++ b/vllm/attention/backends/mla/common.py
@@ -1213,9 +1213,9 @@ class MLACommonImpl(MLAAttentionImpl[T], Generic[T]):
 
             attn_output, attn_softmax_lse = \
                 self._flash_attn_varlen_diff_headdims(
-                q,
-                k,
-                v,
+                q=q,
+                k=k,
+                v=v,
                 cu_seqlens_q=prefill_metadata.query_start_loc,
                 cu_seqlens_k=prefill_metadata.context_chunk_cu_seq_lens[i],
                 max_seqlen_q=prefill_metadata.max_query_len,
@@ -1267,9 +1267,9 @@ class MLACommonImpl(MLAAttentionImpl[T], Generic[T]):
         k = torch.cat((k_nope, k_pe.expand((*k_nope.shape[:-1], -1))), dim=-1)
 
         output = self._flash_attn_varlen_diff_headdims(
-            q,
-            k,
-            v,
+            q=q,
+            k=k,
+            v=v,
             cu_seqlens_q=prefill_metadata.query_start_loc,
             cu_seqlens_k=prefill_metadata.query_start_loc,
             max_seqlen_q=prefill_metadata.max_prefill_seq_len,
diff --git a/vllm/attention/backends/rocm_aiter_mla.py b/vllm/attention/backends/rocm_aiter_mla.py
index b04822002..4936c8201 100644
--- a/vllm/attention/backends/rocm_aiter_mla.py
+++ b/vllm/attention/backends/rocm_aiter_mla.py
@@ -53,7 +53,7 @@ class AiterMLABackend(MLACommonBackend):
 
 @dataclass
 class AiterMLAMetadata(MLACommonMetadata):
-    # The following 5 tensors are for current version of AITER MLA
+    # The following 4 tensors are for current version of AITER MLA
     block_table_bound: Optional[torch.Tensor] = None
     # The indptr of the paged kv cache, shape: [batch_size + 1]
     paged_kv_indptr: Optional[torch.Tensor] = None
@@ -63,10 +63,6 @@ class AiterMLAMetadata(MLACommonMetadata):
     # the paged kv cache, shape: [batch_size]
     paged_kv_last_page_lens: Optional[torch.Tensor] = None
 
-    # This is just to make new AITER MLA API work
-    # -- MTP support is not added yet.
-    qo_indptr: Optional[torch.Tensor] = None
-
     @property
     def prefill_metadata(self):
         prefill_metadata = super().prefill_metadata
@@ -78,7 +74,6 @@ class AiterMLAMetadata(MLACommonMetadata):
             prefill_metadata\
                 .paged_kv_last_page_lens = self.paged_kv_last_page_lens
             prefill_metadata.block_table_bound = self.block_table_bound
-            prefill_metadata.qo_indptr = self.qo_indptr
 
             # update the cache
             self._cached_prefill_metadata = self.__class__(
@@ -98,7 +93,6 @@ class AiterMLAMetadata(MLACommonMetadata):
             decode_metadata\
                 .paged_kv_last_page_lens = self.paged_kv_last_page_lens
             decode_metadata.block_table_bound = self.block_table_bound
-            decode_metadata.qo_indptr = self.qo_indptr
 
             # update the cache
             self._cached_decode_metadata = self.__class__(
@@ -142,7 +136,6 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
         self.paged_kv_indptr: list[int] = [0]
         self.paged_kv_last_page_lens: list[int] = []
         self.total_blocks = 0
-        self.qo_indptr: list[int] = [0]
 
     def _add_seq_group(self, inter_data, chunked_prefill_enabled: bool,
                        prefix_cache_hit: bool):
@@ -215,7 +208,6 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
         self.paged_kv_indices.extend(block_table[:block_table_bound])
         self.paged_kv_indptr.append(self.paged_kv_indptr[-1] +
                                     block_table_bound)
-        self.qo_indptr.append(self.qo_indptr[-1] + 1)
 
         last_page_len = seq_len % self.block_size
         if last_page_len == 0:
@@ -234,8 +226,6 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
             self.paged_kv_indptr.extend([last_paged_kv_indptr] *
                                         cuda_graph_pad_size)
             self.paged_kv_last_page_lens.extend([0] * cuda_graph_pad_size)
-            last_qo_indptr = self.qo_indptr[-1]
-            self.qo_indptr.extend([last_qo_indptr] * cuda_graph_pad_size)
 
         # For current version of AITER MLA
         if len(self.paged_kv_indptr) > 0:
@@ -255,22 +245,16 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
                                                    1,
                                                    device=device,
                                                    dtype=torch.int)
-
-            qo_indptr = torch.tensor(self.qo_indptr,
-                                     device=device,
-                                     dtype=torch.int)
         else:
             paged_kv_indices_tensor = None
             paged_kv_indptr_tensor = None
             paged_kv_last_page_lens_tensor = None
             block_table_bound_tensor = None
-            qo_indptr = None
 
         metadata.paged_kv_indptr = paged_kv_indptr_tensor
         metadata.paged_kv_indices = paged_kv_indices_tensor
         metadata.paged_kv_last_page_lens = paged_kv_last_page_lens_tensor
         metadata.block_table_bound = block_table_bound_tensor
-        metadata.qo_indptr = qo_indptr
 
         return metadata
 
@@ -279,17 +263,14 @@ class AiterMLAState(MLACommonState[AiterMLAMetadata]):
 
     @contextmanager
     def graph_capture(self, max_batch_size: int):
-        kv_indices, kv_indptr, last_page_lens, qo_indptr = \
-            get_aiter_mla_metadata(
-                max_batch_size=max_batch_size,
-                block_size=self.runner.block_size,
-                max_block_per_batch=\
-                    self.runner.get_max_block_per_batch(),
-                device=self.runner.device)
+        kv_indices, kv_indptr, last_page_lens = get_aiter_mla_metadata(
+            max_batch_size=max_batch_size,
+            block_size=self.runner.block_size,
+            max_block_per_batch=self.runner.get_max_block_per_batch(),
+            device=self.runner.device)
         self._paged_kv_indices_tensor = kv_indices
         self._paged_kv_indptr_tensor = kv_indptr
         self._paged_kv_last_page_lens_tensor = last_page_lens
-        self._qo_indptr_tensor = qo_indptr
 
         with super().graph_capture(max_batch_size):
             yield
@@ -297,7 +278,6 @@ class AiterMLAState(MLACommonState[AiterMLAMetadata]):
         del self._paged_kv_indices_tensor
         del self._paged_kv_indptr_tensor
         del self._paged_kv_last_page_lens_tensor
-        del self._qo_indptr_tensor
 
     def graph_capture_get_metadata_for_batch(
             self,
@@ -311,12 +291,10 @@ class AiterMLAState(MLACommonState[AiterMLAMetadata]):
         paged_kv_indices = self._paged_kv_indices_tensor
         paged_kv_last_page_lens = self._paged_kv_last_page_lens_tensor[:
                                                                        batch_size]
-        qo_indptr = self._qo_indptr_tensor[:batch_size + 1]
 
         metadata.paged_kv_indptr = paged_kv_indptr
         metadata.paged_kv_indices = paged_kv_indices
         metadata.paged_kv_last_page_lens = paged_kv_last_page_lens
-        metadata.qo_indptr = qo_indptr
 
         return metadata
 
@@ -333,7 +311,6 @@ class AiterMLAState(MLACommonState[AiterMLAMetadata]):
         input_buffers[
             "paged_kv_last_page_lens"] = attn_metadata.\
             decode_metadata.paged_kv_last_page_lens
-        input_buffers['qo_indptr'] = attn_metadata.qo_indptr
 
         return input_buffers
 
@@ -353,8 +330,6 @@ class AiterMLAState(MLACommonState[AiterMLAMetadata]):
         input_buffers["paged_kv_last_page_lens"].copy_(
             attn_metadata.decode_metadata.paged_kv_last_page_lens,
             non_blocking=True)
-        input_buffers["qo_indptr"].copy_(
-            attn_metadata.decode_metadata.qo_indptr, non_blocking=True)
 
 
 class AiterMLAImpl(MLACommonImpl[AiterMLAMetadata]):
@@ -395,9 +370,11 @@ class AiterMLAImpl(MLACommonImpl[AiterMLAMetadata]):
             softmax_scale: float, return_softmax_lse: bool,
             **kwargs) -> Union[tuple[torch.Tensor, ...], torch.Tensor]:
         output = self.flash_attn_varlen_func(
-            q,
-            k,
-            v,
+            q=q,
+            k=k,
+            v=v,
+            softmax_scale=softmax_scale,
+            return_lse=return_softmax_lse,
             **kwargs,
         )
 
@@ -417,7 +394,7 @@ class AiterMLAImpl(MLACommonImpl[AiterMLAMetadata]):
         B = q_nope.shape[0]
 
         q = torch.cat([q_nope, q_pe], dim=-1)
-        o = torch.empty(B,
+        o = torch.zeros(B,
                         self.num_heads,
                         self.kv_lora_rank,
                         dtype=q.dtype,
@@ -426,8 +403,6 @@ class AiterMLAImpl(MLACommonImpl[AiterMLAMetadata]):
         kv_buffer = kv_c_and_k_pe_cache.unsqueeze(2)
 
         aiter_mla_decode_fwd(q, kv_buffer, o, self.scale,
-                             attn_metadata.qo_indptr,
-                             attn_metadata.max_query_len,
                              attn_metadata.paged_kv_indptr,
                              attn_metadata.paged_kv_indices,
                              attn_metadata.paged_kv_last_page_lens)
diff --git a/vllm/attention/ops/rocm_aiter_mla.py b/vllm/attention/ops/rocm_aiter_mla.py
index ce11ce12c..3348d1880 100644
--- a/vllm/attention/ops/rocm_aiter_mla.py
+++ b/vllm/attention/ops/rocm_aiter_mla.py
@@ -20,8 +20,7 @@ def get_aiter_mla_metadata(max_batch_size: int, block_size: int,
     paged_kv_last_page_lens = torch.full((max_batch_size, ),
                                          block_size,
                                          dtype=torch.int32)
-    qo_indptr = torch.zeros(max_batch_size + 1, dtype=torch.int, device=device)
-    return paged_kv_indices, paged_kv_indptr, paged_kv_last_page_lens, qo_indptr
+    return paged_kv_indices, paged_kv_indptr, paged_kv_last_page_lens
 
 
 def aiter_mla_decode_fwd(
@@ -29,8 +28,6 @@ def aiter_mla_decode_fwd(
     kv_buffer: torch.Tensor,
     o: torch.Tensor,
     sm_scale: float,
-    qo_indptr: torch.Tensor,
-    max_seqlen_qo: int,
     kv_indptr: Optional[torch.Tensor] = None,
     kv_indices: Optional[torch.Tensor] = None,
     kv_last_page_lens: Optional[torch.Tensor] = None,
@@ -63,11 +60,9 @@ def mla_decode_fwd_impl(
     mla_decode_fwd(q,
                    kv_buffer.view(-1, 1, 1, q.shape[-1]),
                    o,
-                   qo_indptr,
                    kv_indptr,
                    kv_indices,
                    kv_last_page_lens,
-                   max_seqlen_qo,
                    sm_scale=sm_scale,
                    logit_cap=logit_cap)
 
diff --git a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
index b31af9524..7d7bce9ec 100644
--- a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
@@ -123,11 +123,10 @@ def rocm_aiter_fmoe_fp8_blockscale_g1u1_impl(
 
     fmoe_fp8_blockscale_g1u1(out_asm, a1, w1, w2, sorted_token_ids,
                              sorted_weight_buf, sorted_expert_ids,
-                             num_valid_ids, topk,
-                             a1_scale.t().contiguous(),
-                             w1_scale.view(local_E, -1),
-                             w2_scale.view(local_E,
-                                           -1), *block_shape, smooth_scale)
+                             num_valid_ids, topk, w1_scale.view(local_E, -1),
+                             w2_scale.view(local_E, -1),
+                             a1_scale.t().contiguous(), *block_shape,
+                             smooth_scale)
 
     return out_asm
 
-- 
GitLab


From c44c384b1c85b2e83c7b1998fb2a3c1c981fdf6b Mon Sep 17 00:00:00 2001
From: Rui Qiao <161574667+ruisearch42@users.noreply.github.com>
Date: Fri, 9 May 2025 09:59:36 -0700
Subject: [PATCH 253/461] [Misc] Add references in ray_serve_deepseek example
 (#17907)

Signed-off-by: Rui Qiao <ruisearch42@gmail.com>
---
 examples/online_serving/ray_serve_deepseek.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/examples/online_serving/ray_serve_deepseek.py b/examples/online_serving/ray_serve_deepseek.py
index f9ef3e2da..e2dce107e 100644
--- a/examples/online_serving/ray_serve_deepseek.py
+++ b/examples/online_serving/ray_serve_deepseek.py
@@ -1,7 +1,9 @@
 # SPDX-License-Identifier: Apache-2.0
 """
 Example to deploy DeepSeek R1 or V3 with Ray Serve LLM.
-See Ray Serve LLM documentation at:
+See more details at:
+https://docs.ray.io/en/latest/serve/tutorials/serve-deepseek.html
+And see Ray Serve LLM documentation at:
 https://docs.ray.io/en/latest/serve/llm/serving-llms.html
 
 Run `python3 ray_serve_deepseek.py` to deploy the model.
-- 
GitLab


From 5c4c08f6f1609960b047c8b9d6aa003e9afc2897 Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Sat, 10 May 2025 01:16:12 +0800
Subject: [PATCH 254/461] [Misc] Auto fallback to float16 for pre-Ampere GPUs
 when detected bfloat16 config (#17265)

Signed-off-by: Isotr0py <2037008807@qq.com>
---
 vllm/config.py              | 46 +++++++++++++++++--------------------
 vllm/platforms/cpu.py       | 16 ++++++++++++-
 vllm/platforms/cuda.py      | 13 +++++++++++
 vllm/platforms/interface.py |  8 +++++++
 4 files changed, 57 insertions(+), 26 deletions(-)

diff --git a/vllm/config.py b/vllm/config.py
index ac1dc960c..cc185b1d5 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -7,7 +7,6 @@ import hashlib
 import inspect
 import json
 import re
-import sys
 import textwrap
 import warnings
 from collections import Counter
@@ -34,7 +33,7 @@ from vllm.model_executor.layers.quantization import (QUANTIZATION_METHODS,
                                                      QuantizationMethods,
                                                      get_quantization_config)
 from vllm.model_executor.models import ModelRegistry
-from vllm.platforms import CpuArchEnum, current_platform
+from vllm.platforms import current_platform
 from vllm.tracing import is_otel_available, otel_import_error_traceback
 from vllm.transformers_utils.config import (
     ConfigFormat, get_config, get_hf_image_processor_config,
@@ -2988,6 +2987,7 @@ def _get_and_verify_dtype(
     if isinstance(dtype, str):
         dtype = dtype.lower()
         if dtype == "auto":
+            # Set default dtype from model config
             if config_dtype == torch.float32:
                 # Following common practice, we use float16 for float32 models
                 torch_dtype = torch.float16
@@ -2995,37 +2995,33 @@ def _get_and_verify_dtype(
                 torch_dtype = config_dtype
 
             if config.model_type == "plamo2":
-                logger.info(
+                logger.warning(
                     "For PLaMo2, we cast models to bfloat16 instead of using "
                     "float16 by default. This is because float16 does not work."
                 )
                 torch_dtype = torch.bfloat16
 
+            # Deal with torch dtype fallback for device compatibility.
             from vllm.platforms import current_platform
-            if (current_platform.is_cpu()
-                    and current_platform.get_cpu_architecture()
-                    == CpuArchEnum.POWERPC
-                    and (config_dtype == torch.float16
-                         or config_dtype == torch.float32)):
-                logger.info(
-                    "For POWERPC, we cast models to bfloat16 instead of "
-                    "using float16 by default. Float16 is not currently "
-                    "supported for POWERPC.")
-                torch_dtype = torch.bfloat16
+            if torch_dtype not in current_platform.supported_dtypes:
+                device_name = current_platform.get_device_name()
 
-            # TODO: change this condition to check if the platform support bf16
-            # instead of checking the OS. For instance M2 shall supports bf16
-            # already. But we need to modify `cpu_extension.cmake` to activate
-            # the feature in the build.
-            if (current_platform.is_cpu() and sys.platform.startswith("darwin")
-                    and current_platform.get_cpu_architecture()
-                    == CpuArchEnum.ARM and config_dtype == torch.bfloat16):
-                logger.info("For macOS with Apple Silicon, currently bfloat16 "
-                            "is not supported. Setting dtype to float16.")
-                torch_dtype = torch.float16
+                if ((capability := current_platform.get_device_capability())
+                        is None):
+                    compute_str = ""
+                else:
+                    version_str = capability.as_version_str()
+                    compute_str = f" (with compute capability {version_str})"
+                fallback_dtype = current_platform.supported_dtypes[0]
+                logger.warning(
+                    "Your %s device%s doesn't support %s. " \
+                    "Falling back to %s for compatibility.",
+                    device_name, compute_str, torch_dtype, fallback_dtype
+                    )
+                torch_dtype = fallback_dtype
 
-            if current_platform.is_hpu() and config_dtype == torch.float16:
-                logger.info(
+            if current_platform.is_hpu() and torch_dtype == torch.float16:
+                logger.warning(
                     "For HPU, we cast models to bfloat16 instead of "
                     "using float16 by default. Please specify `dtype` if you "
                     "want to use float16.")
diff --git a/vllm/platforms/cpu.py b/vllm/platforms/cpu.py
index e45522a4c..d286c8939 100644
--- a/vllm/platforms/cpu.py
+++ b/vllm/platforms/cpu.py
@@ -10,7 +10,7 @@ import torch
 
 from vllm.logger import init_logger
 
-from .interface import Platform, PlatformEnum, _Backend
+from .interface import CpuArchEnum, Platform, PlatformEnum, _Backend
 
 logger = init_logger(__name__)
 
@@ -26,6 +26,20 @@ class CpuPlatform(Platform):
     device_type: str = "cpu"
     dispatch_key: str = "CPU"
 
+    @property
+    def supported_dtypes(self) -> list:
+        if self.get_cpu_architecture() == CpuArchEnum.POWERPC:
+            return [torch.bfloat16, torch.float32]
+        elif sys.platform.startswith(
+                "darwin") and self.get_cpu_architecture() == CpuArchEnum.ARM:
+            # TODO: change this condition to check if the platform support bf16
+            # instead of checking the OS. For instance M2 shall supports bf16
+            # already. But we need to modify `cpu_extension.cmake` to activate
+            # the feature in the build.
+            return [torch.bfloat16, torch.float32]
+        # x86/aarch64 CPU has supported both bf16 and fp16 natively.
+        return [torch.bfloat16, torch.float16, torch.float32]
+
     @classmethod
     def get_device_name(cls, device_id: int = 0) -> str:
         return "cpu"
diff --git a/vllm/platforms/cuda.py b/vllm/platforms/cuda.py
index ab03dece8..f11628587 100644
--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
@@ -73,6 +73,19 @@ class CudaPlatformBase(Platform):
     ray_device_key: str = "GPU"
     device_control_env_var: str = "CUDA_VISIBLE_DEVICES"
 
+    @property
+    def supported_dtypes(self) -> List[torch.dtype]:
+        if self.has_device_capability(80):
+            # Ampere and Hopper or later NVIDIA GPUs.
+            return [torch.bfloat16, torch.float16, torch.float32]
+        elif (not self.has_device_capability(80)
+              ) and self.has_device_capability(60):
+            # Pascal, Volta and Turing NVIDIA GPUs, BF16 is not supported
+            return [torch.float16, torch.float32]
+        # Kepler and Maxwell NVIDIA GPUs, only FP32 is supported,
+        # though vLLM doesn't support these GPUs.
+        return [torch.float32]
+
     @classmethod
     def get_device_capability(cls,
                               device_id: int = 0
diff --git a/vllm/platforms/interface.py b/vllm/platforms/interface.py
index e9c7f0cb5..68b90796e 100644
--- a/vllm/platforms/interface.py
+++ b/vllm/platforms/interface.py
@@ -122,6 +122,14 @@ class Platform:
 
     additional_env_vars: list[str] = []
 
+    @property
+    def supported_dtypes(self) -> list[torch.dtype]:
+        """Returns the supported dtypes for the current platform."""
+        # Be careful with the order of the dtypes. The first dtype will
+        # be used as the default dtype fallback for the current platform,
+        # when encountering unsupported dtypes in "auto" dtype.
+        return [torch.bfloat16, torch.float16, torch.float32]
+
     def is_cuda(self) -> bool:
         return self._enum == PlatformEnum.CUDA
 
-- 
GitLab


From 22481fbfa3992d4cf9aa6604014f4129dc387149 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Fri, 9 May 2025 11:19:45 -0600
Subject: [PATCH 255/461] Update CT WNA16MarlinMoE integration (#16666)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 .../compressed_tensors_moe.py                 | 119 ++++++------------
 1 file changed, 38 insertions(+), 81 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index ae16a20cf..4a3fc2a1a 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -2,7 +2,7 @@
 
 import enum
 from enum import Enum
-from typing import Callable, List, Optional
+from typing import Callable, Optional
 
 import torch
 from compressed_tensors import CompressionFormat
@@ -14,9 +14,12 @@ from vllm import _custom_ops as ops
 from vllm.logger import init_logger
 from vllm.model_executor.layers.fused_moe import (FusedMoE, FusedMoEMethodBase,
                                                   FusedMoeWeightScaleSupported)
-from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
-    WNA16_SUPPORTED_BITS)
+from vllm.model_executor.layers.quantization.compressed_tensors.schemes.compressed_tensors_wNa16 import (  # noqa
+    WNA16_SUPPORTED_BITS, WNA16_SUPPORTED_TYPES_MAP)
 from vllm.model_executor.layers.quantization.utils import replace_parameter
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    check_moe_marlin_supports_layer, marlin_make_workspace_new,
+    marlin_moe_permute_scales)
 from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
     all_close_1d, normalize_e4m3fn_to_e4m3fnuz, per_tensor_dequantize)
 from vllm.model_executor.utils import set_weight_attrs
@@ -54,18 +57,19 @@ class CompressedTensorsMoEMethod(FusedMoEMethodBase):
             "input_activations")
 
         if quant_config._is_wNa16_group_channel(weight_quant, input_quant):
-            # Prefer to use the non-marlin kernel when:
-            # 1. Many experts (MarlinMoE gives poor performance when >= 16)
-            # 2. Non-FP16 dtype (MarlinMoE only supports FP16)
-            # 3. Actorder is not group/dynamic (g_idx is unsupported)
-            # 4. Scaled are grouped (channelwise is unsupported)
-            if ((layer.local_num_experts >= 16
-                 or layer.params_dtype != torch.float16) and
-                    weight_quant.actorder not in (ActivationOrdering.GROUP,
-                                                  ActivationOrdering.DYNAMIC)
-                    and weight_quant.strategy in QuantizationStrategy.GROUP):
+            # Prefer to use the MarlinMoE kernel when it is supported.
+            if not check_moe_marlin_supports_layer(layer,
+                                                   weight_quant.group_size):
+                if (weight_quant.strategy in QuantizationStrategy.GROUP and
+                        weight_quant.actorder in (ActivationOrdering.GROUP,
+                                                  ActivationOrdering.DYNAMIC)):
+                    raise ValueError(
+                        "WNA16MoE is not supported with actorder=group/dynamic."
+                    )
+                logger.info_once("Using CompressedTensorsWNA16MoEMethod")
                 return CompressedTensorsWNA16MoEMethod(quant_config)
             else:
+                logger.info_once("Using CompressedTensorsWNA16MarlinMoEMethod")
                 return CompressedTensorsWNA16MarlinMoEMethod(quant_config)
         elif (quant_config._is_fp8_w8a8_sm90(weight_quant, input_quant)
               and layer.activation == "silu"):
@@ -705,15 +709,12 @@ class CompressedTensorsWNA16MarlinMoEMethod(CompressedTensorsMoEMethod):
                              f"{CompressionFormat.pack_quantized.value} ",
                              "is supported for the following bits: ",
                              f"{WNA16_SUPPORTED_BITS}")
+        self.quant_type = WNA16_SUPPORTED_TYPES_MAP[self.num_bits]
 
     def create_weights(self, layer: torch.nn.Module, num_experts: int,
                        hidden_size: int, intermediate_size_per_partition: int,
                        params_dtype: torch.dtype, **extra_weight_attrs):
 
-        assert params_dtype == torch.float16, (
-            "float16 is required for MoE compressed models. Set dtype=torch.float16"  # noqa: E501
-        )
-
         intermediate_size_full = extra_weight_attrs.pop(
             "intermediate_size_full")
 
@@ -837,50 +838,6 @@ class CompressedTensorsWNA16MarlinMoEMethod(CompressedTensorsMoEMethod):
         layer.marlin_state = GPTQMarlinState.REPACK
 
     def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
-
-        def replace_tensor(name, new_t):
-            # It is important to use resize_() here since it ensures
-            # the same buffer is reused
-            getattr(layer, name).resize_(new_t.shape)
-            getattr(layer, name).copy_(new_t)
-            del new_t
-
-        def get_scale_perms(num_bits: int):
-            scale_perm: List[int] = []
-            for i in range(8):
-                scale_perm.extend([i + 8 * j for j in range(8)])
-            scale_perm_single: List[int] = []
-            for i in range(4):
-                scale_perm_single.extend(
-                    [2 * i + j for j in [0, 1, 8, 9, 16, 17, 24, 25]])
-            return scale_perm, scale_perm_single
-
-        def marlin_permute_scales(s: torch.Tensor, size_k: int, size_n: int,
-                                  group_size: int, num_bits: int):
-            scale_perm, scale_perm_single = get_scale_perms(num_bits)
-            if group_size < size_k and group_size != -1:
-                s = s.reshape((-1, len(scale_perm)))[:, scale_perm]
-            else:
-                s = s.reshape((-1, len(scale_perm_single)))[:,
-                                                            scale_perm_single]
-            s = s.reshape((-1, size_n)).contiguous()
-            return s
-
-        def marlin_moe_permute_scales(s: torch.Tensor, size_k: int,
-                                      size_n: int, group_size: int,
-                                      num_bits: int):
-            num_experts = s.shape[0]
-            output = torch.empty((num_experts, s.shape[1], s.shape[2]),
-                                 device=s.device,
-                                 dtype=s.dtype)
-            for e in range(num_experts):
-                output[e] = marlin_permute_scales(s[e], size_k, size_n,
-                                                  group_size, num_bits)
-            return output
-
-        size_k2 = layer.w2_weight_packed.shape[2]
-        size_k13 = layer.w13_weight_packed.shape[2]
-
         num_experts = layer.w13_weight_g_idx.shape[0]
         device = layer.w13_weight_g_idx.device
 
@@ -938,7 +895,7 @@ class CompressedTensorsWNA16MarlinMoEMethod(CompressedTensorsMoEMethod):
             layer.w13_weight_packed.shape[2],
             self.num_bits,
         )
-        replace_tensor("w13_weight_packed", marlin_w13_qweight)
+        replace_parameter(layer, "w13_weight_packed", marlin_w13_qweight)
         marlin_w2_qweight = ops.gptq_marlin_moe_repack(
             layer.w2_weight_packed,
             layer.w2_g_idx_sort_indices,
@@ -946,25 +903,25 @@ class CompressedTensorsWNA16MarlinMoEMethod(CompressedTensorsMoEMethod):
             layer.w2_weight_packed.shape[2],
             self.num_bits,
         )
-        replace_tensor("w2_weight_packed", marlin_w2_qweight)
+        replace_parameter(layer, "w2_weight_packed", marlin_w2_qweight)
         # Repack scales
         marlin_w13_scales = marlin_moe_permute_scales(
-            layer.w13_weight_scale,
-            size_k13,
-            layer.w13_weight_scale.shape[2],
-            self.group_size,
-            self.num_bits,
+            s=layer.w13_weight_scale,
+            size_k=layer.w13_weight_packed.shape[2],
+            size_n=layer.w13_weight_scale.shape[2],
+            group_size=self.group_size,
         )
-        replace_tensor("w13_weight_scale", marlin_w13_scales)
+        replace_parameter(layer, "w13_weight_scale", marlin_w13_scales)
         marlin_w2_scales = marlin_moe_permute_scales(
-            layer.w2_weight_scale,
-            layer.w2_weight_scale.shape[1] *
+            s=layer.w2_weight_scale,
+            size_k=layer.w2_weight_scale.shape[1] *
             (self.group_size if self.group_size != -1 else self.packed_factor),
-            size_k2,
-            self.group_size,
-            self.num_bits,
+            size_n=layer.w2_weight_scale.shape[2],
+            group_size=self.group_size,
         )
-        replace_tensor("w2_weight_scale", marlin_w2_scales)
+        replace_parameter(layer, "w2_weight_scale", marlin_w2_scales)
+
+        layer.workspace = marlin_make_workspace_new(device, 4)
 
     def apply(
         self,
@@ -985,10 +942,6 @@ class CompressedTensorsWNA16MarlinMoEMethod(CompressedTensorsMoEMethod):
         activation: str = "silu",
     ) -> torch.Tensor:
         assert activation == "silu", "Only SiLU activation is supported."
-        if expert_map is not None:
-            raise NotImplementedError(
-                "Expert Parallelism is not supported for "
-                "fused Marlin MoE method.")
         if apply_router_weight_on_input:
             raise NotImplementedError(
                 "Apply router weight on input is not supported for "
@@ -1015,11 +968,14 @@ class CompressedTensorsWNA16MarlinMoEMethod(CompressedTensorsMoEMethod):
             router_logits,
             topk_weights,
             topk_ids,
+            quant_type_id=self.quant_type.id,
+            global_num_experts=global_num_experts,
+            expert_map=expert_map,
             g_idx1=layer.w13_weight_g_idx,
             g_idx2=layer.w2_weight_g_idx,
             sort_indices1=layer.w13_g_idx_sort_indices,
             sort_indices2=layer.w2_g_idx_sort_indices,
-            num_bits=self.num_bits,
+            workspace=layer.workspace,
             is_k_full=self.is_k_full)
 
 
@@ -1203,7 +1159,7 @@ class CompressedTensorsWNA16MoEMethod(CompressedTensorsMoEMethod):
         activation: str = "silu",
     ) -> torch.Tensor:
         from vllm.model_executor.layers.fused_moe import fused_experts
-        assert activation == "silu", "Only SiLU activation is supported."
+
         topk_weights, topk_ids = FusedMoE.select_experts(
             hidden_states=x,
             router_logits=router_logits,
@@ -1223,6 +1179,7 @@ class CompressedTensorsWNA16MoEMethod(CompressedTensorsMoEMethod):
             topk_weights=topk_weights,
             topk_ids=topk_ids,
             inplace=True,
+            activation=activation,
             use_int4_w4a16=self.num_bits == 4,
             use_int8_w8a16=self.num_bits == 8,
             global_num_experts=global_num_experts,
-- 
GitLab


From 7d4aedae7c3e1ff4a1b1dea1f8df3257a7878d0a Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Fri, 9 May 2025 20:23:59 +0100
Subject: [PATCH 256/461] Handle error when `str` passed to
 `/v1/audio/transcriptions` (#17909)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 vllm/entrypoints/openai/protocol.py | 11 +++++++++--
 1 file changed, 9 insertions(+), 2 deletions(-)

diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
index 1aa400741..aa01e785f 100644
--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -5,10 +5,11 @@
 import json
 import re
 import time
+from http import HTTPStatus
 from typing import Annotated, Any, ClassVar, Literal, Optional, Union
 
 import torch
-from fastapi import UploadFile
+from fastapi import HTTPException, UploadFile
 from pydantic import (BaseModel, ConfigDict, Field, TypeAdapter,
                       ValidationInfo, field_validator, model_validator)
 from typing_extensions import TypeAlias
@@ -1727,7 +1728,13 @@ class TranscriptionRequest(OpenAIBaseModel):
 
     @model_validator(mode="before")
     @classmethod
-    def validate_stream_options(cls, data):
+    def validate_transcription_request(cls, data):
+        if isinstance(data.get("file"), str):
+            raise HTTPException(
+                status_code=HTTPStatus.UNPROCESSABLE_ENTITY,
+                detail="Expected 'file' to be a file-like object, not 'str'.",
+            )
+
         stream_opts = ["stream_include_usage", "stream_continuous_usage_stats"]
         stream = data.get("stream", False)
         if any(bool(data.get(so, False)) for so in stream_opts) and not stream:
-- 
GitLab


From ea2236bf95d25c517ae6afbda3a16fe92ee73e7a Mon Sep 17 00:00:00 2001
From: Richard Zou <zou3519@users.noreply.github.com>
Date: Fri, 9 May 2025 15:59:04 -0400
Subject: [PATCH 257/461] Add option to use torch._inductor.standalone_compile
 (#17057)

Signed-off-by: rzou <zou3519@gmail.com>
---
 vllm/compilation/backends.py           |  33 ++++--
 vllm/compilation/compiler_interface.py | 141 +++++++++++++++++++++----
 vllm/envs.py                           |   5 +
 3 files changed, 150 insertions(+), 29 deletions(-)

diff --git a/vllm/compilation/backends.py b/vllm/compilation/backends.py
index a1ff5fb11..c2e8c726c 100644
--- a/vllm/compilation/backends.py
+++ b/vllm/compilation/backends.py
@@ -17,7 +17,8 @@ from vllm.config import CompilationConfig, VllmConfig
 from vllm.logger import init_logger
 from vllm.utils import weak_ref_tensors
 
-from .compiler_interface import EagerAdaptor, InductorAdaptor
+from .compiler_interface import (CompilerInterface, EagerAdaptor,
+                                 InductorAdaptor, InductorStandaloneAdaptor)
 from .counter import compilation_counter
 from .inductor_pass import InductorPass
 from .monitor import end_monitoring_torch_compile
@@ -26,6 +27,19 @@ from .pass_manager import PostGradPassManager
 logger = init_logger(__name__)
 
 
+def make_compiler(compilation_config: CompilationConfig) -> CompilerInterface:
+    if compilation_config.use_inductor:
+        if envs.VLLM_TEST_STANDALONE_COMPILE:
+            logger.info("Using InductorStandaloneAdaptor")
+            return InductorStandaloneAdaptor()
+        else:
+            logger.info("Using InductorAdaptor")
+            return InductorAdaptor()
+    else:
+        logger.info("Using EagerAdaptor")
+        return EagerAdaptor()
+
+
 class CompilerManager:
     """
     A manager to manage the compilation process, including
@@ -41,11 +55,11 @@ class CompilerManager:
     support int as key.
     """
 
-    def __init__(self, use_inductor: bool):
+    def __init__(self, compilation_config: CompilationConfig):
         self.cache: Dict[Tuple[Optional[int], int, str], Any] = dict()
-        cls = InductorAdaptor if use_inductor else EagerAdaptor
-        self.compiler = cls()
         self.is_cache_updated = False
+        self.compilation_config = compilation_config
+        self.compiler = make_compiler(compilation_config)
 
     def compute_hash(self, vllm_config: VllmConfig) -> str:
         return self.compiler.compute_hash(vllm_config)
@@ -123,8 +137,15 @@ class CompilerManager:
 
         # no compiler cached the graph, or the cache is disabled,
         # we need to compile it
+        if isinstance(self.compiler, InductorAdaptor):
+            # Let compile_fx generate a key for us
+            maybe_key = None
+        else:
+            maybe_key = \
+                f"artifact_shape_{runtime_shape}_subgraph_{graph_index}"
         compiled_graph, handle = self.compiler.compile(
-            graph, example_inputs, additional_inductor_config, runtime_shape)
+            graph, example_inputs, additional_inductor_config, runtime_shape,
+            maybe_key)
 
         assert compiled_graph is not None, "Failed to compile the graph"
 
@@ -336,7 +357,7 @@ class VllmBackend:
         self.compilation_config = vllm_config.compilation_config
 
         self.compiler_manager: CompilerManager = CompilerManager(
-            self.compilation_config.use_inductor)
+            self.compilation_config)
 
         # `torch.compile` is JIT compiled, so we don't need to
         # do anything here
diff --git a/vllm/compilation/compiler_interface.py b/vllm/compilation/compiler_interface.py
index b7e7a79be..423581784 100644
--- a/vllm/compilation/compiler_interface.py
+++ b/vllm/compilation/compiler_interface.py
@@ -50,7 +50,8 @@ class CompilerInterface:
         graph: fx.GraphModule,
         example_inputs: List[Any],
         compiler_config: Dict[str, Any],
-        runtime_shape: Optional[int] = None
+        runtime_shape: Optional[int] = None,
+        key: Optional[str] = None,
     ) -> Tuple[Optional[Callable], Optional[Any]]:
         """
         Compile the graph with the given example inputs and compiler config,
@@ -71,6 +72,10 @@ class CompilerInterface:
         If the compiler doesn't support caching, it should return None for the
         handle. If the compiler fails to compile the graph, it should return
         None for the compiled function as well.
+
+        `key` is required for StandaloneInductorAdapter, it specifies where to
+        save the compiled artifact. The compiled artifact gets saved to
+        `cache_dir/key`.
         """
         return None, None
 
@@ -127,23 +132,108 @@ class AlwaysHitShapeEnv:
         return ""
 
 
+def get_inductor_factors() -> List[Any]:
+    factors: List[Any] = []
+    # summarize system state
+    from torch._inductor.codecache import CacheBase
+    system_factors = CacheBase.get_system()
+    factors.append(system_factors)
+
+    # summarize pytorch state
+    from torch._inductor.codecache import torch_key
+    torch_factors = torch_key()
+    factors.append(torch_factors)
+    return factors
+
+
+class InductorStandaloneAdaptor(CompilerInterface):
+    """
+    The adaptor for the Inductor compiler.
+    Requires PyTorch 2.8+.
+    This is not on by default yet, but we plan to turn it on by default for
+    PyTorch 2.8.
+
+    Use VLLM_TEST_STANDALONE_COMPILE to toggle this on or off.
+    """
+    name = "inductor_standalone"
+
+    def compute_hash(self, vllm_config: VllmConfig) -> str:
+        factors = get_inductor_factors()
+        hash_str = hashlib.md5(str(factors).encode(),
+                               usedforsecurity=False).hexdigest()[:10]
+        return hash_str
+
+    def initialize_cache(self, cache_dir: str, disable_cache: bool = False):
+        self.cache_dir = cache_dir
+
+    def compile(
+        self,
+        graph: fx.GraphModule,
+        example_inputs: List[Any],
+        compiler_config: Dict[str, Any],
+        runtime_shape: Optional[int] = None,
+        key: Optional[str] = None,
+    ) -> Tuple[Optional[Callable], Optional[Any]]:
+        current_config = {}
+        if compiler_config is not None:
+            current_config.update(compiler_config)
+        set_inductor_config(current_config, runtime_shape)
+
+        if isinstance(runtime_shape, int):
+            dynamic_shapes = "from_example_inputs"
+        else:
+            dynamic_shapes = "from_tracing_context"
+
+        from torch._inductor import standalone_compile
+        with pass_context(runtime_shape):
+            compiled_graph = standalone_compile(
+                graph,
+                example_inputs,
+                dynamic_shapes=dynamic_shapes,
+                options={"config_patches": current_config})
+
+        # Save the compiled artifact to disk in the specified path
+        assert key is not None
+        path = os.path.join(self.cache_dir, key)
+        compiled_graph.save(path=path, format="unpacked")
+        return compiled_graph, (key, path)
+
+    def load(self,
+             handle: Any,
+             graph: fx.GraphModule,
+             example_inputs: List[Any],
+             graph_index: int,
+             runtime_shape: Optional[int] = None) -> Callable:
+        assert isinstance(handle, tuple)
+        assert isinstance(handle[0], str)
+        assert isinstance(handle[1], str)
+        path = handle[1]
+        inductor_compiled_graph = torch._inductor.CompiledArtifact.load(
+            path=path, format="unpacked")
+        from torch._inductor.compile_fx import graph_returns_tuple
+        returns_tuple = graph_returns_tuple(graph)
+
+        def compiled_graph_wrapper(*args):
+            graph_output = inductor_compiled_graph(*args)
+            # unpack the tuple if needed
+            # TODO(rzou): the implication is that we're not
+            # reading the python bytecode correctly in vLLM?
+            if returns_tuple:
+                return graph_output
+            else:
+                return graph_output[0]
+
+        return compiled_graph_wrapper
+
+
 class InductorAdaptor(CompilerInterface):
     """
-    The adaptor for the Inductor compiler, version 2.5 and 2.6.
+    The adaptor for the Inductor compiler, version 2.5, 2.6, 2.7.
     """
     name = "inductor"
 
     def compute_hash(self, vllm_config: VllmConfig) -> str:
-        factors: List[Any] = []
-        # summarize system state
-        from torch._inductor.codecache import CacheBase
-        system_factors = CacheBase.get_system()
-        factors.append(system_factors)
-
-        # summarize pytorch state
-        from torch._inductor.codecache import torch_key
-        torch_factors = torch_key()
-        factors.append(torch_factors)
+        factors = get_inductor_factors()
         hash_str = hashlib.md5(str(factors).encode(),
                                usedforsecurity=False).hexdigest()[:10]
         return hash_str
@@ -168,23 +258,19 @@ class InductorAdaptor(CompilerInterface):
         graph: fx.GraphModule,
         example_inputs: List[Any],
         compiler_config: Dict[str, Any],
-        runtime_shape: Optional[int] = None
+        runtime_shape: Optional[int] = None,
+        key: Optional[str] = None,
     ) -> Tuple[Optional[Callable], Optional[Any]]:
-        current_config = {}
         from torch._inductor.compile_fx import compile_fx
+        current_config = {}
+        if compiler_config is not None:
+            current_config.update(compiler_config)
 
         # disable remote cache
         current_config["fx_graph_cache"] = True
         current_config["fx_graph_remote_cache"] = False
 
-        if compiler_config is not None:
-            current_config.update(compiler_config)
-
-        if isinstance(runtime_shape, int):
-            # for a specific batchsize, tuning triton kernel parameters
-            # can be beneficial
-            current_config["max_autotune"] = True
-            current_config["coordinate_descent_tuning"] = True
+        set_inductor_config(current_config, runtime_shape)
 
         # inductor can inplace modify the graph, so we need to copy it
         # see https://github.com/pytorch/pytorch/issues/138980
@@ -422,6 +508,14 @@ class InductorAdaptor(CompilerInterface):
             return contextlib.nullcontext()
 
 
+def set_inductor_config(config, runtime_shape):
+    if isinstance(runtime_shape, int):
+        # for a specific batchsize, tuning triton kernel parameters
+        # can be beneficial
+        config["max_autotune"] = True
+        config["coordinate_descent_tuning"] = True
+
+
 class EagerAdaptor(CompilerInterface):
     name = "eager"
 
@@ -430,7 +524,8 @@ class EagerAdaptor(CompilerInterface):
         graph: fx.GraphModule,
         example_inputs: List[Any],
         compiler_config: Dict[str, Any],
-        runtime_shape: Optional[int] = None
+        runtime_shape: Optional[int] = None,
+        key: Optional[str] = None,
     ) -> Tuple[Optional[Callable], Optional[Any]]:
         # we don't need to compile the graph, just return the graph itself.
         # It does not support caching, return None for the handle.
diff --git a/vllm/envs.py b/vllm/envs.py
index 134cdf990..d7f332cb0 100644
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -263,6 +263,10 @@ environment_variables: dict[str, Callable[[], Any]] = {
     lambda: bool(
         os.environ.get("VLLM_TEST_DYNAMO_FULLGRAPH_CAPTURE", "1") != "0"),
 
+    # Internal flag to enable/disable Inductor standalone compile
+    "VLLM_TEST_STANDALONE_COMPILE":
+    lambda: os.environ.get("VLLM_TEST_STANDALONE_COMPILE", "0") != "0",
+
     # local rank of the process in the distributed setting, used to determine
     # the GPU device id
     "LOCAL_RANK":
@@ -805,6 +809,7 @@ def compute_hash() -> str:
         "VLLM_USE_TRITON_AWQ",
         "VLLM_DP_RANK",
         "VLLM_DP_SIZE",
+        "VLLM_TEST_STANDALONE_COMPILE",
     ]
     for key in environment_variables_to_hash:
         if key in environment_variables:
-- 
GitLab


From 7e3571134fa8385f4795c7a1c2a40f3b2859a22c Mon Sep 17 00:00:00 2001
From: Mark McLoughlin <markmc@redhat.com>
Date: Fri, 9 May 2025 21:32:36 +0100
Subject: [PATCH 258/461] [V1][Spec Decoding] Include bonus tokens in mean
 acceptance length (#17908)

Signed-off-by: Mark McLoughlin <markmc@redhat.com>
---
 examples/offline_inference/eagle.py |  4 ++--
 vllm/v1/spec_decode/metrics.py      | 10 +++++++---
 2 files changed, 9 insertions(+), 5 deletions(-)

diff --git a/examples/offline_inference/eagle.py b/examples/offline_inference/eagle.py
index 91e2f68ec..020521611 100644
--- a/examples/offline_inference/eagle.py
+++ b/examples/offline_inference/eagle.py
@@ -118,8 +118,8 @@ def main():
             acceptance_counts[step] += count
 
     print("-" * 50)
-    print(f"mean acceptance length: \
-        {sum(acceptance_counts) / acceptance_counts[0]:.2f}")
+    print(f"mean acceptance length (including bonus tokens): \
+        {1 + (sum(acceptance_counts) / acceptance_counts[0]):.2f}")
     print("-" * 50)
 
     # print acceptance at each token position
diff --git a/vllm/v1/spec_decode/metrics.py b/vllm/v1/spec_decode/metrics.py
index 33ce98284..eb550a6c4 100644
--- a/vllm/v1/spec_decode/metrics.py
+++ b/vllm/v1/spec_decode/metrics.py
@@ -73,7 +73,9 @@ class SpecDecodingLogging:
 
         draft_acceptance_rate = (num_accepted_tokens / num_draft_tokens *
                                  100 if num_draft_tokens > 0 else float("nan"))
-        mean_acceptance_length = (num_accepted_tokens / num_drafts)
+
+        # Conventionally, mean acceptance length includes the bonus token
+        mean_acceptance_length = 1 + (num_accepted_tokens / num_drafts)
 
         pos_matrix = np.array(self.accepted_tokens_per_pos_lists)
         acceptance_rates = np.sum(pos_matrix, axis=0) / num_drafts
@@ -103,10 +105,12 @@ class SpecDecodingProm:
       rate(vllm:spec_decode_num_accepted_tokens_total[$interval]) /
       rate(vllm:spec_decode_num_draft_tokens_total[$interval])
 
-    The mean acceptance length can be calculated using:
+    The mean acceptance length (conventionally including bonus tokens)
+    can be calculated using:
 
+      1 + (
       rate(vllm:spec_decode_num_accepted_tokens_total[$interval]) /
-      rate(vllm:spec_decode_num_drafts[$interval])
+      rate(vllm:spec_decode_num_drafts[$interval]))
 
     A per-position acceptance rate vector can be computed using
 
-- 
GitLab


From 4b2ed7926a1d93d4189ac112209f2e34cd80846a Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Fri, 9 May 2025 23:18:44 +0100
Subject: [PATCH 259/461] Improve configs - the rest! (#17562)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 tests/compile/test_full_graph.py            |   5 +-
 tests/compile/test_functionalization.py     |   7 +-
 tests/compile/test_fusion.py                |   6 +-
 tests/compile/test_sequence_parallelism.py  |   7 +-
 tests/compile/test_silu_mul_quant_fusion.py |   5 +-
 tests/distributed/test_sequence_parallel.py |   4 +-
 tests/engine/test_arg_utils.py              |  76 ++-
 vllm/compilation/vllm_inductor_pass.py      |   7 +-
 vllm/config.py                              | 523 ++++++++++++--------
 vllm/distributed/kv_events.py               |   3 +-
 vllm/engine/arg_utils.py                    | 131 +++--
 vllm/entrypoints/llm.py                     |  13 +-
 vllm/platforms/tpu.py                       |  11 +-
 vllm/utils.py                               |   8 +
 14 files changed, 461 insertions(+), 345 deletions(-)

diff --git a/tests/compile/test_full_graph.py b/tests/compile/test_full_graph.py
index c09406385..397517b86 100644
--- a/tests/compile/test_full_graph.py
+++ b/tests/compile/test_full_graph.py
@@ -9,7 +9,7 @@ import torch
 
 from tests.quantization.utils import is_quant_method_supported
 from vllm import LLM, SamplingParams
-from vllm.config import CompilationConfig, CompilationLevel
+from vllm.config import CompilationConfig, CompilationLevel, PassConfig
 from vllm.platforms import current_platform
 
 from ..utils import create_new_process_for_each_test
@@ -95,9 +95,6 @@ def test_full_graph(
         run_model(optimization_level, model, model_kwargs)
 
 
-PassConfig = CompilationConfig.PassConfig
-
-
 # TODO(luka) add other supported compilation config scenarios here
 @pytest.mark.parametrize(
     "compilation_config, model_info",
diff --git a/tests/compile/test_functionalization.py b/tests/compile/test_functionalization.py
index 1e1364ce7..5d38ff914 100644
--- a/tests/compile/test_functionalization.py
+++ b/tests/compile/test_functionalization.py
@@ -11,7 +11,7 @@ from vllm.compilation.fusion import (FUSED_OPS, FusionPass, QuantKey,
                                      kFp8DynamicTokenSym, kFp8StaticTensorSym)
 from vllm.compilation.fx_utils import find_auto_fn, find_auto_fn_maybe, is_func
 from vllm.compilation.noop_elimination import NoOpEliminationPass
-from vllm.config import CompilationConfig, VllmConfig
+from vllm.config import CompilationConfig, PassConfig, VllmConfig
 
 from .backend import TestBackend
 
@@ -53,9 +53,8 @@ def test_fix_functionalization(model: str, quant_key: QuantKey,
     torch.set_default_device("cuda")
 
     vllm_config = VllmConfig()
-    vllm_config.compilation_config = CompilationConfig(pass_config= \
-        CompilationConfig.PassConfig(enable_fusion=do_fusion,
-                                          enable_noop=True))
+    vllm_config.compilation_config = CompilationConfig(
+        pass_config=PassConfig(enable_fusion=do_fusion, enable_noop=True))
     noop_pass = NoOpEliminationPass(vllm_config)
     fusion_pass = FusionPass.instance(vllm_config)
     act_quant_fusion_pass = ActivationQuantFusionPass(vllm_config)
diff --git a/tests/compile/test_fusion.py b/tests/compile/test_fusion.py
index 6a696fe02..4d56b34bd 100644
--- a/tests/compile/test_fusion.py
+++ b/tests/compile/test_fusion.py
@@ -9,7 +9,8 @@ from vllm.compilation.fusion import (FUSED_OPS, QUANT_OPS, FusedRMSQuantKey,
                                      FusionPass, QuantKey)
 from vllm.compilation.fx_utils import find_auto_fn, find_auto_fn_maybe
 from vllm.compilation.noop_elimination import NoOpEliminationPass
-from vllm.config import CompilationConfig, CompilationLevel, VllmConfig
+from vllm.config import (CompilationConfig, CompilationLevel, PassConfig,
+                         VllmConfig)
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
     CUTLASS_FP8_SUPPORTED, Fp8LinearOp, maybe_create_device_identity)
@@ -78,8 +79,7 @@ def test_fusion_rmsnorm_quant(dtype, hidden_size, num_tokens, eps, static,
     vllm_config = VllmConfig(compilation_config=CompilationConfig(
         level=CompilationLevel.PIECEWISE, custom_ops=["+rms_norm"]))
     vllm_config.compilation_config.pass_config = \
-            CompilationConfig.PassConfig(enable_fusion=True,
-                                              enable_noop=True)
+        PassConfig(enable_fusion=True, enable_noop=True)
     with vllm.config.set_current_vllm_config(vllm_config):
         # Reshape pass is needed for the fusion pass to work
         noop_pass = NoOpEliminationPass(vllm_config)
diff --git a/tests/compile/test_sequence_parallelism.py b/tests/compile/test_sequence_parallelism.py
index 79f5486da..6152f1717 100644
--- a/tests/compile/test_sequence_parallelism.py
+++ b/tests/compile/test_sequence_parallelism.py
@@ -10,7 +10,7 @@ from vllm.compilation.fx_utils import (find_auto_fn, find_auto_fn_maybe,
                                        find_specified_fn_maybe, is_func)
 from vllm.compilation.sequence_parallelism import SequenceParallelismPass
 from vllm.config import (CompilationConfig, DeviceConfig, ModelConfig,
-                         VllmConfig)
+                         PassConfig, VllmConfig)
 from vllm.distributed import tensor_model_parallel_all_reduce
 from vllm.distributed.parallel_state import (init_distributed_environment,
                                              initialize_model_parallel)
@@ -126,9 +126,8 @@ def sequence_parallelism_pass_on_test_model(local_rank: int, world_size: int,
 
     # configure vllm config for SequenceParallelismPass
     vllm_config = VllmConfig()
-    vllm_config.compilation_config = CompilationConfig(
-        pass_config=CompilationConfig.PassConfig(
-            enable_sequence_parallelism=True, ), )
+    vllm_config.compilation_config = CompilationConfig(pass_config=PassConfig(
+        enable_sequence_parallelism=True))
     vllm_config.device_config = DeviceConfig(device=torch.device("cuda"))
 
     # this is a fake model name to construct the model config
diff --git a/tests/compile/test_silu_mul_quant_fusion.py b/tests/compile/test_silu_mul_quant_fusion.py
index 313848372..f87f175ac 100644
--- a/tests/compile/test_silu_mul_quant_fusion.py
+++ b/tests/compile/test_silu_mul_quant_fusion.py
@@ -6,7 +6,7 @@ import vllm.envs as envs
 from vllm._custom_ops import scaled_fp8_quant
 from vllm.compilation.activation_quant_fusion import ActivationQuantFusionPass
 from vllm.compilation.fx_utils import find_auto_fn, find_auto_fn_maybe
-from vllm.config import CompilationConfig, VllmConfig
+from vllm.config import CompilationConfig, PassConfig, VllmConfig
 from vllm.model_executor.layers.activation import SiluAndMul
 
 from .backend import TestBackend
@@ -36,8 +36,7 @@ def test_fusion_silu_and_mul_quant(num_tokens, hidden_size):
     # Reshape pass is needed for the fusion pass to work
     config = VllmConfig()
     config.compilation_config = CompilationConfig(
-        pass_config=CompilationConfig.PassConfig(enable_fusion=True,
-                                                 enable_reshape=True))
+        pass_config=PassConfig(enable_fusion=True, enable_reshape=True))
     fusion_pass = ActivationQuantFusionPass(config)
 
     backend = TestBackend(fusion_pass)
diff --git a/tests/distributed/test_sequence_parallel.py b/tests/distributed/test_sequence_parallel.py
index 19497ad9c..bbf3ed584 100644
--- a/tests/distributed/test_sequence_parallel.py
+++ b/tests/distributed/test_sequence_parallel.py
@@ -206,7 +206,7 @@ def _compare_sp(
         'compile_sizes': [4, 8],
         'splitting_ops': [],
         'pass_config': {
-            'enable_sequence_parallism': sp_enabled,
+            'enable_sequence_parallelism': sp_enabled,
             'enable_noop': True,
             'enable_fusion': True,
         },
@@ -223,7 +223,7 @@ def _compare_sp(
         "--distributed-executor-backend",
         distributed_backend,
         "--compilation_config",
-        str(compilation_config),
+        json.dumps(compilation_config),
     ]
 
     tp_env = {
diff --git a/tests/engine/test_arg_utils.py b/tests/engine/test_arg_utils.py
index 65471cb3a..ce8873d58 100644
--- a/tests/engine/test_arg_utils.py
+++ b/tests/engine/test_arg_utils.py
@@ -8,21 +8,18 @@ from typing import Literal, Optional
 
 import pytest
 
-from vllm.config import config
+from vllm.config import CompilationConfig, config
 from vllm.engine.arg_utils import (EngineArgs, contains_type, get_kwargs,
                                    get_type, is_not_builtin, is_type,
                                    literal_to_kwargs, nullable_kvs,
-                                   optional_type)
+                                   optional_type, parse_type)
 from vllm.utils import FlexibleArgumentParser
 
 
 @pytest.mark.parametrize(("type", "value", "expected"), [
     (int, "42", 42),
-    (int, "None", None),
     (float, "3.14", 3.14),
-    (float, "None", None),
     (str, "Hello World!", "Hello World!"),
-    (str, "None", None),
     (json.loads, '{"foo":1,"bar":2}', {
         "foo": 1,
         "bar": 2
@@ -31,15 +28,20 @@ from vllm.utils import FlexibleArgumentParser
         "foo": 1,
         "bar": 2
     }),
-    (json.loads, "None", None),
 ])
-def test_optional_type(type, value, expected):
-    optional_type_func = optional_type(type)
+def test_parse_type(type, value, expected):
+    parse_type_func = parse_type(type)
     context = nullcontext()
     if value == "foo=1,bar=2":
         context = pytest.warns(DeprecationWarning)
     with context:
-        assert optional_type_func(value) == expected
+        assert parse_type_func(value) == expected
+
+
+def test_optional_type():
+    optional_type_func = optional_type(int)
+    assert optional_type_func("None") is None
+    assert optional_type_func("42") == 42
 
 
 @pytest.mark.parametrize(("type_hint", "type", "expected"), [
@@ -89,7 +91,40 @@ def test_literal_to_kwargs(type_hints, expected):
 
 @config
 @dataclass
-class DummyConfigClass:
+class NestedConfig:
+    field: int = 1
+    """field"""
+
+
+@config
+@dataclass
+class FromCliConfig1:
+    field: int = 1
+    """field"""
+
+    @classmethod
+    def from_cli(cls, cli_value: str):
+        inst = cls(**json.loads(cli_value))
+        inst.field += 1
+        return inst
+
+
+@config
+@dataclass
+class FromCliConfig2:
+    field: int = 1
+    """field"""
+
+    @classmethod
+    def from_cli(cls, cli_value: str):
+        inst = cls(**json.loads(cli_value))
+        inst.field += 2
+        return inst
+
+
+@config
+@dataclass
+class DummyConfig:
     regular_bool: bool = True
     """Regular bool with default True"""
     optional_bool: Optional[bool] = None
@@ -108,18 +143,24 @@ class DummyConfigClass:
     """Literal of literals with default 1"""
     json_tip: dict = field(default_factory=dict)
     """Dict which will be JSON in CLI"""
+    nested_config: NestedConfig = field(default_factory=NestedConfig)
+    """Nested config"""
+    from_cli_config1: FromCliConfig1 = field(default_factory=FromCliConfig1)
+    """Config with from_cli method"""
+    from_cli_config2: FromCliConfig2 = field(default_factory=FromCliConfig2)
+    """Different config with from_cli method"""
 
 
 @pytest.mark.parametrize(("type_hint", "expected"), [
     (int, False),
-    (DummyConfigClass, True),
+    (DummyConfig, True),
 ])
 def test_is_not_builtin(type_hint, expected):
     assert is_not_builtin(type_hint) == expected
 
 
 def test_get_kwargs():
-    kwargs = get_kwargs(DummyConfigClass)
+    kwargs = get_kwargs(DummyConfig)
     print(kwargs)
 
     # bools should not have their type set
@@ -142,6 +183,11 @@ def test_get_kwargs():
     # dict should have json tip in help
     json_tip = "\n\nShould be a valid JSON string."
     assert kwargs["json_tip"]["help"].endswith(json_tip)
+    # nested config should should construct the nested config
+    assert kwargs["nested_config"]["type"]('{"field": 2}') == NestedConfig(2)
+    # from_cli configs should be constructed with the correct method
+    assert kwargs["from_cli_config1"]["type"]('{"field": 2}').field == 3
+    assert kwargs["from_cli_config2"]["type"]('{"field": 2}').field == 4
 
 
 @pytest.mark.parametrize(("arg", "expected"), [
@@ -177,7 +223,7 @@ def test_compilation_config():
 
     # default value
     args = parser.parse_args([])
-    assert args.compilation_config is None
+    assert args.compilation_config == CompilationConfig()
 
     # set to O3
     args = parser.parse_args(["-O3"])
@@ -194,7 +240,7 @@ def test_compilation_config():
     # set to string form of a dict
     args = parser.parse_args([
         "--compilation-config",
-        "{'level': 3, 'cudagraph_capture_sizes': [1, 2, 4, 8]}",
+        '{"level": 3, "cudagraph_capture_sizes": [1, 2, 4, 8]}',
     ])
     assert (args.compilation_config.level == 3 and
             args.compilation_config.cudagraph_capture_sizes == [1, 2, 4, 8])
@@ -202,7 +248,7 @@ def test_compilation_config():
     # set to string form of a dict
     args = parser.parse_args([
         "--compilation-config="
-        "{'level': 3, 'cudagraph_capture_sizes': [1, 2, 4, 8]}",
+        '{"level": 3, "cudagraph_capture_sizes": [1, 2, 4, 8]}',
     ])
     assert (args.compilation_config.level == 3 and
             args.compilation_config.cudagraph_capture_sizes == [1, 2, 4, 8])
diff --git a/vllm/compilation/vllm_inductor_pass.py b/vllm/compilation/vllm_inductor_pass.py
index e8bffb406..c95e0bce5 100644
--- a/vllm/compilation/vllm_inductor_pass.py
+++ b/vllm/compilation/vllm_inductor_pass.py
@@ -4,7 +4,7 @@ import time
 
 import torch
 
-from vllm.config import CompilationConfig, VllmConfig
+from vllm.config import PassConfig, VllmConfig
 # yapf: disable
 from vllm.distributed import get_tensor_model_parallel_rank as get_tp_rank
 from vllm.distributed import (
@@ -56,10 +56,7 @@ class VllmInductorPass(InductorPass):
 
 class PrinterInductorPass(VllmInductorPass):
 
-    def __init__(self,
-                 name: str,
-                 config: CompilationConfig.PassConfig,
-                 always=False):
+    def __init__(self, name: str, config: PassConfig, always=False):
         super().__init__(config)
         self.name = name
         self.always = always
diff --git a/vllm/config.py b/vllm/config.py
index cc185b1d5..ef0163eaf 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -11,8 +11,8 @@ import textwrap
 import warnings
 from collections import Counter
 from contextlib import contextmanager
-from dataclasses import (MISSING, dataclass, field, fields, is_dataclass,
-                         replace)
+from dataclasses import (MISSING, Field, asdict, dataclass, field, fields,
+                         is_dataclass, replace)
 from functools import cached_property
 from importlib.util import find_spec
 from pathlib import Path
@@ -20,7 +20,6 @@ from typing import (TYPE_CHECKING, Any, Callable, ClassVar, Literal, Optional,
                     Protocol, TypeVar, Union, cast, get_args, get_origin)
 
 import torch
-from pydantic import BaseModel, Field, PrivateAttr
 from torch.distributed import ProcessGroup, ReduceOp
 from transformers import PretrainedConfig
 from typing_extensions import deprecated
@@ -57,7 +56,7 @@ if TYPE_CHECKING:
 
     ConfigType = type[DataclassInstance]
 else:
-    QuantizationConfig = None
+    QuantizationConfig = Any
     ConfigType = type
 
 logger = init_logger(__name__)
@@ -169,6 +168,12 @@ def config(cls: ConfigT) -> ConfigT:
     """
     A decorator that ensures all fields in a dataclass have default values
     and that each field has a docstring.
+
+    If a `ConfigT` is used as a CLI argument itself, the default value provided
+    by `get_kwargs` will be the result parsing a JSON string as the kwargs
+    (i.e. `ConfigT(**json.loads(cli_arg))`). However, if a particular `ConfigT`
+    requires custom construction from CLI (i.e. `CompilationConfig`), it can
+    have a `from_cli` method, which will be called instead.
     """
     if not is_dataclass(cls):
         raise TypeError("The decorated class must be a dataclass.")
@@ -202,7 +207,7 @@ def get_field(cls: ConfigType, name: str) -> Field:
     cls_fields = {f.name: f for f in fields(cls)}
     if name not in cls_fields:
         raise ValueError(f"Field '{name}' not found in {cls.__name__}.")
-    named_field: Field = cls_fields.get(name)
+    named_field: Field = cls_fields[name]
     if (default_factory := named_field.default_factory) is not MISSING:
         return field(default_factory=default_factory)
     if (default := named_field.default) is not MISSING:
@@ -211,6 +216,10 @@ def get_field(cls: ConfigType, name: str) -> Field:
         f"{cls.__name__}.{name} must have a default value or default factory.")
 
 
+def is_init_field(cls: ConfigType, name: str) -> bool:
+    return next(f for f in fields(cls) if f.name == name).init
+
+
 TokenizerMode = Literal["auto", "slow", "mistral", "custom"]
 ModelDType = Literal["auto", "half", "float16", "bfloat16", "float", "float32"]
 
@@ -2007,13 +2016,13 @@ class SchedulerConfig:
     def __post_init__(self) -> None:
         if self.max_model_len is None:
             self.max_model_len = 8192
-            logger.warning(
+            logger.warning_once(
                 "max_model_len was is not set. Defaulting to arbitrary value "
                 "of %d.", self.max_model_len)
 
         if self.max_num_seqs is None:
             self.max_num_seqs = 128
-            logger.warning(
+            logger.warning_once(
                 "max_num_seqs was is not set. Defaulting to arbitrary value "
                 "of %d.", self.max_num_seqs)
 
@@ -2840,8 +2849,8 @@ class PromptAdapterConfig:
 class MultiModalConfig:
     """Controls the behavior of multimodal models."""
 
-    limit_per_prompt: dict[str, int] = get_field(ModelConfig,
-                                                 "limit_mm_per_prompt")
+    limit_per_prompt: dict[str, int] = \
+        cast(dict[str, int], get_field(ModelConfig, "limit_mm_per_prompt"))
     """
     The maximum number of input items allowed per prompt for each modality.
     Defaults to 1 (V0) or 999 (V1) for each modality.
@@ -3415,41 +3424,49 @@ class ObservabilityConfig:
             self.collect_detailed_traces[0].split(","))
 
 
-class KVTransferConfig(BaseModel):
+KVProducer = Literal["kv_producer", "kv_both"]
+KVConsumer = Literal["kv_consumer", "kv_both"]
+KVRole = Literal[KVProducer, KVConsumer]
+
+
+@config
+@dataclass
+class KVTransferConfig:
     """Configuration for distributed KV cache transfer."""
 
-    # The KV connector for vLLM to transmit KV caches between vLLM instances.
     kv_connector: Optional[str] = None
+    """The KV connector for vLLM to transmit KV caches between vLLM instances.
+    """
 
-    # The device used by kv connector to buffer the KV cache.
-    # Currently only support 'cuda'.
     kv_buffer_device: Optional[str] = "cuda"
+    """The device used by kv connector to buffer the KV cache.
+    Currently only support 'cuda'."""
 
-    # The buffer size for TorchDistributedConnector. Measured in number of
-    # bytes. Recommended value: 1e9 (about 1GB).
     kv_buffer_size: float = 1e9
+    """The buffer size for TorchDistributedConnector. Measured in number of
+    bytes. Recommended value: 1e9 (about 1GB)."""
 
-    # Whether this vLLM instance produces, consumes KV cache, or both. Choices
-    # are 'kv_producer', 'kv_consumer', and 'both'.
-    kv_role: Optional[str] = None
+    kv_role: Optional[KVRole] = None
+    """Whether this vLLM instance produces, consumes KV cache, or both. Choices
+    are 'kv_producer', 'kv_consumer', and 'both'."""
 
-    # The rank of this vLLM instance in the KV cache transfer. Typical value:
-    # 0 for prefill instance, 1 for decode instance.
-    # Currently only 1P1D is supported.
     kv_rank: Optional[int] = None
+    """The rank of this vLLM instance in the KV cache transfer. Typical value:
+    0 for prefill instance, 1 for decode instance.
+    Currently only 1P1D is supported."""
 
-    # The number of parallel instances for KV cache transfer. For
-    # PyNcclConnector, this should be 2.
     kv_parallel_size: int = 1
+    """The number of parallel instances for KV cache transfer. For
+    PyNcclConnector, this should be 2."""
 
-    # The KV connector ip, used to build distributed connection
     kv_ip: str = "127.0.0.1"
+    """The KV connector ip, used to build distributed connection."""
 
-    # The KV connector port, used to build distributed connection
     kv_port: int = 14579
+    """The KV connector port, used to build distributed connection."""
 
-    # any extra config that the connector may need
-    kv_connector_extra_config: dict[str, Any] = {}
+    kv_connector_extra_config: dict[str, Any] = field(default_factory=dict)
+    """any extra config that the connector may need."""
 
     def compute_hash(self) -> str:
         """
@@ -3470,46 +3487,37 @@ class KVTransferConfig(BaseModel):
                                usedforsecurity=False).hexdigest()
         return hash_str
 
-    @classmethod
-    def from_cli(cls, cli_value: str) -> "KVTransferConfig":
-        """Parse the CLI value for the kv cache transfer config."""
-        return KVTransferConfig.model_validate_json(cli_value)
-
-    def model_post_init(self, __context: Any) -> None:
-
-        if self.kv_role is not None and self.kv_role not in [
-                "kv_producer", "kv_consumer", "kv_both"
-        ]:
-            raise ValueError(
-                f"Unsupported kv_role: {self.kv_role}. "
-                f"Supported roles are `kv_producer`, `kv_consumer`, "
-                f"and `kv_both`")
+    def __post_init__(self) -> None:
+        if self.kv_role is not None and self.kv_role not in get_args(KVRole):
+            raise ValueError(f"Unsupported kv_role: {self.kv_role}. "
+                             f"Supported roles are {get_args(KVRole)}")
 
         if self.kv_connector is not None and self.kv_role is None:
             raise ValueError("Please specify kv_disagg_role when kv_connector "
-                             "is set, supported roles are `kv_producer`, "
-                             "`kv_consumer`, and `kv_both`")
+                             f"is set, supported roles are {get_args(KVRole)}")
 
     @property
     def is_kv_transfer_instance(self) -> bool:
         return self.kv_connector is not None and \
-            self.kv_role in ["kv_producer", "kv_consumer", "kv_both"]
+            self.kv_role in get_args(KVRole)
 
     @property
     def is_kv_producer(self) -> bool:
         return self.kv_connector is not None and \
-            self.kv_role in ["kv_producer", "kv_both"]
+            self.kv_role in get_args(KVProducer)
 
     @property
     def is_kv_consumer(self) -> bool:
         return self.kv_connector is not None and \
-            self.kv_role in ["kv_consumer", "kv_both"]
+            self.kv_role in get_args(KVConsumer)
 
     def get_from_extra_config(self, key, default) -> Any:
         return self.kv_connector_extra_config.get(key, default)
 
 
-class KVEventsConfig(BaseModel):
+@config
+@dataclass
+class KVEventsConfig:
     """Configuration for KV event publishing."""
 
     enable_kv_cache_events: bool = False
@@ -3548,11 +3556,6 @@ class KVEventsConfig(BaseModel):
     this topic to receive events.
     """
 
-    @classmethod
-    def from_cli(cls, cli_value: str) -> "KVEventsConfig":
-        """Parse the CLI value for the event publisher config."""
-        return KVEventsConfig.model_validate_json(cli_value)
-
 
 class CompilationLevel:
     # constants for the levels of the compilation process
@@ -3562,80 +3565,72 @@ class CompilationLevel:
     PIECEWISE = 3
 
 
-class CompilationConfig(BaseModel):
-    """
-    Configuration for compilation.
-    It has three parts:
+@config
+@dataclass
+class PassConfig:
+    """Configuration for custom Inductor passes.
+
+    This is separate from general `CompilationConfig` so that inductor passes
+    don't all have access to full configuration - that would create a cycle as
+    the `PassManager` is set as a property of config."""
+
+    dump_graph_stages: list[str] = field(default_factory=list)
+    """List of stages for which we want to dump the graph. Each pass defines
+    its own stages (before, after, maybe in-between)."""
+    dump_graph_dir: Path = Path(".")
+    """Directory to dump the graphs."""
+    # TODO(luka) better pass enabling system.
+    enable_fusion: bool = True
+    """Whether to enable the custom fusion pass."""
+    enable_noop: bool = True
+    """Whether to enable the custom no-op elimination pass."""
+    enable_sequence_parallelism: bool = False
+    """Whether to enable sequence parallelism."""
+
+    def uuid(self):
+        """
+        Produces a hash unique to the pass configuration.
+        Any new fields that affect compilation should be added to the hash.
+        Do not include dump_graph_* in the hash - they don't affect
+        compilation.
+        """
+        include = {
+            "enable_fusion", "enable_noop", "enable_sequence_parallelism"
+        }
+        dict_ = {k: v for k, v in asdict(self).items() if k in include}
+        return InductorPass.hash_dict(dict_)
+
+    def __post_init__(self) -> None:
+        if not self.enable_noop and self.enable_fusion:
+            logger.warning_once(
+                "Fusion enabled but reshape elimination disabled. "
+                "RMSNorm + quant (fp8) fusion might not work")
+
+
+@config
+@dataclass
+class CompilationConfig:
+    """Configuration for compilation. It has three parts:
+
     - Top-level Compilation control:
-        - level: the level of compilation.
-            - 0: no compilation.
-            - 1: dynamo as is.
-            - 2: dynamo once.
-            - 3: piecewise compilation.
-        - debug_dump_path: the path to dump the debug information.
-        - cache_dir: the directory to store the compiled graph, to
-            accelerate Inductor compilation. By default, it will use
-            model-related information to generate a cache directory.
-        - backend: the backend for compilation. It needs to be a string.
-            - "" (empty string): use the default backend.
-            - "eager"/"openxla"/...: use the specified backend registered in PyTorch.
-            - "full.module.name": a qualified name which can be used to import the backend function.
-            We use string to avoid serialization issues when using compilation in a distributed setting.
-            When the compilation level is 1 or 2, the backend is used for the compilation directly (it sees the whole graph).
-            When the compilation level is 3, the backend is used for the piecewise compilation (it sees a part of the graph).
-        - custom_ops: fine-grained control over which custom ops to enable/disable.
-            Use 'all' to enable all, 'none' to disable all.
-            Also specify a list of custom op names to enable (prefixed with a '+'),
-            or disable (prefixed with a '-').
-            Examples:
-                - 'all,-op1' to enable all except op1
-                - 'none,+op1,+op2' to enable only op1 and op2
-            By default, all custom ops are enabled when running without Inductor
-                and disabled when running with Inductor (compile_level >= Inductor).
-        - splitting_ops: a list of ops to split the full graph into subgraphs, used in piecewise compilation.
+        - {attr}`level`
+        - {attr}`debug_dump_path`
+        - {attr}`cache_dir`
+        - {attr}`backend`
+        - {attr}`custom_ops`
+        - {attr}`splitting_ops`
     - CudaGraph capture:
-        - use_cudagraph: whether to use cudagraph inside compilation.
-            - False: cudagraph inside compilation is not used.
-            - True: cudagraph inside compilation is used. It requires
-                that all input buffers have fixed addresses, and all
-                splitting ops write their outputs to input buffers.
-            Note that this is orthogonal to the cudagraph capture logic
-            outside of compilation.
-            TODO: move outside cudagraph logic into compilation.
-            torch.compile will handle cudagraph capture logic in the future.
-        - cudagraph_capture_sizes: sizes to capture cudagraph.
-            - None (default): capture sizes are inferred from vllm config.
-            - list[int]: capture sizes are specified as given.
-        - cudagraph_num_of_warmups: number of warmup runs for cudagraph.
-            It means the first several runs will be treated as warmup runs.
-            Only after that, the execution will be recorded, and the recorded
-            cudagraph will be used for subsequent runs.
-        - cudagraph_copy_inputs: whether to copy input tensors for
-            cudagraph. If the caller can guarantee that the same input buffers
-            are always used, it can set this to False. Otherwise, it should
-            set this to True, and the compiler will copy the input to an
-            internally managed buffer. Default is False.
-        - full_cuda_graph: whether to use a full cuda graph for the entire forward 
-            pass rather than splitting certain operations such as attention into subgraphs. 
-            Thus this flag cannot be used together with splitting_ops. This may provide 
-            performance benefits for smaller models.
+        - {attr}`use_cudagraph`
+        - {attr}`cudagraph_capture_sizes`
+        - {attr}`cudagraph_num_of_warmups`
+        - {attr}`cudagraph_copy_inputs`
+        - {attr}`full_cuda_graph`
     - Inductor compilation:
-        - use_inductor: whether to use inductor compilation.
-            - False: inductor compilation is not used. graph runs in eager.
-            - True: inductor compilation is used. one graph for symbolic shape
-                is compiled. In addition, compile for compile_sizes,
-                using configurations in inductor_compile_config.
-        - compile_sizes: sizes to compile for inductor. In addition
-            to integers, it also supports "cudagraph_capture_sizes" to
-            specify the sizes for cudagraph capture.
-        - inductor_compile_config: additional configurations for inductor.
-            - None: use default configurations.
-        - inductor_passes: additional passes for inductor. It is a dictionary
-            from pass name to pass function qualified name. We use function
-            name because the config uses json format. If we pass the config
-            from Python, functions can also be passed directly via Python object
-            constructor, e.g. `CompilationConfig(inductor_passes={"a": func})`
-        - custom inductor passes: see PassConfig for more details
+        - {attr}`use_inductor`
+        - {attr}`compile_sizes`
+        - {attr}`inductor_compile_config`
+        - {attr}`inductor_passes`
+        - custom inductor passes
 
     Why we have different sizes for cudagraph and inductor:
     - cudagraph: a cudagraph captured for a specific size can only be used
@@ -3646,83 +3641,135 @@ class CompilationConfig(BaseModel):
         static shapes. However, we find the general shape compilation is
         sufficient for most cases. It might be beneficial to compile for
         certain small batchsizes, where inductor is good at optimizing.
-    """ # noqa
+    """
+    # Top-level Compilation control
     level: int = 0
+    """The level of compilation:
+
+    - 0: no compilation.
+    - 1: dynamo as is.
+    - 2: dynamo once.
+    - 3: piecewise compilation."""
     debug_dump_path: str = ""
+    """The path to dump the debug information."""
     cache_dir: str = ""
+    """The directory to store the compiled graph, to accelerate Inductor
+    compilation. By default, it will use model-related information to generate
+    a cache directory."""
     backend: str = ""
-    custom_ops: list[str] = Field(default_factory=list)
-    splitting_ops: list[str] = Field(default=None)  # type: ignore
-
+    """The backend for compilation. It needs to be a string:
+
+    - "" (empty string): use the default backend.
+    - "eager"/"openxla"/...: use the specified backend registered in PyTorch.
+    - "full.module.name": a qualified name which can be used to import the
+
+    backend function.
+    We use string to avoid serialization issues when using compilation in a
+    distributed setting. When the compilation level is 1 or 2, the backend is
+    used for the compilation directly (it sees the whole graph). When the
+    compilation level is 3, the backend is used for the piecewise compilation
+    (it sees a part of the graph)."""
+    custom_ops: list[str] = field(default_factory=list)
+    """Fine-grained control over which custom ops to enable/disable. Use 'all'
+    to enable all, 'none' to disable all. Also specify a list of custom op
+    names to enable (prefixed with a '+'), or disable (prefixed with a '-').
+    Examples:
+
+    - 'all,-op1' to enable all except op1
+    - 'none,+op1,+op2' to enable only op1 and op2
+
+    By default, all custom ops are enabled when running without Inductor and
+    disabled when running with Inductor (compile_level >= Inductor)."""
+    splitting_ops: list[str] = field(default_factory=list)
+    """A list of ops to split the full graph into subgraphs, used in piecewise
+    compilation."""
+
+    # Inductor capture
     use_inductor: bool = True
-    compile_sizes: Optional[list[Union[int, str]]] = Field(default=None)
-    inductor_compile_config: dict = Field(default_factory=dict)
-    inductor_passes: dict[str, str] = Field(default_factory=dict)
-
+    """Whether to use inductor compilation:
+
+    - False: inductor compilation is not used. graph runs in eager.
+    - True: inductor compilation is used. one graph for symbolic shape
+        is compiled. In addition, compile for compile_sizes,
+        using configurations in inductor_compile_config."""
+    compile_sizes: Optional[list[Union[int, str]]] = None
+    """Sizes to compile for inductor. In addition
+    to integers, it also supports "cudagraph_capture_sizes" to
+    specify the sizes for cudagraph capture."""
+    inductor_compile_config: dict = field(default_factory=dict)
+    """Additional configurations for inductor.
+    - None: use default configurations."""
+    inductor_passes: dict[str, str] = field(default_factory=dict)
+    """Additional passes for inductor. It is a dictionary
+    from pass name to pass function qualified name. We use function
+    name because the config uses JSON format. If we pass the config
+    from Python, functions can also be passed directly via Python object
+    constructor, e.g. `CompilationConfig(inductor_passes={"a": func})`."""
+
+    # CudaGraph compilation
     use_cudagraph: bool = False
+    """Whether to use cudagraph inside compilation.
+    - False: cudagraph inside compilation is not used.
+    - True: cudagraph inside compilation is used. It requires
+        that all input buffers have fixed addresses, and all
+        splitting ops write their outputs to input buffers.
+    Note that this is orthogonal to the cudagraph capture logic
+    outside of compilation.
+    TODO: move outside cudagraph logic into compilation.
+    torch.compile will handle cudagraph capture logic in the future."""
     cudagraph_num_of_warmups: int = 0
+    """Number of warmup runs for cudagraph.
+    It means the first several runs will be treated as warmup runs.
+    Only after that, the execution will be recorded, and the recorded
+    cudagraph will be used for subsequent runs."""
     cudagraph_capture_sizes: Optional[list[int]] = None
+    """Sizes to capture cudagraph.
+    - None (default): capture sizes are inferred from vllm config.
+    - list[int]: capture sizes are specified as given."""
     cudagraph_copy_inputs: bool = False
+    """Whether to copy input tensors for
+    cudagraph. If the caller can guarantee that the same input buffers
+    are always used, it can set this to False. Otherwise, it should
+    set this to True, and the compiler will copy the input to an
+    internally managed buffer. Default is False."""
     full_cuda_graph: bool = False
-
-    class PassConfig(BaseModel):
-        """
-        Configuration for custom Inductor passes.
-        This is separate from general CompilationConfig so that inductor passes
-        don't all have access to full configuration - that would create a cycle
-        as the PassManager is set as a property of config.
-        - dump_graph_stages: list of stages for which we want to dump the graph.
-            Each pass defines its own stages (before, after, maybe in-between).
-        - dump_graph_dir: directory to dump the graphs. Default is .
-        - enable_fusion: whether to enable the custom fusion pass.
-        - enable_noop: whether to enable the custom no-op elimination pass.
-            TODO(luka) better pass enabling system.
-        - enable_sequence_parallelism: whether to enable sequence parallelism.
-        """
-        dump_graph_stages: list[str] = Field(default_factory=list)
-        dump_graph_dir: Path = Field(default=Path("."))
-        enable_fusion: bool = True
-        enable_noop: bool = True
-        enable_sequence_parallelism: bool = False
-
-        def uuid(self):
-            """
-            Produces a hash unique to the pass configuration.
-            Any new fields that affect compilation should be added to the hash.
-            Do not include dump_graph_* in the hash - they don't affect
-            compilation.
-            """
-            dict_ = self.model_dump(include={"enable_fusion", "enable_noop", \
-                "enable_sequence_parallelism"})
-            return InductorPass.hash_dict(dict_)
-
-        def model_post_init(self, __context: Any) -> None:
-            if not self.enable_noop and self.enable_fusion:
-                logger.warning_once(
-                    "Fusion enabled but reshape elimination disabled. "
-                    "RMSNorm + quant (fp8) fusion might not work")
-
-    pass_config: PassConfig = Field(default_factory=PassConfig)
-
-    # not configurable, computed after init
-    max_capture_size: int = PrivateAttr
-    local_cache_dir: str = PrivateAttr  # local cache dir for each rank
-    # optimization:
-    # Intuitively, bs_to_padded_graph_size should be dict[int, int].
-    # since we know all keys are in a range [0, max_capture_size],
-    # we can optimize it to list[int] for better lookup performance.
-    bs_to_padded_graph_size: list[int] = PrivateAttr
+    """whether to use a full cuda graph for the entire forward pass rather than
+    splitting certain operations such as attention into subgraphs. Thus this
+    flag cannot be used together with splitting_ops. This may provide
+    performance benefits for smaller models."""
+
+    pass_config: PassConfig = field(default_factory=PassConfig)
+    """Custom inductor passes, see PassConfig for more details"""
+
+    max_capture_size: int = field(default=None, init=False)  # type: ignore
+    """not configurable, computed after init"""
+    local_cache_dir: str = field(default=None, init=False)  # type: ignore
+    """local cache dir for each rank"""
+    bs_to_padded_graph_size: list[int] = field(
+        default=None,  # type: ignore
+        init=False)
+    """optimization:
+    Intuitively, bs_to_padded_graph_size should be dict[int, int].
+    since we know all keys are in a range [0, max_capture_size],
+    we can optimize it to list[int] for better lookup performance."""
 
     # keep track of enabled and disabled custom ops
-    enabled_custom_ops: Counter[str] = PrivateAttr
-    disabled_custom_ops: Counter[str] = PrivateAttr
-    traced_files: set[str] = PrivateAttr
-    compilation_time: float = PrivateAttr
-
-    # Per-model forward context
-    # Map from layer name to layer objects that need to be accessed outside
-    # model code, e.g., Attention, FusedMOE when dp_size>1.
-    static_forward_context: dict[str, Any] = PrivateAttr
+    enabled_custom_ops: Counter[str] = field(default_factory=Counter,
+                                             init=False)
+    """custom ops that are enabled"""
+    disabled_custom_ops: Counter[str] = field(default_factory=Counter,
+                                              init=False)
+    """custom ops that are disabled"""
+    traced_files: set[str] = field(default_factory=set, init=False)
+    """files that are traced for compilation"""
+    compilation_time: float = field(default=0.0, init=False)
+    """time taken for compilation"""
+
+    static_forward_context: dict[str, Any] = field(default_factory=dict,
+                                                   init=False)
+    """Per-model forward context
+    Map from layer name to layer objects that need to be accessed outside
+    model code, e.g., Attention, FusedMOE when dp_size>1."""
 
     def compute_hash(self) -> str:
         """
@@ -3757,7 +3804,17 @@ class CompilationConfig(BaseModel):
             "pass_config",
             "traced_files",
         }
-        return self.model_dump_json(exclude=exclude, exclude_unset=True)
+        include = dict()
+        for k, v in asdict(self).items():
+            if k in exclude:
+                continue
+            f = get_field(CompilationConfig, k)
+            if (d := f.default) is not MISSING and d == v:
+                continue
+            if (df := f.default_factory) is not MISSING and df() == v:
+                continue
+            include[k] = v
+        return json.dumps(include)
 
     __str__ = __repr__
 
@@ -3766,12 +3823,9 @@ class CompilationConfig(BaseModel):
         """Parse the CLI value for the compilation config."""
         if cli_value in ["0", "1", "2", "3"]:
             return cls(level=int(cli_value))
-        # do not use `eval`, it is dangerous and can execute arbitrary code
-        dict_value = ast.literal_eval(cli_value)
-        return CompilationConfig.model_validate(dict_value)
-
-    def model_post_init(self, __context: Any) -> None:
+        return cls(**json.loads(cli_value))
 
+    def __post_init__(self) -> None:
         count_none = self.custom_ops.count("none")
         count_all = self.custom_ops.count("all")
         assert count_none + count_all <= 1, "Can only specify 'none' or 'all'"
@@ -3789,9 +3843,6 @@ class CompilationConfig(BaseModel):
             if KEY not in self.inductor_compile_config:
                 self.inductor_compile_config[KEY] = False
 
-        if self.splitting_ops is None:
-            self.splitting_ops = []
-
         for k, v in self.inductor_passes.items():
             if not isinstance(v, str):
                 assert callable(v), (
@@ -3808,11 +3859,8 @@ class CompilationConfig(BaseModel):
             self.inductor_compile_config[k] = func if isinstance(
                 func, InductorPass) else CallableInductorPass(func)
 
-        self.enabled_custom_ops = Counter()
-        self.disabled_custom_ops = Counter()
-        self.traced_files = set()
-        self.static_forward_context = {}
-        self.compilation_time = 0.0
+        if isinstance(self.pass_config, dict):
+            self.pass_config = PassConfig(**self.pass_config)
 
     def init_backend(self, vllm_config: "VllmConfig") -> Union[str, Callable]:
         if self.level == CompilationLevel.NO_COMPILATION:
@@ -3899,39 +3947,67 @@ class CompilationConfig(BaseModel):
             ]
 
 
+@config
 @dataclass
 class VllmConfig:
     """Dataclass which contains all vllm-related configuration. This
     simplifies passing around the distinct configurations in the codebase.
     """
 
-    model_config: ModelConfig = field(default=None, init=True)  # type: ignore
-    cache_config: CacheConfig = field(default=None, init=True)  # type: ignore
-    parallel_config: ParallelConfig = field(default_factory=ParallelConfig,
-                                            init=True)
-    scheduler_config: SchedulerConfig = field(default_factory=SchedulerConfig,
-                                              init=True)
-    device_config: DeviceConfig = field(default=None,
-                                        init=True)  # type: ignore
-    load_config: LoadConfig = field(default=None, init=True)  # type: ignore
+    model_config: ModelConfig = field(default_factory=ModelConfig)
+    """Model configuration."""
+    cache_config: CacheConfig = field(default_factory=CacheConfig)
+    """Cache configuration."""
+    parallel_config: ParallelConfig = field(default_factory=ParallelConfig)
+    """Parallel configuration."""
+    scheduler_config: SchedulerConfig = field(default_factory=SchedulerConfig)
+    """Scheduler configuration."""
+    device_config: DeviceConfig = field(default_factory=DeviceConfig)
+    """Device configuration."""
+    load_config: LoadConfig = field(default_factory=LoadConfig)
+    """Load configuration."""
     lora_config: Optional[LoRAConfig] = None
-    speculative_config: SpeculativeConfig = field(default=None,
-                                                  init=True)  # type: ignore
+    """LoRA configuration."""
+    speculative_config: Optional[SpeculativeConfig] = None
+    """Speculative decoding configuration."""
     decoding_config: Optional[DecodingConfig] = None
+    """Decoding configuration."""
     observability_config: Optional[ObservabilityConfig] = None
+    """Observability configuration."""
     prompt_adapter_config: Optional[PromptAdapterConfig] = None
+    """Prompt adapter configuration."""
     quant_config: Optional[QuantizationConfig] = None
-    compilation_config: CompilationConfig = field(default=None,
-                                                  init=True)  # type: ignore
-    kv_transfer_config: KVTransferConfig = field(default=None,
-                                                 init=True)  # type: ignore
+    """Quantization configuration."""
+    compilation_config: CompilationConfig = field(
+        default_factory=CompilationConfig)
+    """`torch.compile` configuration for the model.
+
+    When it is a number (0, 1, 2, 3), it will be interpreted as the
+    optimization level.
+
+    NOTE: level 0 is the default level without any optimization. level 1 and 2
+    are for internal testing only. level 3 is the recommended level for
+    production.
+
+    Following the convention of traditional compilers, using `-O` without space
+    is also supported. `-O3` is equivalent to `-O 3`.
+
+    You can specify the full compilation config like so:
+    `{"level": 3, "cudagraph_capture_sizes": [1, 2, 4, 8]}`
+    """
+    kv_transfer_config: Optional[KVTransferConfig] = None
+    """The configurations for distributed KV cache transfer."""
     kv_events_config: Optional[KVEventsConfig] = None
+    """The configurations for event publishing."""
     # some opaque config, only used to provide additional information
     # for the hash computation, mainly used for testing, debugging or out of
     # tree config registration.
-    additional_config: SupportsHash = field(default=None,
-                                            init=True)  # type: ignore
+    additional_config: Union[dict, SupportsHash] = field(default_factory=dict)
+    """Additional config for specified platform. Different platforms may
+    support different configs. Make sure the configs are valid for the platform
+    you are using. Contents must be hashable."""
     instance_id: str = ""
+    """The ID of the vLLM instance."""
 
     def compute_hash(self) -> str:
         """
@@ -4012,7 +4088,14 @@ class VllmConfig:
         else:
             vllm_factors.append("None")
         if self.additional_config:
-            vllm_factors.append(self.additional_config.compute_hash())
+            if isinstance(additional_config := self.additional_config, dict):
+                additional_config_hash = hashlib.md5(
+                    json.dumps(additional_config, sort_keys=True).encode(),
+                    usedforsecurity=False,
+                ).hexdigest()
+            else:
+                additional_config_hash = additional_config.compute_hash()
+            vllm_factors.append(additional_config_hash)
         else:
             vllm_factors.append("None")
         factors.append(vllm_factors)
diff --git a/vllm/distributed/kv_events.py b/vllm/distributed/kv_events.py
index 960913858..1141a8e53 100644
--- a/vllm/distributed/kv_events.py
+++ b/vllm/distributed/kv_events.py
@@ -5,6 +5,7 @@ import threading
 import time
 from abc import ABC, abstractmethod
 from collections import deque
+from dataclasses import asdict
 from itertools import count
 from queue import Queue
 from typing import Any, Callable, Optional, Union
@@ -284,7 +285,7 @@ class EventPublisherFactory:
         if not config:
             return NullEventPublisher()
 
-        config_dict = config.model_dump()
+        config_dict = asdict(config)
 
         kind = config_dict.pop("publisher", "null")
         config_dict.pop("enable_kv_cache_events")
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index be4be6ed5..0ff6a6fbb 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -7,10 +7,10 @@ import json
 import re
 import threading
 import warnings
-from dataclasses import MISSING, dataclass, fields
+from dataclasses import MISSING, dataclass, fields, is_dataclass
 from itertools import permutations
-from typing import (Any, Callable, Dict, List, Literal, Optional, Type,
-                    TypeVar, Union, cast, get_args, get_origin)
+from typing import (Annotated, Any, Callable, Dict, List, Literal, Optional,
+                    Type, TypeVar, Union, cast, get_args, get_origin)
 
 import torch
 from typing_extensions import TypeIs, deprecated
@@ -36,7 +36,8 @@ from vllm.reasoning import ReasoningParserManager
 from vllm.test_utils import MODEL_WEIGHTS_S3_BUCKET, MODELS_ON_S3
 from vllm.transformers_utils.utils import check_gguf_file
 from vllm.usage.usage_lib import UsageContext
-from vllm.utils import FlexibleArgumentParser, GiB_bytes, is_in_ray_actor
+from vllm.utils import (FlexibleArgumentParser, GiB_bytes, is_in_doc_build,
+                        is_in_ray_actor)
 
 # yapf: enable
 
@@ -48,12 +49,9 @@ TypeHint = Union[type[Any], object]
 TypeHintT = Union[type[T], object]
 
 
-def optional_type(
-        return_type: Callable[[str], T]) -> Callable[[str], Optional[T]]:
+def parse_type(return_type: Callable[[str], T]) -> Callable[[str], T]:
 
-    def _optional_type(val: str) -> Optional[T]:
-        if val == "" or val == "None":
-            return None
+    def _parse_type(val: str) -> T:
         try:
             if return_type is json.loads and not re.match("^{.*}$", val):
                 return cast(T, nullable_kvs(val))
@@ -62,14 +60,24 @@ def optional_type(
             raise argparse.ArgumentTypeError(
                 f"Value {val} cannot be converted to {return_type}.") from e
 
+    return _parse_type
+
+
+def optional_type(
+        return_type: Callable[[str], T]) -> Callable[[str], Optional[T]]:
+
+    def _optional_type(val: str) -> Optional[T]:
+        if val == "" or val == "None":
+            return None
+        return parse_type(return_type)(val)
+
     return _optional_type
 
 
 def union_dict_and_str(val: str) -> Optional[Union[str, dict[str, str]]]:
     if not re.match("^{.*}$", val):
         return str(val)
-    else:
-        return optional_type(json.loads)(val)
+    return optional_type(json.loads)(val)
 
 
 @deprecated(
@@ -144,10 +152,25 @@ def get_kwargs(cls: ConfigType) -> dict[str, Any]:
     cls_docs = get_attr_docs(cls)
     kwargs = {}
     for field in fields(cls):
+        # Get the set of possible types for the field
+        type_hints: set[TypeHint] = set()
+        if get_origin(field.type) in {Union, Annotated}:
+            type_hints.update(get_args(field.type))
+        else:
+            type_hints.add(field.type)
+
+        # If the field is a dataclass, we can use the model_validate_json
+        generator = (th for th in type_hints if is_dataclass(th))
+        dataclass_cls = next(generator, None)
+
         # Get the default value of the field
-        default = field.default
-        if field.default_factory is not MISSING:
-            default = field.default_factory()
+        if field.default is not MISSING:
+            default = field.default
+        elif field.default_factory is not MISSING:
+            if is_dataclass(field.default_factory) and is_in_doc_build():
+                default = {}
+            else:
+                default = field.default_factory()
 
         # Get the help text for the field
         name = field.name
@@ -158,16 +181,17 @@ def get_kwargs(cls: ConfigType) -> dict[str, Any]:
         # Initialise the kwargs dictionary for the field
         kwargs[name] = {"default": default, "help": help}
 
-        # Get the set of possible types for the field
-        type_hints: set[TypeHint] = set()
-        if get_origin(field.type) is Union:
-            type_hints.update(get_args(field.type))
-        else:
-            type_hints.add(field.type)
-
         # Set other kwargs based on the type hints
         json_tip = "\n\nShould be a valid JSON string."
-        if contains_type(type_hints, bool):
+        if dataclass_cls is not None:
+            dataclass_init = lambda x, f=dataclass_cls: f(**json.loads(x))
+            # Special case for configs with a from_cli method
+            if hasattr(dataclass_cls, "from_cli"):
+                from_cli = dataclass_cls.from_cli
+                dataclass_init = lambda x, f=from_cli: f(x)
+            kwargs[name]["type"] = dataclass_init
+            kwargs[name]["help"] += json_tip
+        elif contains_type(type_hints, bool):
             # Creates --no-<name> and --<name> flags
             kwargs[name]["action"] = argparse.BooleanOptionalAction
         elif contains_type(type_hints, Literal):
@@ -202,7 +226,7 @@ def get_kwargs(cls: ConfigType) -> dict[str, Any]:
             kwargs[name]["type"] = union_dict_and_str
         elif contains_type(type_hints, dict):
             # Dict arguments will always be optional
-            kwargs[name]["type"] = optional_type(json.loads)
+            kwargs[name]["type"] = parse_type(json.loads)
             kwargs[name]["help"] += json_tip
         elif (contains_type(type_hints, str)
               or any(is_not_builtin(th) for th in type_hints)):
@@ -771,63 +795,20 @@ class EngineArgs:
         scheduler_group.add_argument("--scheduler-cls",
                                      **scheduler_kwargs["scheduler_cls"])
 
-        # Compilation arguments
-        # compilation_kwargs = get_kwargs(CompilationConfig)
-        compilation_group = parser.add_argument_group(
-            title="CompilationConfig",
-            description=CompilationConfig.__doc__,
-        )
-        compilation_group.add_argument(
-            "--compilation-config",
-            "-O",
-            type=CompilationConfig.from_cli,
-            default=None,
-            help="torch.compile configuration for the model. "
-            "When it is a number (0, 1, 2, 3), it will be "
-            "interpreted as the optimization level.\n"
-            "NOTE: level 0 is the default level without "
-            "any optimization. level 1 and 2 are for internal "
-            "testing only. level 3 is the recommended level "
-            "for production.\n"
-            "To specify the full compilation config, "
-            "use a JSON string, e.g. ``{\"level\": 3, "
-            "\"cudagraph_capture_sizes\": [1, 2, 4, 8]}``\n"
-            "Following the convention of traditional "
-            "compilers, using ``-O`` without space is also "
-            "supported. ``-O3`` is equivalent to ``-O 3``.")
-
-        # KVTransfer arguments
-        # kv_transfer_kwargs = get_kwargs(KVTransferConfig)
-        kv_transfer_group = parser.add_argument_group(
-            title="KVTransferConfig",
-            description=KVTransferConfig.__doc__,
-        )
-        kv_transfer_group.add_argument(
-            "--kv-transfer-config",
-            type=KVTransferConfig.from_cli,
-            default=None,
-            help="The configurations for distributed KV cache "
-            "transfer. Should be a JSON string.")
-        kv_transfer_group.add_argument(
-            '--kv-events-config',
-            type=KVEventsConfig.from_cli,
-            default=None,
-            help='The configurations for event publishing.')
-
         # vLLM arguments
-        # vllm_kwargs = get_kwargs(VllmConfig)
+        vllm_kwargs = get_kwargs(VllmConfig)
         vllm_group = parser.add_argument_group(
             title="VllmConfig",
             description=VllmConfig.__doc__,
         )
-        vllm_group.add_argument(
-            "--additional-config",
-            type=json.loads,
-            default=None,
-            help="Additional config for specified platform in JSON format. "
-            "Different platforms may support different configs. Make sure the "
-            "configs are valid for the platform you are using. The input format"
-            " is like '{\"config_key\":\"config_value\"}'")
+        vllm_group.add_argument("--kv-transfer-config",
+                                **vllm_kwargs["kv_transfer_config"])
+        vllm_group.add_argument('--kv-events-config',
+                                **vllm_kwargs["kv_events_config"])
+        vllm_group.add_argument("--compilation-config", "-O",
+                                **vllm_kwargs["compilation_config"])
+        vllm_group.add_argument("--additional-config",
+                                **vllm_kwargs["additional_config"])
 
         # Other arguments
         parser.add_argument('--use-v2-block-manager',
diff --git a/vllm/entrypoints/llm.py b/vllm/entrypoints/llm.py
index 72ad79bd2..cebddcc8e 100644
--- a/vllm/entrypoints/llm.py
+++ b/vllm/entrypoints/llm.py
@@ -13,7 +13,8 @@ from typing_extensions import TypeVar, deprecated
 
 from vllm.beam_search import (BeamSearchInstance, BeamSearchOutput,
                               BeamSearchSequence, get_beam_search_score)
-from vllm.config import CompilationConfig, ModelDType, TokenizerMode
+from vllm.config import (CompilationConfig, ModelDType, TokenizerMode,
+                         is_init_field)
 from vllm.engine.arg_utils import (EngineArgs, HfOverrides, PoolerConfig,
                                    TaskOption)
 from vllm.engine.llm_engine import LLMEngine
@@ -204,9 +205,13 @@ class LLM:
                 kwargs["worker_cls"] = cloudpickle.dumps(worker_cls)
 
         if compilation_config is not None:
-            if isinstance(compilation_config, (int, dict)):
-                compilation_config_instance = CompilationConfig.from_cli(
-                    str(compilation_config))
+            if isinstance(compilation_config, int):
+                compilation_config_instance = CompilationConfig(
+                    level=compilation_config)
+            elif isinstance(compilation_config, dict):
+                predicate = lambda x: is_init_field(CompilationConfig, x[0])
+                compilation_config_instance = CompilationConfig(
+                    **dict(filter(predicate, compilation_config.items())))
             else:
                 compilation_config_instance = compilation_config
         else:
diff --git a/vllm/platforms/tpu.py b/vllm/platforms/tpu.py
index 2782a3866..d0a5af358 100644
--- a/vllm/platforms/tpu.py
+++ b/vllm/platforms/tpu.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import TYPE_CHECKING, Optional, Tuple, Union
+from typing import TYPE_CHECKING, Optional, Tuple, Union, cast
 
 import torch
 from tpu_info import device
@@ -13,9 +13,10 @@ from vllm.sampling_params import SamplingParams, SamplingType
 from .interface import Platform, PlatformEnum, _Backend
 
 if TYPE_CHECKING:
-    from vllm.config import ModelConfig, VllmConfig
+    from vllm.config import BlockSize, ModelConfig, VllmConfig
     from vllm.pooling_params import PoolingParams
 else:
+    BlockSize = None
     ModelConfig = None
     VllmConfig = None
     PoolingParams = None
@@ -94,7 +95,7 @@ class TpuPlatform(Platform):
         cache_config = vllm_config.cache_config
         # For v0, the default block size is 16.
         if cache_config and cache_config.block_size is None:
-            cache_config.block_size = 16
+            cache_config.block_size = cast(BlockSize, 16)
         compilation_config = vllm_config.compilation_config
 
         # TPU only supports DYNAMO_ONCE compilation level
@@ -118,7 +119,7 @@ class TpuPlatform(Platform):
             from vllm.v1.attention.backends.pallas import (
                 PallasAttentionBackend)
             cache_config.block_size = PallasAttentionBackend.get_page_size(
-                vllm_config)
+                vllm_config)  # type: ignore[assignment]
             min_page_size = PallasAttentionBackend.get_min_page_size(
                 vllm_config)
             if min_page_size > cache_config.block_size:
@@ -128,7 +129,7 @@ class TpuPlatform(Platform):
                     cache_config.block_size,
                     min_page_size,
                 )
-                cache_config.block_size = min_page_size
+                cache_config.block_size = min_page_size  # type: ignore[assignment]
 
         parallel_config = vllm_config.parallel_config
         scheduler_config = vllm_config.scheduler_config
diff --git a/vllm/utils.py b/vllm/utils.py
index 24535196c..6779c5b3f 100644
--- a/vllm/utils.py
+++ b/vllm/utils.py
@@ -1820,6 +1820,14 @@ def get_cuda_view_from_cpu_tensor(cpu_tensor: torch.Tensor) -> torch.Tensor:
     return torch.ops._C.get_cuda_view_from_cpu_tensor(cpu_tensor)
 
 
+def is_in_doc_build() -> bool:
+    try:
+        from sphinx.ext.autodoc.mock import _MockModule
+        return isinstance(zmq, _MockModule)
+    except ModuleNotFoundError:
+        return False
+
+
 def import_from_path(module_name: str, file_path: Union[str, os.PathLike]):
     """
     Import a Python file according to its file path.
-- 
GitLab


From 3b602cdea70f80132a70e051804a1b62cfae925e Mon Sep 17 00:00:00 2001
From: Alexei-V-Ivanov-AMD
 <156011006+Alexei-V-Ivanov-AMD@users.noreply.github.com>
Date: Fri, 9 May 2025 17:35:58 -0500
Subject: [PATCH 260/461] AMD conditional all test execution // new test groups
 (#17556)

Signed-off-by: Alexei V. Ivanov <alexei.ivanov@amd.com>
Signed-off-by: Yida Wu <yidawu@alumni.cmu.edu>
---
 .../scripts/hardware_ci/run-amd-test.sh       | 16 ++++
 .buildkite/test-pipeline.yaml                 | 76 +++++++++++++------
 requirements/rocm-test.txt                    |  2 +
 3 files changed, 69 insertions(+), 25 deletions(-)

diff --git a/.buildkite/scripts/hardware_ci/run-amd-test.sh b/.buildkite/scripts/hardware_ci/run-amd-test.sh
index d29903bf4..97dcc4231 100755
--- a/.buildkite/scripts/hardware_ci/run-amd-test.sh
+++ b/.buildkite/scripts/hardware_ci/run-amd-test.sh
@@ -3,6 +3,9 @@
 # This script runs test inside the corresponding ROCm docker container.
 set -o pipefail
 
+# Export Python path
+export PYTHONPATH=".."
+
 # Print ROCm version
 echo "--- Confirming Clean Initial State"
 while true; do
@@ -74,6 +77,15 @@ HF_MOUNT="/root/.cache/huggingface"
 
 commands=$@
 echo "Commands:$commands"
+
+if [[ $commands == *"pytest -v -s basic_correctness/test_basic_correctness.py"* ]]; then
+  commands=${commands//"pytest -v -s basic_correctness/test_basic_correctness.py"/"VLLM_USE_TRITON_FLASH_ATTN=0 pytest -v -s basic_correctness/test_basic_correctness.py"}
+fi
+
+if [[ $commands == *"pytest -v -s compile/test_basic_correctness.py"* ]]; then
+  commands=${commands//"pytest -v -s compile/test_basic_correctness.py"/"VLLM_USE_TRITON_FLASH_ATTN=0 pytest -v -s compile/test_basic_correctness.py"}
+fi
+
 #ignore certain kernels tests
 if [[ $commands == *" kernels/core"* ]]; then
   commands="${commands} \
@@ -161,6 +173,8 @@ fi
 
 
 PARALLEL_JOB_COUNT=8
+MYPYTHONPATH=".."
+
 # check if the command contains shard flag, we will run all shards in parallel because the host have 8 GPUs. 
 if [[ $commands == *"--shard-id="* ]]; then
   # assign job count as the number of shards used   
@@ -181,6 +195,7 @@ if [[ $commands == *"--shard-id="* ]]; then
         -e AWS_SECRET_ACCESS_KEY \
         -v "${HF_CACHE}:${HF_MOUNT}" \
         -e "HF_HOME=${HF_MOUNT}" \
+        -e "PYTHONPATH=${MYPYTHONPATH}" \
         --name "${container_name}_${GPU}" \
         "${image_name}" \
         /bin/bash -c "${commands_gpu}" \
@@ -211,6 +226,7 @@ else
           -e AWS_SECRET_ACCESS_KEY \
           -v "${HF_CACHE}:${HF_MOUNT}" \
           -e "HF_HOME=${HF_MOUNT}" \
+          -e "PYTHONPATH=${MYPYTHONPATH}" \
           --name "${container_name}" \
           "${image_name}" \
           /bin/bash -c "${commands}"
diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 01d04759f..f7e4af4f2 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -32,6 +32,7 @@ steps:
 ##### fast check tests  #####
 
 - label: Documentation Build # 2min
+  mirror_hardwares: [amdexperimental]
   working_dir: "/vllm-workspace/test_docs/docs"
   fast_check: true
   no_gpu: True
@@ -42,6 +43,7 @@ steps:
   - grep \"sig sig-object py\" build/html/api/vllm/vllm.sampling_params.html
 
 - label: Async Engine, Inputs, Utils, Worker Test # 24min
+  mirror_hardwares: [amdexperimental]
   source_file_dependencies:
   - vllm/
   - tests/mq_llm_engine
@@ -62,6 +64,7 @@ steps:
   - pytest -v -s worker # Worker
 
 - label: Python-only Installation Test
+  mirror_hardwares: [amdexperimental]
   source_file_dependencies:
   - tests/standalone_tests/python_only_compile.sh
   - setup.py
@@ -69,7 +72,7 @@ steps:
   - bash standalone_tests/python_only_compile.sh
 
 - label: Basic Correctness Test # 30min
-  #mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental, amdproduction]
   fast_check: true
   torch_nightly: true
   source_file_dependencies:
@@ -86,6 +89,7 @@ steps:
   - VLLM_TEST_ENABLE_ARTIFICIAL_PREEMPT=1 pytest -v -s basic_correctness/test_preemption.py
 
 - label: Chunked Prefill Test
+  mirror_hardwares: [amdexperimental]
   source_file_dependencies:
   - vllm/
   - tests/basic_correctness/test_chunked_prefill
@@ -94,7 +98,7 @@ steps:
   - VLLM_ATTENTION_BACKEND=FLASH_ATTN pytest -v -s basic_correctness/test_chunked_prefill.py
 
 - label: Core Test # 10min
-  mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental, amdproduction]
   fast_check: true
   source_file_dependencies:
   - vllm/core
@@ -104,10 +108,10 @@ steps:
   - pytest -v -s core
 
 - label: Entrypoints Test # 40min
+  mirror_hardwares: [amdexperimental]
   working_dir: "/vllm-workspace/tests"
   fast_check: true
   torch_nightly: true
-  #mirror_hardwares: [amd]
   source_file_dependencies:
   - vllm/
   - tests/entrypoints/llm
@@ -126,6 +130,7 @@ steps:
   - VLLM_USE_V1=0 pytest -v -s entrypoints/offline_mode # Needs to avoid interference with other tests
 
 - label: Distributed Tests (4 GPUs) # 10min
+  mirror_hardwares: [amdexperimental]
   working_dir: "/vllm-workspace/tests"
   num_gpus: 4
   source_file_dependencies:
@@ -158,7 +163,7 @@ steps:
   - popd
 
 - label: Metrics, Tracing Test # 10min
-  mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental, amdproduction]
   num_gpus: 2
   source_file_dependencies:
   - vllm/
@@ -172,7 +177,7 @@ steps:
 #####  1 GPU test  #####
 
 - label: Regression Test # 5min
-  #mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental, amdproduction]
   source_file_dependencies:
   - vllm/
   - tests/test_regression
@@ -182,7 +187,7 @@ steps:
   working_dir: "/vllm-workspace/tests" # optional
 
 - label: Engine Test # 10min
-  mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental, amdproduction]
   source_file_dependencies:
   - vllm/
   - tests/engine
@@ -196,7 +201,7 @@ steps:
   - pytest -v -s tokenization
 
 - label: V1 Test
-  #mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental]
   source_file_dependencies:
     - vllm/
     - tests/v1
@@ -221,8 +226,8 @@ steps:
     - pytest -v -s entrypoints/openai/correctness/test_lmeval.py::test_lm_eval_accuracy_v1_engine
 
 - label: Examples Test # 25min
+  mirror_hardwares: [amdexperimental]
   working_dir: "/vllm-workspace/examples"
-  #mirror_hardwares: [amd]
   source_file_dependencies:
   - vllm/entrypoints
   - examples/
@@ -246,7 +251,7 @@ steps:
     - VLLM_USE_V1=0 python3 offline_inference/profiling.py --model facebook/opt-125m run_num_steps --num-steps 2
 
 - label: Prefix Caching Test # 9min
-  mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental, amdproduction]
   source_file_dependencies:
   - vllm/
   - tests/prefix_caching
@@ -254,6 +259,7 @@ steps:
     - pytest -v -s prefix_caching
 
 - label: Samplers Test # 36min
+  mirror_hardwares: [amdexperimental]
   source_file_dependencies:
   - vllm/model_executor/layers
   - vllm/sampling_metadata.py
@@ -264,7 +270,7 @@ steps:
     - VLLM_USE_FLASHINFER_SAMPLER=1 pytest -v -s samplers
 
 - label: LogitsProcessor Test # 5min
-  mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental, amdproduction]
   source_file_dependencies:
   - vllm/model_executor/layers
   - vllm/model_executor/guided_decoding
@@ -275,6 +281,7 @@ steps:
     - pytest -v -s model_executor/test_guided_processors.py
 
 - label: Speculative decoding tests # 40min
+  mirror_hardwares: [amdexperimental]
   source_file_dependencies:
   - vllm/spec_decode
   - tests/spec_decode
@@ -285,7 +292,7 @@ steps:
     - pytest -v -s spec_decode/e2e/test_eagle_correctness.py
 
 - label: LoRA Test %N # 15min each
-  #mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental]
   source_file_dependencies:
   - vllm/lora
   - tests/lora
@@ -293,6 +300,7 @@ steps:
   parallelism: 4
 
 - label: PyTorch Compilation Unit Tests
+  mirror_hardwares: [amdexperimental, amdproduction]
   torch_nightly: true
   source_file_dependencies:
     - vllm/
@@ -303,6 +311,7 @@ steps:
     - pytest -v -s compile/test_sequence_parallelism.py
 
 - label: PyTorch Fullgraph Smoke Test # 9min
+  mirror_hardwares: [amdexperimental, amdproduction]
   torch_nightly: true
   source_file_dependencies:
   - vllm/
@@ -314,6 +323,7 @@ steps:
   - pytest -v -s compile/piecewise/test_toy_llama.py
 
 - label: PyTorch Fullgraph Test # 18min
+  mirror_hardwares: [amdexperimental, amdproduction]
   torch_nightly: true
   source_file_dependencies:
   - vllm/
@@ -322,7 +332,7 @@ steps:
   - pytest -v -s compile/test_full_graph.py
 
 - label: Kernels Core Operation Test
-  mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental, amdproduction]
   source_file_dependencies:
   - csrc/
   - tests/kernels/core
@@ -330,7 +340,7 @@ steps:
     - pytest -v -s kernels/core
 
 - label: Kernels Attention Test %N
-  mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental, amdproduction]
   source_file_dependencies:
   - csrc/attention/
   - vllm/attention
@@ -341,7 +351,7 @@ steps:
   parallelism: 2
 
 - label: Kernels Quantization Test %N
-  mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental, amdproduction]
   source_file_dependencies:
   - csrc/quantization/
   - vllm/model_executor/layers/quantization
@@ -351,7 +361,7 @@ steps:
   parallelism: 2
 
 - label: Kernels MoE Test
-  #mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental]
   source_file_dependencies:
   - csrc/moe/
   - tests/kernels/moe
@@ -360,7 +370,7 @@ steps:
     - pytest -v -s kernels/moe
 
 - label: Kernels Mamba Test
-  #mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental]
   source_file_dependencies:
   - csrc/mamba/
   - tests/kernels/mamba
@@ -368,7 +378,7 @@ steps:
     - pytest -v -s kernels/mamba
 
 - label: Tensorizer Test # 11min
-  # mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental]
   soft_fail: true
   source_file_dependencies:
   - vllm/model_executor/model_loader
@@ -379,14 +389,15 @@ steps:
     - pytest -v -s tensorizer_loader
 
 - label: Benchmarks # 9min
+  mirror_hardwares: [amdexperimental, amdproduction]
   working_dir: "/vllm-workspace/.buildkite"
-  mirror_hardwares: [amd]
   source_file_dependencies:
   - benchmarks/
   commands:
   - bash scripts/run-benchmarks.sh
 
 - label: Benchmarks CLI Test # 10min
+  mirror_hardwares: [amdexperimental, amdproduction]
   source_file_dependencies:
   - vllm/
   - tests/benchmarks/
@@ -394,6 +405,7 @@ steps:
   - pytest -v -s benchmarks/
 
 - label: Quantization Test
+  mirror_hardwares: [amdexperimental]
   source_file_dependencies:
   - csrc/
   - vllm/model_executor/layers/quantization
@@ -402,6 +414,7 @@ steps:
   - VLLM_TEST_FORCE_LOAD_FORMAT=auto pytest -v -s quantization
 
 - label: LM Eval Small Models # 53min
+  mirror_hardwares: [amdexperimental]
   working_dir: "/vllm-workspace/.buildkite/lm-eval-harness"
   source_file_dependencies:
   - csrc/
@@ -411,6 +424,7 @@ steps:
   - pytest -s -v test_lm_eval_correctness.py --config-list-file=configs/models-small.txt --tp-size=1
 
 - label: OpenAI API correctness
+  mirror_hardwares: [amdexperimental]
   source_file_dependencies:
   - csrc/
   - vllm/entrypoints/openai/
@@ -419,6 +433,7 @@ steps:
   - pytest -s entrypoints/openai/correctness/
 
 - label: Encoder Decoder tests # 5min
+  mirror_hardwares: [amdexperimental]
   source_file_dependencies:
   - vllm/
   - tests/encoder_decoder
@@ -426,8 +441,8 @@ steps:
     - pytest -v -s encoder_decoder
 
 - label: OpenAI-Compatible Tool Use # 20 min
+  mirror_hardwares: [amdexperimental]
   fast_check: false
-  #mirror_hardwares: [ amd ]
   source_file_dependencies:
     - vllm/
     - tests/tool_use
@@ -439,6 +454,7 @@ steps:
 #####  models test  #####
 
 - label: Basic Models Test # 24min
+  mirror_hardwares: [amdexperimental]
   torch_nightly: true
   source_file_dependencies:
   - vllm/
@@ -454,7 +470,7 @@ steps:
     - VLLM_USE_V1=0 pytest -v -s models/test_initialization.py -k 'plamo2'
 
 - label: Language Models Test (Standard)
-  #mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental]
   source_file_dependencies:
   - vllm/
   - tests/models/language
@@ -464,6 +480,7 @@ steps:
     - pytest -v -s models/language -m core_model
 
 - label: Language Models Test (Extended)
+  mirror_hardwares: [amdexperimental]
   optional: true
   source_file_dependencies:
   - vllm/
@@ -474,7 +491,7 @@ steps:
     - pytest -v -s models/language -m 'not core_model'
 
 - label: Multi-Modal Models Test (Standard)
-  #mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental]
   source_file_dependencies:
   - vllm/
   - tests/models/multimodal
@@ -485,6 +502,7 @@ steps:
     - cd .. && pytest -v -s tests/models/multimodal/generation/test_whisper.py -m core_model  # Otherwise, mp_method="spawn" doesn't work
 
 - label: Multi-Modal Models Test (Extended) 1
+  mirror_hardwares: [amdexperimental]
   optional: true
   source_file_dependencies:
   - vllm/
@@ -494,6 +512,7 @@ steps:
     - pytest -v -s --ignore models/multimodal/generation/test_common.py --ignore models/multimodal/processing models/multimodal -m 'not core_model'
 
 - label: Multi-Modal Models Test (Extended) 2
+  mirror_hardwares: [amdexperimental]
   optional: true
   source_file_dependencies:
   - vllm/
@@ -503,6 +522,7 @@ steps:
     - pytest -v -s models/multimodal/generation/test_common.py -m 'split(group=0) and not core_model'
 
 - label: Multi-Modal Models Test (Extended) 3
+  mirror_hardwares: [amdexperimental]
   optional: true
   source_file_dependencies:
   - vllm/
@@ -512,7 +532,7 @@ steps:
     - pytest -v -s models/multimodal/generation/test_common.py -m 'split(group=1) and not core_model'
 
 - label: Quantized Models Test
-  #mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental]
   source_file_dependencies:
   - vllm/model_executor/layers/quantization
   - tests/models/quantization
@@ -521,7 +541,7 @@ steps:
 
 # This test is used only in PR development phase to test individual models and should never run on main
 - label: Custom Models Test
-  mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental, amdproduction]
   optional: true
   commands:
     - echo 'Testing custom models...'
@@ -533,7 +553,7 @@ steps:
 #####  multi gpus test  #####
 
 - label: Distributed Comm Ops Test # 7min
-  mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental, amdproduction]
   working_dir: "/vllm-workspace/tests"
   num_gpus: 2
   source_file_dependencies:
@@ -544,6 +564,7 @@ steps:
   - pytest -v -s distributed/test_shm_broadcast.py
 
 - label: 2 Node Tests (4 GPUs in total) # 16min
+  mirror_hardwares: [amdexperimental]
   working_dir: "/vllm-workspace/tests"
   num_gpus: 2
   num_nodes: 2
@@ -562,7 +583,7 @@ steps:
     - VLLM_TEST_SAME_HOST=0 torchrun --nnodes 2 --nproc-per-node=2 --rdzv_backend=c10d --rdzv_endpoint=192.168.10.10 distributed/test_same_node.py | grep 'Same node test passed'
 
 - label: Distributed Tests (2 GPUs) # 40min
-  #mirror_hardwares: [amd]
+  mirror_hardwares: [amdexperimental]
   working_dir: "/vllm-workspace/tests"
   num_gpus: 2
   source_file_dependencies:
@@ -599,6 +620,7 @@ steps:
   - CUDA_VISIBLE_DEVICES=0,1 pytest -v -s v1/shutdown
 
 - label: Plugin Tests (2 GPUs) # 40min
+  mirror_hardwares: [amdexperimental]
   working_dir: "/vllm-workspace/tests"
   num_gpus: 2
   source_file_dependencies:
@@ -618,6 +640,7 @@ steps:
   - pytest -v -s models/test_oot_registration.py # it needs a clean process
 
 - label: Multi-step Tests (4 GPUs) # 36min
+  mirror_hardwares: [amdexperimental]
   working_dir: "/vllm-workspace/tests"
   num_gpus: 4
   source_file_dependencies:
@@ -638,6 +661,7 @@ steps:
   - pytest -v -s multi_step/test_correctness_llm.py
 
 - label: Pipeline Parallelism Test # 45min
+  mirror_hardwares: [amdexperimental, amdproduction]
   working_dir: "/vllm-workspace/tests"
   num_gpus: 4
   source_file_dependencies:
@@ -651,6 +675,7 @@ steps:
   - pytest -v -s distributed/test_pipeline_parallel.py
 
 - label: LoRA TP Test (Distributed)
+  mirror_hardwares: [amdexperimental, amdproduction]
   num_gpus: 4
   source_file_dependencies:
   - vllm/lora
@@ -666,6 +691,7 @@ steps:
 
 
 - label: Weight Loading Multiple GPU Test  # 33min
+  mirror_hardwares: [amdexperimental]
   working_dir: "/vllm-workspace/tests"
   num_gpus: 2
   source_file_dependencies:
diff --git a/requirements/rocm-test.txt b/requirements/rocm-test.txt
index 52fbf787f..abd4212c6 100644
--- a/requirements/rocm-test.txt
+++ b/requirements/rocm-test.txt
@@ -1,3 +1,5 @@
+# Common dependencies
+-r common.txt
 
 # entrypoints test
 # librosa==0.10.2.post1 # required by audio tests in entrypoints/openai
-- 
GitLab


From 0c0fdae84f1da5e45518aafc7b32e8139055adae Mon Sep 17 00:00:00 2001
From: Pavani Majety <pmajety@nvidia.com>
Date: Fri, 9 May 2025 16:24:41 -0700
Subject: [PATCH 261/461] [Hardware/NVIDIA/Kernel] Enable
 nvidia/DeepSeek-R1-FP4 Model (#16362)

---
 CMakeLists.txt                                |   7 +-
 .../kernels/benchmark_cutlass_fp4_moe.py      | 408 ++++++++++++++++++
 csrc/ops.h                                    |  12 +
 .../cutlass_w8a8/scaled_mm_entry.cu           |  18 +-
 .../fp4/nvfp4_blockwise_moe_kernel.cu         | 402 +++++++++++++++++
 csrc/quantization/fp4/nvfp4_experts_quant.cu  | 404 +++++++++++++++++
 csrc/quantization/fp4/nvfp4_quant_entry.cu    |  24 +-
 csrc/torch_bindings.cpp                       |  15 +
 tests/kernels/moe/test_nvfp4_moe.py           | 144 +++++++
 tests/kernels/quantization/nvfp4_utils.py     |  66 +++
 .../quantization/test_nvfp4_scaled_mm.py      |  98 +----
 vllm/_custom_ops.py                           |  98 ++++-
 .../layers/fused_moe/__init__.py              |   3 +-
 .../layers/fused_moe/cutlass_moe.py           | 126 +++++-
 vllm/model_executor/layers/fused_moe/layer.py |  23 +-
 .../layers/quantization/modelopt.py           | 258 ++++++++++-
 16 files changed, 1994 insertions(+), 112 deletions(-)
 create mode 100644 benchmarks/kernels/benchmark_cutlass_fp4_moe.py
 create mode 100644 csrc/quantization/fp4/nvfp4_blockwise_moe_kernel.cu
 create mode 100644 csrc/quantization/fp4/nvfp4_experts_quant.cu
 create mode 100644 tests/kernels/moe/test_nvfp4_moe.py
 create mode 100644 tests/kernels/quantization/nvfp4_utils.py

diff --git a/CMakeLists.txt b/CMakeLists.txt
index cad9f4428..270c48000 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -288,6 +288,7 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
     "csrc/quantization/cutlass_w8a8/scaled_mm_entry.cu"
     "csrc/quantization/fp4/nvfp4_quant_entry.cu"
     "csrc/quantization/fp4/nvfp4_scaled_mm_entry.cu"
+    "csrc/quantization/fp4/nvfp4_blockwise_moe_kernel.cu"
     "csrc/sparse/cutlass/sparse_scaled_mm_entry.cu"
     "csrc/cutlass_extensions/common.cpp"
     "csrc/attention/mla/cutlass_mla_entry.cu")
@@ -495,7 +496,9 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
   if(${CMAKE_CUDA_COMPILER_VERSION} VERSION_GREATER 12.8 AND FP4_ARCHS)
     set(SRCS
       "csrc/quantization/fp4/nvfp4_quant_kernels.cu"
-      "csrc/quantization/fp4/nvfp4_scaled_mm_kernels.cu")
+      "csrc/quantization/fp4/nvfp4_experts_quant.cu"
+      "csrc/quantization/fp4/nvfp4_scaled_mm_kernels.cu"
+      "csrc/quantization/fp4/nvfp4_blockwise_moe_kernel.cu")
     set_gencode_flags_for_srcs(
       SRCS "${SRCS}"
       CUDA_ARCHS "${FP4_ARCHS}")
@@ -533,7 +536,7 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
   # The MoE kernel cutlass_moe_mm requires CUDA 12.3 or later (and only works
   # on Hopper). get_cutlass_moe_mm_data should only be compiled if it's possible
   # to compile MoE kernels that use its output.
-  cuda_archs_loose_intersection(SCALED_MM_ARCHS "9.0a;" "${CUDA_ARCHS}")
+  cuda_archs_loose_intersection(SCALED_MM_ARCHS "9.0a;10.0a" "${CUDA_ARCHS}")
   if(${CMAKE_CUDA_COMPILER_VERSION} VERSION_GREATER_EQUAL 12.3 AND SCALED_MM_ARCHS)
     set(SRCS "csrc/quantization/cutlass_w8a8/moe/grouped_mm_c3x.cu"
              "csrc/quantization/cutlass_w8a8/moe/moe_data.cu")
diff --git a/benchmarks/kernels/benchmark_cutlass_fp4_moe.py b/benchmarks/kernels/benchmark_cutlass_fp4_moe.py
new file mode 100644
index 000000000..0d091b47c
--- /dev/null
+++ b/benchmarks/kernels/benchmark_cutlass_fp4_moe.py
@@ -0,0 +1,408 @@
+# SPDX-License-Identifier: Apache-2.0
+"""
+Benchmark the performance of the cutlass_moe_fp4 kernel vs the triton_moe
+kernel. The cutlass_moe_fp4 kernel takes in fp4 quantized weights and 16-bit
+activations. The triton_moe kernel takes in fp8 weights(tensor scaled to fp8)
+and 16-bit activations.
+"""
+import nvtx
+import torch
+import torch.utils.benchmark as benchmark
+
+from vllm import _custom_ops as ops
+from vllm.config import ParallelConfig, VllmConfig, set_current_vllm_config
+from vllm.model_executor.layers.fused_moe.cutlass_moe import cutlass_moe_fp4
+from vllm.model_executor.layers.fused_moe.fused_moe import (fused_experts,
+                                                            fused_topk)
+from vllm.scalar_type import scalar_types
+from vllm.utils import FlexibleArgumentParser
+
+WEIGHT_SHAPES_MOE = {
+    "nvidia/DeepSeek-R1-FP4": [
+        [256, 8, 2048, 7168],
+    ],
+}
+
+DEFAULT_MODELS = [
+    "nvidia/DeepSeek-R1-FP4",
+]
+
+DEFAULT_BATCH_SIZES = [4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048]
+DEFAULT_TP_SIZES = [1]
+
+PER_ACT_TOKEN_OPTS = [False]
+PER_OUT_CH_OPTS = [False]
+FLOAT4_E2M1_MAX = scalar_types.float4_e2m1f.max()
+FLOAT8_E4M3_MAX = torch.finfo(torch.float8_e4m3fn).max
+
+
+def to_fp8(tensor: torch.Tensor):
+    finfo = torch.finfo(torch.float8_e4m3fn)
+    return torch.round(tensor.clamp(
+        min=finfo.min, max=finfo.max)).to(dtype=torch.float8_e4m3fn)
+
+
+def bench_run(results: list[benchmark.Measurement], model: str,
+              num_experts: int, topk: int, per_act_token: bool,
+              per_out_ch: bool, mkn: tuple[int, int, int]):
+    label = "NVFP4 Blockscaled CUTLASS MOE vs FP8 Tensor Scaled Triton"
+
+    sub_label = (
+        "{}, num_experts={}, topk={}, per_act_token={} per_out_ch={}, "
+        "MKN=({})".format(model, num_experts, topk, per_act_token, per_out_ch,
+                          mkn))
+
+    print(f"Testing: {sub_label}")
+
+    (m, k, n) = mkn
+
+    dtype = torch.half
+    device = "cuda"
+    a = torch.randn((m, k), device=device, dtype=dtype) / 10
+    w1 = torch.randn((num_experts, 2 * n, k), device=device, dtype=dtype) / 10
+    w2 = torch.randn((num_experts, k, n), device=device, dtype=dtype) / 10
+
+    _, a_fp8_scale = ops.scaled_fp8_quant(a)
+
+    w1_fp8q = torch.empty((num_experts, 2 * n, k),
+                          device=device,
+                          dtype=torch.float8_e4m3fn)
+    w2_fp8q = torch.empty((num_experts, k, n),
+                          device=device,
+                          dtype=torch.float8_e4m3fn)
+    w1_fp8scale = torch.empty((num_experts, 1, 1),
+                              device=device,
+                              dtype=torch.float32)
+    w2_fp8scale = torch.empty((num_experts, 1, 1),
+                              device=device,
+                              dtype=torch.float32)
+
+    for expert in range(num_experts):
+        w1_fp8q[expert], w1_fp8scale[expert] = ops.scaled_fp8_quant(w1[expert])
+        w2_fp8q[expert], w2_fp8scale[expert] = ops.scaled_fp8_quant(w2[expert])
+
+    w1_fp8q_notransp = w1_fp8q.clone()
+    w2_fp8q_notransp = w2_fp8q.clone()
+    w1_fp8q = w1_fp8q.transpose(1, 2)
+    w2_fp8q = w2_fp8q.transpose(1, 2)
+
+    score = torch.randn((m, num_experts), device=device, dtype=dtype)
+
+    topk_weights, topk_ids = fused_topk(a, score, topk, renormalize=False)
+
+    quant_blocksize = 16
+    w1_blockscale = torch.empty((num_experts, 2 * n, k // quant_blocksize),
+                                device=device,
+                                dtype=torch.float8_e4m3fn)
+    w2_blockscale = torch.empty((num_experts, k, n // quant_blocksize),
+                                device=device,
+                                dtype=torch.float8_e4m3fn)
+
+    # n_b_scales = 2 * n if per_out_ch else 1
+    # k_b_scales = k if per_out_ch else 1
+    w1_fp4 = torch.empty((num_experts, 2 * n, k // 2),
+                         device=device,
+                         dtype=torch.uint8)
+    w2_fp4 = torch.empty((num_experts, k, n // 2),
+                         device=device,
+                         dtype=torch.uint8)
+
+    w1_gs = torch.empty((num_experts, ), device=device, dtype=torch.float32)
+    w2_gs = torch.empty((num_experts, ), device=device, dtype=torch.float32)
+    a1_gs = torch.ones((num_experts, ), device=device, dtype=torch.float32)
+    a2_gs = torch.ones((num_experts, ), device=device, dtype=torch.float32)
+
+    for expert in range(num_experts):
+        w1_e = w1[expert]
+        w2_e = w2[expert]
+        w1_amax = torch.abs(w1_e).max().to(torch.float32)
+        w2_amax = torch.abs(w2_e).max().to(torch.float32)
+        w1_gs[expert] = FLOAT8_E4M3_MAX * FLOAT4_E2M1_MAX / w1_amax
+        w2_gs[expert] = FLOAT8_E4M3_MAX * FLOAT4_E2M1_MAX / w2_amax
+
+        w1_fp4[expert], w1_blockscale[expert] = ops.scaled_fp4_quant(
+            w1_e, w1_gs[expert])
+
+        w2_fp4[expert], w2_blockscale[expert] = ops.scaled_fp4_quant(
+            w2_e, w2_gs[expert])
+
+    def run_triton_moe(a: torch.Tensor, w1: torch.Tensor, w2: torch.Tensor,
+                       topk_weights: torch.Tensor, topk_ids: torch.Tensor,
+                       w1_scale: torch.Tensor, w2_scale: torch.Tensor,
+                       a_fp8_scale: torch.Tensor, num_repeats: int):
+        for _ in range(num_repeats):
+            fused_experts(a,
+                          w1,
+                          w2,
+                          topk_weights,
+                          topk_ids,
+                          use_fp8_w8a8=True,
+                          w1_scale=w1_scale,
+                          w2_scale=w2_scale,
+                          a1_scale=a_fp8_scale)
+
+    def run_cutlass_moe_fp4(a: torch.Tensor, w1_fp4: torch.Tensor,
+                            w2_fp4: torch.Tensor, w1_blockscale: torch.Tensor,
+                            w2_blockscale: torch.Tensor, w1_gs: torch.Tensor,
+                            w2_gs: torch.Tensor, a1_gs: torch.Tensor,
+                            a2_gs: torch.Tensor, topk_weights: torch.Tensor,
+                            topk_ids: torch.Tensor, m: int, n: int, k: int,
+                            e: int, device: torch.device, num_repeats: int):
+        for _ in range(num_repeats):
+            with nvtx.annotate("cutlass_moe_fp4", color="green"):
+                cutlass_moe_fp4(a=a,
+                                a1_gscale=a1_gs,
+                                a2_gscale=a2_gs,
+                                w1_fp4=w1_fp4,
+                                w1_blockscale=w1_blockscale,
+                                w1_alphas=w1_gs,
+                                w2_fp4=w2_fp4,
+                                w2_blockscale=w2_blockscale,
+                                w2_alphas=w2_gs,
+                                topk_weights=topk_weights,
+                                topk_ids=topk_ids,
+                                m=m,
+                                n=n,
+                                k=k,
+                                e=num_experts,
+                                device=device)
+
+    def run_cutlass_from_graph(
+            a: torch.Tensor, a1_gscale: torch.Tensor, w1_fp4: torch.Tensor,
+            w1_blockscale: torch.Tensor, w1_alphas: torch.Tensor,
+            a2_gscale: torch.Tensor, w2_fp4: torch.Tensor,
+            w2_blockscale: torch.Tensor, w2_alphas: torch.Tensor,
+            topk_weights: torch.Tensor, topk_ids: torch.Tensor, m: int, n: int,
+            k: int, e: int, device: torch.device):
+        with set_current_vllm_config(
+                VllmConfig(parallel_config=ParallelConfig(
+                    pipeline_parallel_size=1))):
+            return cutlass_moe_fp4(a=a,
+                                   a1_gscale=a1_gs,
+                                   w1_fp4=w1_fp4,
+                                   w1_blockscale=w1_blockscale,
+                                   w1_alphas=w1_alphas,
+                                   a2_gscale=a2_gs,
+                                   w2_fp4=w2_fp4,
+                                   w2_blockscale=w2_blockscale,
+                                   w2_alphas=w2_alphas,
+                                   topk_weights=topk_weights,
+                                   topk_ids=topk_ids,
+                                   m=m,
+                                   n=n,
+                                   k=k,
+                                   e=num_experts,
+                                   device=device)
+
+    def run_triton_from_graph(a: torch.Tensor, w1: torch.Tensor,
+                              w2: torch.Tensor, topk_weights: torch.Tensor,
+                              topk_ids: torch.Tensor, w1_scale: torch.Tensor,
+                              w2_scale: torch.Tensor,
+                              a_fp8_scale: torch.Tensor):
+        with set_current_vllm_config(
+                VllmConfig(parallel_config=ParallelConfig(
+                    pipeline_parallel_size=1))):
+            return fused_experts(a,
+                                 w1,
+                                 w2,
+                                 topk_weights,
+                                 topk_ids,
+                                 use_fp8_w8a8=True,
+                                 w1_scale=w1_scale,
+                                 w2_scale=w2_scale,
+                                 a1_scale=a_fp8_scale)
+
+    def replay_graph(graph, num_repeats):
+        for _ in range(num_repeats):
+            graph.replay()
+        torch.cuda.synchronize()
+
+    cutlass_stream = torch.cuda.Stream()
+    cutlass_graph = torch.cuda.CUDAGraph()
+    with torch.cuda.graph(cutlass_graph, stream=cutlass_stream):
+        run_cutlass_from_graph(a=a,
+                               a1_gscale=a1_gs,
+                               w1_fp4=w1_fp4,
+                               w1_blockscale=w1_blockscale,
+                               w1_alphas=w1_gs,
+                               a2_gscale=a2_gs,
+                               w2_fp4=w2_fp4,
+                               w2_blockscale=w2_blockscale,
+                               w2_alphas=w2_gs,
+                               topk_weights=topk_weights,
+                               topk_ids=topk_ids,
+                               m=m,
+                               n=n,
+                               k=k,
+                               e=num_experts,
+                               device=device)
+    torch.cuda.synchronize()
+
+    triton_stream = torch.cuda.Stream()
+    triton_graph = torch.cuda.CUDAGraph()
+    with torch.cuda.graph(triton_graph, stream=triton_stream):
+        run_triton_from_graph(a, w1_fp8q_notransp, w2_fp8q_notransp,
+                              topk_weights, topk_ids, w1_fp8scale, w2_fp8scale,
+                              a_fp8_scale)
+    torch.cuda.synchronize()
+
+    min_run_time = 5
+    num_warmup = 5
+    num_runs = 25
+
+    globals = {
+        # Baseline params
+        "w1": w1,
+        "w2": w2,
+        "score": score,
+        "topk": topk,
+        "w1_fp8q_notransp": w1_fp8q_notransp,
+        "w2_fp8q_notransp": w2_fp8q_notransp,
+        "w1_fp8scale": w1_fp8scale,
+        "w2_fp8scale": w2_fp8scale,
+        "a_fp8_scale": a_fp8_scale,
+        # Cutlass params
+        "a": a,
+        "a1_gscale": a1_gs,
+        "w1_fp4": w1_fp4,
+        "w1_blockscale": w1_blockscale,
+        "w1_alphas": w1_gs,
+        "a2_gscale": a2_gs,
+        "w2_fp4": w2_fp4,
+        "w2_blockscale": w2_blockscale,
+        "w2_alphas": w2_gs,
+        "topk_weights": topk_weights,
+        "topk_ids": topk_ids,
+        "m": m,
+        "n": n,
+        "k": k,
+        "e": num_experts,
+        "device": device,
+        # cuda graph params
+        "cutlass_graph": cutlass_graph,
+        "triton_graph": triton_graph,
+        # Gen params
+        "num_runs": num_runs,
+        # Kernels
+        "run_triton_moe": run_triton_moe,
+        "run_cutlass_moe_fp4": run_cutlass_moe_fp4,
+        "replay_graph": replay_graph,
+    }
+
+    # Warmup
+    run_triton_moe(a, w1_fp8q_notransp, w2_fp8q_notransp, topk_weights,
+                   topk_ids, w1_fp8scale, w2_fp8scale, a_fp8_scale, num_warmup)
+
+    results.append(
+        benchmark.Timer(
+            stmt=
+            "run_triton_moe(a, w1_fp8q_notransp, w2_fp8q_notransp, topk_weights, topk_ids, w1_fp8scale, w2_fp8scale, a_fp8_scale, num_runs)",  # noqa: E501
+            globals=globals,
+            label=label,
+            sub_label=sub_label,
+            description="triton_moe",
+        ).blocked_autorange(min_run_time=min_run_time))
+
+    # Warmup
+    replay_graph(triton_graph, num_warmup)
+
+    results.append(
+        benchmark.Timer(
+            stmt="replay_graph(triton_graph, num_runs)",
+            globals=globals,
+            label=label,
+            sub_label=sub_label,
+            description="triton_moe_cuda_graphs",
+        ).blocked_autorange(min_run_time=min_run_time))
+
+    # Warmup
+
+    run_cutlass_moe_fp4(a, w1_fp4, w2_fp4, w1_blockscale, w2_blockscale, w1_gs,
+                        w2_gs, a1_gs, a2_gs, topk_weights, topk_ids, m, n, k,
+                        num_experts, device, num_warmup)
+
+    results.append(
+        benchmark.Timer(
+            stmt=
+            "run_cutlass_moe_fp4(a, w1_fp4, w2_fp4, w1_blockscale, w2_blockscale, w1_alphas, w2_alphas, a1_gscale, a2_gscale, topk_weights, topk_ids, m, n, k, e, device, num_runs)",  # noqa: E501
+            globals=globals,
+            label=label,
+            sub_label=sub_label,
+            description="cutlass_moe_fp4",
+        ).blocked_autorange(min_run_time=min_run_time))
+
+    # Warmup
+    replay_graph(cutlass_graph, num_warmup)
+
+    results.append(
+        benchmark.Timer(
+            stmt="replay_graph(cutlass_graph, num_runs)",
+            globals=globals,
+            label=label,
+            sub_label=sub_label,
+            description="cutlass_moe_fp4_cuda_graphs",
+        ).blocked_autorange(min_run_time=min_run_time))
+
+
+def main(args):
+    print("Benchmarking models:")
+    for i, model in enumerate(args.models):
+        print(f"[{i}]  {model}")
+
+    results: list[benchmark.Measurement] = []
+
+    for model in args.models:
+        for tp in args.tp_sizes:
+            for layer in WEIGHT_SHAPES_MOE[model]:
+                num_experts = layer[0]
+                topk = layer[1]
+                size_k = layer[2]
+                size_n = layer[3] // tp
+
+                if len(args.limit_k) > 0 and size_k not in args.limit_k:
+                    continue
+
+                if len(args.limit_n) > 0 and size_n not in args.limit_n:
+                    continue
+
+                for per_act_token in PER_ACT_TOKEN_OPTS:
+                    for per_out_ch in PER_OUT_CH_OPTS:
+                        for size_m in args.batch_sizes:
+                            mkn = (size_m, size_k, size_n)
+                            bench_run(results, model, num_experts, topk,
+                                      per_act_token, per_out_ch, mkn)
+
+    compare = benchmark.Compare(results)
+    compare.print()
+
+
+if __name__ == "__main__":
+    parser = FlexibleArgumentParser(
+        description="Benchmark NVFP4 CUTLASS MOE across specified "
+        "models/shapes/batches")
+    parser.add_argument(
+        "--models",
+        nargs="+",
+        type=str,
+        default=DEFAULT_MODELS,
+        choices=WEIGHT_SHAPES_MOE.keys(),
+    )
+    parser.add_argument("--tp-sizes",
+                        nargs="+",
+                        type=int,
+                        default=DEFAULT_TP_SIZES)
+    parser.add_argument("--batch-sizes",
+                        nargs="+",
+                        type=int,
+                        default=DEFAULT_BATCH_SIZES)
+    parser.add_argument("--limit-k", nargs="+", type=int, default=[])
+    parser.add_argument("--limit-n", nargs="+", type=int, default=[])
+    parser.add_argument("--limit-num-groups", nargs="+", type=int, default=[])
+    parser.add_argument("--limit-per-act-token",
+                        nargs="+",
+                        type=int,
+                        default=[])
+    parser.add_argument("--limit-per-out-ch", nargs="+", type=int, default=[])
+
+    args = parser.parse_args()
+    main(args)
diff --git a/csrc/ops.h b/csrc/ops.h
index 1dfd2e067..21c5a9e29 100644
--- a/csrc/ops.h
+++ b/csrc/ops.h
@@ -208,6 +208,12 @@ void cutlass_moe_mm(
     torch::Tensor const& problem_sizes, torch::Tensor const& a_strides,
     torch::Tensor const& b_strides, torch::Tensor const& c_strides);
 
+void cutlass_fp4_group_mm(
+    torch::Tensor& output, const torch::Tensor& a, const torch::Tensor& b,
+    const torch::Tensor& a_blockscale, const torch::Tensor& b_blockscales,
+    const torch::Tensor& alphas, const torch::Tensor& problem_sizes,
+    const torch::Tensor& expert_offsets, const torch::Tensor& sf_offsets);
+
 void get_cutlass_moe_mm_data(
     const torch::Tensor& topk_ids, torch::Tensor& expert_offsets,
     torch::Tensor& problem_sizes1, torch::Tensor& problem_sizes2,
@@ -235,6 +241,12 @@ std::vector<torch::Tensor> cutlass_sparse_compress(torch::Tensor const& a);
 void scaled_fp4_quant(torch::Tensor& output, torch::Tensor const& input,
                       torch::Tensor& output_scale,
                       torch::Tensor const& input_scale);
+
+void scaled_fp4_experts_quant(
+    torch::Tensor& output, torch::Tensor& output_scale,
+    torch::Tensor const& input, torch::Tensor const& input_global_scale,
+    torch::Tensor const& input_offset_by_experts,
+    torch::Tensor const& output_scale_offset_by_experts);
 #endif
 
 void static_scaled_int8_quant(torch::Tensor& out, torch::Tensor const& input,
diff --git a/csrc/quantization/cutlass_w8a8/scaled_mm_entry.cu b/csrc/quantization/cutlass_w8a8/scaled_mm_entry.cu
index ddcc48ccc..9843cd857 100644
--- a/csrc/quantization/cutlass_w8a8/scaled_mm_entry.cu
+++ b/csrc/quantization/cutlass_w8a8/scaled_mm_entry.cu
@@ -37,12 +37,6 @@ void cutlass_moe_mm_sm90(
     torch::Tensor const& problem_sizes, torch::Tensor const& a_strides,
     torch::Tensor const& b_strides, torch::Tensor const& c_strides);
 
-void get_cutlass_moe_mm_data_caller(
-    const torch::Tensor& topk_ids, torch::Tensor& expert_offsets,
-    torch::Tensor& problem_sizes1, torch::Tensor& problem_sizes2,
-    torch::Tensor& input_permutation, torch::Tensor& output_permutation,
-    const int64_t num_experts, const int64_t n, const int64_t k);
-
 #endif
 
 #if defined ENABLE_SCALED_MM_SM100 && ENABLE_SCALED_MM_SM100
@@ -53,6 +47,15 @@ void cutlass_scaled_mm_sm100(torch::Tensor& c, torch::Tensor const& a,
                              std::optional<torch::Tensor> const& bias);
 #endif
 
+#if defined(ENABLE_SCALED_MM_SM90) && ENABLE_SCALED_MM_SM90 || \
+    defined(ENABLE_SCALED_MM_SM100) && ENABLE_SCALED_MM_SM100
+void get_cutlass_moe_mm_data_caller(
+    const torch::Tensor& topk_ids, torch::Tensor& expert_offsets,
+    torch::Tensor& problem_sizes1, torch::Tensor& problem_sizes2,
+    torch::Tensor& input_permutation, torch::Tensor& output_permutation,
+    const int64_t num_experts, const int64_t n, const int64_t k);
+#endif
+
 void cutlass_scaled_mm_azp_sm75(torch::Tensor& c, torch::Tensor const& a,
                                 torch::Tensor const& b,
                                 torch::Tensor const& a_scales,
@@ -224,7 +227,8 @@ void get_cutlass_moe_mm_data(
   // This function currently gets compiled only if we have a valid cutlass moe
   // mm to run it for.
   int32_t version_num = get_sm_version_num();
-#if defined ENABLE_CUTLASS_MOE_SM90 && ENABLE_CUTLASS_MOE_SM90
+#if (defined ENABLE_CUTLASS_MOE_SM90 && ENABLE_CUTLASS_MOE_SM90) || \
+    (defined ENABLE_SCALED_MM_SM100 && ENABLE_SCALED_MM_SM90)
   get_cutlass_moe_mm_data_caller(topk_ids, expert_offsets, problem_sizes1,
                                  problem_sizes2, input_permutation,
                                  output_permutation, num_experts, n, k);
diff --git a/csrc/quantization/fp4/nvfp4_blockwise_moe_kernel.cu b/csrc/quantization/fp4/nvfp4_blockwise_moe_kernel.cu
new file mode 100644
index 000000000..45ec3d29c
--- /dev/null
+++ b/csrc/quantization/fp4/nvfp4_blockwise_moe_kernel.cu
@@ -0,0 +1,402 @@
+#include <torch/all.h>
+#include <cutlass/arch/arch.h>
+
+#include <ATen/cuda/CUDAContext.h>
+#include <c10/cuda/CUDAGuard.h>
+#include <c10/cuda/CUDAStream.h>
+
+#include "cute/tensor.hpp"
+#include "cutlass/tensor_ref.h"
+#include "cutlass/epilogue/collective/default_epilogue.hpp"
+#include "cutlass/epilogue/thread/linear_combination.h"
+#include "cutlass/gemm/dispatch_policy.hpp"
+#include "cutlass/gemm/group_array_problem_shape.hpp"
+#include "cutlass/gemm/collective/collective_builder.hpp"
+#include "cutlass/epilogue/collective/collective_builder.hpp"
+#include "cutlass/gemm/device/gemm_universal_adapter.h"
+#include "cutlass/gemm/kernel/gemm_universal.hpp"
+
+#include "cutlass/util/command_line.h"
+#include "cutlass/util/distribution.h"
+#include "cutlass/util/host_tensor.h"
+#include "cutlass/util/packed_stride.hpp"
+#include "cutlass/util/tensor_view_io.h"
+#include "cutlass/util/reference/device/gemm.h"
+#include "cutlass/util/reference/device/tensor_compare.h"
+#include "cutlass/util/reference/host/tensor_fill.h"
+#include "cutlass/util/reference/host/gett.hpp"
+#include "cutlass/util/reference/host/tensor_norm.h"
+#include "cutlass/util/reference/host/tensor_compare.h"
+#include <cassert>
+
+using namespace cute;
+
+template <typename ElementAB, typename ElementC, typename ElementSF,
+          typename ElementAccumulator, typename LayoutSFA, typename LayoutSFB,
+          typename ScaleConfig>
+__global__ void __get_group_gemm_starts(
+    ElementAB** a_offsets, ElementAB** b_offsets, ElementC** out_offsets,
+    ElementSF** a_scales_offsets, ElementSF** b_scales_offsets,
+    ElementAccumulator** alpha_offsets, LayoutSFA* layout_sfa_base_as_int,
+    LayoutSFB* layout_sfb_base_as_int, ElementAB* a_base_as_int,
+    ElementAB* b_base_as_int, ElementC* out_base_as_int,
+    ElementSF* a_scales_base_as_int, ElementSF* b_scales_base_as_int,
+    ElementAccumulator* alphas_base_as_int, const int32_t* expert_offsets,
+    const int32_t* sf_offsets, const int32_t* problem_sizes_as_shapes,
+    const int K, const int N) {
+  int64_t expert_id = threadIdx.x;
+  if (expert_id >= gridDim.x * blockDim.x) {
+    return;
+  }
+  // Originally int32_t but upcasting to int64_t to avoid overflow
+  // during offset calculations
+  int64_t expert_offset = static_cast<int64_t>(expert_offsets[expert_id]);
+  int64_t sf_offset = static_cast<int64_t>(sf_offsets[expert_id]);
+  // size for block in block scale.
+  int64_t group_size = 16;
+  int64_t m = static_cast<int64_t>(problem_sizes_as_shapes[expert_id * 3]);
+  int64_t n = static_cast<int64_t>(problem_sizes_as_shapes[expert_id * 3 + 1]);
+  int64_t k = static_cast<int64_t>(problem_sizes_as_shapes[expert_id * 3 + 2]);
+  assert((m >= 0 && n == N && k == K && k % 2 == 0) &&
+         "unexpected problem sizes");
+
+  int64_t half_k = static_cast<int64_t>(k / 2);
+  int64_t group_k = static_cast<int64_t>(k / group_size);
+  // Shape of A as uint8/byte = [M, K // 2]
+  // Shape of B as uint8/byte = [E, N, K // 2]
+  a_offsets[expert_id] = a_base_as_int + expert_offset * half_k;
+
+  b_offsets[expert_id] = b_base_as_int + expert_id * n * half_k;
+  // Shape of C = [M, N]
+  out_offsets[expert_id] = out_base_as_int + expert_offset * n;
+  // Shape of a_scale = [sum(sf_sizes), K // group_size]
+  a_scales_offsets[expert_id] = a_scales_base_as_int + sf_offset * group_k;
+
+  assert((reinterpret_cast<uintptr_t>(a_scales_offsets[expert_id]) % 128) ==
+             0 &&
+         "TMA requires 128-byte alignment");
+
+  // Shape of B scale = [E, N, K // group_size]
+  b_scales_offsets[expert_id] = b_scales_base_as_int + expert_id * n * group_k;
+  assert((reinterpret_cast<uintptr_t>(b_scales_offsets[expert_id]) % 128) ==
+             0 &&
+         "TMA requires 128-byte alignment");
+  // Shape of alpha = [E]
+  alpha_offsets[expert_id] = alphas_base_as_int + expert_id;
+
+  LayoutSFA* layout_sfa_ptr = layout_sfa_base_as_int + expert_id;
+  LayoutSFB* layout_sfb_ptr = layout_sfb_base_as_int + expert_id;
+
+  *layout_sfa_ptr = ScaleConfig::tile_atom_to_shape_SFA(cute::make_shape(
+      static_cast<int>(m), static_cast<int>(n), static_cast<int>(k), 1));
+  *layout_sfb_ptr = ScaleConfig::tile_atom_to_shape_SFB(cute::make_shape(
+      static_cast<int>(m), static_cast<int>(n), static_cast<int>(k), 1));
+}
+
+#define __CALL_GET_STARTS_KERNEL_BLOCKSCALE(ELEMENT_AB_TYPE, SF_TYPE,         \
+                                            TENSOR_C_TYPE, C_TYPE, LayoutSFA, \
+                                            LayoutSFB, ScaleConfig)           \
+  else if (out_tensors.dtype() == TENSOR_C_TYPE) {                            \
+    __get_group_gemm_starts<ELEMENT_AB_TYPE, C_TYPE, SF_TYPE, float,          \
+                            LayoutSFA, LayoutSFB, ScaleConfig>                \
+        <<<1, num_experts, 0, stream>>>(                                      \
+            static_cast<ELEMENT_AB_TYPE**>(a_starts.data_ptr()),              \
+            static_cast<ELEMENT_AB_TYPE**>(b_starts.data_ptr()),              \
+            static_cast<C_TYPE**>(out_starts.data_ptr()),                     \
+            static_cast<SF_TYPE**>(a_scales_starts.data_ptr()),               \
+            static_cast<SF_TYPE**>(b_scales_starts.data_ptr()),               \
+            static_cast<float**>(alpha_starts.data_ptr()),                    \
+            reinterpret_cast<LayoutSFA*>(layout_sfa.data_ptr()),              \
+            reinterpret_cast<LayoutSFB*>(layout_sfb.data_ptr()),              \
+            static_cast<ELEMENT_AB_TYPE*>(a_tensors.data_ptr()),              \
+            static_cast<ELEMENT_AB_TYPE*>(b_tensors.data_ptr()),              \
+            static_cast<C_TYPE*>(out_tensors.data_ptr()),                     \
+            static_cast<SF_TYPE*>(a_scales.data_ptr()),                       \
+            static_cast<SF_TYPE*>(b_scales.data_ptr()),                       \
+            static_cast<float*>(alphas.data_ptr()),                           \
+            static_cast<int32_t*>(expert_offsets.data_ptr()),                 \
+            static_cast<int32_t*>(sf_offsets.data_ptr()),                     \
+            static_cast<int32_t*>(problem_sizes.data_ptr()), K, N);           \
+  }
+
+template <typename LayoutSFA, typename LayoutSFB, typename ScaleConfig>
+void run_get_group_gemm_starts(
+    const torch::Tensor& a_starts, const torch::Tensor& b_starts,
+    const torch::Tensor& out_starts, const torch::Tensor& a_scales_starts,
+    const torch::Tensor& b_scales_starts, const torch::Tensor& alpha_starts,
+    const torch::Tensor& layout_sfa, const torch::Tensor& layout_sfb,
+    /*these are used for their base addresses*/
+    torch::Tensor const& a_tensors, torch::Tensor const& b_tensors,
+    torch::Tensor const& out_tensors, torch::Tensor const& a_scales,
+    torch::Tensor const& b_scales, torch::Tensor const& alphas,
+    torch::Tensor const& expert_offsets, torch::Tensor const& sf_offsets,
+    torch::Tensor const& problem_sizes, int M, int N, int K) {
+  int num_experts = (int)expert_offsets.size(0);
+  auto stream = at::cuda::getCurrentCUDAStream(a_tensors.device().index());
+
+  TORCH_CHECK(out_tensors.size(1) == N,
+              "Output tensor shape doesn't match expected shape");
+  TORCH_CHECK(K / 2 == b_tensors.size(2),
+              "b_tensors(dim = 2) and a_tensors(dim = 1) trailing"
+              " dimension must match");
+  if (false) {
+  }
+  //(ELEMENT_AB_TYPE, BS_TYPE, TENSOR_C_TYPE, C_TYPE, LayoutSFA, LayoutSFB,
+  // ScaleConfig)
+  __CALL_GET_STARTS_KERNEL_BLOCKSCALE(
+      cutlass::float_e2m1_t, cutlass::float_ue4m3_t, torch::kBFloat16,
+      cutlass::bfloat16_t, LayoutSFA, LayoutSFB, ScaleConfig)
+  __CALL_GET_STARTS_KERNEL_BLOCKSCALE(cutlass::float_e2m1_t,
+                                      cutlass::float_ue4m3_t, torch::kFloat16,
+                                      half, LayoutSFA, LayoutSFB, ScaleConfig)
+  else {
+    TORCH_CHECK(false, "Invalid output type (must be float16 or bfloat16)");
+  }
+}
+
+template <typename OutType>
+void run_fp4_blockwise_scaled_group_mm(
+    torch::Tensor& output, const torch::Tensor& a, const torch::Tensor& b,
+    const torch::Tensor& a_blockscale, const torch::Tensor& b_blockscales,
+    const torch::Tensor& alphas, const torch::Tensor& problem_sizes,
+    const torch::Tensor& expert_offsets, const torch::Tensor& sf_offsets, int M,
+    int N, int K) {
+  using ProblemShape =
+      cutlass::gemm::GroupProblemShape<Shape<int32_t, int32_t, int32_t>>;
+  using ElementType = cutlass::float_e2m1_t;
+  using ElementSFType = cutlass::float_ue4m3_t;
+  using ElementA = cutlass::nv_float4_t<cutlass::float_e2m1_t>;
+  using ElementB = cutlass::nv_float4_t<cutlass::float_e2m1_t>;
+
+  using ElementC = OutType;
+  using ElementD = ElementC;
+  using ElementAccumulator = float;
+  // Layout definitions
+  using LayoutA = cutlass::layout::RowMajor;
+  using LayoutB = cutlass::layout::ColumnMajor;
+  using LayoutC = cutlass::layout::RowMajor;
+  using LayoutD = LayoutC;
+
+  // Alignment constraints
+  static constexpr int AlignmentA = 32;
+  static constexpr int AlignmentB = 32;
+  static constexpr int AlignmentC = 128 / cutlass::sizeof_bits<ElementC>::value;
+  static constexpr int AlignmentD = 128 / cutlass::sizeof_bits<ElementD>::value;
+
+  // Architecture definitions
+  using ArchTag = cutlass::arch::Sm100;
+  using EpilogueOperatorClass =
+      cutlass::arch::OpClassTensorOp;  // Epilogue Operator class tag
+  using MainloopOperatorClass =
+      cutlass::arch::OpClassBlockScaledTensorOp;  // Mainloop Operator class tag
+  using StageCountType =
+      cutlass::gemm::collective::StageCountAuto;  // Stage count maximized based
+                                                  // on the tile size
+
+  using ClusterShape = Shape<_1, _1, _1>;
+  struct MMA1SMConfig {
+    using MmaTileShape = Shape<_128, _128, _128>;
+    using KernelSchedule = cutlass::gemm::
+        KernelPtrArrayTmaWarpSpecialized1SmNvf4Sm100;  // Kernel to launch
+    using EpilogueSchedule =
+        cutlass::epilogue::PtrArrayTmaWarpSpecialized1Sm;  // Epilogue to launch
+  };
+
+  using CollectiveEpilogue =
+      typename cutlass::epilogue::collective::CollectiveBuilder<
+          ArchTag, EpilogueOperatorClass, typename MMA1SMConfig::MmaTileShape,
+          ClusterShape, Shape<_128, _64>, ElementAccumulator,
+          ElementAccumulator, ElementC, LayoutC*, AlignmentC, ElementD,
+          LayoutC*, AlignmentD,
+          typename MMA1SMConfig::EpilogueSchedule>::CollectiveOp;
+
+  using CollectiveMainloop =
+      typename cutlass::gemm::collective::CollectiveBuilder<
+          ArchTag, MainloopOperatorClass, ElementA, LayoutA*, AlignmentA,
+          ElementB, LayoutB*, AlignmentB, ElementAccumulator,
+          typename MMA1SMConfig::MmaTileShape, ClusterShape,
+          cutlass::gemm::collective::StageCountAutoCarveout<static_cast<int>(
+              sizeof(typename CollectiveEpilogue::SharedStorage))>,
+          typename MMA1SMConfig::KernelSchedule>::CollectiveOp;
+
+  using GemmKernel =
+      cutlass::gemm::kernel::GemmUniversal<ProblemShape, CollectiveMainloop,
+                                           CollectiveEpilogue>;
+
+  using Gemm1SM = cutlass::gemm::device::GemmUniversalAdapter<GemmKernel>;
+  using Gemm = Gemm1SM;
+  using StrideA = typename Gemm::GemmKernel::InternalStrideA;
+  using StrideB = typename Gemm::GemmKernel::InternalStrideB;
+  using StrideC = typename Gemm::GemmKernel::InternalStrideC;
+  using StrideD = typename Gemm::GemmKernel::InternalStrideD;
+
+  using LayoutSFA =
+      typename Gemm::GemmKernel::CollectiveMainloop::InternalLayoutSFA;
+  using LayoutSFB =
+      typename Gemm::GemmKernel::CollectiveMainloop::InternalLayoutSFB;
+  using ScaleConfig =
+      typename Gemm::GemmKernel::CollectiveMainloop::Sm1xxBlkScaledConfig;
+
+  using UnderlyingProblemShape = ProblemShape::UnderlyingProblemShape;
+  int num_experts = static_cast<int>(expert_offsets.size(0));
+  auto options_int =
+      torch::TensorOptions().dtype(torch::kInt64).device(a.device());
+
+  torch::Tensor a_ptrs = torch::empty(num_experts, options_int);
+  torch::Tensor b_ptrs = torch::empty(num_experts, options_int);
+  torch::Tensor out_ptrs = torch::empty(num_experts, options_int);
+  torch::Tensor a_scales_ptrs = torch::empty(num_experts, options_int);
+  torch::Tensor b_scales_ptrs = torch::empty(num_experts, options_int);
+  torch::Tensor alpha_ptrs = torch::empty(num_experts, options_int);
+  torch::Tensor layout_sfa = torch::empty({num_experts, 5}, options_int);
+  torch::Tensor layout_sfb = torch::empty({num_experts, 5}, options_int);
+  torch::Tensor c_strides1 =
+      torch::full({num_experts}, output.stride(0), options_int);
+  torch::Tensor a_strides1 =
+      torch::full({num_experts}, a.stride(0) * 2, options_int);
+  torch::Tensor b_strides1 =
+      torch::full({num_experts}, b.stride(1) * 2, options_int);
+
+  run_get_group_gemm_starts<LayoutSFA, LayoutSFB, ScaleConfig>(
+      a_ptrs, b_ptrs, out_ptrs, a_scales_ptrs, b_scales_ptrs, alpha_ptrs,
+      layout_sfa, layout_sfb, a, b, output, a_blockscale, b_blockscales, alphas,
+      expert_offsets, sf_offsets, problem_sizes, M, N, K);
+
+  // Create an instance of the GEMM
+  Gemm gemm_op;
+
+  // Initialize problem_sizes_as_shapes correctly
+  UnderlyingProblemShape* problem_sizes_as_shapes =
+      static_cast<UnderlyingProblemShape*>(problem_sizes.data_ptr());
+
+  // Set the Scheduler info
+  cutlass::KernelHardwareInfo hw_info;
+  using RasterOrderOptions = typename cutlass::gemm::kernel::detail::
+      PersistentTileSchedulerSm100GroupParams<
+          typename ProblemShape::UnderlyingProblemShape>::RasterOrderOptions;
+  typename Gemm::GemmKernel::TileSchedulerArguments scheduler;
+  scheduler.raster_order = RasterOrderOptions::AlongM;
+  hw_info.device_id = a.get_device();
+  static std::unordered_map<int, int> cached_sm_counts;
+  if (cached_sm_counts.find(hw_info.device_id) == cached_sm_counts.end()) {
+    cached_sm_counts[hw_info.device_id] =
+        cutlass::KernelHardwareInfo::query_device_multiprocessor_count(
+            hw_info.device_id);
+  }
+  hw_info.sm_count = min(cached_sm_counts[hw_info.device_id], INT_MAX);
+
+  // Mainloop Arguments
+  typename GemmKernel::MainloopArguments mainloop_args{
+      static_cast<const ElementType**>(a_ptrs.data_ptr()),
+      static_cast<StrideA*>(a_strides1.data_ptr()),
+      static_cast<const ElementType**>(b_ptrs.data_ptr()),
+      static_cast<StrideB*>(b_strides1.data_ptr()),
+      static_cast<const ElementSFType**>(a_scales_ptrs.data_ptr()),
+      reinterpret_cast<LayoutSFA*>(layout_sfa.data_ptr()),
+      static_cast<const ElementSFType**>(b_scales_ptrs.data_ptr()),
+      reinterpret_cast<LayoutSFB*>(layout_sfb.data_ptr())};
+
+  // Epilogue Arguments
+  typename GemmKernel::EpilogueArguments epilogue_args{
+      {},  // epilogue.thread
+      nullptr,
+      static_cast<StrideC*>(c_strides1.data_ptr()),
+      static_cast<ElementD**>(out_ptrs.data_ptr()),
+      static_cast<StrideC*>(c_strides1.data_ptr())};
+  auto& fusion_args = epilogue_args.thread;
+  fusion_args.alpha_ptr_array =
+      reinterpret_cast<float**>(alpha_ptrs.data_ptr());
+  fusion_args.dAlpha = {_0{}, _0{}, 1};
+
+  // Gemm Arguments
+  typename GemmKernel::Arguments args{
+      cutlass::gemm::GemmUniversalMode::kGrouped,
+      {num_experts, problem_sizes_as_shapes, nullptr},
+      mainloop_args,
+      epilogue_args,
+      hw_info,
+      scheduler};
+
+  size_t workspace_size = Gemm::get_workspace_size(args);
+  auto const workspace_options =
+      torch::TensorOptions().dtype(torch::kUInt8).device(a.device());
+  auto workspace = torch::empty(workspace_size, workspace_options);
+  const cudaStream_t stream = at::cuda::getCurrentCUDAStream(a.get_device());
+
+  auto can_implement_status = gemm_op.can_implement(args);
+  TORCH_CHECK(can_implement_status == cutlass::Status::kSuccess,
+              "Failed to implement GEMM");
+
+  // Run the GEMM
+  auto status = gemm_op.initialize(args, workspace.data_ptr());
+  TORCH_CHECK(status == cutlass::Status::kSuccess, "Failed to initialize GEMM");
+
+  status = gemm_op.run(args, workspace.data_ptr(), stream);
+  TORCH_CHECK(status == cutlass::Status::kSuccess, "Failed to run GEMM");
+}
+
+constexpr auto FLOAT4_E2M1X2 = at::ScalarType::Byte;
+constexpr auto SF_DTYPE = at::ScalarType::Float8_e4m3fn;
+
+#define CHECK_TYPE(x, st, m) \
+  TORCH_CHECK(x.scalar_type() == st, ": Inconsistency of Tensor type:", m)
+#define CHECK_TH_CUDA(x, m) \
+  TORCH_CHECK(x.is_cuda(), m, ": must be a CUDA tensor.")
+#define CHECK_CONTIGUOUS(x, m) \
+  TORCH_CHECK(x.is_contiguous(), m, ": must be contiguous.")
+#define CHECK_INPUT(x, st, m) \
+  CHECK_TH_CUDA(x, m);        \
+  CHECK_CONTIGUOUS(x, m);     \
+  CHECK_TYPE(x, st, m)
+
+void cutlass_fp4_group_mm(
+    torch::Tensor& output, const torch::Tensor& a, const torch::Tensor& b,
+    const torch::Tensor& a_blockscale, const torch::Tensor& b_blockscales,
+    const torch::Tensor& alphas, const torch::Tensor& problem_sizes,
+    const torch::Tensor& expert_offsets, const torch::Tensor& sf_offsets) {
+#if defined ENABLE_NVFP4 && ENABLE_NVFP4
+  // Input validation
+  CHECK_INPUT(a, FLOAT4_E2M1X2, "a");
+  CHECK_INPUT(b, FLOAT4_E2M1X2, "b");
+  CHECK_INPUT(a_blockscale, SF_DTYPE, "a_blockscale");
+  CHECK_INPUT(b_blockscales, SF_DTYPE, "b_blockscales");
+  CHECK_INPUT(alphas, at::ScalarType::Float, "alphas");
+
+  TORCH_CHECK(a_blockscale.dim() == 2,
+              "expected a_blockscale to be of shape [num_experts, rounded_m,"
+              " k // group_size], observed rank: ",
+              a_blockscale.dim())
+  TORCH_CHECK(b_blockscales.dim() == 3,
+              "expected b_blockscale to be of shape: "
+              " [num_experts, n, k // group_size], observed rank: ",
+              b_blockscales.dim())
+  TORCH_CHECK(problem_sizes.dim() == 2, "problem_sizes must be  a 2D tensor");
+  TORCH_CHECK(problem_sizes.size(1) == 3,
+              "problem_sizes must have the shape (num_experts, 3)");
+  TORCH_CHECK(problem_sizes.size(0) == expert_offsets.size(0),
+              "Number of experts in problem_sizes must match expert_offsets");
+  TORCH_CHECK(problem_sizes.dtype() == torch::kInt32,
+              "problem_sizes must be int32.");
+
+  int M = static_cast<int>(a.size(0));
+  int N = static_cast<int>(b.size(1));
+  int E = static_cast<int>(b.size(0));
+  int K = static_cast<int>(2 * b.size(2));
+
+  if (output.scalar_type() == torch::kBFloat16) {
+    run_fp4_blockwise_scaled_group_mm<cutlass::bfloat16_t>(
+        output, a, b, a_blockscale, b_blockscales, alphas, problem_sizes,
+        expert_offsets, sf_offsets, M, N, K);
+  } else {
+    run_fp4_blockwise_scaled_group_mm<cutlass::half_t>(
+        output, a, b, a_blockscale, b_blockscales, alphas, problem_sizes,
+        expert_offsets, sf_offsets, M, N, K);
+  }
+#else
+  TORCH_CHECK_NOT_IMPLEMENTED(
+      false,
+      "No compiled cutlass_fp4_group_mm kernel, vLLM must "
+      "be compiled with ENABLE_NVFP4 for SM100+ and CUDA "
+      "12.8 or above.");
+#endif
+}
diff --git a/csrc/quantization/fp4/nvfp4_experts_quant.cu b/csrc/quantization/fp4/nvfp4_experts_quant.cu
new file mode 100644
index 000000000..076c4a085
--- /dev/null
+++ b/csrc/quantization/fp4/nvfp4_experts_quant.cu
@@ -0,0 +1,404 @@
+#include <torch/all.h>
+
+#include <ATen/cuda/CUDAContext.h>
+#include <c10/cuda/CUDAGuard.h>
+
+#include <cuda_runtime.h>
+#include <cuda_fp8.h>
+
+template <typename T>
+struct TypeConverter {
+  using Type = half2;
+};  // keep for generality
+
+template <>
+struct TypeConverter<half2> {
+  using Type = half;
+};
+
+template <>
+struct TypeConverter<half> {
+  using Type = half2;
+};
+
+template <>
+struct TypeConverter<__nv_bfloat162> {
+  using Type = __nv_bfloat16;
+};
+
+template <>
+struct TypeConverter<__nv_bfloat16> {
+  using Type = __nv_bfloat162;
+};
+
+#define ELTS_PER_THREAD 8
+
+constexpr int CVT_FP4_ELTS_PER_THREAD = 8;
+constexpr int CVT_FP4_SF_VEC_SIZE = 16;
+
+// Convert 8 float32 values into 8 e2m1 values (represented as one uint32_t).
+inline __device__ uint32_t fp32_vec_to_e2m1(float (&array)[8]) {
+#if defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 1000)
+  uint32_t val;
+  asm volatile(
+      "{\n"
+      ".reg .b8 byte0;\n"
+      ".reg .b8 byte1;\n"
+      ".reg .b8 byte2;\n"
+      ".reg .b8 byte3;\n"
+      "cvt.rn.satfinite.e2m1x2.f32   byte0, %2, %1;\n"
+      "cvt.rn.satfinite.e2m1x2.f32   byte1, %4, %3;\n"
+      "cvt.rn.satfinite.e2m1x2.f32   byte2, %6, %5;\n"
+      "cvt.rn.satfinite.e2m1x2.f32   byte3, %8, %7;\n"
+      "mov.b32 %0, {byte0, byte1, byte2, byte3};\n"
+      "}"
+      : "=r"(val)
+      : "f"(array[0]), "f"(array[1]), "f"(array[2]), "f"(array[3]),
+        "f"(array[4]), "f"(array[5]), "f"(array[6]), "f"(array[7]));
+  return val;
+#else
+  return 0;
+#endif
+}
+
+// Convert 4 float2 values into 8 e2m1 values (represented as one uint32_t).
+inline __device__ uint32_t fp32_vec_to_e2m1(float2 (&array)[4]) {
+#if defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 1000)
+  uint32_t val;
+  asm volatile(
+      "{\n"
+      ".reg .b8 byte0;\n"
+      ".reg .b8 byte1;\n"
+      ".reg .b8 byte2;\n"
+      ".reg .b8 byte3;\n"
+      "cvt.rn.satfinite.e2m1x2.f32   byte0, %2, %1;\n"
+      "cvt.rn.satfinite.e2m1x2.f32   byte1, %4, %3;\n"
+      "cvt.rn.satfinite.e2m1x2.f32   byte2, %6, %5;\n"
+      "cvt.rn.satfinite.e2m1x2.f32   byte3, %8, %7;\n"
+      "mov.b32 %0, {byte0, byte1, byte2, byte3};\n"
+      "}"
+      : "=r"(val)
+      : "f"(array[0].x), "f"(array[0].y), "f"(array[1].x), "f"(array[1].y),
+        "f"(array[2].x), "f"(array[2].y), "f"(array[3].x), "f"(array[3].y));
+  return val;
+#else
+  return 0;
+#endif
+}
+
+// Fast reciprocal.
+inline __device__ float reciprocal_approximate_ftz(float a) {
+  float b;
+  asm volatile("rcp.approx.ftz.f32 %0, %1;\n" : "=f"(b) : "f"(a));
+  return b;
+}
+
+template <class SFType, int CVT_FP4_NUM_THREADS_PER_SF>
+__device__ uint8_t* cvt_quant_to_fp4_get_sf_out_offset(int rowIdx, int colIdx,
+                                                       int numCols,
+                                                       SFType* SFout) {
+#if defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 1000)
+  static_assert(CVT_FP4_NUM_THREADS_PER_SF == 1 ||
+                CVT_FP4_NUM_THREADS_PER_SF == 2);
+
+  // One pair of threads write one SF to global memory.
+  // TODO: stage through smem for packed STG.32
+  // is it better than STG.8 from 4 threads ?
+  if (threadIdx.x % CVT_FP4_NUM_THREADS_PER_SF == 0) {
+    // SF vector index (16 elements share one SF in the K dimension).
+    int32_t kIdx = colIdx / CVT_FP4_NUM_THREADS_PER_SF;
+    int32_t mIdx = rowIdx;
+
+    // SF layout [numMTiles, numKTiles, 32 (mTile), 4 (mTile), 4(kTile)]
+    // --> index [mTileIdx, kTileIdx, outerMIdx, innerMIdx, innerKIdx]
+
+    int32_t mTileIdx = mIdx / (32 * 4);
+    // SF vector size 16.
+    int factor = CVT_FP4_SF_VEC_SIZE * 4;
+    int32_t numKTiles = (numCols + factor - 1) / factor;
+    int64_t mTileStride = numKTiles * 32 * 4 * 4;
+
+    int32_t kTileIdx = (kIdx / 4);
+    int64_t kTileStride = 32 * 4 * 4;
+
+    // M tile layout [32, 4] is column-major.
+    int32_t outerMIdx = (mIdx % 32);
+    int64_t outerMStride = 4 * 4;
+
+    int32_t innerMIdx = (mIdx % (32 * 4)) / 32;
+    int64_t innerMStride = 4;
+
+    int32_t innerKIdx = (kIdx % 4);
+    int64_t innerKStride = 1;
+
+    // Compute the global offset.
+    int64_t SFOffset = mTileIdx * mTileStride + kTileIdx * kTileStride +
+                       outerMIdx * outerMStride + innerMIdx * innerMStride +
+                       innerKIdx * innerKStride;
+
+    return reinterpret_cast<uint8_t*>(SFout) + SFOffset;
+  }
+#endif
+  return nullptr;
+}
+
+// Define a 16 bytes packed data type.
+template <class Type>
+struct PackedVec {
+  typename TypeConverter<Type>::Type elts[4];
+};
+
+template <>
+struct PackedVec<__nv_fp8_e4m3> {
+  __nv_fp8x2_e4m3 elts[8];
+};
+
+// Quantizes the provided PackedVec into the uint32_t output
+template <class Type, bool UE8M0_SF = false>
+__device__ uint32_t cvt_warp_fp16_to_fp4(PackedVec<Type>& vec, float SFScaleVal,
+                                         uint8_t* SFout) {
+#if defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 1000)
+  // Get absolute maximum values among the local 8 values.
+  auto localMax = __habs2(vec.elts[0]);
+
+  // Local maximum value.
+  #pragma unroll
+  for (int i = 1; i < CVT_FP4_ELTS_PER_THREAD / 2; i++) {
+    localMax = __hmax2(localMax, __habs2(vec.elts[i]));
+  }
+
+  // Get the absolute maximum among all 16 values (two threads).
+  localMax = __hmax2(__shfl_xor_sync(uint32_t(-1), localMax, 1), localMax);
+  // Get the final absolute maximum values.
+  float vecMax = float(__hmax(localMax.x, localMax.y));
+
+  // Get the SF (max value of the vector / max value of e2m1).
+  // maximum value of e2m1 = 6.0.
+  // TODO: use half as compute data type.
+  float SFValue = SFScaleVal * (vecMax * reciprocal_approximate_ftz(6.0f));
+  // 8 bits representation of the SF.
+  uint8_t fp8SFVal;
+  // Write the SF to global memory (STG.8).
+  if constexpr (UE8M0_SF) {
+    // Extract the 8 exponent bits from float32.
+    // float 32bits = 1 sign bit + 8 exponent bits + 23 mantissa bits.
+    uint32_t tmp = reinterpret_cast<uint32_t&>(SFValue) >> 23;
+    fp8SFVal = tmp & 0xff;
+    // Convert back to fp32.
+    reinterpret_cast<uint32_t&>(SFValue) = tmp << 23;
+  } else {
+    // Here SFValue is always positive, so E4M3 is the same as UE4M3.
+    __nv_fp8_e4m3 tmp = __nv_fp8_e4m3(SFValue);
+    reinterpret_cast<__nv_fp8_e4m3&>(fp8SFVal) = tmp;
+    // Convert back to fp32.
+    SFValue = float(tmp);
+  }
+  // Get the output scale.
+  // Recipe: final_scale = reciprocal(fp32(fp8(SFValue * SFScaleVal))) *
+  //                       reciprocal(SFScaleVal))
+  float outputScale =
+      SFValue != 0 ? reciprocal_approximate_ftz(
+                         SFValue * reciprocal_approximate_ftz(SFScaleVal))
+                   : 0.0f;
+
+  if (SFout) {
+    // Write the SF to global memory (STG.8).
+    *SFout = fp8SFVal;
+  }
+
+  // Convert the input to float.
+  float2 fp2Vals[CVT_FP4_ELTS_PER_THREAD / 2];
+
+  #pragma unroll
+  for (int i = 0; i < CVT_FP4_ELTS_PER_THREAD / 2; i++) {
+    if constexpr (std::is_same_v<Type, half>) {
+      fp2Vals[i] = __half22float2(vec.elts[i]);
+    } else {
+      fp2Vals[i] = __bfloat1622float2(vec.elts[i]);
+    }
+    fp2Vals[i].x *= outputScale;
+    fp2Vals[i].y *= outputScale;
+  }
+
+  // Convert to e2m1 values.
+  uint32_t e2m1Vec = fp32_vec_to_e2m1(fp2Vals);
+
+  // Write the e2m1 values to global memory.
+  return e2m1Vec;
+#else
+  return 0;
+#endif
+}
+
+// Use UE4M3 by default.
+template <class Type, bool UE8M0_SF = false>
+__global__ void
+#if defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 1000)
+__launch_bounds__(512, 4) cvt_fp16_to_fp4(
+#else
+cvt_fp16_to_fp4(
+#endif
+    int32_t numRows, int32_t numCols, Type const* in, float const* SFScale,
+    uint32_t* out, uint32_t* SFout, uint32_t* input_offset_by_experts,
+    uint32_t* output_scale_offset_by_experts, int n_experts) {
+#if defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 1000)
+  using PackedVec = PackedVec<Type>;
+  static constexpr int CVT_FP4_NUM_THREADS_PER_SF =
+      (CVT_FP4_SF_VEC_SIZE / CVT_FP4_ELTS_PER_THREAD);
+  static_assert(sizeof(PackedVec) == sizeof(Type) * CVT_FP4_ELTS_PER_THREAD,
+                "Vec size is not matched.");
+
+  // Input tensor row/col loops.
+  for (int rowIdx = blockIdx.x; rowIdx < numRows; rowIdx += gridDim.x) {
+    for (int colIdx = threadIdx.x; colIdx < numCols / CVT_FP4_ELTS_PER_THREAD;
+         colIdx += blockDim.x) {
+      int64_t inOffset = rowIdx * (numCols / CVT_FP4_ELTS_PER_THREAD) + colIdx;
+      PackedVec in_vec = reinterpret_cast<PackedVec const*>(in)[inOffset];
+      // Get the output tensor offset.
+      // Same as inOffset because 8 elements are packed into one uint32_t.
+      int64_t outOffset = inOffset;
+      auto& out_pos = out[outOffset];
+
+      // Find index within the experts.
+      int rowIdx_in_expert = 0;
+      int expert_idx = 0;
+      for (int i = 0; i < n_experts; i++) {
+        if (rowIdx >= input_offset_by_experts[i] &&
+            rowIdx < input_offset_by_experts[i + 1]) {
+          rowIdx_in_expert = rowIdx - input_offset_by_experts[i];
+          expert_idx = i;
+          break;
+        }
+      }
+
+      // Get the global scaling factor, which will be applied to the SF.
+      // Note SFScale is the same as next GEMM's alpha, which is
+      // (448.f / (Alpha_A / 6.f)).
+      float const SFScaleVal = SFScale == nullptr ? 1.0f : SFScale[expert_idx];
+
+      int factor = CVT_FP4_SF_VEC_SIZE * 4;
+      // The actual output_scales dim is computed from the padded numCols.
+      int32_t numCols_padded = (numCols + factor - 1) / factor * factor;
+      int numCols_SFout = numCols_padded / CVT_FP4_SF_VEC_SIZE / 4;
+      uint32_t* SFout_in_expert =
+          SFout + output_scale_offset_by_experts[expert_idx] * numCols_SFout;
+
+      auto sf_out =
+          cvt_quant_to_fp4_get_sf_out_offset<uint32_t,
+                                             CVT_FP4_NUM_THREADS_PER_SF>(
+              rowIdx_in_expert, colIdx, numCols, SFout_in_expert);
+
+      out_pos =
+          cvt_warp_fp16_to_fp4<Type, UE8M0_SF>(in_vec, SFScaleVal, sf_out);
+    }
+  }
+#endif
+}
+
+template <typename T>
+void quant_impl(void* output, void* output_scale, void* input,
+                void* input_global_scale, void* input_offset_by_experts,
+                void* output_scale_offset_by_experts, int m_topk, int k,
+                int n_experts, cudaStream_t stream) {
+  // TODO: this multiProcessorCount should be cached.
+  int device;
+  cudaGetDevice(&device);
+  int multiProcessorCount;
+  cudaDeviceGetAttribute(&multiProcessorCount, cudaDevAttrMultiProcessorCount,
+                         device);
+
+  // Grid, Block size.
+  // Each thread converts 8 values.
+  dim3 block(std::min(int(k / ELTS_PER_THREAD), 512));
+  // Get number of blocks per SM (assume we can fully utilize the SM).
+  int const numBlocksPerSM = 2048 / block.x;
+  dim3 grid(std::min(int(m_topk), multiProcessorCount * numBlocksPerSM));
+
+  cvt_fp16_to_fp4<T, false><<<grid, block, 0, stream>>>(
+      m_topk, k, reinterpret_cast<T*>(input),
+      reinterpret_cast<float*>(input_global_scale),
+      reinterpret_cast<uint32_t*>(output),
+      reinterpret_cast<uint32_t*>(output_scale),
+      reinterpret_cast<uint32_t*>(input_offset_by_experts),
+      reinterpret_cast<uint32_t*>(output_scale_offset_by_experts), n_experts);
+}
+
+/*Quantization entry for fp4 experts quantization*/
+#define CHECK_TH_CUDA(x, m) TORCH_CHECK(x.is_cuda(), m, "must be a CUDA tensor")
+#define CHECK_CONTIGUOUS(x, m) \
+  TORCH_CHECK(x.is_contiguous(), m, "must be contiguous")
+#define CHECK_INPUT(x, m) \
+  CHECK_TH_CUDA(x, m);    \
+  CHECK_CONTIGUOUS(x, m);
+
+constexpr auto HALF = at::ScalarType::Half;
+constexpr auto BF16 = at::ScalarType::BFloat16;
+constexpr auto FLOAT = at::ScalarType::Float;
+constexpr auto INT = at::ScalarType::Int;
+constexpr auto UINT8 = at::ScalarType::Byte;
+
+void scaled_fp4_experts_quant_sm100a(
+    torch::Tensor& output, torch::Tensor& output_scale,
+    torch::Tensor const& input, torch::Tensor const& input_global_scale,
+    torch::Tensor const& input_offset_by_experts,
+    torch::Tensor const& output_scale_offset_by_experts) {
+  CHECK_INPUT(output, "output must be a CUDA tensor");
+  CHECK_INPUT(output_scale, "output_scale must be a CUDA tensor");
+  CHECK_INPUT(input, "input must be a CUDA tensor");
+  CHECK_INPUT(input_global_scale, "input_global_scale must be a CUDA tensor");
+  CHECK_INPUT(input_offset_by_experts,
+              "input_offset_by_experts must be a CUDA tensor");
+  CHECK_INPUT(output_scale_offset_by_experts,
+              "output_scale_offset_by_experts must be a CUDA tensor");
+
+  TORCH_CHECK(output.dim() == 2);
+  TORCH_CHECK(output_scale.dim() == 2);
+  TORCH_CHECK(input.dim() == 2);
+  TORCH_CHECK(input_global_scale.dim() == 1);
+  TORCH_CHECK(input_offset_by_experts.dim() == 1);
+  TORCH_CHECK(output_scale_offset_by_experts.dim() == 1);
+
+  TORCH_CHECK(input.scalar_type() == HALF || input.scalar_type() == BF16);
+  TORCH_CHECK(input_global_scale.scalar_type() == FLOAT);
+  TORCH_CHECK(input_offset_by_experts.scalar_type() == INT);
+  TORCH_CHECK(output_scale_offset_by_experts.scalar_type() == INT);
+  // output is uint8 (two nvfp4 values are packed into one uint8)
+  // output_scale is int32 (four fp8 values are packed into one int32)
+  TORCH_CHECK(output.scalar_type() == UINT8);
+  TORCH_CHECK(output_scale.scalar_type() == INT);
+
+  const int BLOCK_SIZE = 16;
+  auto m_topk = input.size(0);
+  auto k = input.size(1);
+  TORCH_CHECK(k % BLOCK_SIZE == 0, "k must be a multiple of 16");
+  auto n_experts = input_global_scale.size(0);
+  TORCH_CHECK(input_offset_by_experts.size(0) == n_experts + 1);
+  TORCH_CHECK(output_scale_offset_by_experts.size(0) == n_experts + 1);
+  TORCH_CHECK(output.size(0) == m_topk);
+  TORCH_CHECK(output.size(1) == k / 2);
+  int scales_k = k / BLOCK_SIZE;
+  // 4 means the swizzle requirement by nvidia nvfp4.
+  int padded_k = (scales_k + (4 - 1)) / 4 * 4;
+  // 4 means 4 fp8 values are packed into one int32
+  TORCH_CHECK(output_scale.size(1) * 4 == padded_k);
+
+  auto in_dtype = input.dtype();
+  at::cuda::CUDAGuard device_guard{(char)input.get_device()};
+  const cudaStream_t stream =
+      at::cuda::getCurrentCUDAStream(input.get_device());
+  if (in_dtype == at::ScalarType::Half) {
+    quant_impl<half>(output.data_ptr(), output_scale.data_ptr(),
+                     input.data_ptr(), input_global_scale.data_ptr(),
+                     input_offset_by_experts.data_ptr(),
+                     output_scale_offset_by_experts.data_ptr(), m_topk, k,
+                     n_experts, stream);
+  } else if (in_dtype == at::ScalarType::BFloat16) {
+    quant_impl<__nv_bfloat16>(output.data_ptr(), output_scale.data_ptr(),
+                              input.data_ptr(), input_global_scale.data_ptr(),
+                              input_offset_by_experts.data_ptr(),
+                              output_scale_offset_by_experts.data_ptr(), m_topk,
+                              k, n_experts, stream);
+  } else {
+    TORCH_CHECK(false, "Expected input data type to be half or bfloat16");
+  }
+}
\ No newline at end of file
diff --git a/csrc/quantization/fp4/nvfp4_quant_entry.cu b/csrc/quantization/fp4/nvfp4_quant_entry.cu
index b1426c43b..badbb7e31 100644
--- a/csrc/quantization/fp4/nvfp4_quant_entry.cu
+++ b/csrc/quantization/fp4/nvfp4_quant_entry.cu
@@ -23,10 +23,32 @@ void scaled_fp4_quant_sm100a(torch::Tensor const& output,
                              torch::Tensor const& input_sf);
 #endif
 
+#if defined ENABLE_NVFP4 && ENABLE_NVFP4
+void scaled_fp4_experts_quant_sm100a(
+    torch::Tensor& output, torch::Tensor& output_scale,
+    torch::Tensor const& input, torch::Tensor const& input_global_scale,
+    torch::Tensor const& input_offset_by_experts,
+    torch::Tensor const& output_scale_offset_by_experts);
+#endif
+
 void scaled_fp4_quant(torch::Tensor& output, torch::Tensor const& input,
                       torch::Tensor& output_sf, torch::Tensor const& input_sf) {
 #if defined ENABLE_NVFP4 && ENABLE_NVFP4
   return scaled_fp4_quant_sm100a(output, input, output_sf, input_sf);
 #endif
-  TORCH_CHECK_NOT_IMPLEMENTED(false, "No compiled nvfp4 quantization");
+  TORCH_CHECK_NOT_IMPLEMENTED(false, "No compiled nvfp4 quantization kernel");
+}
+
+void scaled_fp4_experts_quant(
+    torch::Tensor& output, torch::Tensor& output_scale,
+    torch::Tensor const& input, torch::Tensor const& input_global_scale,
+    torch::Tensor const& input_offset_by_experts,
+    torch::Tensor const& output_scale_offset_by_experts) {
+#if defined ENABLE_NVFP4 && ENABLE_NVFP4
+  return scaled_fp4_experts_quant_sm100a(
+      output, output_scale, input, input_global_scale, input_offset_by_experts,
+      output_scale_offset_by_experts);
+#endif
+  TORCH_CHECK_NOT_IMPLEMENTED(false,
+                              "No compiled nvfp4 experts quantization kernel");
 }
diff --git a/csrc/torch_bindings.cpp b/csrc/torch_bindings.cpp
index 7ca40a5e7..1dbd11f5f 100644
--- a/csrc/torch_bindings.cpp
+++ b/csrc/torch_bindings.cpp
@@ -363,6 +363,14 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
       {stride_tag});
   ops.impl("cutlass_scaled_fp4_mm", torch::kCUDA, &cutlass_scaled_fp4_mm);
 
+  // cutlass nvfp4 block scaled group GEMM
+  ops.def(
+      "cutlass_fp4_group_mm(Tensor! out, Tensor a, Tensor b,"
+      " Tensor a_blockscale, Tensor b_blockscales, Tensor alphas,"
+      " Tensor problem_sizes, Tensor expert_offsets, Tensor sf_offsets) -> ()",
+      {stride_tag});
+  ops.impl("cutlass_fp4_group_mm", torch::kCUDA, &cutlass_fp4_group_mm);
+
   // CUTLASS w8a8 GEMM, supporting symmetric per-tensor or per-row/column
   // quantization, as well as bias
   ops.def(
@@ -492,6 +500,13 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
       "                 Tensor! output_scale, Tensor input_scale) -> ()");
   ops.impl("scaled_fp4_quant", torch::kCUDA, &scaled_fp4_quant);
 
+  // Compute NVFP4 experts quantization.
+  ops.def(
+      "scaled_fp4_experts_quant(Tensor! output, Tensor! output_scale,"
+      "Tensor input, Tensor input_global_scale, Tensor input_offset_by_experts,"
+      "Tensor output_scale_offset_by_experts) -> ()");
+  ops.impl("scaled_fp4_experts_quant", torch::kCUDA, &scaled_fp4_experts_quant);
+
   // Check if cutlass_scaled_mm_fp4 is supported for CUDA devices
   // of the given capability
   ops.def("cutlass_scaled_mm_supports_fp4(int cuda_device_capability) -> bool");
diff --git a/tests/kernels/moe/test_nvfp4_moe.py b/tests/kernels/moe/test_nvfp4_moe.py
new file mode 100644
index 000000000..ae63b379f
--- /dev/null
+++ b/tests/kernels/moe/test_nvfp4_moe.py
@@ -0,0 +1,144 @@
+# SPDX-License-Identifier: Apache-2.0
+import pytest
+import torch
+
+from tests.kernels.quantization.nvfp4_utils import (FLOAT4_E2M1_MAX,
+                                                    FLOAT8_E4M3_MAX,
+                                                    dequantize_nvfp4_to_dtype)
+from tests.kernels.utils import torch_moe
+from vllm import _custom_ops as ops
+from vllm.config import ParallelConfig, VllmConfig, set_current_vllm_config
+from vllm.model_executor.layers.fused_moe.cutlass_moe import cutlass_moe_fp4
+from vllm.model_executor.layers.fused_moe.fused_moe import fused_topk
+from vllm.platforms import current_platform
+
+if not current_platform.has_device_capability(100):
+    pytest.skip(reason="Nvfp4 Requires compute capability of 10 or above.",
+                allow_module_level=True)
+
+MNK_FACTORS = [
+    (2, 1024, 1024),
+    (2, 1024, 1536),
+    (2, 3072, 1024),
+    (2, 3072, 1536),
+    (64, 1024, 1024),
+    (64, 1024, 1536),
+    (64, 3072, 1024),
+    (64, 2048, 1536),
+    (224, 1024, 1024),
+    (224, 1024, 1536),
+]
+
+
+@pytest.mark.parametrize("m,n,k", MNK_FACTORS)
+@pytest.mark.parametrize("e", [40, 64, 256])
+@pytest.mark.parametrize("topk", [1, 6, 8])
+@pytest.mark.parametrize("dtype", [torch.half, torch.bfloat16])
+@torch.inference_mode()
+def test_cutlass_fp4_moe_no_graph(m: int, n: int, k: int, e: int, topk: int,
+                                  dtype: torch.dtype):
+    current_platform.seed_everything(7)
+    with set_current_vllm_config(
+            VllmConfig(parallel_config=ParallelConfig(
+                pipeline_parallel_size=1))):
+
+        a = torch.randn((m, k), device="cuda", dtype=dtype) / 10
+        w1 = torch.randn((e, 2 * n, k), device="cuda", dtype=dtype) / 10
+        quant_blocksize = 16
+        round_up = lambda x, y: (x + y - 1) // y * y
+        sf_w1_2n = round_up(2 * n, 128)
+        sf_w1_k = round_up(k // quant_blocksize, 4)
+        w1_blockscale = torch.empty((e, sf_w1_2n, sf_w1_k),
+                                    device="cuda",
+                                    dtype=torch.float8_e4m3fn)
+
+        w2 = torch.randn((e, k, n), device="cuda", dtype=dtype) / 10
+        sf_w2_k = round_up(k, 128)
+        sf_w2_n = round_up(n // quant_blocksize, 4)
+        w2_blockscale = torch.empty((e, sf_w2_k, sf_w2_n),
+                                    device="cuda",
+                                    dtype=torch.float8_e4m3fn)
+
+        w1_q = torch.empty((e, 2 * n, k // 2),
+                           device="cuda",
+                           dtype=torch.uint8)
+        w2_q = torch.empty((e, k, n // 2), device="cuda", dtype=torch.uint8)
+        w1_gs = torch.empty((e, ), device="cuda", dtype=torch.float32)
+        w2_gs = torch.empty((e, ), device="cuda", dtype=torch.float32)
+
+        for expert in range(e):
+            w1_amax = torch.abs(w1).max().to(torch.float32)
+            w2_amax = torch.abs(w2).max().to(torch.float32)
+            w1_gs[expert] = FLOAT8_E4M3_MAX * FLOAT4_E2M1_MAX / w1_amax
+            w2_gs[expert] = FLOAT8_E4M3_MAX * FLOAT4_E2M1_MAX / w2_amax
+
+            w1_q[expert], w1_blockscale[expert] = ops.scaled_fp4_quant(
+                w1[expert], w1_gs[expert])
+
+            w2_q[expert], w2_blockscale[expert] = ops.scaled_fp4_quant(
+                w2[expert], w2_gs[expert])
+
+        score = torch.randn((m, e), device="cuda", dtype=dtype)
+        topk_weights, topk_ids = fused_topk(a, score, topk, renormalize=False)
+
+        a1_gs = torch.ones((e, ), device="cuda", dtype=torch.float32)
+        a2_gs = torch.ones((e, ), device="cuda", dtype=torch.float32)
+
+        cutlass_output = cutlass_moe_fp4(
+            a=a,
+            a1_gscale=a1_gs,
+            w1_fp4=w1_q,
+            w1_blockscale=w1_blockscale,
+            w1_alphas=(1 / w1_gs),
+            a2_gscale=a2_gs,
+            w2_fp4=w2_q,
+            w2_blockscale=w2_blockscale,
+            w2_alphas=(1 / w2_gs),
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            m=m,
+            n=n,
+            k=k,
+            e=e,
+            device=a.device,
+        )
+
+        # Reference check:
+        a_global_scale = ((FLOAT8_E4M3_MAX * FLOAT4_E2M1_MAX) /
+                          torch.amax(a.flatten(), dim=-1)).to(torch.float32)
+        a_fp4, a_scale_interleaved = ops.scaled_fp4_quant(a, a_global_scale)
+        _, m_k = a_fp4.shape
+        a_in_dtype = dequantize_nvfp4_to_dtype(a_fp4,
+                                               a_scale_interleaved,
+                                               a_global_scale,
+                                               dtype=a.dtype,
+                                               device=a.device,
+                                               block_size=quant_blocksize)
+
+        w1_d = torch.empty((e, 2 * n, k), device="cuda", dtype=dtype)
+        w2_d = torch.empty((e, k, n), device="cuda", dtype=dtype)
+
+        for idx in range(0, e):
+            w1_d[idx] = dequantize_nvfp4_to_dtype(w1_q[idx],
+                                                  w1_blockscale[idx],
+                                                  w1_gs[idx],
+                                                  dtype=w1.dtype,
+                                                  device=w1.device,
+                                                  block_size=quant_blocksize)
+            w2_d[idx] = dequantize_nvfp4_to_dtype(w2_q[idx],
+                                                  w2_blockscale[idx],
+                                                  w2_gs[idx],
+                                                  dtype=w2.dtype,
+                                                  device=w2.device,
+                                                  block_size=quant_blocksize)
+
+        torch_output = torch_moe(a_in_dtype, w1_d, w2_d, score, topk, None)
+
+        torch.testing.assert_close(torch_output,
+                                   cutlass_output,
+                                   atol=1e-1,
+                                   rtol=1e-1)
+
+
+if __name__ == "__main__":
+    test_cutlass_fp4_moe_no_graph((2, 1024, 1024), 40, 1, torch.half)
diff --git a/tests/kernels/quantization/nvfp4_utils.py b/tests/kernels/quantization/nvfp4_utils.py
new file mode 100644
index 000000000..58eaeee1c
--- /dev/null
+++ b/tests/kernels/quantization/nvfp4_utils.py
@@ -0,0 +1,66 @@
+# SPDX-License-Identifier: Apache-2.0
+import torch
+
+from vllm.scalar_type import scalar_types
+
+FLOAT4_E2M1_MAX = scalar_types.float4_e2m1f.max()
+FLOAT8_E4M3_MAX = torch.finfo(torch.float8_e4m3fn).max
+
+kE2M1ToFloat = torch.tensor([0., 0.5, 1., 1.5, 2., 3., 4., 6.],
+                            dtype=torch.float32)
+
+
+def convert_swizzled_to_linear(a_sf_swizzled: torch.Tensor, m, k, block_size):
+    m_tiles = (m + 128 - 1) // 128
+    f = block_size * 4
+    k_tiles = (k + f - 1) // f
+    tmp = torch.reshape(a_sf_swizzled, (1, m_tiles, k_tiles, 32, 4, 4))
+    tmp = torch.permute(tmp, (0, 1, 4, 3, 2, 5))
+    out = tmp.reshape(m_tiles * 128, k_tiles * f // block_size)
+    return out[0:m, 0:k]
+
+
+def dequantize_nvfp4_to_dtype(tensor_fp4,
+                              tensor_sf,
+                              global_scale,
+                              dtype,
+                              device,
+                              block_size=16):
+    """Dequantize the fp4 tensor back to high precision."""
+    # Two fp4 values are packed into one uint8.
+    assert tensor_fp4.dtype == torch.uint8
+    m, packed_k = tensor_fp4.shape
+    k = packed_k * 2
+    tensor_f32 = break_fp4_bytes(tensor_fp4, dtype)
+    tensor_f32 = tensor_f32.reshape(m, k // block_size, block_size)
+    tensor_sf = tensor_sf.view(torch.float8_e4m3fn)
+    tensor_sf = convert_swizzled_to_linear(tensor_sf, m, k, block_size)
+    tensor_sf_dtype = tensor_sf.to(torch.float32) / global_scale
+
+    # scale the tensor
+    out = (tensor_f32 * tensor_sf_dtype.unsqueeze(-1)).reshape(m, k)
+    return out.to(dtype=dtype)
+
+
+def break_fp4_bytes(a, dtype):
+    assert a.dtype == torch.uint8
+    m, n = a.shape
+
+    # Vectorized nibble processing
+    a_flat = a.flatten()
+    high = (a_flat & 0xF0) >> 4  # Upper nibbles
+    low = a_flat & 0x0F  # Lower nibbles
+
+    # Combine nibbles for batch processing
+    combined = torch.stack((low, high), dim=1).flatten()
+
+    # Vectorized sign and magnitude extraction
+    signs = (combined & 0x08).to(torch.bool)  # Sign bits
+    abs_vals = (combined & 0x07).to(torch.long)  # Magnitude indices
+
+    # Device-aware lookup and sign application
+    kE2M1 = kE2M1ToFloat.to(device=a.device)
+    values = kE2M1[abs_vals] * torch.where(signs, -1.0, 1.0)
+
+    # Reshape to final form
+    return values.reshape(m, n * 2).to(dtype=dtype)
diff --git a/tests/kernels/quantization/test_nvfp4_scaled_mm.py b/tests/kernels/quantization/test_nvfp4_scaled_mm.py
index b08026c58..1f49900b2 100644
--- a/tests/kernels/quantization/test_nvfp4_scaled_mm.py
+++ b/tests/kernels/quantization/test_nvfp4_scaled_mm.py
@@ -1,10 +1,11 @@
 # SPDX-License-Identifier: Apache-2.0
 import pytest
 import torch
+from nvfp4_utils import (FLOAT4_E2M1_MAX, FLOAT8_E4M3_MAX,
+                         dequantize_nvfp4_to_dtype)
 
 from vllm import _custom_ops as ops
 from vllm.platforms import current_platform
-from vllm.scalar_type import scalar_types
 
 if not current_platform.has_device_capability(100):
     pytest.skip(reason="Nvfp4 Requires compute capability of 10 or above.",
@@ -19,95 +20,24 @@ SHAPES.extend(PAD_SHAPES)
 SEEDS = [42]
 CUDA_DEVICES = ['cuda:0']
 
-FLOAT4_E2M1_MAX = scalar_types.float4_e2m1fn.max()
-FLOAT8_E4M3_MAX = torch.finfo(torch.float8_e4m3fn).max
-
-kE2M1ToFloatArray = [
-    0.,
-    0.5,
-    1.,
-    1.5,
-    2.,
-    3.,
-    4.,
-    6.,
-]
-
-
-def e2m1_to_fp32(int4_value):
-    signBit = (int4_value & 0x8)
-    int4_absValue = int4_value & 0x7
-    float_result = kE2M1ToFloatArray[int4_absValue]
-    if (signBit):
-        float_result = -float_result
-    return float_result
-
-
-def break_fp4_bytes(a, dtype):
-    assert (a.dtype == torch.uint8)
-    m, n = a.shape
-    a = a.flatten()
-    # Get upper 4 bits
-    highHalfByte = (a & 0xF0) >> 4
-    # Get lower 4 bits
-    lowHalfByte = a & 0x0F
-    fH = torch.tensor([e2m1_to_fp32(x) for x in highHalfByte]).to(a.device)
-    fL = torch.tensor([e2m1_to_fp32(x) for x in lowHalfByte]).to(a.device)
-    # [0xAB, 0xCD] -> [0xB, 0xA, 0xD, 0xC]
-    out = torch.stack((fL, fH), dim=-1).reshape(m, n * 2)
-    return out
-
-
-def convert_swizzled_to_linear(a_sf_swizzled: torch.Tensor, m, k, block_size):
-    sf_m, sf_k = a_sf_swizzled.shape
-    m_tiles = (m + 128 - 1) // 128
-    f = block_size * 4
-    k_tiles = (k + f - 1) // f
-    tmp = torch.reshape(a_sf_swizzled, (1, m_tiles, k_tiles, 32, 4, 4))
-    tmp = torch.permute(tmp, (0, 1, 4, 3, 2, 5))
-    out = tmp.reshape(m_tiles * 128, k_tiles * f // block_size)
-    return out[0:m, 0:k]
-
-
-def dequantize_to_dtype(tensor_fp4,
-                        tensor_sf,
-                        global_scale,
-                        dtype,
-                        device,
-                        block_size=16):
-    """Dequantize the fp4 tensor back to high precision."""
-    # Two fp4 values are packed into one uint8.
-    assert tensor_fp4.dtype == torch.uint8
-    m, packed_k = tensor_fp4.shape
-    k = packed_k * 2
-    tensor_f32 = break_fp4_bytes(tensor_fp4, dtype)
-    tensor_f32 = tensor_f32.reshape(m, k // block_size, block_size)
-    tensor_sf = tensor_sf.view(torch.float8_e4m3fn)
-    tensor_sf = convert_swizzled_to_linear(tensor_sf, m, k, block_size)
-    tensor_sf_dtype = tensor_sf.to(torch.float32) / global_scale
-
-    # scale the tensor
-    out = (tensor_f32 * tensor_sf_dtype.unsqueeze(-1)).reshape(m, k)
-    return out
-
 
 def get_ref_results(a_fp4, b_fp4, a_sf, b_sf, a_global_scale, b_global_scale,
                     m, n, dtype, block_size, device):
     _, m_k = a_fp4.shape
     _, n_k = b_fp4.shape
     assert (m_k == n_k)
-    a_in_dtype = dequantize_to_dtype(a_fp4,
-                                     a_sf,
-                                     a_global_scale,
-                                     dtype=dtype,
-                                     device=device,
-                                     block_size=block_size)
-    b_in_dtype = dequantize_to_dtype(b_fp4,
-                                     b_sf,
-                                     b_global_scale,
-                                     dtype=dtype,
-                                     device=device,
-                                     block_size=block_size)
+    a_in_dtype = dequantize_nvfp4_to_dtype(a_fp4,
+                                           a_sf,
+                                           a_global_scale,
+                                           dtype=dtype,
+                                           device=device,
+                                           block_size=block_size)
+    b_in_dtype = dequantize_nvfp4_to_dtype(b_fp4,
+                                           b_sf,
+                                           b_global_scale,
+                                           dtype=dtype,
+                                           device=device,
+                                           block_size=block_size)
     return torch.matmul(a_in_dtype, b_in_dtype.t())
 
 
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index 0206d4552..80f549745 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -745,10 +745,11 @@ def get_cutlass_moe_mm_data(
     - output_permutation: Permutation that must be used to shuffle the output
                           after executing the MMs.
     """
-    torch.ops._C.get_cutlass_moe_mm_data(topk_ids, expert_offsets,
-                                         problem_sizes1, problem_sizes2,
-                                         input_permutation, output_permutation,
-                                         num_experts, n, k)
+    return torch.ops._C.get_cutlass_moe_mm_data(topk_ids, expert_offsets,
+                                                problem_sizes1, problem_sizes2,
+                                                input_permutation,
+                                                output_permutation,
+                                                num_experts, n, k)
 
 
 def cutlass_moe_mm(out_tensors: torch.Tensor, a_tensors: torch.Tensor,
@@ -767,9 +768,41 @@ def cutlass_moe_mm(out_tensors: torch.Tensor, a_tensors: torch.Tensor,
                      MMs used in the fused MoE operation.
     - a/b/c_strides: The data strides passed to grouped matrix multiplication.
     """
-    torch.ops._C.cutlass_moe_mm(out_tensors, a_tensors, b_tensors, a_scales,
-                                b_scales, expert_offsets, problem_sizes,
-                                a_strides, b_strides, c_strides)
+    return torch.ops._C.cutlass_moe_mm(out_tensors, a_tensors, b_tensors,
+                                       a_scales, b_scales, expert_offsets,
+                                       problem_sizes, a_strides, b_strides,
+                                       c_strides)
+
+
+def cutlass_fp4_moe_mm(a_tensors: torch.Tensor, b_tensors: torch.Tensor,
+                       a_scales: torch.Tensor, b_scales: torch.Tensor,
+                       alphas: torch.Tensor, problem_sizes: torch.Tensor,
+                       expert_offsets: torch.Tensor, sf_offsets: torch.Tensor,
+                       out_dtype: torch.dtype, device: torch.device):
+    """
+    An FP4 Blockscaled Group Gemm that takes in  a_tensors, b_tensors and runs 
+    the gemms for each combination based on the specified problem sizes.
+
+    This is used as the MoE gemm during NVFP4 Quantized FusedMoE forward.
+    - a/b_tensors: the NVFP4 a_ptrs and b_ptrs tensors which are quantized
+                     input and expert weights.
+    - a_/b_scales: The blockscales in FP8-E4M3 precision
+    - expert_offsets/sf_offsets: Indices that mark at which token index 
+                    each expert begins its computation. The number of tokens 
+                    computed with expert E is expert_offsets[E + 1] - 
+                    expert_offsets[E] And the sf_size per expert is 
+                    sf_offset[E+1] - sf_offset[E]
+    - problem_sizes: MxNxK sizes of each expert's multiplication in two grouped
+                     MMs used in the fused MoE operation.
+    """
+    m_topk = a_tensors.shape[0]
+    n = b_tensors.shape[1]
+    c_shape = (m_topk, n)
+    c = torch.empty(c_shape, device=device, dtype=out_dtype)
+    torch.ops._C.cutlass_fp4_group_mm(c, a_tensors, b_tensors, a_scales,
+                                      b_scales, alphas, problem_sizes,
+                                      expert_offsets, sf_offsets)
+    return c.to(out_dtype)
 
 
 # aqlm
@@ -960,6 +993,57 @@ def scaled_fp4_quant(
     return output, output_scale
 
 
+def scaled_fp4_experts_quant(
+    input_tensor: torch.Tensor,
+    input_global_scale: torch.Tensor,
+    expert_offsets: torch.Tensor,
+    blockscale_offsets: torch.Tensor,
+    topk: int,
+    expert_map: Optional[torch.Tensor] = None,
+    MAX_TOKENS_PER_EXPERT: int = 163840,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Quantize input tensor to FP4 and return quantized tensor and scale, for
+    packed MoE Inputs.
+    Args:
+        input: The input tensor to be quantized to FP4
+        expert_map: The expert map tensor
+        input_global_scale: A scalar scaling factor for the entire tensor.
+        expert_offsets: The expert offsets tensor
+        blockscale_offsets: The blockscale offsets tensor
+    Outputs:
+        output: The quantized tensor in FP4
+        output_scales: The blockscale tensor in FP8-E4M3
+    """
+    assert not current_platform.is_rocm()
+    assert input_tensor.ndim == 2, (
+        f'input.ndim needs to be == 2, but got {input_tensor.ndim}.')
+
+    input_tensor = input_tensor[
+        expert_map] if expert_map is not None else input_tensor
+    m_numtopk, k = input_tensor.shape
+    assert (m_numtopk <= MAX_TOKENS_PER_EXPERT * topk), (
+        f"m_numtopk must be less than MAX_TOKENS_PER_EXPERT * topk for"
+        f" scaled_fp4_experts_quant kernel, observed m_numtopk = {m_numtopk}")
+    scales_k = k // 16
+    padded_k = (scales_k + (4 - 1)) // 4
+
+    # output is uint8 and packed fp4 values
+    output = torch.empty(m_numtopk,
+                         k // 2,
+                         device=input_tensor.device,
+                         dtype=torch.uint8)
+    output_scales = torch.empty(MAX_TOKENS_PER_EXPERT * topk,
+                                padded_k,
+                                dtype=torch.int32,
+                                device=input_tensor.device)
+    torch.ops._C.scaled_fp4_experts_quant(output, output_scales, input_tensor,
+                                          input_global_scale, expert_offsets,
+                                          blockscale_offsets)
+    output_scales = output_scales.view(torch.float8_e4m3fn)
+    return output, output_scales
+
+
 # fp8
 def scaled_fp8_quant(
     input: torch.Tensor,
diff --git a/vllm/model_executor/layers/fused_moe/__init__.py b/vllm/model_executor/layers/fused_moe/__init__.py
index 9829ccdb3..53e7769b2 100644
--- a/vllm/model_executor/layers/fused_moe/__init__.py
+++ b/vllm/model_executor/layers/fused_moe/__init__.py
@@ -36,7 +36,7 @@ if HAS_TRITON:
     import vllm.model_executor.layers.fused_moe.fused_marlin_moe  # noqa
     import vllm.model_executor.layers.fused_moe.fused_moe  # noqa
     from vllm.model_executor.layers.fused_moe.cutlass_moe import (
-        cutlass_moe_fp8)
+        cutlass_moe_fp4, cutlass_moe_fp8)
     from vllm.model_executor.layers.fused_moe.fused_moe import (
         fused_experts, fused_moe, fused_topk, get_config_file_name,
         grouped_topk)
@@ -48,4 +48,5 @@ if HAS_TRITON:
         "get_config_file_name",
         "grouped_topk",
         "cutlass_moe_fp8",
+        "cutlass_moe_fp4",
     ]
diff --git a/vllm/model_executor/layers/fused_moe/cutlass_moe.py b/vllm/model_executor/layers/fused_moe/cutlass_moe.py
index 960c7f834..1b34e9522 100644
--- a/vllm/model_executor/layers/fused_moe/cutlass_moe.py
+++ b/vllm/model_executor/layers/fused_moe/cutlass_moe.py
@@ -1,10 +1,11 @@
 # SPDX-License-Identifier: Apache-2.0
-"""Fused MoE kernel."""
+""" CUTLASS based Fused MoE kernels."""
 from typing import Optional
 
 import torch
 
 from vllm import _custom_ops as ops
+from vllm.scalar_type import scalar_types
 
 
 #TODO make the grouped gemm kernel consistent with scaled gemm kernel
@@ -178,3 +179,126 @@ def cutlass_moe_fp8(
     if not apply_router_weight_on_input:
         c2 = c2 * topk_weights.view(m, topk, 1).to(out_dtype)
     return c2.sum(dim=1)
+
+
+FLOAT4_E2M1_MAX = scalar_types.float4_e2m1f.max()
+FLOAT8_E4M3_MAX = torch.finfo(torch.float8_e4m3fn).max
+MAX_TOKENS_PER_EXPERT = 65536
+
+
+def cutlass_moe_fp4(a: torch.Tensor, a1_gscale: torch.Tensor,
+                    w1_fp4: torch.Tensor, w1_blockscale: torch.Tensor,
+                    w1_alphas: torch.Tensor, a2_gscale: torch.Tensor,
+                    w2_fp4: torch.Tensor, w2_blockscale: torch.Tensor,
+                    w2_alphas: torch.Tensor, topk_weights: torch.Tensor,
+                    topk_ids: torch.Tensor, m: int, n: int, k: int, e: int,
+                    device: torch.device):
+    """
+    MoE implementation for FP4 Inputs
+    
+    # Gemm 1
+    a: Input tensor: [m, k] (half/bfloat16)
+    a1_gscale: Activation scale per expert: [e]  (float32)
+    w1(gate up) (not an argument to cutlass_moe_fp4): [e, 2 * n, k]
+    w1_fp4: [e, 2 * n, k // 2], dtype: torch.uint8 (stacked fp4: E2M1)
+    (Note: `n` is the up projection output dim, `k` is the input dim in
+     full precision)
+    w1_blockscale: [e, 2 * n, k // block_size] (float8_e4m3)
+                   (Block size = 16 for NVFP4)
+    
+    # Gemm 2
+    a2_gscale: Activation scale per expert: [e]
+    w2(down projection) (not an argument to cutlass_moe_fp4): [e, k, n]
+    w2_fp4: [e, k, n // 2], dtype: torch.uint8 (stacked E2M1)
+    w2_blockscale: [e, k, n // block_size], dtype: float8_e4m3
+    
+    topk_weights: [m, topk] dtype: float8
+    topk_ids: [m, topk] dtype: float8
+    
+    m, n, k: Unquantized weight shapes, dtype: int
+    e: number of experts, dtype: int
+
+    assumes that topk < k < n to satisfy - up/down projection expectations.
+    """
+    assert topk_weights.shape == topk_ids.shape, "topk shape mismatch"
+    assert w1_fp4.dtype == torch.uint8, "weight 1 must be uint8"
+    assert w2_fp4.dtype == torch.uint8, "weight 2 must be uint8"
+    assert (w1_fp4.ndim == 3 and w2_fp4.ndim == 3 and w1_blockscale.ndim == 3
+            and w2_blockscale.ndim
+            == 3), ("All Weights must be of rank 3 for cutlass_moe_fp4")
+    m_a, k_a = a.shape
+    e_w1, nx2_w1, half_k_w1 = w1_fp4.shape
+    e_w2, k_w2, half_n_w2 = w2_fp4.shape
+
+    assert (e_w1 == e_w2 and e_w1 == e), ("Number of experts must match",
+                                          " between weights.")
+    assert (k_a // 2 == half_k_w1
+            and k == k_w2), ("Hidden size mismatch between a, w1 and w2")
+    assert (nx2_w1 == n * 2 and half_n_w2 == n // 2), ("mismatch in "
+                                                       "expected `n`")
+    assert (m == m_a), "input shape mismatch"
+    assert 2 * half_k_w1 == k_w2, "Hidden size mismatch w2 and w1"
+    assert a.dtype in [torch.half, torch.bfloat16], "Invalid input dtype"
+    assert (topk_weights.shape[0] == m and topk_ids.shape[0]
+            == m), ("topk must be provided for each row of a")
+    assert (m <= MAX_TOKENS_PER_EXPERT), (
+        f"m must be less than MAX_TOKENS_PER_EXPERT({MAX_TOKENS_PER_EXPERT})"
+        f" for cutlass_moe_fp4, observed m = {m}")
+    out_dtype = a.dtype
+    num_topk = topk_ids.shape[1]
+
+    expert_offsets = torch.empty((e + 1), dtype=torch.int32, device=device)
+    # Problem size:  (num_experts, (m,2n,k))
+    problem_sizes1 = torch.empty((e, 3), dtype=torch.int32, device=device)
+    # Problem size:  (num_experts, (m,n,k))
+    problem_sizes2 = torch.empty((e, 3), dtype=torch.int32, device=device)
+
+    a_map = torch.empty((topk_ids.numel()), dtype=torch.int32, device=device)
+    c_map = torch.empty((topk_ids.numel()), dtype=torch.int32, device=device)
+
+    # problem shapes should have [m, n, k]
+    # Note that problem sizes are based on logical number of elements.
+    ops.get_cutlass_moe_mm_data(topk_ids, expert_offsets, problem_sizes1,
+                                problem_sizes2, a_map, c_map, e, n, k)
+
+    tokens_per_expert = problem_sizes1[:, 0]
+    rounded_tokens_per_expert = (tokens_per_expert + (128 - 1)) // 128 * 128
+    blockscale_offsets = torch.zeros(e + 1, dtype=torch.int32, device=device)
+    blockscale_offsets[1:] = torch.cumsum(rounded_tokens_per_expert, dim=0)
+
+    rep_a_fp4, rep_a_blockscale = ops.scaled_fp4_experts_quant(
+        a,
+        a1_gscale,
+        expert_offsets,
+        blockscale_offsets,
+        num_topk,
+        expert_map=a_map,
+        MAX_TOKENS_PER_EXPERT=MAX_TOKENS_PER_EXPERT)
+
+    c1 = ops.cutlass_fp4_moe_mm(rep_a_fp4, w1_fp4, rep_a_blockscale,
+                                w1_blockscale, w1_alphas, problem_sizes1,
+                                expert_offsets[:-1], blockscale_offsets[:-1],
+                                out_dtype, device)
+    del rep_a_fp4, rep_a_blockscale
+    # hidden size dimension is split to one halfpytho sized tensor.
+    intermediate = torch.empty((m * num_topk, w1_fp4.shape[1] // 2),
+                               device=device,
+                               dtype=out_dtype)
+
+    torch.ops._C.silu_and_mul(intermediate, c1)
+
+    int_fp4, int_blockscale = ops.scaled_fp4_experts_quant(
+        intermediate,
+        a2_gscale,
+        expert_offsets,
+        blockscale_offsets,
+        num_topk,
+        MAX_TOKENS_PER_EXPERT=MAX_TOKENS_PER_EXPERT)
+
+    c2 = ops.cutlass_fp4_moe_mm(int_fp4, w2_fp4, int_blockscale, w2_blockscale,
+                                w2_alphas, problem_sizes2, expert_offsets[:-1],
+                                blockscale_offsets[:-1], out_dtype, device)
+    del int_fp4, int_blockscale
+    out = (c2[c_map].view(m, num_topk, k) *
+           topk_weights.view(m, num_topk, 1).half()).sum(dim=1)
+    return out.to(dtype=out_dtype)
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 35994c8ac..5337ff003 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -643,7 +643,7 @@ class FusedMoE(torch.nn.Module):
         expert_id = self._map_global_expert_id_to_local_expert_id(expert_id)
         if expert_id == -1:
             return
-
+        quant_method_name = self.quant_method.__class__.__name__
         # compressed-tensors checkpoints with packed weights are stored flipped
         # TODO (mgoin): check self.quant_method.quant_config.quant_format
         # against known CompressionFormat enum values that have this quality
@@ -697,8 +697,9 @@ class FusedMoE(torch.nn.Module):
             # this is needed for compressed-tensors only
             loaded_weight = loaded_weight.to(param.data.device)
 
-            if param.data[expert_id] != 1 and (param.data[expert_id] -
-                                               loaded_weight).abs() > 1e-5:
+            if ("compressed" in quant_method_name.lower()
+                    and param.data[expert_id] != 1
+                    and (param.data[expert_id] - loaded_weight).abs() > 1e-5):
                 raise ValueError(
                     "input_scales of w1 and w3 of a layer "
                     f"must be equal. But got {param.data[expert_id]} "
@@ -718,6 +719,22 @@ class FusedMoE(torch.nn.Module):
                              tp_rank=self.tp_rank)
             return
 
+        if "ModelOpt" in quant_method_name:
+            if ('weight_scale_2' in weight_name
+                    or 'input_scale' in weight_name):
+                self._load_per_tensor_weight_scale(shard_id=shard_id,
+                                                   param=param,
+                                                   loaded_weight=loaded_weight,
+                                                   expert_id=expert_id)
+            elif "weight" in weight_name:
+                self._load_model_weight_or_group_weight_scale(
+                    shard_id=shard_id,
+                    shard_dim=shard_dim,
+                    loaded_weight=loaded_weight,
+                    expert_data=expert_data,
+                    tp_rank=self.tp_rank)
+            return
+
         # Case weight scales, zero_points and offset
         if ("scale" in weight_name or "zero" in weight_name
                 or "offset" in weight_name):
diff --git a/vllm/model_executor/layers/quantization/modelopt.py b/vllm/model_executor/layers/quantization/modelopt.py
index 828447dd1..e9b16b8a0 100644
--- a/vllm/model_executor/layers/quantization/modelopt.py
+++ b/vllm/model_executor/layers/quantization/modelopt.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Dict, List, Optional, Union
+from typing import Any, Callable, Dict, List, Optional, Union
 
 import torch
 from torch.nn import Module
@@ -9,6 +9,8 @@ from torch.nn.parameter import Parameter
 from vllm._custom_ops import (cutlass_scaled_fp4_mm,
                               cutlass_scaled_mm_supports_fp4, scaled_fp4_quant)
 from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.layer import (
+    FusedMoE, FusedMoEMethodBase, FusedMoeWeightScaleSupported)
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                                UnquantizedLinearMethod)
 from vllm.model_executor.layers.quantization import QuantizationMethods
@@ -210,25 +212,37 @@ class ModelOptNvFp4Config(QuantizationConfig):
                              "`hf_quant_config.json` file for your model's "
                              "quant configuration.")
         is_checkpoint_nvfp4_serialized = ("NVFP4" in quant_method)
-        kv_cache_quant_algo = quant_config["kv_cache_quant_algo"]
-        group_size = quant_config["group_size"]
-        exclude_modules = quant_config["exclude_modules"]
-        if not (group_size and kv_cache_quant_algo and exclude_modules):
+        if ("group_size" and "kv_cache_quant_algo"
+                and "exclude_modules") not in quant_config:
             raise ValueError("NVFP4 quantization requires group size and "
                              "kv_cache_quant_algo specified in "
                              "hf_quant_config.json")
+        kv_cache_quant_algo = quant_config["kv_cache_quant_algo"]
+        group_size = quant_config["group_size"]
+        exclude_modules = quant_config["exclude_modules"]
         return cls(is_checkpoint_nvfp4_serialized, kv_cache_quant_algo,
                    exclude_modules, group_size)
 
+    def is_layer_excluded(self, prefix: str, exclude_modules: List):
+        import re
+        for pattern in exclude_modules:
+            regex_str = pattern.replace('.', r'\.').replace('*', r'.*')
+            if re.fullmatch(regex_str, prefix):
+                return True
+        return False
+
     def get_quant_method(self, layer: torch.nn.Module,
                          prefix: str) -> Optional["QuantizeMethodBase"]:
         from vllm.attention.layer import Attention  # Avoid circular import
         if isinstance(layer, LinearBase):
-            if is_layer_skipped(prefix, self.exclude_modules):
+            if (is_layer_skipped(prefix, self.exclude_modules)
+                    or self.is_layer_excluded(prefix, self.exclude_modules)):
                 return UnquantizedLinearMethod()
             return ModelOptNvFp4LinearMethod(self)
         elif isinstance(layer, Attention):
             return ModelOptFp8KVCacheMethod(self)
+        elif isinstance(layer, FusedMoE):
+            return ModelOptNvFp4FusedMoE(self)
         return None
 
 
@@ -409,3 +423,235 @@ class ModelOptNvFp4LinearMethod(LinearMethodBase):
         if bias is not None:
             out = out + bias
         return out.view(*output_shape)
+
+
+class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
+    """
+    MoE Method for FP4 Quantization.
+    Args: 
+        quant_config: NVFP4 Quant Config
+    """
+
+    def __init__(self, quant_config: ModelOptNvFp4Config):
+        self.quant_config = quant_config
+
+    def create_weights(self, layer: torch.nn.Module, num_experts: int,
+                       hidden_size: int, intermediate_size_per_partition: int,
+                       params_dtype: torch.dtype, **extra_weight_attrs):
+        if not self.quant_config.is_checkpoint_nvfp4_serialized:
+            raise ValueError("NVFP4 quantization was selected, "
+                             " dynamic quantization is not supported.")
+
+        layer.quant_config = self.quant_config
+        weight_dtype = torch.uint8
+        weight_scale_dtype = torch.float8_e4m3fn
+        weight_loader = extra_weight_attrs.get("weight_loader")
+        # GEMM 1
+        w13_weight = ModelWeightParameter(
+            data=torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                # 2 fp4 items are packed in the input dimension
+                hidden_size // 2,
+                dtype=weight_dtype),
+            input_dim=1,
+            output_dim=2,
+            weight_loader=weight_loader)
+        layer.register_parameter("w13_weight", w13_weight)
+
+        # GEMM 2
+        w2_weight = ModelWeightParameter(
+            data=torch.empty(
+                num_experts,
+                hidden_size,
+                # 2 fp4 items are packed in the input dimension
+                intermediate_size_per_partition // 2,
+                dtype=weight_dtype),
+            input_dim=1,
+            output_dim=2,
+            weight_loader=weight_loader)
+        layer.register_parameter("w2_weight", w2_weight)
+
+        w13_weight_scale = ModelWeightParameter(
+            data=torch.empty(
+                num_experts,
+                2 * intermediate_size_per_partition,
+                # 2 fp4 items are packed in the input dimension
+                hidden_size // self.quant_config.group_size,
+                dtype=weight_scale_dtype),
+            input_dim=1,
+            output_dim=2,
+            weight_loader=weight_loader)
+        layer.register_parameter("w13_weight_scale", w13_weight_scale)
+
+        w2_weight_scale = ModelWeightParameter(
+            data=torch.empty(
+                num_experts,
+                hidden_size,
+                # 2 fp4 items are packed in the input dimension
+                intermediate_size_per_partition //
+                self.quant_config.group_size,
+                dtype=weight_scale_dtype),
+            input_dim=1,
+            output_dim=2,
+            weight_loader=weight_loader)
+        layer.register_parameter("w2_weight_scale", w2_weight_scale)
+
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.BLOCK.value})
+
+        w13_weight_scale_2 = PerTensorScaleParameter(
+            data=torch.empty(num_experts, 2, dtype=torch.float32),
+            weight_loader=weight_loader)
+        layer.register_parameter("w13_weight_scale_2", w13_weight_scale_2)
+
+        w2_weight_scale_2 = PerTensorScaleParameter(
+            data=torch.empty(num_experts, dtype=torch.float32),
+            weight_loader=weight_loader)
+        layer.register_parameter("w2_weight_scale_2", w2_weight_scale_2)
+
+        extra_weight_attrs.update(
+            {"quant_method": FusedMoeWeightScaleSupported.TENSOR.value})
+
+        w13_input_scale = PerTensorScaleParameter(data=torch.empty(
+            num_experts, 2, dtype=torch.float32),
+                                                  weight_loader=weight_loader)
+        layer.register_parameter("w13_input_scale", w13_input_scale)
+
+        w2_input_scale = PerTensorScaleParameter(data=torch.empty(
+            num_experts, dtype=torch.float32),
+                                                 weight_loader=weight_loader)
+        layer.register_parameter("w2_input_scale", w2_input_scale)
+
+    def swizzle_blockscale(self, scale: torch.tensor):
+        assert (scale.dtype == torch.float8_e4m3fn)
+        # Pad and blockwise interleave weight_scale
+        scale_ndim = scale.ndim
+        if scale.ndim == 2:
+            scale = scale.unsqueeze(0)
+        assert scale.ndim == 3
+        B, M, K = scale.shape
+        round_up_multiple = lambda x, m: (x + m - 1) // m * m
+        M_padded = round_up_multiple(M, 128)
+        K_padded = round_up_multiple(K, 4)
+        padded_scale = torch.zeros((B, M_padded, K_padded), dtype=scale.dtype)
+        padded_scale[:B, :M, :K] = scale
+        batches, rows, cols = padded_scale.shape
+        assert rows % 128 == 0
+        assert cols % 4 == 0
+        padded_scale = padded_scale.reshape(batches, rows // 128, 4, 32,
+                                            cols // 4, 4)
+        swizzled_scale = padded_scale.permute((0, 1, 4, 3, 2, 5))
+        swizzled_scale = swizzled_scale.contiguous().cuda()
+        return (swizzled_scale.reshape(M, K)
+                if scale_ndim == 2 else swizzled_scale.reshape(B, M, K))
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        # GEMM 1
+
+        assert torch.allclose(
+            layer.w13_weight_scale_2[:, 0], layer.w13_weight_scale_2[:, 1]), (
+                "Expected w1_weight_scale_2 to equal w3_weight_scale_2")
+
+        w13_weight_scale_2 = layer.w13_weight_scale_2[:, 0]
+        layer.w13_weight_scale_2 = Parameter(w13_weight_scale_2,
+                                             requires_grad=False)
+
+        w13_input_scale = layer.w13_input_scale.max(dim=1).values.to(
+            torch.float32)
+        layer.g1_alphas = Parameter(
+            (w13_input_scale * w13_weight_scale_2).to(torch.float32),
+            requires_grad=False)
+
+        assert (layer.w13_weight_scale.shape[2] % 16 == 0), (
+            "Expected weight_scale.dim(1) to be divisible by 16")
+        assert (layer.w13_weight_scale.dtype == torch.float8_e4m3fn), (
+            "Weight Blockscale must be represented as FP8-E4M3")
+        w13_blockscale_swizzled = self.swizzle_blockscale(
+            layer.w13_weight_scale)
+
+        layer.w13_blockscale_swizzled = Parameter(w13_blockscale_swizzled,
+                                                  requires_grad=False)
+
+        # This is for quantization, so we need to invert it.
+        layer.w13_input_scale_quant = Parameter(
+            (1 / w13_input_scale).to(torch.float32), requires_grad=False)
+
+        # GEMM 2
+        layer.g2_alphas = Parameter(
+            (layer.w2_input_scale * layer.w2_weight_scale_2).to(torch.float32),
+            requires_grad=False)
+
+        # This is for quantization, so we need to invert it.
+        layer.w2_input_scale_quant = Parameter(
+            (1 / layer.w2_input_scale).to(torch.float32), requires_grad=False)
+
+        assert (layer.w2_weight_scale.shape[2] % 16 == 0), (
+            "Expected weight_scale.dim(1) to be divisible by 16")
+        assert (layer.w2_weight_scale.dtype == torch.float8_e4m3fn), (
+            "Weight Blockscale must be represented as FP8-E4M3")
+        w2_blockscale_swizzled = self.swizzle_blockscale(layer.w2_weight_scale)
+
+        layer.w2_blockscale_swizzled = Parameter(w2_blockscale_swizzled,
+                                                 requires_grad=False)
+        return
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: Optional[int] = None,
+        num_expert_group: Optional[int] = None,
+        global_num_experts: int = -1,
+        expert_map: Optional[torch.Tensor] = None,
+        custom_routing_function: Optional[Callable] = None,
+        scoring_func: str = "softmax",
+        e_score_correction_bias: Optional[torch.Tensor] = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+    ):
+        assert activation == "silu", "Only SiLU activation is supported."
+        assert not apply_router_weight_on_input, (
+            "Router weight on input is not "
+            "supported for ModelOptNvFp4FusedMoE.")
+        assert expert_map is None, ("Expert Parallelism /expert_map "
+                                    "is currently not supported for "
+                                    "ModelOptNvFp4FusedMoE.")
+
+        topk_weights, topk_ids = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            e_score_correction_bias=e_score_correction_bias)
+
+        from vllm.model_executor.layers.fused_moe.cutlass_moe import (
+            cutlass_moe_fp4)
+
+        # Cutlass moe takes in activations in BF16/Half precision
+        # and fp4 quantized weights loaded from the checkpoint
+        return cutlass_moe_fp4(a=x,
+                               w1_fp4=layer.w13_weight,
+                               w1_blockscale=layer.w13_blockscale_swizzled,
+                               w1_alphas=layer.g1_alphas,
+                               w2_fp4=layer.w2_weight,
+                               w2_blockscale=layer.w2_blockscale_swizzled,
+                               w2_alphas=layer.g2_alphas,
+                               topk_weights=topk_weights,
+                               topk_ids=topk_ids,
+                               m=x.shape[0],
+                               n=layer.w2_weight.shape[2] * 2,
+                               k=x.shape[1],
+                               e=layer.w13_weight.shape[0],
+                               a1_gscale=layer.w13_input_scale_quant,
+                               a2_gscale=layer.w2_input_scale_quant,
+                               device=x.device).to(x.dtype)
-- 
GitLab


From 7042cc96b0a8a154ea165c652d4f63e5be9c291e Mon Sep 17 00:00:00 2001
From: Mark McLoughlin <markmc@redhat.com>
Date: Sat, 10 May 2025 02:23:07 +0100
Subject: [PATCH 262/461] [V1][Spec Decoding] Log accumulated metrics after
 system goes idle (#17913)

Signed-off-by: Mark McLoughlin <markmc@redhat.com>
---
 vllm/v1/metrics/loggers.py     | 4 +---
 vllm/v1/spec_decode/metrics.py | 2 ++
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/vllm/v1/metrics/loggers.py b/vllm/v1/metrics/loggers.py
index 9109bdcf4..7455f1813 100644
--- a/vllm/v1/metrics/loggers.py
+++ b/vllm/v1/metrics/loggers.py
@@ -128,9 +128,7 @@ class LoggingStatLogger(StatLoggerBase):
             scheduler_stats.gpu_cache_usage * 100,
             self.prefix_caching_metrics.hit_rate * 100,
         )
-
-        if scheduler_stats.spec_decoding_stats is not None:
-            self.spec_decoding_logging.log(log_fn=log_fn)
+        self.spec_decoding_logging.log(log_fn=log_fn)
 
     def log_engine_initialized(self):
         logger.info(
diff --git a/vllm/v1/spec_decode/metrics.py b/vllm/v1/spec_decode/metrics.py
index eb550a6c4..f71a59908 100644
--- a/vllm/v1/spec_decode/metrics.py
+++ b/vllm/v1/spec_decode/metrics.py
@@ -67,6 +67,8 @@ class SpecDecodingLogging:
             spec_decoding_stats.num_accepted_tokens_per_pos)
 
     def log(self, log_fn=logger.info):
+        if not self.num_drafts:
+            return
         num_drafts = np.sum(self.num_drafts)
         num_draft_tokens = np.sum(self.num_draft_tokens)
         num_accepted_tokens = np.sum(self.num_accepted_tokens)
-- 
GitLab


From 246e3e0a36fdffdc22a31fbcb575d80dd59682d1 Mon Sep 17 00:00:00 2001
From: tracelogfb <48808670+tracelogfb@users.noreply.github.com>
Date: Fri, 9 May 2025 19:46:54 -0700
Subject: [PATCH 263/461] fix broken test vllm:test_kernels -
 test_attention_selector.py::test_flash_attn (#17873)

Co-authored-by: Stephen Chen <tracelog@meta.com>
---
 tests/kernels/attention/test_attention_selector.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/tests/kernels/attention/test_attention_selector.py b/tests/kernels/attention/test_attention_selector.py
index 436cb4308..58da01f0e 100644
--- a/tests/kernels/attention/test_attention_selector.py
+++ b/tests/kernels/attention/test_attention_selector.py
@@ -188,8 +188,9 @@ def test_flash_attn(monkeypatch: pytest.MonkeyPatch):
         m.setenv(STR_BACKEND_ENV_VAR, STR_FLASH_ATTN_VAL)
 
         # Unsupported CUDA arch
-        monkeypatch.setattr(torch.cuda, "get_device_capability", lambda:
-                            (7, 5))
+        monkeypatch.setattr(torch.cuda,
+                            "get_device_capability",
+                            lambda _=None: (7, 5))
         backend = get_attn_backend(16, torch.float16, None, 16, False)
         assert backend.get_name() != STR_FLASH_ATTN_VAL
 
-- 
GitLab


From fc4441a4ee99741ca81ae92f006b531138eea257 Mon Sep 17 00:00:00 2001
From: Ximo Guanter <ximo.guanter@gmail.com>
Date: Sat, 10 May 2025 08:13:32 +0200
Subject: [PATCH 264/461] Add missing content type headers to /ping and /health
 (#17036) (#17786)

Signed-off-by: Ximo Guanter <ximo.guanter@gmail.com>
Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 tests/entrypoints/openai/test_openai_schema.py | 4 ++--
 vllm/entrypoints/openai/api_server.py          | 6 +++---
 2 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/tests/entrypoints/openai/test_openai_schema.py b/tests/entrypoints/openai/test_openai_schema.py
index 1ccb803a3..5c585d54c 100644
--- a/tests/entrypoints/openai/test_openai_schema.py
+++ b/tests/entrypoints/openai/test_openai_schema.py
@@ -44,6 +44,6 @@ schema = schemathesis.from_pytest_fixture("get_schema")
 
 @schema.parametrize()
 @schema.override(headers={"Content-Type": "application/json"})
-async def test_openapi_stateless(case):
+def test_openapi_stateless(case: schemathesis.Case):
     #No need to verify SSL certificate for localhost
-    await case.call_and_validate(verify=False)
+    case.call_and_validate(verify=False)
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index e034eacb2..3699b2d60 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -390,10 +390,10 @@ def engine_client(request: Request) -> EngineClient:
 
 
 @router.get("/health")
-async def health(raw_request: Request) -> Response:
+async def health(raw_request: Request) -> JSONResponse:
     """Health check."""
     await engine_client(raw_request).check_health()
-    return Response(status_code=200)
+    return JSONResponse(content={}, status_code=200)
 
 
 @router.get("/load")
@@ -415,7 +415,7 @@ async def get_server_load_metrics(request: Request):
 
 
 @router.api_route("/ping", methods=["GET", "POST"])
-async def ping(raw_request: Request) -> Response:
+async def ping(raw_request: Request) -> JSONResponse:
     """Ping check. Endpoint required for SageMaker"""
     return await health(raw_request)
 
-- 
GitLab


From 68311891f5036a4faac89ead7dd40826d18da0b1 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Sat, 10 May 2025 14:23:00 +0100
Subject: [PATCH 265/461] Don't default construct `ModelConfig` when default
 constructing `VllmConfig` (#17943)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 vllm/config.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/vllm/config.py b/vllm/config.py
index ef0163eaf..4a5036655 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -3954,7 +3954,9 @@ class VllmConfig:
     simplifies passing around the distinct configurations in the codebase.
     """
 
-    model_config: ModelConfig = field(default_factory=ModelConfig)
+    # TODO: use default_factory once default constructing ModelConfig doesn't
+    # try to download a model
+    model_config: ModelConfig = None  # type: ignore
     """Model configuration."""
     cache_config: CacheConfig = field(default_factory=CacheConfig)
     """Cache configuration."""
-- 
GitLab


From 4c31218f80e35c4d94097a792a15b7817381daf0 Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Sat, 10 May 2025 21:23:31 +0800
Subject: [PATCH 266/461] [Misc] remove --model from vllm serve usage (#17944)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 .../openai_chat_completion_client_with_tools.py               | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/examples/online_serving/openai_chat_completion_client_with_tools.py b/examples/online_serving/openai_chat_completion_client_with_tools.py
index c25203860..94f9c1570 100644
--- a/examples/online_serving/openai_chat_completion_client_with_tools.py
+++ b/examples/online_serving/openai_chat_completion_client_with_tools.py
@@ -7,12 +7,12 @@ IMPORTANT: for mistral, you must use one of the provided mistral tool call
 templates, or your own - the model default doesn't work for tool calls with vLLM
 See the vLLM docs on OpenAI server & tool calling for more details.
 
-vllm serve --model mistralai/Mistral-7B-Instruct-v0.3 \
+vllm serve mistralai/Mistral-7B-Instruct-v0.3 \
             --chat-template examples/tool_chat_template_mistral.jinja \
             --enable-auto-tool-choice --tool-call-parser mistral
 
 OR
-vllm serve --model NousResearch/Hermes-2-Pro-Llama-3-8B \
+vllm serve NousResearch/Hermes-2-Pro-Llama-3-8B \
             --chat-template examples/tool_chat_template_hermes.jinja \
             --enable-auto-tool-choice --tool-call-parser hermes
 """
-- 
GitLab


From 950751a9870f040ad0f1a876a8c8a03ecb97000b Mon Sep 17 00:00:00 2001
From: Chen Zhang <zhangch99@outlook.com>
Date: Sun, 11 May 2025 07:12:04 +0800
Subject: [PATCH 267/461] [v1] Pass BlockTable and KVCacheSpec to
 AttentionMetadataBuilders (#17483)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>
---
 tests/v1/worker/test_gpu_input_batch.py       |  3 ++
 tests/v1/worker/test_gpu_model_runner.py      | 21 ++++++++-
 vllm/v1/attention/backends/flash_attn.py      | 47 ++++++++++++-------
 vllm/v1/attention/backends/flashinfer.py      | 35 ++++++++------
 vllm/v1/attention/backends/mla/common.py      | 23 +++++----
 vllm/v1/attention/backends/mla/flashmla.py    | 11 +++--
 .../attention/backends/mla/rocm_aiter_mla.py  |  7 ++-
 vllm/v1/worker/block_table.py                 | 11 +++++
 vllm/v1/worker/gpu_input_batch.py             |  3 ++
 vllm/v1/worker/gpu_model_runner.py            | 21 ++++-----
 vllm/v1/worker/tpu_model_runner.py            | 18 +++----
 11 files changed, 132 insertions(+), 68 deletions(-)

diff --git a/tests/v1/worker/test_gpu_input_batch.py b/tests/v1/worker/test_gpu_input_batch.py
index 915ec2914..7b1359c85 100644
--- a/tests/v1/worker/test_gpu_input_batch.py
+++ b/tests/v1/worker/test_gpu_input_batch.py
@@ -221,6 +221,7 @@ def test_sampling_metadata_in_input_batch(device: str, batch_size: int):
         max_num_reqs=batch_size,
         max_model_len=1024,
         max_num_blocks_per_req=10,
+        max_num_batched_tokens=1024,
         device=torch.device(device),
         pin_memory=is_pin_memory_available(),
         vocab_size=1024,
@@ -310,6 +311,7 @@ def test_swap_states_in_input_batch(device: str, batch_size: int,
         max_num_reqs=batch_size,
         max_model_len=1024,
         max_num_blocks_per_req=10,
+        max_num_batched_tokens=1024,
         device=torch.device(device),
         pin_memory=is_pin_memory_available(),
         vocab_size=1024,
@@ -318,6 +320,7 @@ def test_swap_states_in_input_batch(device: str, batch_size: int,
         max_num_reqs=batch_size,
         max_model_len=1024,
         max_num_blocks_per_req=10,
+        max_num_batched_tokens=1024,
         device=torch.device(device),
         pin_memory=is_pin_memory_available(),
         vocab_size=1024,
diff --git a/tests/v1/worker/test_gpu_model_runner.py b/tests/v1/worker/test_gpu_model_runner.py
index 68e34cfac..725747294 100644
--- a/tests/v1/worker/test_gpu_model_runner.py
+++ b/tests/v1/worker/test_gpu_model_runner.py
@@ -1,14 +1,31 @@
 # SPDX-License-Identifier: Apache-2.0
+import weakref
+
 import pytest
+import torch
 
 from vllm.config import CacheConfig, ModelConfig, SchedulerConfig, VllmConfig
 from vllm.sampling_params import SamplingParams
 from vllm.v1.core.sched.output import (CachedRequestData, NewRequestData,
                                        SchedulerOutput)
+from vllm.v1.kv_cache_interface import FullAttentionSpec
 from vllm.v1.sample.metadata import SamplingMetadata
 from vllm.v1.worker.gpu_model_runner import GPUModelRunner
 
 
+def initialize_kv_cache(runner: GPUModelRunner):
+    """
+    Only perform necessary steps in GPUModelRunner.initialize_kv_cache()
+    """
+    kv_cache_spec = FullAttentionSpec(block_size=16,
+                                      num_kv_heads=1,
+                                      head_size=64,
+                                      dtype=torch.float16,
+                                      use_mla=False)
+    runner.attn_metadata_builder = runner.attn_backend.get_builder_cls()(
+        weakref.proxy(runner), kv_cache_spec, runner.input_batch.block_table)
+
+
 @pytest.fixture
 def model_runner():
     scheduler_config = SchedulerConfig(
@@ -38,7 +55,9 @@ def model_runner():
     )
 
     device = "cuda"
-    return GPUModelRunner(vllm_config, device)
+    runner = GPUModelRunner(vllm_config, device)
+    initialize_kv_cache(runner)
+    return runner
 
 
 def _schedule_new_request(*req_ids: str) -> SchedulerOutput:
diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index 605dff374..9ed3dec7f 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -19,6 +19,8 @@ from vllm.logger import init_logger
 from vllm.platforms import current_platform
 from vllm.utils import cdiv
 from vllm.v1.attention.backends.utils import CommonAttentionMetadata
+from vllm.v1.kv_cache_interface import AttentionSpec
+from vllm.v1.worker.block_table import BlockTable
 
 if TYPE_CHECKING:
     from vllm.v1.core.sched.output import SchedulerOutput
@@ -167,7 +169,7 @@ def make_local_attention_virtual_batches(
     query_start_loc_np: np.ndarray,
     seq_lens_np: np.ndarray,
     block_table: torch.Tensor,
-    page_size: int = 0,
+    block_size: int = 0,
 ) -> tuple[np.ndarray, np.ndarray, np.ndarray, torch.Tensor]:
     q_seqlens = query_start_loc_np[1:] - query_start_loc_np[:-1]
     actual_batch_size = seq_lens_np.shape[0]
@@ -238,14 +240,14 @@ def make_local_attention_virtual_batches(
     # For the example the local attention blocks start at:
     #                           _b0_  _____b1_____  _b2_
     #   k_seqstarts_absolute = [0, 4, 4, 8, 12, 16, 4, 8]
-    block_starts = k_seqstarts_absolute // page_size
-    assert attn_chunk_size % page_size == 0, \
+    block_starts = k_seqstarts_absolute // block_size
+    assert attn_chunk_size % block_size == 0, \
         f"attn_chunk_size {attn_chunk_size} is not " \
-        f"divisible by page_size {page_size}"
-    pages_per_local_batch = attn_chunk_size // page_size
+        f"divisible by block_size {block_size}"
+    pages_per_local_batch = attn_chunk_size // block_size
 
     # Create a block_table for the local attention blocks
-    # For out example if we have a block-table like (assuming page_size=2):
+    # For out example if we have a block-table like (assuming block_size=2):
     #   block_table = [
     #     [ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],  < batch 0
     #     [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],  < batch 1
@@ -289,7 +291,8 @@ def _get_sliding_window_configs(
 
 class FlashAttentionMetadataBuilder:
 
-    def __init__(self, runner: "GPUModelRunner"):
+    def __init__(self, runner: "GPUModelRunner", kv_cache_spec: AttentionSpec,
+                 block_table: BlockTable):
         model_config = runner.model_config
         compilation_config = runner.vllm_config.compilation_config
 
@@ -299,7 +302,9 @@ class FlashAttentionMetadataBuilder:
         self.num_heads_kv = model_config.get_num_kv_heads(
             runner.parallel_config)
         self.headdim = model_config.get_head_size()
-        self.page_size = self.runner.block_size
+        self.block_size = kv_cache_spec.block_size
+        self.kv_cache_spec = kv_cache_spec
+        self.block_table = block_table
 
         if get_flash_attn_version() == 3:
             self.aot_schedule = not compilation_config.full_cuda_graph
@@ -323,9 +328,17 @@ class FlashAttentionMetadataBuilder:
         max_seq_len = self.runner.seq_lens_np[:num_reqs].max()
         query_start_loc = common_attn_metadata.query_start_loc
         seq_lens = common_attn_metadata.seq_lens
-        block_table = (
-            self.runner.input_batch.block_table.get_device_tensor()[:num_reqs])
-        slot_mapping = self.runner.slot_mapping[:num_actual_tokens]
+        block_table = self.block_table
+        block_table_tensor = block_table.get_device_tensor()[:num_reqs]
+
+        block_table.slot_mapping[:num_actual_tokens].copy_(
+            block_table.slot_mapping_cpu[:num_actual_tokens],
+            non_blocking=True)
+        # Fill unused with -1. Needed for reshape_and_cache in full cuda graph
+        # mode.
+        block_table.slot_mapping[num_actual_tokens:].fill_(-1)
+
+        slot_mapping = block_table.slot_mapping[:num_actual_tokens]
 
         if self.aot_sliding_window is None:
             self.aot_sliding_window = (-1, -1)
@@ -354,7 +367,7 @@ class FlashAttentionMetadataBuilder:
                     num_heads_q=self.num_heads_q,
                     num_heads_kv=self.num_heads_kv,
                     headdim=self.headdim,
-                    page_size=self.page_size,
+                    page_size=self.block_size,
                     cu_seqlens_q=cu_query_lens,
                     causal=causal,
                     window_size=self.aot_sliding_window,
@@ -365,12 +378,12 @@ class FlashAttentionMetadataBuilder:
         local_attn_metadata = None
         if self.runner.attention_chunk_size is not None:
             seqlens_q_local_np, virt_q_cu_seqlens_np, virt_k_seqlens_np, \
-                virt_block_table = make_local_attention_virtual_batches(
+                virt_block_table_tensor = make_local_attention_virtual_batches(
                     self.runner.attention_chunk_size,
                     self.runner.query_start_loc_np[:num_reqs + 1],
                     self.runner.seq_lens_np[:num_reqs],
-                    block_table,
-                    self.runner.block_size,
+                    block_table_tensor,
+                    self.block_size,
                 )
             local_query_start_loc = torch.from_numpy(virt_q_cu_seqlens_np).to(
                 self.runner.device, non_blocking=True)
@@ -389,7 +402,7 @@ class FlashAttentionMetadataBuilder:
             local_attn_metadata = FlashAttentionMetadata.LocalAttentionMetadata(
                 local_query_start_loc=local_query_start_loc,
                 local_seqused_k=local_seqused_k,
-                local_block_table=virt_block_table,
+                local_block_table=virt_block_table_tensor,
                 local_max_query_len=local_max_query_len,
                 local_max_seq_len=local_max_seq_len,
                 local_scheduler_metadata=local_scheduler_metadata,
@@ -440,7 +453,7 @@ class FlashAttentionMetadataBuilder:
             query_start_loc=query_start_loc,
             max_seq_len=max_seq_len,
             seq_lens=seq_lens,
-            block_table=block_table,
+            block_table=block_table_tensor,
             slot_mapping=slot_mapping,
             use_cascade=use_cascade,
             common_prefix_len=common_prefix_len,
diff --git a/vllm/v1/attention/backends/flashinfer.py b/vllm/v1/attention/backends/flashinfer.py
index 0852e15f9..dcc33cffb 100755
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -19,6 +19,8 @@ from vllm.config import (VllmConfig, get_current_vllm_config,
 from vllm.logger import init_logger
 from vllm.v1.attention.backends.flash_attn import use_cascade_attention
 from vllm.v1.attention.backends.utils import CommonAttentionMetadata
+from vllm.v1.kv_cache_interface import AttentionSpec
+from vllm.v1.worker.block_table import BlockTable
 
 if TYPE_CHECKING:
     from vllm.v1.core.sched.output import SchedulerOutput
@@ -202,7 +204,8 @@ class FlashInferMetadata:
 
 class FlashInferMetadataBuilder:
 
-    def __init__(self, runner: GPUModelRunner):
+    def __init__(self, runner: GPUModelRunner, kv_cache_spec: AttentionSpec,
+                 block_table: BlockTable):
         self.runner = runner
         self._workspace_buffer = None
         self._prefill_wrapper = None  # Wrapper for prefill/append
@@ -213,6 +216,8 @@ class FlashInferMetadataBuilder:
         self.global_hyperparameters: Optional[PerLayerParameters] = None
 
         self.vllm_config = get_current_vllm_config()
+        self.kv_cache_spec = kv_cache_spec
+        self.block_table = block_table
 
     def reorder_batch(self, input_batch: InputBatch,
                       scheduler_output: SchedulerOutput) -> bool:
@@ -400,13 +405,12 @@ class FlashInferMetadataBuilder:
         assert self._num_decodes + self._num_prefills == num_reqs
         assert (self._num_decode_tokens +
                 self._num_prefill_tokens == num_actual_tokens)
-        page_size = self.runner.block_size
+        page_size = self.kv_cache_spec.block_size
         device = self.runner.device
         qo_indptr = common_attn_metadata.query_start_loc
         seq_lens = common_attn_metadata.seq_lens
-        block_table = (
-            self.runner.input_batch.block_table.get_device_tensor()[:num_reqs])
-        slot_mapping = self.runner.slot_mapping_cpu[:num_actual_tokens].to(
+        block_table_tensor = self.block_table.get_device_tensor()[:num_reqs]
+        slot_mapping = self.block_table.slot_mapping_cpu[:num_actual_tokens].to(
             self.runner.device, non_blocking=True).long()
 
         block_table_bounds = (seq_lens + page_size - 1) // page_size
@@ -422,12 +426,13 @@ class FlashInferMetadataBuilder:
             shared_kv_page_indptr = torch.tensor([0, num_common_kv_blocks],
                                                  dtype=torch.int32,
                                                  device=device)
-            shared_kv_page_indices = block_table[0, :num_common_kv_blocks]
+            shared_kv_page_indices = block_table_tensor[
+                0, :num_common_kv_blocks]
             shared_kv_last_page_len = torch.tensor([page_size],
                                                    dtype=torch.int32,
                                                    device=device)
             # Remove the blocks of the shared prefix from all requests.
-            block_table = block_table[:, num_common_kv_blocks:]
+            block_table_tensor = block_table_tensor[:, num_common_kv_blocks:]
             block_table_bounds -= num_common_kv_blocks
         else:
             shared_qo_indptr = None
@@ -435,11 +440,11 @@ class FlashInferMetadataBuilder:
             shared_kv_page_indices = None
             shared_kv_last_page_len = None
 
-        mask = (torch.arange(block_table.size(1),
-                             dtype=block_table.dtype,
-                             device=block_table.device).unsqueeze(0)
+        mask = (torch.arange(block_table_tensor.size(1),
+                             dtype=block_table_tensor.dtype,
+                             device=block_table_tensor.device).unsqueeze(0)
                 < block_table_bounds.unsqueeze(1))
-        paged_kv_indices = block_table[mask]
+        paged_kv_indices = block_table_tensor[mask]
 
         paged_kv_indptr = torch.cat([
             torch.zeros(1,
@@ -459,10 +464,10 @@ class FlashInferMetadataBuilder:
             paged_kv_indices=paged_kv_indices,
             paged_kv_last_page_len=paged_kv_last_page_len,
             num_qo_heads=self.runner.num_query_heads,
-            num_kv_heads=self.runner.num_kv_heads,
-            head_dim=self.runner.head_size,
+            num_kv_heads=self.kv_cache_spec.num_kv_heads,
+            head_dim=self.kv_cache_spec.head_size,
             page_size=page_size,
-            data_type=self.runner.kv_cache_dtype,
+            data_type=self.kv_cache_spec.dtype,
             q_data_type=self.runner.dtype,
             slot_mapping=slot_mapping,
             num_decodes=self._num_decodes,
@@ -481,7 +486,7 @@ class FlashInferMetadataBuilder:
         return attn_metadata
 
     def use_cascade_attention(self, *args, **kwargs) -> bool:
-        if self.runner.kv_cache_dtype != self.runner.model_config.dtype:
+        if self.kv_cache_spec.dtype != self.runner.model_config.dtype:
             # TODO: The cascade wrapper currently does not support setting
             # kv cache dtype to something different from query dtype.
             return False
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index 0c740fbcc..69fc1ac69 100644
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -207,6 +207,8 @@ from vllm.model_executor.layers.linear import (ColumnParallelLinear,
 from vllm.platforms import current_platform
 from vllm.utils import cdiv, round_down
 from vllm.v1.attention.backends.utils import CommonAttentionMetadata
+from vllm.v1.kv_cache_interface import AttentionSpec
+from vllm.v1.worker.block_table import BlockTable
 
 try:
     from vllm.vllm_flash_attn import flash_attn_varlen_func
@@ -334,6 +336,8 @@ class MLACommonMetadataBuilder(Generic[M]):
 
     def __init__(self,
                  runner: "GPUModelRunner",
+                 kv_cache_spec: AttentionSpec,
+                 block_table: BlockTable,
                  metadata_cls: Optional[type[M]] = None):
         self.metadata_cls = metadata_cls \
             if metadata_cls is not None else MLACommonMetadata
@@ -346,10 +350,11 @@ class MLACommonMetadataBuilder(Generic[M]):
             runner.parallel_config)
         self.mla_dims = get_mla_dims(model_config)
         self.aot_schedule = is_vllm_fa and (get_flash_attn_version() == 3)
+        self.kv_cache_spec = kv_cache_spec
 
         # Dont try to access the runner on AMD
         if self.aot_schedule:
-            self.page_size = self.runner.block_size
+            self.page_size = self.kv_cache_spec.block_size
 
         if self.chunked_prefill_enabled:
             self.chunked_prefill_workspace_size = min(
@@ -375,6 +380,7 @@ class MLACommonMetadataBuilder(Generic[M]):
                 dtype=model_config.dtype,
                 device=runner.device,
             )
+        self.block_table = block_table
 
     def reorder_batch(self, input_batch: "InputBatch",
                       scheduler_output: "SchedulerOutput") -> bool:
@@ -436,9 +442,10 @@ class MLACommonMetadataBuilder(Generic[M]):
 
         return modified_batch
 
-    def _build_decode(self, block_table: torch.Tensor, seq_lens: torch.Tensor):
+    def _build_decode(self, block_table_tensor: torch.Tensor,
+                      seq_lens: torch.Tensor):
         return MLACommonDecodeMetadata(
-            block_table=block_table,
+            block_table=block_table_tensor,
             seq_lens=seq_lens,
         )
 
@@ -451,9 +458,9 @@ class MLACommonMetadataBuilder(Generic[M]):
         # function. We should avoid GPU -> CPU sync as much as possible because
         # it blocks on all previous kernels.
         device = self.runner.device
-        block_table = (
-            self.runner.input_batch.block_table.get_device_tensor()[:num_reqs])
-        slot_mapping = self.runner.slot_mapping_cpu[:num_actual_tokens].to(
+        block_table = self.block_table
+        block_table_tensor = block_table.get_device_tensor()[:num_reqs]
+        slot_mapping = block_table.slot_mapping_cpu[:num_actual_tokens].to(
             device, non_blocking=True).long()
 
         query_start_loc = common_attn_metadata.query_start_loc
@@ -530,7 +537,7 @@ class MLACommonMetadataBuilder(Generic[M]):
                     self.chunked_prefill_workspace_size
 
             prefill_metadata = MLACommonPrefillMetadata(
-                block_table=block_table[reqs_start:, ...],
+                block_table=block_table_tensor[reqs_start:, ...],
                 query_start_loc=prefill_query_start_loc,
                 max_query_len=max_query_len,
                 chunked_context=chunked_context_metadata,
@@ -539,7 +546,7 @@ class MLACommonMetadataBuilder(Generic[M]):
         decode_metadata = None
         if self._num_decodes > 0:
             decode_metadata = self._build_decode(
-                block_table=block_table[:self._num_decodes, ...],
+                block_table_tensor=block_table_tensor[:self._num_decodes, ...],
                 seq_lens=seq_lens[:self._num_decodes],
             )
 
diff --git a/vllm/v1/attention/backends/mla/flashmla.py b/vllm/v1/attention/backends/mla/flashmla.py
index 2f35f9b0a..e6594c6b6 100644
--- a/vllm/v1/attention/backends/mla/flashmla.py
+++ b/vllm/v1/attention/backends/mla/flashmla.py
@@ -16,6 +16,8 @@ from vllm.v1.attention.backends.mla.common import (MLACommonBackend,
                                                    MLACommonImpl,
                                                    MLACommonMetadata,
                                                    MLACommonMetadataBuilder)
+from vllm.v1.kv_cache_interface import AttentionSpec
+from vllm.v1.worker.block_table import BlockTable
 
 logger = init_logger(__name__)
 
@@ -52,13 +54,14 @@ class FlashMLAMetadata(MLACommonMetadata[FlashMLADecodeMetadata]):
 
 class FlashMLAMetadataBuilder(MLACommonMetadataBuilder[FlashMLAMetadata]):
 
-    def __init__(self, runner):
-        super().__init__(runner)
+    def __init__(self, runner, kv_cache_spec: AttentionSpec,
+                 block_table: BlockTable):
+        super().__init__(runner, kv_cache_spec, block_table)
 
         self.num_q_heads = self.runner.model_config.get_num_attention_heads(
             self.runner.parallel_config)
 
-    def _build_decode(self, block_table: torch.Tensor,
+    def _build_decode(self, block_table_tensor: torch.Tensor,
                       seq_lens: torch.Tensor) -> FlashMLADecodeMetadata:
         tile_scheduler_metadata, num_splits = \
             get_mla_metadata(
@@ -68,7 +71,7 @@ class FlashMLAMetadataBuilder(MLACommonMetadataBuilder[FlashMLAMetadata]):
         )
 
         return FlashMLADecodeMetadata(
-            block_table=block_table,
+            block_table=block_table_tensor,
             seq_lens=seq_lens,
             tile_scheduler_metadata=tile_scheduler_metadata,
             num_splits=num_splits,
diff --git a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
index 37b72c08d..f46010d75 100644
--- a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
+++ b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
@@ -14,6 +14,8 @@ from vllm.v1.attention.backends.mla.common import (MLACommonBackend,
                                                    MLACommonImpl,
                                                    MLACommonMetadata,
                                                    MLACommonMetadataBuilder)
+from vllm.v1.kv_cache_interface import AttentionSpec
+from vllm.v1.worker.block_table import BlockTable
 
 # yapf: enable
 
@@ -59,8 +61,9 @@ class AiterMLAMetadata(MLACommonMetadata[AiterMLADecodeMetadata]):
 
 class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
 
-    def __init__(self, runner):
-        super().__init__(runner)
+    def __init__(self, runner, kv_cache_spec: AttentionSpec,
+                 block_table: BlockTable):
+        super().__init__(runner, kv_cache_spec, block_table)
         max_model_len = self.runner.model_config.max_model_len
         assert max_model_len == 32768,\
             "AITER MLA requires max_model_len=32768"
diff --git a/vllm/v1/worker/block_table.py b/vllm/v1/worker/block_table.py
index 7d4082b73..581d3d9bd 100644
--- a/vllm/v1/worker/block_table.py
+++ b/vllm/v1/worker/block_table.py
@@ -14,11 +14,13 @@ class BlockTable:
         self,
         max_num_reqs: int,
         max_num_blocks_per_req: int,
+        max_num_batched_tokens: int,
         pin_memory: bool,
         device: torch.device,
     ):
         self.max_num_reqs = max_num_reqs
         self.max_num_blocks_per_req = max_num_blocks_per_req
+        self.max_num_batched_tokens = max_num_batched_tokens
         self.pin_memory = pin_memory
         self.device = device
 
@@ -36,6 +38,15 @@ class BlockTable:
         self.block_table_np = self.block_table_cpu.numpy()
         self.num_blocks_per_row = np.zeros(max_num_reqs, dtype=np.int32)
 
+        self.slot_mapping_cpu = torch.zeros(self.max_num_batched_tokens,
+                                            dtype=torch.int64,
+                                            device="cpu",
+                                            pin_memory=self.pin_memory)
+        self.slot_mapping_np = self.slot_mapping_cpu.numpy()
+        self.slot_mapping = torch.zeros(self.max_num_batched_tokens,
+                                        dtype=torch.int64,
+                                        device=self.device)
+
     def append_row(
         self,
         block_ids: list[int],
diff --git a/vllm/v1/worker/gpu_input_batch.py b/vllm/v1/worker/gpu_input_batch.py
index c00424dfe..871654fca 100644
--- a/vllm/v1/worker/gpu_input_batch.py
+++ b/vllm/v1/worker/gpu_input_batch.py
@@ -59,6 +59,7 @@ class InputBatch:
         max_num_reqs: int,
         max_model_len: int,
         max_num_blocks_per_req: int,
+        max_num_batched_tokens: int,
         device: torch.device,
         pin_memory: bool,
         vocab_size: int,
@@ -66,6 +67,7 @@ class InputBatch:
         self.max_num_reqs = max_num_reqs
         self.max_model_len = max_model_len
         self.max_num_blocks_per_req = max_num_blocks_per_req
+        self.max_num_batched_tokens = max_num_batched_tokens
         self.device = device
         self.pin_memory = pin_memory
         self.vocab_size = vocab_size
@@ -100,6 +102,7 @@ class InputBatch:
         self.block_table = BlockTable(
             max_num_reqs=max_num_reqs,
             max_num_blocks_per_req=max_num_blocks_per_req,
+            max_num_batched_tokens=max_num_batched_tokens,
             pin_memory=pin_memory,
             device=device,
         )
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index bd8c87fd9..fdb1339cd 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -150,8 +150,6 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                     f"FA3. Current attention backend is {attn_backend_name}, "
                     f"FlashAttention version is {flash_attn_version}.")
 
-        self.attn_metadata_builder = self.attn_backend.get_builder_cls()(
-            weakref.proxy(self))
         self.cascade_attn_enabled = not self.model_config.disable_cascade_attn
 
         # Multi-modal data support
@@ -174,6 +172,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         # Initialize in initialize_kv_cache
         self.kv_caches: list[torch.Tensor] = []
         # self.kv_cache_config: KVCacheConfig
+        # self.attn_metadata_builder: type[AttentionMetadataBuilder]
 
         # req_id -> (input_id -> encoder_output)
         self.encoder_cache: dict[str, dict[int, torch.Tensor]] = {}
@@ -203,6 +202,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             max_num_reqs=self.max_num_reqs,
             max_model_len=self.max_model_len,
             max_num_blocks_per_req=self.max_num_blocks_per_req,
+            max_num_batched_tokens=self.max_num_tokens,
             device=self.device,
             pin_memory=self.pin_memory,
             vocab_size=model_config.get_vocab_size(),
@@ -291,11 +291,6 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                                          device="cpu",
                                          pin_memory=self.pin_memory)
         self.positions_np = self.positions_cpu.numpy()
-        self.slot_mapping_cpu = torch.zeros(self.max_num_tokens,
-                                            dtype=torch.int64,
-                                            device="cpu",
-                                            pin_memory=self.pin_memory)
-        self.slot_mapping_np = self.slot_mapping_cpu.numpy()
         self.query_start_loc_cpu = torch.zeros(self.max_num_reqs + 1,
                                                dtype=torch.int32,
                                                device="cpu",
@@ -586,7 +581,8 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         block_offsets = positions_np % self.block_size
         np.add(block_numbers * self.block_size,
                block_offsets,
-               out=self.slot_mapping_np[:total_num_scheduled_tokens])
+               out=self.input_batch.block_table.
+               slot_mapping_np[:total_num_scheduled_tokens])
 
         # Prepare the attention metadata.
         self.query_start_loc_np[0] = 0
@@ -614,12 +610,8 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             self.query_start_loc_cpu[:num_reqs + 1], non_blocking=True)
         self.seq_lens[:num_reqs].copy_(self.seq_lens_cpu[:num_reqs],
                                        non_blocking=True)
-        self.slot_mapping[:total_num_scheduled_tokens].copy_(
-            self.slot_mapping_cpu[:total_num_scheduled_tokens],
-            non_blocking=True)
 
         # Fill unused with -1. Needed for reshape_and_cache
-        self.slot_mapping[total_num_scheduled_tokens:].fill_(-1)
         self.seq_lens[num_reqs:].fill_(0)
         self.query_start_loc[num_reqs + 1:].fill_(-1)
 
@@ -1821,6 +1813,11 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             self.vllm_config.compilation_config.static_forward_context,
             self.kv_caches)
 
+        self.attn_metadata_builder = self.attn_backend.get_builder_cls()(
+            weakref.proxy(self),
+            kv_cache_config.kv_cache_groups[0].kv_cache_spec,
+            self.input_batch.block_table)
+
     def get_kv_cache_spec(self) -> dict[str, KVCacheSpec]:
         """
         Generates the KVCacheSpec by parsing the kv cache format from each
diff --git a/vllm/v1/worker/tpu_model_runner.py b/vllm/v1/worker/tpu_model_runner.py
index be059c304..983f8707a 100644
--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@@ -179,6 +179,7 @@ class TPUModelRunner(LoRAModelRunnerMixin):
             max_num_reqs=self.max_num_reqs,
             max_model_len=self.max_model_len,
             max_num_blocks_per_req=self.max_num_blocks_per_req,
+            max_num_batched_tokens=self.max_num_tokens,
             device=self.device,
             pin_memory=self.pin_memory,
             vocab_size=self.vocab_size,
@@ -197,10 +198,6 @@ class TPUModelRunner(LoRAModelRunnerMixin):
                                          device="cpu")
         self.positions_np = self.positions_cpu.numpy()
 
-        self.slot_mapping_cpu = torch.zeros(self.max_num_tokens,
-                                            dtype=torch.int64,
-                                            device="cpu")
-        self.slot_mapping_np = self.slot_mapping_cpu.numpy()
         self.block_table_cpu = torch.zeros(
             (self.max_num_reqs, self.max_num_blocks_per_req),
             dtype=self.input_batch.block_table.get_cpu_tensor().dtype,
@@ -533,7 +530,8 @@ class TPUModelRunner(LoRAModelRunnerMixin):
         block_offsets = positions_np % self.block_size
         np.add(block_numbers * self.block_size,
                block_offsets,
-               out=self.slot_mapping_np[:total_num_scheduled_tokens])
+               out=self.input_batch.block_table.
+               slot_mapping_cpu[:total_num_scheduled_tokens])
 
         # Prepare the attention metadata.
         self.query_start_loc_np[0] = 0
@@ -557,10 +555,12 @@ class TPUModelRunner(LoRAModelRunnerMixin):
         self.position_ids = self.positions_cpu[:
                                                padded_total_num_scheduled_tokens].to(
                                                    self.device)
-        self.slot_mapping_cpu[total_num_scheduled_tokens:] = _PAD_SLOT_ID
-        slot_mapping = self.slot_mapping_cpu[:
-                                             padded_total_num_scheduled_tokens].to(
-                                                 self.device)
+        self.input_batch.block_table.slot_mapping_cpu[
+            total_num_scheduled_tokens:] = _PAD_SLOT_ID
+        slot_mapping = (
+            self.input_batch.block_table.
+            slot_mapping_cpu[:padded_total_num_scheduled_tokens].to(
+                self.device))
         block_tables = self.block_table_cpu[:self.max_num_reqs]
         block_tables[:num_reqs, :self.max_num_blocks_per_req] = (
             self.input_batch.block_table.get_cpu_tensor()[:num_reqs])
-- 
GitLab


From ca66a1674c253b310e1aef94c9766fcf506db187 Mon Sep 17 00:00:00 2001
From: Chen Zhang <zhangch99@outlook.com>
Date: Sun, 11 May 2025 07:14:12 +0800
Subject: [PATCH 268/461] [v1] Rename specialized_manager.py to
 single_type_kv_cache_manager.py (#17946)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>
---
 tests/v1/core/test_specialized_manager.py                      | 2 +-
 vllm/v1/core/kv_cache_manager.py                               | 3 ++-
 ...{specialized_manager.py => single_type_kv_cache_manager.py} | 0
 3 files changed, 3 insertions(+), 2 deletions(-)
 rename vllm/v1/core/{specialized_manager.py => single_type_kv_cache_manager.py} (100%)

diff --git a/tests/v1/core/test_specialized_manager.py b/tests/v1/core/test_specialized_manager.py
index 540720cb9..de06da0fc 100644
--- a/tests/v1/core/test_specialized_manager.py
+++ b/tests/v1/core/test_specialized_manager.py
@@ -4,7 +4,7 @@ import torch
 
 from vllm.v1.core.block_pool import BlockPool
 from vllm.v1.core.kv_cache_utils import BlockHashType, KVCacheBlock
-from vllm.v1.core.specialized_manager import SlidingWindowManager
+from vllm.v1.core.single_type_kv_cache_manager import SlidingWindowManager
 from vllm.v1.kv_cache_interface import SlidingWindowSpec
 
 
diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
index c4ed127ec..ad8468a89 100644
--- a/vllm/v1/core/kv_cache_manager.py
+++ b/vllm/v1/core/kv_cache_manager.py
@@ -10,7 +10,8 @@ from vllm.utils import sha256
 from vllm.v1.core.block_pool import BlockPool
 from vllm.v1.core.kv_cache_utils import (BlockHashType, KVCacheBlock,
                                          hash_request_tokens)
-from vllm.v1.core.specialized_manager import get_manager_for_kv_cache_spec
+from vllm.v1.core.single_type_kv_cache_manager import (
+    get_manager_for_kv_cache_spec)
 from vllm.v1.kv_cache_interface import KVCacheConfig
 from vllm.v1.metrics.stats import PrefixCacheStats
 from vllm.v1.request import Request, RequestStatus
diff --git a/vllm/v1/core/specialized_manager.py b/vllm/v1/core/single_type_kv_cache_manager.py
similarity index 100%
rename from vllm/v1/core/specialized_manager.py
rename to vllm/v1/core/single_type_kv_cache_manager.py
-- 
GitLab


From d74e5f37bc63d297408460ff6cbf4d74d3c605b5 Mon Sep 17 00:00:00 2001
From: Jinzhen Lin <linjinzhen@hotmail.com>
Date: Sun, 11 May 2025 10:58:49 +0800
Subject: [PATCH 269/461] [Kernel] fp4 marlin kernel (#17687)

Signed-off-by: Jinzhen Lin <linjinzhen@hotmail.com>
---
 csrc/core/scalar_type.hpp                     |   3 +
 csrc/moe/marlin_moe_wna16/generate_kernels.py |  13 +-
 csrc/moe/marlin_moe_wna16/kernel.h            |  23 +-
 csrc/moe/marlin_moe_wna16/marlin_template.h   | 139 +++++--
 csrc/moe/marlin_moe_wna16/ops.cu              |  84 ++++-
 csrc/moe/torch_bindings.cpp                   |   3 +-
 csrc/quantization/gptq_marlin/dequant.h       | 356 ++++++++++++++----
 .../gptq_marlin/generate_kernels.py           |  13 +-
 csrc/quantization/gptq_marlin/gptq_marlin.cu  |  81 +++-
 csrc/quantization/gptq_marlin/kernel.h        |  15 +-
 .../gptq_marlin/marlin_template.h             | 121 ++++--
 csrc/torch_bindings.cpp                       |   4 +-
 tests/kernels/moe/test_moe.py                 | 135 +++++--
 .../kernels/quantization/test_marlin_gemm.py  | 114 ++----
 vllm/_custom_ops.py                           |  20 +-
 .../layers/fused_moe/fused_marlin_moe.py      |  14 +-
 .../layers/quantization/hqq_marlin.py         |   4 +-
 .../layers/quantization/modelopt.py           |  84 ++++-
 .../layers/quantization/utils/marlin_utils.py |  16 +-
 .../quantization/utils/marlin_utils_fp4.py    | 277 ++++++++++++++
 .../quantization/utils/marlin_utils_fp8.py    |  26 +-
 21 files changed, 1215 insertions(+), 330 deletions(-)
 create mode 100644 vllm/model_executor/layers/quantization/utils/marlin_utils_fp4.py

diff --git a/csrc/core/scalar_type.hpp b/csrc/core/scalar_type.hpp
index c2ae554c9..d0f85e236 100644
--- a/csrc/core/scalar_type.hpp
+++ b/csrc/core/scalar_type.hpp
@@ -315,6 +315,8 @@ static inline constexpr auto kS8 = ScalarType::int_(8);
 static inline constexpr auto kU8 = ScalarType::uint(8);
 static inline constexpr auto kU8B128 = ScalarType::uint(8, 128);
 
+static inline constexpr auto kFE2M1f =
+    ScalarType::float_(2, 1, true, ScalarType::NAN_NONE);
 static inline constexpr auto kFE3M2f =
     ScalarType::float_(3, 2, true, ScalarType::NAN_NONE);
 static inline constexpr auto kFE4M3fn =
@@ -332,6 +334,7 @@ static inline constexpr auto kInt8 = kS8;
 static inline constexpr auto kUint8 = kU8;
 static inline constexpr auto kUint8b128 = kU8B128;
 
+static inline constexpr auto kFloat4_e2m1f = kFE2M1f;
 static inline constexpr auto kFloat6_e3m2f = kFE3M2f;
 static inline constexpr auto kFloat8_e4m3fn = kFE4M3fn;
 static inline constexpr auto kFloat8_e5m2 = kFE5M2;
diff --git a/csrc/moe/marlin_moe_wna16/generate_kernels.py b/csrc/moe/marlin_moe_wna16/generate_kernels.py
index 902bcd9df..15f008d4f 100644
--- a/csrc/moe/marlin_moe_wna16/generate_kernels.py
+++ b/csrc/moe/marlin_moe_wna16/generate_kernels.py
@@ -31,7 +31,10 @@ TEMPLATE = ("template __global__ void Marlin<"
 
 # int8 with zero point case (vllm::kU8) is also supported,
 # we don't add it to reduce wheel size.
-SCALAR_TYPES = ["vllm::kU4", "vllm::kU4B8", "vllm::kU8B128", "vllm::kFE4M3fn"]
+SCALAR_TYPES = [
+    "vllm::kU4", "vllm::kU4B8", "vllm::kU8B128", "vllm::kFE4M3fn",
+    "vllm::kFE2M1f"
+]
 THREAD_CONFIGS = [(128, 128, 256), (64, 256, 256), (64, 128, 128)]
 
 THREAD_M_BLOCKS = [0.5, 1, 2, 3, 4]
@@ -39,7 +42,7 @@ THREAD_M_BLOCKS = [0.5, 1, 2, 3, 4]
 #   = 0 : act order case
 #   = -1 : channelwise quantization
 #   > 0 : group_size=16*group_blocks
-GROUP_BLOCKS = [0, -1, 2, 4, 8]
+GROUP_BLOCKS = [0, -1, 1, 2, 4, 8]
 DTYPES = ["fp16", "bf16"]
 
 
@@ -72,6 +75,12 @@ def generate_new_kernels():
             # for fp8
             if scalar_type == "vllm::kFE4M3fn" and group_blocks not in [-1, 8]:
                 continue
+            # nvfp4 only supports group_size == 16
+            if scalar_type == "vllm::kFE2M1f" and group_blocks not in [1, 2]:
+                continue
+            # other quantization methods don't support group_size = 16
+            if scalar_type != "vllm::kFE2M1f" and group_blocks == 1:
+                continue
 
             k_blocks = thread_configs[0] // 16
             n_blocks = thread_configs[1] // 16
diff --git a/csrc/moe/marlin_moe_wna16/kernel.h b/csrc/moe/marlin_moe_wna16/kernel.h
index c40c33d01..537282aba 100644
--- a/csrc/moe/marlin_moe_wna16/kernel.h
+++ b/csrc/moe/marlin_moe_wna16/kernel.h
@@ -7,17 +7,18 @@
 #include "quantization/gptq_marlin/marlin_dtypes.cuh"
 #include "core/scalar_type.hpp"
 
-#define MARLIN_KERNEL_PARAMS                                                \
-  const int4 *__restrict__ A, const int4 *__restrict__ B,                   \
-      int4 *__restrict__ C, int4 *__restrict__ C_tmp,                       \
-      const int4 *__restrict__ scales_ptr, const int4 *__restrict__ zp_ptr, \
-      const int *__restrict__ g_idx,                                        \
-      const int32_t *__restrict__ sorted_token_ids_ptr,                     \
-      const int32_t *__restrict__ expert_ids_ptr,                           \
-      const int32_t *__restrict__ num_tokens_past_padded_ptr,               \
-      const float *__restrict__ topk_weights_ptr, int top_k,                \
-      bool mul_topk_weights, bool is_ep, int num_groups, int prob_m,        \
-      int prob_n, int prob_k, int *locks, bool use_atomic_add,              \
+#define MARLIN_KERNEL_PARAMS                                          \
+  const int4 *__restrict__ A, const int4 *__restrict__ B,             \
+      int4 *__restrict__ C, int4 *__restrict__ C_tmp,                 \
+      const int4 *__restrict__ scales_ptr,                            \
+      const uint16_t *__restrict__ scale2_ptr,                        \
+      const int4 *__restrict__ zp_ptr, const int *__restrict__ g_idx, \
+      const int32_t *__restrict__ sorted_token_ids_ptr,               \
+      const int32_t *__restrict__ expert_ids_ptr,                     \
+      const int32_t *__restrict__ num_tokens_past_padded_ptr,         \
+      const float *__restrict__ topk_weights_ptr, int top_k,          \
+      bool mul_topk_weights, bool is_ep, int num_groups, int prob_m,  \
+      int prob_n, int prob_k, int *locks, bool use_atomic_add,        \
       bool use_fp32_reduce, int max_shared_mem
 
 namespace MARLIN_NAMESPACE_NAME {
diff --git a/csrc/moe/marlin_moe_wna16/marlin_template.h b/csrc/moe/marlin_moe_wna16/marlin_template.h
index c9e199bce..dedbe1b79 100644
--- a/csrc/moe/marlin_moe_wna16/marlin_template.h
+++ b/csrc/moe/marlin_moe_wna16/marlin_template.h
@@ -301,9 +301,11 @@ __global__ void Marlin(
     int4* __restrict__ C_tmp,    // fp32 tmp output buffer (for reduce)
     const int4* __restrict__ scales_ptr,  // fp16 quantization scales of shape
                                           // (k/groupsize)xn
-    const int4* __restrict__ zp_ptr,      // 4bit packed zero-points of shape
-                                          // (k/groupsize)x(n/pack_factor)
-    const int* __restrict__ g_idx,        // int32 group indices of shape k
+    const uint16_t* __restrict__ scale2_ptr,  // fp16 global scale (for nvfp4
+                                              // only)
+    const int4* __restrict__ zp_ptr,  // 4bit packed zero-points of shape
+                                      // (k/groupsize)x(n/pack_factor)
+    const int* __restrict__ g_idx,    // int32 group indices of shape k
     const int32_t* __restrict__ sorted_token_ids_ptr,        // moe sorted_ids
     const int32_t* __restrict__ expert_ids_ptr,              // moe expert ids
     const int32_t* __restrict__ num_tokens_past_padded_ptr,  // moe num tokens
@@ -341,6 +343,16 @@ __global__ void Marlin(
   extern __shared__ int4 sh[];
   static constexpr auto w_type = vllm::ScalarType::from_id(w_type_id);
   constexpr bool has_zp = w_type == vllm::kU4 || w_type == vllm::kU8;
+  constexpr bool is_int_type = w_type == vllm::kU4 || w_type == vllm::kU8 ||
+                               w_type == vllm::kU4B8 || w_type == vllm::kU8B128;
+  // see comments of dequant.h for more details
+  constexpr bool dequant_skip_flop =
+      !is_int_type ||
+      has_zp && !is_zp_float && !std::is_same<scalar_t, nv_bfloat16>::value ||
+      has_zp && !is_zp_float && !(w_type == vllm::kU8);
+
+  scalar_t2 global_scale;
+
   constexpr bool has_act_order = group_blocks == 0;
 
   constexpr int pack_factor = 32 / w_type.size_bits();
@@ -348,7 +360,8 @@ __global__ void Marlin(
   constexpr int moe_block_size = m_block_size_8 ? 8 : (16 * thread_m_blocks);
   const int group_size =
       (!has_act_order && group_blocks == -1) ? prob_k : prob_k / num_groups;
-  const int scales_expert_stride = prob_n * prob_k / group_size / 8;
+  const int scales_expert_stride =
+      prob_n * prob_k / group_size / (w_type == vllm::kFE2M1f ? 16 : 8);
   const int zp_expert_stride =
       is_zp_float ? prob_n * prob_k / group_size / 8
                   : prob_n * prob_k / group_size / (pack_factor * 4);
@@ -460,9 +473,16 @@ __global__ void Marlin(
       if (mul_topk_weights) {
   #pragma unroll
         for (int i = 0; i < 4; i++) {
-          sh_block_topk_weights[tid4 * 4 + i] =
-              Dtype::num2num2(Dtype::float2num(
-                  topk_weights_ptr[sh_block_sorted_ids[tid4 * 4 + i]]));
+          if constexpr (w_type == vllm::kFE2M1f) {
+            sh_block_topk_weights[tid4 * 4 + i] = __hmul2(
+                global_scale,
+                Dtype::num2num2(Dtype::float2num(
+                    topk_weights_ptr[sh_block_sorted_ids[tid4 * 4 + i]])));
+          } else {
+            sh_block_topk_weights[tid4 * 4 + i] =
+                Dtype::num2num2(Dtype::float2num(
+                    topk_weights_ptr[sh_block_sorted_ids[tid4 * 4 + i]]));
+          }
         }
       }
     }
@@ -493,6 +513,11 @@ __global__ void Marlin(
       expert_id = expert_ids_ptr[block_id];
     }
 
+    if constexpr (w_type == vllm::kFE2M1f) {
+      uint16_t val = scale2_ptr[expert_id];
+      global_scale = Dtype::num2num2(*reinterpret_cast<scalar_t*>(&val));
+    }
+
     B_expert_off = expert_id * prob_n * prob_k / (pack_factor * 4);
     scales_ptr += (expert_id - old_expert_id) * scales_expert_stride;
     if constexpr (has_zp) {
@@ -606,7 +631,7 @@ __global__ void Marlin(
   constexpr int s_sh_stride = 16 * thread_n_blocks / 8;
   constexpr int s_tb_groups =
       !has_act_order && group_blocks != -1 && group_blocks < thread_k_blocks
-          ? thread_k_blocks / group_blocks
+          ? thread_k_blocks / group_blocks / (w_type == vllm::kFE2M1f ? 2 : 1)
           : 1;
   constexpr int s_sh_stage = s_tb_groups * s_sh_stride;
   int s_gl_rd_delta = s_gl_stride;
@@ -664,7 +689,8 @@ __global__ void Marlin(
     if constexpr (group_blocks == -1) {
       s_gl_rd = s_sh_stride * slice_col + threadIdx.x;
     } else {
-      s_gl_rd = s_gl_stride * ((thread_k_blocks * slice_row) / group_blocks) +
+      s_gl_rd = s_gl_stride * ((thread_k_blocks * slice_row) / group_blocks) /
+                    (w_type == vllm::kFE2M1f ? 2 : 1) +
                 s_sh_stride * slice_col + threadIdx.x;
     }
   }
@@ -688,10 +714,20 @@ __global__ void Marlin(
   // we scale a `half2` tile in column-major layout in the former and in
   // row-major in the latter case.
   int s_sh_rd;
-  if constexpr (group_blocks != -1)
+  if constexpr (group_blocks != -1 && w_type == vllm::kFE2M1f) {
+    auto warp_id = threadIdx.x / 32;
+    int n_warps = thread_n_blocks / 4;
+    int warp_row = warp_id / n_warps;
+
     s_sh_rd = 8 * ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
               (threadIdx.x % 32) / 4;
-  else if constexpr (group_blocks == -1 && (m_block_size_8 || has_zp))
+    s_sh_rd = s_sh_rd * 2 + warp_row % 2;
+
+  } else if constexpr (group_blocks != -1)
+    s_sh_rd = 8 * ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
+              (threadIdx.x % 32) / 4;
+  else if constexpr (group_blocks == -1 &&
+                     (m_block_size_8 || (has_zp && !dequant_skip_flop)))
     s_sh_rd = 8 * ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
               (threadIdx.x % 32) / 8;
   else
@@ -801,7 +837,7 @@ __global__ void Marlin(
     sh_first_group_id = first_group_id;
     sh_num_groups = last_group_id - first_group_id + 1;
 
-    if (sh_num_groups < act_s_max_num_groups) {
+    if (sh_num_groups > act_s_max_num_groups) {
       sh_num_groups = act_s_max_num_groups;
     }
 
@@ -1021,12 +1057,19 @@ __global__ void Marlin(
           cur_k += k_iter_size * (k % b_sh_wr_iters);
 
           int k_blocks = cur_k / 16;
-          int cur_group_id = k_blocks / group_blocks;
+          int cur_group_id =
+              k_blocks / (group_blocks * (w_type == vllm::kFE2M1f ? 2 : 1));
 
           int4* sh_s_stage = sh_s + s_sh_stage * pipe;
 
-          reinterpret_cast<int4*>(&frag_s[k % 2])[0] =
-              sh_s_stage[s_sh_rd + cur_group_id * s_sh_stride];
+          if constexpr (w_type_id != vllm::kFE2M1f.id()) {
+            reinterpret_cast<int4*>(&frag_s[k % 2])[0] =
+                sh_s_stage[s_sh_rd + cur_group_id * s_sh_stride];
+          } else {
+            reinterpret_cast<int2*>(&frag_s[k % 2])[0] =
+                reinterpret_cast<int2*>(
+                    sh_s_stage)[s_sh_rd + cur_group_id * (2 * s_sh_stride)];
+          }
         }
       }
 
@@ -1199,22 +1242,7 @@ __global__ void Marlin(
   };
 
   auto dequant_data = [&](int q, scalar_t2* frag_b_ptr) {
-    if constexpr (has_zp && is_zp_float || !has_zp) {
-      dequant<scalar_t2, w_type_id>(q, frag_b_ptr);
-    } else {
-      static_assert(has_zp && !is_zp_float);
-      static_assert(w_type_id == vllm::kU4.id() || w_type_id == vllm::kU8.id());
-      // If (has_zp && !is_zp_float),
-      // we use not-zp version `dequant` function
-      // to improve numerical accuracy.
-      // Since both weight and zero point are dequanted using this logic,
-      // the final dequanted weight would be correct.
-      if constexpr (w_type_id == vllm::kU4.id()) {
-        dequant<scalar_t2, vllm::kU4B8.id()>(q, frag_b_ptr);
-      } else if constexpr (w_type_id == vllm::kU8.id()) {
-        dequant<scalar_t2, vllm::kU8B128.id()>(q, frag_b_ptr);
-      }
-    }
+    dequant<scalar_t2, w_type_id, dequant_skip_flop>(q, frag_b_ptr);
   };
 
   // Execute the actual tensor core matmul of a sub-tile.
@@ -1244,13 +1272,23 @@ __global__ void Marlin(
         dequant_data(zp_quant_1, reinterpret_cast<scalar_t2*>(&frag_zp) + 2);
       }
     }
-    if constexpr (has_zp && is_zp_float) {
+    if constexpr (!dequant_skip_flop && has_zp && is_zp_float) {
       if (is_new_zp) {
         reinterpret_cast<int4*>(&frag_zp)[0] =
             reinterpret_cast<int4*>(&frag_zpf[k2])[0];
       }
     }
 
+    if constexpr (w_type == vllm::kFE2M1f) {
+      int s_quant_0 = reinterpret_cast<int*>(frag_s[k2])[0];
+      int s_quant_1 = reinterpret_cast<int*>(frag_s[k2])[1];
+
+      dequant_fp8_scales<scalar_t2>(s_quant_0,
+                                    reinterpret_cast<scalar_t2*>(&frag_s[k2]));
+      dequant_fp8_scales<scalar_t2>(
+          s_quant_1, reinterpret_cast<scalar_t2*>(&frag_s[k2]) + 2);
+    }
+
   // We have the m dimension as the inner loop in order to encourage overlapping
   // dequantization and matmul operations.
   #pragma unroll
@@ -1259,7 +1297,10 @@ __global__ void Marlin(
       FragB frag_b1;
       int b_quant_0, b_quant_1;
 
-      if constexpr (w_type.size_bits() == 4) {
+      if constexpr (w_type_id == vllm::kFE2M1f.id()) {
+        b_quant_1 = frag_b_quant[k2][0][j];
+        b_quant_0 = b_quant_1 << 8;
+      } else if constexpr (w_type.size_bits() == 4) {
         b_quant_0 = frag_b_quant[k2][0][j];
         b_quant_1 = b_quant_0 >> 8;
       } else {
@@ -1272,6 +1313,11 @@ __global__ void Marlin(
       dequant_data(b_quant_0, reinterpret_cast<scalar_t2*>(&frag_b0));
       dequant_data(b_quant_1, reinterpret_cast<scalar_t2*>(&frag_b1));
 
+      if constexpr (dequant_skip_flop && has_zp && !is_zp_float) {
+        sub_zp<scalar_t>(frag_b0, frag_zp[j], 0);
+        sub_zp<scalar_t>(frag_b1, frag_zp[j], 1);
+      }
+
       // Apply scale to frag_b0
       if constexpr (has_act_order) {
         static_assert(group_blocks != -1);
@@ -1279,7 +1325,8 @@ __global__ void Marlin(
                          act_frag_s[k2][2][j], act_frag_s[k2][3][j], 0);
         scale4<scalar_t>(frag_b1, act_frag_s[k2][0][j], act_frag_s[k2][1][j],
                          act_frag_s[k2][2][j], act_frag_s[k2][3][j], 1);
-      } else if constexpr (has_zp && !is_zp_float && group_blocks == -1) {
+      } else if constexpr (!dequant_skip_flop && has_zp && !is_zp_float &&
+                           group_blocks == -1) {
         int idx = (threadIdx.x / 4) % 2;
         scalar_t2 s2 = Dtype::nums2num2(
             reinterpret_cast<scalar_t*>(&frag_s[j / 2][j % 2 * 2 + 0])[idx],
@@ -1287,7 +1334,7 @@ __global__ void Marlin(
         if (is_new_zp) frag_zp[j] = __hmul2(frag_zp[j], s2);
         scale_and_sub<scalar_t>(frag_b0, s2.x, frag_zp[j].x);
         scale_and_sub<scalar_t>(frag_b1, s2.y, frag_zp[j].y);
-      } else if constexpr (has_zp && group_blocks != -1) {
+      } else if constexpr (!dequant_skip_flop && has_zp && group_blocks != -1) {
         if (is_new_zp)
           frag_zp[j] = __hmul2(frag_zp[j],
                                *reinterpret_cast<scalar_t2*>(&frag_s[k2][j]));
@@ -1554,10 +1601,17 @@ __global__ void Marlin(
       // For per-column quantization we finally apply the scale here (only for
       // 4-bit)
       if constexpr (!has_act_order && group_blocks == -1 &&
-                    w_type.size_bits() == 4 && !has_zp) {
+                    w_type.size_bits() == 4 &&
+                    (has_zp && dequant_skip_flop || !has_zp)) {
         res = __hmul2(res, s[0]);
       }
 
+      if constexpr (w_type == vllm::kFE2M1f) {
+        if (!mul_topk_weights) {
+          res = __hmul2(res, global_scale);
+        }
+      }
+
       if constexpr (m_block_size_8) {
         ((scalar_t*)sh_red)[idx] = res.x;
         ((scalar_t*)sh_red)[idx + 8 * c_sh_stride] = res.y;
@@ -1648,7 +1702,9 @@ __global__ void Marlin(
       if constexpr (has_zp && !is_zp_float && group_blocks == -1) {
         if (i == 0) {
           fetch_col_zp_to_shared();
-          fetch_col_scale_to_shared();
+          if constexpr (!dequant_skip_flop) {
+            fetch_col_scale_to_shared();
+          }
         }
       }
       fetch_to_shared(i, i, i < slice_iters, i);
@@ -1737,7 +1793,8 @@ __global__ void Marlin(
       bool last = slice_idx == slice_count - 1;
       // For per-column scales, we only fetch them here in the final step before
       // write-out
-      if constexpr (!has_act_order && group_blocks == -1 && !has_zp) {
+      if constexpr (!has_act_order && group_blocks == -1 &&
+                    (has_zp && dequant_skip_flop || !has_zp)) {
         if (w_type.size_bits() == 8 || (last || use_atomic_add)) {
           if (s_sh_wr_pred) {
             cp_async4(&sh_s[s_sh_wr], &scales_ptr[s_gl_rd]);
@@ -1747,7 +1804,8 @@ __global__ void Marlin(
       }
 
       thread_block_reduce();
-      if constexpr (!has_act_order && group_blocks == -1 && !has_zp) {
+      if constexpr (!has_act_order && group_blocks == -1 &&
+                    (has_zp && dequant_skip_flop || !has_zp)) {
         if (w_type.size_bits() == 8 || (last || use_atomic_add)) {
           cp_async_wait<0>();
           __syncthreads();
@@ -1771,7 +1829,8 @@ __global__ void Marlin(
       // that converts the fp32 results to fp16 (so that we avoid possible
       // overflow in fp16)
       if constexpr (!has_act_order && group_blocks == -1 &&
-                    w_type.size_bits() == 8 && !has_zp) {
+                    w_type.size_bits() == 8 &&
+                    (has_zp && dequant_skip_flop || !has_zp)) {
         if (threadIdx.x / 32 < thread_n_blocks / 4) {
   #pragma unroll
           for (int i = 0; i < thread_m_blocks; i++) {
diff --git a/csrc/moe/marlin_moe_wna16/ops.cu b/csrc/moe/marlin_moe_wna16/ops.cu
index 00b4e934c..2cff04f69 100644
--- a/csrc/moe/marlin_moe_wna16/ops.cu
+++ b/csrc/moe/marlin_moe_wna16/ops.cu
@@ -291,6 +291,7 @@ bool is_valid_config(thread_config_t const& th_config, bool m_block_size_8,
   // BIGGROUP: cases for big group size (group_blocks in [-1, 8])
   // FZP: cases for float-zero-point (is_zp_float = true)
   // ACT: cases for act order case (group_blocks == 0)
+  // FP4: cases for nvfp4(e2m1) (group_blocks == 1)
   #define COMMON_GET_IF_M1(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)       \
     _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, -1, NUM_THREADS, false)  \
     _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 2, NUM_THREADS, false)   \
@@ -338,6 +339,21 @@ bool is_valid_config(thread_config_t const& th_config, bool m_block_size_8,
     _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, -1, NUM_THREADS, false) \
     _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, 8, NUM_THREADS, false)
 
+  #define FP4_GET_IF_M1(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)        \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, 1, NUM_THREADS, false)
+
+  #define FP4_GET_IF_M234(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)       \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, 1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, 1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, 1, NUM_THREADS, false)
+
+  #define FP4_GET_IF(W_TYPE)            \
+    FP4_GET_IF_M1(W_TYPE, 8, 8, 256)    \
+    FP4_GET_IF_M1(W_TYPE, 8, 4, 128)    \
+    FP4_GET_IF_M234(W_TYPE, 16, 4, 256) \
+    FP4_GET_IF_M234(W_TYPE, 8, 4, 128)
+
   #define BIGGROUP_GET_IF(W_TYPE)            \
     BIGGROUP_GET_IF_M1(W_TYPE, 8, 8, 256)    \
     BIGGROUP_GET_IF_M1(W_TYPE, 8, 4, 128)    \
@@ -394,6 +410,8 @@ MarlinFuncPtr get_marlin_kernel(const vllm::ScalarType q_type,
 
   BIGGROUP_GET_IF(vllm::kFE4M3fn)
 
+  FP4_GET_IF(vllm::kFE2M1f)
+
   ACT_GET_IF(vllm::kU4B8)
   ACT_GET_IF(vllm::kU8B128)
 
@@ -465,7 +483,7 @@ exec_config_t determine_exec_config(const vllm::ScalarType& q_type, int prob_m,
 
 template <typename scalar_t>
 void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
-               void* zp, void* g_idx, void* perm, void* a_tmp,
+               void* s2, void* zp, void* g_idx, void* perm, void* a_tmp,
                void* sorted_token_ids, void* expert_ids,
                void* num_tokens_past_padded, void* topk_weights,
                int moe_block_size, int top_k, bool mul_topk_weights, bool is_ep,
@@ -479,14 +497,16 @@ void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
   bool m_block_size_8 = moe_block_size == 8;
 
   if (has_zp) {
-    TORCH_CHECK(q_type == vllm::kU4,
-                "q_type must be u4 when has_zp = True. Got = ", q_type.str());
+    TORCH_CHECK(
+        q_type == vllm::kU4 || q_type == vllm::kU8,
+        "q_type must be u4 or u8 when has_zp = True. Got = ", q_type.str());
   } else {
-    TORCH_CHECK(q_type == vllm::kU4B8 || q_type == vllm::kU8B128 ||
-                    q_type == vllm::kFE4M3fn,
-                "q_type must be uint4b8, uint8b128 or fp8e4m3 when has_zp = "
-                "False. Got = ",
-                q_type.str());
+    TORCH_CHECK(
+        q_type == vllm::kU4B8 || q_type == vllm::kU8B128 ||
+            q_type == vllm::kFE4M3fn || q_type == vllm::kFE2M1f,
+        "q_type must be uint4b8, uint8b128, float8_e4m3fn or float4_e2m1f when "
+        "has_zp = False. Got = ",
+        q_type.str());
   }
 
   TORCH_CHECK(prob_m > 0 && prob_n > 0 && prob_k > 0, "Invalid MNK = [", prob_m,
@@ -519,6 +539,7 @@ void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
   int4* C_ptr = (int4*)C;
   int4* C_tmp_ptr = (int4*)C_tmp;
   const int4* s_ptr = (const int4*)s;
+  const uint16_t* s2_ptr = (const uint16_t*)s2;
   const int4* zp_ptr = (const int4*)zp;
   const int* g_idx_ptr = (const int*)g_idx;
   const int* perm_ptr = (const int*)perm;
@@ -627,7 +648,7 @@ void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
   // avoid ">>>" being formatted to "> > >"
   // clang-format off
   kernel<<<blocks, num_threads, max_shared_mem, stream>>>(
-      A_ptr, B_ptr, C_ptr, C_tmp_ptr, s_ptr, zp_ptr, g_idx_ptr,
+      A_ptr, B_ptr, C_ptr, C_tmp_ptr, s_ptr, s2_ptr, zp_ptr, g_idx_ptr,
       sorted_token_ids_ptr, expert_ids_ptr, num_tokens_past_padded_ptr,
       topk_weights_ptr, top_k, mul_topk_weights, is_ep, num_groups, prob_m,
       prob_n, prob_k, locks, use_atomic_add, use_fp32_reduce, max_shared_mem);
@@ -639,6 +660,7 @@ void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
 torch::Tensor moe_wna16_marlin_gemm(
     torch::Tensor& a, std::optional<torch::Tensor> const& c_or_none,
     torch::Tensor& b_q_weight, torch::Tensor& b_scales,
+    std::optional<torch::Tensor> const& global_scale_or_none,
     std::optional<torch::Tensor> const& b_zeros_or_none,
     std::optional<torch::Tensor> const& g_idx_or_none,
     std::optional<torch::Tensor> const& perm_or_none, torch::Tensor& workspace,
@@ -790,6 +812,17 @@ torch::Tensor moe_wna16_marlin_gemm(
     }
   }
 
+  torch::Tensor global_scale;
+  if (global_scale_or_none.has_value()) {
+    global_scale = global_scale_or_none.value();
+    TORCH_CHECK(b_q_type == vllm::kFE2M1f,
+                "global_scale can only be used for float4_e2m1f.");
+  } else {
+    global_scale = torch::empty({0}, options);
+    TORCH_CHECK(!(b_q_type == vllm::kFE2M1f),
+                "the global_scale parameter must be passed for float4_e2m1f.");
+  }
+
   torch::Tensor b_zeros;
   if (b_zeros_or_none.has_value()) {
     b_zeros = b_zeros_or_none.value();
@@ -802,13 +835,14 @@ torch::Tensor moe_wna16_marlin_gemm(
 
   if (has_zp) {
     TORCH_CHECK(
-        b_q_type == vllm::kU4,
-        "b_q_type must be u4 when has_zp = True. Got = ", b_q_type.str());
+        b_q_type == vllm::kU4 || b_q_type == vllm::kU8,
+        "b_q_type must be u4 or u8 when has_zp = True. Got = ", b_q_type.str());
   } else {
     TORCH_CHECK(b_q_type == vllm::kU4B8 || b_q_type == vllm::kU8B128 ||
-                    b_q_type == vllm::kFE4M3fn,
-                "b_q_type must be uint4b8, uint8b128 or fp8e4m3 when has_zp = "
-                "False. Got = ",
+                    b_q_type == vllm::kFE4M3fn || b_q_type == vllm::kFE2M1f,
+                "b_q_type must be uint4b8, uint8b128, float8_e4m3fn or "
+                "float4_e2m1f when "
+                "has_zp = False. Got = ",
                 b_q_type.str());
   }
 
@@ -854,9 +888,16 @@ torch::Tensor moe_wna16_marlin_gemm(
 
   int dev = a.get_device();
   if (a.scalar_type() == at::ScalarType::Half) {
+    void* scales_ptr;
+    if (b_q_type == vllm::kFE2M1f) {
+      scales_ptr = b_scales.data_ptr<at::Float8_e4m3fn>();
+    } else {
+      scales_ptr = b_scales.data_ptr<at::Half>();
+    }
+
     MARLIN_NAMESPACE_NAME::marlin_mm<half>(
         a.data_ptr<at::Half>(), b_q_weight.data_ptr(), c.data_ptr<at::Half>(),
-        c_tmp.data_ptr<float>(), b_scales.data_ptr<at::Half>(),
+        c_tmp.data_ptr<float>(), scales_ptr, global_scale.data_ptr<at::Half>(),
         b_zeros.data_ptr(), g_idx.data_ptr(), perm.data_ptr(),
         a_tmp.data_ptr<at::Half>(), sorted_token_ids.data_ptr(),
         expert_ids.data_ptr(), num_tokens_past_padded.data_ptr(),
@@ -866,11 +907,18 @@ torch::Tensor moe_wna16_marlin_gemm(
         at::cuda::getCurrentCUDAStream(dev), thread_k, thread_n, sms,
         use_atomic_add, use_fp32_reduce, is_zp_float);
   } else if (a.scalar_type() == at::ScalarType::BFloat16) {
+    void* scales_ptr;
+    if (b_q_type == vllm::kFE2M1f) {
+      scales_ptr = b_scales.data_ptr<at::Float8_e4m3fn>();
+    } else {
+      scales_ptr = b_scales.data_ptr<at::BFloat16>();
+    }
+
     MARLIN_NAMESPACE_NAME::marlin_mm<nv_bfloat16>(
         a.data_ptr<at::BFloat16>(), b_q_weight.data_ptr(),
-        c.data_ptr<at::BFloat16>(), c_tmp.data_ptr<float>(),
-        b_scales.data_ptr<at::BFloat16>(), b_zeros.data_ptr(), g_idx.data_ptr(),
-        perm.data_ptr(), a_tmp.data_ptr<at::BFloat16>(),
+        c.data_ptr<at::BFloat16>(), c_tmp.data_ptr<float>(), scales_ptr,
+        global_scale.data_ptr<at::BFloat16>(), b_zeros.data_ptr(),
+        g_idx.data_ptr(), perm.data_ptr(), a_tmp.data_ptr<at::BFloat16>(),
         sorted_token_ids.data_ptr(), expert_ids.data_ptr(),
         num_tokens_past_padded.data_ptr(), topk_weights.data_ptr(),
         moe_block_size, top_k, mul_topk_weights, is_ep, size_m, size_n, size_k,
diff --git a/csrc/moe/torch_bindings.cpp b/csrc/moe/torch_bindings.cpp
index 2a8b9bb39..810026d03 100644
--- a/csrc/moe/torch_bindings.cpp
+++ b/csrc/moe/torch_bindings.cpp
@@ -44,7 +44,8 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, m) {
 
   m.def(
       "moe_wna16_marlin_gemm(Tensor! a, Tensor? c_or_none,"
-      "Tensor! b_q_weight, Tensor! b_scales, Tensor? b_zeros_or_none,"
+      "Tensor! b_q_weight, Tensor! b_scales, Tensor? global_scale, Tensor? "
+      "b_zeros_or_none,"
       "Tensor? g_idx_or_none, Tensor? perm_or_none, Tensor! workspace,"
       "Tensor sorted_token_ids,"
       "Tensor! expert_ids, Tensor! num_tokens_past_padded,"
diff --git a/csrc/quantization/gptq_marlin/dequant.h b/csrc/quantization/gptq_marlin/dequant.h
index 3c0d77ac3..ae0d6c0f2 100644
--- a/csrc/quantization/gptq_marlin/dequant.h
+++ b/csrc/quantization/gptq_marlin/dequant.h
@@ -1,3 +1,67 @@
+/*
+Fast Dequantization (Converting INT4/INT8/FP4/FP8 to FP16/BF16)
+
+The process of fast dequantization can be summarized as a combination
+of bitwise operations and floating-point computations:
+
+weight =>(bit_op / bitwise operations)=>
+f16_value =>(flop / floating-point computation)=>
+dequantized_weight
+
+Since the dequantized weights typically require subtracting the zero point and
+applying a scale factor, the floating-point computation step can be fused with
+the zero-point subtraction and scaling operations.
+
+The following are the parts that need to be modified for the fused operation
+of zero-point subtraction and scaling.
+
+## INT4 => FP16/BF16 or INT8 => FP16
+
+The floating-point computation is `__hsub2`
+
+If has zero points:
+
+    flop(bit_op(weight)) - flop(bit_op(zp))
+  = sub(bit_op(weight), bias) - sub(bit_op(zp), bias)
+  = bit_op(weight) - bit_op(zp)
+
+so we don't need additional modification.
+
+If has float zero points:
+
+    flop(bit_op(weight)) - fzp
+  = sub(bit_op(weight), bias) - fzp
+  = bit_op(weight) - (fzp + bias)
+
+where the `fzp + bias` can be computed at weight loading. But this
+may have accuracy issue, so we should not use this in most cases.
+
+If has not zero points:
+
+    scale(flop(bit_op(weight)))
+  = scale(sub(bit_op(weight), bias))
+  = scale(bit_op(weight)) - scale(bias)
+  = fma(bit_op(weight), scale_factor, scale(bias))
+
+where the `scale(bias)` can be cached. But this may have accuracy issue,
+so we should not use this in most cases.
+
+
+## INT8 => BF16
+
+INT8 => BF16 is a special case, it use byte_perm instead of flop.
+We cannot fused byte_perm with scaling.
+
+
+## FP4/FP8 => FP16/BF16
+
+    scale(flop(bit_op(weight)))
+  = scale(mul(bit_op(weight), multiplier))
+  = mul(bit_op(weight), scale_factor * multiplier)
+
+where `scale_factor * multiplier` can be computed at weight loading.
+
+*/
 
 #include "marlin_dtypes.cuh"
 
@@ -27,7 +91,8 @@ __device__ inline uint32_t prmt(uint32_t a) {
   return res;
 }
 
-template <typename scalar_t2, vllm::ScalarTypeId w_type_id>
+template <typename scalar_t2, vllm::ScalarTypeId w_type_id,
+          bool skip_flop = false>
 __device__ inline void dequant(int q, scalar_t2* frag_b);
 
 //
@@ -40,7 +105,22 @@ __device__ inline void dequant(int q, scalar_t2* frag_b);
 // https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L327-L385
 //
 template <>
-__device__ inline void dequant<half2, vllm::kU4B8.id()>(int q, half2* frag_b) {
+__device__ inline void dequant<half2, vllm::kU4B8.id(), true>(int q,
+                                                              half2* frag_b) {
+  const int MASK = 0x000f000f;
+  const int EX = 0x64006400;
+  // Guarantee that the `(a & b) | c` operations are LOP3s.
+  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
+  q >>= 4;
+  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
+
+  frag_b[0] = *reinterpret_cast<half2*>(&lo);
+  frag_b[1] = *reinterpret_cast<half2*>(&hi);
+}
+
+template <>
+__device__ inline void dequant<half2, vllm::kU4B8.id(), false>(int q,
+                                                               half2* frag_b) {
   const int LO = 0x000f000f;
   const int HI = 0x00f000f0;
   const int EX = 0x64006400;
@@ -62,7 +142,14 @@ __device__ inline void dequant<half2, vllm::kU4B8.id()>(int q, half2* frag_b) {
 }
 
 template <>
-__device__ inline void dequant<half2, vllm::kU4.id()>(int q, half2* frag_b) {
+__device__ inline void dequant<half2, vllm::kU4.id(), true>(int q,
+                                                            half2* frag_b) {
+  dequant<half2, vllm::kU4B8.id(), true>(q, frag_b);
+}
+
+template <>
+__device__ inline void dequant<half2, vllm::kU4.id(), false>(int q,
+                                                             half2* frag_b) {
   const int LO = 0x000f000f;
   const int HI = 0x00f000f0;
   const int EX = 0x64006400;
@@ -84,7 +171,7 @@ __device__ inline void dequant<half2, vllm::kU4.id()>(int q, half2* frag_b) {
 }
 
 template <>
-__device__ inline void dequant<nv_bfloat162, vllm::kU4B8.id()>(
+__device__ inline void dequant<nv_bfloat162, vllm::kU4B8.id(), true>(
     int q, nv_bfloat162* frag_b) {
   static constexpr uint32_t MASK = 0x000f000f;
   static constexpr uint32_t EX = 0x43004300;
@@ -96,39 +183,36 @@ __device__ inline void dequant<nv_bfloat162, vllm::kU4B8.id()>(
   int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
   // clang-format on
 
-  static constexpr uint32_t MUL = 0x3F803F80;
-  static constexpr uint32_t ADD = 0xC308C308;
+  frag_b[0] = *reinterpret_cast<nv_bfloat162*>(&lo);
+  frag_b[1] = *reinterpret_cast<nv_bfloat162*>(&hi);
+}
+
+template <>
+__device__ inline void dequant<nv_bfloat162, vllm::kU4B8.id(), false>(
+    int q, nv_bfloat162* frag_b) {
+  dequant<nv_bfloat162, vllm::kU4B8.id(), true>(q, frag_b);
 
-  frag_b[0] = __hfma2(*reinterpret_cast<nv_bfloat162*>(&lo),
-                      *reinterpret_cast<const nv_bfloat162*>(&MUL),
-                      *reinterpret_cast<const nv_bfloat162*>(&ADD));
-  frag_b[1] = __hfma2(*reinterpret_cast<nv_bfloat162*>(&hi),
-                      *reinterpret_cast<const nv_bfloat162*>(&MUL),
-                      *reinterpret_cast<const nv_bfloat162*>(&ADD));
+  static constexpr uint32_t SUB = 0x43084308;
+
+  frag_b[0] = __hsub2(frag_b[0], *reinterpret_cast<const nv_bfloat162*>(&SUB));
+  frag_b[1] = __hsub2(frag_b[1], *reinterpret_cast<const nv_bfloat162*>(&SUB));
 }
 
 template <>
-__device__ inline void dequant<nv_bfloat162, vllm::kU4.id()>(
+__device__ inline void dequant<nv_bfloat162, vllm::kU4.id(), true>(
     int q, nv_bfloat162* frag_b) {
-  static constexpr uint32_t MASK = 0x000f000f;
-  static constexpr uint32_t EX = 0x43004300;
+  dequant<nv_bfloat162, vllm::kU4B8.id(), true>(q, frag_b);
+}
 
-  // Guarantee that the `(a & b) | c` operations are LOP3s.
-  // clang-format off
-  int lo = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
-  q >>= 4;
-  int hi = lop3<(0xf0 & 0xcc) | 0xaa>(q, MASK, EX);
-  // clang-format on
+template <>
+__device__ inline void dequant<nv_bfloat162, vllm::kU4.id(), false>(
+    int q, nv_bfloat162* frag_b) {
+  dequant<nv_bfloat162, vllm::kU4.id(), true>(q, frag_b);
 
-  static constexpr uint32_t MUL = 0x3F803F80;
-  static constexpr uint32_t ADD = 0xC300C300;
+  static constexpr uint32_t SUB = 0x43004300;
 
-  frag_b[0] = __hfma2(*reinterpret_cast<nv_bfloat162*>(&lo),
-                      *reinterpret_cast<const nv_bfloat162*>(&MUL),
-                      *reinterpret_cast<const nv_bfloat162*>(&ADD));
-  frag_b[1] = __hfma2(*reinterpret_cast<nv_bfloat162*>(&hi),
-                      *reinterpret_cast<const nv_bfloat162*>(&MUL),
-                      *reinterpret_cast<const nv_bfloat162*>(&ADD));
+  frag_b[0] = __hsub2(frag_b[0], *reinterpret_cast<const nv_bfloat162*>(&SUB));
+  frag_b[1] = __hsub2(frag_b[1], *reinterpret_cast<const nv_bfloat162*>(&SUB));
 }
 
 //
@@ -140,8 +224,8 @@ __device__ inline void dequant<nv_bfloat162, vllm::kU4.id()>(
 // https://github.com/NVIDIA/FasterTransformer/blob/release/v5.3_tag/src/fastertransformer/cutlass_extensions/include/cutlass_extensions/interleaved_numeric_conversion.h#L125-L175
 //
 template <>
-__device__ inline void dequant<half2, vllm::kU8B128.id()>(int q,
-                                                          half2* frag_b) {
+__device__ inline void dequant<half2, vllm::kU8B128.id(), true>(int q,
+                                                                half2* frag_b) {
   static constexpr uint32_t mask_for_elt_01 = 0x5250;
   static constexpr uint32_t mask_for_elt_23 = 0x5351;
   static constexpr uint32_t start_byte_for_fp16 = 0x64646464;
@@ -149,33 +233,42 @@ __device__ inline void dequant<half2, vllm::kU8B128.id()>(int q,
   uint32_t lo = prmt<start_byte_for_fp16, mask_for_elt_01>(q);
   uint32_t hi = prmt<start_byte_for_fp16, mask_for_elt_23>(q);
 
-  static constexpr uint32_t I8s_TO_F16s_MAGIC_NUM = 0x64806480;
+  frag_b[0] = *reinterpret_cast<half2*>(&lo);
+  frag_b[1] = *reinterpret_cast<half2*>(&hi);
+}
 
-  frag_b[0] = __hsub2(*reinterpret_cast<half2*>(&lo),
+template <>
+__device__ inline void dequant<half2, vllm::kU8B128.id(), false>(
+    int q, half2* frag_b) {
+  dequant<half2, vllm::kU8B128.id(), true>(q, frag_b);
+
+  static constexpr uint32_t I8s_TO_F16s_MAGIC_NUM = 0x64806480;
+  frag_b[0] = __hsub2(frag_b[0],
                       *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
-  frag_b[1] = __hsub2(*reinterpret_cast<half2*>(&hi),
+  frag_b[1] = __hsub2(frag_b[1],
                       *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
 }
 
 template <>
-__device__ inline void dequant<half2, vllm::kU8.id()>(int q, half2* frag_b) {
-  static constexpr uint32_t mask_for_elt_01 = 0x5250;
-  static constexpr uint32_t mask_for_elt_23 = 0x5351;
-  static constexpr uint32_t start_byte_for_fp16 = 0x64646464;
+__device__ inline void dequant<half2, vllm::kU8.id(), true>(int q,
+                                                            half2* frag_b) {
+  dequant<half2, vllm::kU8B128.id(), true>(q, frag_b);
+}
 
-  uint32_t lo = prmt<start_byte_for_fp16, mask_for_elt_01>(q);
-  uint32_t hi = prmt<start_byte_for_fp16, mask_for_elt_23>(q);
+template <>
+__device__ inline void dequant<half2, vllm::kU8.id(), false>(int q,
+                                                             half2* frag_b) {
+  dequant<half2, vllm::kU8.id(), true>(q, frag_b);
 
   static constexpr uint32_t I8s_TO_F16s_MAGIC_NUM = 0x64006400;
-
-  frag_b[0] = __hsub2(*reinterpret_cast<half2*>(&lo),
+  frag_b[0] = __hsub2(frag_b[0],
                       *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
-  frag_b[1] = __hsub2(*reinterpret_cast<half2*>(&hi),
+  frag_b[1] = __hsub2(frag_b[1],
                       *reinterpret_cast<const half2*>(&I8s_TO_F16s_MAGIC_NUM));
 }
 
 template <>
-__device__ inline void dequant<nv_bfloat162, vllm::kU8B128.id()>(
+__device__ inline void dequant<nv_bfloat162, vllm::kU8B128.id(), false>(
     int q, nv_bfloat162* frag_b) {
   float fp32_intermediates[4];
   uint32_t* fp32_intermediates_casted =
@@ -200,7 +293,7 @@ __device__ inline void dequant<nv_bfloat162, vllm::kU8B128.id()>(
 }
 
 template <>
-__device__ inline void dequant<nv_bfloat162, vllm::kU8.id()>(
+__device__ inline void dequant<nv_bfloat162, vllm::kU8.id(), false>(
     int q, nv_bfloat162* frag_b) {
   float fp32_intermediates[4];
   uint32_t* fp32_intermediates_casted =
@@ -225,22 +318,30 @@ __device__ inline void dequant<nv_bfloat162, vllm::kU8.id()>(
 }
 
 template <>
-__device__ inline void dequant<half2, vllm::kFE4M3fn.id()>(int q,
-                                                           half2* frag_b) {
+__device__ inline void dequant<half2, vllm::kFE4M3fn.id(), true>(
+    int q, half2* frag_b) {
   // Constants for FP8 (E4M3) and FP16 formats
-  constexpr int FP8_EXPONENT = 4, FP8_MANTISSA = 3, FP16_EXPONENT = 5;
+  constexpr int FP8_EXPONENT = 4, FP16_EXPONENT = 5;
   constexpr int RIGHT_SHIFT = FP16_EXPONENT - FP8_EXPONENT;
-
-  // Calculate MASK for extracting mantissa and exponent
-  constexpr int MASK1 = 0x80000000;
-  constexpr int MASK2 = MASK1 >> (FP8_EXPONENT + FP8_MANTISSA);
-  constexpr int MASK3 = MASK2 & 0x7fffffff;
-  constexpr int MASK = MASK3 | (MASK3 >> 16);
-  // Final MASK value: 0x7F007F00
+  constexpr int MASK = 0x7F007F00;
 
   // Extract and shift FP8 values to FP16 format
   int Out1 = (q & 0x80008000) | ((q & MASK) >> RIGHT_SHIFT);
-  int Out2 = ((q << 8) & 0x80008000) | (((q << 8) & MASK) >> RIGHT_SHIFT);
+  q <<= 8;
+  int Out2 = (q & 0x80008000) | ((q & MASK) >> RIGHT_SHIFT);
+
+  // Note: reverse indexing is intentional because weights are permuted
+  frag_b[1] = *reinterpret_cast<const half2*>(&Out1);
+  frag_b[0] = *reinterpret_cast<const half2*>(&Out2);
+}
+
+template <>
+__device__ inline void dequant<half2, vllm::kFE4M3fn.id(), false>(
+    int q, half2* frag_b) {
+  dequant<half2, vllm::kFE4M3fn.id(), true>(q, frag_b);
+
+  // Constants for FP8 (E4M3) and FP16 formats
+  constexpr int FP8_EXPONENT = 4, FP16_EXPONENT = 5;
 
   // Construct and apply exponent bias
   constexpr int BIAS_OFFSET =
@@ -248,28 +349,36 @@ __device__ inline void dequant<half2, vllm::kFE4M3fn.id()>(int q,
   const half2 bias_reg = __float2half2_rn(float(1 << BIAS_OFFSET));
 
   // Convert to half2 and apply bias
-  // Note: reverse indexing is intentional because weights are permuted
-  frag_b[1] = __hmul2(*reinterpret_cast<const half2*>(&Out1), bias_reg);
-  frag_b[0] = __hmul2(*reinterpret_cast<const half2*>(&Out2), bias_reg);
+  frag_b[1] = __hmul2(frag_b[1], bias_reg);
+  frag_b[0] = __hmul2(frag_b[0], bias_reg);
 }
 
 template <>
-__device__ inline void dequant<nv_bfloat162, vllm::kFE4M3fn.id()>(
+__device__ inline void dequant<nv_bfloat162, vllm::kFE4M3fn.id(), true>(
     int q, nv_bfloat162* frag_b) {
   // Constants for FP8 (E4M3) and BF16 formats
-  constexpr int FP8_EXPONENT = 4, FP8_MANTISSA = 3, BF16_EXPONENT = 8;
+  constexpr int FP8_EXPONENT = 4, BF16_EXPONENT = 8;
   constexpr int RIGHT_SHIFT = BF16_EXPONENT - FP8_EXPONENT;
 
-  // Calculate MASK for extracting mantissa and exponent
-  constexpr int MASK1 = 0x80000000;
-  constexpr int MASK2 = MASK1 >> (FP8_EXPONENT + FP8_MANTISSA);
-  constexpr int MASK3 = MASK2 & 0x7fffffff;
-  constexpr int MASK = MASK3 | (MASK3 >> 16);
-  // Final MASK value: 0x7F007F00
+  constexpr int MASK = 0x7F007F00;
 
   // Extract and shift FP8 values to BF16 format
   int Out1 = (q & 0x80008000) | ((q & MASK) >> RIGHT_SHIFT);
-  int Out2 = ((q << 8) & 0x80008000) | (((q << 8) & MASK) >> RIGHT_SHIFT);
+  q <<= 8;
+  int Out2 = (q & 0x80008000) | ((q & MASK) >> RIGHT_SHIFT);
+
+  // Note: reverse indexing is intentional because weights are permuted
+  frag_b[1] = *reinterpret_cast<const nv_bfloat162*>(&Out1);
+  frag_b[0] = *reinterpret_cast<const nv_bfloat162*>(&Out2);
+}
+
+template <>
+__device__ inline void dequant<nv_bfloat162, vllm::kFE4M3fn.id(), false>(
+    int q, nv_bfloat162* frag_b) {
+  dequant<nv_bfloat162, vllm::kFE4M3fn.id(), true>(q, frag_b);
+
+  // Constants for FP8 (E4M3) and BF16 formats
+  constexpr int FP8_EXPONENT = 4, BF16_EXPONENT = 8;
 
   // Construct and apply exponent bias
   constexpr int BIAS_OFFSET =
@@ -281,9 +390,116 @@ __device__ inline void dequant<nv_bfloat162, vllm::kFE4M3fn.id()>(
       __float2bfloat162_rn(*reinterpret_cast<const float*>(&BIAS));
 
   // Convert to bfloat162 and apply bias
+  frag_b[1] = __hmul2(frag_b[1], bias_reg);
+  frag_b[0] = __hmul2(frag_b[0], bias_reg);
+}
+
+template <>
+__device__ inline void dequant<half2, vllm::kFE2M1f.id(), true>(int q,
+                                                                half2* frag_b) {
+  // Constants for FP4 (E2M1) and FP16 formats
+  constexpr int FP4_EXPONENT = 2, FP16_EXPONENT = 5;
+  constexpr int RIGHT_SHIFT = FP16_EXPONENT - FP4_EXPONENT;
+  constexpr int MASK = 0x70007000;
+
+  // Extract and shift FP4 values to FP16 format
+  int Out1 = (q & 0x80008000) | ((q & MASK) >> RIGHT_SHIFT);
+  q <<= 4;
+  int Out2 = (q & 0x80008000) | ((q & MASK) >> RIGHT_SHIFT);
+
+  // Note: reverse indexing is intentional because weights are permuted
+  frag_b[1] = *reinterpret_cast<const half2*>(&Out1);
+  frag_b[0] = *reinterpret_cast<const half2*>(&Out2);
+}
+
+template <>
+__device__ inline void dequant<half2, vllm::kFE2M1f.id(), false>(
+    int q, half2* frag_b) {
+  dequant<half2, vllm::kFE2M1f.id(), true>(q, frag_b);
+
+  // Constants for FP4 (E2M1) and FP16 formats
+  constexpr int FP4_EXPONENT = 2, FP16_EXPONENT = 5;
+
+  // Construct and apply exponent bias
+  constexpr int BIAS_OFFSET =
+      (1 << (FP16_EXPONENT - 1)) - (1 << (FP4_EXPONENT - 1));
+  const half2 bias_reg = __float2half2_rn(float(1 << BIAS_OFFSET));
+
+  // Convert to half2 and apply bias
+  frag_b[1] = __hmul2(frag_b[1], bias_reg);
+  frag_b[0] = __hmul2(frag_b[0], bias_reg);
+}
+
+template <>
+__device__ inline void dequant<nv_bfloat162, vllm::kFE2M1f.id(), true>(
+    int q, nv_bfloat162* frag_b) {
+  // Constants for FP4 (E2M1) and FP16 formats
+  constexpr int FP4_EXPONENT = 2, BF16_EXPONENT = 8;
+  constexpr int RIGHT_SHIFT = BF16_EXPONENT - FP4_EXPONENT;
+  constexpr int MASK = 0x70007000;
+
+  // Extract and shift FP4 values to FP16 format
+  int Out1 = (q & 0x80008000) | ((q & MASK) >> RIGHT_SHIFT);
+  q <<= 4;
+  int Out2 = (q & 0x80008000) | ((q & MASK) >> RIGHT_SHIFT);
+
+  // Note: reverse indexing is intentional because weights are permuted
+  frag_b[1] = *reinterpret_cast<const nv_bfloat162*>(&Out1);
+  frag_b[0] = *reinterpret_cast<const nv_bfloat162*>(&Out2);
+}
+
+template <>
+__device__ inline void dequant<nv_bfloat162, vllm::kFE2M1f.id(), false>(
+    int q, nv_bfloat162* frag_b) {
+  dequant<nv_bfloat162, vllm::kFE2M1f.id(), true>(q, frag_b);
+
+  // Constants for FP4 (E2M1) and BF16 formats
+  constexpr int FP4_EXPONENT = 2, BF16_EXPONENT = 8;
+
+  // Construct and apply exponent bias
+  constexpr int BIAS_OFFSET =
+      (1 << (BF16_EXPONENT - 1)) - (1 << (FP4_EXPONENT - 1));
+  // Add 127 (float exponent bias) to BIAS_OFFSET and shift to float exponent
+  // position
+  constexpr uint32_t BIAS = (BIAS_OFFSET + 127) << 23;
+  const nv_bfloat162 bias_reg =
+      __float2bfloat162_rn(*reinterpret_cast<const float*>(&BIAS));
+
+  // Convert to half2 and apply bias
+  frag_b[1] = __hmul2(frag_b[1], bias_reg);
+  frag_b[0] = __hmul2(frag_b[0], bias_reg);
+}
+
+template <typename scalar_t2>
+__device__ inline void dequant_fp8_scales(int q, scalar_t2* frag_b);
+
+template <>
+__device__ inline void dequant_fp8_scales<half2>(int q, half2* frag_b) {
+  int Out1 = (q & 0xFF00FF00) >> 1;
+  ;
+  q <<= 8;
+  int Out2 = (q & 0xFF00FF00) >> 1;
+
+  // Note: reverse indexing is intentional because weights are permuted
+  frag_b[1] = *reinterpret_cast<const half2*>(&Out1);
+  frag_b[0] = *reinterpret_cast<const half2*>(&Out2);
+};
+
+template <>
+__device__ inline void dequant_fp8_scales<nv_bfloat162>(int q,
+                                                        nv_bfloat162* frag_b) {
+  constexpr int FP8_EXPONENT = 4, BF16_EXPONENT = 8;
+  constexpr int RIGHT_SHIFT = BF16_EXPONENT - FP8_EXPONENT;
+  constexpr int MASK = 0x7F007F00;
+
+  // Extract and shift FP8 values to BF16 format
+  int Out1 = ((q & 0x80008000) >> 1) | ((q & MASK) >> RIGHT_SHIFT);
+  q <<= 8;
+  int Out2 = ((q & 0x80008000) >> 1) | ((q & MASK) >> RIGHT_SHIFT);
+
   // Note: reverse indexing is intentional because weights are permuted
-  frag_b[1] = __hmul2(*reinterpret_cast<const nv_bfloat162*>(&Out1), bias_reg);
-  frag_b[0] = __hmul2(*reinterpret_cast<const nv_bfloat162*>(&Out2), bias_reg);
+  frag_b[1] = *reinterpret_cast<const nv_bfloat162*>(&Out1);
+  frag_b[0] = *reinterpret_cast<const nv_bfloat162*>(&Out2);
 }
 
 #endif
diff --git a/csrc/quantization/gptq_marlin/generate_kernels.py b/csrc/quantization/gptq_marlin/generate_kernels.py
index 8b4b951f3..4ac7121ab 100644
--- a/csrc/quantization/gptq_marlin/generate_kernels.py
+++ b/csrc/quantization/gptq_marlin/generate_kernels.py
@@ -31,7 +31,10 @@ TEMPLATE = ("template __global__ void Marlin<"
 
 # int8 with zero point case (vllm::kU8) is also supported,
 # we don't add it to reduce wheel size.
-SCALAR_TYPES = ["vllm::kU4", "vllm::kU4B8", "vllm::kU8B128", "vllm::kFE4M3fn"]
+SCALAR_TYPES = [
+    "vllm::kU4", "vllm::kU4B8", "vllm::kU8B128", "vllm::kFE4M3fn",
+    "vllm::kFE2M1f"
+]
 THREAD_CONFIGS = [(128, 128, 256), (64, 256, 256), (64, 128, 128),
                   (128, 64, 128)]
 
@@ -40,7 +43,7 @@ THREAD_M_BLOCKS = [0.5, 1, 2, 3, 4]
 #   = 0 : act order case
 #   = -1 : channelwise quantization
 #   > 0 : group_size=16*group_blocks
-GROUP_BLOCKS = [0, -1, 2, 4, 8]
+GROUP_BLOCKS = [0, 1, -1, 2, 4, 8]
 DTYPES = ["fp16", "bf16"]
 
 
@@ -73,6 +76,12 @@ def generate_new_kernels():
             # for fp8
             if scalar_type == "vllm::kFE4M3fn" and group_blocks not in [-1, 8]:
                 continue
+            # nvfp4 only supports group_size == 16
+            if scalar_type == "vllm::kFE2M1f" and group_blocks != 1:
+                continue
+            # other quantization methods don't support group_size = 16
+            if scalar_type != "vllm::kFE2M1f" and group_blocks == 1:
+                continue
 
             k_blocks = thread_configs[0] // 16
             n_blocks = thread_configs[1] // 16
diff --git a/csrc/quantization/gptq_marlin/gptq_marlin.cu b/csrc/quantization/gptq_marlin/gptq_marlin.cu
index 02527a481..4a242f205 100644
--- a/csrc/quantization/gptq_marlin/gptq_marlin.cu
+++ b/csrc/quantization/gptq_marlin/gptq_marlin.cu
@@ -258,6 +258,7 @@ bool is_valid_config(thread_config_t const& th_config, int thread_m_blocks,
   // BIGGROUP: cases for big group size (group_blocks in [-1, 8])
   // FZP: cases for float-zero-point (is_zp_float = true)
   // ACT: cases for act order case (group_blocks == 0)
+  // FP4: cases for nvfp4(e2m1) (group_blocks == 1)
   #define COMMON_GET_IF_M1(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)       \
     _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, -1, NUM_THREADS, false)  \
     _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 2, NUM_THREADS, false)   \
@@ -314,6 +315,23 @@ bool is_valid_config(thread_config_t const& th_config, int thread_m_blocks,
     BIGGROUP_GET_IF_M234(W_TYPE, 8, 4, 128)  \
     BIGGROUP_GET_IF_M234(W_TYPE, 4, 8, 128)
 
+  #define FP4_GET_IF_M1(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)        \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, false, 1, NUM_THREADS, false)
+
+  #define FP4_GET_IF_M234(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)       \
+    _GET_IF(W_TYPE, 2, N_BLOCKS, K_BLOCKS, false, 1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 3, N_BLOCKS, K_BLOCKS, false, 1, NUM_THREADS, false) \
+    _GET_IF(W_TYPE, 4, N_BLOCKS, K_BLOCKS, false, 1, NUM_THREADS, false)
+
+  #define FP4_GET_IF(W_TYPE)            \
+    FP4_GET_IF_M1(W_TYPE, 8, 8, 256)    \
+    FP4_GET_IF_M1(W_TYPE, 8, 4, 128)    \
+    FP4_GET_IF_M1(W_TYPE, 4, 8, 128)    \
+    FP4_GET_IF_M234(W_TYPE, 16, 4, 256) \
+    FP4_GET_IF_M234(W_TYPE, 8, 4, 128)  \
+    FP4_GET_IF_M234(W_TYPE, 4, 8, 128)
+
   // We currently have 4-bit models only with group_blocks == 4
   #define FZP_GET_IF_M1(W_TYPE, N_BLOCKS, K_BLOCKS, NUM_THREADS)       \
     _GET_IF(W_TYPE, 1, N_BLOCKS, K_BLOCKS, true, 4, NUM_THREADS, true) \
@@ -366,6 +384,8 @@ MarlinFuncPtr get_marlin_kernel(const vllm::ScalarType q_type,
   COMMON_GET_IF(vllm::kU4B8)
   COMMON_GET_IF(vllm::kU8B128)
 
+  FP4_GET_IF(vllm::kFE2M1f)
+
   BIGGROUP_GET_IF(vllm::kFE4M3fn)
 
   ACT_GET_IF(vllm::kU4B8)
@@ -434,8 +454,8 @@ exec_config_t determine_exec_config(const vllm::ScalarType& q_type, int prob_m,
 
 template <typename scalar_t>
 void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
-               void* zp, void* g_idx, void* perm, void* a_tmp, int prob_m,
-               int prob_n, int prob_k, int lda, void* workspace,
+               void* s2, void* zp, void* g_idx, void* perm, void* a_tmp,
+               int prob_m, int prob_n, int prob_k, int lda, void* workspace,
                vllm::ScalarType const& q_type, bool has_act_order,
                bool is_k_full, bool has_zp, int num_groups, int group_size,
                int dev, cudaStream_t stream, int thread_k_init,
@@ -446,11 +466,12 @@ void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
         q_type == vllm::kU4 || q_type == vllm::kU8,
         "q_type must be u4 or u8 when has_zp = True. Got = ", q_type.str());
   } else {
-    TORCH_CHECK(q_type == vllm::kU4B8 || q_type == vllm::kU8B128 ||
-                    q_type == vllm::kFE4M3fn,
-                "q_type must be uint4b8, uint8b128 or float8_e4m3fn when "
-                "has_zp = False. Got = ",
-                q_type.str());
+    TORCH_CHECK(
+        q_type == vllm::kU4B8 || q_type == vllm::kU8B128 ||
+            q_type == vllm::kFE4M3fn || q_type == vllm::kFE2M1f,
+        "q_type must be uint4b8, uint8b128, float8_e4m3fn or float4_e2m1f when "
+        "has_zp = False. Got = ",
+        q_type.str());
   }
 
   TORCH_CHECK(prob_m > 0 && prob_n > 0 && prob_k > 0, "Invalid MNK = [", prob_m,
@@ -483,6 +504,7 @@ void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
   int4* C_ptr = (int4*)C;
   int4* C_tmp_ptr = (int4*)C_tmp;
   const int4* s_ptr = (const int4*)s;
+  const uint16_t* s2_ptr = (const uint16_t*)s2;
   const int4* zp_ptr = (const int4*)zp;
   const int* g_idx_ptr = (const int*)g_idx;
   const int* perm_ptr = (const int*)perm;
@@ -601,7 +623,7 @@ void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
     // avoid ">>>" being formatted to "> > >"
     // clang-format off
     kernel<<<blocks, num_threads, max_shared_mem_new, stream>>>(
-        A_ptr, B_ptr, C_ptr, C_tmp_ptr, s_ptr, zp_ptr, g_idx_ptr, num_groups,
+        A_ptr, B_ptr, C_ptr, C_tmp_ptr, s_ptr, s2_ptr, zp_ptr, g_idx_ptr, num_groups,
         prob_m_split, prob_n, prob_k, lda, locks, part_use_atomic_add,
         use_fp32_reduce, max_shared_mem_new);
     // clang-format on
@@ -617,6 +639,7 @@ void marlin_mm(const void* A, const void* B, void* C, void* C_tmp, void* s,
 torch::Tensor gptq_marlin_gemm(
     torch::Tensor& a, std::optional<torch::Tensor> c_or_none,
     torch::Tensor& b_q_weight, torch::Tensor& b_scales,
+    std::optional<torch::Tensor> const& global_scale_or_none,
     std::optional<torch::Tensor> const& b_zeros_or_none,
     std::optional<torch::Tensor> const& g_idx_or_none,
     std::optional<torch::Tensor> const& perm_or_none, torch::Tensor& workspace,
@@ -759,6 +782,17 @@ torch::Tensor gptq_marlin_gemm(
     }
   }
 
+  torch::Tensor global_scale;
+  if (global_scale_or_none.has_value()) {
+    global_scale = global_scale_or_none.value();
+    TORCH_CHECK(b_q_type == vllm::kFE2M1f,
+                "global_scale can only be used for float4_e2m1f.");
+  } else {
+    global_scale = torch::empty({0}, options);
+    TORCH_CHECK(!(b_q_type == vllm::kFE2M1f),
+                "the global_scale parameter must be passed for float4_e2m1f.");
+  }
+
   torch::Tensor b_zeros;
   if (b_zeros_or_none.has_value()) {
     b_zeros = b_zeros_or_none.value();
@@ -774,8 +808,9 @@ torch::Tensor gptq_marlin_gemm(
         "b_q_type must be u4 or u8 when has_zp = True. Got = ", b_q_type.str());
   } else {
     TORCH_CHECK(b_q_type == vllm::kU4B8 || b_q_type == vllm::kU8B128 ||
-                    b_q_type == vllm::kFE4M3fn,
-                "b_q_type must be uint4b8, uint8b128 or float8_e4m3fn when "
+                    b_q_type == vllm::kFE4M3fn || b_q_type == vllm::kFE2M1f,
+                "b_q_type must be uint4b8, uint8b128, float8_e4m3fn or "
+                "float4_e2m1f when "
                 "has_zp = False. Got = ",
                 b_q_type.str());
   }
@@ -820,22 +855,36 @@ torch::Tensor gptq_marlin_gemm(
 
   int dev = a.get_device();
   if (a.scalar_type() == at::ScalarType::Half) {
+    void* scales_ptr;
+    if (b_q_type == vllm::kFE2M1f) {
+      scales_ptr = b_scales.data_ptr<at::Float8_e4m3fn>();
+    } else {
+      scales_ptr = b_scales.data_ptr<at::Half>();
+    }
+
     marlin::marlin_mm<half>(
         a.data_ptr<at::Half>(), b_q_weight.data_ptr(), c.data_ptr<at::Half>(),
-        c_tmp.data_ptr<float>(), b_scales.data_ptr<at::Half>(),
+        c_tmp.data_ptr<float>(), scales_ptr, global_scale.data_ptr<at::Half>(),
         b_zeros.data_ptr(), g_idx.data_ptr(), perm.data_ptr(),
         a_tmp.data_ptr<at::Half>(), size_m, size_n, size_k, a.stride(0),
         workspace.data_ptr(), b_q_type, has_act_order, is_k_full, has_zp,
         num_groups, group_size, dev, at::cuda::getCurrentCUDAStream(dev),
         thread_k, thread_n, sms, use_atomic_add, use_fp32_reduce, is_zp_float);
   } else if (a.scalar_type() == at::ScalarType::BFloat16) {
+    void* scales_ptr;
+    if (b_q_type == vllm::kFE2M1f) {
+      scales_ptr = b_scales.data_ptr<at::Float8_e4m3fn>();
+    } else {
+      scales_ptr = b_scales.data_ptr<at::BFloat16>();
+    }
+
     marlin::marlin_mm<nv_bfloat16>(
         a.data_ptr<at::BFloat16>(), b_q_weight.data_ptr(),
-        c.data_ptr<at::BFloat16>(), c_tmp.data_ptr<float>(),
-        b_scales.data_ptr<at::BFloat16>(), b_zeros.data_ptr(), g_idx.data_ptr(),
-        perm.data_ptr(), a_tmp.data_ptr<at::BFloat16>(), size_m, size_n, size_k,
-        a.stride(0), workspace.data_ptr(), b_q_type, has_act_order, is_k_full,
-        has_zp, num_groups, group_size, dev,
+        c.data_ptr<at::BFloat16>(), c_tmp.data_ptr<float>(), scales_ptr,
+        global_scale.data_ptr<at::BFloat16>(), b_zeros.data_ptr(),
+        g_idx.data_ptr(), perm.data_ptr(), a_tmp.data_ptr<at::BFloat16>(),
+        size_m, size_n, size_k, a.stride(0), workspace.data_ptr(), b_q_type,
+        has_act_order, is_k_full, has_zp, num_groups, group_size, dev,
         at::cuda::getCurrentCUDAStream(dev), thread_k, thread_n, sms,
         use_atomic_add, use_fp32_reduce, is_zp_float);
   } else {
diff --git a/csrc/quantization/gptq_marlin/kernel.h b/csrc/quantization/gptq_marlin/kernel.h
index eb2700c95..f92056589 100644
--- a/csrc/quantization/gptq_marlin/kernel.h
+++ b/csrc/quantization/gptq_marlin/kernel.h
@@ -7,13 +7,14 @@
 #include "marlin_dtypes.cuh"
 #include "core/scalar_type.hpp"
 
-#define MARLIN_KERNEL_PARAMS                                                 \
-  const int4 *__restrict__ A, const int4 *__restrict__ B,                    \
-      int4 *__restrict__ C, int4 *__restrict__ C_tmp,                        \
-      const int4 *__restrict__ scales_ptr, const int4 *__restrict__ zp_ptr,  \
-      const int *__restrict__ g_idx, int num_groups, int prob_m, int prob_n, \
-      int prob_k, int lda, int *locks, bool use_atomic_add,                  \
-      bool use_fp32_reduce, int max_shared_mem
+#define MARLIN_KERNEL_PARAMS                                                   \
+  const int4 *__restrict__ A, const int4 *__restrict__ B,                      \
+      int4 *__restrict__ C, int4 *__restrict__ C_tmp,                          \
+      const int4 *__restrict__ scales_ptr,                                     \
+      const uint16_t *__restrict__ scale2_ptr,                                 \
+      const int4 *__restrict__ zp_ptr, const int *__restrict__ g_idx,          \
+      int num_groups, int prob_m, int prob_n, int prob_k, int lda, int *locks, \
+      bool use_atomic_add, bool use_fp32_reduce, int max_shared_mem
 
 namespace MARLIN_NAMESPACE_NAME {
 template <typename scalar_t,  // compute dtype, half or nv_float16
diff --git a/csrc/quantization/gptq_marlin/marlin_template.h b/csrc/quantization/gptq_marlin/marlin_template.h
index ca05b8a25..c49898210 100644
--- a/csrc/quantization/gptq_marlin/marlin_template.h
+++ b/csrc/quantization/gptq_marlin/marlin_template.h
@@ -292,9 +292,11 @@ __global__ void Marlin(
     int4* __restrict__ C_tmp,    // fp32 tmp output buffer (for reduce)
     const int4* __restrict__ scales_ptr,  // fp16 quantization scales of shape
                                           // (k/groupsize)xn
-    const int4* __restrict__ zp_ptr,      // 4bit packed zero-points of shape
-                                          // (k/groupsize)x(n/pack_factor)
-    const int* __restrict__ g_idx,        // int32 group indices of shape k
+    const uint16_t* __restrict__ scale2_ptr,  // fp16 global scale (for nvfp4
+                                              // only)
+    const int4* __restrict__ zp_ptr,  // 4bit packed zero-points of shape
+                                      // (k/groupsize)x(n/pack_factor)
+    const int* __restrict__ g_idx,    // int32 group indices of shape k
     int num_groups,        // number of scale groups per output channel
     int prob_m,            // batch dimension m
     int prob_n,            // output dimension n
@@ -325,6 +327,21 @@ __global__ void Marlin(
 
   static constexpr auto w_type = vllm::ScalarType::from_id(w_type_id);
   constexpr bool has_zp = w_type == vllm::kU4 || w_type == vllm::kU8;
+  constexpr bool is_int_type = w_type == vllm::kU4 || w_type == vllm::kU8 ||
+                               w_type == vllm::kU4B8 || w_type == vllm::kU8B128;
+  // see comments of dequant.h for more details
+  constexpr bool dequant_skip_flop =
+      !is_int_type ||
+      has_zp && !is_zp_float && !std::is_same<scalar_t, nv_bfloat16>::value ||
+      has_zp && !is_zp_float && !(w_type == vllm::kU8);
+
+  scalar_t2 global_scale;
+
+  if constexpr (w_type == vllm::kFE2M1f) {
+    uint16_t val = scale2_ptr[0];
+    global_scale = Dtype::num2num2(*reinterpret_cast<scalar_t*>(&val));
+  }
+
   constexpr bool has_act_order = group_blocks == 0;
   constexpr int m_block_size = m_block_size_8 ? 8 : (16 * thread_m_blocks);
 
@@ -481,7 +498,7 @@ __global__ void Marlin(
   constexpr int s_sh_stride = 16 * thread_n_blocks / 8;
   constexpr int s_tb_groups =
       !has_act_order && group_blocks != -1 && group_blocks < thread_k_blocks
-          ? thread_k_blocks / group_blocks
+          ? thread_k_blocks / group_blocks / (w_type == vllm::kFE2M1f ? 2 : 1)
           : 1;
   constexpr int s_sh_stage = s_tb_groups * s_sh_stride;
   int s_gl_rd_delta = s_gl_stride;
@@ -540,7 +557,8 @@ __global__ void Marlin(
     if constexpr (group_blocks == -1) {
       s_gl_rd = s_sh_stride * slice_col + threadIdx.x;
     } else {
-      s_gl_rd = s_gl_stride * ((thread_k_blocks * slice_row) / group_blocks) +
+      s_gl_rd = s_gl_stride * ((thread_k_blocks * slice_row) / group_blocks) /
+                    (w_type == vllm::kFE2M1f ? 2 : 1) +
                 s_sh_stride * slice_col + threadIdx.x;
     }
   }
@@ -564,10 +582,20 @@ __global__ void Marlin(
   // we scale a `half2` tile in column-major layout in the former and in
   // row-major in the latter case.
   int s_sh_rd;
-  if constexpr (group_blocks != -1)
+  if constexpr (group_blocks != -1 && w_type == vllm::kFE2M1f) {
+    auto warp_id = threadIdx.x / 32;
+    int n_warps = thread_n_blocks / 4;
+    int warp_row = warp_id / n_warps;
+
     s_sh_rd = 8 * ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
               (threadIdx.x % 32) / 4;
-  else if constexpr (group_blocks == -1 && (m_block_size_8 || has_zp))
+    s_sh_rd = s_sh_rd * 2 + warp_row % 2;
+
+  } else if constexpr (group_blocks != -1)
+    s_sh_rd = 8 * ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
+              (threadIdx.x % 32) / 4;
+  else if constexpr (group_blocks == -1 &&
+                     (m_block_size_8 || (has_zp && !dequant_skip_flop)))
     s_sh_rd = 8 * ((threadIdx.x / 32) % (thread_n_blocks / 4)) +
               (threadIdx.x % 32) / 8;
   else
@@ -681,7 +709,7 @@ __global__ void Marlin(
     sh_first_group_id = first_group_id;
     sh_num_groups = last_group_id - first_group_id + 1;
 
-    if (sh_num_groups < act_s_max_num_groups) {
+    if (sh_num_groups > act_s_max_num_groups) {
       sh_num_groups = act_s_max_num_groups;
     }
 
@@ -887,12 +915,19 @@ __global__ void Marlin(
           cur_k += k_iter_size * (k % b_sh_wr_iters);
 
           int k_blocks = cur_k / 16;
-          int cur_group_id = k_blocks / group_blocks;
+          int cur_group_id =
+              k_blocks / (group_blocks * (w_type == vllm::kFE2M1f ? 2 : 1));
 
           int4* sh_s_stage = sh_s + s_sh_stage * pipe;
 
-          reinterpret_cast<int4*>(&frag_s[k % 2])[0] =
-              sh_s_stage[s_sh_rd + cur_group_id * s_sh_stride];
+          if constexpr (w_type_id != vllm::kFE2M1f.id()) {
+            reinterpret_cast<int4*>(&frag_s[k % 2])[0] =
+                sh_s_stage[s_sh_rd + cur_group_id * s_sh_stride];
+          } else {
+            reinterpret_cast<int2*>(&frag_s[k % 2])[0] =
+                reinterpret_cast<int2*>(
+                    sh_s_stage)[s_sh_rd + cur_group_id * (2 * s_sh_stride)];
+          }
         }
       }
 
@@ -1065,22 +1100,7 @@ __global__ void Marlin(
   };
 
   auto dequant_data = [&](int q, scalar_t2* frag_b_ptr) {
-    if constexpr (has_zp && is_zp_float || !has_zp) {
-      dequant<scalar_t2, w_type_id>(q, frag_b_ptr);
-    } else {
-      static_assert(has_zp && !is_zp_float);
-      static_assert(w_type_id == vllm::kU4.id() || w_type_id == vllm::kU8.id());
-      // If (has_zp && !is_zp_float),
-      // we use not-zp version `dequant` function
-      // to improve numerical accuracy.
-      // Since both weight and zero point are dequanted using this logic,
-      // the final dequanted weight would be correct.
-      if constexpr (w_type_id == vllm::kU4.id()) {
-        dequant<scalar_t2, vllm::kU4B8.id()>(q, frag_b_ptr);
-      } else if constexpr (w_type_id == vllm::kU8.id()) {
-        dequant<scalar_t2, vllm::kU8B128.id()>(q, frag_b_ptr);
-      }
-    }
+    dequant<scalar_t2, w_type_id, dequant_skip_flop>(q, frag_b_ptr);
   };
 
   // Execute the actual tensor core matmul of a sub-tile.
@@ -1110,13 +1130,23 @@ __global__ void Marlin(
         dequant_data(zp_quant_1, reinterpret_cast<scalar_t2*>(&frag_zp) + 2);
       }
     }
-    if constexpr (has_zp && is_zp_float) {
+    if constexpr (!dequant_skip_flop && has_zp && is_zp_float) {
       if (is_new_zp) {
         reinterpret_cast<int4*>(&frag_zp)[0] =
             reinterpret_cast<int4*>(&frag_zpf[k2])[0];
       }
     }
 
+    if constexpr (w_type == vllm::kFE2M1f) {
+      int s_quant_0 = reinterpret_cast<int*>(frag_s[k2])[0];
+      int s_quant_1 = reinterpret_cast<int*>(frag_s[k2])[1];
+
+      dequant_fp8_scales<scalar_t2>(s_quant_0,
+                                    reinterpret_cast<scalar_t2*>(&frag_s[k2]));
+      dequant_fp8_scales<scalar_t2>(
+          s_quant_1, reinterpret_cast<scalar_t2*>(&frag_s[k2]) + 2);
+    }
+
   // We have the m dimension as the inner loop in order to encourage overlapping
   // dequantization and matmul operations.
   #pragma unroll
@@ -1125,7 +1155,10 @@ __global__ void Marlin(
       FragB frag_b1;
       int b_quant_0, b_quant_1;
 
-      if constexpr (w_type.size_bits() == 4) {
+      if constexpr (w_type_id == vllm::kFE2M1f.id()) {
+        b_quant_1 = frag_b_quant[k2][0][j];
+        b_quant_0 = b_quant_1 << 8;
+      } else if constexpr (w_type.size_bits() == 4) {
         b_quant_0 = frag_b_quant[k2][0][j];
         b_quant_1 = b_quant_0 >> 8;
       } else {
@@ -1138,6 +1171,11 @@ __global__ void Marlin(
       dequant_data(b_quant_0, reinterpret_cast<scalar_t2*>(&frag_b0));
       dequant_data(b_quant_1, reinterpret_cast<scalar_t2*>(&frag_b1));
 
+      if constexpr (dequant_skip_flop && has_zp && !is_zp_float) {
+        sub_zp<scalar_t>(frag_b0, frag_zp[j], 0);
+        sub_zp<scalar_t>(frag_b1, frag_zp[j], 1);
+      }
+
       // Apply scale to frag_b0
       if constexpr (has_act_order) {
         static_assert(group_blocks != -1);
@@ -1145,7 +1183,8 @@ __global__ void Marlin(
                          act_frag_s[k2][2][j], act_frag_s[k2][3][j], 0);
         scale4<scalar_t>(frag_b1, act_frag_s[k2][0][j], act_frag_s[k2][1][j],
                          act_frag_s[k2][2][j], act_frag_s[k2][3][j], 1);
-      } else if constexpr (has_zp && !is_zp_float && group_blocks == -1) {
+      } else if constexpr (!dequant_skip_flop && has_zp && !is_zp_float &&
+                           group_blocks == -1) {
         int idx = (threadIdx.x / 4) % 2;
         scalar_t2 s2 = Dtype::nums2num2(
             reinterpret_cast<scalar_t*>(&frag_s[j / 2][j % 2 * 2 + 0])[idx],
@@ -1153,7 +1192,7 @@ __global__ void Marlin(
         if (is_new_zp) frag_zp[j] = __hmul2(frag_zp[j], s2);
         scale_and_sub<scalar_t>(frag_b0, s2.x, frag_zp[j].x);
         scale_and_sub<scalar_t>(frag_b1, s2.y, frag_zp[j].y);
-      } else if constexpr (has_zp && group_blocks != -1) {
+      } else if constexpr (!dequant_skip_flop && has_zp && group_blocks != -1) {
         if (is_new_zp)
           frag_zp[j] = __hmul2(frag_zp[j],
                                *reinterpret_cast<scalar_t2*>(&frag_s[k2][j]));
@@ -1408,10 +1447,15 @@ __global__ void Marlin(
       // For per-column quantization we finally apply the scale here (only for
       // 4-bit)
       if constexpr (!has_act_order && group_blocks == -1 &&
-                    w_type.size_bits() == 4 && !has_zp) {
+                    w_type.size_bits() == 4 &&
+                    (has_zp && dequant_skip_flop || !has_zp)) {
         res = __hmul2(res, s[0]);
       }
 
+      if constexpr (w_type == vllm::kFE2M1f) {
+        res = __hmul2(res, global_scale);
+      }
+
       if constexpr (m_block_size_8) {
         ((scalar_t*)sh_red)[idx] = res.x;
         ((scalar_t*)sh_red)[idx + 8 * c_sh_stride] = res.y;
@@ -1488,7 +1532,9 @@ __global__ void Marlin(
       if constexpr (has_zp && !is_zp_float && group_blocks == -1) {
         if (i == 0) {
           fetch_col_zp_to_shared();
-          fetch_col_scale_to_shared();
+          if constexpr (!dequant_skip_flop) {
+            fetch_col_scale_to_shared();
+          }
         }
       }
       fetch_to_shared(i, i, i < slice_iters);
@@ -1563,7 +1609,8 @@ __global__ void Marlin(
       bool last = slice_idx == slice_count - 1;
       // For per-column scales, we only fetch them here in the final step before
       // write-out
-      if constexpr (!has_act_order && group_blocks == -1 && !has_zp) {
+      if constexpr (!has_act_order && group_blocks == -1 &&
+                    (has_zp && dequant_skip_flop || !has_zp)) {
         if (w_type.size_bits() == 8 || (last || use_atomic_add)) {
           if (s_sh_wr_pred) {
             cp_async4(&sh_s[s_sh_wr], &scales_ptr[s_gl_rd]);
@@ -1573,7 +1620,8 @@ __global__ void Marlin(
       }
 
       thread_block_reduce();
-      if constexpr (!has_act_order && group_blocks == -1 && !has_zp) {
+      if constexpr (!has_act_order && group_blocks == -1 &&
+                    (has_zp && dequant_skip_flop || !has_zp)) {
         if (w_type.size_bits() == 8 || (last || use_atomic_add)) {
           cp_async_wait<0>();
           __syncthreads();
@@ -1597,7 +1645,8 @@ __global__ void Marlin(
       // that converts the fp32 results to fp16 (so that we avoid possible
       // overflow in fp16)
       if constexpr (!has_act_order && group_blocks == -1 &&
-                    w_type.size_bits() == 8 && !has_zp) {
+                    w_type.size_bits() == 8 &&
+                    (has_zp && dequant_skip_flop || !has_zp)) {
         if (threadIdx.x / 32 < thread_n_blocks / 4) {
   #pragma unroll
           for (int i = 0; i < thread_m_blocks; i++) {
diff --git a/csrc/torch_bindings.cpp b/csrc/torch_bindings.cpp
index 1dbd11f5f..2430641ea 100644
--- a/csrc/torch_bindings.cpp
+++ b/csrc/torch_bindings.cpp
@@ -292,8 +292,8 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
   // gptq_marlin Optimized Quantized GEMM for GPTQ.
   ops.def(
       "gptq_marlin_gemm(Tensor a, Tensor? c_or_none, Tensor b_q_weight, "
-      "Tensor b_scales, Tensor? b_zeros_or_none, Tensor? g_idx_or_none, "
-      "Tensor? perm_or_none, Tensor workspace, int b_q_type, "
+      "Tensor b_scales, Tensor? global_scale, Tensor? b_zeros_or_none, Tensor? "
+      "g_idx_or_none, Tensor? perm_or_none, Tensor workspace, int b_q_type, "
       "SymInt size_m, SymInt size_n, SymInt size_k, bool is_k_full, "
       "bool use_atomic_add, bool use_fp32_reduce, bool is_zp_float) -> Tensor",
       {stride_tag});
diff --git a/tests/kernels/moe/test_moe.py b/tests/kernels/moe/test_moe.py
index d68310060..c1d0940f2 100644
--- a/tests/kernels/moe/test_moe.py
+++ b/tests/kernels/moe/test_moe.py
@@ -16,6 +16,8 @@ from vllm.model_executor.layers.fused_moe import fused_moe
 from vllm.model_executor.layers.fused_moe.fused_moe import fused_topk
 from vllm.model_executor.layers.fused_moe.moe_torch_iterative import (
     fused_moe as iterative_moe)
+from vllm.model_executor.layers.quantization.utils.marlin_utils_fp4 import (
+    rand_marlin_weight_fp4_like)
 from vllm.model_executor.layers.quantization.utils.marlin_utils_fp8 import (
     marlin_quant_fp8_torch)
 from vllm.model_executor.layers.quantization.utils.marlin_utils_test import (
@@ -286,21 +288,64 @@ def test_mixtral_moe(dtype: torch.dtype, padding: bool, use_rocm_aiter: bool,
                                    atol=mixtral_moe_tol[dtype])
 
 
+def marlin_moe_generate_valid_test_cases():
+    import itertools
+    m_list = [1, 123, 666]
+    n_list = [128, 1024]
+    k_list = [256, 2048]
+    e_list = [4, 12]
+    topk_list = [2, 3]
+    ep_size_list = [1, 4]
+    dtype_list = [torch.half, torch.bfloat16]
+    group_size_list = [-1, 16, 32, 128]
+    act_order_list = [True, False]
+    quant_type_list = [
+        scalar_types.float4_e2m1f,
+        scalar_types.float8_e4m3fn,
+        scalar_types.uint4,
+        scalar_types.uint4b8,
+        scalar_types.uint8b128,
+    ]
+    is_k_full_list = [True, False]
+
+    all_combinations = itertools.product(m_list, n_list, k_list, e_list,
+                                         topk_list, ep_size_list, dtype_list,
+                                         group_size_list, act_order_list,
+                                         quant_type_list, is_k_full_list)
+
+    def is_invalid(m, n, k, e, topk, ep_size, dtype, group_size, act_order,
+                   quant_type, is_k_full):
+
+        if quant_type == scalar_types.float8_e4m3fn and \
+                group_size not in [-1, 128]:
+            return False
+        if quant_type == scalar_types.float4_e2m1f and group_size != 16:
+            return False
+        if quant_type != scalar_types.float4_e2m1f and group_size == 16:
+            return False
+
+        # Filter act_order
+        if act_order:
+            if group_size in (-1, k, n):
+                return False
+            if quant_type not in [scalar_types.uint4b8]:
+                return False
+        elif not is_k_full:
+            return False
+
+        return True
+
+    cases = []
+    for case in all_combinations:
+        if is_invalid(*case):
+            cases.append(case)
+    return cases
+
+
 @pytest.mark.flaky(reruns=2)
-@pytest.mark.parametrize("m", [1, 123, 666])
-@pytest.mark.parametrize("n", [128, 1024])
-@pytest.mark.parametrize("k", [256, 2048])
-@pytest.mark.parametrize("e", [4, 12])
-@pytest.mark.parametrize("topk", [2, 3])
-@pytest.mark.parametrize("ep_size", [1, 4])
-@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
-@pytest.mark.parametrize("group_size", [-1, 32, 128])
-@pytest.mark.parametrize("act_order", [True, False])
-@pytest.mark.parametrize("quant_type", [
-    scalar_types.uint4, scalar_types.uint8b128, scalar_types.uint4b8,
-    scalar_types.float8_e4m3fn
-])
-@pytest.mark.parametrize("is_k_full", [True, False])
+@pytest.mark.parametrize(("m, n, k, e, topk, ep_size, dtype, group_size,"
+                          "act_order, quant_type, is_k_full"),
+                         marlin_moe_generate_valid_test_cases())
 @pytest.mark.skipif(current_platform.is_rocm(), reason="Skip for rocm")
 def test_fused_marlin_moe(
     m: int,
@@ -338,6 +383,11 @@ def test_fused_marlin_moe(
         if not is_k_full:
             return
 
+    if quant_type == scalar_types.float4_e2m1f and group_size != 16:
+        return
+    if quant_type != scalar_types.float4_e2m1f and group_size == 16:
+        return
+
     a = torch.randn((m, k), device="cuda", dtype=dtype) / 10
     w1 = torch.randn((e, 2 * n, k), device="cuda", dtype=dtype) / 20
     w2 = torch.randn((e, k, n), device="cuda", dtype=dtype) / 20
@@ -355,12 +405,27 @@ def test_fused_marlin_moe(
     w_ref1_l = []
     qweight1_l = []
     scales1_l = []
+    global_scale1_l = []
     zeros1_l = []
     g_idx1_l = []
     sort_indices1_l = []
 
     for i in range(w1.shape[0]):
-        if has_zp:
+        if quant_type == scalar_types.float4_e2m1f:
+            w_ref1, qweight1, scales1, global_scale1 = \
+                rand_marlin_weight_fp4_like(w1[i], group_size)
+
+            w_ref1_l.append(w_ref1.T)
+            qweight1_l.append(qweight1)
+            scales1_l.append(scales1)
+            global_scale1_l.append(global_scale1)
+        elif quant_type == scalar_types.float8_e4m3fn:
+            w_ref1, qweight1, scales1 = marlin_quant_fp8_torch(
+                w1[i], group_size)
+            w_ref1_l.append(w_ref1.T)
+            qweight1_l.append(qweight1)
+            scales1_l.append(scales1)
+        elif has_zp:
             w_ref1, qweight1, scales1, zeros1 = awq_marlin_quantize(
                 w1[i].transpose(1, 0), quant_type, group_size)
 
@@ -368,7 +433,7 @@ def test_fused_marlin_moe(
             qweight1_l.append(qweight1)
             scales1_l.append(scales1)
             zeros1_l.append(zeros1)
-        elif quant_type != scalar_types.float8_e4m3fn:
+        else:
             test_perm = torch.randperm(k)
             w_ref1, qweight1, scales1, g_idx1, sort_indices1, _ = \
                 marlin_quantize(w1[i].transpose(1, 0), quant_type,
@@ -379,16 +444,11 @@ def test_fused_marlin_moe(
             scales1_l.append(scales1)
             g_idx1_l.append(g_idx1)
             sort_indices1_l.append(sort_indices1)
-        else:
-            w_ref1, qweight1, scales1 = marlin_quant_fp8_torch(
-                w1[i], group_size)
-            w_ref1_l.append(w_ref1.T)
-            qweight1_l.append(qweight1)
-            scales1_l.append(scales1)
 
     w_ref1 = stack_and_dev(w_ref1_l)
     qweight1 = stack_and_dev(qweight1_l).contiguous()
     scales1 = stack_and_dev(scales1_l)
+    global_scale1 = stack_and_dev(global_scale1_l) if global_scale1_l else None
     g_idx1 = stack_and_dev(g_idx1_l) if g_idx1_l else None
     zeros1 = stack_and_dev(zeros1_l) if zeros1_l else None
     sort_indices1 = stack_and_dev(sort_indices1_l) if sort_indices1_l else None
@@ -396,12 +456,27 @@ def test_fused_marlin_moe(
     w_ref2_l = []
     qweight2_l = []
     scales2_l = []
+    global_scale2_l = []
     zeros2_l = []
     g_idx2_l = []
     sort_indices2_l = []
 
     for i in range(w2.shape[0]):
-        if has_zp:
+        if quant_type == scalar_types.float4_e2m1f:
+            w_ref2, qweight2, scales2, global_scale2 = \
+                rand_marlin_weight_fp4_like(w2[i], group_size)
+
+            w_ref2_l.append(w_ref2.T)
+            qweight2_l.append(qweight2)
+            scales2_l.append(scales2)
+            global_scale2_l.append(global_scale2)
+        elif quant_type == scalar_types.float8_e4m3fn:
+            w_ref2, qweight2, scales2 = marlin_quant_fp8_torch(
+                w2[i], group_size)
+            w_ref2_l.append(w_ref2.T)
+            qweight2_l.append(qweight2)
+            scales2_l.append(scales2)
+        elif has_zp:
             w_ref2, qweight2, scales2, zeros2 = awq_marlin_quantize(
                 w2[i].transpose(1, 0), quant_type, group_size)
 
@@ -409,7 +484,7 @@ def test_fused_marlin_moe(
             qweight2_l.append(qweight2)
             scales2_l.append(scales2)
             zeros2_l.append(zeros2)
-        elif quant_type != scalar_types.float8_e4m3fn:
+        else:
             test_perm = torch.randperm(n)
             w_ref2, qweight2, scales2, g_idx2, sort_indices2, _ = \
                 marlin_quantize(w2[i].transpose(1, 0), quant_type,
@@ -420,24 +495,18 @@ def test_fused_marlin_moe(
             scales2_l.append(scales2)
             g_idx2_l.append(g_idx2)
             sort_indices2_l.append(sort_indices2)
-        else:
-            w_ref2, qweight2, scales2 = marlin_quant_fp8_torch(
-                w2[i], group_size)
-            w_ref2_l.append(w_ref2.T)
-            qweight2_l.append(qweight2)
-            scales2_l.append(scales2)
 
     w_ref2 = stack_and_dev(w_ref2_l)
     qweight2 = stack_and_dev(qweight2_l).contiguous()
     scales2 = stack_and_dev(scales2_l)
+    global_scale2 = stack_and_dev(global_scale2_l) if global_scale2_l else None
     g_idx2 = stack_and_dev(g_idx2_l) if g_idx2_l else None
     zeros2 = stack_and_dev(zeros2_l) if zeros2_l else None
     sort_indices2 = stack_and_dev(sort_indices2_l) if sort_indices2_l else None
 
     score = torch.randn((m, e), device="cuda", dtype=dtype)
 
-    topk_weights, topk_ids, token_expert_indices = fused_topk(
-        a, score, topk, False)
+    topk_weights, topk_ids, _ = fused_topk(a, score, topk, False)
 
     torch_output = torch_moe(a, w_ref1, w_ref2, score, topk, e_map)
 
@@ -452,6 +521,8 @@ def test_fused_marlin_moe(
         topk_ids,
         global_num_experts=e,
         expert_map=e_map,
+        global_scale1=global_scale1,
+        global_scale2=global_scale2,
         g_idx1=g_idx1,
         g_idx2=g_idx2,
         sort_indices1=sort_indices1,
diff --git a/tests/kernels/quantization/test_marlin_gemm.py b/tests/kernels/quantization/test_marlin_gemm.py
index c125e0b5e..52507b375 100644
--- a/tests/kernels/quantization/test_marlin_gemm.py
+++ b/tests/kernels/quantization/test_marlin_gemm.py
@@ -20,6 +20,8 @@ from vllm.model_executor.layers.quantization.utils.marlin_utils import (
     MARLIN_SUPPORTED_GROUP_SIZES, marlin_make_empty_g_idx,
     marlin_make_workspace_new, marlin_permute_scales,
     query_marlin_supported_quant_types)
+from vllm.model_executor.layers.quantization.utils.marlin_utils_fp4 import (
+    FP4_MARLIN_SUPPORTED_GROUP_SIZES, rand_marlin_weight_fp4_like)
 from vllm.model_executor.layers.quantization.utils.marlin_utils_fp8 import (
     marlin_quant_fp8_torch)
 from vllm.model_executor.layers.quantization.utils.marlin_utils_test import (
@@ -190,9 +192,10 @@ def test_awq_marlin_repack(k_chunk, n_chunk, quant_type, group_size,
                     reason="Marlin is not supported on this GPU type.")
 @pytest.mark.parametrize("k_chunk", MARLIN_K_CHUNKS)
 @pytest.mark.parametrize("n_chunk", MARLIN_N_CHUNKS)
-@pytest.mark.parametrize("quant_type",
-                         query_marlin_supported_quant_types(False))
-@pytest.mark.parametrize("group_size", MARLIN_SUPPORTED_GROUP_SIZES)
+@pytest.mark.parametrize("quant_type", query_marlin_supported_quant_types())
+@pytest.mark.parametrize(
+    "group_size",
+    set(MARLIN_SUPPORTED_GROUP_SIZES + FP4_MARLIN_SUPPORTED_GROUP_SIZES))
 @pytest.mark.parametrize("mnk_factors", MNK_FACTORS)
 @pytest.mark.parametrize("act_order", ACT_ORDER_OPTS)
 @pytest.mark.parametrize("is_k_full", K_FULL_OPTS)
@@ -210,6 +213,7 @@ def test_gptq_marlin_gemm(
     use_fp32_reduce,
 ):
     m_factor, n_factor, k_factor = mnk_factors
+    has_zp = quant_type in [scalar_types.uint4, scalar_types.uint8]
 
     size_m = m_factor
     size_k = k_chunk * k_factor
@@ -220,6 +224,8 @@ def test_gptq_marlin_gemm(
             return
         if group_size == size_k:
             return
+        if has_zp:
+            return
 
     if size_k % group_size != 0:
         return
@@ -227,7 +233,15 @@ def test_gptq_marlin_gemm(
     a_input = rand_data((size_m, size_k))
     b_weight = rand_data((size_k, size_n))
 
-    if quant_type == scalar_types.float8_e4m3fn:
+    if quant_type == scalar_types.float4_e2m1f:
+        if group_size != 16 or act_order:
+            return
+        w_ref, marlin_q_w, marlin_s, marlin_s2 = rand_marlin_weight_fp4_like(
+            b_weight.T, group_size)
+        g_idx = None
+        sort_indices = None
+        marlin_zp = None
+    elif quant_type == scalar_types.float8_e4m3fn:
         if group_size not in [-1, 128]:
             return
         if act_order:
@@ -236,26 +250,39 @@ def test_gptq_marlin_gemm(
             b_weight.T, group_size)
         g_idx = None
         sort_indices = None
+        marlin_zp = None
+        marlin_s2 = None
+    elif has_zp:
+        if group_size == 16:
+            return
+        w_ref, marlin_q_w, marlin_s, marlin_zp = awq_marlin_quantize(
+            b_weight, quant_type, group_size)
+        g_idx = None
+        sort_indices = None
+        marlin_s2 = None
     else:
+        if group_size == 16:
+            return
         w_ref, marlin_q_w, marlin_s, g_idx, sort_indices, _ = marlin_quantize(
             b_weight, quant_type, group_size, act_order)
-
-    marlin_zp = marlin_make_empty_g_idx(marlin_s.device)
+        marlin_zp = None
+        marlin_s2 = None
 
     workspace = marlin_make_workspace_new(w_ref.device)
 
-    opcheck(
-        torch.ops._C.gptq_marlin_gemm,
-        (a_input, None, marlin_q_w, marlin_s, marlin_zp, g_idx, sort_indices,
-         workspace, quant_type.id, a_input.shape[0], b_weight.shape[1],
-         a_input.shape[1], is_k_full, use_atomic_add, use_fp32_reduce, False),
-        test_utils=DEFAULT_OPCHECK_TEST_UTILS)
+    opcheck(torch.ops._C.gptq_marlin_gemm,
+            (a_input, None, marlin_q_w, marlin_s, marlin_s2, marlin_zp, g_idx,
+             sort_indices, workspace, quant_type.id, a_input.shape[0],
+             b_weight.shape[1], a_input.shape[1], is_k_full, use_atomic_add,
+             use_fp32_reduce, False),
+            test_utils=DEFAULT_OPCHECK_TEST_UTILS)
 
     output = ops.gptq_marlin_gemm(
         a_input,
         None,
         marlin_q_w,
         marlin_s,
+        marlin_s2,
         marlin_zp,
         g_idx,
         sort_indices,
@@ -339,67 +366,6 @@ def test_gptq_marlin_24_gemm(k_chunk, n_chunk, quant_type, group_size,
     assert max_diff < 0.04
 
 
-@pytest.mark.skipif(not is_quant_method_supported("gptq_marlin"),
-                    reason="Marlin is not supported on this GPU type.")
-@pytest.mark.parametrize("k_chunk", MARLIN_K_CHUNKS)
-@pytest.mark.parametrize("n_chunk", MARLIN_N_CHUNKS)
-@pytest.mark.parametrize("quant_type",
-                         query_marlin_supported_quant_types(True))
-@pytest.mark.parametrize("group_size", MARLIN_SUPPORTED_GROUP_SIZES)
-@pytest.mark.parametrize("mnk_factors", MNK_FACTORS)
-@pytest.mark.parametrize("use_fp32_reduce", USE_FP32_REDUCE_OPTS)
-def test_awq_marlin_gemm(
-    k_chunk,
-    n_chunk,
-    quant_type,
-    group_size,
-    mnk_factors,
-    use_fp32_reduce,
-):
-    m_factor, n_factor, k_factor = mnk_factors
-
-    size_m = m_factor
-    size_k = k_chunk * k_factor
-    size_n = n_chunk * n_factor
-
-    a_input = rand_data((size_m, size_k))
-    b_weight = rand_data((size_k, size_n))
-
-    w_ref, marlin_q_w, marlin_s, marlin_zp = awq_marlin_quantize(
-        b_weight, quant_type, group_size)
-
-    g_idx = torch.empty(0, dtype=torch.int, device=marlin_q_w.device)
-    sort_indices = torch.empty(0, dtype=torch.int, device=marlin_q_w.device)
-    is_k_full = True
-
-    workspace = marlin_make_workspace_new(a_input.device)
-
-    output = ops.gptq_marlin_gemm(
-        a_input,
-        None,
-        marlin_q_w,
-        marlin_s,
-        marlin_zp,
-        g_idx,
-        sort_indices,
-        workspace,
-        quant_type,
-        a_input.shape[0],
-        b_weight.shape[1],
-        a_input.shape[1],
-        is_k_full=is_k_full,
-        use_fp32_reduce=use_fp32_reduce,
-        is_zp_float=False,
-    )
-    output_ref = torch.matmul(a_input, w_ref)
-
-    torch.cuda.synchronize()
-
-    max_diff = compute_max_diff(output, output_ref)
-
-    assert max_diff < 0.04
-
-
 @pytest.mark.skipif(not is_quant_method_supported("gptq_marlin"),
                     reason="Marlin is not supported on this GPU type.")
 @pytest.mark.parametrize("k_chunk", MARLIN_K_CHUNKS)
@@ -452,6 +418,7 @@ def test_hqq_marlin_gemm(
         None,
         marlin_w_q,
         marlin_s,
+        None,
         marlin_zp,
         g_idx,
         g_idx_sort_indices,
@@ -564,6 +531,7 @@ def test_marlin_gemm_subset_input():
         None,
         marlin_q_w,
         marlin_s,
+        None,
         marlin_zp,
         g_idx,
         sort_indices,
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index 80f549745..9d920b644 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -333,6 +333,7 @@ if hasattr(torch.ops._C, "gptq_marlin_24_gemm"):
                                c: Optional[torch.Tensor],
                                b_q_weight: torch.Tensor,
                                b_scales: torch.Tensor,
+                               global_scale: Optional[torch.Tensor],
                                b_zeros: Optional[torch.Tensor],
                                g_idx: Optional[torch.Tensor],
                                perm: Optional[torch.Tensor],
@@ -866,6 +867,7 @@ def gptq_marlin_gemm(a: torch.Tensor,
                      c: Optional[torch.Tensor],
                      b_q_weight: torch.Tensor,
                      b_scales: torch.Tensor,
+                     global_scale: Optional[torch.Tensor],
                      b_zeros: Optional[torch.Tensor],
                      g_idx: Optional[torch.Tensor],
                      perm: Optional[torch.Tensor],
@@ -878,9 +880,10 @@ def gptq_marlin_gemm(a: torch.Tensor,
                      use_atomic_add: bool = False,
                      use_fp32_reduce: bool = False,
                      is_zp_float: bool = False) -> torch.Tensor:
-    return torch.ops._C.gptq_marlin_gemm(a, c, b_q_weight, b_scales, b_zeros,
-                                         g_idx, perm, workspace, b_q_type.id,
-                                         size_m, size_n, size_k, is_k_full,
+    return torch.ops._C.gptq_marlin_gemm(a, c, b_q_weight, b_scales,
+                                         global_scale, b_zeros, g_idx, perm,
+                                         workspace, b_q_type.id, size_m,
+                                         size_n, size_k, is_k_full,
                                          use_atomic_add, use_fp32_reduce,
                                          is_zp_float)
 
@@ -1381,6 +1384,7 @@ def topk_softmax(topk_weights: torch.Tensor, topk_ids: torch.Tensor,
 
 def moe_wna16_marlin_gemm(input: torch.Tensor, output: Optional[torch.Tensor],
                           b_qweight: torch.Tensor, b_scales: torch.Tensor,
+                          global_scale: Optional[torch.Tensor],
                           b_qzeros: Optional[torch.Tensor],
                           g_idx: Optional[torch.Tensor],
                           perm: Optional[torch.Tensor],
@@ -1395,11 +1399,11 @@ def moe_wna16_marlin_gemm(input: torch.Tensor, output: Optional[torch.Tensor],
                           use_fp32_reduce: bool,
                           is_zp_float: bool) -> torch.Tensor:
     return torch.ops._moe_C.moe_wna16_marlin_gemm(
-        input, output, b_qweight, b_scales, b_qzeros, g_idx, perm, workspace,
-        sorted_token_ids, expert_ids, num_tokens_past_padded, topk_weights,
-        moe_block_size, top_k, mul_topk_weights, is_ep, b_q_type.id, size_m,
-        size_n, size_k, is_k_full, use_atomic_add, use_fp32_reduce,
-        is_zp_float)
+        input, output, b_qweight, b_scales, global_scale, b_qzeros, g_idx,
+        perm, workspace, sorted_token_ids, expert_ids, num_tokens_past_padded,
+        topk_weights, moe_block_size, top_k, mul_topk_weights, is_ep,
+        b_q_type.id, size_m, size_n, size_k, is_k_full, use_atomic_add,
+        use_fp32_reduce, is_zp_float)
 
 
 if supports_moe_ops and hasattr(torch.ops._moe_C, "marlin_gemm_moe"):
diff --git a/vllm/model_executor/layers/fused_moe/fused_marlin_moe.py b/vllm/model_executor/layers/fused_moe/fused_marlin_moe.py
index b96d34ec2..4c84dd538 100644
--- a/vllm/model_executor/layers/fused_moe/fused_marlin_moe.py
+++ b/vllm/model_executor/layers/fused_moe/fused_marlin_moe.py
@@ -25,6 +25,8 @@ def fused_marlin_moe(hidden_states: torch.Tensor,
                      quant_type_id: int,
                      global_num_experts: int = -1,
                      expert_map: Optional[torch.Tensor] = None,
+                     global_scale1: Optional[torch.Tensor] = None,
+                     global_scale2: Optional[torch.Tensor] = None,
                      g_idx1: Optional[torch.Tensor] = None,
                      g_idx2: Optional[torch.Tensor] = None,
                      sort_indices1: Optional[torch.Tensor] = None,
@@ -64,11 +66,13 @@ def fused_marlin_moe(hidden_states: torch.Tensor,
     quant_type = ScalarType.from_id(quant_type_id)
     assert quant_type in [
         scalar_types.uint4, scalar_types.uint8b128, scalar_types.uint4b8,
-        scalar_types.float8_e4m3fn
+        scalar_types.float8_e4m3fn, scalar_types.float4_e2m1f
     ]
 
-    int4_scalar_types = [scalar_types.uint4, scalar_types.uint4b8]
-    num_bits = 4 if quant_type in int4_scalar_types else 8
+    bit4_scalar_types = [
+        scalar_types.uint4, scalar_types.uint4b8, scalar_types.float4_e2m1f
+    ]
+    num_bits = 4 if quant_type in bit4_scalar_types else 8
 
     # Check constraints.
     assert hidden_states.shape[0] == gating_output.shape[
@@ -133,6 +137,7 @@ def fused_marlin_moe(hidden_states: torch.Tensor,
         intermediate_cache1,
         w1,
         w1_scale,
+        global_scale1,
         w1_zeros,
         g_idx1,
         sort_indices1,
@@ -165,6 +170,7 @@ def fused_marlin_moe(hidden_states: torch.Tensor,
         intermediate_cache3,
         w2,
         w2_scale,
+        global_scale2,
         w2_zeros,
         g_idx2,
         sort_indices2,
@@ -202,6 +208,8 @@ def fused_marlin_moe_fake(hidden_states: torch.Tensor,
                           topk_ids: torch.Tensor,
                           quant_type_id: int,
                           global_num_experts: int = -1,
+                          global_scale1: Optional[torch.Tensor] = None,
+                          global_scale2: Optional[torch.Tensor] = None,
                           expert_map: Optional[torch.Tensor] = None,
                           g_idx1: Optional[torch.Tensor] = None,
                           g_idx2: Optional[torch.Tensor] = None,
diff --git a/vllm/model_executor/layers/quantization/hqq_marlin.py b/vllm/model_executor/layers/quantization/hqq_marlin.py
index 7bd398137..e7511f330 100644
--- a/vllm/model_executor/layers/quantization/hqq_marlin.py
+++ b/vllm/model_executor/layers/quantization/hqq_marlin.py
@@ -304,8 +304,10 @@ class HQQMarlinMethod(LinearMethodBase):
 
         marlin_out = ops.gptq_marlin_gemm(
             x,
+            None,
             layer.marlin_qweight,
             scales,
+            None,
             zeros,
             layer.g_idx,
             layer.g_idx_sort_indices,
@@ -315,7 +317,7 @@ class HQQMarlinMethod(LinearMethodBase):
             self.output_size_per_partition,
             self.input_size_per_partition,
             True,  # is_k_full
-            True,  # has_zp
+            False,  # use atomic add
             True,  # use 32-bit reduce
             True,  # use float zp
         )
diff --git a/vllm/model_executor/layers/quantization/modelopt.py b/vllm/model_executor/layers/quantization/modelopt.py
index e9b16b8a0..bd9daa7c6 100644
--- a/vllm/model_executor/layers/quantization/modelopt.py
+++ b/vllm/model_executor/layers/quantization/modelopt.py
@@ -17,6 +17,9 @@ from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.layers.quantization.kv_cache import BaseKVCacheMethod
+from vllm.model_executor.layers.quantization.utils.marlin_utils_fp4 import (
+    apply_fp4_marlin_linear, is_fp4_marlin_supported,
+    prepare_fp4_layer_for_marlin, prepare_moe_fp4_layer_for_marlin)
 from vllm.model_executor.layers.quantization.utils.quant_utils import (
     is_layer_skipped)
 from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
@@ -24,6 +27,7 @@ from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
 from vllm.model_executor.parameter import (ModelWeightParameter,
                                            PerTensorScaleParameter)
 from vllm.platforms import current_platform
+from vllm.scalar_type import scalar_types
 
 logger = init_logger(__name__)
 
@@ -196,7 +200,7 @@ class ModelOptNvFp4Config(QuantizationConfig):
 
     @classmethod
     def get_min_capability(cls) -> int:
-        return 100
+        return 80
 
     @classmethod
     def get_config_filenames(cls) -> List[str]:
@@ -278,9 +282,15 @@ class ModelOptNvFp4LinearMethod(LinearMethodBase):
     def __init__(self, quant_config: ModelOptNvFp4Config):
         self.quant_config = quant_config
         self.cutlass_nvfp4_supported = cutlass_fp4_supported()
+        self.use_marlin = False
+
         if not self.cutlass_nvfp4_supported:
-            raise ValueError("Current platform does not support NVFP4"
-                             " quantization. Please use Blackwell and above.")
+            if is_fp4_marlin_supported():
+                self.use_marlin = True
+            else:
+                raise ValueError("Current platform does not support NVFP4"
+                                 " quantization. Please use Blackwell and"
+                                 " above.")
 
     def create_weights(
         self,
@@ -392,12 +402,29 @@ class ModelOptNvFp4LinearMethod(LinearMethodBase):
         layer.weight_scale_swizzled = Parameter(swizzled_weight_scale,
                                                 requires_grad=False)
 
+        if self.use_marlin:
+            prepare_fp4_layer_for_marlin(layer)
+            del layer.alpha
+            del layer.input_scale
+            del layer.weight_scale_swizzled
+
     def apply(
         self,
         layer: torch.nn.Module,
         x: torch.Tensor,
         bias: Optional[torch.Tensor] = None,
     ) -> torch.Tensor:
+        if self.use_marlin:
+            return apply_fp4_marlin_linear(
+                input=x,
+                weight=layer.weight,
+                weight_scale=layer.weight_scale,
+                weight_scale_2=layer.weight_scale_2,
+                workspace=layer.workspace,
+                size_n=layer.output_size_per_partition,
+                size_k=layer.input_size_per_partition,
+                bias=bias)
+
         output_dtype = x.dtype
 
         # for input only the contracting dimension has a constraint.
@@ -434,6 +461,16 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
 
     def __init__(self, quant_config: ModelOptNvFp4Config):
         self.quant_config = quant_config
+        self.cutlass_nvfp4_supported = cutlass_fp4_supported()
+        self.use_marlin = False
+
+        if not self.cutlass_nvfp4_supported:
+            if is_fp4_marlin_supported():
+                self.use_marlin = True
+            else:
+                raise ValueError("Current platform does not support NVFP4"
+                                 " quantization. Please use Blackwell and"
+                                 " above.")
 
     def create_weights(self, layer: torch.nn.Module, num_experts: int,
                        hidden_size: int, intermediate_size_per_partition: int,
@@ -442,6 +479,8 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
             raise ValueError("NVFP4 quantization was selected, "
                              " dynamic quantization is not supported.")
 
+        layer.num_experts = num_experts
+        layer.params_dtype = params_dtype
         layer.quant_config = self.quant_config
         weight_dtype = torch.uint8
         weight_scale_dtype = torch.float8_e4m3fn
@@ -594,7 +633,15 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
 
         layer.w2_blockscale_swizzled = Parameter(w2_blockscale_swizzled,
                                                  requires_grad=False)
-        return
+
+        if self.use_marlin:
+            prepare_moe_fp4_layer_for_marlin(layer)
+            del layer.g1_alphas
+            del layer.g2_alphas
+            del layer.w13_input_scale_quant
+            del layer.w2_input_scale_quant
+            del layer.w13_blockscale_swizzled
+            del layer.w2_blockscale_swizzled
 
     def apply(
         self,
@@ -614,6 +661,35 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
         apply_router_weight_on_input: bool = False,
         activation: str = "silu",
     ):
+        if self.use_marlin:
+            topk_weights, topk_ids = FusedMoE.select_experts(
+                hidden_states=x,
+                router_logits=router_logits,
+                use_grouped_topk=use_grouped_topk,
+                top_k=top_k,
+                renormalize=renormalize,
+                topk_group=topk_group,
+                num_expert_group=num_expert_group,
+                custom_routing_function=custom_routing_function,
+                scoring_func=scoring_func,
+                e_score_correction_bias=e_score_correction_bias,
+            )
+
+            return torch.ops.vllm.fused_marlin_moe(
+                x,
+                layer.w13_weight,
+                layer.w2_weight,
+                layer.w13_weight_scale,
+                layer.w2_weight_scale,
+                router_logits,
+                topk_weights,
+                topk_ids,
+                global_scale1=layer.w13_weight_scale_2,
+                global_scale2=layer.w2_weight_scale_2,
+                quant_type_id=scalar_types.float4_e2m1f.id,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map)
+
         assert activation == "silu", "Only SiLU activation is supported."
         assert not apply_router_weight_on_input, (
             "Router weight on input is not "
diff --git a/vllm/model_executor/layers/quantization/utils/marlin_utils.py b/vllm/model_executor/layers/quantization/utils/marlin_utils.py
index a2b1b7cb0..89268ef7a 100644
--- a/vllm/model_executor/layers/quantization/utils/marlin_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils.py
@@ -33,7 +33,7 @@ USE_FP32_REDUCE_DEFAULT = True
 #  without runtime zero-point. We support common cases, i.e. AWQ and GPTQ.
 #  TODO: we may want to move this into the C++ so its closer to the actual impl
 def query_marlin_supported_quant_types(
-    has_zp: bool,
+    has_zp: Optional[bool] = None,
     include_fp_type: bool = True,
     device_capability: Optional[int] = None,
 ):
@@ -45,6 +45,16 @@ def query_marlin_supported_quant_types(
     if device_capability < 80:
         return []
 
+    # - has_zp is True: return quant_types that has zero points
+    # - has_zp is False: return quant_types that has not zero points
+    # - has_zp is None: both
+    if has_zp is None:
+        types0 = query_marlin_supported_quant_types(False, include_fp_type,
+                                                    device_capability)
+        types1 = query_marlin_supported_quant_types(True, include_fp_type,
+                                                    device_capability)
+        return types0 + types1
+
     if has_zp:
         # AWQ style, unsigned + runtime zero-point
         return [scalar_types.uint4]
@@ -52,7 +62,7 @@ def query_marlin_supported_quant_types(
         # GPTQ style, unsigned + symmetric bias
         res = [scalar_types.uint4b8, scalar_types.uint8b128]
         if include_fp_type:
-            res += [scalar_types.float8_e4m3fn]
+            res += [scalar_types.float8_e4m3fn, scalar_types.float4_e2m1f]
         return res
 
 
@@ -394,6 +404,7 @@ def apply_gptq_marlin_linear(
                                   None,
                                   weight,
                                   weight_scale,
+                                  None,
                                   weight_zp,
                                   g_idx,
                                   g_idx_sort_indices,
@@ -439,6 +450,7 @@ def apply_awq_marlin_linear(
                                   None,
                                   weight,
                                   weight_scale,
+                                  None,
                                   weight_zp,
                                   g_idx,
                                   g_idx_sort_indices,
diff --git a/vllm/model_executor/layers/quantization/utils/marlin_utils_fp4.py b/vllm/model_executor/layers/quantization/utils/marlin_utils_fp4.py
new file mode 100644
index 000000000..15177af58
--- /dev/null
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils_fp4.py
@@ -0,0 +1,277 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from typing import Optional
+
+import torch
+
+import vllm._custom_ops as ops
+from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    USE_FP32_REDUCE_DEFAULT, marlin_make_workspace_new, marlin_permute_scales,
+    should_use_atomic_add_reduce)
+from vllm.platforms import current_platform
+from vllm.scalar_type import scalar_types
+
+FP4_MARLIN_SUPPORTED_GROUP_SIZES = [16]
+
+logger = init_logger(__name__)
+
+
+def is_fp4_marlin_supported():
+    return current_platform.has_device_capability(80)
+
+
+def fp4_marlin_process_scales(marlin_scales):
+    assert (marlin_scales >= 0).all()
+
+    # convert to half first, we would convert to fp8 later
+    marlin_scales = marlin_scales.to(torch.half)
+
+    # 8 is the number of scale number using by one thread
+    marlin_scales = marlin_scales.view(marlin_scales.size(0) // 2, 2, -1, 8)
+    marlin_scales = marlin_scales.permute(0, 2, 1, 3).reshape(
+        marlin_scales.size(0) * 2, -1)
+
+    # fit the layout of fp8 dequantization
+    marlin_scales = marlin_scales.view(-1, 4)[:, [0, 2, 1, 3]].view(
+        marlin_scales.size(0), -1)
+
+    # We assume that weight_scale (FP8-S1E4M3) is always greater
+    # than or equal to 0. So we can convert
+    # (weight_scale * (2 ** 7) to a special FP8-S0E5M3 format.
+    # After multiplying by 2 ** 7, the top bit of FP8-S0E5M3 would always be 1
+    # when weight_scale > 0. This allows us to have an exponent bias
+    # closer to zero after dequantization.
+
+    marlin_scales = (marlin_scales * (2**7)).view(torch.int16) << 1
+    marlin_scales = marlin_scales.view(torch.float8_e4m3fn)
+    marlin_scales = marlin_scales[:, 1::2].contiguous()
+
+    return marlin_scales
+
+
+def fp4_marlin_process_global_scale(global_scale):
+    assert global_scale.dtype in [torch.half, torch.bfloat16]
+    fp4_exponent = 2
+    if global_scale.dtype == torch.half:
+        target_exponent = 5
+    elif global_scale.dtype == torch.bfloat16:
+        target_exponent = 8
+    # exponent_bias_fp16 = 2 ** 4 - 2 ** 1 = 14
+    # exponent_bias_bf16 = 2 ** 7 - 2 ** 1 = 126
+    exponent_bias = 2**(target_exponent - 1) - 2**(fp4_exponent - 1)
+    return global_scale * (2.0**(exponent_bias - 7))
+
+
+def apply_fp4_marlin_linear(
+        input: torch.Tensor,
+        weight: torch.Tensor,
+        weight_scale: torch.Tensor,
+        weight_scale_2: torch.Tensor,
+        workspace: torch.Tensor,
+        size_n: int,
+        size_k: int,
+        bias: Optional[torch.Tensor] = None,
+        use_fp32_reduce: bool = USE_FP32_REDUCE_DEFAULT) -> torch.Tensor:
+    # For GPUs that lack FP4 hardware support, we can leverage the
+    # Marlin kernel for fast weight-only FP4 quantization
+
+    reshaped_x = input.reshape(-1, input.shape[-1])
+    out_shape = input.shape[:-1] + (size_n, )
+
+    use_atomic_add = should_use_atomic_add_reduce(m=reshaped_x.size(0),
+                                                  n=size_n,
+                                                  k=size_k,
+                                                  device=input.device,
+                                                  dtype=input.dtype)
+
+    output = ops.gptq_marlin_gemm(a=reshaped_x,
+                                  c=None,
+                                  b_q_weight=weight,
+                                  b_scales=weight_scale,
+                                  global_scale=weight_scale_2,
+                                  b_zeros=None,
+                                  g_idx=None,
+                                  perm=None,
+                                  workspace=workspace,
+                                  b_q_type=scalar_types.float4_e2m1f,
+                                  size_m=reshaped_x.size(0),
+                                  size_n=size_n,
+                                  size_k=size_k,
+                                  use_atomic_add=use_atomic_add,
+                                  use_fp32_reduce=use_fp32_reduce)
+
+    if bias is not None:
+        output.add_(bias)  # In-place add
+
+    return output.reshape(out_shape)
+
+
+def prepare_fp4_layer_for_marlin(layer: torch.nn.Module) -> None:
+    logger.warning_once(
+        "Your GPU does not have native support for FP4 computation but "
+        "FP4 quantization is being used. Weight-only FP4 compression will "
+        "be used leveraging the Marlin kernel. This may degrade "
+        "performance for compute-heavy workloads.")
+
+    part_size_n = layer.output_size_per_partition
+    part_size_k = layer.input_size_per_partition
+    param_dtype = layer.params_dtype
+
+    assert layer.weight.shape == (part_size_n, part_size_k // 2)
+
+    device = layer.weight.device
+
+    # WORKSPACE
+    layer.workspace = marlin_make_workspace_new(device)
+
+    # WEIGHT
+    # Repack weights to marlin format
+    perm = torch.empty(0, dtype=torch.int, device=device)
+    qweight = layer.weight.view(torch.int32).T.contiguous()
+
+    marlin_qweight = ops.gptq_marlin_repack(b_q_weight=qweight,
+                                            perm=perm,
+                                            size_k=part_size_k,
+                                            size_n=part_size_n,
+                                            num_bits=4)
+    layer.weight = torch.nn.Parameter(marlin_qweight, requires_grad=False)
+
+    # WEIGHT SCALES
+    # Permute scales
+    weight_scale = layer.weight_scale.T.to(param_dtype)
+    weight_scale = marlin_permute_scales(s=weight_scale,
+                                         size_k=part_size_k,
+                                         size_n=part_size_n,
+                                         group_size=16)
+    weight_scale = fp4_marlin_process_scales(weight_scale)
+    layer.weight_scale = torch.nn.Parameter(weight_scale, requires_grad=False)
+
+    weight_scale_2 = layer.weight_scale_2.to(param_dtype)
+    weight_scale_2 = fp4_marlin_process_global_scale(weight_scale_2)
+    layer.weight_scale_2 = torch.nn.Parameter(weight_scale_2,
+                                              requires_grad=False)
+
+    return
+
+
+def prepare_moe_fp4_layer_for_marlin(layer: torch.nn.Module) -> None:
+    logger.warning_once(
+        "Your GPU does not have native support for FP4 computation but "
+        "FP4 quantization is being used. Weight-only FP4 compression will "
+        "be used leveraging the Marlin kernel. This may degrade "
+        "performance for compute-heavy workloads.")
+
+    e = layer.num_experts
+    k = layer.hidden_size
+    n = layer.intermediate_size_per_partition
+
+    # WORKSPACE
+    device = layer.w13_weight.device
+    param_dtype = layer.params_dtype
+    layer.workspace = marlin_make_workspace_new(device, 4)
+    perm = torch.empty(0, dtype=torch.int, device=device)
+
+    # WEIGHT
+    # Repack weights to marlin format
+    for name in ["w13_weight", "w2_weight"]:
+        weight = getattr(layer, name)
+        tensor_list = []
+        if "w13" in name:
+            size_n, size_k = n * 2, k
+        else:
+            size_n, size_k = k, n
+
+        assert weight.shape == (e, size_n, size_k // 2)
+
+        for i in range(e):
+            qweight = weight[i].view(torch.int32).T.contiguous()
+
+            marlin_qweight = ops.gptq_marlin_repack(b_q_weight=qweight,
+                                                    perm=perm,
+                                                    size_k=size_k,
+                                                    size_n=size_n,
+                                                    num_bits=4)
+            tensor_list.append(marlin_qweight)
+
+        weight = torch.cat([x.unsqueeze(0) for x in tensor_list], 0)
+        weight = torch.nn.Parameter(weight, requires_grad=False)
+
+        setattr(layer, name, weight)
+
+    # WEIGHT SCALES
+    # Permute scales
+    for name in ["w13", "w2"]:
+        scales = getattr(layer, name + "_weight_scale").to(param_dtype)
+        global_scale = getattr(layer, name + "_weight_scale_2").to(param_dtype)
+
+        tensor_list = []
+        if "w13" in name:
+            size_n, size_k = n * 2, k
+        else:
+            size_n, size_k = k, n
+
+        for i in range(e):
+            marlin_scales = marlin_permute_scales(s=scales[i].T,
+                                                  size_k=size_k,
+                                                  size_n=size_n,
+                                                  group_size=16)
+            marlin_scales = fp4_marlin_process_scales(marlin_scales)
+            tensor_list.append(marlin_scales)
+
+        scales = torch.cat([x.unsqueeze(0) for x in tensor_list], 0)
+        scales = torch.nn.Parameter(scales, requires_grad=False)
+        setattr(layer, name + "_weight_scale", scales)
+
+        global_scale = fp4_marlin_process_global_scale(global_scale)
+        global_scale = torch.nn.Parameter(global_scale, requires_grad=False)
+        setattr(layer, name + "_weight_scale_2", global_scale)
+
+
+def rand_marlin_weight_fp4_like(weight, group_size):
+    assert group_size > 0
+    size_n, size_k = weight.shape
+    device = weight.device
+
+    scales = weight.view(size_n, -1, group_size).abs().max(-1)[0] / 6
+    global_scale = scales.max() / 448
+    scales = (scales / global_scale).to(torch.float8_e4m3fn)
+
+    fp4_weight = torch.randint(0,
+                               256, (size_n, size_k // 2),
+                               dtype=torch.uint8,
+                               device=weight.device)
+    fp4_weight_part_1 = ((fp4_weight & 0b10000000) |
+                         ((fp4_weight & 0b01110000) >> 2))
+    fp4_weight_part_1 = fp4_weight_part_1.view(torch.float8_e4m3fn)
+    fp4_weight_part_1 = fp4_weight_part_1.to(weight.dtype) * (2**6)
+
+    fp4_weight2 = fp4_weight << 4
+    fp4_weight_part_2 = ((fp4_weight2 & 0b10000000) |
+                         ((fp4_weight2 & 0b01110000) >> 2))
+    fp4_weight_part_2 = fp4_weight_part_2.view(torch.float8_e4m3fn)
+    fp4_weight_part_2 = fp4_weight_part_2.to(weight.dtype) * (2**6)
+
+    weight_ref = torch.cat(
+        [fp4_weight_part_2.unsqueeze(2),
+         fp4_weight_part_1.unsqueeze(2)], 2).view(size_n, size_k)
+    weight_ref = weight_ref * global_scale.to(weight.dtype) * \
+        scales.repeat_interleave(group_size, 1).to(weight.dtype)
+
+    marlin_qweight = ops.gptq_marlin_repack(
+        b_q_weight=fp4_weight.view(torch.int32).T.contiguous(),
+        perm=torch.empty(0, dtype=torch.int, device=device),
+        size_k=size_k,
+        size_n=size_n,
+        num_bits=4,
+    )
+
+    marlin_scales = marlin_permute_scales(s=scales.T.to(weight.dtype),
+                                          size_k=size_k,
+                                          size_n=size_n,
+                                          group_size=group_size)
+    marlin_scales = fp4_marlin_process_scales(marlin_scales)
+
+    global_scale = fp4_marlin_process_global_scale(global_scale)
+
+    return weight_ref.T, marlin_qweight, marlin_scales, global_scale
diff --git a/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py b/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py
index 1e0078e24..3080d2a0d 100644
--- a/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py
@@ -19,6 +19,20 @@ def is_fp8_marlin_supported():
     return current_platform.has_device_capability(80)
 
 
+def fp8_fused_exponent_bias_into_scales(scales):
+    fp8_exponent = 4
+    if scales.dtype == torch.half:
+        target_exponent = 5
+    elif scales.dtype == torch.bfloat16:
+        target_exponent = 8
+    # exponent_bias_fp16 = 2 ** 4 - 2 ** 3 = 8
+    # exponent_bias_bf16 = 2 ** 7 - 2 ** 3 = 120
+    exponent_bias = 2**(target_exponent - 1) - 2**(fp8_exponent - 1)
+    s = torch.ones_like(scales) * 2
+    s = s**exponent_bias
+    return scales * s
+
+
 def apply_fp8_marlin_linear(
         input: torch.Tensor,
         weight: torch.Tensor,
@@ -44,6 +58,7 @@ def apply_fp8_marlin_linear(
                                   c=None,
                                   b_q_weight=weight,
                                   b_scales=weight_scale,
+                                  global_scale=None,
                                   b_zeros=None,
                                   g_idx=None,
                                   perm=None,
@@ -132,8 +147,10 @@ def prepare_fp8_layer_for_marlin(layer: torch.nn.Module,
         # block-wise quantization -> group-wise quantization
         # (size_k // block_size[1], ceil(size_n / block_size[0]))
         #  =>(repeat)=> (size_k // block_size[1], size_n)
+        if not size_k_first:
+            scales = scales.T.contiguous()
         block_n = layer.weight_block_size[0]
-        scales = scales.T.repeat_interleave(block_n, 1)
+        scales = scales.repeat_interleave(block_n, 1)
         # size_n may not divisible by block_size[0]
         scales = scales[:, :part_size_n]
 
@@ -141,6 +158,7 @@ def prepare_fp8_layer_for_marlin(layer: torch.nn.Module,
                                           size_k=part_size_k,
                                           size_n=part_size_n,
                                           group_size=group_size)
+    marlin_scales = fp8_fused_exponent_bias_into_scales(marlin_scales)
     layer.weight_scale = torch.nn.Parameter(marlin_scales, requires_grad=False)
 
 
@@ -239,8 +257,10 @@ def prepare_moe_fp8_layer_for_marlin(layer: torch.nn.Module,
             # block-wise quantization -> group-wise quantization
             # (e, size_k // block_size[1], ceil(size_n / block_size[0]))
             #  =>(repeat)=> (e, size_k // block_size[1], size_n)
+            if not size_k_first:
+                scales = scales.permute(0, 2, 1)
             block_n = layer.weight_block_size[0]
-            scales = scales.permute(0, 2, 1).repeat_interleave(block_n, 2)
+            scales = scales.repeat_interleave(block_n, 2)
             # size_n may not divisible by block_size[0]
             scales = scales[..., :size_n].contiguous()
 
@@ -302,4 +322,6 @@ def marlin_quant_fp8_torch(weight, group_size):
                                           size_n=size_n,
                                           group_size=group_size)
 
+    marlin_scales = fp8_fused_exponent_bias_into_scales(marlin_scales)
+
     return weight_ref.T, marlin_qweight, marlin_scales
-- 
GitLab


From 90d0a74b605bf0e757db175fb89f2ec200a92be1 Mon Sep 17 00:00:00 2001
From: xinli-centml <119016172+xinli-centml@users.noreply.github.com>
Date: Sun, 11 May 2025 03:52:44 -0400
Subject: [PATCH 270/461] [Bugfix] Add revision to
 `transformers.Auto*.from_pretrained` processors (#17948)

Signed-off-by: Xin Li <xin@centml.ai>
---
 vllm/transformers_utils/processor.py | 11 ++++++++++-
 1 file changed, 10 insertions(+), 1 deletion(-)

diff --git a/vllm/transformers_utils/processor.py b/vllm/transformers_utils/processor.py
index d27c26659..ce6427de4 100644
--- a/vllm/transformers_utils/processor.py
+++ b/vllm/transformers_utils/processor.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from functools import lru_cache
-from typing import TYPE_CHECKING, Any, Union, cast
+from typing import TYPE_CHECKING, Any, Optional, Union, cast
 
 from transformers.processing_utils import ProcessorMixin
 from typing_extensions import TypeVar
@@ -54,6 +54,7 @@ def _merge_mm_kwargs(model_config: "ModelConfig", **kwargs):
 def get_processor(
     processor_name: str,
     *args: Any,
+    revision: Optional[str] = None,
     trust_remote_code: bool = False,
     processor_cls: Union[type[_P], tuple[type[_P], ...]] = ProcessorMixin,
     **kwargs: Any,
@@ -70,6 +71,7 @@ def get_processor(
         processor = processor_factory.from_pretrained(
             processor_name,
             *args,
+            revision=revision,
             trust_remote_code=trust_remote_code,
             **kwargs,
         )
@@ -106,6 +108,7 @@ def cached_processor_from_config(
 ) -> _P:
     return cached_get_processor(
         model_config.model,
+        revision=model_config.revision,
         trust_remote_code=model_config.trust_remote_code,
         processor_cls=processor_cls,  # type: ignore[arg-type]
         **_merge_mm_kwargs(model_config, **kwargs),
@@ -115,6 +118,7 @@ def cached_processor_from_config(
 def get_feature_extractor(
     processor_name: str,
     *args: Any,
+    revision: Optional[str] = None,
     trust_remote_code: bool = False,
     **kwargs: Any,
 ):
@@ -128,6 +132,7 @@ def get_feature_extractor(
         feature_extractor = AutoFeatureExtractor.from_pretrained(
             processor_name,
             *args,
+            revision=revision,
             trust_remote_code=trust_remote_code,
             **kwargs)
     except ValueError as e:
@@ -156,6 +161,7 @@ def cached_feature_extractor_from_config(
 ):
     return cached_get_feature_extractor(
         model_config.model,
+        revision=model_config.revision,
         trust_remote_code=model_config.trust_remote_code,
         **_merge_mm_kwargs(model_config, **kwargs),
     )
@@ -164,6 +170,7 @@ def cached_feature_extractor_from_config(
 def get_image_processor(
     processor_name: str,
     *args: Any,
+    revision: Optional[str] = None,
     trust_remote_code: bool = False,
     **kwargs: Any,
 ):
@@ -177,6 +184,7 @@ def get_image_processor(
         processor = AutoImageProcessor.from_pretrained(
             processor_name,
             *args,
+            revision=revision,
             trust_remote_code=trust_remote_code,
             **kwargs)
     except ValueError as e:
@@ -206,6 +214,7 @@ def cached_image_processor_from_config(
 ):
     return cached_get_image_processor(
         model_config.model,
+        revision=model_config.revision,
         trust_remote_code=model_config.trust_remote_code,
         **_merge_mm_kwargs(model_config, **kwargs),
     )
-- 
GitLab


From 911215528324a52d74a729335506aa5ec0a7cc65 Mon Sep 17 00:00:00 2001
From: Kuntai Du <kuntai@uchicago.edu>
Date: Sun, 11 May 2025 00:53:23 -0700
Subject: [PATCH 271/461] [Perf] Use small max_num_batched_tokens for A100
 (#17885)

Signed-off-by: KuntaiDu <kuntai@uchicago.edu>
---
 vllm/engine/arg_utils.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 0ff6a6fbb..a3b34f4ba 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1438,11 +1438,15 @@ class EngineArgs:
         from vllm.platforms import current_platform
         try:
             device_memory = current_platform.get_device_total_memory()
+            device_name = current_platform.get_device_name().lower()
         except Exception:
             # This is only used to set default_max_num_batched_tokens
             device_memory = 0
 
-        if device_memory >= 70 * GiB_bytes:
+        # NOTE(Kuntai): Setting large `max_num_batched_tokens` for A100 reduces
+        # throughput, see PR #17885 for more details.
+        # So here we do an extra device name check to prevent such regression.
+        if device_memory >= 70 * GiB_bytes and "a100" not in device_name:
             # For GPUs like H100 and MI300x, use larger default values.
             default_max_num_batched_tokens = {
                 UsageContext.LLM_CLASS: 16384,
-- 
GitLab


From eea22a56ab08fb018e8fc51d1bf988cb85f37115 Mon Sep 17 00:00:00 2001
From: Shiyan Deng <dsy842974287@meta.com>
Date: Sun, 11 May 2025 00:53:31 -0700
Subject: [PATCH 272/461] fix amd triton mla path (#17871)

---
 vllm/attention/backends/mla/common.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/attention/backends/mla/common.py b/vllm/attention/backends/mla/common.py
index 363aa08ef..d48462684 100644
--- a/vllm/attention/backends/mla/common.py
+++ b/vllm/attention/backends/mla/common.py
@@ -1063,7 +1063,7 @@ class MLACommonImpl(MLAAttentionImpl[T], Generic[T]):
                 softmax_scale,
                 None,  # bias
             )
-        if is_vllm_fa:
+        elif is_vllm_fa:
             attn_out = self.flash_attn_varlen_func(
                 q=q,
                 k=k,
-- 
GitLab


From 8132365b746c974609b306c0af4291a6760bafbc Mon Sep 17 00:00:00 2001
From: Ben Browning <ben324@gmail.com>
Date: Sun, 11 May 2025 03:53:58 -0400
Subject: [PATCH 273/461] [Bugfix]: v1 engine - consider lora adapters in
 allowed_token_ids (#17855)

Signed-off-by: Ben Browning <bbrownin@redhat.com>
---
 tests/lora/conftest.py                    |  16 ++-
 tests/lora/test_lora_allowed_token_ids.py | 134 ++++++++++++++++++++++
 vllm/v1/engine/processor.py               |   9 +-
 3 files changed, 154 insertions(+), 5 deletions(-)
 create mode 100644 tests/lora/test_lora_allowed_token_ids.py

diff --git a/tests/lora/conftest.py b/tests/lora/conftest.py
index b940f7190..399311ce6 100644
--- a/tests/lora/conftest.py
+++ b/tests/lora/conftest.py
@@ -139,6 +139,12 @@ def dummy_model_gate_up() -> nn.Module:
     return model
 
 
+@pytest.fixture(scope="session")
+def llama_2_7b_base_huggingface_id():
+    # used as a base model for testing with sql lora adapter
+    return "meta-llama/Llama-2-7b-hf"
+
+
 @pytest.fixture(scope="session")
 def sql_lora_huggingface_id():
     # huggingface repo id is used to test lora runtime downloading.
@@ -198,6 +204,12 @@ def qwen2vl_lora_files():
     return snapshot_download(repo_id="jeeejeee/qwen2-vl-lora-pokemon")
 
 
+@pytest.fixture(scope="session")
+def qwen25vl_base_huggingface_id():
+    # used as a base model for testing with qwen25vl lora adapter
+    return "Qwen/Qwen2.5-VL-3B-Instruct"
+
+
 @pytest.fixture(scope="session")
 def qwen25vl_lora_files():
     return snapshot_download(repo_id="jeeejeee/qwen25-vl-lora-pokemon")
@@ -261,8 +273,8 @@ def run_with_both_engines_lora(request, monkeypatch):
 @pytest.fixture
 def reset_default_device():
     """
-    Some tests, such as `test_punica_ops.py`, explicitly set the 
-    default device, which can affect subsequent tests. Adding this fixture 
+    Some tests, such as `test_punica_ops.py`, explicitly set the
+    default device, which can affect subsequent tests. Adding this fixture
     helps avoid this problem.
     """
     original_device = torch.get_default_device()
diff --git a/tests/lora/test_lora_allowed_token_ids.py b/tests/lora/test_lora_allowed_token_ids.py
new file mode 100644
index 000000000..094541aef
--- /dev/null
+++ b/tests/lora/test_lora_allowed_token_ids.py
@@ -0,0 +1,134 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import pytest
+
+from vllm.config import (CacheConfig, DeviceConfig, LoRAConfig, ModelConfig,
+                         VllmConfig)
+from vllm.lora.request import LoRARequest
+from vllm.sampling_params import SamplingParams
+from vllm.transformers_utils.tokenizer_group import init_tokenizer_from_configs
+from vllm.v1.engine.processor import Processor
+
+
+def test_allowed_token_ids_with_lora_vocab(llama_2_7b_base_huggingface_id,
+                                           sql_lora_files):
+    """
+    Test that we properly resolve the range of allowed token ids for lora
+    adapters that define additional tokens.
+    """
+
+    # Setup a base model compatible with the sql_lora_files adapter and
+    # a known number of tokens in the base model.
+    model_config = ModelConfig(
+        model=llama_2_7b_base_huggingface_id,
+        tokenizer=llama_2_7b_base_huggingface_id,
+        tokenizer_mode="auto",
+    )
+
+    vllm_config = VllmConfig(
+        model_config=model_config,
+        cache_config=CacheConfig(),
+        device_config=DeviceConfig(),
+        lora_config=LoRAConfig(),
+    )
+
+    tokenizer = init_tokenizer_from_configs(
+        model_config=vllm_config.model_config,
+        scheduler_config=vllm_config.scheduler_config,
+        lora_config=vllm_config.lora_config)
+    processor = Processor(vllm_config, tokenizer)
+
+    lora_request = LoRARequest("1", 1, str(sql_lora_files))
+    request_id = "1"
+    prompt = "a prompt"
+
+    # tokens added in the lora adapter should not raise an error
+    lora_token_ids = [32000, 32001, 32002, 32003]
+    processor.process_inputs(
+        request_id,
+        prompt,
+        params=SamplingParams(allowed_token_ids=lora_token_ids),
+        lora_request=lora_request)
+
+    # tokens in the base model should not raise an error
+    base_token_ids = [1000, 1001, 1002, 1003]
+    processor.process_inputs(
+        request_id,
+        prompt,
+        params=SamplingParams(allowed_token_ids=base_token_ids),
+        lora_request=lora_request)
+
+    # tokens not in the lora adapter should raise an error
+    invalid_token_ids = [35000, 35001, 35002, 35003]
+    with pytest.raises(ValueError):
+        processor.process_inputs(
+            request_id,
+            prompt,
+            params=SamplingParams(allowed_token_ids=invalid_token_ids),
+            lora_request=lora_request)
+
+    # tokens in the lora adapter with no lora request should raise an error
+    with pytest.raises(ValueError):
+        processor.process_inputs(
+            request_id,
+            prompt,
+            params=SamplingParams(allowed_token_ids=lora_token_ids),
+        )
+
+
+def test_allowed_token_ids_with_lora_adapter_no_vocab(
+        qwen25vl_base_huggingface_id, qwen25vl_lora_files):
+    """
+    Test that we properly resolve the range of allowed token ids for lora
+    adapters that do not define additional tokens.
+    """
+
+    # Setup a base model compatible with the qwen25vl_lora_files adapter and
+    # a known number of tokens in the base model.
+    model_config = ModelConfig(
+        model=qwen25vl_base_huggingface_id,
+        tokenizer=qwen25vl_base_huggingface_id,
+        tokenizer_mode="auto",
+    )
+
+    vllm_config = VllmConfig(
+        model_config=model_config,
+        cache_config=CacheConfig(),
+        device_config=DeviceConfig(),
+        lora_config=LoRAConfig(),
+    )
+
+    tokenizer = init_tokenizer_from_configs(
+        model_config=vllm_config.model_config,
+        scheduler_config=vllm_config.scheduler_config,
+        lora_config=vllm_config.lora_config)
+    processor = Processor(vllm_config, tokenizer)
+
+    lora_request = LoRARequest("1", 1, str(qwen25vl_lora_files))
+    request_id = "1"
+    prompt = "a prompt"
+
+    # tokens in the base model should not raise an error
+    base_token_ids = [1000, 1001, 1002, 1003]
+    processor.process_inputs(
+        request_id,
+        prompt,
+        params=SamplingParams(allowed_token_ids=base_token_ids),
+        lora_request=lora_request)
+
+    # tokens in the base model with no lora request should not raise an error
+    base_token_ids = [1000, 1001, 1002, 1003]
+    processor.process_inputs(
+        request_id,
+        prompt,
+        params=SamplingParams(allowed_token_ids=base_token_ids),
+    )
+
+    # tokens not in the base model should raise an error
+    invalid_token_ids = [200000, 200001, 200002, 200003]
+    with pytest.raises(ValueError):
+        processor.process_inputs(
+            request_id,
+            prompt,
+            params=SamplingParams(allowed_token_ids=invalid_token_ids),
+            lora_request=lora_request)
diff --git a/vllm/v1/engine/processor.py b/vllm/v1/engine/processor.py
index 27d70a781..2aa19f8bb 100644
--- a/vllm/v1/engine/processor.py
+++ b/vllm/v1/engine/processor.py
@@ -74,6 +74,7 @@ class Processor:
     def _validate_sampling_params(
         self,
         params: SamplingParams,
+        lora_request: Optional[LoRARequest],
     ) -> None:
         self._validate_structured_output(params)
         self._validate_logit_bias(params)
@@ -82,7 +83,8 @@ class Processor:
             return
         if not params.allowed_token_ids:
             raise ValueError("allowed_token_ids is not None and empty!")
-        vocab_size = self.model_config.get_vocab_size()
+        tokenizer = self.tokenizer.get_lora_tokenizer(lora_request)
+        vocab_size = len(tokenizer)
         if not all(0 <= tid < vocab_size for tid in params.allowed_token_ids):
             raise ValueError(
                 "allowed_token_ids contains out-of-vocab token id!")
@@ -122,6 +124,7 @@ class Processor:
     def _validate_params(
         self,
         params: Union[SamplingParams, PoolingParams],
+        lora_request: Optional[LoRARequest],
     ):
         """
         Validate supported SamplingParam.
@@ -132,7 +135,7 @@ class Processor:
             raise ValueError("V1 does not yet support Pooling models.")
 
         self._validate_logprobs(params)
-        self._validate_sampling_params(params)
+        self._validate_sampling_params(params, lora_request)
         self._validate_supported_sampling_params(params)
 
     def _validate_lora(self, lora_request: Optional[LoRARequest]) -> None:
@@ -207,7 +210,7 @@ class Processor:
         # TODO(woosuk): Support pooling models.
         # TODO(woosuk): Support encoder-decoder models.
         self._validate_lora(lora_request)
-        self._validate_params(params)
+        self._validate_params(params, lora_request)
         if priority != 0:
             raise ValueError("V1 does not support priority yet.")
         if trace_headers is not None:
-- 
GitLab


From d1110f5b5a241340e7c1e3970c95fe6dd6a14769 Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Sun, 11 May 2025 15:56:21 +0800
Subject: [PATCH 274/461] [doc] update lora doc (#17936)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 docs/source/features/lora.md | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/docs/source/features/lora.md b/docs/source/features/lora.md
index b5b51095b..85f03ba79 100644
--- a/docs/source/features/lora.md
+++ b/docs/source/features/lora.md
@@ -66,7 +66,7 @@ The commit ID `0dfa347e8877a4d4ed19ee56c140fa518470028c` may change over time. P
 
 The server entrypoint accepts all other LoRA configuration parameters (`max_loras`, `max_lora_rank`, `max_cpu_loras`,
 etc.), which will apply to all forthcoming requests. Upon querying the `/models` endpoint, we should see our LoRA along
-with its base model:
+with its base model (if `jq` is not installed, you can follow [this guide](https://jqlang.org/download/) to install it.):
 
 ```bash
 curl localhost:8000/v1/models | jq .
@@ -134,7 +134,7 @@ curl -X POST http://localhost:8000/v1/load_lora_adapter \
 }'
 ```
 
-Upon a successful request, the API will respond with a 200 OK status code. If an error occurs, such as if the adapter
+Upon a successful request, the API will respond with a `200 OK` status code from `vllm serve`, and `curl` returns the response body: `Success: LoRA adapter 'sql_adapter' added successfully`. If an error occurs, such as if the adapter
 cannot be found or loaded, an appropriate error message will be returned.
 
 Unloading a LoRA Adapter:
@@ -142,6 +142,8 @@ Unloading a LoRA Adapter:
 To unload a LoRA adapter that has been previously loaded, send a POST request to the `/v1/unload_lora_adapter` endpoint
 with the name or ID of the adapter to be unloaded.
 
+Upon a successful request, the API responds with a `200 OK` status code from `vllm serve`, and `curl` returns the response body: `Success: LoRA adapter 'sql_adapter' removed successfully`.
+
 Example request to unload a LoRA adapter:
 
 ```bash
-- 
GitLab


From 9cea90eab4e26892a75e7b8faa3c0a2aa8d52923 Mon Sep 17 00:00:00 2001
From: Frieda Huang <124417784+frieda-huang@users.noreply.github.com>
Date: Sun, 11 May 2025 03:57:07 -0400
Subject: [PATCH 275/461] [Frontend] Add /classify endpoint (#17032)

Signed-off-by: Frieda (Jingying) Huang <jingyingfhuang@gmail.com>
---
 docs/source/models/pooling_models.md          |   1 +
 .../serving/openai_compatible_server.md       | 126 ++++++++
 .../openai_classification_client.py           |  49 +++
 .../entrypoints/openai/test_classification.py | 156 +++++++++
 vllm/entrypoints/openai/api_server.py         |  36 +++
 vllm/entrypoints/openai/protocol.py           |  41 +++
 .../openai/serving_classification.py          | 159 ++++++++++
 vllm/entrypoints/openai/serving_embedding.py  | 259 +++++++--------
 vllm/entrypoints/openai/serving_engine.py     | 296 +++++++++++++++++-
 9 files changed, 961 insertions(+), 162 deletions(-)
 create mode 100644 examples/online_serving/openai_classification_client.py
 create mode 100644 tests/entrypoints/openai/test_classification.py
 create mode 100644 vllm/entrypoints/openai/serving_classification.py

diff --git a/docs/source/models/pooling_models.md b/docs/source/models/pooling_models.md
index 8c8d1832d..3fd35e2e8 100644
--- a/docs/source/models/pooling_models.md
+++ b/docs/source/models/pooling_models.md
@@ -140,6 +140,7 @@ Our [OpenAI-Compatible Server](#openai-compatible-server) provides endpoints tha
 
 - [Pooling API](#pooling-api) is similar to `LLM.encode`, being applicable to all types of pooling models.
 - [Embeddings API](#embeddings-api) is similar to `LLM.embed`, accepting both text and [multi-modal inputs](#multimodal-inputs) for embedding models.
+- [Classification API](#classification-api) is similar to `LLM.classify` and is applicable to sequence classification models.
 - [Score API](#score-api) is similar to `LLM.score` for cross-encoder models.
 
 ## Matryoshka Embeddings
diff --git a/docs/source/serving/openai_compatible_server.md b/docs/source/serving/openai_compatible_server.md
index 34382c87a..07bd211c2 100644
--- a/docs/source/serving/openai_compatible_server.md
+++ b/docs/source/serving/openai_compatible_server.md
@@ -61,6 +61,8 @@ In addition, we have the following custom APIs:
   - Applicable to any model with a tokenizer.
 - [Pooling API](#pooling-api) (`/pooling`)
   - Applicable to all [pooling models](../models/pooling_models.md).
+- [Classification API](#classification-api) (`/classify`)
+  - Only applicable to [classification models](../models/pooling_models.md) (`--task classify`).
 - [Score API](#score-api) (`/score`)
   - Applicable to embedding models and [cross-encoder models](../models/pooling_models.md) (`--task score`).
 - [Re-rank API](#rerank-api) (`/rerank`, `/v1/rerank`, `/v2/rerank`)
@@ -443,6 +445,130 @@ The input format is the same as [Embeddings API](#embeddings-api), but the outpu
 
 Code example: <gh-file:examples/online_serving/openai_pooling_client.py>
 
+(classification-api)=
+
+### Classification API
+
+Our Classification API directly supports Hugging Face sequence-classification models such as [ai21labs/Jamba-tiny-reward-dev](https://huggingface.co/ai21labs/Jamba-tiny-reward-dev) and [jason9693/Qwen2.5-1.5B-apeach](https://huggingface.co/jason9693/Qwen2.5-1.5B-apeach).
+
+We automatically wrap any other transformer via `as_classification_model()`, which pools on the last token, attaches a `RowParallelLinear` head, and applies a softmax to produce per-class probabilities.
+
+Code example: <gh-file:examples/online_serving/openai_classification_client.py>
+
+#### Example Requests
+
+You can classify multiple texts by passing an array of strings:
+
+Request:
+
+```bash
+curl -v "http://127.0.0.1:8000/classify" \
+  -H "Content-Type: application/json" \
+  -d '{
+    "model": "jason9693/Qwen2.5-1.5B-apeach",
+    "input": [
+      "Loved the new café—coffee was great.",
+      "This update broke everything. Frustrating."
+    ]
+  }'
+```
+
+Response:
+
+```bash
+{
+  "id": "classify-7c87cac407b749a6935d8c7ce2a8fba2",
+  "object": "list",
+  "created": 1745383065,
+  "model": "jason9693/Qwen2.5-1.5B-apeach",
+  "data": [
+    {
+      "index": 0,
+      "label": "Default",
+      "probs": [
+        0.565970778465271,
+        0.4340292513370514
+      ],
+      "num_classes": 2
+    },
+    {
+      "index": 1,
+      "label": "Spoiled",
+      "probs": [
+        0.26448777318000793,
+        0.7355121970176697
+      ],
+      "num_classes": 2
+    }
+  ],
+  "usage": {
+    "prompt_tokens": 20,
+    "total_tokens": 20,
+    "completion_tokens": 0,
+    "prompt_tokens_details": null
+  }
+}
+```
+
+You can also pass a string directly to the `input` field:
+
+Request:
+
+```bash
+curl -v "http://127.0.0.1:8000/classify" \
+  -H "Content-Type: application/json" \
+  -d '{
+    "model": "jason9693/Qwen2.5-1.5B-apeach",
+    "input": "Loved the new café—coffee was great."
+  }'
+```
+
+Response:
+
+```bash
+{
+  "id": "classify-9bf17f2847b046c7b2d5495f4b4f9682",
+  "object": "list",
+  "created": 1745383213,
+  "model": "jason9693/Qwen2.5-1.5B-apeach",
+  "data": [
+    {
+      "index": 0,
+      "label": "Default",
+      "probs": [
+        0.565970778465271,
+        0.4340292513370514
+      ],
+      "num_classes": 2
+    }
+  ],
+  "usage": {
+    "prompt_tokens": 10,
+    "total_tokens": 10,
+    "completion_tokens": 0,
+    "prompt_tokens_details": null
+  }
+}
+```
+
+#### Extra parameters
+
+The following [pooling parameters](#pooling-params) are supported.
+
+:::{literalinclude} ../../../vllm/entrypoints/openai/protocol.py
+:language: python
+:start-after: begin-classification-pooling-params
+:end-before: end-classification-pooling-params
+:::
+
+The following extra parameters are supported:
+
+:::{literalinclude} ../../../vllm/entrypoints/openai/protocol.py
+:language: python
+:start-after: begin-classification-extra-params
+:end-before: end-classification-extra-params
+:::
+
 (score-api)=
 
 ### Score API
diff --git a/examples/online_serving/openai_classification_client.py b/examples/online_serving/openai_classification_client.py
new file mode 100644
index 000000000..992413463
--- /dev/null
+++ b/examples/online_serving/openai_classification_client.py
@@ -0,0 +1,49 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import argparse
+import pprint
+
+import requests
+
+
+def post_http_request(payload: dict, api_url: str) -> requests.Response:
+    headers = {"User-Agent": "Test Client"}
+    response = requests.post(api_url, headers=headers, json=payload)
+    return response
+
+
+def parse_args():
+    parse = argparse.ArgumentParser()
+    parse.add_argument("--host", type=str, default="localhost")
+    parse.add_argument("--port", type=int, default=8000)
+    parse.add_argument("--model",
+                       type=str,
+                       default="jason9693/Qwen2.5-1.5B-apeach")
+    return parse.parse_args()
+
+
+def main(args):
+    host = args.host
+    port = args.port
+    model_name = args.model
+
+    api_url = f"http://{host}:{port}/classify"
+    prompts = [
+        "Hello, my name is",
+        "The president of the United States is",
+        "The capital of France is",
+        "The future of AI is",
+    ]
+
+    payload = {
+        "model": model_name,
+        "input": prompts,
+    }
+
+    classify_response = post_http_request(payload=payload, api_url=api_url)
+    pprint.pprint(classify_response.json())
+
+
+if __name__ == "__main__":
+    args = parse_args()
+    main(args)
diff --git a/tests/entrypoints/openai/test_classification.py b/tests/entrypoints/openai/test_classification.py
new file mode 100644
index 000000000..97124c85e
--- /dev/null
+++ b/tests/entrypoints/openai/test_classification.py
@@ -0,0 +1,156 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import pytest
+import requests
+
+from vllm.entrypoints.openai.protocol import ClassificationResponse
+
+from ...utils import RemoteOpenAIServer
+
+MODEL_NAME = "jason9693/Qwen2.5-1.5B-apeach"
+DTYPE = "float32"  # Use float32 to avoid NaN issue
+
+
+@pytest.fixture(scope="module")
+def server():
+    args = [
+        "--enforce-eager",
+        "--max-model-len",
+        "512",
+        "--dtype",
+        DTYPE,
+    ]
+
+    with RemoteOpenAIServer(MODEL_NAME, args) as remote_server:
+        yield remote_server
+
+
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+def test_single_input_classification(server: RemoteOpenAIServer,
+                                     model_name: str):
+    input_text = "This product was excellent and exceeded my expectations"
+
+    classification_response = requests.post(
+        server.url_for("classify"),
+        json={
+            "model": model_name,
+            "input": input_text
+        },
+    )
+
+    classification_response.raise_for_status()
+    output = ClassificationResponse.model_validate(
+        classification_response.json())
+
+    assert output.object == "list"
+    assert output.model == MODEL_NAME
+    assert len(output.data) == 1
+    assert hasattr(output.data[0], "label")
+    assert hasattr(output.data[0], "probs")
+
+
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+def test_multiple_inputs_classification(server: RemoteOpenAIServer,
+                                        model_name: str):
+    input_texts = [
+        "The product arrived on time and works perfectly",
+        "I'm very satisfied with my purchase, would buy again",
+        "The customer service was helpful and resolved my issue quickly",
+        "This product broke after one week, terrible quality",
+        "I'm very disappointed with this purchase, complete waste of money",
+        "The customer service was rude and unhelpful",
+    ]
+
+    classification_response = requests.post(
+        server.url_for("classify"),
+        json={
+            "model": model_name,
+            "input": input_texts
+        },
+    )
+    output = ClassificationResponse.model_validate(
+        classification_response.json())
+
+    assert len(output.data) == len(input_texts)
+    for i, item in enumerate(output.data):
+        assert item.index == i
+        assert hasattr(item, "label")
+        assert hasattr(item, "probs")
+        assert len(item.probs) == item.num_classes
+        assert item.label in ["Default", "Spoiled"]
+
+
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+def test_truncate_prompt_tokens(server: RemoteOpenAIServer, model_name: str):
+    long_text = "hello " * 600
+
+    classification_response = requests.post(
+        server.url_for("classify"),
+        json={
+            "model": model_name,
+            "input": long_text,
+            "truncate_prompt_tokens": 5
+        },
+    )
+
+    classification_response.raise_for_status()
+    output = ClassificationResponse.model_validate(
+        classification_response.json())
+
+    assert len(output.data) == 1
+    assert output.data[0].index == 0
+    assert hasattr(output.data[0], "probs")
+    assert output.usage.prompt_tokens == 5
+    assert output.usage.total_tokens == 5
+
+
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+def test_invalid_truncate_prompt_tokens_error(server: RemoteOpenAIServer,
+                                              model_name: str):
+    classification_response = requests.post(
+        server.url_for("classify"),
+        json={
+            "model": model_name,
+            "input": "test",
+            "truncate_prompt_tokens": 513
+        },
+    )
+
+    error = classification_response.json()
+    assert classification_response.status_code == 400
+    assert error["object"] == "error"
+    assert "truncate_prompt_tokens" in error["message"]
+
+
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+def test_empty_input_error(server: RemoteOpenAIServer, model_name: str):
+    classification_response = requests.post(
+        server.url_for("classify"),
+        json={
+            "model": model_name,
+            "input": ""
+        },
+    )
+
+    error = classification_response.json()
+    assert classification_response.status_code == 400
+    assert error["object"] == "error"
+
+
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+def test_batch_classification_empty_list(server: RemoteOpenAIServer,
+                                         model_name: str):
+    classification_response = requests.post(
+        server.url_for("classify"),
+        json={
+            "model": model_name,
+            "input": []
+        },
+    )
+    classification_response.raise_for_status()
+    output = ClassificationResponse.model_validate(
+        classification_response.json())
+
+    assert output.object == "list"
+    assert isinstance(output.data, list)
+    assert len(output.data) == 0
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index 3699b2d60..25b6f98bb 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -48,6 +48,8 @@ from vllm.entrypoints.openai.cli_args import (log_non_default_args,
 # yapf: disable
 from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
                                               ChatCompletionResponse,
+                                              ClassificationRequest,
+                                              ClassificationResponse,
                                               CompletionRequest,
                                               CompletionResponse,
                                               DetokenizeRequest,
@@ -71,6 +73,8 @@ from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
                                               UnloadLoRAAdapterRequest)
 # yapf: enable
 from vllm.entrypoints.openai.serving_chat import OpenAIServingChat
+from vllm.entrypoints.openai.serving_classification import (
+    ServingClassification)
 from vllm.entrypoints.openai.serving_completion import OpenAIServingCompletion
 from vllm.entrypoints.openai.serving_embedding import OpenAIServingEmbedding
 from vllm.entrypoints.openai.serving_engine import OpenAIServing
@@ -373,6 +377,10 @@ def score(request: Request) -> Optional[ServingScores]:
     return request.app.state.openai_serving_scores
 
 
+def classify(request: Request) -> Optional[ServingClassification]:
+    return request.app.state.openai_serving_classification
+
+
 def rerank(request: Request) -> Optional[ServingScores]:
     return request.app.state.openai_serving_scores
 
@@ -405,6 +413,7 @@ async def get_server_load_metrics(request: Request):
     # - /v1/audio/transcriptions
     # - /v1/embeddings
     # - /pooling
+    # - /classify
     # - /score
     # - /v1/score
     # - /rerank
@@ -572,6 +581,27 @@ async def create_pooling(request: PoolingRequest, raw_request: Request):
     assert_never(generator)
 
 
+@router.post("/classify", dependencies=[Depends(validate_json_request)])
+@with_cancellation
+@load_aware_call
+async def create_classify(request: ClassificationRequest,
+                          raw_request: Request):
+    handler = classify(raw_request)
+    if handler is None:
+        return base(raw_request).create_error_response(
+            message="The model does not support Classification API")
+
+    generator = await handler.create_classify(request, raw_request)
+    if isinstance(generator, ErrorResponse):
+        return JSONResponse(content=generator.model_dump(),
+                            status_code=generator.code)
+
+    elif isinstance(generator, ClassificationResponse):
+        return JSONResponse(content=generator.model_dump())
+
+    assert_never(generator)
+
+
 @router.post("/score", dependencies=[Depends(validate_json_request)])
 @with_cancellation
 @load_aware_call
@@ -1001,6 +1031,12 @@ async def init_app_state(
         state.openai_serving_models,
         request_logger=request_logger) if model_config.task in (
             "score", "embed", "pooling") else None
+    state.openai_serving_classification = ServingClassification(
+        engine_client,
+        model_config,
+        state.openai_serving_models,
+        request_logger=request_logger,
+    ) if model_config.task == "classify" else None
     state.jinaai_serving_reranking = ServingScores(
         engine_client,
         model_config,
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
index aa01e785f..4e09240f2 100644
--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -1292,6 +1292,47 @@ class ScoreResponse(OpenAIBaseModel):
     usage: UsageInfo
 
 
+class ClassificationRequest(OpenAIBaseModel):
+    model: Optional[str] = None
+    input: Union[list[str], str]
+    truncate_prompt_tokens: Optional[int] = None
+    user: Optional[str] = None
+
+    # doc: begin-classification-pooling-params
+    additional_data: Optional[Any] = None
+    # doc: end-classification-pooling-params
+
+    # doc: begin-classification-extra-params
+    priority: int = Field(
+        default=0,
+        description=(
+            "The priority of the request (lower means earlier handling; "
+            "default: 0). Any priority other than 0 will raise an error "
+            "if the served model does not use priority scheduling."),
+    )
+
+    # doc: end-classification-extra-params
+
+    def to_pooling_params(self):
+        return PoolingParams(additional_data=self.additional_data)
+
+
+class ClassificationData(OpenAIBaseModel):
+    index: int
+    label: Optional[str]
+    probs: list[float]
+    num_classes: int
+
+
+class ClassificationResponse(OpenAIBaseModel):
+    id: str = Field(default_factory=lambda: f"classify-{random_uuid()}")
+    object: str = "list"
+    created: int = Field(default_factory=lambda: int(time.time()))
+    model: str
+    data: list[ClassificationData]
+    usage: UsageInfo
+
+
 class FunctionCall(OpenAIBaseModel):
     name: str
     arguments: str
diff --git a/vllm/entrypoints/openai/serving_classification.py b/vllm/entrypoints/openai/serving_classification.py
new file mode 100644
index 000000000..90cdd389d
--- /dev/null
+++ b/vllm/entrypoints/openai/serving_classification.py
@@ -0,0 +1,159 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from http import HTTPStatus
+from typing import Optional, Union, cast
+
+import numpy as np
+from fastapi import Request
+
+from vllm.config import ModelConfig
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.protocol import (ClassificationData,
+                                              ClassificationRequest,
+                                              ClassificationResponse,
+                                              ErrorResponse, UsageInfo)
+# yapf: enable
+from vllm.entrypoints.openai.serving_engine import (ClassificationServeContext,
+                                                    OpenAIServing,
+                                                    ServeContext)
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.logger import init_logger
+from vllm.outputs import ClassificationOutput, PoolingRequestOutput
+
+logger = init_logger(__name__)
+
+
+class ClassificationMixin(OpenAIServing):
+
+    async def _preprocess(
+        self,
+        ctx: ServeContext,
+    ) -> Optional[ErrorResponse]:
+        """
+        Process classification inputs: tokenize text, resolve adapters,
+        and prepare model-specific inputs.
+        """
+        ctx = cast(ClassificationServeContext, ctx)
+        if isinstance(ctx.request.input, str) and not ctx.request.input:
+            return self.create_error_response(
+                "Input cannot be empty for classification",
+                status_code=HTTPStatus.BAD_REQUEST,
+            )
+
+        if isinstance(ctx.request.input, list) and len(ctx.request.input) == 0:
+            return None
+
+        try:
+            (
+                ctx.lora_request,
+                ctx.prompt_adapter_request,
+            ) = self._maybe_get_adapters(ctx.request)
+
+            ctx.tokenizer = await self.engine_client.get_tokenizer(
+                ctx.lora_request)
+
+            if ctx.prompt_adapter_request is not None:
+                raise NotImplementedError(
+                    "Prompt adapter is not supported for classification models"
+                )
+
+            (
+                ctx.request_prompts,
+                ctx.engine_prompts,
+            ) = await self._preprocess_completion(
+                ctx.request,
+                ctx.tokenizer,
+                ctx.request.input,
+                truncate_prompt_tokens=ctx.request.truncate_prompt_tokens,
+            )
+
+            return None
+
+        except (ValueError, TypeError) as e:
+            logger.exception("Error in preprocessing prompt inputs")
+            return self.create_error_response(str(e))
+
+    def _build_response(
+        self,
+        ctx: ServeContext,
+    ) -> Union[ClassificationResponse, ErrorResponse]:
+        """
+        Convert model outputs to a formatted classification response
+        with probabilities and labels.
+        """
+        ctx = cast(ClassificationServeContext, ctx)
+        items: list[ClassificationData] = []
+        num_prompt_tokens = 0
+
+        final_res_batch_checked = cast(list[PoolingRequestOutput],
+                                       ctx.final_res_batch)
+
+        for idx, final_res in enumerate(final_res_batch_checked):
+            classify_res = ClassificationOutput.from_base(final_res.outputs)
+
+            probs = classify_res.probs
+            predicted_index = int(np.argmax(probs))
+            label = getattr(self.model_config.hf_config, "id2label",
+                            {}).get(predicted_index)
+
+            item = ClassificationData(
+                index=idx,
+                label=label,
+                probs=probs,
+                num_classes=len(probs),
+            )
+
+            items.append(item)
+            prompt_token_ids = final_res.prompt_token_ids
+            num_prompt_tokens += len(prompt_token_ids)
+
+        usage = UsageInfo(
+            prompt_tokens=num_prompt_tokens,
+            total_tokens=num_prompt_tokens,
+        )
+
+        return ClassificationResponse(
+            id=ctx.request_id,
+            created=ctx.created_time,
+            model=ctx.model_name,
+            data=items,
+            usage=usage,
+        )
+
+
+class ServingClassification(ClassificationMixin):
+    request_id_prefix = "classify"
+
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        model_config: ModelConfig,
+        models: OpenAIServingModels,
+        *,
+        request_logger: Optional[RequestLogger],
+    ) -> None:
+        super().__init__(
+            engine_client=engine_client,
+            model_config=model_config,
+            models=models,
+            request_logger=request_logger,
+        )
+
+    async def create_classify(
+        self,
+        request: ClassificationRequest,
+        raw_request: Request,
+    ) -> Union[ClassificationResponse, ErrorResponse]:
+        model_name = self._get_model_name(request.model)
+        request_id = (f"{self.request_id_prefix}-"
+                      f"{self._base_request_id(raw_request)}")
+
+        ctx = ClassificationServeContext(
+            request=request,
+            raw_request=raw_request,
+            model_name=model_name,
+            request_id=request_id,
+        )
+
+        return await super().handle(ctx)  # type: ignore
diff --git a/vllm/entrypoints/openai/serving_embedding.py b/vllm/entrypoints/openai/serving_embedding.py
index 4b4d2d8b7..3785d2642 100644
--- a/vllm/entrypoints/openai/serving_embedding.py
+++ b/vllm/entrypoints/openai/serving_embedding.py
@@ -1,14 +1,11 @@
 # SPDX-License-Identifier: Apache-2.0
 
-import asyncio
 import base64
-import time
-from collections.abc import AsyncGenerator
 from typing import Final, Literal, Optional, Union, cast
 
 import numpy as np
 from fastapi import Request
-from typing_extensions import assert_never
+from typing_extensions import assert_never, override
 
 from vllm.config import ModelConfig
 from vllm.engine.protocol import EngineClient
@@ -19,13 +16,13 @@ from vllm.entrypoints.openai.protocol import (EmbeddingChatRequest,
                                               EmbeddingResponse,
                                               EmbeddingResponseData,
                                               ErrorResponse, UsageInfo)
-from vllm.entrypoints.openai.serving_engine import OpenAIServing
+from vllm.entrypoints.openai.serving_engine import (EmbeddingServeContext,
+                                                    OpenAIServing,
+                                                    ServeContext)
 from vllm.entrypoints.openai.serving_models import OpenAIServingModels
-from vllm.entrypoints.utils import _validate_truncation_size
 from vllm.logger import init_logger
 from vllm.outputs import (EmbeddingOutput, EmbeddingRequestOutput,
                           PoolingRequestOutput)
-from vllm.utils import merge_async_iterators
 
 logger = init_logger(__name__)
 
@@ -45,180 +42,77 @@ def _get_embedding(
     assert_never(encoding_format)
 
 
-class OpenAIServingEmbedding(OpenAIServing):
+class EmbeddingMixin(OpenAIServing):
 
-    def __init__(
-        self,
-        engine_client: EngineClient,
-        model_config: ModelConfig,
-        models: OpenAIServingModels,
-        *,
-        request_logger: Optional[RequestLogger],
-        chat_template: Optional[str],
-        chat_template_content_format: ChatTemplateContentFormatOption,
-    ) -> None:
-        super().__init__(engine_client=engine_client,
-                         model_config=model_config,
-                         models=models,
-                         request_logger=request_logger)
-
-        self.chat_template = chat_template
-        self.chat_template_content_format: Final = chat_template_content_format
-
-    async def create_embedding(
+    async def _preprocess(
         self,
-        request: EmbeddingRequest,
-        raw_request: Optional[Request] = None,
-    ) -> Union[EmbeddingResponse, ErrorResponse]:
-        """
-        Embedding API similar to OpenAI's API.
-
-        See https://platform.openai.com/docs/api-reference/embeddings/create
-        for the API specification. This API mimics the OpenAI Embedding API.
-        """
-        error_check_ret = await self._check_model(request)
-        if error_check_ret is not None:
-            return error_check_ret
-
-        encoding_format = request.encoding_format
-
-        model_name = self._get_model_name(request.model)
-        request_id = f"embd-{self._base_request_id(raw_request)}"
-        created_time = int(time.time())
-
-        truncate_prompt_tokens = request.truncate_prompt_tokens
-
-        pooling_params = request.to_pooling_params()
-
-        try:
-            pooling_params.verify(self.model_config)
-        except ValueError as e:
-            return self.create_error_response(str(e))
-
+        ctx: ServeContext,
+    ) -> Optional[ErrorResponse]:
+        ctx = cast(EmbeddingServeContext, ctx)
         try:
-            truncate_prompt_tokens = _validate_truncation_size(
-                self.max_model_len, truncate_prompt_tokens)
             (
-                lora_request,
-                prompt_adapter_request,
-            ) = self._maybe_get_adapters(request)
+                ctx.lora_request,
+                ctx.prompt_adapter_request,
+            ) = self._maybe_get_adapters(ctx.request)
 
-            tokenizer = await self.engine_client.get_tokenizer(lora_request)
+            tokenizer = await self.engine_client.get_tokenizer(ctx.lora_request
+                                                               )
 
-            if prompt_adapter_request is not None:
+            if ctx.prompt_adapter_request is not None:
                 raise NotImplementedError("Prompt adapter is not supported "
                                           "for embedding models")
 
-            if isinstance(request, EmbeddingChatRequest):
+            if isinstance(ctx.request, EmbeddingChatRequest):
                 (
                     _,
-                    request_prompts,
-                    engine_prompts,
+                    ctx.request_prompts,
+                    ctx.engine_prompts,
                 ) = await self._preprocess_chat(
-                    request,
+                    ctx.request,
                     tokenizer,
-                    request.messages,
-                    chat_template=request.chat_template or self.chat_template,
-                    chat_template_content_format=self.
+                    ctx.request.messages,
+                    chat_template=ctx.request.chat_template
+                    or ctx.chat_template,
+                    chat_template_content_format=ctx.
                     chat_template_content_format,
                     # In embedding requests, we are not generating tokens,
                     # so there is no need to append extra tokens to the input
                     add_generation_prompt=False,
                     continue_final_message=False,
-                    truncate_prompt_tokens=truncate_prompt_tokens,
-                    add_special_tokens=request.add_special_tokens,
+                    truncate_prompt_tokens=ctx.truncate_prompt_tokens,
+                    add_special_tokens=ctx.request.add_special_tokens,
                 )
             else:
-                (request_prompts,
-                 engine_prompts) = await self._preprocess_completion(
-                     request,
+                (ctx.request_prompts,
+                 ctx.engine_prompts) = await self._preprocess_completion(
+                     ctx.request,
                      tokenizer,
-                     request.input,
-                     truncate_prompt_tokens=truncate_prompt_tokens,
-                     add_special_tokens=request.add_special_tokens,
+                     ctx.request.input,
+                     truncate_prompt_tokens=ctx.truncate_prompt_tokens,
+                     add_special_tokens=ctx.request.add_special_tokens,
                  )
+            return None
         except (ValueError, TypeError) as e:
             logger.exception("Error in preprocessing prompt inputs")
             return self.create_error_response(str(e))
 
-        # Schedule the request and get the result generator.
-        generators: list[AsyncGenerator[PoolingRequestOutput, None]] = []
-        try:
-            for i, engine_prompt in enumerate(engine_prompts):
-                request_id_item = f"{request_id}-{i}"
-
-                self._log_inputs(request_id_item,
-                                 request_prompts[i],
-                                 params=pooling_params,
-                                 lora_request=lora_request,
-                                 prompt_adapter_request=prompt_adapter_request)
-
-                trace_headers = (None if raw_request is None else await
-                                 self._get_trace_headers(raw_request.headers))
-
-                generator = self.engine_client.encode(
-                    engine_prompt,
-                    pooling_params,
-                    request_id_item,
-                    lora_request=lora_request,
-                    trace_headers=trace_headers,
-                    priority=request.priority,
-                )
-
-                generators.append(generator)
-        except ValueError as e:
-            # TODO: Use a vllm-specific Validation Error
-            return self.create_error_response(str(e))
-
-        result_generator = merge_async_iterators(*generators)
-
-        num_prompts = len(engine_prompts)
-
-        # Non-streaming response
-        final_res_batch: list[Optional[PoolingRequestOutput]]
-        final_res_batch = [None] * num_prompts
-        try:
-            async for i, res in result_generator:
-                final_res_batch[i] = res
-
-            assert all(final_res is not None for final_res in final_res_batch)
-
-            final_res_batch_checked = cast(list[PoolingRequestOutput],
-                                           final_res_batch)
-
-            response = self.request_output_to_embedding_response(
-                final_res_batch_checked,
-                request_id,
-                created_time,
-                model_name,
-                encoding_format,
-            )
-        except asyncio.CancelledError:
-            return self.create_error_response("Client disconnected")
-        except ValueError as e:
-            # TODO: Use a vllm-specific Validation Error
-            return self.create_error_response(str(e))
-
-        return response
-
-    def request_output_to_embedding_response(
+    def _build_response(
         self,
-        final_res_batch: list[PoolingRequestOutput],
-        request_id: str,
-        created_time: int,
-        model_name: str,
-        encoding_format: Literal["float", "base64"],
-    ) -> EmbeddingResponse:
+        ctx: ServeContext,
+    ) -> Union[EmbeddingResponse, ErrorResponse]:
         items: list[EmbeddingResponseData] = []
         num_prompt_tokens = 0
 
-        for idx, final_res in enumerate(final_res_batch):
+        final_res_batch_checked = cast(list[PoolingRequestOutput],
+                                       ctx.final_res_batch)
+
+        for idx, final_res in enumerate(final_res_batch_checked):
             embedding_res = EmbeddingRequestOutput.from_base(final_res)
 
             item = EmbeddingResponseData(
                 index=idx,
                 embedding=_get_embedding(embedding_res.outputs,
-                                         encoding_format),
+                                         ctx.request.encoding_format),
             )
             prompt_token_ids = final_res.prompt_token_ids
 
@@ -231,9 +125,76 @@ class OpenAIServingEmbedding(OpenAIServing):
         )
 
         return EmbeddingResponse(
-            id=request_id,
-            created=created_time,
-            model=model_name,
+            id=ctx.request_id,
+            created=ctx.created_time,
+            model=ctx.model_name,
             data=items,
             usage=usage,
         )
+
+
+class OpenAIServingEmbedding(EmbeddingMixin):
+    request_id_prefix = "embd"
+
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        model_config: ModelConfig,
+        models: OpenAIServingModels,
+        *,
+        request_logger: Optional[RequestLogger],
+        chat_template: Optional[str],
+        chat_template_content_format: ChatTemplateContentFormatOption,
+    ) -> None:
+        super().__init__(engine_client=engine_client,
+                         model_config=model_config,
+                         models=models,
+                         request_logger=request_logger)
+
+        self.chat_template = chat_template
+        self.chat_template_content_format: Final = chat_template_content_format
+
+    async def create_embedding(
+        self,
+        request: EmbeddingRequest,
+        raw_request: Optional[Request] = None,
+    ) -> Union[EmbeddingResponse, ErrorResponse]:
+        """
+        Embedding API similar to OpenAI's API.
+
+        See https://platform.openai.com/docs/api-reference/embeddings/create
+        for the API specification. This API mimics the OpenAI Embedding API.
+        """
+        model_name = self._get_model_name(request.model)
+        request_id = (f"{self.request_id_prefix}-"
+                      f"{self._base_request_id(raw_request)}")
+
+        ctx = EmbeddingServeContext(
+            request=request,
+            raw_request=raw_request,
+            model_name=model_name,
+            request_id=request_id,
+            chat_template=self.chat_template,
+            chat_template_content_format=self.chat_template_content_format,
+        )
+
+        return await super().handle(ctx)  # type: ignore
+
+    @override
+    def _validate_request(
+        self,
+        ctx: ServeContext[EmbeddingRequest],
+    ) -> Optional[ErrorResponse]:
+        if error := super()._validate_request(ctx):
+            return error
+
+        ctx.truncate_prompt_tokens = ctx.request.truncate_prompt_tokens
+
+        pooling_params = ctx.request.to_pooling_params()
+
+        try:
+            pooling_params.verify(self.model_config)
+        except ValueError as e:
+            return self.create_error_response(str(e))
+
+        return None
diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
index bb1165081..37134cfb3 100644
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -1,13 +1,16 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import json
-from collections.abc import Iterable, Iterator, Mapping, Sequence
+import time
+from collections.abc import (AsyncGenerator, Iterable, Iterator, Mapping,
+                             Sequence)
 from concurrent.futures.thread import ThreadPoolExecutor
 from http import HTTPStatus
-from typing import Annotated, Any, Callable, Optional, TypedDict, Union
+from typing import (Annotated, Any, Callable, ClassVar, Generic, Optional,
+                    TypedDict, TypeVar, Union)
 
 from fastapi import Request
-from pydantic import Field
+from pydantic import BaseModel, ConfigDict, Field
 from starlette.datastructures import Headers
 
 import vllm.envs as envs
@@ -24,15 +27,23 @@ from vllm.entrypoints.chat_utils import (ChatCompletionMessageParam,
                                          resolve_chat_template_content_format)
 from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
+                                              ChatCompletionResponse,
+                                              ClassificationRequest,
+                                              ClassificationResponse,
                                               CompletionRequest,
+                                              CompletionResponse,
                                               DetokenizeRequest,
                                               EmbeddingChatRequest,
                                               EmbeddingCompletionRequest,
-                                              ErrorResponse, RerankRequest,
-                                              ScoreRequest,
+                                              EmbeddingRequest,
+                                              EmbeddingResponse, ErrorResponse,
+                                              PoolingResponse, RerankRequest,
+                                              ScoreRequest, ScoreResponse,
                                               TokenizeChatRequest,
                                               TokenizeCompletionRequest,
-                                              TranscriptionRequest)
+                                              TokenizeResponse,
+                                              TranscriptionRequest,
+                                              TranscriptionResponse)
 from vllm.entrypoints.openai.serving_models import OpenAIServingModels
 from vllm.entrypoints.openai.tool_parsers import ToolParser
 # yapf: enable
@@ -40,6 +51,9 @@ from vllm.inputs import TokensPrompt
 from vllm.inputs.parse import parse_and_batch_prompt
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
+from vllm.multimodal import (  # noqa: F401 - Required to resolve Pydantic error in RequestProcessingMixin
+    MultiModalDataDict)
+from vllm.outputs import PoolingRequestOutput, RequestOutput
 from vllm.pooling_params import PoolingParams
 from vllm.prompt_adapter.request import PromptAdapterRequest
 from vllm.sampling_params import BeamSearchParams, SamplingParams
@@ -47,13 +61,15 @@ from vllm.sequence import Logprob, PromptLogprobs
 from vllm.tracing import (contains_trace_headers, extract_trace_headers,
                           log_tracing_disabled_warning)
 from vllm.transformers_utils.tokenizer import AnyTokenizer, MistralTokenizer
-from vllm.utils import is_list_of, make_async, random_uuid
+from vllm.utils import (is_list_of, make_async, merge_async_iterators,
+                        random_uuid)
 
 logger = init_logger(__name__)
 
 CompletionLikeRequest = Union[CompletionRequest, DetokenizeRequest,
                               EmbeddingCompletionRequest, RerankRequest,
-                              ScoreRequest, TokenizeCompletionRequest]
+                              ClassificationRequest, ScoreRequest,
+                              TokenizeCompletionRequest]
 
 ChatLikeRequest = Union[ChatCompletionRequest, EmbeddingChatRequest,
                         TokenizeChatRequest]
@@ -61,6 +77,17 @@ ChatLikeRequest = Union[ChatCompletionRequest, EmbeddingChatRequest,
 AnyRequest = Union[CompletionLikeRequest, ChatLikeRequest,
                    TranscriptionRequest]
 
+AnyResponse = Union[
+    CompletionResponse,
+    ChatCompletionResponse,
+    EmbeddingResponse,
+    TranscriptionResponse,
+    TokenizeResponse,
+    PoolingResponse,
+    ClassificationResponse,
+    ScoreResponse,
+]
+
 
 class TextTokensPrompt(TypedDict):
     prompt: str
@@ -69,8 +96,79 @@ class TextTokensPrompt(TypedDict):
 
 RequestPrompt = Union[list[int], str, TextTokensPrompt]
 
+RequestT = TypeVar("RequestT", bound=AnyRequest)
+
+
+class RequestProcessingMixin(BaseModel):
+    """
+    Mixin for request processing, 
+    handling prompt preparation and engine input.
+    """
+    request_prompts: Optional[Sequence[RequestPrompt]] = \
+                            Field(default_factory=list)
+    engine_prompts: Optional[list[TokensPrompt]] = \
+                            Field(default_factory=list)
+
+    model_config = ConfigDict(arbitrary_types_allowed=True)
+
+
+class ResponseGenerationMixin(BaseModel):
+    """
+    Mixin for response generation, 
+    managing result generators and final batch results.
+    """
+    result_generator: Optional[AsyncGenerator[tuple[int, Union[
+        RequestOutput, PoolingRequestOutput]], None]] = None
+    final_res_batch: list[Union[RequestOutput, PoolingRequestOutput]] = Field(
+        default_factory=list)
+
+    model_config = ConfigDict(arbitrary_types_allowed=True)
+
+
+class ServeContext(RequestProcessingMixin, ResponseGenerationMixin, BaseModel,
+                   Generic[RequestT]):
+    # Shared across all requests
+    request: RequestT
+    raw_request: Optional[Request] = None
+    model_name: str
+    request_id: str
+    created_time: int = Field(default_factory=lambda: int(time.time()))
+    lora_request: Optional[LoRARequest] = None
+    prompt_adapter_request: Optional[PromptAdapterRequest] = None
+
+    # Shared across most requests
+    tokenizer: Optional[AnyTokenizer] = None
+    truncate_prompt_tokens: Optional[Annotated[int, Field(ge=1)]] = None
+
+    # `protected_namespaces` resolves Pydantic v2's warning
+    # on conflict with protected namespace "model_"
+    model_config = ConfigDict(
+        protected_namespaces=(),
+        arbitrary_types_allowed=True,
+    )
+
+
+ClassificationServeContext = ServeContext[ClassificationRequest]
+
+
+class EmbeddingServeContext(ServeContext[EmbeddingRequest]):
+    chat_template: Optional[str] = None
+    chat_template_content_format: ChatTemplateContentFormatOption
+
+
+# Used to resolve the Pydantic error related to
+# forward reference of MultiModalDataDict in TokensPrompt
+RequestProcessingMixin.model_rebuild()
+ServeContext.model_rebuild()
+ClassificationServeContext.model_rebuild()
+EmbeddingServeContext.model_rebuild()
+
 
 class OpenAIServing:
+    request_id_prefix: ClassVar[str] = """
+    A short string prepended to every request’s ID (e.g. "embd", "classify")
+    so you can easily tell “this ID came from Embedding vs Classification.”
+    """
 
     def __init__(
         self,
@@ -100,6 +198,167 @@ class OpenAIServing:
             self._tokenize_prompt_input_or_inputs,
             executor=self._tokenizer_executor)
 
+    async def _preprocess(
+        self,
+        ctx: ServeContext,
+    ) -> Optional[ErrorResponse]:
+        """
+        Default preprocessing hook. Subclasses may override
+        to prepare `ctx` (classification, embedding, etc.).
+        """
+        return None
+
+    def _build_response(
+        self,
+        ctx: ServeContext,
+    ) -> Union[AnyResponse, ErrorResponse]:
+        """
+        Default response builder. Subclass may override this method
+        to return the appropriate response object.
+        """
+        return self.create_error_response("unimplemented endpoint")
+
+    async def handle(
+        self,
+        ctx: ServeContext,
+    ) -> Union[AnyResponse, ErrorResponse]:
+        generation: AsyncGenerator[Union[AnyResponse, ErrorResponse], None]
+        generation = self._pipeline(ctx)
+
+        async for response in generation:
+            return response
+
+        return self.create_error_response("No response yielded from pipeline")
+
+    async def _pipeline(
+        self,
+        ctx: ServeContext,
+    ) -> AsyncGenerator[Union[AnyResponse, ErrorResponse], None]:
+        """Execute the request processing pipeline yielding responses."""
+        if error := await self._check_model(ctx.request):
+            yield error
+        if error := self._validate_request(ctx):
+            yield error
+
+        preprocess_ret = await self._preprocess(ctx)
+        if isinstance(preprocess_ret, ErrorResponse):
+            yield preprocess_ret
+
+        generators_ret = await self._prepare_generators(ctx)
+        if isinstance(generators_ret, ErrorResponse):
+            yield generators_ret
+
+        collect_ret = await self._collect_batch(ctx)
+        if isinstance(collect_ret, ErrorResponse):
+            yield collect_ret
+
+        yield self._build_response(ctx)
+
+    def _validate_request(self, ctx: ServeContext) -> Optional[ErrorResponse]:
+        truncate_prompt_tokens = getattr(ctx.request, "truncate_prompt_tokens",
+                                         None)
+
+        if truncate_prompt_tokens is not None:
+            if truncate_prompt_tokens <= self.max_model_len:
+                ctx.truncate_prompt_tokens = truncate_prompt_tokens
+            else:
+                return self.create_error_response(
+                    "truncate_prompt_tokens value is "
+                    "greater than max_model_len."
+                    " Please, select a smaller truncation size.")
+        return None
+
+    async def _prepare_generators(
+        self,
+        ctx: ServeContext,
+    ) -> Optional[ErrorResponse]:
+        """Schedule the request and get the result generator."""
+        generators: list[AsyncGenerator[Union[RequestOutput,
+                                              PoolingRequestOutput],
+                                        None]] = []
+
+        try:
+            trace_headers = (None if ctx.raw_request is None else await
+                             self._get_trace_headers(ctx.raw_request.headers))
+
+            if not hasattr(ctx.request, "to_pooling_params"):
+                return self.create_error_response(
+                    "Request type does not support pooling parameters")
+
+            pooling_params = ctx.request.to_pooling_params()
+
+            if ctx.engine_prompts is None:
+                return self.create_error_response(
+                    "Engine prompts not available")
+
+            for i, engine_prompt in enumerate(ctx.engine_prompts):
+                request_id_item = f"{ctx.request_id}-{i}"
+
+                if ctx.request_prompts is None:
+                    return self.create_error_response(
+                        "Request prompts not available")
+
+                self._log_inputs(
+                    request_id_item,
+                    ctx.request_prompts[i],
+                    params=pooling_params,
+                    lora_request=ctx.lora_request,
+                    prompt_adapter_request=ctx.prompt_adapter_request)
+
+                generator = self.engine_client.encode(
+                    engine_prompt,
+                    pooling_params,
+                    request_id_item,
+                    lora_request=ctx.lora_request,
+                    trace_headers=trace_headers,
+                    priority=getattr(ctx.request, "priority", 0),
+                )
+
+                generators.append(generator)
+
+            ctx.result_generator = merge_async_iterators(*generators)
+
+            return None
+
+        except Exception as e:
+            # TODO: Use a vllm-specific Validation Error
+            return self.create_error_response(str(e))
+
+    async def _collect_batch(
+        self,
+        ctx: ServeContext,
+    ) -> Optional[ErrorResponse]:
+        """Collect batch results from the result generator."""
+        try:
+            if ctx.engine_prompts is None:
+                return self.create_error_response(
+                    "Engine prompts not available")
+
+            num_prompts = len(ctx.engine_prompts)
+            final_res_batch: list[Optional[Union[RequestOutput,
+                                                 PoolingRequestOutput]]]
+            final_res_batch = [None] * num_prompts
+
+            if ctx.result_generator is None:
+                return self.create_error_response(
+                    "Result generator not available")
+
+            async for i, res in ctx.result_generator:
+                final_res_batch[i] = res
+
+            if None in final_res_batch:
+                return self.create_error_response(
+                    "Failed to generate results for all prompts")
+
+            ctx.final_res_batch = [
+                res for res in final_res_batch if res is not None
+            ]
+
+            return None
+
+        except Exception as e:
+            return self.create_error_response(str(e))
+
     def create_error_response(
             self,
             message: str,
@@ -183,6 +442,12 @@ class OpenAIServing:
 
         if truncate_prompt_tokens is None:
             encoded = tokenizer(prompt, add_special_tokens=add_special_tokens)
+        elif truncate_prompt_tokens < 0:
+            # Negative means we cap at the model's max length
+            encoded = tokenizer(prompt,
+                                add_special_tokens=add_special_tokens,
+                                truncation=True,
+                                max_length=self.max_model_len)
         else:
             encoded = tokenizer(prompt,
                                 add_special_tokens=add_special_tokens,
@@ -204,6 +469,8 @@ class OpenAIServing:
     ) -> TextTokensPrompt:
         if truncate_prompt_tokens is None:
             input_ids = prompt_ids
+        elif truncate_prompt_tokens < 0:
+            input_ids = prompt_ids[-self.max_model_len:]
         else:
             input_ids = prompt_ids[-truncate_prompt_tokens:]
 
@@ -219,13 +486,16 @@ class OpenAIServing:
     ) -> TextTokensPrompt:
         token_num = len(input_ids)
 
-        # Note: EmbeddingRequest and ScoreRequest doesn't have max_tokens
+        # Note: EmbeddingRequest, ClassificationRequest,
+        # and ScoreRequest doesn't have max_tokens
         if isinstance(request,
                       (EmbeddingChatRequest, EmbeddingCompletionRequest,
-                       ScoreRequest, RerankRequest)):
+                       ScoreRequest, RerankRequest, ClassificationRequest)):
+            operation = {
+                ScoreRequest: "score",
+                ClassificationRequest: "classification"
+            }.get(type(request), "embedding generation")
 
-            operation = "score" if isinstance(request, ScoreRequest) \
-                else "embedding generation"
             if token_num > self.max_model_len:
                 raise ValueError(
                     f"This model's maximum context length is "
@@ -247,7 +517,7 @@ class OpenAIServing:
             # TODO(#9845): remove max_tokens when field dropped from OpenAI API
             max_tokens = request.max_completion_tokens or request.max_tokens
         else:
-            max_tokens = request.max_tokens
+            max_tokens = getattr(request, "max_tokens", None)
         if max_tokens is None:
             if token_num >= self.max_model_len:
                 raise ValueError(
-- 
GitLab


From cd3edfc9082993d003a446d50624097bcf316365 Mon Sep 17 00:00:00 2001
From: Dipika Sikka <dipikasikka1@gmail.com>
Date: Sun, 11 May 2025 03:58:38 -0400
Subject: [PATCH 276/461] [Misc] Add compressed-tensors NVFP4A16 emulation
 support (#17914)

Signed-off-by: Dipika Sikka <dipikasikka1@gmail.com>
Signed-off-by: Dipika <dipikasikka1@gmail.com>
---
 tests/quantization/test_compressed_tensors.py |  26 ++++-
 .../compressed_tensors/compressed_tensors.py  |  25 +++-
 .../compressed_tensors/schemes/__init__.py    |   3 +-
 .../schemes/compressed_tensors_w4a16_nvfp4.py | 107 ++++++++++++++++++
 .../utils/nvfp4_emulation_utils.py            |  61 ++++++++++
 5 files changed, 215 insertions(+), 7 deletions(-)
 create mode 100644 vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py
 create mode 100644 vllm/model_executor/layers/quantization/utils/nvfp4_emulation_utils.py

diff --git a/tests/quantization/test_compressed_tensors.py b/tests/quantization/test_compressed_tensors.py
index 70f716f95..c968a68f1 100644
--- a/tests/quantization/test_compressed_tensors.py
+++ b/tests/quantization/test_compressed_tensors.py
@@ -13,9 +13,9 @@ from compressed_tensors.quantization import QuantizationType
 from tests.models.utils import check_logprobs_close
 from vllm.model_executor.layers.quantization.compressed_tensors.compressed_tensors import (  # noqa: E501
     CompressedTensors24, CompressedTensorsLinearMethod,
-    CompressedTensorsW4A16Sparse24, CompressedTensorsW8A8Fp8,
-    CompressedTensorsW8A8Int8, CompressedTensorsW8A16Fp8,
-    CompressedTensorsWNA16)
+    CompressedTensorsW4A16Fp4, CompressedTensorsW4A16Sparse24,
+    CompressedTensorsW8A8Fp8, CompressedTensorsW8A8Int8,
+    CompressedTensorsW8A16Fp8, CompressedTensorsWNA16)
 from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
     sparse_cutlass_supported)
 from vllm.platforms import current_platform
@@ -648,3 +648,23 @@ def test_compressed_tensors_2of4_sparse_compressed(vllm_runner, args_2of4):
         output = llm.generate_greedy("Hello my name is", max_tokens=20)
         print(output)
         assert output
+
+
+def test_compressed_tensors_nvfp4a16(vllm_runner):
+    # run weight only example
+    model = "nm-testing/TinyLlama-1.1B-Chat-v1.0-FP4"
+    with vllm_runner(model, enforce_eager=True) as llm:
+
+        def check_model(model):
+            layer = model.model.layers[0]
+
+            qkv_proj = layer.self_attn.qkv_proj
+            assert isinstance(qkv_proj.quant_method,
+                              CompressedTensorsLinearMethod)
+            assert isinstance(qkv_proj.scheme, CompressedTensorsW4A16Fp4)
+            assert qkv_proj.scheme.group_size == 16
+
+        llm.apply_model(check_model)
+        output = llm.generate_greedy("Hello my name is", max_tokens=20)
+        print(output)
+        assert output
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
index 0585c09bd..a001a8582 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
@@ -23,9 +23,10 @@ from vllm.model_executor.layers.quantization.compressed_tensors.compressed_tenso
     CompressedTensorsMoEMethod)
 from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
     W4A16SPARSE24_SUPPORTED_BITS, WNA16_SUPPORTED_BITS, CompressedTensors24,
-    CompressedTensorsScheme, CompressedTensorsW4A16Sparse24,
-    CompressedTensorsW8A8Fp8, CompressedTensorsW8A8Int8,
-    CompressedTensorsW8A16Fp8, CompressedTensorsWNA16)
+    CompressedTensorsScheme, CompressedTensorsW4A16Fp4,
+    CompressedTensorsW4A16Sparse24, CompressedTensorsW8A8Fp8,
+    CompressedTensorsW8A8Int8, CompressedTensorsW8A16Fp8,
+    CompressedTensorsWNA16)
 from vllm.model_executor.layers.quantization.compressed_tensors.utils import (
     find_matched_target, is_activation_quantization_format,
     should_ignore_layer)
@@ -216,6 +217,21 @@ class CompressedTensorsConfig(QuantizationConfig):
         else:
             return False
 
+    def _is_fp4a16_nvfp4(self, weight_quant: BaseModel,
+                         input_quant: BaseModel):
+
+        is_weight_only = weight_quant is not None and input_quant is None
+        is_group_quant = (
+            weight_quant.strategy == QuantizationStrategy.GROUP.value)
+        is_symmetric = weight_quant.symmetric
+
+        is_group_size_16 = weight_quant.group_size == 16
+        is_float_type = weight_quant.type == QuantizationType.FLOAT
+        is_4_bits = weight_quant.num_bits == 4
+
+        return (is_weight_only and is_group_quant and is_float_type
+                and is_4_bits and is_group_size_16 and is_symmetric)
+
     def _is_static_tensor_w8a8(self, weight_quant: BaseModel,
                                input_quant: BaseModel) -> bool:
         is_8_bits = weight_quant.num_bits == input_quant.num_bits == 8
@@ -315,6 +331,9 @@ class CompressedTensorsConfig(QuantizationConfig):
             input_quant: BaseModel) -> "CompressedTensorsScheme":
 
         # Detect If Mixed Precision
+        if self._is_fp4a16_nvfp4(weight_quant, input_quant):
+            return CompressedTensorsW4A16Fp4()
+
         if self._is_wNa16_group_channel(weight_quant, input_quant):
             if (self.quant_format == CompressionFormat.marlin_24.value
                     and weight_quant.num_bits in W4A16SPARSE24_SUPPORTED_BITS):
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/__init__.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/__init__.py
index b26c74f24..79bf5c108 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/__init__.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/__init__.py
@@ -3,6 +3,7 @@
 from .compressed_tensors_scheme import CompressedTensorsScheme
 from .compressed_tensors_w4a16_24 import (W4A16SPARSE24_SUPPORTED_BITS,
                                           CompressedTensorsW4A16Sparse24)
+from .compressed_tensors_w4a16_nvfp4 import CompressedTensorsW4A16Fp4
 from .compressed_tensors_w8a8_fp8 import CompressedTensorsW8A8Fp8
 from .compressed_tensors_w8a8_int8 import CompressedTensorsW8A8Int8
 from .compressed_tensors_w8a16_fp8 import CompressedTensorsW8A16Fp8
@@ -16,5 +17,5 @@ __all__ = [
     "CompressedTensorsW8A16Fp8", "CompressedTensorsW4A16Sparse24",
     "CompressedTensorsW8A8Int8", "CompressedTensorsW8A8Fp8",
     "WNA16_SUPPORTED_BITS", "W4A16SPARSE24_SUPPORTED_BITS",
-    "CompressedTensors24"
+    "CompressedTensors24", "CompressedTensorsW4A16Fp4"
 ]
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py
new file mode 100644
index 000000000..f192a8164
--- /dev/null
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py
@@ -0,0 +1,107 @@
+# SPDX-License-Identifier: Apache-2.0
+from typing import Callable, List, Optional
+
+import torch
+import torch.nn.functional as F
+from torch.nn.parameter import Parameter
+
+from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
+    CompressedTensorsScheme)
+from vllm.model_executor.layers.quantization.utils.nvfp4_emulation_utils import (  # noqa: E501
+    dequantize_to_dtype)
+from vllm.model_executor.parameter import (GroupQuantScaleParameter,
+                                           ModelWeightParameter,
+                                           PerTensorScaleParameter)
+
+__all__ = ["CompressedTensorsW4A16Fp4"]
+
+
+class CompressedTensorsW4A16Fp4(CompressedTensorsScheme):
+
+    def __init__(self):
+        self.group_size = 16
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        # dont restrict as emulations
+        return 80
+
+    def create_weights(self, layer: torch.nn.Module,
+                       output_partition_sizes: List[int],
+                       input_size_per_partition: int,
+                       params_dtype: torch.dtype, weight_loader: Callable,
+                       **kwargs):
+
+        # Weight
+        weight = ModelWeightParameter(data=torch.empty(
+            sum(output_partition_sizes),
+            input_size_per_partition // 2,
+            dtype=torch.uint8),
+                                      input_dim=1,
+                                      output_dim=0,
+                                      weight_loader=weight_loader)
+        layer.register_parameter("weight_packed", weight)
+
+        # Global Weight Scale
+        weight_global_scale = PerTensorScaleParameter(
+            data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+            weight_loader=weight_loader)
+        layer.register_parameter("weight_global_scale", weight_global_scale)
+
+        # Per Group Weight Scale
+        weight_scale = GroupQuantScaleParameter(data=torch.empty(
+            sum(output_partition_sizes),
+            input_size_per_partition // self.group_size,
+            dtype=torch.float8_e4m3fn,
+        ),
+                                                input_dim=1,
+                                                output_dim=0,
+                                                weight_loader=weight_loader)
+
+        layer.register_parameter("weight_scale", weight_scale)
+
+    def swizzle_blockscale(self, scale: torch.tensor):
+        assert (scale.dtype == torch.float8_e4m3fn)
+        # Pad and blockwise interleave weight_scale
+        scale_ndim = scale.ndim
+        if scale.ndim == 2:
+            scale = scale.unsqueeze(0)
+        assert scale.ndim == 3
+        B, M, K = scale.shape
+        round_up_multiple = lambda x, m: (x + m - 1) // m * m
+        M_padded = round_up_multiple(M, 128)
+        K_padded = round_up_multiple(K, 4)
+        padded_scale = torch.zeros((B, M_padded, K_padded), dtype=scale.dtype)
+        padded_scale[:B, :M, :K] = scale
+        batches, rows, cols = padded_scale.shape
+        assert rows % 128 == 0
+        assert cols % 4 == 0
+        padded_scale = padded_scale.reshape(batches, rows // 128, 4, 32,
+                                            cols // 4, 4)
+        swizzled_scale = padded_scale.permute((0, 1, 4, 3, 2, 5))
+        swizzled_scale = swizzled_scale.contiguous().cuda()
+        return (swizzled_scale.reshape(M, K)
+                if scale_ndim == 2 else swizzled_scale.reshape(B, M, K))
+
+    def process_weights_after_loading(self, layer) -> None:
+        layer.weight_global_scale = Parameter(
+            layer.weight_global_scale.max().to(torch.float32),
+            requires_grad=False)
+        # Note: a post weight loading step but not required for the emulation
+        swizzled_weight_scale = self.swizzle_blockscale(layer.weight_scale)
+        layer.weight_scale_swizzled = Parameter(swizzled_weight_scale,
+                                                requires_grad=False)
+
+    def apply_weights(self,
+                      layer: torch.nn.Module,
+                      x: torch.Tensor,
+                      bias: Optional[torch.Tensor] = None) -> torch.Tensor:
+
+        w_fp4 = layer.weight_packed.data
+        w_global_scale = layer.weight_global_scale
+        w_blockscale = layer.weight_scale_swizzled.data
+        w_dq = dequantize_to_dtype(w_fp4, w_blockscale, w_global_scale,
+                                   x.dtype, x.device, self.group_size)
+        out = F.linear(x, w_dq)
+        del w_dq, w_fp4, w_global_scale, w_blockscale
+        return out
diff --git a/vllm/model_executor/layers/quantization/utils/nvfp4_emulation_utils.py b/vllm/model_executor/layers/quantization/utils/nvfp4_emulation_utils.py
new file mode 100644
index 000000000..f29220831
--- /dev/null
+++ b/vllm/model_executor/layers/quantization/utils/nvfp4_emulation_utils.py
@@ -0,0 +1,61 @@
+# SPDX-License-Identifier: Apache-2.0
+import torch
+
+__all__ = [
+    "break_fp4_bytes",
+    "dequantize_to_dtype",
+]
+
+kE2M1ToFloat = torch.tensor([0., 0.5, 1., 1.5, 2., 3., 4., 6.],
+                            dtype=torch.float32)
+
+
+def break_fp4_bytes(a, dtype):
+    assert a.dtype == torch.uint8
+    m, n = a.shape
+    # Vectorized nibble processing
+    a_flat = a.flatten()
+    high = (a_flat & 0xF0) >> 4  # Upper nibbles
+    low = a_flat & 0x0F  # Lower nibbles
+    # Combine nibbles for batch processing
+    combined = torch.stack((low, high), dim=1).flatten()
+    # Vectorized sign and magnitude extraction
+    signs = (combined & 0x08).to(torch.bool)  # Sign bits
+    abs_vals = (combined & 0x07).to(torch.long)
+    # Device-aware lookup and sign application
+    kE2M1 = kE2M1ToFloat.to(device=a.device)
+    values = kE2M1[abs_vals] * torch.where(signs, -1.0, 1.0)
+    # Reshape to final form
+    return values.reshape(m, n * 2).to(dtype=dtype)
+
+
+def convert_swizzled_to_linear(a_sf_swizzled: torch.Tensor, m, k, block_size):
+    m_tiles = (m + 128 - 1) // 128
+    f = block_size * 4
+    k_tiles = (k + f - 1) // f
+    tmp = torch.reshape(a_sf_swizzled, (1, m_tiles, k_tiles, 32, 4, 4))
+    tmp = torch.permute(tmp, (0, 1, 4, 3, 2, 5))
+    out = tmp.reshape(m_tiles * 128, k_tiles * f // block_size)
+    return out[0:m, 0:k]
+
+
+def dequantize_to_dtype(tensor_fp4,
+                        tensor_sf,
+                        global_scale,
+                        dtype,
+                        device,
+                        block_size=16):
+    """Dequantize the fp4 tensor back to high precision."""
+    # Two fp4 values are packed into one uint8.
+    assert tensor_fp4.dtype == torch.uint8
+    m, packed_k = tensor_fp4.shape
+    k = packed_k * 2
+    tensor_f32 = break_fp4_bytes(tensor_fp4, torch.float32)
+    tensor_f32 = tensor_f32.reshape(m, k // block_size, block_size)
+    tensor_sf = tensor_sf.view(torch.float8_e4m3fn)
+    tensor_sf = convert_swizzled_to_linear(tensor_sf, m, k, block_size)
+    tensor_sf_dtype = tensor_sf.to(torch.float32) / global_scale
+
+    # scale the tensor
+    out = (tensor_f32 * tensor_sf_dtype.unsqueeze(-1)).reshape(m, k)
+    return out.to(dtype)
-- 
GitLab


From 06c0922a69c16761949b5a9c4cc1723de1fc25f4 Mon Sep 17 00:00:00 2001
From: Gregory Shtrasberg <156009573+gshtras@users.noreply.github.com>
Date: Sun, 11 May 2025 03:58:45 -0400
Subject: [PATCH 277/461] [FP8][ROCm][Attention] Enable FP8 KV cache on ROCm
 for V1 (#17870)

Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>
---
 .../ops/chunked_prefill_paged_decode.py        |  3 ++-
 vllm/engine/arg_utils.py                       |  4 +++-
 vllm/v1/attention/backends/triton_attn.py      | 18 ++++++++++++------
 3 files changed, 17 insertions(+), 8 deletions(-)

diff --git a/vllm/attention/ops/chunked_prefill_paged_decode.py b/vllm/attention/ops/chunked_prefill_paged_decode.py
index dc039a025..217db3bf9 100644
--- a/vllm/attention/ops/chunked_prefill_paged_decode.py
+++ b/vllm/attention/ops/chunked_prefill_paged_decode.py
@@ -9,6 +9,7 @@
 import torch
 
 from vllm import _custom_ops as ops
+from vllm.platforms import current_platform
 from vllm.platforms.rocm import use_rocm_custom_paged_attention
 from vllm.triton_utils import tl, triton
 
@@ -267,7 +268,7 @@ def chunked_prefill_paged_decode(
         assert value_cache.dtype == torch.uint8
 
         if kv_cache_dtype in ("fp8", "fp8_e4m3"):
-            target_dtype = torch.float8_e4m3fn
+            target_dtype = current_platform.fp8_dtype()
         elif kv_cache_dtype == "fp8_e5m2":
             target_dtype = torch.float8_e5m2
         else:
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index a3b34f4ba..26a5784e8 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1205,7 +1205,9 @@ class EngineArgs:
                 and not envs.is_set("VLLM_ATTENTION_BACKEND")
             ) or envs.VLLM_ATTENTION_BACKEND == "FLASH_ATTN_VLLM_V1"
             supported = False
-            if fp8_attention and will_use_fa:
+            if current_platform.is_rocm():
+                supported = True
+            elif fp8_attention and will_use_fa:
                 from vllm.attention.utils.fa_utils import (
                     flash_attn_supports_fp8)
                 supported = flash_attn_supports_fp8()
diff --git a/vllm/v1/attention/backends/triton_attn.py b/vllm/v1/attention/backends/triton_attn.py
index bb700c8e2..c4922a716 100644
--- a/vllm/v1/attention/backends/triton_attn.py
+++ b/vllm/v1/attention/backends/triton_attn.py
@@ -9,6 +9,7 @@ from vllm.attention.backends.abstract import (AttentionBackend, AttentionImpl,
                                               AttentionMetadata, AttentionType)
 from vllm.attention.ops.triton_unified_attention import unified_attention
 from vllm.logger import init_logger
+from vllm.platforms import current_platform
 from vllm.v1.attention.backends.flash_attn import (
     FlashAttentionMetadata, FlashAttentionMetadataBuilder)
 
@@ -108,6 +109,8 @@ class TritonAttentionImpl(AttentionImpl):
                                       "are not implemented for "
                                       "TritonAttentionImpl")
 
+        self.fp8_dtype = current_platform.fp8_dtype()
+
     def forward(
         self,
         layer: torch.nn.Module,
@@ -161,15 +164,18 @@ class TritonAttentionImpl(AttentionImpl):
         )
 
         if self.kv_cache_dtype.startswith("fp8"):
-            key_cache = key_cache.view(torch.float8_e4m3fn)
-            value_cache = value_cache.view(torch.float8_e4m3fn)
+            key_cache = key_cache.view(self.fp8_dtype)
+            value_cache = value_cache.view(self.fp8_dtype)
             num_tokens, num_heads, head_size = query.shape
             assert layer._q_scale == 1.0, \
                 "A non 1.0 q_scale is not currently supported."
-            query, _ = ops.scaled_fp8_quant(
-                query.reshape(
-                    (num_tokens, num_heads * head_size)).contiguous(),
-                layer._q_scale)
+            if not current_platform.is_rocm():
+                # Skip Q quantization on ROCm, since dequantizing back to
+                # f32 in the attention kernel is not supported.
+                query, _ = ops.scaled_fp8_quant(
+                    query.reshape(
+                        (num_tokens, num_heads * head_size)).contiguous(),
+                    layer._q_scale)
             query = query.reshape((num_tokens, num_heads, head_size))
 
         use_local_attn = \
-- 
GitLab


From e4b8713380cebc6a336d20ee32800d8be3e28877 Mon Sep 17 00:00:00 2001
From: "wang.yuqi" <noooop@126.com>
Date: Sun, 11 May 2025 15:59:43 +0800
Subject: [PATCH 278/461] [New Model]: nomic-embed-text-v2-moe (#17785)

---
 docs/source/models/supported_models.md        |  20 +-
 tests/models/language/pooling/mteb_utils.py   | 111 +++
 tests/models/language/pooling/test_nomic.py   |  47 ++
 .../pooling/test_snowflake_arctic_embed.py    |  65 +-
 tests/models/utils.py                         |   3 +-
 vllm/model_executor/models/bert.py            | 267 +------
 vllm/model_executor/models/bert_with_rope.py  | 652 ++++++++++++++++++
 vllm/model_executor/models/registry.py        |   4 +-
 vllm/model_executor/models/roberta.py         |  94 +--
 9 files changed, 899 insertions(+), 364 deletions(-)
 create mode 100644 tests/models/language/pooling/mteb_utils.py
 create mode 100644 tests/models/language/pooling/test_nomic.py
 create mode 100644 vllm/model_executor/models/bert_with_rope.py

diff --git a/docs/source/models/supported_models.md b/docs/source/models/supported_models.md
index 287947feb..8c6e7b04d 100644
--- a/docs/source/models/supported_models.md
+++ b/docs/source/models/supported_models.md
@@ -622,7 +622,7 @@ Specified using `--task embed`.
   * [PP](#distributed-serving)
 - * `BertModel`
   * BERT-based
-  * `BAAI/bge-base-en-v1.5`, etc.
+  * `BAAI/bge-base-en-v1.5`, `Snowflake/snowflake-arctic-embed-xs`, etc.
   *
   *
 - * `Gemma2Model`
@@ -635,6 +635,16 @@ Specified using `--task embed`.
   * `parasail-ai/GritLM-7B-vllm`.
   * ✅︎
   * ✅︎
+- * `GteModel`
+  * GteModel
+  * `Snowflake/snowflake-arctic-embed-m-v2.0`.
+  *
+  * ︎
+- * `NomicBertModel`
+  * NomicBertModel
+  * `nomic-ai/nomic-embed-text-v1`, `nomic-ai/nomic-embed-text-v2-moe`, `Snowflake/snowflake-arctic-embed-m-long`, etc.
+  * ︎
+  * ︎
 - * `LlamaModel`, `LlamaForCausalLM`, `MistralModel`, etc.
   * Llama-based
   * `intfloat/e5-mistral-7b-instruct`, etc.
@@ -647,12 +657,12 @@ Specified using `--task embed`.
   * ✅︎
 - * `RobertaModel`, `RobertaForMaskedLM`
   * RoBERTa-based
-  * `sentence-transformers/all-roberta-large-v1`, `sentence-transformers/all-roberta-large-v1`, etc.
+  * `sentence-transformers/all-roberta-large-v1`, etc.
   *
   *
 - * `XLMRobertaModel`
   * XLM-RoBERTa-based
-  * `intfloat/multilingual-e5-large`, `jinaai/jina-reranker-v2-base-multilingual`, etc.
+  * `intfloat/multilingual-e5-large`, `jinaai/jina-reranker-v2-base-multilingual`, `Snowflake/snowflake-arctic-embed-l-v2.0`, `jinaai/jina-embeddings-v3`(see note), etc.
   *
   *
 :::
@@ -670,6 +680,10 @@ For both the 1.5B and 7B variants, you also need to enable `--trust-remote-code`
 See [relevant issue on HF Transformers](https://github.com/huggingface/transformers/issues/34882).
 :::
 
+:::{note}
+`jinaai/jina-embeddings-v3` supports multiple tasks through lora, while vllm temporarily only supports text-matching tasks by merging lora weights.
+:::
+
 If your model is not in the above list, we will try to automatically convert the model using
 {func}`~vllm.model_executor.models.adapters.as_embedding_model`. By default, the embeddings
 of the whole prompt are extracted from the normalized hidden state corresponding to the last token.
diff --git a/tests/models/language/pooling/mteb_utils.py b/tests/models/language/pooling/mteb_utils.py
new file mode 100644
index 000000000..eedf310d0
--- /dev/null
+++ b/tests/models/language/pooling/mteb_utils.py
@@ -0,0 +1,111 @@
+# SPDX-License-Identifier: Apache-2.0
+import math
+from collections.abc import Sequence
+
+import mteb
+import numpy as np
+import pytest
+
+from tests.models.utils import EmbedModelInfo
+
+# Most models on the STS12 task (See #17175):
+# - Model implementation and minor changes in tensor dtype
+#   results in differences less than 1e-4
+# - Different model results in differences more than 1e-3
+# 1e-4 is a good tolerance threshold
+MTEB_EMBED_TASKS = ["STS12"]
+MTEB_EMBED_TOL = 1e-4
+
+
+class VllmMtebEncoder(mteb.Encoder):
+
+    def __init__(self, vllm_model):
+        super().__init__()
+        self.model = vllm_model
+        self.rng = np.random.default_rng(seed=42)
+
+    def encode(
+        self,
+        sentences: Sequence[str],
+        *args,
+        **kwargs,
+    ) -> np.ndarray:
+        # Hoping to discover potential scheduling
+        # issues by randomizing the order.
+        r = self.rng.permutation(len(sentences))
+        sentences = [sentences[i] for i in r]
+        outputs = self.model.encode(sentences, use_tqdm=False)
+        embeds = np.array(outputs)
+        embeds = embeds[np.argsort(r)]
+        return embeds
+
+
+class OpenAIClientMtebEncoder(mteb.Encoder):
+
+    def __init__(self, model_name: str, client):
+        super().__init__()
+        self.model_name = model_name
+        self.client = client
+        self.rng = np.random.default_rng(seed=42)
+
+    def encode(self, sentences: Sequence[str], *args, **kwargs) -> np.ndarray:
+        # Hoping to discover potential scheduling
+        # issues by randomizing the order.
+        r = self.rng.permutation(len(sentences))
+        sentences = [sentences[i] for i in r]
+
+        embeddings = self.client.embeddings.create(model=self.model_name,
+                                                   input=sentences)
+        outputs = [d.embedding for d in embeddings.data]
+        embeds = np.array(outputs)
+        embeds = embeds[np.argsort(r)]
+        return embeds
+
+
+def run_mteb_embed_task(encoder, tasks):
+    tasks = mteb.get_tasks(tasks=tasks)
+    evaluation = mteb.MTEB(tasks=tasks)
+    results = evaluation.run(encoder, verbosity=0, output_folder=None)
+
+    main_score = results[0].scores["test"][0]["main_score"]
+    return main_score
+
+
+def run_mteb_embed_task_st(model_name, tasks):
+    from sentence_transformers import SentenceTransformer
+    model = SentenceTransformer(model_name)
+    return run_mteb_embed_task(model, tasks)
+
+
+def mteb_test_embed_models(hf_runner, vllm_runner, model_info: EmbedModelInfo):
+    if not model_info.enable_test:
+        # A model family has many models with the same architecture,
+        # and we don't need to test each one.
+        pytest.skip("Skipping test.")
+
+    with vllm_runner(model_info.name,
+                     task="embed",
+                     max_model_len=None,
+                     dtype=model_info.dtype) as vllm_model:
+
+        if model_info.architecture:
+            assert (model_info.architecture
+                    in vllm_model.model.llm_engine.model_config.architectures)
+
+        vllm_main_score = run_mteb_embed_task(VllmMtebEncoder(vllm_model),
+                                              MTEB_EMBED_TASKS)
+        vllm_dtype = vllm_model.model.llm_engine.model_config.dtype
+        model_dtype = getattr(
+            vllm_model.model.llm_engine.model_config.hf_config, "torch_dtype",
+            vllm_dtype)
+
+    with hf_runner(model_info.name,
+                   is_sentence_transformer=True,
+                   dtype=model_dtype) as hf_model:
+        st_main_score = run_mteb_embed_task(hf_model, MTEB_EMBED_TASKS)
+
+    print("VLLM:", vllm_dtype, vllm_main_score)
+    print("SentenceTransformer:", model_dtype, st_main_score)
+    print("Difference:", st_main_score - vllm_main_score)
+
+    assert math.isclose(st_main_score, vllm_main_score, rel_tol=MTEB_EMBED_TOL)
diff --git a/tests/models/language/pooling/test_nomic.py b/tests/models/language/pooling/test_nomic.py
new file mode 100644
index 000000000..f1ed0d494
--- /dev/null
+++ b/tests/models/language/pooling/test_nomic.py
@@ -0,0 +1,47 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import pytest
+
+from ...utils import EmbedModelInfo, run_embedding_correctness_test
+
+MODELS = [
+    EmbedModelInfo("nomic-ai/nomic-embed-text-v1",
+                   architecture="NomicBertModel",
+                   dtype="float32",
+                   enable_test=True),
+    EmbedModelInfo("nomic-ai/nomic-embed-text-v1.5",
+                   architecture="NomicBertModel",
+                   dtype="float32",
+                   enable_test=False),
+    EmbedModelInfo("nomic-ai/nomic-embed-text-v2-moe",
+                   architecture="NomicBertModel",
+                   dtype="float32",
+                   enable_test=True)
+]
+
+
+@pytest.mark.parametrize("model_info", MODELS)
+def test_models_mteb(hf_runner, vllm_runner,
+                     model_info: EmbedModelInfo) -> None:
+    from .mteb_utils import mteb_test_embed_models
+    mteb_test_embed_models(hf_runner, vllm_runner, model_info)
+
+
+@pytest.mark.parametrize("model_info", MODELS)
+def test_models_correctness(hf_runner, vllm_runner, model_info: EmbedModelInfo,
+                            example_prompts) -> None:
+    if not model_info.enable_test:
+        pytest.skip("Skipping test.")
+
+    with vllm_runner(model_info.name,
+                     task="embed",
+                     dtype=model_info.dtype,
+                     max_model_len=None) as vllm_model:
+        vllm_outputs = vllm_model.encode(example_prompts)
+
+    with hf_runner(
+            model_info.name,
+            dtype=model_info.dtype,
+            is_sentence_transformer=True,
+    ) as hf_model:
+        run_embedding_correctness_test(hf_model, example_prompts, vllm_outputs)
diff --git a/tests/models/language/pooling/test_snowflake_arctic_embed.py b/tests/models/language/pooling/test_snowflake_arctic_embed.py
index c050b35b7..c68aa008e 100644
--- a/tests/models/language/pooling/test_snowflake_arctic_embed.py
+++ b/tests/models/language/pooling/test_snowflake_arctic_embed.py
@@ -1,12 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
-import pytest
 
-from ...utils import EmbedModelInfo, check_embeddings_close
+import pytest
 
-EMBEDDING_PROMPTS = [
-    'what is snowflake?', 'Where can I get the best tacos?', 'The Data Cloud!',
-    'Mexico City of Course!'
-]
+from ...utils import EmbedModelInfo, run_embedding_correctness_test
 
 MODELS = [
     EmbedModelInfo("Snowflake/snowflake-arctic-embed-xs",
@@ -45,51 +41,34 @@ MODELS = [
 
 
 @pytest.mark.parametrize("model_info", MODELS)
-@pytest.mark.parametrize("dtype", ["half"])
-def test_models(
+def test_models_mteb(
     hf_runner,
     vllm_runner,
-    example_prompts,
     model_info: EmbedModelInfo,
-    dtype: str,
-    monkeypatch,
 ) -> None:
-    if not model_info.enable_test:
-        # A model family has many models with the same architecture,
-        # and we don't need to test each one.
-        pytest.skip("Skipping test.")
-
-    example_prompts = example_prompts + EMBEDDING_PROMPTS
+    from .mteb_utils import mteb_test_embed_models
+    mteb_test_embed_models(hf_runner, vllm_runner, model_info)
 
-    vllm_extra_kwargs = {
-        "hf_overrides": {
-            "is_matryoshka": model_info.is_matryoshka
-        }
-    }
 
-    with hf_runner(model_info.name, dtype=dtype,
-                   is_sentence_transformer=True) as hf_model:
-        hf_outputs = hf_model.encode(example_prompts)
+@pytest.mark.parametrize("model_info", MODELS)
+def test_models_correctness(
+    hf_runner,
+    vllm_runner,
+    model_info: EmbedModelInfo,
+    example_prompts,
+) -> None:
+    if not model_info.enable_test:
+        pytest.skip("Skipping test.")
 
     with vllm_runner(model_info.name,
                      task="embed",
-                     dtype=dtype,
-                     max_model_len=None,
-                     **vllm_extra_kwargs) as vllm_model:
-
-        assert (vllm_model.model.llm_engine.model_config.is_matryoshka ==
-                model_info.is_matryoshka)
-
-        if model_info.architecture:
-            assert (model_info.architecture
-                    in vllm_model.model.llm_engine.model_config.architectures)
-
+                     dtype=model_info.dtype,
+                     max_model_len=None) as vllm_model:
         vllm_outputs = vllm_model.encode(example_prompts)
 
-    check_embeddings_close(
-        embeddings_0_lst=hf_outputs,
-        embeddings_1_lst=vllm_outputs,
-        name_0="hf",
-        name_1="vllm",
-        tol=1e-2,
-    )
+    with hf_runner(
+            model_info.name,
+            dtype=model_info.dtype,
+            is_sentence_transformer=True,
+    ) as hf_model:
+        run_embedding_correctness_test(hf_model, example_prompts, vllm_outputs)
diff --git a/tests/models/utils.py b/tests/models/utils.py
index bb87863d0..a43fd77c6 100644
--- a/tests/models/utils.py
+++ b/tests/models/utils.py
@@ -332,9 +332,10 @@ def matryoshka_fy(tensor: torch.Tensor, dimensions: int):
 
 class EmbedModelInfo(NamedTuple):
     name: str
-    is_matryoshka: bool
+    is_matryoshka: bool = False
     matryoshka_dimensions: Optional[list[int]] = None
     architecture: str = ""
+    dtype: str = "auto"
     enable_test: bool = True
 
 
diff --git a/vllm/model_executor/models/bert.py b/vllm/model_executor/models/bert.py
index 76a529c93..111b49ab8 100644
--- a/vllm/model_executor/models/bert.py
+++ b/vllm/model_executor/models/bert.py
@@ -11,16 +11,13 @@ from vllm.compilation.decorators import support_torch_compile
 from vllm.config import CacheConfig, PoolerConfig, VllmConfig
 from vllm.distributed import get_tensor_model_parallel_world_size
 from vllm.forward_context import get_forward_context
-from vllm.model_executor.layers.activation import (get_act_and_mul_fn,
-                                                   get_act_fn)
+from vllm.model_executor.layers.activation import get_act_fn
 from vllm.model_executor.layers.linear import (ColumnParallelLinear,
-                                               MergedColumnParallelLinear,
                                                QKVParallelLinear,
                                                RowParallelLinear)
 from vllm.model_executor.layers.pooler import (CrossEncodingPooler, Pooler,
                                                PoolingType)
 from vllm.model_executor.layers.quantization import QuantizationConfig
-from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
     VocabParallelEmbedding)
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
@@ -41,24 +38,19 @@ class BertEmbedding(nn.Module):
         self.size = config.hidden_size
         self.word_embeddings = VocabParallelEmbedding(config.vocab_size,
                                                       config.hidden_size)
-
+        self.position_embeddings = VocabParallelEmbedding(
+            config.max_position_embeddings, config.hidden_size)
         self.token_type_embeddings = VocabParallelEmbedding(
             config.type_vocab_size, config.hidden_size)
         self.LayerNorm = nn.LayerNorm(config.hidden_size,
                                       eps=config.layer_norm_eps)
+        self.position_ids = nn.Parameter(
+            torch.empty((1, config.max_position_embeddings)), )
 
         self.position_embedding_type = config.position_embedding_type
-        if self.position_embedding_type == "absolute":
-            self.position_embeddings = VocabParallelEmbedding(
-                config.max_position_embeddings, config.hidden_size)
-            self.position_ids = nn.Parameter(
-                torch.empty((1, config.max_position_embeddings)), )
-        elif self.position_embedding_type == "rotary":
-            self.position_embeddings = None
-            self.position_ids = None
-        else:
-            raise ValueError("Only 'absolute' and 'rotary' " +
-                             "position_embedding_type is supported")
+        if self.position_embedding_type != "absolute":
+            raise ValueError("Only 'absolute' position_embedding_type" +
+                             " is supported")
 
     def forward(
         self,
@@ -72,6 +64,9 @@ class BertEmbedding(nn.Module):
         # Input embeddings.
         inputs_embeds = self.word_embeddings(input_ids)
 
+        # Position embeddings.
+        position_embeddings = self.position_embeddings(position_ids)
+
         if token_type_ids is None:
             token_type_ids = torch.zeros(input_shape,
                                          dtype=torch.long,
@@ -79,12 +74,7 @@ class BertEmbedding(nn.Module):
 
         token_type_embeddings = self.token_type_embeddings(token_type_ids)
 
-        embeddings = inputs_embeds + token_type_embeddings
-
-        if self.position_embedding_type == "absolute":
-            position_embeddings = self.position_embeddings(position_ids)
-            embeddings += position_embeddings
-
+        embeddings = inputs_embeds + token_type_embeddings + position_embeddings
         embeddings = self.LayerNorm(embeddings)
         return embeddings
 
@@ -108,11 +98,7 @@ class BertPooler(nn.Module):
 @support_torch_compile
 class BertEncoder(nn.Module):
 
-    def __init__(self,
-                 vllm_config: VllmConfig,
-                 bias: bool = True,
-                 rotary_kwargs: Optional[dict] = None,
-                 prefix: str = ""):
+    def __init__(self, vllm_config: VllmConfig, prefix: str = ""):
         super().__init__()
         config = vllm_config.model_config.hf_config
         cache_config = vllm_config.cache_config
@@ -121,19 +107,16 @@ class BertEncoder(nn.Module):
             BertLayer(config=config,
                       cache_config=cache_config,
                       quant_config=quant_config,
-                      bias=bias,
-                      rotary_kwargs=rotary_kwargs,
                       prefix=f"{prefix}.layer.{layer_idx}")
             for layer_idx in range(config.num_hidden_layers)
         ])
 
     def forward(
         self,
-        positions: torch.Tensor,
         hidden_states: torch.Tensor,
     ) -> torch.Tensor:
         for layer in self.layer:
-            hidden_states = layer(positions, hidden_states)
+            hidden_states = layer(hidden_states)
         return hidden_states
 
 
@@ -143,8 +126,6 @@ class BertLayer(nn.Module):
                  config: BertConfig,
                  cache_config: Optional[CacheConfig] = None,
                  quant_config: Optional[QuantizationConfig] = None,
-                 bias: bool = True,
-                 rotary_kwargs: Optional[dict] = None,
                  prefix: str = ""):
         super().__init__()
 
@@ -154,36 +135,23 @@ class BertLayer(nn.Module):
             layer_norm_eps=config.layer_norm_eps,
             cache_config=cache_config,
             quant_config=quant_config,
-            bias=bias,
-            rotary_kwargs=rotary_kwargs,
             prefix=f"{prefix}.attention")
 
-        if config.hidden_act in ["silu", "gelu_and_mul"]:
-            self.intermediate = BertGatedIntermediate(
-                hidden_size=config.hidden_size,
-                intermediate_size=config.intermediate_size,
-                hidden_act=config.hidden_act,
-                bias=bias,
-                quant_config=quant_config,
-                prefix=f"{prefix}.intermediate")
-        else:
-            self.intermediate = BertIntermediate(
-                hidden_size=config.hidden_size,
-                intermediate_size=config.intermediate_size,
-                hidden_act=config.hidden_act,
-                bias=bias,
-                quant_config=quant_config,
-                prefix=f"{prefix}.intermediate")
+        self.intermediate = BertIntermediate(
+            hidden_size=config.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            prefix=f"{prefix}.intermediate")
 
         self.output = BertOutput(hidden_size=config.hidden_size,
                                  intermediate_size=config.intermediate_size,
                                  layer_norm_eps=config.layer_norm_eps,
-                                 bias=bias,
                                  quant_config=quant_config,
                                  prefix=f"{prefix}.output")
 
-    def forward(self, positions: torch.Tensor, hidden_states: torch.Tensor):
-        attn_output = self.attention(positions, hidden_states)
+    def forward(self, hidden_states: torch.Tensor):
+        attn_output = self.attention(hidden_states)
         intermediate_output = self.intermediate(attn_output)
         output = self.output(intermediate_output, attn_output)
         return output
@@ -198,8 +166,6 @@ class BertAttention(nn.Module):
         layer_norm_eps: float,
         cache_config: Optional[CacheConfig] = None,
         quant_config: Optional[QuantizationConfig] = None,
-        bias: bool = True,
-        rotary_kwargs: Optional[dict] = None,
         prefix: str = "",
     ):
         super().__init__()
@@ -208,22 +174,18 @@ class BertAttention(nn.Module):
                                       num_attention_heads=num_attention_heads,
                                       cache_config=cache_config,
                                       quant_config=quant_config,
-                                      bias=bias,
-                                      rotary_kwargs=rotary_kwargs,
                                       prefix=f"{prefix}.output")
 
         self.output = BertSelfOutput(hidden_size=hidden_size,
                                      layer_norm_eps=layer_norm_eps,
-                                     bias=bias,
                                      quant_config=quant_config,
                                      prefix=f"{prefix}.output")
 
     def forward(
         self,
-        positions: torch.Tensor,
         hidden_states: torch.Tensor,
     ) -> torch.Tensor:
-        self_output = self.self(positions, hidden_states)
+        self_output = self.self(hidden_states)
         return self.output(self_output, hidden_states)
 
 
@@ -235,8 +197,6 @@ class BertSelfAttention(nn.Module):
         num_attention_heads: int,
         cache_config: Optional[CacheConfig] = None,
         quant_config: Optional[QuantizationConfig] = None,
-        bias: bool = True,
-        rotary_kwargs: Optional[dict] = None,
         prefix: str = "",
     ):
         super().__init__()
@@ -261,15 +221,10 @@ class BertSelfAttention(nn.Module):
             head_size=self.head_dim,
             total_num_heads=self.total_num_heads,
             total_num_kv_heads=self.total_num_kv_heads,
-            bias=bias,
+            bias=True,
             quant_config=quant_config,
             prefix=f"{prefix}.qkv_proj")
 
-        if rotary_kwargs:
-            self.rotary_emb = get_rope(**rotary_kwargs)
-        else:
-            self.rotary_emb = None
-
         self.attn = Attention(num_heads=self.num_heads,
                               head_size=self.head_dim,
                               scale=self.scaling,
@@ -281,15 +236,10 @@ class BertSelfAttention(nn.Module):
 
     def forward(
         self,
-        positions: torch.Tensor,
         hidden_states: torch.Tensor,
     ) -> torch.Tensor:
         qkv, _ = self.qkv_proj(hidden_states)
         q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
-
-        if self.rotary_emb:
-            q, k = self.rotary_emb(positions, q, k)
-
         output = self.attn(q, k, v)
         return output
 
@@ -299,13 +249,12 @@ class BertSelfOutput(nn.Module):
     def __init__(self,
                  hidden_size: int,
                  layer_norm_eps: float,
-                 bias: bool = True,
                  quant_config: Optional[QuantizationConfig] = None,
                  prefix: str = ""):
         super().__init__()
         self.dense = RowParallelLinear(input_size=hidden_size,
                                        output_size=hidden_size,
-                                       bias=bias,
+                                       bias=True,
                                        quant_config=quant_config,
                                        prefix=f"{prefix}.dense")
         self.LayerNorm = nn.LayerNorm(hidden_size, eps=layer_norm_eps)
@@ -323,13 +272,12 @@ class BertIntermediate(nn.Module):
                  hidden_size: int,
                  intermediate_size: int,
                  hidden_act: str,
-                 bias: bool = True,
                  quant_config: Optional[QuantizationConfig] = None,
                  prefix: str = ""):
         super().__init__()
         self.dense = ColumnParallelLinear(input_size=hidden_size,
                                           output_size=intermediate_size,
-                                          bias=bias,
+                                          bias=True,
                                           quant_config=quant_config,
                                           prefix=f"{prefix}.dense")
         self.intermediate_act_fn = get_act_fn(hidden_act)
@@ -340,46 +288,19 @@ class BertIntermediate(nn.Module):
         return hidden_states
 
 
-class BertGatedIntermediate(nn.Module):
-    # for NomciBert and GteModel
-
-    def __init__(self,
-                 hidden_size: int,
-                 intermediate_size: int,
-                 hidden_act: str,
-                 bias: bool = True,
-                 quant_config: Optional[QuantizationConfig] = None,
-                 prefix: str = ""):
-        super().__init__()
-        self.act_fn = get_act_and_mul_fn(hidden_act)
-        self.gate_up_proj = MergedColumnParallelLinear(
-            hidden_size,
-            [intermediate_size] * 2,
-            bias=bias,
-            quant_config=quant_config,
-            prefix=f"{prefix}.gate_up_proj",
-        )
-
-    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
-        gate_up, _ = self.gate_up_proj(hidden_states)
-        hidden_states = self.act_fn(gate_up)
-        return hidden_states
-
-
 class BertOutput(nn.Module):
 
     def __init__(self,
                  hidden_size: int,
                  intermediate_size: int,
                  layer_norm_eps: float,
-                 bias: bool = True,
                  quant_config: Optional[QuantizationConfig] = None,
                  prefix: str = ""):
         super().__init__()
 
         self.dense = RowParallelLinear(input_size=intermediate_size,
                                        output_size=hidden_size,
-                                       bias=bias,
+                                       bias=True,
                                        quant_config=quant_config,
                                        prefix=f"{prefix}.dense")
 
@@ -393,33 +314,18 @@ class BertOutput(nn.Module):
 
 
 class BertModel(nn.Module, SupportsQuant):
-    packed_modules_mapping = {
-        "qkv_proj": ["query", "key", "value"],
-        "gate_up_proj": [
-            "gate_proj",
-            "up_proj",
-        ],
-    }
+    packed_modules_mapping = {"qkv_proj": ["query", "key", "value"]}
 
     def __init__(self,
                  *,
                  vllm_config: VllmConfig,
                  prefix: str = "",
                  embedding_class: type = BertEmbedding,
-                 bias: bool = True,
-                 rotary_kwargs: Optional[dict] = None,
                  add_pooling_layer: bool = False):
         super().__init__()
-        """
-        For BertModel, all linear layers have bias.
-        For NomicBertModel, all linear layers do not have bias.
-        """
-
         config = vllm_config.model_config.hf_config
         self.embeddings = embedding_class(config)
         self.encoder = BertEncoder(vllm_config=vllm_config,
-                                   bias=bias,
-                                   rotary_kwargs=rotary_kwargs,
                                    prefix=f"{prefix}.encoder")
         self.pooler = BertPooler(config) if add_pooling_layer else None
 
@@ -441,7 +347,7 @@ class BertModel(nn.Module, SupportsQuant):
                 seq_lens=attn_metadata.seq_lens_tensor,
                 position_ids=position_ids,
                 token_type_ids=token_type_ids)
-        return self.encoder(position_ids, hidden_states)
+        return self.encoder(hidden_states)
 
     def load_weights(self, weights: Iterable[Tuple[str,
                                                    torch.Tensor]]) -> Set[str]:
@@ -450,8 +356,6 @@ class BertModel(nn.Module, SupportsQuant):
             ("qkv_proj", "query", "q"),
             ("qkv_proj", "key", "k"),
             ("qkv_proj", "value", "v"),
-            ("gate_up_proj", "gate_proj", 0),
-            ("gate_up_proj", "up_proj", 1),
         ]
 
         params_dict = dict(self.named_parameters())
@@ -497,7 +401,6 @@ class BertEmbeddingModel(nn.Module, SupportsV0Only, SupportsQuant):
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         super().__init__()
         pooler_config = vllm_config.model_config.pooler_config
-        self.config = vllm_config.model_config.hf_config
         self.model = self._build_model(vllm_config=vllm_config,
                                        prefix=maybe_prefix(prefix, "model"))
         self._pooler = self._build_pooler(pooler_config)
@@ -611,115 +514,3 @@ class BertForSequenceClassification(nn.Module, SupportsCrossEncoding,
                          inputs_embeds=inputs_embeds,
                          intermediate_tensors=intermediate_tensors,
                          token_type_ids=token_type_ids)
-
-
-class NomicBertEmbeddingModel(BertEmbeddingModel):
-
-    hf_to_vllm_mapper = WeightsMapper(
-        orig_to_new_substr={
-            "emb_ln": "embeddings.LayerNorm",
-            "layers": "layer",
-            "attn.Wqkv": "attention.self.qkv_proj",
-            "attn.out_proj": "attention.output.dense",
-            'norm1': "attention.output.LayerNorm",
-            'mlp.fc11': "intermediate.up_proj",
-            'mlp.fc12': "intermediate.gate_proj",
-            'mlp.fc2': "output.dense",
-            'norm2': "output.LayerNorm",
-        })
-
-    def _build_model(self,
-                     vllm_config: VllmConfig,
-                     prefix: str = "") -> BertModel:
-        config = vllm_config.model_config.hf_config
-
-        assert config.__class__.__name__ == "NomicBertConfig"
-        assert config.activation_function == "swiglu"
-
-        # Assume NomicBertModel all linear layers do not have bias
-        assert not config.mlp_fc1_bias
-        assert not config.mlp_fc2_bias
-        assert not config.qkv_proj_bias
-
-        config.layer_norm_eps = config.layer_norm_epsilon
-        config.position_embedding_type = "rotary"
-        config.intermediate_size = config.n_inner
-        config.hidden_act = "silu"
-        config.hidden_size = config.n_embd
-        config.num_hidden_layers = config.n_layer
-
-        head_dim = config.hidden_size // config.num_attention_heads
-        rotary_kwargs = {
-            "head_size": head_dim,
-            "rotary_dim": getattr(config, "rotary_emb_dim", head_dim),
-            "max_position": config.max_trained_positions,
-            "base": config.rotary_emb_base,
-            "rope_scaling": {
-                "rope_type": "dynamic",
-                "factor": config.rotary_scaling_factor
-            }
-        }
-
-        return BertModel(vllm_config=vllm_config,
-                         prefix=prefix,
-                         bias=False,
-                         rotary_kwargs=rotary_kwargs,
-                         embedding_class=BertEmbedding)
-
-
-class GteEmbeddingModel(BertEmbeddingModel):
-    hf_to_vllm_mapper = WeightsMapper(
-        orig_to_new_substr={
-            "attention.qkv_proj": "attention.self.qkv_proj",
-            "attention.o_proj": "attention.output.dense",
-            'attn_ln': "attention.output.LayerNorm",
-            'mlp.down_proj': "output.dense",
-            'mlp_ln': "output.LayerNorm",
-        })
-
-    def _build_model(self,
-                     vllm_config: VllmConfig,
-                     prefix: str = "") -> BertModel:
-        config = vllm_config.model_config.hf_config
-
-        assert config.__class__.__name__ == "GteConfig"
-        assert config.position_embedding_type == "rope"
-        assert config.hidden_act == "gelu"
-
-        config.position_embedding_type = "rotary"
-        config.hidden_act = "gelu_and_mul"
-
-        head_dim = config.hidden_size // config.num_attention_heads
-        rotary_kwargs = {
-            "head_size": head_dim,
-            "rotary_dim": getattr(config, "rotary_emb_dim", head_dim),
-            "max_position": config.max_position_embeddings,
-            "base": config.rope_theta,
-        }
-
-        model = BertModel(vllm_config=vllm_config,
-                          prefix=prefix,
-                          rotary_kwargs=rotary_kwargs,
-                          embedding_class=BertEmbedding)
-
-        # GteModel only gate_up_proj does not have bias.
-        # Hack method learned from vllm/model_executor/models/glm.py
-        for layer in model.encoder.layer:
-            layer.intermediate.gate_up_proj.bias = None
-            layer.intermediate.skip_bias_add = True
-        return model
-
-    def split_up_gate_proj(self, weights: Iterable[Tuple[str, torch.Tensor]]):
-        n = "mlp.up_gate_proj"
-        for name, weight in weights:
-            if n in name:
-                up, gate = weight.chunk(2, dim=0)
-                yield name.replace(n, "intermediate.up_proj"), up
-                yield name.replace(n, "intermediate.gate_proj"), gate
-            else:
-                yield name, weight
-
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
-        weights = self.hf_to_vllm_mapper.apply(weights)
-        weights = self.split_up_gate_proj(weights)
-        self.model.load_weights(weights)
diff --git a/vllm/model_executor/models/bert_with_rope.py b/vllm/model_executor/models/bert_with_rope.py
new file mode 100644
index 000000000..05cd84748
--- /dev/null
+++ b/vllm/model_executor/models/bert_with_rope.py
@@ -0,0 +1,652 @@
+# SPDX-License-Identifier: Apache-2.0
+from typing import Iterable, Optional, Set, Tuple
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention, AttentionType
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import (get_act_and_mul_fn,
+                                                   get_act_fn)
+from vllm.model_executor.layers.linear import (ColumnParallelLinear,
+                                               MergedColumnParallelLinear,
+                                               QKVParallelLinear,
+                                               ReplicatedLinear,
+                                               RowParallelLinear)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    VocabParallelEmbedding)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models import SupportsV0Only
+from vllm.model_executor.models.interfaces import SupportsQuant
+from vllm.model_executor.models.utils import WeightsMapper
+from vllm.sequence import IntermediateTensors
+
+
+class BertWithRopeEmbedding(nn.Module):
+
+    def __init__(self, config: PretrainedConfig):
+
+        super().__init__()
+        assert config.type_vocab_size > 0
+        self.word_embeddings = VocabParallelEmbedding(config.vocab_size,
+                                                      config.hidden_size)
+        self.token_type_embeddings = VocabParallelEmbedding(
+            config.type_vocab_size, config.hidden_size)
+        self.LayerNorm = nn.LayerNorm(config.hidden_size,
+                                      eps=config.layer_norm_eps)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        token_type_ids: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        input_shape = input_ids.size()
+        inputs_embeds = self.word_embeddings(input_ids)
+        if token_type_ids is None:
+            token_type_ids = torch.zeros(input_shape,
+                                         dtype=torch.long,
+                                         device=inputs_embeds.device)
+
+        token_type_embeddings = self.token_type_embeddings(token_type_ids)
+        embeddings = inputs_embeds + token_type_embeddings
+        embeddings = self.LayerNorm(embeddings)
+        return embeddings
+
+
+class BertWithRopeAttention(nn.Module):
+
+    def __init__(
+        self,
+        hidden_size: int,
+        num_attention_heads: int,
+        cache_config: Optional[CacheConfig] = None,
+        quant_config: Optional[QuantizationConfig] = None,
+        bias: bool = True,
+        rotary_kwargs: Optional[dict] = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+
+        self.total_num_heads = num_attention_heads
+        assert self.total_num_heads % tp_size == 0
+
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = self.total_num_heads
+        self.head_dim = self.hidden_size // self.total_num_heads
+        assert self.head_dim * self.total_num_heads == self.hidden_size
+
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=self.hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj")
+
+        self.rotary_emb = get_rope(**rotary_kwargs)
+
+        self.attn = Attention(num_heads=self.num_heads,
+                              head_size=self.head_dim,
+                              scale=self.scaling,
+                              num_kv_heads=self.num_kv_heads,
+                              cache_config=cache_config,
+                              quant_config=quant_config,
+                              prefix=f"{prefix}.attn",
+                              attn_type=AttentionType.ENCODER_ONLY)
+
+        self.out_proj = RowParallelLinear(input_size=hidden_size,
+                                          output_size=hidden_size,
+                                          bias=bias,
+                                          quant_config=quant_config,
+                                          prefix=f"{prefix}.dense")
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.out_proj(attn_output)
+        return output
+
+
+class BertWithRopeGatedMLP(nn.Module):
+
+    def __init__(self,
+                 hidden_size: int,
+                 intermediate_size: int,
+                 hidden_act: str,
+                 bias: bool = True,
+                 quant_config: Optional[QuantizationConfig] = None,
+                 prefix: str = ""):
+        super().__init__()
+        self.act_fn = get_act_and_mul_fn(hidden_act)
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(input_size=intermediate_size,
+                                           output_size=hidden_size,
+                                           bias=bias,
+                                           quant_config=quant_config,
+                                           prefix=f"{prefix}.down_proj")
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        gate_up, _ = self.gate_up_proj(hidden_states)
+        hidden_states = self.act_fn(gate_up)
+        hidden_states, _ = self.down_proj(hidden_states)
+        return hidden_states
+
+
+class BertWithRopeMLP(nn.Module):
+
+    def __init__(self,
+                 hidden_size: int,
+                 intermediate_size: int,
+                 hidden_act: str,
+                 bias: bool = True,
+                 quant_config: Optional[QuantizationConfig] = None,
+                 prefix: str = ""):
+        super().__init__()
+        self.act_fn = get_act_fn(hidden_act)
+        self.up_proj = ColumnParallelLinear(input_size=hidden_size,
+                                            output_size=intermediate_size,
+                                            bias=bias,
+                                            quant_config=quant_config,
+                                            prefix=f"{prefix}.up_proj")
+        self.down_proj = RowParallelLinear(input_size=intermediate_size,
+                                           output_size=hidden_size,
+                                           bias=bias,
+                                           quant_config=quant_config,
+                                           prefix=f"{prefix}.down_proj")
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.up_proj(hidden_states)
+        hidden_states = self.act_fn(hidden_states)
+        hidden_states, _ = self.down_proj(hidden_states)
+        return hidden_states
+
+
+class NomicRouter(nn.Module):
+
+    def __init__(self, hidden_size: int, moe_num_experts: int, moe_top_k: int):
+        super().__init__()
+        self.moe_top_k = moe_top_k
+        self.layer = ReplicatedLinear(hidden_size, moe_num_experts, bias=False)
+
+    def forward(
+        self, x: torch.Tensor
+    ) -> Tuple[torch.Tensor, torch.Tensor, torch.LongTensor]:
+        weights = self.layer(x.view(-1, x.shape[-1]))[0].softmax(
+            dim=-1, dtype=torch.float32)
+        top_weights, top_experts = torch.topk(weights, self.moe_top_k, dim=-1)
+        weights = weights.to(x.dtype)
+        top_weights = top_weights.to(x.dtype)
+        return weights, top_weights, top_experts  # type: ignore
+
+
+class NomicExpertMLP(nn.Module):
+
+    def __init__(self, hidden_size: int, ffn_hidden_size: int,
+                 moe_num_experts: int, ffn_act_fn: str):
+        super().__init__()
+        self.hidden_size = hidden_size
+        self.ffn_hidden_size = ffn_hidden_size
+        self.moe_num_experts = moe_num_experts
+
+        self.w1 = nn.Parameter(
+            torch.empty(moe_num_experts * ffn_hidden_size, hidden_size))
+        self.w2 = nn.Parameter(
+            torch.empty(moe_num_experts * ffn_hidden_size, hidden_size))
+        self.activation_fn = get_act_fn(ffn_act_fn)
+
+    def forward(self, x: torch.Tensor, expert_idx: int) -> torch.Tensor:
+        expert_w1 = self.w1.view(self.moe_num_experts, self.ffn_hidden_size,
+                                 self.hidden_size)[expert_idx]
+        expert_w2 = self.w2.view(self.moe_num_experts, self.ffn_hidden_size,
+                                 self.hidden_size)[expert_idx]
+
+        x1 = x.matmul(expert_w1.t())
+        act_out = self.activation_fn(x1)
+        x2 = act_out.matmul(expert_w2)
+        return x2
+
+
+class NomicExperts(nn.Module):
+
+    def __init__(self, config, hidden_size: int, ffn_hidden_size: int,
+                 moe_num_experts: int):
+        super().__init__()
+        self.moe_num_experts = moe_num_experts
+
+        self.mlp = NomicExpertMLP(hidden_size=config.n_embd,
+                                  ffn_hidden_size=config.n_inner,
+                                  moe_num_experts=moe_num_experts,
+                                  ffn_act_fn=config.hidden_act)
+        self.bias = nn.Parameter(torch.zeros(config.n_embd))
+
+    def forward(self, x: torch.Tensor, weights: torch.Tensor,
+                top_weights: torch.Tensor,
+                top_experts: torch.LongTensor) -> torch.Tensor:
+        q_len, hidden_size = x.shape
+        x = x.view(-1, hidden_size)
+        out = torch.zeros_like(x)
+
+        expert_mask = nn.functional.one_hot(
+            top_experts, num_classes=self.moe_num_experts).permute(2, 1, 0)
+        for expert_idx in range(0, self.moe_num_experts):
+            topk_idx, token_idx = torch.where(expert_mask[expert_idx])
+            if token_idx.shape[0] == 0:
+                continue
+
+            token_list = token_idx.tolist()
+            topk_list = topk_idx.tolist()
+
+            expert_tokens = x[None, token_list].reshape(-1, hidden_size)
+            expert_out = self.mlp(
+                expert_tokens, expert_idx) * top_weights[token_list, topk_list,
+                                                         None]
+
+            out.index_add_(0, token_idx, expert_out)
+
+        out = out.reshape(q_len, hidden_size)
+        return out + self.bias
+
+
+class NomicMoELayer(nn.Module):
+
+    def __init__(self, config: PretrainedConfig):
+        super().__init__()
+
+        self.router = NomicRouter(
+            config.n_embd,
+            moe_num_experts=config.num_experts,
+            moe_top_k=config.moe_top_k,
+        )
+
+        self.experts = NomicExperts(
+            config,
+            hidden_size=config.n_embd,
+            ffn_hidden_size=config.n_inner,
+            moe_num_experts=config.num_experts,
+        )
+
+    def forward(self, x: torch.Tensor):
+        weights, top_weights, top_experts = self.router(x)
+        out = self.experts(x, weights, top_weights, top_experts)
+        return out
+
+
+class BertWithRopeBlock(nn.Module):
+
+    def __init__(self,
+                 config: PretrainedConfig,
+                 cache_config: Optional[CacheConfig] = None,
+                 quant_config: Optional[QuantizationConfig] = None,
+                 moe: bool = False,
+                 bias: bool = True,
+                 rotary_kwargs: Optional[dict] = None,
+                 prefix: str = ""):
+        super().__init__()
+        self.attn = BertWithRopeAttention(
+            hidden_size=config.hidden_size,
+            num_attention_heads=config.num_attention_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            bias=bias,
+            rotary_kwargs=rotary_kwargs,
+            prefix=f"{prefix}.attention")
+
+        if moe:
+            self.mlp = NomicMoELayer(config=config, )
+        else:
+            if config.hidden_act in ["silu", "gelu_and_mul"]:
+                self.mlp = BertWithRopeGatedMLP(
+                    hidden_size=config.hidden_size,
+                    intermediate_size=config.intermediate_size,
+                    hidden_act=config.hidden_act,
+                    bias=bias,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.mlp")
+            else:
+                self.mlp = BertWithRopeMLP(
+                    hidden_size=config.hidden_size,
+                    intermediate_size=config.intermediate_size,
+                    hidden_act=config.hidden_act,
+                    bias=bias,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.mlp")
+
+        self.attn_ln = nn.LayerNorm(config.hidden_size,
+                                    eps=config.layer_norm_eps)
+        self.mlp_ln = nn.LayerNorm(config.hidden_size,
+                                   eps=config.layer_norm_eps)
+
+    def forward(self, positions: torch.Tensor, hidden_states: torch.Tensor):
+        attn_output = self.attn(positions, hidden_states)
+        hidden_states = self.attn_ln(hidden_states + attn_output)
+        mlp_out = self.mlp(hidden_states)
+        hidden_states = self.mlp_ln(hidden_states + mlp_out)
+        return hidden_states
+
+
+@support_torch_compile
+class BertWithRopeEncoder(nn.Module):
+
+    def __init__(self,
+                 vllm_config: VllmConfig,
+                 bias: bool = True,
+                 rotary_kwargs: Optional[dict] = None,
+                 prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        every_n = getattr(config, "moe_every_n_layers", 0)
+        self.layers = nn.ModuleList([
+            BertWithRopeBlock(config=config,
+                              cache_config=cache_config,
+                              quant_config=quant_config,
+                              bias=bias,
+                              moe=every_n > 0 and (layer_idx % every_n == 1),
+                              rotary_kwargs=rotary_kwargs,
+                              prefix=f"{prefix}.layer.{layer_idx}")
+            for layer_idx in range(config.num_hidden_layers)
+        ])
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        for layer in self.layers:
+            hidden_states = layer(positions, hidden_states)
+        return hidden_states
+
+
+class BertWithRope(nn.Module, SupportsV0Only, SupportsQuant):
+    hf_to_vllm_mapper = WeightsMapper(orig_to_new_prefix={"model.": ""})
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        self.config = self.config_verify(vllm_config)
+        self.embeddings = BertWithRopeEmbedding(self.config)
+        self.encoder = BertWithRopeEncoder(
+            vllm_config=vllm_config,
+            bias=getattr(self.config, "bias", True),
+            rotary_kwargs=self.config.rotary_kwargs,
+            prefix=f"{prefix}.encoder")
+
+    def config_verify(self, vllm_config):
+        raise NotImplementedError
+
+    def forward(
+        self,
+        input_ids: Optional[torch.Tensor],
+        positions: torch.Tensor,
+        intermediate_tensors: Optional[IntermediateTensors] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+        token_type_ids: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        if inputs_embeds is not None:
+            hidden_states = inputs_embeds
+        else:
+            hidden_states = self.embeddings(input_ids=input_ids,
+                                            token_type_ids=token_type_ids)
+        return self.encoder(positions, hidden_states)
+
+    def load_weights(self, weights: Iterable[Tuple[str,
+                                                   torch.Tensor]]) -> Set[str]:
+        weights = self.hf_to_vllm_mapper.apply(weights)
+
+        if self.config.hidden_act in ["silu", "gelu_and_mul"]:
+            stacked_params_mapping = [
+                # (param_name, shard_name, shard_id)
+                ("gate_up_proj", "gate_proj", 0),
+                ("gate_up_proj", "up_proj", 1),
+            ]
+        else:
+            stacked_params_mapping = []
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: Set[str] = set()
+        for name, loaded_weight in weights:
+            if "pooler" in name:
+                continue
+            for (param_name, weight_name, shard_id) in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader",
+                                        default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class NomicBertModel(BertWithRope):
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={
+            "emb_ln": "embeddings.LayerNorm",
+            "attn.Wqkv": "attn.qkv_proj",
+            "norm1": "attn_ln",
+            "mlp.fc1.": "mlp.up_proj.",
+            "mlp.fc11": "mlp.up_proj",
+            "mlp.fc12": "mlp.gate_proj",
+            "mlp.fc2": "mlp.down_proj",
+            "norm2": "mlp_ln",
+        })
+
+    def config_verify(self, vllm_config):
+        config = vllm_config.model_config.hf_config
+
+        assert config.__class__.__name__ == "NomicBertConfig"
+        assert config.activation_function in ["swiglu", "gelu"]
+
+        if config.activation_function == "swiglu":
+            config.hidden_act = "silu"
+        else:
+            config.hidden_act = config.activation_function
+
+        assert (config.mlp_fc1_bias == config.mlp_fc2_bias ==
+                config.qkv_proj_bias)
+        config.bias = config.qkv_proj_bias
+
+        assert config.rotary_emb_scale_base is None
+        assert not config.rotary_emb_interleaved
+
+        config.layer_norm_eps = config.layer_norm_epsilon
+        config.intermediate_size = config.n_inner
+        config.hidden_size = config.n_embd
+        config.num_hidden_layers = config.n_layer
+
+        head_dim = config.hidden_size // config.num_attention_heads
+        rotary_emb_dim = head_dim * config.rotary_emb_fraction
+        config.rotary_kwargs = {
+            "head_size": head_dim,
+            "rotary_dim": rotary_emb_dim,
+            "max_position": config.max_trained_positions,
+            "base": getattr(config, "rope_theta", config.rotary_emb_base),
+            "rope_scaling": getattr(config, "rope_scaling", None)
+        }
+
+        # we ignore config.rotary_scaling_factor so that for datasets shorter
+        # than max_trained_positions 2048, the results are consistent
+        # with SentenceTransformer.
+        # The context extension uses vllm style rope_theta and rope_scaling.
+        # See #17785
+
+        return config
+
+
+class GteModel(BertWithRope):
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={
+            "layer": 'layers',
+            "attention.qkv_proj": "attn.qkv_proj",
+            "attention.o_proj": "attn.out_proj",
+        })
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+        # GteModel only gate_up_proj does not have bias.
+        # Hack method learned from vllm/model_executor/models/glm.py
+        for layer in self.encoder.layers:
+            layer.mlp.gate_up_proj.bias = None
+            layer.mlp.gate_up_proj.skip_bias_add = True
+
+    def config_verify(self, vllm_config):
+        config = vllm_config.model_config.hf_config
+
+        assert config.__class__.__name__ == "GteConfig"
+        assert config.position_embedding_type == "rope"
+        assert config.hidden_act == "gelu"
+
+        config.position_embedding_type = "rotary"
+        config.hidden_act = "gelu_and_mul"
+
+        head_dim = config.hidden_size // config.num_attention_heads
+        config.rotary_kwargs = {
+            "head_size": head_dim,
+            "rotary_dim": getattr(config, "rotary_emb_dim", head_dim),
+            "max_position": config.max_position_embeddings,
+            "base": config.rope_theta,
+            "rope_scaling": getattr(config, "rope_scaling", None)
+        }
+        return config
+
+    def split_up_gate_proj(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+        n = "mlp.up_gate_proj"
+        for name, weight in weights:
+            if n in name:
+                up, gate = weight.chunk(2, dim=0)
+                yield name.replace(n, "mlp.up_proj"), up
+                yield name.replace(n, "mlp.gate_proj"), gate
+            else:
+                yield name, weight
+
+    def load_weights(self, weights: Iterable[Tuple[str,
+                                                   torch.Tensor]]) -> Set[str]:
+        weights = self.split_up_gate_proj(weights)
+        return super().load_weights(weights)
+
+
+class JinaRobertaModel(BertWithRope):
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={
+            "emb_ln": "embeddings.LayerNorm",
+            "mixer.Wqkv": "attn.qkv_proj",
+            "mixer.out_proj": "attn.out_proj",
+            "norm1": "attn_ln",
+            "mlp.fc1.": "mlp.up_proj.",
+            "mlp.fc2": "mlp.down_proj",
+            "norm2": "mlp_ln",
+        })
+
+    def config_verify(self, vllm_config):
+        config = vllm_config.model_config.hf_config
+        head_dim = config.hidden_size // config.num_attention_heads
+        config.rotary_kwargs = {
+            "head_size": head_dim,
+            "rotary_dim": getattr(config, "rotary_emb_dim", head_dim),
+            "max_position": config.max_position_embeddings,
+            "base": getattr(config, "rope_theta", config.rotary_emb_base),
+            "rope_scaling": getattr(config, "rope_scaling", None)
+        }
+        return config
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        position_ids: torch.Tensor,
+        intermediate_tensors: Optional[IntermediateTensors] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+        token_type_ids: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        return super().forward(input_ids=input_ids,
+                               positions=position_ids,
+                               intermediate_tensors=intermediate_tensors,
+                               inputs_embeds=inputs_embeds,
+                               token_type_ids=token_type_ids)
+
+    @torch.inference_mode()
+    def jina_merge_lora_weights(self, weights: Iterable[Tuple[str,
+                                                              torch.Tensor]]):
+        # use for jina-embeddings-v3
+        # Merge Lora weights into a single weight tensor.
+        # This is a temporary solution until we have a better way to handle
+
+        scaling = self.config.lora_alpha / self.config.lora_rank
+
+        weights = {name: weight for name, weight in weights}
+
+        o = ".original"
+        a = ".0.lora_A"
+        b = ".0.lora_B"
+
+        # text-matching
+        i = -1
+
+        for name in list(weights.keys()):
+            if o in name:
+                dtype = weights[name].dtype
+                shape = weights[name].shape
+                weight_name = name[:-len(o)]
+
+                if "embeddings" in weight_name:
+                    B = weights[weight_name + a][i].cuda().float()
+                    A = weights[weight_name + b][i].cuda().float()
+                else:
+                    B = weights[weight_name + b][i].cuda().float()
+                    A = weights[weight_name + a][i].cuda().float()
+
+                weight = (weights[weight_name + o].cuda() +
+                          torch.matmul(B, A).view(shape) * scaling)
+                weight = weight.cpu().to(dtype)
+
+                weights[weight_name.replace(".parametrizations", "")] = weight
+
+                del weights[weight_name + o], weights[weight_name +
+                                                      a], weights[weight_name +
+                                                                  b]
+
+        return [(name, weight) for name, weight in weights.items()]
+
+    def load_weights(self, weights: Iterable[Tuple[str,
+                                                   torch.Tensor]]) -> Set[str]:
+        weights = self.jina_merge_lora_weights(weights)
+        return super().load_weights(weights)
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index 19153efd8..aef456619 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -126,7 +126,7 @@ _EMBEDDING_MODELS = {
     "Gemma2Model": ("gemma2", "Gemma2ForCausalLM"),
     "GlmForCausalLM": ("glm", "GlmForCausalLM"),
     "GritLM": ("gritlm", "GritLM"),
-    "GteModel": ("bert", "GteEmbeddingModel"),
+    "GteModel": ("bert_with_rope", "GteModel"),
     "InternLM2ForRewardModel": ("internlm2", "InternLM2ForRewardModel"),
     "JambaForSequenceClassification": ("jamba", "JambaForSequenceClassification"),  # noqa: E501
     "LlamaModel": ("llama", "LlamaForCausalLM"),
@@ -136,7 +136,7 @@ _EMBEDDING_MODELS = {
         if arch == "LlamaForCausalLM"
     },
     "MistralModel": ("llama", "LlamaForCausalLM"),
-    "NomicBertModel": ("bert", "NomicBertEmbeddingModel"),
+    "NomicBertModel": ("bert_with_rope", "NomicBertModel"),
     "Phi3ForCausalLM": ("phi3", "Phi3ForCausalLM"),
     "Qwen2Model": ("qwen2", "Qwen2EmbeddingModel"),
     "Qwen2ForCausalLM": ("qwen2", "Qwen2ForCausalLM"),
diff --git a/vllm/model_executor/models/roberta.py b/vllm/model_executor/models/roberta.py
index 4c23d72a4..ebefe7689 100644
--- a/vllm/model_executor/models/roberta.py
+++ b/vllm/model_executor/models/roberta.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import itertools
-from typing import Iterable, Optional, Tuple
+from typing import Iterable, Optional, Tuple, Union
 
 import torch
 from torch import nn
@@ -19,6 +19,7 @@ from vllm.sequence import IntermediateTensors, PoolerOutput
 from vllm.transformers_utils.config import (
     get_cross_encoder_activation_function)
 
+from .bert_with_rope import BertWithRope, JinaRobertaModel
 from .interfaces import SupportsCrossEncoding, SupportsV0Only
 
 
@@ -125,39 +126,20 @@ class RobertaEmbeddingModel(BertEmbeddingModel):
 
     def _build_model(self,
                      vllm_config: VllmConfig,
-                     prefix: str = "") -> BertModel:
+                     prefix: str = "") -> Union[BertModel, BertWithRope]:
         if (vllm_config.model_config.hf_config.position_embedding_type ==
                 "rotary"):
-            config = vllm_config.model_config.hf_config
-            head_dim = config.hidden_size // config.num_attention_heads
-
-            rotary_kwargs = {
-                "head_size": head_dim,
-                "rotary_dim": getattr(config, "rotary_emb_dim", head_dim),
-                "max_position": config.max_position_embeddings,
-                "base": config.rotary_emb_base,
-                "rope_scaling": getattr(config, "rope_scaling", None)
-            }
-
-            return BertModel(vllm_config=vllm_config,
-                             rotary_kwargs=rotary_kwargs,
-                             prefix=prefix)
+            return JinaRobertaModel(vllm_config=vllm_config, prefix=prefix)
         else:
             return BertModel(vllm_config=vllm_config,
                              prefix=prefix,
                              embedding_class=RobertaEmbedding)
 
     def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
-        if getattr(self.config, "lora_rank", 0) > 0:
-            scaling = self.config.lora_alpha / self.config.lora_rank
-            weights = jina_merge_lora_weights(weights, scaling)
-
         weights = self.hf_to_vllm_mapper.apply(weights)
         # Separate weights in "roberta"-prefixed and all else (not in memory).
         # For use with models like FacebookAI/roberta-base.
         bert_weights, task_weights = roberta_task_weights_filter(weights)
-        bert_weights = jina_to_vllm_mapper.apply(bert_weights)
-
         loaded = self.model.load_weights(bert_weights)
         if not len(loaded):
             # Fix for models like `sentence-transformers/stsb-roberta-base-v2`
@@ -178,6 +160,18 @@ class RobertaForSequenceClassification(nn.Module, SupportsCrossEncoding,
        _pooler: An instance of Pooler used for pooling operations.
    """
 
+    jina_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={
+            'emb_ln': "embeddings.LayerNorm",
+            'layers': "layer",
+            'mixer.Wqkv': "attention.self.qkv_proj",
+            'mixer.out_proj': "attention.output.dense",
+            'norm1': "attention.output.LayerNorm",
+            'mlp.fc1': "intermediate.dense",
+            'mlp.fc2': "output.dense",
+            'norm2': "output.LayerNorm",
+        })
+
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         super().__init__()
         config = vllm_config.model_config.hf_config
@@ -195,7 +189,7 @@ class RobertaForSequenceClassification(nn.Module, SupportsCrossEncoding,
 
     def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
         bert_weights, task_weights = roberta_task_weights_filter(weights)
-        bert_weights = jina_to_vllm_mapper.apply(bert_weights)
+        bert_weights = self.jina_to_vllm_mapper.apply(bert_weights)
 
         self.roberta.load_weights(bert_weights)
 
@@ -276,57 +270,3 @@ def roberta_task_weights_filter(
 
     return encoder_decoder_weights(), ((n, w) for n, w in all_weights2
                                        if not n.startswith("roberta."))
-
-
-jina_to_vllm_mapper = WeightsMapper(
-    orig_to_new_substr={
-        'emb_ln': "embeddings.LayerNorm",
-        'layers': "layer",
-        'mixer.Wqkv': "attention.self.qkv_proj",
-        'mixer.out_proj': "attention.output.dense",
-        'norm1': "attention.output.LayerNorm",
-        'mlp.fc1': "intermediate.dense",
-        'mlp.fc2': "output.dense",
-        'norm2': "output.LayerNorm",
-    })
-
-
-@torch.inference_mode()
-def jina_merge_lora_weights(weights: Iterable[Tuple[str, torch.Tensor]],
-                            scaling: float = 1.0):
-    # use for jina-embeddings-v3
-    # Merge Lora weights into a single weight tensor.
-    # This is a temporary solution until we have a better way to handle
-
-    weights = {name: weight for name, weight in weights}
-
-    o = ".original"
-    a = ".0.lora_A"
-    b = ".0.lora_B"
-
-    # text-matching
-    i = -1
-
-    for name in list(weights.keys()):
-        if o in name:
-            dtype = weights[name].dtype
-            shape = weights[name].shape
-            weight_name = name[:-len(o)]
-
-            if "embeddings" in weight_name:
-                B = weights[weight_name + a][i].cuda().float()
-                A = weights[weight_name + b][i].cuda().float()
-            else:
-                B = weights[weight_name + b][i].cuda().float()
-                A = weights[weight_name + a][i].cuda().float()
-
-            weight = (weights[weight_name + o].cuda() +
-                      torch.matmul(B, A).view(shape) * scaling)
-            weight = weight.cpu().to(dtype)
-
-            weights[weight_name.replace(".parametrizations", "")] = weight
-
-            del weights[weight_name + o], weights[weight_name +
-                                                  a], weights[weight_name + b]
-
-    return [(name, weight) for name, weight in weights.items()]
-- 
GitLab


From 009b3d53823053e3df50824fb9e087704b8631aa Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Sun, 11 May 2025 16:47:58 +0800
Subject: [PATCH 279/461] [Misc] not show --model in vllm serve --help (#16691)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 vllm/engine/arg_utils.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 26a5784e8..388e04323 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -5,6 +5,7 @@ import argparse
 import dataclasses
 import json
 import re
+import sys
 import threading
 import warnings
 from dataclasses import MISSING, dataclass, fields, is_dataclass
@@ -440,7 +441,8 @@ class EngineArgs:
             title="ModelConfig",
             description=ModelConfig.__doc__,
         )
-        model_group.add_argument("--model", **model_kwargs["model"])
+        if 'serve' not in sys.argv[1:] and '--help' not in sys.argv[1:]:
+            model_group.add_argument("--model", **model_kwargs["model"])
         model_group.add_argument("--task", **model_kwargs["task"])
         model_group.add_argument("--tokenizer", **model_kwargs["tokenizer"])
         model_group.add_argument("--tokenizer-mode",
-- 
GitLab


From a810b5b088b898bdfe25606589af69da30e85ae6 Mon Sep 17 00:00:00 2001
From: TJian <tunjian.tan@embeddedllm.com>
Date: Sun, 11 May 2025 19:17:11 +0800
Subject: [PATCH 280/461] [BugFix] [ROCm]: Bugfix and handle addition case of
 input for `rocm_aiter_rms_norm` (#17857)

Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
---
 tests/models/language/generation/test_common.py |  4 ++++
 vllm/model_executor/layers/layernorm.py         | 15 +++++++++++----
 2 files changed, 15 insertions(+), 4 deletions(-)

diff --git a/tests/models/language/generation/test_common.py b/tests/models/language/generation/test_common.py
index c755593c9..05dd18fbd 100644
--- a/tests/models/language/generation/test_common.py
+++ b/tests/models/language/generation/test_common.py
@@ -28,6 +28,7 @@ AITER_MODEL_LIST = [
     "Qwen/Qwen-7B-Chat",
     "Qwen/Qwen2.5-0.5B-Instruct",
     "TitanML/tiny-mixtral",
+    "Qwen/Qwen3-8B",
 ]
 
 
@@ -78,6 +79,9 @@ AITER_MODEL_LIST = [
             "Qwen/Qwen2.5-0.5B-Instruct",  # qwen2
             marks=[pytest.mark.core_model],
         ),
+        pytest.param(
+            "Qwen/Qwen3-8B",  # qwen (text-only)
+        ),
         pytest.param("stabilityai/stablelm-3b-4e1t"),  # stablelm
         pytest.param("bigcode/starcoder2-3b"),  # starcoder2
         pytest.param(
diff --git a/vllm/model_executor/layers/layernorm.py b/vllm/model_executor/layers/layernorm.py
index 87d9b959e..cdf9ecc25 100644
--- a/vllm/model_executor/layers/layernorm.py
+++ b/vllm/model_executor/layers/layernorm.py
@@ -46,6 +46,12 @@ def rocm_aiter_rms_norm(x: torch.Tensor, weight: torch.Tensor,
                         variance_epsilon: float) -> torch.Tensor:
 
     import aiter as rocm_aiter
+    if x.dim() > 2:
+        x_original_shape = x.shape
+        x = x.reshape(-1, x_original_shape[-1])
+        x = rocm_aiter.rms_norm(x, weight, variance_epsilon)
+        return x.reshape(x_original_shape)
+
     return rocm_aiter.rms_norm(x, weight, variance_epsilon)
 
 
@@ -55,16 +61,17 @@ def rocm_aiter_fused_add_rms_norm(
 
     import aiter as rocm_aiter
 
-    # Assuming the correct signature for rmsnorm2d_fwd_with_add
+    residual_out = torch.empty_like(residual)
+    output = torch.empty_like(x)
     rocm_aiter.rmsnorm2d_fwd_with_add(
-        x,  # output
+        output,  # output
         x,  # input
         residual,  # residual input
-        residual,  # residual output
+        residual_out,  # residual output
         weight,
         variance_epsilon,
     )
-    return x, residual
+    return output, residual_out
 
 
 def dispatch_cuda_rmsnorm_func(add_residual: bool):
-- 
GitLab


From 7de18d541b0da661685d481d7306cbe5e9f7960b Mon Sep 17 00:00:00 2001
From: TJian <tunjian.tan@embeddedllm.com>
Date: Mon, 12 May 2025 00:14:30 +0800
Subject: [PATCH 281/461] [BUG] [ROCm] [MLA] Fix variable name bug due to
 change in variable name in PR #17483 (#17961)

Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
---
 vllm/v1/attention/backends/mla/rocm_aiter_mla.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
index f46010d75..3abb185c5 100644
--- a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
+++ b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
@@ -98,17 +98,17 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
             paged_kv_last_page_len,
         )
 
-    def _build_decode(self, block_table: torch.Tensor,
+    def _build_decode(self, block_table_tensor: torch.Tensor,
                       seq_lens: torch.Tensor) -> AiterMLADecodeMetadata:
 
         (
             paged_kv_indices,
             paged_kv_indptr,
             paged_last_page_len,
-        ) = self._get_paged_kv_tensors(block_table, seq_lens)
+        ) = self._get_paged_kv_tensors(block_table_tensor, seq_lens)
 
         attn_metadata = AiterMLADecodeMetadata(
-            block_table=block_table,
+            block_table=block_table_tensor,
             seq_lens=seq_lens,
             paged_kv_indptr=paged_kv_indptr,
             paged_kv_indices=paged_kv_indices,
-- 
GitLab


From 021c16c7caaa6886248f1d048edbcdb678415964 Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Mon, 12 May 2025 08:56:30 +0800
Subject: [PATCH 282/461] [Model] Broadcast Ovis2 implementation to fit Ovis1.6
 (#17861)

Signed-off-by: Isotr0py <2037008807@qq.com>
---
 docs/source/models/supported_models.md        |   6 +-
 examples/offline_inference/vision_language.py |  21 +-
 .../vision_language_multi_image.py            |  22 +-
 tests/conftest.py                             |   8 +-
 .../multimodal/generation/test_common.py      |  27 +-
 .../generation/vlm_utils/model_utils.py       |  17 +-
 .../multimodal/processing/test_common.py      |   5 +-
 tests/models/registry.py                      |   6 +-
 vllm/entrypoints/chat_utils.py                |   2 +-
 vllm/model_executor/models/aimv2.py           | 127 +--------
 .../models/{ovis2.py => ovis.py}              | 240 +++++++++++++++---
 vllm/model_executor/models/registry.py        |   2 +-
 vllm/transformers_utils/configs/__init__.py   |   2 +-
 .../configs/{ovis2.py => ovis.py}             |  13 +
 .../transformers_utils/processors/__init__.py |   2 +-
 .../processors/{ovis2.py => ovis.py}          |  42 ++-
 16 files changed, 330 insertions(+), 212 deletions(-)
 rename vllm/model_executor/models/{ovis2.py => ovis.py} (59%)
 rename vllm/transformers_utils/configs/{ovis2.py => ovis.py} (93%)
 rename vllm/transformers_utils/processors/{ovis2.py => ovis.py} (94%)

diff --git a/docs/source/models/supported_models.md b/docs/source/models/supported_models.md
index 8c6e7b04d..48fc24f34 100644
--- a/docs/source/models/supported_models.md
+++ b/docs/source/models/supported_models.md
@@ -1045,10 +1045,10 @@ Specified using `--task generate`.
   *
   * ✅︎
   * ✅︎
-- * `Ovis2ForConditionalGeneration`<sup>^</sup>
-  * Ovis2
+- * `Ovis`
+  * Ovis2, Ovis1.6
   * T + I<sup>+</sup>
-  * `AIDC-AI/Ovis2-1B`, `AIDC-AI/Ovis2-2B`, etc.
+  * `AIDC-AI/Ovis2-1B`, `AIDC-AI/Ovis1.6-Llama3.2-3B`, etc.
   *
   *
   * ✅︎
diff --git a/examples/offline_inference/vision_language.py b/examples/offline_inference/vision_language.py
index 5c173ab1a..c54f328c7 100644
--- a/examples/offline_inference/vision_language.py
+++ b/examples/offline_inference/vision_language.py
@@ -725,8 +725,8 @@ def run_nvlm_d(questions: list[str], modality: str) -> ModelRequestData:
     )
 
 
-# Ovis2
-def run_ovis2(questions: list[str], modality: str) -> ModelRequestData:
+# Ovis
+def run_ovis(questions: list[str], modality: str) -> ModelRequestData:
     assert modality == "image"
 
     model_name = "AIDC-AI/Ovis2-1B"
@@ -737,15 +737,18 @@ def run_ovis2(questions: list[str], modality: str) -> ModelRequestData:
         max_num_seqs=2,
         trust_remote_code=True,
         dtype="half",
-        hf_overrides={"architectures": ["Ovis2ForConditionalGeneration"]},
         limit_mm_per_prompt={modality: 1},
     )
 
-    placeholder = "<image>\n"
-    prompts = [("<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n"
-                f"<|im_start|>user\n{placeholder}"
-                f"{question}<|im_end|>\n"
-                "<|im_start|>assistant\n") for question in questions]
+    tokenizer = AutoTokenizer.from_pretrained(model_name,
+                                              trust_remote_code=True)
+    messages = [[{
+        'role': 'user',
+        'content': f"<image>\n{question}"
+    }] for question in questions]
+    prompts = tokenizer.apply_chat_template(messages,
+                                            tokenize=False,
+                                            add_generation_prompt=True)
 
     return ModelRequestData(
         engine_args=engine_args,
@@ -1069,7 +1072,7 @@ model_example_map = {
     "llama4": run_llama4,
     "molmo": run_molmo,
     "NVLM_D": run_nvlm_d,
-    "ovis2": run_ovis2,
+    "ovis": run_ovis,
     "paligemma": run_paligemma,
     "paligemma2": run_paligemma2,
     "phi3_v": run_phi3v,
diff --git a/examples/offline_inference/vision_language_multi_image.py b/examples/offline_inference/vision_language_multi_image.py
index 48d590b05..20a8e635e 100644
--- a/examples/offline_inference/vision_language_multi_image.py
+++ b/examples/offline_inference/vision_language_multi_image.py
@@ -436,8 +436,8 @@ def load_nvlm_d(question: str, image_urls: list[str]) -> ModelRequestData:
     )
 
 
-# Ovis2
-def load_ovis2(question: str, image_urls: list[str]) -> ModelRequestData:
+# Ovis
+def load_ovis(question: str, image_urls: list[str]) -> ModelRequestData:
     model_name = "AIDC-AI/Ovis2-1B"
 
     engine_args = EngineArgs(
@@ -447,15 +447,17 @@ def load_ovis2(question: str, image_urls: list[str]) -> ModelRequestData:
         trust_remote_code=True,
         dtype="half",
         limit_mm_per_prompt={"image": len(image_urls)},
-        hf_overrides={"architectures": ["Ovis2ForConditionalGeneration"]},
     )
 
-    placeholder = '\n'.join(
-        [f'Image {i+1}: <image>' for i in range(len(image_urls))]) + '\n'
-    prompt = ("<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n"
-              f"<|im_start|>user\n{placeholder}"
-              f"{question}<|im_end|>\n"
-              "<|im_start|>assistant\n")
+    placeholders = "\n".join(f"Image-{i}: <image>\n"
+                             for i, _ in enumerate(image_urls, start=1))
+    messages = [{'role': 'user', 'content': f"{placeholders}\n{question}"}]
+
+    tokenizer = AutoTokenizer.from_pretrained(model_name,
+                                              trust_remote_code=True)
+    prompt = tokenizer.apply_chat_template(messages,
+                                           tokenize=False,
+                                           add_generation_prompt=True)
 
     return ModelRequestData(
         engine_args=engine_args,
@@ -713,7 +715,7 @@ model_example_map = {
     "mistral3": load_mistral3,
     "mllama": load_mllama,
     "NVLM_D": load_nvlm_d,
-    "ovis2": load_ovis2,
+    "ovis": load_ovis,
     "phi3_v": load_phi3v,
     "phi4_mm": load_phi4mm,
     "pixtral_hf": load_pixtral_hf,
diff --git a/tests/conftest.py b/tests/conftest.py
index fa979f109..c5700179c 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -355,10 +355,16 @@ class HfRunner:
                 **model_kwargs,
             )
 
+            # in case some unquantized custom models are not in same dtype
+            if (getattr(model, "quantization_method", None) is None
+                    and any(p.dtype != self.dtype
+                            for p in model.parameters())):
+                model = model.to(dtype=self.dtype)
+
             if (getattr(model, "quantization_method", None) != "bitsandbytes"
                     and len({p.device
                              for p in model.parameters()}) < 2):
-                model = model.to(self.device)
+                model = model.to(device=self.device)
 
             self.model = model
 
diff --git a/tests/models/multimodal/generation/test_common.py b/tests/models/multimodal/generation/test_common.py
index 6e915a9f6..dead2edc4 100644
--- a/tests/models/multimodal/generation/test_common.py
+++ b/tests/models/multimodal/generation/test_common.py
@@ -476,6 +476,31 @@ VLM_TEST_SETTINGS = {
         max_num_seqs=2,
         patch_hf_runner=model_utils.molmo_patch_hf_runner,
     ),
+    "ovis1_6-gemma2": VLMTestInfo(
+        models=["AIDC-AI/Ovis1.6-Gemma2-9B"],
+        test_type=(VLMTestType.IMAGE, VLMTestType.MULTI_IMAGE),
+        prompt_formatter=lambda img_prompt: f"<bos><start_of_turn>user\n{img_prompt}<end_of_turn>\n<start_of_turn>model\n", # noqa: E501
+        img_idx_to_prompt=lambda idx: "<image>\n", # noqa: E501
+        max_model_len=4096,
+        max_num_seqs=2,
+        dtype="half",
+        # use sdpa mode for hf runner since ovis2 didn't work with flash_attn
+        hf_model_kwargs={"llm_attn_implementation": "sdpa"},
+        patch_hf_runner=model_utils.ovis_patch_hf_runner,
+        marks=[large_gpu_mark(min_gb=32)],
+    ),
+    "ovis1_6": VLMTestInfo(
+        models=["AIDC-AI/Ovis1.6-Llama3.2-3B"],
+        test_type=(VLMTestType.IMAGE, VLMTestType.MULTI_IMAGE),
+        prompt_formatter=lambda img_prompt: f"<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\nYou are a helpful and honest multimodal assistant.<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n{img_prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n", # noqa: E501
+        img_idx_to_prompt=lambda idx: "<image>\n", # noqa: E501
+        max_model_len=4096,
+        max_num_seqs=2,
+        dtype="half",
+        # use sdpa mode for hf runner since ovis2 didn't work with flash_attn
+        hf_model_kwargs={"llm_attn_implementation": "sdpa"},
+        patch_hf_runner=model_utils.ovis_patch_hf_runner,
+    ),
     "ovis2": VLMTestInfo(
         models=["AIDC-AI/Ovis2-1B"],
         test_type=(VLMTestType.IMAGE, VLMTestType.MULTI_IMAGE),
@@ -486,7 +511,7 @@ VLM_TEST_SETTINGS = {
         dtype="half",
         # use sdpa mode for hf runner since ovis2 didn't work with flash_attn
         hf_model_kwargs={"llm_attn_implementation": "sdpa"},
-        patch_hf_runner=model_utils.ovis2_patch_hf_runner,
+        patch_hf_runner=model_utils.ovis_patch_hf_runner,
     ),
     "phi3v": VLMTestInfo(
         models=["microsoft/Phi-3.5-vision-instruct"],
diff --git a/tests/models/multimodal/generation/vlm_utils/model_utils.py b/tests/models/multimodal/generation/vlm_utils/model_utils.py
index f0f4ed989..e31408d60 100644
--- a/tests/models/multimodal/generation/vlm_utils/model_utils.py
+++ b/tests/models/multimodal/generation/vlm_utils/model_utils.py
@@ -678,12 +678,8 @@ def molmo_patch_hf_runner(hf_model: HfRunner) -> HfRunner:
     return hf_model
 
 
-def ovis2_patch_hf_runner(hf_model: HfRunner) -> HfRunner:
+def ovis_patch_hf_runner(hf_model: HfRunner) -> HfRunner:
     """Patches and returns an instance of the HfRunner to use for Ovis2."""
-    hf_model.model.visual_tokenizer.to(hf_model.dtype)
-    hf_model.model.vte.to(hf_model.dtype)
-    hf_model.model.llm.to(hf_model.dtype)
-
     hf_model.model.get_output_embeddings = lambda: \
         hf_model.model.llm.get_output_embeddings()
 
@@ -691,7 +687,16 @@ def ovis2_patch_hf_runner(hf_model: HfRunner) -> HfRunner:
         text_tokenizer = hf_model.model.get_text_tokenizer()
         images = [images] if isinstance(images, Image) else images
 
-        text = text.split("<|im_start|>user\n")[1].split("<|im_end|>\n")[0]
+        prompt_start_and_end = {
+            "qwen2": ("<|im_start|>user\n", "<|im_end|>\n"),
+            "llama":
+            ("<|start_header_id|>user<|end_header_id|>\n\n", "<|eot_id|>"),
+            "gemma2": ("<start_of_turn>user\n", "<end_of_turn>\n"),
+        }
+        for start, end in prompt_start_and_end.values():
+            if start in text and end in text:
+                text = text.split(start)[1].split(end)[0]
+                break
 
         prompt, input_ids, pixel_values = hf_model.model.preprocess_inputs(
             text_or_conversations=text, images=images)
diff --git a/tests/models/multimodal/processing/test_common.py b/tests/models/multimodal/processing/test_common.py
index 772a2db3e..e6b70a443 100644
--- a/tests/models/multimodal/processing/test_common.py
+++ b/tests/models/multimodal/processing/test_common.py
@@ -146,7 +146,8 @@ def _test_processing_correctness_hf(
     batch_idx: int,
     ignore_mm_keys: Optional[set[str]] = None,
 ):
-    if model_config.hf_config.model_type in ("mllama", "whisper", "ultravox"):
+    if model_config.hf_config.model_type in ("mllama", "ovis", "ultravox",
+                                             "whisper"):
         # For some multimodal models, tokenizer will always add bos_token
         # at the beginning of prompt by default, causing hf_processor outputs
         # incorrect token ids. So we need use `add_special_tokens=False` here
@@ -274,6 +275,8 @@ def _test_processing_correctness_mistral(
     "allenai/Molmo-7B-D-0924",
     "allenai/Molmo-7B-O-0924",
     "nvidia/NVLM-D-72B",
+    "AIDC-AI/Ovis1.6-Gemma2-9B",
+    "AIDC-AI/Ovis1.6-Llama3.2-3B",
     "AIDC-AI/Ovis2-1B",
     "google/paligemma-3b-mix-224",
     "google/paligemma2-3b-ft-docci-448",
diff --git a/tests/models/registry.py b/tests/models/registry.py
index a1f2edac0..683d15d50 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -355,9 +355,9 @@ _MULTIMODAL_EXAMPLE_MODELS = {
                                         max_transformers_version="4.48",
                                         transformers_version_reason="Use of deprecated imports which have been removed.",  # noqa: E501
                                         extras={"phi3.5": "microsoft/Phi-3.5-vision-instruct"}),  # noqa: E501
-    "Ovis2ForConditionalGeneration": _HfExamplesInfo("AIDC-AI/Ovis2-1B",
-                                                    trust_remote_code=True,
-                                                    hf_overrides={"architectures": ["Ovis2ForConditionalGeneration"]}), # noqa: E501
+    "Ovis": _HfExamplesInfo("AIDC-AI/Ovis2-1B", trust_remote_code=True,
+                            extras={"1.6-llama": "AIDC-AI/Ovis1.6-Llama3.2-3B",
+                                    "1.6-gemma": "AIDC-AI/Ovis1.6-Gemma2-9B"}),  # noqa: E501
     "Phi4MMForCausalLM": _HfExamplesInfo("microsoft/Phi-4-multimodal-instruct",
                                         trust_remote_code=True),
     "PixtralForConditionalGeneration": _HfExamplesInfo("mistralai/Pixtral-12B-2409",  # noqa: E501
diff --git a/vllm/entrypoints/chat_utils.py b/vllm/entrypoints/chat_utils.py
index 38fe98572..db43b2dd2 100644
--- a/vllm/entrypoints/chat_utils.py
+++ b/vllm/entrypoints/chat_utils.py
@@ -512,7 +512,7 @@ class BaseMultiModalItemTracker(ABC, Generic[_T]):
                                               hf_config.image_token_index)
 
             if model_type in ("aya_vision", "chameleon", "deepseek_vl_v2",
-                              "internvl_chat", "ovis2", "skywork_chat",
+                              "internvl_chat", "ovis", "skywork_chat",
                               "NVLM_D", "h2ovl_chat", "idefics3", "smolvlm"):
                 return "<image>"
             if model_type in ("mllama", "llama4"):
diff --git a/vllm/model_executor/models/aimv2.py b/vllm/model_executor/models/aimv2.py
index 730e770dc..aefd6c973 100644
--- a/vllm/model_executor/models/aimv2.py
+++ b/vllm/model_executor/models/aimv2.py
@@ -5,129 +5,14 @@
 from typing import Optional
 
 import torch
-from torch import nn, softmax
+import torch.nn as nn
 from torch.nn import functional as F
-from torch.nn.functional import gumbel_softmax, pad
 
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import ReplicatedLinear
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig)
-from vllm.transformers_utils.configs.ovis2 import (AIMv2Config,
-                                                   Aimv2VisualTokenizerConfig)
-
-IMAGE_INDICATOR_IDS = [-301, -302, -303, -304,
-                       -305]  # kept for vocab prefixed tokens
-
-
-def st_argmax(y_soft: torch.Tensor, dim: int):  # straight-through softmax
-    index = y_soft.max(dim, keepdim=True)[1]
-    y_hard = torch.zeros_like(
-        y_soft, memory_format=torch.legacy_contiguous_format).scatter_(
-            dim, index, 1.0)
-    ret = y_hard - y_soft.detach() + y_soft
-    return ret
-
-
-class Aimv2VisualTokenizer(torch.nn.Module):
-
-    def __init__(self,
-                 config: Aimv2VisualTokenizerConfig,
-                 quant_config: Optional[QuantizationConfig] = None,
-                 prefix: str = "",
-                 **kwargs):
-        super().__init__()
-        self.config = config
-        self.backbone = AIMv2Model(
-            config=config.backbone_config,  # noqa
-            quant_config=quant_config,
-            prefix=f"{prefix}.visual_tokenizer")
-        # reserved tokens for IMAGE_INDICATORS
-        head_dim = config.vocab_size - len(IMAGE_INDICATOR_IDS)
-        self.head = torch.nn.Sequential(
-            ReplicatedLinear(
-                config.backbone_config.hidden_size * config.hidden_stride *
-                config.hidden_stride,
-                head_dim,
-                bias=False,
-            ), torch.nn.LayerNorm(head_dim))
-
-    @property
-    def dtype(self):
-        return self.backbone.dtype
-
-    @property
-    def device(self):
-        return self.backbone.device
-
-    def tokenize(self, logits):
-        if self.config.tokenize_function == 'softmax':
-            tokens = softmax(logits, dim=-1)
-        elif self.config.tokenize_function == 'gumbel_argmax':
-            tokens = gumbel_softmax(logits, tau=self.config.tau, hard=True)
-        elif self.config.tokenize_function == 'st_argmax':
-            tokens = st_argmax(logits, dim=-1)
-        else:
-            raise ValueError(
-                'Invalid `max_type`, expected softmax or gumbel_argmax '
-                f'or st_argmax, but got {self.config.tokenize_function}')
-        return tokens
-
-    def encode(self, pixel_values):
-        features = self.backbone(pixel_values)
-        if self.config.drop_cls_token:
-            features = features[:, 1:, :]
-
-        # merge number of `hidden_stride * hidden_stride` hidden states together
-        # to reduce token sequence length
-        # e.g., for hidden_stride=2, this leads to a token length reduction:
-        # 1024 -> 256 for aimv2
-        if self.config.hidden_stride > 1:
-            # this `d` maybe different from the above `d``
-            n, L, d = features.shape
-            sqrt_l = int(L**0.5)
-            assert sqrt_l**2 == L, (
-                "The token sequence length should be a perfect square.")
-            features = features.reshape(n, sqrt_l, sqrt_l, d)
-            pl = (self.config.hidden_stride -
-                  (sqrt_l %
-                   self.config.hidden_stride)) % self.config.hidden_stride
-            features = pad(features, (0, 0, 0, pl, 0, pl), "constant", 0)
-            sqrt_l += pl
-            features = features.reshape(n, sqrt_l // self.config.hidden_stride,
-                                        self.config.hidden_stride,
-                                        sqrt_l // self.config.hidden_stride,
-                                        self.config.hidden_stride, d)
-            # [n, sqrt_l/hs, sqrt_l/hs, hs, hs, d]
-            features = features.permute(0, 1, 3, 2, 4, 5)
-            # [n, sqrt_l/hs, sqrt_l/hs, hs*hs*d]
-            features = features.flatten(3)
-            # [n, sqrt_l/hs*sqrt_l/hs, hs*hs*d]
-            features = features.reshape(
-                n, -1,
-                self.config.hidden_stride * self.config.hidden_stride * d)
-
-        return features
-
-    def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
-        """[BatchSize, ImageShape] -> [BatchSize, Token, VocabSize]"""
-        features = self.encode(pixel_values)
-        logits, _ = self.head[0](
-            features)  # we spllit the sequncial here for not throwing an error
-        logits = self.head[1](logits)
-        tokens = self.tokenize(logits)
-        # tokens' shape is [BatchSize, #Token, VocabSize-5], so padding with
-        # [BatchSize, #Token, 5], after which, tokens' shape should become
-        # [BatchSize, #Token, VocabSize]
-        batch_size, token_len, _ = tokens.shape
-        padding_tensor = torch.zeros(size=(batch_size, token_len,
-                                           len(IMAGE_INDICATOR_IDS)),
-                                     dtype=tokens.dtype,
-                                     device=tokens.device,
-                                     layout=tokens.layout,
-                                     requires_grad=False)
-        tokens = torch.cat((tokens, padding_tensor), dim=2)
-        return tokens
+from vllm.transformers_utils.configs.ovis import AIMv2Config
 
 
 class AIMv2SwiGLUFFN(nn.Module):
@@ -302,14 +187,6 @@ class AIMv2Model(torch.nn.Module):
                                       quant_config=quant_config,
                                       prefix=f"{prefix}.trunk")
 
-    @property
-    def dtype(self):
-        return self.trunk.blocks[0].attn.qkv.weight.dtype
-
-    @property
-    def device(self):
-        return self.trunk.blocks[0].attn.qkv.device
-
     def forward(
         self,
         pixel_values: torch.Tensor,
diff --git a/vllm/model_executor/models/ovis2.py b/vllm/model_executor/models/ovis.py
similarity index 59%
rename from vllm/model_executor/models/ovis2.py
rename to vllm/model_executor/models/ovis.py
index 67cc86e7f..5204c7512 100644
--- a/vllm/model_executor/models/ovis2.py
+++ b/vllm/model_executor/models/ovis.py
@@ -15,17 +15,23 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-""" PyTorch Ovis2 model."""
+""" PyTorch Ovis model."""
+import math
 from typing import (Iterable, List, Literal, Mapping, Optional, Set, Tuple,
                     TypedDict, Union)
 
 import torch
 import torch.nn as nn
 from torch import Tensor
-from transformers import BatchFeature
+from torch.nn.functional import gumbel_softmax, pad, softmax
+from transformers import BaseImageProcessor, BatchFeature
 
 from vllm.config import VllmConfig
-from vllm.model_executor.models.aimv2 import Aimv2VisualTokenizer
+from vllm.model_executor.layers.linear import ReplicatedLinear
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig)
+from vllm.model_executor.models.aimv2 import AIMv2Model
+from vllm.model_executor.models.siglip import SiglipVisionModel
 from vllm.model_executor.models.utils import (AutoWeightsLoader, flatten_bn,
                                               init_vllm_registered_model,
                                               maybe_prefix)
@@ -38,19 +44,160 @@ from vllm.multimodal.processing import (BaseMultiModalProcessor,
                                         BaseProcessingInfo, PromptReplacement)
 from vllm.multimodal.profiling import BaseDummyInputsBuilder
 from vllm.sequence import IntermediateTensors
-from vllm.transformers_utils.configs.ovis2 import OvisConfig
-from vllm.transformers_utils.processors.ovis2 import OvisProcessor
+from vllm.transformers_utils.configs.ovis import (BaseVisualTokenizerConfig,
+                                                  OvisConfig)
+from vllm.transformers_utils.processors.ovis import OvisProcessor
 
 from .interfaces import MultiModalEmbeddings, SupportsMultiModal
 from .utils import merge_multimodal_embeddings
 
 # Cannot find the following number from hf config.
 IMAGE_TOKEN = "<image>"
-IMAGE_PAD_TOKEN_ID = 151655
-NUMBER_OF_TOKEN_TO_RESERVE_FOR_SEGMENT = 256
+IMAGE_INDICATOR_IDS = [-301, -302, -303, -304, -305]
 
+IMAGE_PAD_TOKEN_MAP = {
+    "gemma2": "<unused0>",
+    "llama": "<|reserved_special_token_0|>",
+    "qwen2": "<|image_pad|>",
+}
+IMAGE_PAD_TOKEN_ID_MAP = {
+    "gemma2": 7,
+    "llama": 128002,
+    "qwen2": 151655,
+}
 
-class Ovis2ImagePatchInputs(TypedDict):
+
+def st_argmax(y_soft: torch.Tensor, dim: int):  # straight-through softmax
+    index = y_soft.argmax(dim, keepdim=True)
+    return torch.zeros_like(
+        y_soft,
+        memory_format=torch.legacy_contiguous_format,
+    ).scatter_(dim, index, 1.0)
+
+
+class VisualTokenizer(torch.nn.Module):
+
+    def __init__(
+        self,
+        config: BaseVisualTokenizerConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.config = config
+        self.backbone = self._init_backbone(
+            config=config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.backbone",
+        )
+        # reserved tokens for IMAGE_INDICATORS
+        head_dim = config.vocab_size - len(IMAGE_INDICATOR_IDS)
+        self.head = torch.nn.Sequential(
+            ReplicatedLinear(
+                config.backbone_config.hidden_size * config.hidden_stride *
+                config.hidden_stride,
+                head_dim,
+                bias=False,
+                return_bias=False,
+            ), torch.nn.LayerNorm(head_dim))
+
+    def _init_backbone(
+        self,
+        config: BaseVisualTokenizerConfig,
+        quant_config: Optional[QuantizationConfig] = None,
+        prefix: str = "",
+    ):
+        model_type = config.backbone_config.model_type
+        if model_type == "aimv2":
+            return AIMv2Model(
+                config=config.backbone_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            )
+        elif model_type == "siglip_vision_model":
+            return SiglipVisionModel(
+                config=config.backbone_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            )
+        raise ValueError(
+            f"Unsupported visual tokenizer model_type: {model_type}")
+
+    @property
+    def dtype(self):
+        return next(self.head.parameters()).dtype
+
+    @property
+    def device(self):
+        return next(self.head.parameters()).device
+
+    def tokenize(self, logits):
+        if self.config.tokenize_function == 'softmax':
+            tokens = softmax(logits, dim=-1)
+        elif self.config.tokenize_function == 'gumbel_argmax':
+            tokens = gumbel_softmax(logits, tau=self.config.tau, hard=True)
+        elif self.config.tokenize_function == 'st_argmax':
+            tokens = st_argmax(logits, dim=-1)
+        else:
+            raise ValueError(
+                'Invalid `max_type`, expected softmax or gumbel_argmax '
+                f'or st_argmax, but got {self.config.tokenize_function}')
+        return tokens
+
+    def encode(self, pixel_values):
+        features = self.backbone(pixel_values)
+        if self.config.drop_cls_token:
+            features = features[:, 1:, :]
+
+        # merge number of `hidden_stride * hidden_stride` hidden states together
+        # to reduce token sequence length
+        # e.g., for hidden_stride=2, this leads to a token length reduction:
+        # 1024 -> 256 for aimv2
+        if self.config.hidden_stride > 1:
+            # this `d` maybe different from the above `d``
+            n, L, d = features.shape
+            sqrt_l = int(L**0.5)
+            assert sqrt_l**2 == L, (
+                "The token sequence length should be a perfect square.")
+            features = features.reshape(n, sqrt_l, sqrt_l, d)
+            pl = (self.config.hidden_stride -
+                  (sqrt_l %
+                   self.config.hidden_stride)) % self.config.hidden_stride
+            features = pad(features, (0, 0, 0, pl, 0, pl), "constant", 0)
+            sqrt_l += pl
+            features = features.reshape(n, sqrt_l // self.config.hidden_stride,
+                                        self.config.hidden_stride,
+                                        sqrt_l // self.config.hidden_stride,
+                                        self.config.hidden_stride, d)
+            # [n, sqrt_l/hs, sqrt_l/hs, hs, hs, d]
+            features = features.permute(0, 1, 3, 2, 4, 5)
+            # [n, sqrt_l/hs, sqrt_l/hs, hs*hs*d]
+            features = features.flatten(3)
+            # [n, sqrt_l/hs*sqrt_l/hs, hs*hs*d]
+            features = features.reshape(
+                n, -1,
+                self.config.hidden_stride * self.config.hidden_stride * d)
+
+        return features
+
+    def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        """[BatchSize, ImageShape] -> [BatchSize, Token, VocabSize]"""
+        features = self.encode(pixel_values)
+        logits = self.head(features)
+        tokens = self.tokenize(logits)
+        # tokens' shape is [BatchSize, #Token, VocabSize-5], so padding with
+        # [BatchSize, #Token, 5], after which, tokens' shape should become
+        # [BatchSize, #Token, VocabSize]
+        tokens = torch.nn.functional.pad(
+            tokens,
+            (0, len(IMAGE_INDICATOR_IDS)),
+            mode="constant",
+            value=0,
+        )
+        return tokens
+
+
+class OvisImagePatchInputs(TypedDict):
     type: Literal["image_patches"]
     flat_data: torch.Tensor
     """
@@ -92,31 +239,50 @@ class VisualEmbedding(torch.nn.Embedding):
         return self.weight.dtype
 
 
-class Ovis2ProcessingInfo(BaseProcessingInfo):
+class OvisProcessingInfo(BaseProcessingInfo):
 
     def get_hf_config(self):
         return self.ctx.get_hf_config(OvisConfig)
 
     def get_hf_processor(self, **kwargs):
-        return self.ctx.get_hf_processor(OvisProcessor)
+        return self.ctx.get_hf_processor(
+            OvisProcessor,
+            image_pad_token=self.get_image_pad_token(),
+            image_segment_len=self.get_image_segment_len(),
+        )
 
-    def get_image_processor(self) -> OvisProcessor:
+    def get_image_segment_len(self) -> int:
+        visual_tokenizer_config = self.get_hf_config().visual_tokenizer_config
+        image_size = visual_tokenizer_config.backbone_config.image_size
+        patch_size = visual_tokenizer_config.backbone_config.patch_size
+        hidden_stride = visual_tokenizer_config.hidden_stride
+        patch_grid_length = math.ceil(image_size / patch_size)
+        assert patch_grid_length % hidden_stride == 0, (
+            f"patch_grid_length {patch_grid_length} is not divisible by "
+            f"hidden_stride {hidden_stride}")
+        # minus 1 for presented image token
+        return (patch_grid_length // hidden_stride)**2 - 1
+
+    def get_image_pad_token(self) -> str:
+        hf_text_config = self.get_hf_config().get_text_config()
+        text_model_type = hf_text_config.model_type
+        return IMAGE_PAD_TOKEN_MAP.get(text_model_type)
+
+    def get_image_processor(self) -> BaseImageProcessor:
         return self.get_hf_processor().image_processor  # type: ignore
 
     def get_supported_mm_limits(self) -> Mapping[str, Optional[int]]:
-        return {  # 32k is model token limit at the moment
-            "image":
-            self.get_hf_config().multimodal_max_length //
-            ((9 + 1) * NUMBER_OF_TOKEN_TO_RESERVE_FOR_SEGMENT)
-        }
+        return {"image": None}
 
     def get_image_size_with_most_features(self) -> ImageSize:
-        image_processor = self.get_image_processor()
-        return ImageSize(width=image_processor.size['shortest_edge'] * 9 * 2,
-                         height=image_processor.size['shortest_edge'] * 9 * 2)
+        height, width = self.get_hf_processor().get_image_size()
+        hs = self.get_hf_config().visual_tokenizer_config.hidden_stride
+        # NOTE(Isotr0py): 9 is `max_partion` hardcoded in original code
+        # https://huggingface.co/AIDC-AI/Ovis2-1B/blob/main/modeling_ovis.py#L96
+        return ImageSize(width=width * hs * 9, height=height * hs * 9)
 
 
-class Ovis2DummyInputsBuilder(BaseDummyInputsBuilder[Ovis2ProcessingInfo]):
+class OvisDummyInputsBuilder(BaseDummyInputsBuilder[OvisProcessingInfo]):
 
     def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
         num_images = mm_counts.get("image", 0)
@@ -141,7 +307,7 @@ class Ovis2DummyInputsBuilder(BaseDummyInputsBuilder[Ovis2ProcessingInfo]):
         return mm_data
 
 
-class Ovis2MultiModalProcessor(BaseMultiModalProcessor[Ovis2ProcessingInfo]):
+class OvisMultiModalProcessor(BaseMultiModalProcessor[OvisProcessingInfo]):
 
     def image_indicators_to_visual_tokens(
         self,
@@ -165,9 +331,9 @@ class Ovis2MultiModalProcessor(BaseMultiModalProcessor[Ovis2ProcessingInfo]):
         mm_kwargs: Mapping[str, object],
     ) -> BatchFeature:
         if not mm_data:
-            #    # Avoid warning from HF logger for text-only input
-            prompt_ids = self.info.get_tokenizer().encode(prompt)
-            # prompt_ids = self._apply_hf_processor_tokens_only(prompt_ids) nope
+            # Avoid warning from HF logger for text-only input
+            tokenizer = self.info.get_tokenizer()
+            prompt_ids = tokenizer.encode(prompt, add_special_tokens=False)
             return BatchFeature(dict(input_ids=[prompt_ids]), tensor_type="pt")
 
         processed_outputs = super()._call_hf_processor(
@@ -226,10 +392,10 @@ class Ovis2MultiModalProcessor(BaseMultiModalProcessor[Ovis2ProcessingInfo]):
         ]
 
 
-@MULTIMODAL_REGISTRY.register_processor(Ovis2MultiModalProcessor,
-                                        info=Ovis2ProcessingInfo,
-                                        dummy_inputs=Ovis2DummyInputsBuilder)
-class Ovis2ForConditionalGeneration(nn.Module, SupportsMultiModal):
+@MULTIMODAL_REGISTRY.register_processor(OvisMultiModalProcessor,
+                                        info=OvisProcessingInfo,
+                                        dummy_inputs=OvisDummyInputsBuilder)
+class Ovis(nn.Module, SupportsMultiModal):
 
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         super().__init__()
@@ -242,24 +408,25 @@ class Ovis2ForConditionalGeneration(nn.Module, SupportsMultiModal):
             prefix=maybe_prefix(prefix, "llm"),
         )
 
-        self.visual_tokenizer = Aimv2VisualTokenizer(
+        self.visual_tokenizer = VisualTokenizer(
             config=config.visual_tokenizer_config,
             quant_config=quant_config,
             prefix=f"{prefix}.visual_tokenizer",
-            image_processor_name_or_path=config.visual_tokenizer_config.
-            backbone_config.name_or_path,
         )
 
         self.vte = VisualEmbedding(
             self.config.visual_tokenizer_config.vocab_size,
             self.config.hidden_size)
 
+        text_model_type = self.config.get_text_config().model_type
+        self.image_pad_token_id = IMAGE_PAD_TOKEN_ID_MAP[text_model_type]
+
         # TODO(Isotr0py): PP support
         # self.make_empty_intermediate_tensors = (
         #    self.language_model.make_empty_intermediate_tensors)
 
     def _parse_and_validate_image_input(
-            self, **kwargs: object) -> Optional[Ovis2ImagePatchInputs]:
+            self, **kwargs: object) -> Optional[OvisImagePatchInputs]:
         pixel_values = kwargs.pop("pixel_values", None)
         indicator_tokens = kwargs.pop("indicator_tokens", None)
 
@@ -275,7 +442,7 @@ class Ovis2ForConditionalGeneration(nn.Module, SupportsMultiModal):
                 raise ValueError("Incorrect type of indicator_tokens. "
                                  f"Got type: {type(pixel_values)}")
 
-            return Ovis2ImagePatchInputs(
+            return OvisImagePatchInputs(
                 type="image_patches",
                 flat_data=flatten_bn(flatten_bn(pixel_values), concat=True),
                 patches_per_image=[
@@ -288,7 +455,7 @@ class Ovis2ForConditionalGeneration(nn.Module, SupportsMultiModal):
         raise AssertionError("This line should be unreachable.")
 
     def _process_image_input(
-            self, image_input: Ovis2ImagePatchInputs) -> MultiModalEmbeddings:
+            self, image_input: OvisImagePatchInputs) -> MultiModalEmbeddings:
         image_patches_flat = image_input["flat_data"]
         patches_per_image = image_input["patches_per_image"]
         indicator_tokens = image_input["indicator_tokens"]
@@ -338,7 +505,7 @@ class Ovis2ForConditionalGeneration(nn.Module, SupportsMultiModal):
         if multimodal_embeddings is not None:
             inputs_embeds = merge_multimodal_embeddings(
                 input_ids, inputs_embeds, multimodal_embeddings,
-                [IMAGE_PAD_TOKEN_ID])
+                self.image_pad_token_id)
         return inputs_embeds
 
     def forward(
@@ -375,8 +542,7 @@ class Ovis2ForConditionalGeneration(nn.Module, SupportsMultiModal):
         hidden_states: torch.Tensor,
         sampling_metadata: SamplingMetadata,
     ) -> Optional[torch.Tensor]:
-        logits = self.llm.logits_processor(self.llm.lm_head, hidden_states,
-                                           sampling_metadata)
+        logits = self.llm.compute_logits(hidden_states, sampling_metadata)
         return logits
 
     def load_weights(self, weights: Iterable[Tuple[str,
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index aef456619..c5414e129 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -195,7 +195,7 @@ _MULTIMODAL_MODELS = {
     "Mistral3ForConditionalGeneration": ("mistral3", "Mistral3ForConditionalGeneration"),  # noqa: E501
     "MolmoForCausalLM": ("molmo", "MolmoForCausalLM"),
     "NVLM_D": ("nvlm_d", "NVLM_D_Model"),
-    "Ovis2ForConditionalGeneration": ("ovis2", "Ovis2ForConditionalGeneration"),
+    "Ovis": ("ovis", "Ovis"),
     "PaliGemmaForConditionalGeneration": ("paligemma", "PaliGemmaForConditionalGeneration"),  # noqa: E501
     "Phi3VForCausalLM": ("phi3v", "Phi3VForCausalLM"),
     "PixtralForConditionalGeneration": ("pixtral", "PixtralForConditionalGeneration"),  # noqa: E501
diff --git a/vllm/transformers_utils/configs/__init__.py b/vllm/transformers_utils/configs/__init__.py
index db3efafee..ed10c22c8 100644
--- a/vllm/transformers_utils/configs/__init__.py
+++ b/vllm/transformers_utils/configs/__init__.py
@@ -23,7 +23,7 @@ from vllm.transformers_utils.configs.moonvit import MoonViTConfig
 from vllm.transformers_utils.configs.mpt import MPTConfig
 from vllm.transformers_utils.configs.nemotron import NemotronConfig
 from vllm.transformers_utils.configs.nvlm_d import NVLM_D_Config
-from vllm.transformers_utils.configs.ovis2 import OvisConfig
+from vllm.transformers_utils.configs.ovis import OvisConfig
 from vllm.transformers_utils.configs.skyworkr1v import SkyworkR1VChatConfig
 from vllm.transformers_utils.configs.solar import SolarConfig
 from vllm.transformers_utils.configs.telechat2 import Telechat2Config
diff --git a/vllm/transformers_utils/configs/ovis2.py b/vllm/transformers_utils/configs/ovis.py
similarity index 93%
rename from vllm/transformers_utils/configs/ovis2.py
rename to vllm/transformers_utils/configs/ovis.py
index 437a16e77..0ec224214 100644
--- a/vllm/transformers_utils/configs/ovis2.py
+++ b/vllm/transformers_utils/configs/ovis.py
@@ -123,6 +123,19 @@ class Aimv2VisualTokenizerConfig(BaseVisualTokenizerConfig):
             self.backbone_kwargs['num_hidden_layers'] = self.depths[0]
 
 
+class SiglipVisualTokenizerConfig(BaseVisualTokenizerConfig):
+    model_type = "siglip_visual_tokenizer"
+
+    def __init__(self, **kwargs):
+        super().__init__(**kwargs)
+        if self.drop_cls_token:
+            self.drop_cls_token = False
+        if self.depths:
+            assert len(self.depths) == 1
+            self.backbone_kwargs['num_hidden_layers'] = self.depths[0]
+
+
+AutoConfig.register("siglip_visual_tokenizer", SiglipVisualTokenizerConfig)
 AutoConfig.register("aimv2_visual_tokenizer", Aimv2VisualTokenizerConfig)
 
 
diff --git a/vllm/transformers_utils/processors/__init__.py b/vllm/transformers_utils/processors/__init__.py
index 2e9cf3e4d..2bd9ab1f0 100644
--- a/vllm/transformers_utils/processors/__init__.py
+++ b/vllm/transformers_utils/processors/__init__.py
@@ -2,6 +2,6 @@
 
 from vllm.transformers_utils.processors.deepseek_vl2 import (
     DeepseekVLV2Processor)
-from vllm.transformers_utils.processors.ovis2 import OvisProcessor
+from vllm.transformers_utils.processors.ovis import OvisProcessor
 
 __all__ = ["DeepseekVLV2Processor", "OvisProcessor"]
diff --git a/vllm/transformers_utils/processors/ovis2.py b/vllm/transformers_utils/processors/ovis.py
similarity index 94%
rename from vllm/transformers_utils/processors/ovis2.py
rename to vllm/transformers_utils/processors/ovis.py
index a633256ec..48e786792 100644
--- a/vllm/transformers_utils/processors/ovis2.py
+++ b/vllm/transformers_utils/processors/ovis.py
@@ -22,6 +22,7 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
+from functools import cached_property
 from typing import List, Union
 
 import PIL
@@ -32,7 +33,7 @@ from transformers.processing_utils import (ProcessingKwargs, ProcessorMixin,
                                            Unpack)
 from transformers.tokenization_utils_base import PreTokenizedInput, TextInput
 
-__all__ = [ 'OvisProcessor']
+__all__ = ['OvisProcessor']
 IGNORE_ID = -100
 
 class OvisProcessorKwargs(ProcessingKwargs, total=False):   # type: ignore[call-arg]
@@ -64,18 +65,29 @@ class OvisProcessor(ProcessorMixin):
     """
 
     attributes = ["image_processor", "tokenizer"]
-    valid_kwargs = ["chat_template"]
+    valid_kwargs = ["chat_template", "image_pad_token", "image_segement_len"]
 
     image_processor_class = "AutoImageProcessor"
-    tokenizer_class = "Qwen2Tokenizer"
+    tokenizer_class = "AutoTokenizer"
 
-    def __init__(self, image_processor=None, tokenizer=None, chat_template=None, image_pad_token=None, **kwargs):
+    def __init__(
+        self,
+        image_processor=None,
+        tokenizer=None,
+        chat_template=None,
+        image_pad_token=None,
+        image_segment_len=255,
+        **kwargs,
+    ):
         self.image_token = "<image>"
-        self.image_pad_token = "<|image_pad|>" if image_pad_token is None else image_pad_token
+        self.image_pad_token = image_pad_token
+        self.image_segment_len = image_segment_len
         super().__init__(image_processor, tokenizer, chat_template=chat_template)
 
-        self.image_pad_token_id = self.tokenizer.get_vocab()[self.image_pad_token]
-        self.extra_special_tokens = {
+    @cached_property
+    def extra_special_tokens(self):
+        image_pad_token_id = self.tokenizer.get_vocab()[self.image_pad_token]
+        extra_special_tokens = {
             "image_token": -200,
             "image_atom": -300,
             "image_start": -301,
@@ -83,8 +95,9 @@ class OvisProcessor(ProcessorMixin):
             "image_col_sep": -303,
             "image_row_sep": -304,
             "image_end": -305,
-            'image_pad': self.image_pad_token_id,
+            'image_pad': image_pad_token_id,
         }
+        return extra_special_tokens
 
     def __call__(
         self,
@@ -224,8 +237,14 @@ class OvisProcessor(ProcessorMixin):
         return torch.tensor(batch_token_ids, dtype=torch.long)
 
     def get_image_size(self):
-        height = self.image_processor.crop_size["height"]
-        width = self.image_processor.crop_size["width"]
+        size = self.image_processor.size
+        if 'shortest_edge' in size:
+            width = height = size['shortest_edge']
+        elif "height" in size and "width" in size:
+            width = size['width']
+            height = size['height']
+        else:
+            raise ValueError( "Can't parse image size from image_processor config.")
         return height, width
 
     def get_token_value(self, tok):
@@ -259,8 +278,7 @@ class OvisProcessor(ProcessorMixin):
         for token in image_placeholders:
             padded_placeholder_tokens.append(image_padding_token_id)
             if token == image_atom_token_id:
-                # Add 255 padding tokens after each image atom token
-                padded_placeholder_tokens.extend([image_padding_token_id] * 255)
+                padded_placeholder_tokens.extend([image_padding_token_id] * self.image_segment_len)
         return padded_placeholder_tokens
 
     def preprocess_image(self, image: PIL.Image.Image, max_partition, covering_threshold, convert_to_rgb, return_tensors):
-- 
GitLab


From d45fe333fb8d3ab73d73a6458e3cde73f14f0d7e Mon Sep 17 00:00:00 2001
From: youkaichao <youkaichao@gmail.com>
Date: Mon, 12 May 2025 09:02:39 +0800
Subject: [PATCH 283/461] [misc] add instructions on how to install
 nvshmem/pplx/deepep (#17964)

Signed-off-by: youkaichao <youkaichao@gmail.com>
---
 tools/ep_kernels/README.md                   | 27 +++++++
 tools/ep_kernels/install_python_libraries.sh | 77 ++++++++++++++++++++
 tools/ep_kernels/install_system_drivers.sh   | 24 ++++++
 tools/ep_kernels/install_system_libraries.sh | 18 +++++
 4 files changed, 146 insertions(+)
 create mode 100644 tools/ep_kernels/README.md
 create mode 100644 tools/ep_kernels/install_python_libraries.sh
 create mode 100644 tools/ep_kernels/install_system_drivers.sh
 create mode 100644 tools/ep_kernels/install_system_libraries.sh

diff --git a/tools/ep_kernels/README.md b/tools/ep_kernels/README.md
new file mode 100644
index 000000000..5c98e999d
--- /dev/null
+++ b/tools/ep_kernels/README.md
@@ -0,0 +1,27 @@
+Large-scale cluster-level expert parallel, as described in the [DeepSeek-V3 Technical Report](http://arxiv.org/abs/2412.19437), is an efficient way to deploy sparse MoE models with many experts. However, such deployment requires many components beyond a normal Python package, including system package support and system driver support. It is impossible to bundle all these components into a Python package.
+
+Here we break down the requirements in 3 steps:
+1. Build and install the Python libraries (both [pplx-kernels](https://github.com/ppl-ai/pplx-kernels) and [DeepEP](https://github.com/deepseek-ai/DeepEP)), including necessary dependencies like NVSHMEM. This step does not require any privileged access. Any user can do this.
+2. Build and install the system libraries (GDR Copy). This step requires root access. You can do it inside a Docker container so that they can be shipped as a single image.
+3. Build and install the system drivers (GDR Copy, and necessary modifications to NVIDIA driver to enable IBGDA). This step requires root access, and must be done on the host machine.
+
+2 and 3 are necessary for multi-node deployment.
+
+All scripts accept a positional argument as workspace path for staging the build, defaulting to `$(pwd)/ep_kernels_workspace`.
+
+# Usage
+
+## Single-node
+
+```bash
+bash install_python_libraries.sh
+```
+
+## Multi-node
+
+```bash
+bash install_python_libraries.sh
+sudo bash install_system_libraries.sh
+sudo bash install_system_drivers.sh
+sudo reboot # Reboot is required to load the new driver
+```
diff --git a/tools/ep_kernels/install_python_libraries.sh b/tools/ep_kernels/install_python_libraries.sh
new file mode 100644
index 000000000..e5632f4b5
--- /dev/null
+++ b/tools/ep_kernels/install_python_libraries.sh
@@ -0,0 +1,77 @@
+set -ex
+
+# prepare workspace directory
+WORKSPACE=$1
+if [ -z "$WORKSPACE" ]; then
+    export WORKSPACE=$(pwd)/ep_kernels_workspace
+fi
+
+if [ ! -d "$WORKSPACE" ]; then
+    mkdir -p $WORKSPACE
+fi
+
+# install dependencies if not installed
+pip3 install cmake torch ninja
+
+# build gdrcopy, required by nvshmem
+pushd $WORKSPACE
+wget https://github.com/NVIDIA/gdrcopy/archive/refs/tags/v2.4.4.tar.gz
+mkdir -p gdrcopy_src
+tar -xvf v2.4.4.tar.gz -C gdrcopy_src --strip-components=1
+pushd gdrcopy_src
+make -j$(nproc)
+make prefix=$WORKSPACE/gdrcopy_install install
+popd
+
+# build nvshmem
+pushd $WORKSPACE
+mkdir -p nvshmem_src
+wget https://developer.download.nvidia.com/compute/redist/nvshmem/3.2.5/source/nvshmem_src_3.2.5-1.txz
+tar -xvf nvshmem_src_3.2.5-1.txz -C nvshmem_src --strip-components=1
+pushd nvshmem_src
+wget https://github.com/deepseek-ai/DeepEP/raw/main/third-party/nvshmem.patch
+git init
+git apply -vvv nvshmem.patch
+
+# assume CUDA_HOME is set correctly
+export GDRCOPY_HOME=$WORKSPACE/gdrcopy_install
+export NVSHMEM_SHMEM_SUPPORT=0
+export NVSHMEM_UCX_SUPPORT=0
+export NVSHMEM_USE_NCCL=0
+export NVSHMEM_IBGDA_SUPPORT=1
+export NVSHMEM_PMIX_SUPPORT=0
+export NVSHMEM_TIMEOUT_DEVICE_POLLING=0
+export NVSHMEM_USE_GDRCOPY=1
+export NVSHMEM_IBRC_SUPPORT=1
+
+# remove MPI dependency
+export NVSHMEM_BUILD_TESTS=0
+export NVSHMEM_BUILD_EXAMPLES=0
+export NVSHMEM_MPI_SUPPORT=0
+
+cmake -S . -B $WORKSPACE/nvshmem_build/ -DCMAKE_INSTALL_PREFIX=$WORKSPACE/nvshmem_install
+
+cd $WORKSPACE/nvshmem_build/
+make -j$(nproc)
+make install
+
+popd
+
+export CMAKE_PREFIX_PATH=$WORKSPACE/nvshmem_install:$CMAKE_PREFIX_PATH
+
+# build and install pplx, require pytorch installed
+pushd $WORKSPACE
+git clone https://github.com/ppl-ai/pplx-kernels
+cd pplx-kernels
+# see https://github.com/pypa/pip/issues/9955#issuecomment-838065925
+# PIP_NO_BUILD_ISOLATION=0 disables build isolation
+PIP_NO_BUILD_ISOLATION=0 TORCH_CUDA_ARCH_LIST=9.0a+PTX pip install -vvv -e  .
+popd
+
+# build and install deepep, require pytorch installed
+pushd $WORKSPACE
+git clone https://github.com/deepseek-ai/DeepEP
+cd DeepEP
+export NVSHMEM_DIR=$WORKSPACE/nvshmem_install
+PIP_NO_BUILD_ISOLATION=0 pip install -vvv -e  .
+popd
diff --git a/tools/ep_kernels/install_system_drivers.sh b/tools/ep_kernels/install_system_drivers.sh
new file mode 100644
index 000000000..8b0669ef4
--- /dev/null
+++ b/tools/ep_kernels/install_system_drivers.sh
@@ -0,0 +1,24 @@
+set -ex
+
+# prepare workspace directory
+WORKSPACE=$1
+if [ -z "$WORKSPACE" ]; then
+    export WORKSPACE=$(pwd)/ep_kernels_workspace
+fi
+
+if [ ! -d "$WORKSPACE" ]; then
+    mkdir -p $WORKSPACE
+fi
+
+# build and install gdrcopy driver
+pushd $WORKSPACE
+cd gdrcopy_src
+./insmod.sh
+# run gdrcopy_copybw to test the installation
+$WORKSPACE/gdrcopy_install/bin/gdrcopy_copybw
+
+# turn on IBGDA
+echo 'options nvidia NVreg_EnableStreamMemOPs=1 NVreg_RegistryDwords="PeerMappingOverride=1;"' | tee -a /etc/modprobe.d/nvidia.conf
+update-initramfs -u
+
+echo "Please reboot the system to apply the changes"
diff --git a/tools/ep_kernels/install_system_libraries.sh b/tools/ep_kernels/install_system_libraries.sh
new file mode 100644
index 000000000..c148d5443
--- /dev/null
+++ b/tools/ep_kernels/install_system_libraries.sh
@@ -0,0 +1,18 @@
+set -ex
+
+# prepare workspace directory
+WORKSPACE=$1
+if [ -z "$WORKSPACE" ]; then
+    export WORKSPACE=$(pwd)/ep_kernels_workspace
+fi
+
+if [ ! -d "$WORKSPACE" ]; then
+    mkdir -p $WORKSPACE
+fi
+
+# build and install gdrcopy system packages
+pushd $WORKSPACE
+cd gdrcopy_src/packages
+apt install devscripts -y
+CUDA=${CUDA_HOME:-/usr/local/cuda} ./build-deb-packages.sh
+dpkg -i *.deb
-- 
GitLab


From 08bf7840780980c7568c573c70a6a8db94fd45ff Mon Sep 17 00:00:00 2001
From: Cheng Kuan Yong Jason <jasoncky96@gmail.com>
Date: Mon, 12 May 2025 09:06:10 +0800
Subject: [PATCH 284/461] [Bugfix] validate grammar and throw 400 error instead
 of crashing the engine when xgrammar validation fails (#17623)

Signed-off-by: Jason Cheng <jasoncky96@gmail.com>
Co-authored-by: Russell Bryant <rbryant@redhat.com>
---
 .../openai/test_chat_completion.py            | 137 ++++++++++++++++++
 .../v1/entrypoints/openai/test_completion.py  |  94 ++++++++++++
 vllm/v1/engine/processor.py                   |   4 +-
 vllm/v1/structured_output/backend_xgrammar.py |   6 +
 4 files changed, 240 insertions(+), 1 deletion(-)
 create mode 100644 tests/v1/entrypoints/openai/test_chat_completion.py

diff --git a/tests/v1/entrypoints/openai/test_chat_completion.py b/tests/v1/entrypoints/openai/test_chat_completion.py
new file mode 100644
index 000000000..c650ccd0c
--- /dev/null
+++ b/tests/v1/entrypoints/openai/test_chat_completion.py
@@ -0,0 +1,137 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import openai  # use the official client for correctness check
+import pytest
+import pytest_asyncio
+
+from tests.utils import RemoteOpenAIServer
+
+# any model with a chat template defined in tokenizer_config should work here
+MODEL_NAME = "Qwen/Qwen2.5-1.5B-Instruct"
+
+
+@pytest.fixture(scope="module")
+def default_server_args():
+    return [
+        # use half precision for speed and memory savings in CI environment
+        "--max-model-len",
+        "2048",
+        "--max-num-seqs",
+        "128",
+        "--enforce-eager",
+    ]
+
+
+@pytest.fixture(scope="module")
+def server(default_server_args):
+    with RemoteOpenAIServer(MODEL_NAME, default_server_args) as remote_server:
+        yield remote_server
+
+
+@pytest_asyncio.fixture
+async def client(server):
+    async with server.get_async_client() as async_client:
+        yield async_client
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize(
+    "model_name",
+    [MODEL_NAME],
+)
+async def test_invalid_json_schema(client: openai.AsyncOpenAI,
+                                   model_name: str) -> None:
+    invalid_json_schema = {
+        "$defs": {
+            "CarType": {
+                "enum": ["sedan", "SUV", "Truck", "Coupe"],
+                "title": "CarType",
+                "type": "string",
+            }
+        },
+        "properties": {
+            "brand": {
+                "title": "Brand",
+                "type": "string"
+            },
+            "model": {
+                "title": "Model",
+                "type": "string"
+            },
+            "car_type": {
+                "$ref": "#/$defs/CarType"
+            },
+            "foo": "bar",
+        },
+        "required": ["brand", "model", "car_type"],
+        "title": "CarDescription",
+        "type": "object",
+    }
+    prompt = ("Generate a JSON with the brand, model and car_type of"
+              "the most iconic car from the 90's")
+    with pytest.raises((openai.BadRequestError, openai.APIError)):
+        await client.chat.completions.create(
+            model=model_name,
+            messages=[{
+                "role": "user",
+                "content": prompt,
+            }],
+            extra_body={"guided_json": invalid_json_schema},
+        )
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize(
+    "model_name",
+    [MODEL_NAME],
+)
+async def test_invalid_regex(client: openai.AsyncOpenAI, model_name: str):
+    prompt = ("Generate an email address for Alan Turing, who works in Enigma."
+              "End in .com and new line. Example result:"
+              "alan.turing@enigma.com\n")
+
+    with pytest.raises((openai.BadRequestError, openai.APIError)):
+        await client.chat.completions.create(
+            model=model_name,
+            messages=[{
+                "role": "user",
+                "content": prompt,
+            }],
+            extra_body={
+                "guided_regex": r"[.*",
+                "stop": ["\n"]
+            },
+        )
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize(
+    "model_name",
+    [MODEL_NAME],
+)
+async def test_invalid_grammar(client: openai.AsyncOpenAI, model_name: str):
+    invalid_simplified_sql_grammar = """
+        root ::= select_statementinvalidsyntax
+
+        select_statement ::= "SELECT " column " from " table " where " condition
+
+        column ::= "col_1 " | "col_2 "
+
+        table ::= "table_1 " | "table_2 "
+
+        condition ::= column "= " number
+
+        number ::= "1 " | "2 "
+    """
+
+    prompt = ("Generate an SQL query to show the 'username' and 'email'"
+              "from the 'users' table.")
+    with pytest.raises((openai.BadRequestError, openai.APIError)):
+        await client.chat.completions.create(
+            model=model_name,
+            messages=[{
+                "role": "user",
+                "content": prompt,
+            }],
+            extra_body={"guided_grammar": invalid_simplified_sql_grammar},
+        )
diff --git a/tests/v1/entrypoints/openai/test_completion.py b/tests/v1/entrypoints/openai/test_completion.py
index 57ca99e1f..3ffc54f52 100644
--- a/tests/v1/entrypoints/openai/test_completion.py
+++ b/tests/v1/entrypoints/openai/test_completion.py
@@ -584,3 +584,97 @@ async def test_echo_logprob_completion(client: openai.AsyncOpenAI,
             assert max(logprobs_arg,
                        1) <= len(top_logprobs) <= logprobs_arg + 1
         assert len(logprobs.tokens) > 5
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize(
+    "model_name",
+    [MODEL_NAME],
+)
+async def test_invalid_json_schema(client: openai.AsyncOpenAI,
+                                   model_name: str) -> None:
+    invalid_json_schema = {
+        "$defs": {
+            "CarType": {
+                "enum": ["sedan", "SUV", "Truck", "Coupe"],
+                "title": "CarType",
+                "type": "string",
+            }
+        },
+        "properties": {
+            "brand": {
+                "title": "Brand",
+                "type": "string"
+            },
+            "model": {
+                "title": "Model",
+                "type": "string"
+            },
+            "car_type": {
+                "$ref": "#/$defs/CarType"
+            },
+            "foo": "bar",
+        },
+        "required": ["brand", "model", "car_type"],
+        "title": "CarDescription",
+        "type": "object",
+    }
+    prompt = ("Generate a JSON with the brand, model and car_type of"
+              "the most iconic car from the 90's")
+    with pytest.raises((openai.BadRequestError, openai.APIError)):
+        await client.completions.create(
+            model=model_name,
+            prompt=prompt,
+            extra_body={"guided_json": invalid_json_schema},
+        )
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize(
+    "model_name",
+    [MODEL_NAME],
+)
+async def test_invalid_regex(client: openai.AsyncOpenAI, model_name: str):
+    prompt = ("Generate an email address for Alan Turing, who works in Enigma."
+              "End in .com and new line. Example result:"
+              "alan.turing@enigma.com\n")
+
+    with pytest.raises((openai.BadRequestError, openai.APIError)):
+        await client.completions.create(
+            model=model_name,
+            prompt=prompt,
+            extra_body={
+                "guided_regex": r"[.*",
+                "stop": ["\n"]
+            },
+        )
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize(
+    "model_name",
+    [MODEL_NAME],
+)
+async def test_invalid_grammar(client: openai.AsyncOpenAI, model_name: str):
+    invalid_simplified_sql_grammar = """
+        root ::= select_statementinvalidsyntax
+
+        select_statement ::= "SELECT " column " from " table " where " condition
+
+        column ::= "col_1 " | "col_2 "
+
+        table ::= "table_1 " | "table_2 "
+
+        condition ::= column "= " number
+
+        number ::= "1 " | "2 "
+    """
+
+    prompt = ("Generate an SQL query to show the 'username' and 'email'"
+              "from the 'users' table.")
+    with pytest.raises((openai.BadRequestError, openai.APIError)):
+        await client.completions.create(
+            model=model_name,
+            prompt=prompt,
+            extra_body={"guided_grammar": invalid_simplified_sql_grammar},
+        )
diff --git a/vllm/v1/engine/processor.py b/vllm/v1/engine/processor.py
index 2aa19f8bb..66be88738 100644
--- a/vllm/v1/engine/processor.py
+++ b/vllm/v1/engine/processor.py
@@ -188,8 +188,10 @@ class Processor:
                 validate_xgrammar_grammar(params)
                 params.guided_decoding.backend = "xgrammar"
             except ValueError:
-                # The request includes some jsonschema feature(s) that
+                # The request either failed validation
+                # or includes some jsonschema feature(s) that
                 # are not supported in xgrammar. Fall back to guidance.
+                validate_guidance_grammar(params, tokenizer=None)
                 params.guided_decoding.backend = "guidance"
             # Remember that this backend was set automatically
             params.guided_decoding.backend_was_auto = True
diff --git a/vllm/v1/structured_output/backend_xgrammar.py b/vllm/v1/structured_output/backend_xgrammar.py
index c82a3cab2..baa478bc6 100644
--- a/vllm/v1/structured_output/backend_xgrammar.py
+++ b/vllm/v1/structured_output/backend_xgrammar.py
@@ -282,6 +282,12 @@ def validate_xgrammar_grammar(sampling_params: SamplingParams) -> None:
         else:
             schema = gd_params.json
 
+        try:
+            xgr.Grammar.from_json_schema(schema)
+        except Exception as err:
+            raise ValueError("Failed to transform json schema into a grammar: "
+                             f"{err}") from err
+
         if has_xgrammar_unsupported_json_features(schema):
             raise ValueError("The provided JSON schema contains features not "
                              "supported by xgrammar.")
-- 
GitLab


From ada50aa2952fd0a7c645d75c9db472030131ddc7 Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Mon, 12 May 2025 12:58:02 +0800
Subject: [PATCH 285/461] [bugfix] fix the wrong parser (#17958)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 vllm/entrypoints/cli/collect_env.py | 7 +++----
 1 file changed, 3 insertions(+), 4 deletions(-)

diff --git a/vllm/entrypoints/cli/collect_env.py b/vllm/entrypoints/cli/collect_env.py
index d5f9f7e72..810ecfdf7 100644
--- a/vllm/entrypoints/cli/collect_env.py
+++ b/vllm/entrypoints/cli/collect_env.py
@@ -4,12 +4,11 @@ import argparse
 
 from vllm.collect_env import main as collect_env_main
 from vllm.entrypoints.cli.types import CLISubcommand
-from vllm.entrypoints.openai.cli_args import make_arg_parser
 from vllm.utils import FlexibleArgumentParser
 
 
 class CollectEnvSubcommand(CLISubcommand):
-    """The `serve` subcommand for the vLLM CLI. """
+    """The `collect-env` subcommand for the vLLM CLI. """
 
     def __init__(self):
         self.name = "collect-env"
@@ -23,12 +22,12 @@ class CollectEnvSubcommand(CLISubcommand):
     def subparser_init(
             self,
             subparsers: argparse._SubParsersAction) -> FlexibleArgumentParser:
-        serve_parser = subparsers.add_parser(
+        collect_env_parser = subparsers.add_parser(
             "collect-env",
             help="Start collecting environment information.",
             description="Start collecting environment information.",
             usage="vllm collect-env")
-        return make_arg_parser(serve_parser)
+        return collect_env_parser
 
 
 def cmd_init() -> list[CLISubcommand]:
-- 
GitLab


From 19a3c78d1ff8c6cfab078227bad1c8cb79f47887 Mon Sep 17 00:00:00 2001
From: Li Wang <wangli858794774@gmail.com>
Date: Mon, 12 May 2025 12:58:23 +0800
Subject: [PATCH 286/461] [Bugfix] Fix pydantic.errors.PydanticUserError
 (#17962)

Signed-off-by: wangli <wangli858794774@gmail.com>
---
 vllm/entrypoints/openai/serving_engine.py | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
index 37134cfb3..f1d907f51 100644
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -1,18 +1,24 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import json
+import sys
 import time
 from collections.abc import (AsyncGenerator, Iterable, Iterator, Mapping,
                              Sequence)
 from concurrent.futures.thread import ThreadPoolExecutor
 from http import HTTPStatus
 from typing import (Annotated, Any, Callable, ClassVar, Generic, Optional,
-                    TypedDict, TypeVar, Union)
+                    TypeVar, Union)
 
 from fastapi import Request
 from pydantic import BaseModel, ConfigDict, Field
 from starlette.datastructures import Headers
 
+if sys.version_info >= (3, 12):
+    from typing import TypedDict
+else:
+    from typing_extensions import TypedDict
+
 import vllm.envs as envs
 from vllm.config import ModelConfig
 from vllm.engine.protocol import EngineClient
-- 
GitLab


From 430783018cbfad69c6ff3a52479bf7b556b65247 Mon Sep 17 00:00:00 2001
From: Siyuan Liu <lsiyuan@google.com>
Date: Sun, 11 May 2025 21:58:33 -0700
Subject: [PATCH 287/461] [Bugfix][TPU] Use np array when updating cache
 slot_mapping (#17971)

Signed-off-by: Siyuan Liu <lsiyuan@google.com>
---
 vllm/v1/worker/tpu_model_runner.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/v1/worker/tpu_model_runner.py b/vllm/v1/worker/tpu_model_runner.py
index 983f8707a..687dabee2 100644
--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@@ -531,7 +531,7 @@ class TPUModelRunner(LoRAModelRunnerMixin):
         np.add(block_numbers * self.block_size,
                block_offsets,
                out=self.input_batch.block_table.
-               slot_mapping_cpu[:total_num_scheduled_tokens])
+               slot_mapping_np[:total_num_scheduled_tokens])
 
         # Prepare the attention metadata.
         self.query_start_loc_np[0] = 0
-- 
GitLab


From 891b9d33de7ee7b3ee95b9bd7bb8a9cffae0e08c Mon Sep 17 00:00:00 2001
From: Brayden Zhong <b8zhong@uwaterloo.ca>
Date: Mon, 12 May 2025 01:55:53 -0400
Subject: [PATCH 288/461] [Fix] Benchmark `"EngineClient" has no attribute
 "model_config"` (#17976)

Signed-off-by: Brayden Zhong <b8zhong@uwaterloo.ca>
---
 benchmarks/benchmark_throughput.py | 7 ++++---
 vllm/benchmarks/throughput.py      | 5 +++--
 2 files changed, 7 insertions(+), 5 deletions(-)

diff --git a/benchmarks/benchmark_throughput.py b/benchmarks/benchmark_throughput.py
index 1f65277e1..cd6c76ad6 100644
--- a/benchmarks/benchmark_throughput.py
+++ b/benchmarks/benchmark_throughput.py
@@ -146,9 +146,10 @@ async def run_vllm_async(
 
     async with build_async_engine_client_from_engine_args(
             engine_args, disable_frontend_multiprocessing) as llm:
+        model_config = await llm.get_model_config()
         assert all(
-            llm.model_config.max_model_len >= (request.prompt_len +
-                                               request.expected_output_len)
+            model_config.max_model_len >= (request.prompt_len +
+                                           request.expected_output_len)
             for request in requests), (
                 "Please ensure that max_model_len is greater than the sum of"
                 " prompt_len and expected_output_len for all requests.")
@@ -599,7 +600,7 @@ if __name__ == "__main__":
         "--lora-path",
         type=str,
         default=None,
-        help="Path to the lora adapters to use. This can be an absolute path, "
+        help="Path to the LoRA adapters to use. This can be an absolute path, "
         "a relative path, or a Hugging Face model identifier.")
     parser.add_argument(
         "--prefix-len",
diff --git a/vllm/benchmarks/throughput.py b/vllm/benchmarks/throughput.py
index b3e24911c..13110a8b4 100644
--- a/vllm/benchmarks/throughput.py
+++ b/vllm/benchmarks/throughput.py
@@ -148,9 +148,10 @@ async def run_vllm_async(
 
     async with build_async_engine_client_from_engine_args(
             engine_args, disable_frontend_multiprocessing) as llm:
+        model_config = await llm.get_model_config()
         assert all(
-            llm.model_config.max_model_len >= (request.prompt_len +
-                                               request.expected_output_len)
+            model_config.max_model_len >= (request.prompt_len +
+                                           request.expected_output_len)
             for request in requests), (
                 "Please ensure that max_model_len is greater than the sum of"
                 " prompt_len and expected_output_len for all requests.")
-- 
GitLab


From 3a5ea751292664265bdd0dd22da86d725e457816 Mon Sep 17 00:00:00 2001
From: Xu Wenqing <121550081+Xu-Wenqing@users.noreply.github.com>
Date: Mon, 12 May 2025 15:45:21 +0800
Subject: [PATCH 289/461] [Feature] Support DeepSeekV3 Function Call (#17784)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: 许文卿 <xwq391974@alibaba-inc.com>
Signed-off-by: Xu Wenqing <xuwq1993@qq.com>
---
 docs/source/features/tool_calling.md          |   7 +
 examples/tool_chat_template_deepseekv3.jinja  |  96 +++++
 .../openai/tool_parsers/__init__.py           |   3 +-
 .../tool_parsers/deepseekv3_tool_parser.py    | 368 ++++++++++++++++++
 4 files changed, 473 insertions(+), 1 deletion(-)
 create mode 100644 examples/tool_chat_template_deepseekv3.jinja
 create mode 100644 vllm/entrypoints/openai/tool_parsers/deepseekv3_tool_parser.py

diff --git a/docs/source/features/tool_calling.md b/docs/source/features/tool_calling.md
index f3b808b3d..2795b7693 100644
--- a/docs/source/features/tool_calling.md
+++ b/docs/source/features/tool_calling.md
@@ -236,6 +236,13 @@ For Qwen2.5, the chat template in tokenizer_config.json has already included sup
 
 Flags: `--tool-call-parser hermes`
 
+### DeepSeek-V3 Models (`deepseek_v3`)
+
+Supported models:
+* `deepseek-ai/DeepSeek-V3-0324`
+
+Flags: `--tool-call-parser deepseek_v3 --chat-template examples/tool_chat_template_deepseekv3.jinja`
+
 ### Models with Pythonic Tool Calls (`pythonic`)
 
 A growing number of models output a python list to represent tool calls instead of using JSON. This has the advantage of inherently supporting parallel tool calls and removing ambiguity around the JSON schema required for tool calls. The `pythonic` tool parser can support such models.
diff --git a/examples/tool_chat_template_deepseekv3.jinja b/examples/tool_chat_template_deepseekv3.jinja
new file mode 100644
index 000000000..36f378143
--- /dev/null
+++ b/examples/tool_chat_template_deepseekv3.jinja
@@ -0,0 +1,96 @@
+{% if not add_generation_prompt is defined %}
+    {% set add_generation_prompt = false %}
+{% endif %}
+
+{% set ns = namespace(is_first=false, is_tool=false, is_output_first=true, system_prompt='', is_first_sp=true, is_last_user=false) %}
+
+{%- for message in messages %}
+    {%- if message['role'] == 'system' %}
+        {%- if ns.is_first_sp %}
+            {% set ns.system_prompt = ns.system_prompt + message['content'] %}
+            {% set ns.is_first_sp = false %}
+        {%- else %}
+            {% set ns.system_prompt = ns.system_prompt + '\n\n' + message['content'] %}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+
+{{ bos_token }}
+{{ ns.system_prompt }}
+{%- if tools %}
+    {{"\n\n# Tools\n\nYou may call one or more functions to assist with the user query." }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{"\n</tools>\n\n"}}
+
+    {{"For function call returns, you should first print <｜tool▁calls▁begin｜>"}}
+
+    {{"For each function call, you should return object like:\n" }}
+    {{"<｜tool▁call▁begin｜>function<｜tool▁sep｜><function_name>\n```json\n<function_arguments_in_json_format>\n```<｜tool▁call▁end｜>"}}
+
+    {{"At the end of function call returns, you should print <｜tool▁calls▁end｜><｜end▁of▁sentence｜>"}}
+{%- endif %}
+
+{%- for message in messages %}
+    {%- if message['role'] == 'user' %}
+        {%- set ns.is_tool = false -%}
+        {%- set ns.is_first = false -%}
+        {%- set ns.is_last_user = true -%}
+        {{'<｜User｜>' + message['content'] + '<｜Assistant｜>'}}
+    {%- endif %}
+
+    {%- if message['role'] == 'assistant' and message['tool_calls'] is defined and message['tool_calls'] is not none %}
+        {%- set ns.is_last_user = false -%}
+        {%- if ns.is_tool %}
+            {{'<｜tool▁outputs▁end｜>'}}
+        {%- endif %}
+        {%- set ns.is_first = false %}
+        {%- set ns.is_tool = false -%}
+        {%- set ns.is_output_first = true %}
+        
+        {%- for tool in message['tool_calls'] %}
+            {%- if not ns.is_first %}
+                {%- if message['content'] is none %}
+                    {{'<｜tool▁calls▁begin｜><｜tool▁call▁begin｜>' + tool['type'] + '<｜tool▁sep｜>' + tool['function']['name'] + '\n' + '```json' + '\n' + tool['function']['arguments']|tojson + '\n' + '```' + '<｜tool▁call▁end｜>'}}
+                {%- else %}
+                    {{message['content'] + '<｜tool▁calls▁begin｜><｜tool▁call▁begin｜>' + tool['type'] + '<｜tool▁sep｜>' + tool['function']['name'] + '\n' + '```json' + '\n' + tool['function']['arguments']|tojson + '\n' + '```' + '<｜tool▁call▁end｜>'}}
+                {%- endif %}
+            {%- set ns.is_first = true -%}
+            {%- else %}
+                {{'\n' + '<｜tool▁call▁begin｜>' + tool['type'] + '<｜tool▁sep｜>' + tool['function']['name'] + '\n' + '```json' + '\n' + tool['function']['arguments']|tojson + '\n' + '```' + '<｜tool▁call▁end｜>'}}
+            {%- endif %}
+        {%- endfor %}
+        {{'<｜tool▁calls▁end｜><｜end▁of▁sentence｜>'}}
+    {%- endif %}
+    {%- if message['role'] == 'assistant' and (message['tool_calls'] is not defined or message['tool_calls'] is none)%}
+        {%- set ns.is_last_user = false -%}
+        {%- if ns.is_tool %}
+            {{'<｜tool▁outputs▁end｜>' + message['content'] + '<｜end▁of▁sentence｜>'}}
+            {%- set ns.is_tool = false -%}
+        {%- else %}
+            {% set content = message['content'] %}
+            {{content + '<｜end▁of▁sentence｜>'}}
+        {%- endif %}
+    {%- endif %}
+
+    {%- if message['role'] == 'tool' %}
+        {%- set ns.is_last_user = false -%}
+        {%- set ns.is_tool = true -%}
+        {%- if ns.is_output_first %}
+            {{'<｜tool▁outputs▁begin｜><｜tool▁output▁begin｜>' + message['content'] + '<｜tool▁output▁end｜>'}}
+            {%- set ns.is_output_first = false %}
+        {%- else %}
+            {{'\n<｜tool▁output▁begin｜>' + message['content'] + '<｜tool▁output▁end｜>'}}
+        {%- endif %}
+    {%- endif %}
+{%- endfor -%}
+
+{% if ns.is_tool %}
+    {{'<｜tool▁outputs▁end｜>'}}
+{% endif %}
+
+{% if add_generation_prompt and not ns.is_last_user and not ns.is_tool %}
+    {{'<｜Assistant｜>'}}
+{% endif %}
diff --git a/vllm/entrypoints/openai/tool_parsers/__init__.py b/vllm/entrypoints/openai/tool_parsers/__init__.py
index b81dc4e7a..f7c7112b1 100644
--- a/vllm/entrypoints/openai/tool_parsers/__init__.py
+++ b/vllm/entrypoints/openai/tool_parsers/__init__.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from .abstract_tool_parser import ToolParser, ToolParserManager
+from .deepseekv3_tool_parser import DeepSeekV3ToolParser
 from .granite_20b_fc_tool_parser import Granite20bFCToolParser
 from .granite_tool_parser import GraniteToolParser
 from .hermes_tool_parser import Hermes2ProToolParser
@@ -15,5 +16,5 @@ __all__ = [
     "ToolParser", "ToolParserManager", "Granite20bFCToolParser",
     "GraniteToolParser", "Hermes2ProToolParser", "MistralToolParser",
     "Internlm2ToolParser", "Llama3JsonToolParser", "JambaToolParser",
-    "PythonicToolParser", "Phi4MiniJsonToolParser"
+    "PythonicToolParser", "Phi4MiniJsonToolParser", "DeepSeekV3ToolParser"
 ]
diff --git a/vllm/entrypoints/openai/tool_parsers/deepseekv3_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/deepseekv3_tool_parser.py
new file mode 100644
index 000000000..bd8e87e4c
--- /dev/null
+++ b/vllm/entrypoints/openai/tool_parsers/deepseekv3_tool_parser.py
@@ -0,0 +1,368 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import re
+from collections.abc import Sequence
+from typing import Union
+
+from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
+                                              DeltaFunctionCall, DeltaMessage,
+                                              DeltaToolCall,
+                                              ExtractedToolCallInformation,
+                                              FunctionCall, ToolCall)
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser, ToolParserManager)
+from vllm.logger import init_logger
+from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.utils import random_uuid
+
+logger = init_logger(__name__)
+
+
+@ToolParserManager.register_module("deepseek_v3")
+class DeepSeekV3ToolParser(ToolParser):
+
+    def __init__(self, tokenizer: AnyTokenizer):
+        super().__init__(tokenizer)
+
+        self.current_tool_name_sent: bool = False
+        self.prev_tool_call_arr: list[dict] = []
+        self.current_tool_id: int = -1
+        self.streamed_args_for_tool: list[str] = (
+            [])  # map what has been streamed for each tool so far to a list
+
+        self.tool_calls_start_token: str = "<｜tool▁calls▁begin｜>"
+        self.tool_calls_end_token: str = "<｜tool▁calls▁end｜>"
+
+        self.tool_call_start_token: str = "<｜tool▁call▁begin｜>"
+        self.tool_call_end_token: str = "<｜tool▁call▁end｜>"
+
+        self.tool_call_regex = re.compile(
+            r"<｜tool▁call▁begin｜>(?P<type>.*)<｜tool▁sep｜>(?P<function_name>.*)\n```json\n(?P<function_arguments>.*)\n```<｜tool▁call▁end｜>"
+        )
+
+        self.stream_tool_call_portion_regex = re.compile(
+            r"(?P<type>.*)<｜tool▁sep｜>(?P<function_name>.*)\n```json\n(?P<function_arguments>.*[^\n`])"
+        )
+
+        self.stream_tool_call_name_regex = re.compile(
+            r"(?P<type>.*)<｜tool▁sep｜>(?P<function_name>.*)\n")
+
+        if not self.model_tokenizer:
+            raise ValueError(
+                "The model tokenizer must be passed to the ToolParser "
+                "constructor during construction.")
+        self.tool_calls_start_token_id = self.vocab.get(
+            self.tool_calls_start_token)
+        self.tool_calls_end_token_id = self.vocab.get(
+            self.tool_calls_end_token)
+
+        self.tool_call_start_token_id = self.vocab.get(
+            self.tool_call_start_token)
+        self.tool_call_end_token_id = self.vocab.get(self.tool_call_end_token)
+
+        if (self.tool_calls_start_token_id is None
+                or self.tool_calls_end_token_id is None):
+            raise RuntimeError(
+                "DeepSeek-V3 Tool parser could not locate tool call start/end "
+                "tokens in the tokenizer!")
+
+    def extract_tool_calls(
+        self,
+        model_output: str,
+        request: ChatCompletionRequest,
+    ) -> ExtractedToolCallInformation:
+
+        # sanity check; avoid unnecessary processing
+        if self.tool_calls_start_token not in model_output:
+            return ExtractedToolCallInformation(tools_called=False,
+                                                tool_calls=[],
+                                                content=model_output)
+
+        else:
+            try:
+                # there are two possible captures - between tags, or between a
+                # tag and end-of-string so the result of
+                # findall is an array of tuples where one is a function call and
+                # the other is None
+                function_call_tuples = self.tool_call_regex.findall(
+                    model_output)
+
+                tool_calls = []
+                for match in function_call_tuples:
+                    tool_type, function_name, function_args = match
+                    tool_calls.append(
+                        ToolCall(
+                            type=tool_type,
+                            function=FunctionCall(name=function_name,
+                                                  arguments=function_args),
+                        ))
+
+                content = model_output[:model_output.
+                                       find(self.tool_calls_start_token)]
+                return ExtractedToolCallInformation(
+                    tools_called=True,
+                    tool_calls=tool_calls,
+                    content=content if content else None,
+                )
+
+            except Exception:
+                logger.exception(
+                    "Error in extracting tool call from response.")
+                return ExtractedToolCallInformation(tools_called=False,
+                                                    tool_calls=[],
+                                                    content=model_output)
+
+    def extract_tool_calls_streaming(
+        self,
+        previous_text: str,
+        current_text: str,
+        delta_text: str,
+        previous_token_ids: Sequence[int],
+        current_token_ids: Sequence[int],
+        delta_token_ids: Sequence[int],
+        request: ChatCompletionRequest,
+    ) -> Union[DeltaMessage, None]:
+
+        logger.debug("delta_text: %s", delta_text)
+        logger.debug("delta_token_ids: %s", delta_token_ids)
+        # check to see if we should be streaming a tool call - is there a
+        if self.tool_calls_start_token_id not in current_token_ids:
+            logger.debug("No tool call tokens found!")
+            return DeltaMessage(content=delta_text)
+        delta_text = delta_text.replace(self.tool_calls_start_token,
+                                        "").replace(self.tool_calls_end_token,
+                                                    "")
+        try:
+
+            # figure out where we are in the parsing by counting tool call
+            # start & end tags
+            prev_tool_start_count = previous_token_ids.count(
+                self.tool_call_start_token_id)
+            prev_tool_end_count = previous_token_ids.count(
+                self.tool_call_end_token_id)
+            cur_tool_start_count = current_token_ids.count(
+                self.tool_call_start_token_id)
+            cur_tool_end_count = current_token_ids.count(
+                self.tool_call_end_token_id)
+            tool_call_portion = None
+            text_portion = None
+
+            # case: if we're generating text, OR rounding out a tool call
+            if (cur_tool_start_count == cur_tool_end_count
+                    and prev_tool_end_count == cur_tool_end_count
+                    and self.tool_call_end_token not in delta_text):
+                logger.debug("Generating text content! skipping tool parsing.")
+                return DeltaMessage(content=delta_text)
+
+            if self.tool_call_end_token in delta_text:
+                logger.debug("tool_call_end_token in delta_text")
+                full_text = current_text + delta_text
+                tool_call_portion = full_text.split(
+                    self.tool_call_start_token)[-1].split(
+                        self.tool_call_end_token)[0].rstrip()
+                delta_text = delta_text.split(
+                    self.tool_call_end_token)[0].rstrip()
+                text_portion = delta_text.split(
+                    self.tool_call_end_token)[-1].lstrip()
+
+            # case -- we're starting a new tool call
+            if (cur_tool_start_count > cur_tool_end_count
+                    and cur_tool_start_count > prev_tool_start_count):
+                if len(delta_token_ids) > 1:
+                    tool_call_portion = current_text.split(
+                        self.tool_call_start_token)[-1]
+                else:
+                    tool_call_portion = None
+                    delta = None
+
+                text_portion = None
+
+                # set cursors and state appropriately
+                self.current_tool_id += 1
+                self.current_tool_name_sent = False
+                self.streamed_args_for_tool.append("")
+                logger.debug("Starting on a new tool %s", self.current_tool_id)
+
+            # case -- we're updating an existing tool call
+            elif (cur_tool_start_count > cur_tool_end_count
+                  and cur_tool_start_count == prev_tool_start_count):
+
+                # get the portion of the text that's the tool call
+                tool_call_portion = current_text.split(
+                    self.tool_call_start_token)[-1]
+                text_portion = None
+
+            # case -- the current tool call is being closed.
+            elif (cur_tool_start_count == cur_tool_end_count
+                  and cur_tool_end_count >= prev_tool_end_count):
+                if self.prev_tool_call_arr is None or len(
+                        self.prev_tool_call_arr) == 0:
+                    logger.debug(
+                        "attempting to close tool call, but no tool call")
+                    return None
+                diff = self.prev_tool_call_arr[self.current_tool_id].get(
+                    "arguments")
+                if diff:
+                    diff = (diff.encode("utf-8").decode("unicode_escape")
+                            if diff is str else diff)
+                    if '"}' not in delta_text:
+                        return None
+                    end_loc = delta_text.rindex('"}')
+                    diff = delta_text[:end_loc] + '"}'
+                    logger.debug(
+                        "Finishing tool and found diff that had not "
+                        "been streamed yet: %s",
+                        diff,
+                    )
+                    self.streamed_args_for_tool[self.current_tool_id] += diff
+                    return DeltaMessage(tool_calls=[
+                        DeltaToolCall(
+                            index=self.current_tool_id,
+                            function=DeltaFunctionCall(
+                                arguments=diff).model_dump(exclude_none=True),
+                        )
+                    ])
+
+            # case -- otherwise we're just generating text
+            else:
+                text = delta_text.replace(self.tool_call_start_token, "")
+                text = text.replace(self.tool_call_end_token, "")
+                delta = DeltaMessage(tool_calls=[], content=text)
+                return delta
+
+            current_tool_call = dict()
+            if tool_call_portion:
+                current_tool_call_matches = (
+                    self.stream_tool_call_portion_regex.match(
+                        tool_call_portion))
+                if current_tool_call_matches:
+                    tool_type, tool_name, tool_args = (
+                        current_tool_call_matches.groups())
+                    current_tool_call["name"] = tool_name
+                    current_tool_call["arguments"] = tool_args
+                else:
+                    current_tool_call_name_matches = (
+                        self.stream_tool_call_name_regex.match(
+                            tool_call_portion))
+                    if current_tool_call_name_matches:
+                        tool_type, tool_name = (
+                            current_tool_call_name_matches.groups())
+                        current_tool_call["name"] = tool_name
+                        current_tool_call["arguments"] = ""
+                    else:
+                        logger.debug("Not enough token")
+                        return None
+
+            # case - we haven't sent the tool name yet. If it's available, send
+            #   it. otherwise, wait until it's available.
+            if not self.current_tool_name_sent:
+                if current_tool_call is None:
+                    return None
+                function_name: Union[str, None] = current_tool_call.get("name")
+                if function_name:
+                    self.current_tool_name_sent = True
+                    return DeltaMessage(tool_calls=[
+                        DeltaToolCall(
+                            index=self.current_tool_id,
+                            type="function",
+                            id=f"chatcmpl-tool-{random_uuid()}",
+                            function=DeltaFunctionCall(
+                                name=function_name).model_dump(
+                                    exclude_none=True),
+                        )
+                    ])
+                else:
+                    return None
+
+            # case -- otherwise, send the tool call delta
+
+            # if the tool call portion is None, send the delta as text
+            if tool_call_portion is None:
+                # if there's text but not tool calls, send that -
+                # otherwise None to skip chunk
+                delta = (DeltaMessage(
+                    content=delta_text) if text_portion is not None else None)
+                return delta
+
+            # now, the nitty-gritty of tool calls
+            # now we have the portion to parse as tool call.
+
+            logger.debug("Trying to parse current tool call with ID %s",
+                         self.current_tool_id)
+
+            # if we're starting a new tool call, push an empty object in as
+            #   a placeholder for the arguments
+            if len(self.prev_tool_call_arr) <= self.current_tool_id:
+                self.prev_tool_call_arr.append({})
+
+            # main logic for tool parsing here - compare prev. partially-parsed
+            #   JSON to the current partially-parsed JSON
+            prev_arguments = self.prev_tool_call_arr[self.current_tool_id].get(
+                "arguments")
+            cur_arguments = current_tool_call.get("arguments")
+
+            logger.debug("diffing old arguments: %s", prev_arguments)
+            logger.debug("against new ones: %s", cur_arguments)
+
+            # case -- no arguments have been created yet. skip sending a delta.
+            if not cur_arguments and not prev_arguments:
+                logger.debug("Skipping text %s - no arguments", delta_text)
+                delta = None
+
+            # case -- prev arguments are defined, but non are now.
+            #   probably impossible, but not a fatal error - just keep going
+            elif not cur_arguments and prev_arguments:
+                logger.error("should be impossible to have arguments reset "
+                             "mid-call. skipping streaming anything.")
+                delta = None
+
+            # case -- we now have the first info about arguments available from
+            #   autocompleting the JSON
+            elif cur_arguments and not prev_arguments:
+
+                delta = DeltaMessage(tool_calls=[
+                    DeltaToolCall(
+                        index=self.current_tool_id,
+                        function=DeltaFunctionCall(
+                            arguments=cur_arguments).model_dump(
+                                exclude_none=True),
+                    )
+                ])
+                self.streamed_args_for_tool[
+                    self.current_tool_id] = cur_arguments
+
+            # last case -- we have an update to existing arguments.
+            elif cur_arguments and prev_arguments:
+                if (isinstance(delta_text, str)
+                        and cur_arguments != prev_arguments
+                        and len(cur_arguments) > len(prev_arguments)
+                        and cur_arguments.startswith(prev_arguments)):
+                    delta_arguments = cur_arguments[len(prev_arguments):]
+                    logger.debug("got diff %s", delta_text)
+
+                    delta = DeltaMessage(tool_calls=[
+                        DeltaToolCall(
+                            index=self.current_tool_id,
+                            function=DeltaFunctionCall(
+                                arguments=delta_arguments).model_dump(
+                                    exclude_none=True),
+                        )
+                    ])
+                    self.streamed_args_for_tool[
+                        self.current_tool_id] = cur_arguments
+                else:
+                    delta = None
+
+            # handle saving the state for the current tool into
+            # the "prev" list for use in diffing for the next iteration
+            if self.current_tool_id == len(self.prev_tool_call_arr) - 1:
+                self.prev_tool_call_arr[
+                    self.current_tool_id] = current_tool_call
+            else:
+                self.prev_tool_call_arr.append(current_tool_call)
+
+            return delta
+
+        except Exception:
+            logger.exception("Error trying to handle streaming tool call.")
+            return None  # do not stream a delta. skip this token ID.
-- 
GitLab


From 9fbf2bfbd509845fc37139e1ec51f60e41af0815 Mon Sep 17 00:00:00 2001
From: Aaruni Aggarwal <47731267+AaruniAggarwal@users.noreply.github.com>
Date: Mon, 12 May 2025 13:41:55 +0530
Subject: [PATCH 290/461] Correcting testcases in builkite job for IBM Power
 (#17675)

Signed-off-by: Aaruni Aggarwal <aaruniagg@gmail.com>
---
 .buildkite/scripts/hardware_ci/run-cpu-test-ppc64le.sh | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/.buildkite/scripts/hardware_ci/run-cpu-test-ppc64le.sh b/.buildkite/scripts/hardware_ci/run-cpu-test-ppc64le.sh
index 5d863dd82..077bd9914 100755
--- a/.buildkite/scripts/hardware_ci/run-cpu-test-ppc64le.sh
+++ b/.buildkite/scripts/hardware_ci/run-cpu-test-ppc64le.sh
@@ -32,9 +32,12 @@ function cpu_tests() {
     set -e
     pip install pytest pytest-asyncio einops peft Pillow soundfile transformers_stream_generator matplotlib
     pip install sentence-transformers datamodel_code_generator
-    pytest -v -s tests/models/embedding/language/test_cls_models.py::test_classification_models[float-jason9693/Qwen2.5-1.5B-apeach]
-    pytest -v -s tests/models/embedding/language/test_embedding.py::test_models[half-BAAI/bge-base-en-v1.5]
-    pytest -v -s tests/models/encoder_decoder/language -m cpu_model"
+    pytest -v -s tests/models/language/generation/test_bart.py -m cpu_model
+    pytest -v -s tests/models/language/generation/test_common.py::test_models[False-5-32-openai-community/gpt2]
+    pytest -v -s tests/models/language/generation/test_common.py::test_models[False-5-32-facebook/opt-125m]
+    pytest -v -s tests/models/language/generation/test_common.py::test_models[False-5-32-google/gemma-1.1-2b-it]
+    pytest -v -s tests/models/language/pooling/test_classification.py::test_models[float-jason9693/Qwen2.5-1.5B-apeach]
+    pytest -v -s tests/models/language/pooling/test_embedding.py::test_models[half-BAAI/bge-base-en-v1.5]"
 }
 
 # All of CPU tests are expected to be finished less than 40 mins.
-- 
GitLab


From 7ea6cb28b260c4b8aeeaf103a47efc7fd5f97982 Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Mon, 12 May 2025 18:46:45 +0800
Subject: [PATCH 291/461] [Misc] Improve modelscope  import error  (#17983)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 vllm/transformers_utils/__init__.py | 28 ++++++++++++++++------------
 1 file changed, 16 insertions(+), 12 deletions(-)

diff --git a/vllm/transformers_utils/__init__.py b/vllm/transformers_utils/__init__.py
index 01d5bb4b5..b556976a5 100644
--- a/vllm/transformers_utils/__init__.py
+++ b/vllm/transformers_utils/__init__.py
@@ -3,17 +3,21 @@
 from vllm.envs import VLLM_USE_MODELSCOPE
 
 if VLLM_USE_MODELSCOPE:
-    # Patch here, before each import happens
-    import modelscope
-    from packaging import version
+    try:
+        # Patch here, before each import happens
+        import modelscope
+        from packaging import version
 
-    # patch_hub begins from modelscope>=1.18.1
-    if version.parse(modelscope.__version__) <= version.parse('1.18.0'):
-        raise ImportError(
-            'Using vLLM with ModelScope needs modelscope>=1.18.1, please '
-            'install by `pip install modelscope -U`')
-
-    from modelscope.utils.hf_util import patch_hub
+        # patch_hub begins from modelscope>=1.18.1
+        if version.parse(modelscope.__version__) <= version.parse('1.18.0'):
+            raise ImportError(
+                'Using vLLM with ModelScope needs modelscope>=1.18.1, please '
+                'install by `pip install modelscope -U`')
+        from modelscope.utils.hf_util import patch_hub
 
-    # Patch hub to download models from modelscope to speed up.
-    patch_hub()
+        # Patch hub to download models from modelscope to speed up.
+        patch_hub()
+    except ImportError as err:
+        raise ImportError(
+            "Please install modelscope>=1.18.1 via "
+            "`pip install modelscope>=1.18.1` to use ModelScope.") from err
-- 
GitLab


From 05a4324f8e3932c25554791ff248e3e0200eef92 Mon Sep 17 00:00:00 2001
From: Maximilien de Bayser <mbayser@br.ibm.com>
Date: Mon, 12 May 2025 10:28:58 -0300
Subject: [PATCH 292/461] Initialize the delta tool call fields explicitly
 (#17340)

Signed-off-by: Max de Bayser <mbayser@br.ibm.com>
Co-authored-by: igmainc <igmainc@icloud.com>
---
 .../entrypoints/openai/tool_parsers/utils.py  |  2 +-
 vllm/entrypoints/chat_utils.py                |  4 ++
 vllm/entrypoints/openai/protocol.py           |  9 +++--
 vllm/entrypoints/openai/serving_chat.py       | 39 ++++++++++++-------
 .../granite_20b_fc_tool_parser.py             |  4 +-
 .../tool_parsers/granite_tool_parser.py       |  4 +-
 .../openai/tool_parsers/hermes_tool_parser.py |  4 +-
 .../tool_parsers/internlm2_tool_parser.py     |  4 +-
 .../openai/tool_parsers/jamba_tool_parser.py  |  4 +-
 .../openai/tool_parsers/llama_tool_parser.py  |  4 +-
 .../tool_parsers/phi4mini_tool_parser.py      |  4 +-
 .../tool_parsers/pythonic_tool_parser.py      |  3 +-
 12 files changed, 51 insertions(+), 34 deletions(-)

diff --git a/tests/entrypoints/openai/tool_parsers/utils.py b/tests/entrypoints/openai/tool_parsers/utils.py
index 6ad5aa26f..ab8f4bd67 100644
--- a/tests/entrypoints/openai/tool_parsers/utils.py
+++ b/tests/entrypoints/openai/tool_parsers/utils.py
@@ -32,7 +32,7 @@ class StreamingToolReconstructor:
             assert len(delta.tool_calls) < 2, (
                 "Streaming should include only one tool call per update.")
         for call_delta in delta.tool_calls:
-            assert call_delta.type == "function", (
+            assert call_delta.type is None or call_delta.type == "function", (
                 "Streaming tool calls should only emit function calls. Got "
                 f"{call_delta.type}")
             current_tool_call = self.tool_calls[
diff --git a/vllm/entrypoints/chat_utils.py b/vllm/entrypoints/chat_utils.py
index db43b2dd2..4ff8821fc 100644
--- a/vllm/entrypoints/chat_utils.py
+++ b/vllm/entrypoints/chat_utils.py
@@ -44,6 +44,7 @@ from vllm.transformers_utils.chat_templates import (
 # yapf: enable
 from vllm.transformers_utils.processor import cached_get_processor
 from vllm.transformers_utils.tokenizer import AnyTokenizer, MistralTokenizer
+from vllm.utils import random_uuid
 
 logger = init_logger(__name__)
 
@@ -1272,3 +1273,6 @@ def apply_mistral_chat_template(
             "An error occurred in `mistral_common` while applying chat "
             "template")
         raise ValueError from e
+
+def random_tool_call_id() -> str:
+    return f"chatcmpl-tool-{random_uuid()}"
\ No newline at end of file
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
index 4e09240f2..19c426b19 100644
--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -15,7 +15,8 @@ from pydantic import (BaseModel, ConfigDict, Field, TypeAdapter,
 from typing_extensions import TypeAlias
 
 from vllm import envs
-from vllm.entrypoints.chat_utils import ChatCompletionMessageParam
+from vllm.entrypoints.chat_utils import (ChatCompletionMessageParam,
+                                         random_tool_call_id)
 from vllm.logger import init_logger
 from vllm.pooling_params import PoolingParams
 from vllm.sampling_params import (BeamSearchParams, GuidedDecodingParams,
@@ -1339,7 +1340,7 @@ class FunctionCall(OpenAIBaseModel):
 
 
 class ToolCall(OpenAIBaseModel):
-    id: str = Field(default_factory=lambda: f"chatcmpl-tool-{random_uuid()}")
+    id: str = Field(default_factory=random_tool_call_id)
     type: Literal["function"] = "function"
     function: FunctionCall
 
@@ -1351,8 +1352,8 @@ class DeltaFunctionCall(BaseModel):
 
 # a tool call delta where everything is optional
 class DeltaToolCall(OpenAIBaseModel):
-    id: str = Field(default_factory=lambda: f"chatcmpl-tool-{random_uuid()}")
-    type: Literal["function"] = "function"
+    id: Optional[str] = None
+    type: Optional[Literal["function"]] = None
     index: int
     function: Optional[DeltaFunctionCall] = None
 
diff --git a/vllm/entrypoints/openai/serving_chat.py b/vllm/entrypoints/openai/serving_chat.py
index 5c11836fb..30f8aade0 100644
--- a/vllm/entrypoints/openai/serving_chat.py
+++ b/vllm/entrypoints/openai/serving_chat.py
@@ -16,7 +16,8 @@ from pydantic import TypeAdapter
 from vllm.config import ModelConfig
 from vllm.engine.protocol import EngineClient
 from vllm.entrypoints.chat_utils import (ChatTemplateContentFormatOption,
-                                         ConversationMessage)
+                                         ConversationMessage,
+                                         random_tool_call_id)
 from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.protocol import (
     ChatCompletionLogProb, ChatCompletionLogProbs,
@@ -363,9 +364,10 @@ class OpenAIServingChat(OpenAIServing):
 
                     function_name_returned = True
                     delta_message = DeltaMessage(tool_calls=[
-                        DeltaToolCall(function=DeltaFunctionCall(
-                            name=current_tool_call["name"],
-                            arguments=arguments),
+                        DeltaToolCall(id=random_tool_call_id(),
+                                      function=DeltaFunctionCall(
+                                          name=current_tool_call["name"],
+                                          arguments=arguments),
                                       index=len(obj) - 1,
                                       type="function")
                     ])
@@ -382,8 +384,7 @@ class OpenAIServingChat(OpenAIServing):
                                     # instead of name every time
                                     name=None,
                                     arguments=delta_text),
-                                index=len(obj) - 1,
-                                type="function")
+                                index=len(obj) - 1)
                         ])
                     else:
                         delta_message = None
@@ -422,7 +423,7 @@ class OpenAIServingChat(OpenAIServing):
             and self._should_stream_with_auto_tool_parsing(request))
 
         all_previous_token_ids: Optional[list[list[int]]]
-        function_name_returned: Optional[list[bool]] = None
+        function_name_returned = [False] * num_choices
 
         # Only one of these will be used, thus previous_texts and
         # all_previous_token_ids will not be used twice in the same iteration.
@@ -435,7 +436,6 @@ class OpenAIServingChat(OpenAIServing):
             reasoning_end_arr = [False] * num_choices
         elif request.tool_choice == "required":
             previous_texts = [""] * num_choices
-            function_name_returned = [False] * num_choices
             all_previous_token_ids = None
         else:
             previous_texts, all_previous_token_ids = None, None
@@ -623,16 +623,27 @@ class OpenAIServingChat(OpenAIServing):
                                 delta_text = previous_text + delta_text
                                 current_text = ""
 
+                            if function_name_returned[i]:
+                                delta_tool_call = DeltaToolCall(
+                                    function=DeltaFunctionCall(
+                                        arguments=delta_text),
+                                    index=i)
+                            else:
+                                delta_tool_call = DeltaToolCall(
+                                    id=random_tool_call_id(),
+                                    type="function",
+                                    function=DeltaFunctionCall(
+                                        name=tool_choice_function_name,
+                                        arguments=delta_text),
+                                    index=i)
+                                function_name_returned[i] = True
+
                             delta_message = DeltaMessage(tool_calls=[
-                                DeltaToolCall(function=DeltaFunctionCall(
-                                    name=tool_choice_function_name,
-                                    arguments=delta_text),
-                                              index=i)
+                                delta_tool_call,
                             ])
 
                     elif request.tool_choice == "required":
                         assert previous_texts is not None
-                        assert function_name_returned is not None
                         previous_text = previous_texts[i]
                         current_text = previous_text + delta_text
                         fn_name_returned = function_name_returned[i]
@@ -835,7 +846,7 @@ class OpenAIServingChat(OpenAIServing):
                             total_tokens=num_prompt_tokens + completion_tokens,
                         )
 
-                    data = chunk.model_dump_json(exclude_unset=True)
+                    data = chunk.model_dump_json(exclude_none=True)
                     yield f"data: {data}\n\n"
 
             # once the final token is handled, if stream_options.include_usage
diff --git a/vllm/entrypoints/openai/tool_parsers/granite_20b_fc_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/granite_20b_fc_tool_parser.py
index 76da63c58..b93de6b41 100644
--- a/vllm/entrypoints/openai/tool_parsers/granite_20b_fc_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/granite_20b_fc_tool_parser.py
@@ -9,6 +9,7 @@ from typing import Union
 import partial_json_parser
 from partial_json_parser.core.options import Allow
 
+from vllm.entrypoints.chat_utils import random_tool_call_id
 from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
                                               DeltaFunctionCall, DeltaMessage,
                                               DeltaToolCall,
@@ -22,7 +23,6 @@ from vllm.entrypoints.openai.tool_parsers.utils import (consume_space,
                                                         partial_json_loads)
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer
-from vllm.utils import random_uuid
 
 logger = init_logger(__name__)
 
@@ -200,7 +200,7 @@ class Granite20bFCToolParser(ToolParser):
                     delta = DeltaMessage(tool_calls=[
                         DeltaToolCall(index=self.current_tool_id,
                                       type="function",
-                                      id=f"chatcmpl-tool-{random_uuid()}",
+                                      id=random_tool_call_id(),
                                       function=DeltaFunctionCall(
                                           name=function_name).model_dump(
                                               exclude_none=True))
diff --git a/vllm/entrypoints/openai/tool_parsers/granite_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/granite_tool_parser.py
index 91afc88ef..6710e7938 100644
--- a/vllm/entrypoints/openai/tool_parsers/granite_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/granite_tool_parser.py
@@ -7,6 +7,7 @@ from typing import Union
 import partial_json_parser
 from partial_json_parser.core.options import Allow
 
+from vllm.entrypoints.chat_utils import random_tool_call_id
 from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
                                               DeltaFunctionCall, DeltaMessage,
                                               DeltaToolCall,
@@ -20,7 +21,6 @@ from vllm.entrypoints.openai.tool_parsers.utils import (consume_space,
                                                         partial_json_loads)
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer
-from vllm.utils import random_uuid
 
 logger = init_logger(__name__)
 
@@ -182,7 +182,7 @@ class GraniteToolParser(ToolParser):
                     delta = DeltaMessage(tool_calls=[
                         DeltaToolCall(index=self.current_tool_id,
                                       type="function",
-                                      id=f"chatcmpl-tool-{random_uuid()}",
+                                      id=random_tool_call_id(),
                                       function=DeltaFunctionCall(
                                           name=function_name).model_dump(
                                               exclude_none=True))
diff --git a/vllm/entrypoints/openai/tool_parsers/hermes_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/hermes_tool_parser.py
index 4c39e9b0c..e56a8ef71 100644
--- a/vllm/entrypoints/openai/tool_parsers/hermes_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/hermes_tool_parser.py
@@ -8,6 +8,7 @@ from typing import Union
 import partial_json_parser
 from partial_json_parser.core.options import Allow
 
+from vllm.entrypoints.chat_utils import random_tool_call_id
 from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
                                               DeltaFunctionCall, DeltaMessage,
                                               DeltaToolCall,
@@ -17,7 +18,6 @@ from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser, ToolParserManager)
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer, MistralTokenizer
-from vllm.utils import random_uuid
 
 logger = init_logger(__name__)
 
@@ -259,7 +259,7 @@ class Hermes2ProToolParser(ToolParser):
                     return DeltaMessage(tool_calls=[
                         DeltaToolCall(index=self.current_tool_id,
                                       type="function",
-                                      id=f"chatcmpl-tool-{random_uuid()}",
+                                      id=random_tool_call_id(),
                                       function=DeltaFunctionCall(
                                           name=function_name).model_dump(
                                               exclude_none=True))
diff --git a/vllm/entrypoints/openai/tool_parsers/internlm2_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/internlm2_tool_parser.py
index 57d7c77c6..5abd553d8 100644
--- a/vllm/entrypoints/openai/tool_parsers/internlm2_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/internlm2_tool_parser.py
@@ -7,6 +7,7 @@ from typing import Union
 import partial_json_parser
 from partial_json_parser.core.options import Allow
 
+from vllm.entrypoints.chat_utils import random_tool_call_id
 from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
                                               DeltaFunctionCall, DeltaMessage,
                                               DeltaToolCall,
@@ -18,7 +19,6 @@ from vllm.entrypoints.openai.tool_parsers.utils import (
     extract_intermediate_diff)
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer
-from vllm.utils import random_uuid
 
 logger = init_logger(__name__)
 
@@ -106,7 +106,7 @@ class Internlm2ToolParser(ToolParser):
                     delta = DeltaMessage(tool_calls=[
                         DeltaToolCall(index=self.current_tool_id,
                                       type="function",
-                                      id=f"chatcmpl-tool-{random_uuid()}",
+                                      id=random_tool_call_id(),
                                       function=DeltaFunctionCall(
                                           name=function_name).model_dump(
                                               exclude_none=True))
diff --git a/vllm/entrypoints/openai/tool_parsers/jamba_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/jamba_tool_parser.py
index 8df106bf2..6cac6f816 100644
--- a/vllm/entrypoints/openai/tool_parsers/jamba_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/jamba_tool_parser.py
@@ -8,6 +8,7 @@ from typing import Union
 import partial_json_parser
 from partial_json_parser.core.options import Allow
 
+from vllm.entrypoints.chat_utils import random_tool_call_id
 from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
                                               DeltaFunctionCall, DeltaMessage,
                                               DeltaToolCall,
@@ -19,7 +20,6 @@ from vllm.entrypoints.openai.tool_parsers.utils import (
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer
 from vllm.transformers_utils.tokenizers import MistralTokenizer
-from vllm.utils import random_uuid
 
 logger = init_logger(__name__)
 
@@ -220,7 +220,7 @@ class JambaToolParser(ToolParser):
                     delta = DeltaMessage(tool_calls=[
                         DeltaToolCall(index=self.current_tool_id,
                                       type="function",
-                                      id=f"chatcmpl-tool-{random_uuid()}",
+                                      id=random_tool_call_id(),
                                       function=DeltaFunctionCall(
                                           name=function_name).model_dump(
                                               exclude_none=True))
diff --git a/vllm/entrypoints/openai/tool_parsers/llama_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/llama_tool_parser.py
index 5c181616a..9307034f4 100644
--- a/vllm/entrypoints/openai/tool_parsers/llama_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/llama_tool_parser.py
@@ -10,6 +10,7 @@ import partial_json_parser
 from partial_json_parser.core.options import Allow
 from transformers import PreTrainedTokenizerBase
 
+from vllm.entrypoints.chat_utils import random_tool_call_id
 from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
                                               DeltaFunctionCall, DeltaMessage,
                                               DeltaToolCall,
@@ -21,7 +22,6 @@ from vllm.entrypoints.openai.tool_parsers.utils import (find_common_prefix,
                                                         is_complete_json,
                                                         partial_json_loads)
 from vllm.logger import init_logger
-from vllm.utils import random_uuid
 
 logger = init_logger(__name__)
 
@@ -208,7 +208,7 @@ class Llama3JsonToolParser(ToolParser):
                     delta = DeltaMessage(tool_calls=[
                         DeltaToolCall(index=self.current_tool_id,
                                       type="function",
-                                      id=f"chatcmpl-tool-{random_uuid()}",
+                                      id=random_tool_call_id(),
                                       function=DeltaFunctionCall(
                                           name=function_name).model_dump(
                                               exclude_none=True))
diff --git a/vllm/entrypoints/openai/tool_parsers/phi4mini_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/phi4mini_tool_parser.py
index 668776a83..abf70a5e8 100644
--- a/vllm/entrypoints/openai/tool_parsers/phi4mini_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/phi4mini_tool_parser.py
@@ -7,6 +7,7 @@ from typing import Any, Optional
 
 from transformers import PreTrainedTokenizerBase
 
+from vllm.entrypoints.chat_utils import random_tool_call_id
 from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
                                               DeltaMessage,
                                               ExtractedToolCallInformation,
@@ -14,7 +15,6 @@ from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser, ToolParserManager)
 from vllm.logger import init_logger
-from vllm.utils import random_uuid
 
 logger = init_logger(__name__)
 
@@ -73,7 +73,7 @@ class Phi4MiniJsonToolParser(ToolParser):
 
             tool_calls: list[ToolCall] = [
                 ToolCall(
-                    id=f"chatcmpl-tool-{random_uuid()}",
+                    id=random_tool_call_id(),
                     type="function",
                     function=FunctionCall(
                         name=raw_function_call["name"],
diff --git a/vllm/entrypoints/openai/tool_parsers/pythonic_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/pythonic_tool_parser.py
index 9f141d6b3..bb91a35af 100644
--- a/vllm/entrypoints/openai/tool_parsers/pythonic_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/pythonic_tool_parser.py
@@ -280,6 +280,7 @@ def _compute_tool_delta(previously_sent_args: str, new_call: ToolCall,
         new_call_args = new_call_args[:-len(withheld_suffix)]
     if not previously_sent_args:
         return DeltaToolCall(id=new_call.id,
+                             type="function",
                              index=index,
                              function=DeltaFunctionCall(
                                  name=new_call.function.name,
@@ -288,5 +289,5 @@ def _compute_tool_delta(previously_sent_args: str, new_call: ToolCall,
 
     arg_diff = new_call_args[len(previously_sent_args):]
     return DeltaToolCall(
-        id="", index=index, function=DeltaFunctionCall(
+        id=None, index=index, function=DeltaFunctionCall(
             arguments=arg_diff)) if arg_diff else None
-- 
GitLab


From d19110204c03e9b77ed957fc70c1262ff370f5e2 Mon Sep 17 00:00:00 2001
From: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
Date: Mon, 12 May 2025 12:46:16 -0400
Subject: [PATCH 293/461] [P/D] NIXL Integration (#17751)

Signed-off-by: ApostaC <yihua98@uchicago.edu>
Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com>
Signed-off-by: rshaw@neuralmagic.com <robertgshaw2@gmail.com>
Signed-off-by: Robert Shaw <rshaw@neuralmagic.com>
Signed-off-by: mgoin <mgoin64@gmail.com>
Signed-off-by: Nick Hill <nhill@redhat.com>
Signed-off-by: Brent Salisbury <bsalisbu@redhat.com>
Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com>
Co-authored-by: ApostaC <yihua98@uchicago.edu>
Co-authored-by: Robert Shaw <rshaw@neuralmagic.com>
Co-authored-by: mgoin <mgoin64@gmail.com>
Co-authored-by: Nick Hill <nhill@redhat.com>
Co-authored-by: Tyler Michael Smith <tysmith@redhat.com>
Co-authored-by: Brent Salisbury <bsalisbu@redhat.com>
---
 .buildkite/test-pipeline.yaml                 |   1 +
 tests/v1/core/test_scheduler.py               |   6 +-
 .../nixl_integration/run_accuracy_test.sh     | 171 ++++
 .../nixl_integration/run_edge_case_test.sh    | 123 +++
 .../nixl_integration/test_accuracy.py         |  60 ++
 .../nixl_integration/test_edge_cases.py       |  77 ++
 .../nixl_integration/toy_proxy_server.py      | 260 ++++++
 tests/v1/kv_connector/unit/__init__.py        |   0
 .../kv_connector/unit/test_nixl_connector.py  |  73 ++
 .../unit/test_remote_decode_lifecycle.py      | 181 ++++
 .../unit/test_remote_prefill_lifecycle.py     | 342 ++++++++
 tests/v1/kv_connector/unit/utils.py           | 190 +++++
 vllm/config.py                                |   6 +-
 .../kv_transfer/kv_connector/factory.py       |   5 +
 .../kv_transfer/kv_connector/v1/__init__.py   |   7 +-
 .../kv_transfer/kv_connector/v1/base.py       |  89 +-
 .../kv_connector/v1/lmcache_connector.py      |   6 +-
 .../kv_connector/v1/nixl_connector.py         | 805 ++++++++++++++++++
 .../v1/shared_storage_connector.py            |  12 +-
 vllm/entrypoints/openai/protocol.py           |  19 +-
 vllm/entrypoints/openai/serving_chat.py       |   1 +
 vllm/entrypoints/openai/serving_completion.py |   2 +-
 vllm/envs.py                                  |  10 +
 vllm/forward_context.py                       |  21 -
 vllm/outputs.py                               |   6 +-
 vllm/v1/core/kv_cache_manager.py              |  33 +-
 vllm/v1/core/sched/interface.py               |   4 +
 vllm/v1/core/sched/scheduler.py               | 188 +++-
 vllm/v1/engine/__init__.py                    |   1 +
 vllm/v1/engine/core.py                        |   9 +
 vllm/v1/engine/output_processor.py            |  12 +-
 vllm/v1/outputs.py                            |  22 +-
 vllm/v1/request.py                            |  13 +-
 vllm/v1/worker/gpu_model_runner.py            |  78 +-
 34 files changed, 2724 insertions(+), 109 deletions(-)
 create mode 100755 tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
 create mode 100644 tests/v1/kv_connector/nixl_integration/run_edge_case_test.sh
 create mode 100644 tests/v1/kv_connector/nixl_integration/test_accuracy.py
 create mode 100644 tests/v1/kv_connector/nixl_integration/test_edge_cases.py
 create mode 100644 tests/v1/kv_connector/nixl_integration/toy_proxy_server.py
 create mode 100644 tests/v1/kv_connector/unit/__init__.py
 create mode 100644 tests/v1/kv_connector/unit/test_nixl_connector.py
 create mode 100644 tests/v1/kv_connector/unit/test_remote_decode_lifecycle.py
 create mode 100644 tests/v1/kv_connector/unit/test_remote_prefill_lifecycle.py
 create mode 100644 tests/v1/kv_connector/unit/utils.py
 create mode 100644 vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index f7e4af4f2..027cb218d 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -214,6 +214,7 @@ steps:
     - pytest -v -s v1/worker
     - pytest -v -s v1/structured_output
     - pytest -v -s v1/spec_decode
+    - pytest -v -s v1/kv_connector/unit
     - pytest -v -s v1/test_serial_utils.py
     - pytest -v -s v1/test_stats.py
     - pytest -v -s v1/test_utils.py
diff --git a/tests/v1/core/test_scheduler.py b/tests/v1/core/test_scheduler.py
index 0ca2ced89..f40d477a0 100644
--- a/tests/v1/core/test_scheduler.py
+++ b/tests/v1/core/test_scheduler.py
@@ -870,7 +870,7 @@ def test_kv_connector_basic():
     NUM_MATCHED_NEW_TOKENS = BLOCK_SIZE * 2
     scheduler.connector.get_num_new_matched_tokens = Mock(name="method")
     scheduler.connector.get_num_new_matched_tokens.return_value = (
-        NUM_MATCHED_NEW_TOKENS)
+        NUM_MATCHED_NEW_TOKENS, False)
 
     ######################################################
     # FIRST SET OF REQUESTS - External Hit Only
@@ -981,7 +981,7 @@ def test_kv_connector_unable_to_allocate():
     NUM_MATCHED_NEW_TOKENS = BLOCK_SIZE * 2
     scheduler.connector.get_num_new_matched_tokens = Mock(name="method")
     scheduler.connector.get_num_new_matched_tokens.return_value = (
-        NUM_MATCHED_NEW_TOKENS)
+        NUM_MATCHED_NEW_TOKENS, False)
 
     # Create two requests. The second request will not be able to
     # allocate slots because it will not have enough blocks.
@@ -1060,7 +1060,7 @@ def test_kv_connector_handles_preemption():
     NUM_MATCHED_NEW_TOKENS = BLOCK_SIZE
     scheduler.connector.get_num_new_matched_tokens = Mock(name="method")
     scheduler.connector.get_num_new_matched_tokens.return_value = (
-        NUM_MATCHED_NEW_TOKENS)
+        NUM_MATCHED_NEW_TOKENS, False)
 
     # Create two requests.
     # Both can be scheduled at first, but the second request
diff --git a/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh b/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
new file mode 100755
index 000000000..e90b72a7c
--- /dev/null
+++ b/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
@@ -0,0 +1,171 @@
+#!/bin/bash
+set -xe
+
+# Models to run
+MODELS=(
+    "Qwen/Qwen3-0.6B"
+)
+
+# Number of prefill and decode instances to create
+NUM_PREFILL_INSTANCES=${NUM_PREFILL_INSTANCES:-1} # Default to 1
+NUM_DECODE_INSTANCES=${NUM_DECODE_INSTANCES:-2}   # Default to 2
+
+# Find the git repository root directory
+GIT_ROOT=$(git rev-parse --show-toplevel)
+
+# Trap the SIGINT signal (triggered by Ctrl+C)
+trap 'kill $(jobs -pr)' SIGINT SIGTERM EXIT
+
+# Waits for vLLM to start.
+wait_for_server() {
+  local port=$1
+  timeout 1200 bash -c "
+    until curl -s localhost:${port}/v1/completions > /dev/null; do
+      sleep 1
+    done" && return 0 || return 1
+}
+
+# Function to clean up previous instances
+cleanup_instances() {
+  echo "Cleaning up any running vLLM instances..."
+  pkill -f "vllm serve" || true
+  sleep 2
+}
+
+# Handle to get model-specific arguments for deepseek
+get_model_args() {
+  local model_name=$1
+  local extra_args=""
+
+  if [[ "$model_name" == "deepseek-ai/deepseek-vl2-tiny" ]]; then
+    extra_args="--hf_overrides '{\"architectures\": [\"DeepseekVLV2ForCausalLM\"]}' --trust-remote-code"
+  fi
+
+  echo "$extra_args"
+}
+
+
+# Function to run tests for a specific model
+run_tests_for_model() {
+  local model_name=$1
+  echo "================================"
+  echo "Testing model: $model_name"
+  echo "================================"
+
+  # Get model-specific arguments
+  local model_args=$(get_model_args "$model_name")
+
+  # Arrays to store all hosts and ports
+  PREFILL_HOSTS=()
+  PREFILL_PORTS=()
+  DECODE_HOSTS=()
+  DECODE_PORTS=()
+
+  # Start prefill instances
+  for i in $(seq 0 $((NUM_PREFILL_INSTANCES-1))); do
+    # Calculate GPU ID - we'll distribute across available GPUs
+    GPU_ID=$((i % $(nvidia-smi --query-gpu=name --format=csv,noheader | wc -l)))
+    # Calculate port number (base port + instance number)
+    PORT=$((8100 + i))
+    # Calculate side channel port
+    SIDE_CHANNEL_PORT=$((5559 + i))
+
+    echo "Starting prefill instance $i on GPU $GPU_ID, port $PORT"
+
+    # Build the command with or without model-specific args
+    BASE_CMD="CUDA_VISIBLE_DEVICES=$GPU_ID VLLM_NIXL_SIDE_CHANNEL_PORT=$SIDE_CHANNEL_PORT vllm serve $model_name \
+    --port $PORT \
+    --enforce-eager \
+    --disable-log-requests \
+    --gpu-memory-utilization 0.2 \
+    --kv-transfer-config '{\"kv_connector\":\"NixlConnector\",\"kv_role\":\"kv_both\"}'"
+
+    if [ -n "$model_args" ]; then
+    FULL_CMD="$BASE_CMD $model_args"
+    else
+    FULL_CMD="$BASE_CMD"
+    fi
+
+    eval "$FULL_CMD &"
+
+    # Store host and port for proxy configuration
+    PREFILL_HOSTS+=("localhost")
+    PREFILL_PORTS+=($PORT)
+  done
+
+  # Start decode instances
+  for i in $(seq 0 $((NUM_DECODE_INSTANCES-1))); do
+    # Calculate GPU ID - we'll distribute across available GPUs, starting from after prefill GPUs
+    GPU_ID=$(((i + NUM_PREFILL_INSTANCES) % $(nvidia-smi --query-gpu=name --format=csv,noheader | wc -l)))
+    # Calculate port number (base port + instance number)
+    PORT=$((8200 + i))
+    # Calculate side channel port
+    SIDE_CHANNEL_PORT=$((5659 + i))
+
+    echo "Starting decode instance $i on GPU $GPU_ID, port $PORT"
+
+    # Build the command with or without model-specific args
+    BASE_CMD="CUDA_VISIBLE_DEVICES=$GPU_ID VLLM_NIXL_SIDE_CHANNEL_PORT=$SIDE_CHANNEL_PORT vllm serve $model_name \
+    --port $PORT \
+    --enforce-eager \
+    --disable-log-requests \
+    --gpu-memory-utilization 0.2 \
+    --kv-transfer-config '{\"kv_connector\":\"NixlConnector\",\"kv_role\":\"kv_both\"}'"
+
+    if [ -n "$model_args" ]; then
+    FULL_CMD="$BASE_CMD $model_args"
+    else
+    FULL_CMD="$BASE_CMD"
+    fi
+
+    eval "$FULL_CMD &"
+
+    # Store host and port for proxy configuration
+    DECODE_HOSTS+=("localhost")
+    DECODE_PORTS+=($PORT)
+  done
+
+  # Wait for all instances to start
+  for PORT in "${PREFILL_PORTS[@]}"; do
+    echo "Waiting for prefill instance on port $PORT to start..."
+    wait_for_server $PORT
+  done
+
+  for PORT in "${DECODE_PORTS[@]}"; do
+    echo "Waiting for decode instance on port $PORT to start..."
+    wait_for_server $PORT
+  done
+
+  # Build the command for the proxy server with all the hosts and ports
+  PROXY_CMD="python ${GIT_ROOT}/tests/v1/kv_connector/nixl_integration/toy_proxy_server.py --port 8192"
+
+  # Add all prefill hosts and ports
+  PROXY_CMD+=" --prefiller-hosts ${PREFILL_HOSTS[@]}"
+  PROXY_CMD+=" --prefiller-ports ${PREFILL_PORTS[@]}"
+
+  # Add all decode hosts and ports
+  PROXY_CMD+=" --decoder-hosts ${DECODE_HOSTS[@]}"
+  PROXY_CMD+=" --decoder-ports ${DECODE_PORTS[@]}"
+
+  # Start the proxy server
+  echo "Starting proxy server with command: $PROXY_CMD"
+  $PROXY_CMD &
+
+  # Wait for the proxy to start
+  sleep 5
+
+  # Run lm eval for this model
+  echo "Running tests for $model_name"
+  TEST_MODEL=$model_name python -m pytest -s -x ${GIT_ROOT}/tests/v1/kv_connector/nixl_integration/test_accuracy.py
+
+  # Clean up before running next model
+  cleanup_instances
+  sleep 3
+}
+
+# Run tests for each model
+for model in "${MODELS[@]}"; do
+  run_tests_for_model "$model"
+done
+
+echo "All tests completed!"
diff --git a/tests/v1/kv_connector/nixl_integration/run_edge_case_test.sh b/tests/v1/kv_connector/nixl_integration/run_edge_case_test.sh
new file mode 100644
index 000000000..98903a176
--- /dev/null
+++ b/tests/v1/kv_connector/nixl_integration/run_edge_case_test.sh
@@ -0,0 +1,123 @@
+#!/bin/bash
+set -xe
+
+# Models to run
+MODELS=(
+    "Qwen/Qwen3-0.6B"
+)
+
+# Find the git repository root directory
+GIT_ROOT=$(git rev-parse --show-toplevel)
+
+# Trap the SIGINT signal (triggered by Ctrl+C)
+trap 'kill $(jobs -pr)' SIGINT SIGTERM EXIT
+
+# Waits for vLLM to start.
+wait_for_server() {
+  local port=$1
+  timeout 1200 bash -c "
+    until curl -s localhost:${port}/v1/completions > /dev/null; do
+      sleep 1
+    done" && return 0 || return 1
+}
+
+# Function to clean up previous instances
+cleanup_instances() {
+  echo "Cleaning up any running vLLM instances..."
+  pkill -f "vllm serve" || true
+  sleep 2
+}
+
+# Handle to get model-specific arguments for deepseek
+get_model_args() {
+  local model_name=$1
+  local extra_args=""
+
+  if [[ "$model_name" == "deepseek-ai/deepseek-vl2-tiny" ]]; then
+    extra_args="--hf_overrides '{\"architectures\": [\"DeepseekVLV2ForCausalLM\"]}' --trust-remote-code"
+  fi
+
+  echo "$extra_args"
+}
+
+
+# Function to run tests for a specific model
+run_tests_for_model() {
+  local model_name=$1
+  echo "================================"
+  echo "Testing model: $model_name"
+  echo "================================"
+
+  # Get model-specific arguments
+  local model_args=$(get_model_args "$model_name")
+  
+  # Start prefill instance
+  PREFILL_PORT=8001
+
+  BASE_CMD="CUDA_VISIBLE_DEVICES=0 VLLM_NIXL_SIDE_CHANNEL_PORT=5559 vllm serve $model_name \
+  --port $PREFILL_PORT \
+  --enforce-eager \
+  --disable-log-requests \
+  --gpu-memory-utilization 0.2 \
+  --kv-transfer-config '{\"kv_connector\":\"NixlConnector\",\"kv_role\":\"kv_both\"}'"
+
+  if [ -n "$model_args" ]; then
+  FULL_CMD="$BASE_CMD $model_args"
+  else
+  FULL_CMD="$BASE_CMD"
+  fi
+
+  eval "$FULL_CMD &"
+
+  # Start decode instance
+  DECODE_PORT=8002
+
+  # Build the command with or without model-specific args
+  BASE_CMD="CUDA_VISIBLE_DEVICES=1 VLLM_NIXL_SIDE_CHANNEL_PORT=6000 vllm serve $model_name \
+  --port $DECODE_PORT \
+  --enforce-eager \
+  --disable-log-requests \
+  --gpu-memory-utilization 0.2 \
+  --kv-transfer-config '{\"kv_connector\":\"NixlConnector\",\"kv_role\":\"kv_both\"}'"
+
+  if [ -n "$model_args" ]; then
+  FULL_CMD="$BASE_CMD $model_args"
+  else
+  FULL_CMD="$BASE_CMD"
+  fi
+
+  eval "$FULL_CMD &"
+
+  # Wait for all instances to start
+  echo "Waiting for prefill instance on port $PORT to start..."
+  wait_for_server $PREFILL_PORT
+  echo "Waiting for decode instance on port $PORT to start..."
+  wait_for_server $DECODE_PORT
+
+  # Build the command for the proxy server with all the hosts and ports
+  PROXY_PORT=8192
+  PROXY_CMD="python ${GIT_ROOT}/tests/v1/kv_connector/nixl_integration/toy_proxy_server.py --port $PROXY_PORT"
+  PROXY_CMD+=" --prefiller-ports ${PREFILL_PORT}"
+  PROXY_CMD+=" --decoder-ports ${DECODE_PORT}"
+  # Start the proxy server
+  echo "Starting proxy server with command: $PROXY_CMD"
+  $PROXY_CMD &
+
+  # Wait for the proxy to start
+  sleep 5
+
+  # Run lm eval for this model
+  echo "Running tests for $model_name"
+  PREFILL_PORT=$PREFILL_PORT DECODE_PORT=$DECODE_PORT PROXY_PORT=$PROXY_PORT python -m pytest -s -v ${GIT_ROOT}/tests/v1/kv_connector/nixl_integration/test_edge_cases.py
+
+  # Clean up before running next model
+  cleanup_instances
+  sleep 3
+}
+
+# Run tests for each model
+for model in "${MODELS[@]}"; do
+  run_tests_for_model "$model"
+done
+
+echo "All tests completed!"
diff --git a/tests/v1/kv_connector/nixl_integration/test_accuracy.py b/tests/v1/kv_connector/nixl_integration/test_accuracy.py
new file mode 100644
index 000000000..be2d84f3b
--- /dev/null
+++ b/tests/v1/kv_connector/nixl_integration/test_accuracy.py
@@ -0,0 +1,60 @@
+# SPDX-License-Identifier: Apache-2.0
+import os
+
+import lm_eval
+import openai
+
+BASE_URL = "http://localhost:8192/v1"
+NUM_CONCURRENT = 100
+TASK = "gsm8k"
+FILTER = "exact_match,strict-match"
+RTOL = 0.03
+
+# Model-specific expected values
+EXPECTED_VALUES = {
+    "Qwen/Qwen3-0.6B": 0.41,
+}
+
+SIMPLE_PROMPT = "The best part about working on vLLM is that I got to meet so many people across various different organizations like UCB, Google, and Meta which means",  # noqa: E501
+
+# Get model name from environment variable
+MODEL_NAME = os.environ.get("TEST_MODEL", "Qwen/Qwen3-0.6B")
+
+
+def run_simple_prompt():
+    client = openai.OpenAI(api_key="EMPTY", base_url=BASE_URL)
+    completion = client.completions.create(model=MODEL_NAME,
+                                           prompt=SIMPLE_PROMPT)
+
+    print("-" * 50)
+    print(f"Completion results for {MODEL_NAME}:")
+    print(completion)
+    print("-" * 50)
+
+
+def test_accuracy():
+    """Run the end to end accuracy test."""
+    run_simple_prompt()
+
+    model_args = (f"model={MODEL_NAME},"
+                  f"base_url={BASE_URL}/completions,"
+                  f"num_concurrent={NUM_CONCURRENT},tokenized_requests=False")
+
+    results = lm_eval.simple_evaluate(
+        model="local-completions",
+        model_args=model_args,
+        tasks=TASK,
+    )
+
+    measured_value = results["results"][TASK][FILTER]
+    expected_value = EXPECTED_VALUES.get(MODEL_NAME)
+
+    if expected_value is None:
+        print(f"Warning: No expected value found for {MODEL_NAME}. "
+              "Skipping accuracy check.")
+        print(f"Measured value: {measured_value}")
+        return
+
+    assert (measured_value - RTOL < expected_value
+            and measured_value + RTOL > expected_value
+            ), f"Expected: {expected_value} | Measured: {measured_value}"
diff --git a/tests/v1/kv_connector/nixl_integration/test_edge_cases.py b/tests/v1/kv_connector/nixl_integration/test_edge_cases.py
new file mode 100644
index 000000000..5363fbde0
--- /dev/null
+++ b/tests/v1/kv_connector/nixl_integration/test_edge_cases.py
@@ -0,0 +1,77 @@
+# SPDX-License-Identifier: Apache-2.0
+import os
+
+import openai
+
+PREFILL_PORT = os.getenv("PREFILL_PORT", None)
+DECODE_PORT = os.getenv("DECODE_PORT", None)
+PROXY_PORT = os.getenv("PROXY_PORT", None)
+
+if PREFILL_PORT is None or DECODE_PORT is None or PROXY_PORT is None:
+    raise ValueError(
+        "Please set the PREFILL_PORT, DECODE_PORT, and PROXY_PORT.")
+
+LONG_PROMPT = "Red Hat is the best company in the world to work for because it works on open source software, which means that all the contributions are delivered to the community. As a result, when working on projects like vLLM we are able to meet many amazing people from various organizations like AMD, Google, NVIDIA, "  # noqa: E501
+PROMPT = "Red Hat is the best company in the world to work for because it works on open source software, which means that all the contributions are delivered to the community. As a result,"  # noqa: E501
+SHORT_PROMPT = "Red Hat is "
+
+
+def test_edge_cases():
+    # Set the OpenAI API key and base URL
+    decode_client = openai.OpenAI(
+        api_key="MY_KEY",
+        base_url=f"http://localhost:{DECODE_PORT}/v1",
+    )
+    prefill_client = openai.OpenAI(
+        api_key="MY_KEY",
+        base_url=f"http://localhost:{PREFILL_PORT}/v1",
+    )
+    proxy_client = openai.OpenAI(
+        api_key="MY_KEY",
+        base_url=f"http://localhost:{PROXY_PORT}/v1",
+    )
+
+    # Get the list of models
+    models = decode_client.models.list()
+    MODEL = models.data[0].id
+
+    # (1) Check that we can handle a very short prompt,
+    # less than the length of the block size.
+    completion = proxy_client.completions.create(model=MODEL,
+                                                 prompt=SHORT_PROMPT,
+                                                 temperature=0)
+    proxy_response = completion.choices[0].text
+    completion = prefill_client.completions.create(model=MODEL,
+                                                   prompt=SHORT_PROMPT,
+                                                   temperature=0)
+    prefill_response = completion.choices[0].text
+    print(f"SMALL PROMPT: {proxy_response=}")
+    assert proxy_response == prefill_response
+
+    # (2) Check that we can handle a full prefix cache
+    # hit on the D worker but not on the P worker.
+    # (2a): prime the D worker.
+    completion = decode_client.completions.create(model=MODEL,
+                                                  prompt=PROMPT,
+                                                  temperature=0)
+    decode_response = completion.choices[0].text
+    # (2b): send via the P/D setup
+    completion = proxy_client.completions.create(model=MODEL,
+                                                 prompt=PROMPT,
+                                                 temperature=0)
+    proxy_response = completion.choices[0].text
+    print(f"FULL CACHE HIT: {proxy_response=}")
+    assert proxy_response == decode_response
+
+    # (3) Check that we can handle a partial prefix cache
+    # hit on the D worker.
+    completion = proxy_client.completions.create(model=MODEL,
+                                                 prompt=LONG_PROMPT,
+                                                 temperature=0)
+    proxy_response = completion.choices[0].text
+    completion = prefill_client.completions.create(model=MODEL,
+                                                   prompt=LONG_PROMPT,
+                                                   temperature=0)
+    prefill_response = completion.choices[0].text
+    print(f"PARTIAL CACHE HIT: {proxy_response=}")
+    assert proxy_response == prefill_response
diff --git a/tests/v1/kv_connector/nixl_integration/toy_proxy_server.py b/tests/v1/kv_connector/nixl_integration/toy_proxy_server.py
new file mode 100644
index 000000000..13071f581
--- /dev/null
+++ b/tests/v1/kv_connector/nixl_integration/toy_proxy_server.py
@@ -0,0 +1,260 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import argparse
+import itertools
+import os
+import uuid
+from contextlib import asynccontextmanager
+
+import httpx
+from fastapi import FastAPI, Request
+from fastapi.responses import StreamingResponse
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    """
+    Lifespan context manager to handle startup and shutdown events.
+    """
+    # Startup: Initialize client pools for prefiller and decoder services
+    app.state.prefill_clients = []
+    app.state.decode_clients = []
+
+    # Create prefill clients
+    for i, (host, port) in enumerate(global_args.prefiller_instances):
+        prefiller_base_url = f'http://{host}:{port}/v1'
+        app.state.prefill_clients.append({
+            'client':
+            httpx.AsyncClient(timeout=None, base_url=prefiller_base_url),
+            'host':
+            host,
+            'port':
+            port,
+            'id':
+            i
+        })
+
+    # Create decode clients
+    for i, (host, port) in enumerate(global_args.decoder_instances):
+        decoder_base_url = f'http://{host}:{port}/v1'
+        app.state.decode_clients.append({
+            'client':
+            httpx.AsyncClient(timeout=None, base_url=decoder_base_url),
+            'host':
+            host,
+            'port':
+            port,
+            'id':
+            i
+        })
+
+    # Initialize round-robin iterators
+    app.state.prefill_iterator = itertools.cycle(
+        range(len(app.state.prefill_clients)))
+    app.state.decode_iterator = itertools.cycle(
+        range(len(app.state.decode_clients)))
+
+    print(f"Initialized {len(app.state.prefill_clients)} prefill clients "
+          f"and {len(app.state.decode_clients)} decode clients.")
+
+    yield
+
+    # Shutdown: Close all clients
+    for client_info in app.state.prefill_clients:
+        await client_info['client'].aclose()
+
+    for client_info in app.state.decode_clients:
+        await client_info['client'].aclose()
+
+
+# Update FastAPI app initialization to use lifespan
+app = FastAPI(lifespan=lifespan)
+
+
+def parse_args():
+    parser = argparse.ArgumentParser()
+
+    parser.add_argument("--port", type=int, default=8000)
+    parser.add_argument("--host", type=str, default="localhost")
+
+    # For prefiller instances
+    parser.add_argument("--prefiller-hosts",
+                        "--prefiller-host",
+                        type=str,
+                        nargs="+",
+                        default=["localhost"])
+    parser.add_argument("--prefiller-ports",
+                        "--prefiller-port",
+                        type=int,
+                        nargs="+",
+                        default=[8100])
+
+    # For decoder instances
+    parser.add_argument("--decoder-hosts",
+                        "--decoder-host",
+                        type=str,
+                        nargs="+",
+                        default=["localhost"])
+    parser.add_argument("--decoder-ports",
+                        "--decoder-port",
+                        type=int,
+                        nargs="+",
+                        default=[8200])
+
+    args = parser.parse_args()
+
+    # Validate and pair hosts with ports
+    if len(args.prefiller_hosts) != len(args.prefiller_ports):
+        raise ValueError(
+            "Number of prefiller hosts must match number of prefiller ports")
+
+    if len(args.decoder_hosts) != len(args.decoder_ports):
+        raise ValueError(
+            "Number of decoder hosts must match number of decoder ports")
+
+    # Create tuples of (host, port) for each service type
+    args.prefiller_instances = list(
+        zip(args.prefiller_hosts, args.prefiller_ports))
+    args.decoder_instances = list(zip(args.decoder_hosts, args.decoder_ports))
+
+    return args
+
+
+def get_next_client(app, service_type: str):
+    """
+    Get the next client in round-robin fashion.
+
+    Args:
+        app: The FastAPI app instance
+        service_type: Either 'prefill' or 'decode'
+
+    Returns:
+        The next client to use
+    """
+    if service_type == 'prefill':
+        client_idx = next(app.state.prefill_iterator)
+        return app.state.prefill_clients[client_idx]
+    elif service_type == 'decode':
+        client_idx = next(app.state.decode_iterator)
+        return app.state.decode_clients[client_idx]
+    else:
+        raise ValueError(f"Unknown service type: {service_type}")
+
+
+async def send_request_to_service(client_info: dict, endpoint: str,
+                                  req_data: dict, request_id: str):
+    """
+    Send a request to a service using a client from the pool.
+    """
+    req_data = req_data.copy()
+    req_data['kv_transfer_params'] = {
+        "do_remote_decode": True,
+        "do_remote_prefill": False,
+        "remote_engine_id": None,
+        "remote_block_ids": None,
+        "remote_host": None,
+        "remote_port": None
+    }
+    req_data["stream"] = False
+    req_data["max_tokens"] = 1
+    if "stream_options" in req_data:
+        del req_data["stream_options"]
+    headers = {
+        "Authorization": f"Bearer {os.environ.get('OPENAI_API_KEY')}",
+        "X-Request-Id": request_id
+    }
+
+    response = await client_info['client'].post(endpoint,
+                                                json=req_data,
+                                                headers=headers)
+    response.raise_for_status()
+
+    return response
+
+
+async def stream_service_response(client_info: dict, endpoint: str,
+                                  req_data: dict, request_id: str):
+    """
+    Asynchronously stream response from a service using a client from the pool.
+    """
+    headers = {
+        "Authorization": f"Bearer {os.environ.get('OPENAI_API_KEY')}",
+        "X-Request-Id": request_id
+    }
+
+    async with client_info['client'].stream("POST",
+                                            endpoint,
+                                            json=req_data,
+                                            headers=headers) as response:
+        response.raise_for_status()
+        async for chunk in response.aiter_bytes():
+            yield chunk
+
+
+@app.post("/v1/completions")
+async def handle_completions(request: Request):
+    try:
+        req_data = await request.json()
+        request_id = str(uuid.uuid4())
+
+        # Get the next prefill client in round-robin fashion
+        prefill_client_info = get_next_client(request.app, 'prefill')
+
+        # Send request to prefill service
+        response = await send_request_to_service(prefill_client_info,
+                                                 "/completions", req_data,
+                                                 request_id)
+
+        # Extract the needed fields
+        response_json = response.json()
+        kv_transfer_params = response_json.get('kv_transfer_params', {})
+        if kv_transfer_params:
+            req_data["kv_transfer_params"] = kv_transfer_params
+
+        # Get the next decode client in round-robin fashion
+        decode_client_info = get_next_client(request.app, 'decode')
+
+        logger.debug("Using %s %s", prefill_client_info, decode_client_info)
+
+        # Stream response from decode service
+        async def generate_stream():
+            async for chunk in stream_service_response(decode_client_info,
+                                                       "/completions",
+                                                       req_data,
+                                                       request_id=request_id):
+                yield chunk
+
+        return StreamingResponse(generate_stream(),
+                                 media_type="application/json")
+
+    except Exception as e:
+        import sys
+        import traceback
+        exc_info = sys.exc_info()
+        print("Error occurred in disagg prefill proxy server"
+              " - completions endpoint")
+        print(e)
+        print("".join(traceback.format_exception(*exc_info)))
+        raise
+
+
+@app.get("/healthcheck")
+async def healthcheck():
+    """Simple endpoint to check if the server is running."""
+    return {
+        "status": "ok",
+        "prefill_instances": len(app.state.prefill_clients),
+        "decode_instances": len(app.state.decode_clients)
+    }
+
+
+if __name__ == '__main__':
+    global global_args
+    global_args = parse_args()
+
+    import uvicorn
+    uvicorn.run(app, host=global_args.host, port=global_args.port)
diff --git a/tests/v1/kv_connector/unit/__init__.py b/tests/v1/kv_connector/unit/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tests/v1/kv_connector/unit/test_nixl_connector.py b/tests/v1/kv_connector/unit/test_nixl_connector.py
new file mode 100644
index 000000000..9b2a720c1
--- /dev/null
+++ b/tests/v1/kv_connector/unit/test_nixl_connector.py
@@ -0,0 +1,73 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from vllm.distributed.kv_transfer.kv_connector.v1.nixl_connector import (
+    NixlConnectorMetadata)
+
+from .utils import create_request, create_scheduler, create_vllm_config
+
+
+def test_basic_inferface():
+    """Unit test for basic NixlConnector interface functionality."""
+
+    vllm_config = create_vllm_config()
+    scheduler = create_scheduler(vllm_config)
+
+    # 2 Full Blocks and 1 Half Block.
+    BLOCK_SIZE = vllm_config.cache_config.block_size
+    NUM_EXTERNAL_FULL_BLOCKS = 2
+    NUM_TOKENS = int(BLOCK_SIZE * (NUM_EXTERNAL_FULL_BLOCKS + 0.5))
+
+    request = create_request(request_id=1,
+                             num_tokens=NUM_TOKENS,
+                             do_remote_prefill=True)
+    request_id = request.request_id
+
+    scheduler.add_request(request)
+
+    # Remote Prefill, triggers NixlConnectorMetdata.
+    scheduler_output = scheduler.schedule()
+    kv_connector_metadata = scheduler_output.kv_connector_metadata
+    assert kv_connector_metadata is not None
+    assert isinstance(kv_connector_metadata, NixlConnectorMetadata)
+
+    assert len(kv_connector_metadata.requests) == 1
+    assert request_id in kv_connector_metadata.requests
+    req_meta = kv_connector_metadata.requests[request_id]
+
+    for block_id, block in zip(
+            req_meta.local_block_ids, scheduler.kv_cache_manager.
+            single_type_manager.req_to_blocks[request_id]):
+        assert block_id == block.block_id
+
+
+def test_prompt_less_than_block_size():
+    """
+    Test that we can handle case where prompt is < block.
+
+    In this case, the P worker will send empty remote_block_ids.
+    The D worker should not schedule an async read in this case,
+    since there is nothing to pull.
+    """
+    vllm_config = create_vllm_config()
+    scheduler = create_scheduler(vllm_config)
+
+    # Half of a block.
+    BLOCK_SIZE = vllm_config.cache_config.block_size
+    NUM_TOKENS = int(BLOCK_SIZE * 0.5)
+
+    # Request will have 0 remote blocks.
+    request = create_request(request_id=1,
+                             num_tokens=NUM_TOKENS,
+                             do_remote_prefill=True,
+                             num_remote_blocks=0)
+    scheduler.add_request(request)
+    scheduler_output = scheduler.schedule()
+
+    # This request should not have to read async.
+    kv_connector_metadata = scheduler_output.kv_connector_metadata
+    assert kv_connector_metadata is not None
+    assert isinstance(kv_connector_metadata, NixlConnectorMetadata)
+    assert len(kv_connector_metadata.requests) == 0
+
+    # This request should be scheduled regularly.
+    assert len(scheduler_output.scheduled_new_reqs) == 1
diff --git a/tests/v1/kv_connector/unit/test_remote_decode_lifecycle.py b/tests/v1/kv_connector/unit/test_remote_decode_lifecycle.py
new file mode 100644
index 000000000..770981403
--- /dev/null
+++ b/tests/v1/kv_connector/unit/test_remote_decode_lifecycle.py
@@ -0,0 +1,181 @@
+# SPDX-License-Identifier: Apache-2.0
+import copy
+
+from vllm.v1.outputs import EMPTY_MODEL_RUNNER_OUTPUT
+from vllm.v1.request import FinishReason, RequestStatus
+
+from .utils import (assert_scheduler_empty, create_model_runner_output,
+                    create_request, create_scheduler, create_vllm_config)
+
+
+def test_basic_lifecycle():
+    """Test lifecycle of a Remote Decode request."""
+
+    vllm_config = create_vllm_config()
+    scheduler = create_scheduler(vllm_config)
+
+    # 2 Full Blocks and 1 Half Block.
+    BLOCK_SIZE = vllm_config.cache_config.block_size
+    NUM_EXTERNAL_FULL_BLOCKS = 2
+    NUM_TOKENS = int(BLOCK_SIZE * (NUM_EXTERNAL_FULL_BLOCKS + 0.5))
+
+    request = create_request(request_id=1,
+                             max_tokens=1,
+                             num_tokens=NUM_TOKENS,
+                             do_remote_decode=True)
+
+    scheduler.add_request(request)
+    request_id = request.request_id
+
+    # STEP (1): Prefill.
+    # (1a): schedule()
+    scheduler_output = scheduler.schedule()
+    assert len(scheduler.running) == 1
+    assert len(scheduler_output.scheduled_new_reqs) == 1
+
+    # (1b): execute_model()
+    model_runner_output = create_model_runner_output(reqs=[request])
+
+    # (1c): update_from_output()
+    engine_core_outputs = scheduler.update_from_output(scheduler_output,
+                                                       model_runner_output)
+
+    # Ensure the request is finished after 1 tokens.
+    assert request.is_finished()
+    assert request.status == RequestStatus.FINISHED_LENGTH_CAPPED
+    output = engine_core_outputs.outputs[0]
+    assert output.finish_reason == FinishReason.LENGTH
+    assert output.kv_transfer_params is not None
+
+    # Request freed in Scheduler and in Persistent Batch ...
+    assert request_id in scheduler.finished_req_ids
+    assert len(scheduler.running) == 0
+    assert len(scheduler.waiting) == 0
+
+    # ... but blocks should not be freed.
+    blocks = scheduler.kv_cache_manager.single_type_manager.req_to_blocks[
+        request_id]
+    for block in blocks:
+        assert block.ref_cnt == 1
+
+    # STEP (2): Send Finished to PB.
+    # (2a): schedule() - pass finished request to PB.
+    scheduler_output = scheduler.schedule()
+    assert len(scheduler.running) == 0
+    assert len(scheduler_output.finished_req_ids) == 1
+    assert request_id in scheduler_output.finished_req_ids
+    assert len(scheduler_output.scheduled_new_reqs) == 0
+    assert len(scheduler_output.scheduled_cached_reqs) == 0
+    assert len(scheduler.finished_req_ids) == 0
+
+    # (2b): execute_model()
+    model_runner_output = EMPTY_MODEL_RUNNER_OUTPUT
+
+    # (2c): update_from_output()
+    scheduler.update_from_output(scheduler_output, model_runner_output)
+
+    # STEP (3): Finished sending.
+    # (3a): schedule() - pass finished request to PB.
+    scheduler_output = scheduler.schedule()
+    assert len(scheduler.running) == 0
+    assert len(scheduler_output.finished_req_ids) == 0
+    assert len(scheduler_output.scheduled_new_reqs) == 0
+    assert len(scheduler_output.scheduled_cached_reqs) == 0
+    assert len(scheduler.finished_req_ids) == 0
+
+    # (3b): execute_model()
+    model_runner_output = copy.deepcopy(EMPTY_MODEL_RUNNER_OUTPUT)
+    model_runner_output.finished_sending = [request_id]
+
+    # (3c): update_from_output()
+    scheduler.update_from_output(scheduler_output, model_runner_output)
+
+    # Confirm we do not have any memory leaks after req lifecycle.
+    assert_scheduler_empty(scheduler)
+
+
+def test_short_prompt_lifecycle():
+    """Test lifecycle of a Remote Decode request with short prompt."""
+
+    vllm_config = create_vllm_config()
+    scheduler = create_scheduler(vllm_config)
+
+    # Not enough tokens for full block.
+    NUM_TOKENS = vllm_config.cache_config.block_size // 2
+    request = create_request(request_id=1,
+                             max_tokens=1,
+                             num_tokens=NUM_TOKENS,
+                             do_remote_decode=True)
+
+    scheduler.add_request(request)
+
+    # STEP (1): Prefill.
+    # (1a): schedule()
+    scheduler_output = scheduler.schedule()
+    assert len(scheduler.running) == 1
+    assert len(scheduler_output.scheduled_new_reqs) == 1
+
+    # (1b): execute_model()
+    model_runner_output = create_model_runner_output(reqs=[request])
+
+    # (1c): update_from_output()
+    # Since tokens < block_size, there will be no kv xfer.
+    # So this should be cleaned up immediately.
+    _ = scheduler.update_from_output(scheduler_output, model_runner_output)
+
+    # Confirm we do not have any memory leaks after req lifecycle.
+    # We need one more call to schedule() to clear data for persistent batch.
+    _ = scheduler.schedule()
+    assert_scheduler_empty(scheduler)
+
+
+def test_prefix_cache_lifecycle():
+    """Test that remote decode params still works with a prefix cache hit."""
+
+    vllm_config = create_vllm_config()
+    scheduler = create_scheduler(vllm_config)
+
+    # Prime the KVCache.
+    BLOCK_SIZE = vllm_config.cache_config.block_size
+    NUM_EXTERNAL_FULL_BLOCKS = 3
+    NUM_TOKENS = int(BLOCK_SIZE * (NUM_EXTERNAL_FULL_BLOCKS + 0.5))
+
+    request_normal = create_request(request_id=1, num_tokens=NUM_TOKENS)
+
+    scheduler.add_request(request_normal)
+    scheduler_output = scheduler.schedule()
+    model_runner_output = create_model_runner_output(reqs=[request_normal],
+                                                     use_eos=True)
+    scheduler.update_from_output(scheduler_output, model_runner_output)
+    scheduler.schedule()
+    scheduler.update_from_output(scheduler_output, EMPTY_MODEL_RUNNER_OUTPUT)
+
+    #####################
+    # Actual Test: confirm we send all blocks.
+
+    # Step (1): Send the KV Transfer.
+    NUM_EXTERNAL_FULL_BLOCKS -= 1
+    NUM_TOKENS = int(BLOCK_SIZE * (NUM_EXTERNAL_FULL_BLOCKS + 0.5))
+
+    request_remote = create_request(request_id=1,
+                                    num_tokens=NUM_TOKENS,
+                                    do_remote_decode=True)
+
+    scheduler.add_request(request_remote)
+    scheduler_output = scheduler.schedule()
+    model_runner_output = create_model_runner_output(reqs=[request_remote])
+    eco = scheduler.update_from_output(scheduler_output, model_runner_output)
+    kv_transfer_params = eco.outputs[0].kv_transfer_params
+
+    # Ensure we send all block ids, even if there is a cache hit.
+    assert (len(
+        kv_transfer_params["remote_block_ids"]) == NUM_EXTERNAL_FULL_BLOCKS)
+
+    # STEP (2): Ensure it is freed.
+    scheduler_output = scheduler.schedule()
+    scheduler.schedule()
+    model_runner_output = copy.deepcopy(EMPTY_MODEL_RUNNER_OUTPUT)
+    model_runner_output.finished_sending = [request_remote.request_id]
+    scheduler.update_from_output(scheduler_output, model_runner_output)
+    _ = scheduler.schedule()
+    assert_scheduler_empty(scheduler)
diff --git a/tests/v1/kv_connector/unit/test_remote_prefill_lifecycle.py b/tests/v1/kv_connector/unit/test_remote_prefill_lifecycle.py
new file mode 100644
index 000000000..fc4928f9e
--- /dev/null
+++ b/tests/v1/kv_connector/unit/test_remote_prefill_lifecycle.py
@@ -0,0 +1,342 @@
+# SPDX-License-Identifier: Apache-2.0
+import copy
+
+from vllm.v1.outputs import EMPTY_MODEL_RUNNER_OUTPUT
+from vllm.v1.request import FinishReason, RequestStatus
+
+from .utils import (assert_scheduler_empty, create_model_runner_output,
+                    create_request, create_scheduler, create_vllm_config)
+
+
+def test_basic_lifecycle():
+    """Test lifecycle of a remote prefill."""
+
+    vllm_config = create_vllm_config()
+    scheduler = create_scheduler(vllm_config)
+
+    # 2 Full Blocks and 1 Half Block.
+    BLOCK_SIZE = vllm_config.cache_config.block_size
+    NUM_EXTERNAL_FULL_BLOCKS = 2
+    NUM_TOKENS = int(BLOCK_SIZE * (NUM_EXTERNAL_FULL_BLOCKS + 0.5))
+    START_FREE_BLOCK_QUEUE_SIZE = (
+        scheduler.kv_cache_manager.block_pool.free_block_queue.num_free_blocks)
+
+    request = create_request(request_id=1,
+                             num_tokens=NUM_TOKENS,
+                             do_remote_prefill=True)
+
+    scheduler.add_request(request)
+    request_id = request.request_id
+
+    # STEP (1):
+    # (1a): schedule()
+    scheduler_output = scheduler.schedule()
+
+    # Nothing running and empty scheduler output.
+    assert len(scheduler.running) == 0
+    assert len(scheduler_output.scheduled_new_reqs) == 0
+    assert len(scheduler_output.scheduled_cached_reqs) == 0
+    assert len(scheduler_output.num_scheduled_tokens) == 0
+    assert scheduler_output.total_num_scheduled_tokens == 0
+
+    # Req waiting for KVs with no computed/scheduled toks ...
+    assert len(scheduler.waiting) == 1
+    assert request in scheduler.waiting
+    assert (request.status == RequestStatus.WAITING_FOR_REMOTE_KVS)
+    assert (request.num_computed_tokens == 0)
+
+    # ... but should have (uncached) blocks allocated to it.
+    block_pool = scheduler.kv_cache_manager.block_pool
+    assert (block_pool.free_block_queue.num_free_blocks
+            < START_FREE_BLOCK_QUEUE_SIZE)
+    assert len(block_pool.cached_block_hash_to_block) == 0
+    blocks = scheduler.kv_cache_manager.single_type_manager.req_to_blocks[
+        request_id]
+    for block in blocks:
+        assert block._block_hash is None
+
+    # (1b): forward()
+    model_runner_output = EMPTY_MODEL_RUNNER_OUTPUT
+
+    # (1c): update_from_output()
+    engine_core_outputs = scheduler.update_from_output(scheduler_output,
+                                                       model_runner_output)
+    assert len(engine_core_outputs.outputs) == 0
+
+    # STEP (2):
+    # (2a): schedule(): nothing happens!
+    scheduler_output = scheduler.schedule()
+    assert len(scheduler.waiting) == 1
+    assert len(scheduler.running) == 0
+
+    # (2b): forward(): request finishes recv.
+    model_runner_output = copy.deepcopy(EMPTY_MODEL_RUNNER_OUTPUT)
+    model_runner_output.finished_recving = [request_id]
+
+    # (2c): update_from_output():
+    engine_core_outputs = scheduler.update_from_output(scheduler_output,
+                                                       model_runner_output)
+    assert len(scheduler.waiting) == 1
+    assert (request_id in scheduler.finished_recving_kv_req_ids)
+
+    # STEP (3):
+    # (3a): schedule(): this should actually schedule.
+    scheduler_output = scheduler.schedule()
+    assert len(scheduler.running) == 1
+
+    # Confirm the block are actually allocated.
+    num_hashed_blocks = 0
+    blocks = scheduler.kv_cache_manager.single_type_manager.req_to_blocks[
+        request_id]
+    for block in blocks:
+        assert block.ref_cnt == 1
+        num_hashed_blocks += (1 if block._block_hash is not None else 0)
+    assert num_hashed_blocks == NUM_EXTERNAL_FULL_BLOCKS
+
+    # Confirm the rest of the prompt is scheduled in this step.
+    scheduled_req = scheduler_output.scheduled_new_reqs[0]
+    num_scheduled_tokens = scheduler_output.num_scheduled_tokens[request_id]
+    num_computed_tokens = scheduled_req.num_computed_tokens
+    total_prompt_tokens = len(scheduled_req.prompt_token_ids)
+    assert (num_scheduled_tokens == total_prompt_tokens - num_computed_tokens)
+
+    # (3b): execute_model()
+    model_runner_output = create_model_runner_output([request])
+    # (3c): update_from_output()
+    scheduler.update_from_output(scheduler_output, model_runner_output)
+
+    # Step (4): Hit EOS.
+    scheduler_output = scheduler.schedule()
+    model_runner_output = create_model_runner_output([request], use_eos=True)
+    engine_core_outputs = scheduler.update_from_output(scheduler_output,
+                                                       model_runner_output)
+    scheduler.schedule()
+
+    outputs = engine_core_outputs.outputs
+    assert len(outputs) == 1
+    output = outputs[0]
+    assert output.finish_reason == FinishReason.STOP
+    assert_scheduler_empty(scheduler)
+
+
+def test_interleaved_lifecycle():
+    """Test Remote Prefills Work Well With Other Requests."""
+
+    vllm_config = create_vllm_config()
+    scheduler = create_scheduler(vllm_config)
+
+    # 2 Full Blocks and 1 Half Block.
+    BLOCK_SIZE = vllm_config.cache_config.block_size
+    NUM_EXTERNAL_FULL_BLOCKS = 2
+    NUM_TOKENS = int(BLOCK_SIZE * (NUM_EXTERNAL_FULL_BLOCKS + 0.5))
+
+    request_remote = create_request(request_id=1,
+                                    num_tokens=NUM_TOKENS,
+                                    do_remote_prefill=True)
+    request_local_a = create_request(
+        request_id=2,
+        num_tokens=NUM_TOKENS,
+    )
+    request_local_b = create_request(
+        request_id=3,
+        num_tokens=NUM_TOKENS,
+    )
+
+    # STEP 1: Regular request is running.
+    scheduler.add_request(request_local_a)
+    scheduler_output = scheduler.schedule()
+    assert len(scheduler.running) == 1
+
+    model_runner_output = create_model_runner_output([request_local_a])
+    scheduler.update_from_output(scheduler_output, model_runner_output)
+
+    # STEP 2: Add a local and remote request.
+    scheduler.add_request(request_local_b)
+    scheduler.add_request(request_remote)
+    scheduler_output = scheduler.schedule()
+    assert len(scheduler.running) == 2
+    assert len(scheduler.waiting) == 1
+    assert len(scheduler_output.scheduled_new_reqs) == 1
+    assert len(scheduler_output.scheduled_cached_reqs) == 1
+
+    model_runner_output = create_model_runner_output(
+        [request_local_a, request_local_b])
+    scheduler.update_from_output(scheduler_output, model_runner_output)
+
+    # STEP 3: continue running, KVs not arrived yet.
+    scheduler_output = scheduler.schedule()
+    assert len(scheduler.running) == 2
+    assert len(scheduler.waiting) == 1
+    assert len(scheduler_output.scheduled_new_reqs) == 0
+    assert len(scheduler_output.scheduled_cached_reqs) == 2
+
+    model_runner_output = create_model_runner_output(
+        reqs=[request_local_a, request_local_b])
+    scheduler.update_from_output(scheduler_output, model_runner_output)
+    assert len(scheduler.running) == 2
+    assert len(scheduler.waiting) == 1
+    assert len(scheduler_output.scheduled_new_reqs) == 0
+    assert len(scheduler_output.scheduled_cached_reqs) == 2
+
+    # STEP 4: KVs arrive.
+    scheduler_output = scheduler.schedule()
+    assert len(scheduler.running) == 2
+    assert len(scheduler.waiting) == 1
+    assert len(scheduler_output.scheduled_new_reqs) == 0
+    assert len(scheduler_output.scheduled_cached_reqs) == 2
+
+    model_runner_output = create_model_runner_output(
+        [request_local_a, request_local_b],
+        finished_recving=[request_remote.request_id])
+    scheduler.update_from_output(scheduler_output, model_runner_output)
+
+    # STEP 5: RECVed KVs are sent to ModelRunner.
+    scheduler_output = scheduler.schedule()
+    assert len(scheduler.running) == 3
+    assert len(scheduler.waiting) == 0
+    assert len(scheduler_output.scheduled_new_reqs) == 1
+    assert len(scheduler_output.scheduled_cached_reqs) == 2
+
+    model_runner_output = create_model_runner_output(
+        [request_local_a, request_local_b, request_remote])
+    scheduler.update_from_output(scheduler_output, model_runner_output)
+
+    # STEP 6: Hit EOS and free.
+    scheduler_output = scheduler.schedule()
+    model_runner_output = create_model_runner_output(
+        [request_local_a, request_local_b, request_remote],
+        use_eos=True,
+    )
+    scheduler.update_from_output(scheduler_output, model_runner_output)
+    scheduler.schedule()
+    assert_scheduler_empty(scheduler)
+
+
+def test_no_spurious_prefix_caching():
+    """
+    With P/D, blocks can be allocated but uncomputed for
+    multiple engine steps. This test confirms that we do
+    not accidentally have cache hits against uncomputed
+    blocks.
+    """
+
+    vllm_config = create_vllm_config()
+    scheduler = create_scheduler(vllm_config)
+
+    vllm_config = create_vllm_config()
+    scheduler = create_scheduler(vllm_config)
+
+    # 2 and a half full external blocks.
+    BLOCK_SIZE = vllm_config.cache_config.block_size
+    NUM_EXTERNAL_FULL_BLOCKS = 2
+    NUM_TOKENS = int(BLOCK_SIZE * (NUM_EXTERNAL_FULL_BLOCKS + 0.5))
+
+    # Both of these requests have prompts like [1,1,1,1,1, ...]
+    request_remote = create_request(
+        request_id=1,
+        num_tokens=NUM_TOKENS,
+        do_remote_prefill=True,
+        use_all_1s_for_prompt_tokens=True,
+    )
+
+    request_local = create_request(
+        request_id=2,
+        num_tokens=NUM_TOKENS,
+        do_remote_prefill=False,
+        use_all_1s_for_prompt_tokens=True,
+    )
+
+    # Schedule the remote prefill request. This should not
+    # cause any blocks to be cached.
+    scheduler.add_request(request_remote)
+    scheduler_output = scheduler.schedule()
+    scheduler.update_from_output(scheduler_output, EMPTY_MODEL_RUNNER_OUTPUT)
+    assert len(scheduler.waiting) == 1
+
+    # Schedule the local prefill request. This should
+    # cause blocks to be cached, but separately from
+    scheduler.add_request(request_local)
+    scheduler_output = scheduler.schedule()
+    assert len(scheduler.running) == 1
+    assert len(scheduler.waiting) == 1
+
+    local_blocks = scheduler.kv_cache_manager.single_type_manager.req_to_blocks[
+        request_local.request_id]
+    remote_blocks = scheduler.kv_cache_manager.single_type_manager.req_to_blocks[  # noqa: E501
+        request_remote.request_id]
+
+    # Local should have cached blocks (but not all due to preallocate).
+    num_hashed_blocks = 0
+    for block in local_blocks:
+        assert block.ref_cnt == 1
+        num_hashed_blocks += (1 if block._block_hash is not None else 0)
+    assert num_hashed_blocks > 0
+
+    # Remote blocks should not be cached.
+    for block in remote_blocks:
+        assert block.ref_cnt == 1
+        assert block._block_hash is None
+
+
+def test_full_block_prompt():
+    """Test that we handle a prompt that is the full block size."""
+
+    vllm_config = create_vllm_config()
+    scheduler = create_scheduler(vllm_config)
+
+    # 2 Full Blocks and 1 Half Block.
+    BLOCK_SIZE = vllm_config.cache_config.block_size
+    NUM_EXTERNAL_FULL_BLOCKS = 2
+    NUM_TOKENS = int(BLOCK_SIZE * NUM_EXTERNAL_FULL_BLOCKS)
+
+    request = create_request(request_id=1,
+                             num_tokens=NUM_TOKENS,
+                             do_remote_prefill=True)
+
+    scheduler.add_request(request)
+    request_id = request.request_id
+
+    # STEP (1): Initialize a recv.
+    scheduler_output = scheduler.schedule()
+    # All blocks should be allocated.
+    num_blocks = len(scheduler.kv_cache_manager.single_type_manager.
+                     req_to_blocks[request_id])
+    assert num_blocks == NUM_EXTERNAL_FULL_BLOCKS
+    model_runner_output = EMPTY_MODEL_RUNNER_OUTPUT
+    scheduler.update_from_output(scheduler_output, model_runner_output)
+
+    # # STEP (2): Recv.
+    scheduler_output = scheduler.schedule()
+    model_runner_output = copy.deepcopy(EMPTY_MODEL_RUNNER_OUTPUT)
+    model_runner_output.finished_recving = [request_id]
+    scheduler.update_from_output(scheduler_output, model_runner_output)
+    assert len(scheduler.waiting) == 1
+    assert (request_id in scheduler.finished_recving_kv_req_ids)
+
+    # # STEP (3): Run as usual.
+    scheduler_output = scheduler.schedule()
+
+    # We need to recompute the final token of the prompt to generate
+    # the first new token, so we should not have a new block.
+    num_blocks = len(scheduler.kv_cache_manager.single_type_manager.
+                     req_to_blocks[request_id])
+    assert num_blocks == NUM_EXTERNAL_FULL_BLOCKS
+    assert (scheduler_output.scheduled_new_reqs[0].num_computed_tokens ==
+            NUM_TOKENS - 1)
+    assert (scheduler_output.num_scheduled_tokens[request_id] == 1)
+
+    model_runner_output = create_model_runner_output([request])
+    scheduler.update_from_output(scheduler_output, model_runner_output)
+
+    # # Step (4): Hit EOS.
+    scheduler_output = scheduler.schedule()
+    model_runner_output = create_model_runner_output([request], use_eos=True)
+    engine_core_outputs = scheduler.update_from_output(scheduler_output,
+                                                       model_runner_output)
+    scheduler.schedule()
+
+    outputs = engine_core_outputs.outputs
+    assert len(outputs) == 1
+    output = outputs[0]
+    assert output.finish_reason == FinishReason.STOP
+    assert_scheduler_empty(scheduler)
diff --git a/tests/v1/kv_connector/unit/utils.py b/tests/v1/kv_connector/unit/utils.py
new file mode 100644
index 000000000..8a7d7bdd8
--- /dev/null
+++ b/tests/v1/kv_connector/unit/utils.py
@@ -0,0 +1,190 @@
+# SPDX-License-Identifier: Apache-2.0
+from typing import Optional
+
+import torch
+
+from vllm import SamplingParams
+from vllm.config import (CacheConfig, DeviceConfig, KVTransferConfig,
+                         ModelConfig, SchedulerConfig, VllmConfig)
+from vllm.distributed.kv_transfer.kv_connector.v1.nixl_connector import (
+    NixlKVTransferParams)
+from vllm.v1.core.sched.scheduler import Scheduler
+from vllm.v1.kv_cache_interface import (FullAttentionSpec, KVCacheConfig,
+                                        KVCacheGroupSpec)
+from vllm.v1.outputs import ModelRunnerOutput
+from vllm.v1.request import Request
+from vllm.v1.structured_output import StructuredOutputManager
+
+EOS_TOKEN_ID = 50256
+
+
+def assert_scheduler_empty(scheduler: Scheduler):
+    """Confirm the scheduler is "empty" - i.e. no leaks."""
+    # Scheduler Metadata.
+    assert len(scheduler.requests) == 0
+    assert len(scheduler.waiting) == 0
+    assert len(scheduler.running) == 0
+    assert len(scheduler.finished_req_ids) == 0
+    assert len(scheduler.finished_recving_kv_req_ids) == 0
+    assert len(scheduler._cached_reqs_data) == 0
+
+    # EncoderCacheManager.
+    assert len(scheduler.encoder_cache_manager.freed) == 0
+    assert len(scheduler.encoder_cache_manager.cached) == 0
+
+    # KVCache Manager.
+    assert len(
+        scheduler.kv_cache_manager.single_type_manager.req_to_blocks) == 0
+    assert len(scheduler.kv_cache_manager.req_to_block_hashes) == 0
+    assert len(
+        scheduler.kv_cache_manager.single_type_manager.num_cached_block) == 0
+    num_free_blocks = (
+        scheduler.kv_cache_manager.block_pool.free_block_queue.num_free_blocks)
+    assert num_free_blocks == (
+        scheduler.kv_cache_manager.block_pool.num_gpu_blocks - 1)
+
+    # NOTE(rob): just the ref count on blocks will be 0. The hash
+    # value, etc will remain since we lazily evict for prefix cache.
+    for block in scheduler.kv_cache_manager.block_pool.blocks:
+        assert block.ref_cnt == 0
+
+
+def create_vllm_config(
+    model: str = "facebook/opt-125m",
+    max_num_seqs: int = 16,
+    max_num_batched_tokens: int = 64,
+    block_size: int = 16,
+) -> VllmConfig:
+    """Initialize VllmConfig For Testing."""
+    scheduler_config = SchedulerConfig(
+        max_num_seqs=max_num_seqs,
+        max_num_batched_tokens=max_num_batched_tokens,
+        max_model_len=max_num_batched_tokens,
+    )
+    model_config = ModelConfig(
+        model=model,
+        task="auto",
+        tokenizer=model,
+        tokenizer_mode="auto",
+        trust_remote_code=True,
+        dtype="float16",
+        seed=42,
+    )
+    # Cache config, optionally force APC
+    cache_config = CacheConfig(
+        block_size=block_size,
+        gpu_memory_utilization=0.9,
+        swap_space=0,
+        cache_dtype="auto",
+        enable_prefix_caching=True,
+    )
+    kv_transfer_config = KVTransferConfig(
+        kv_connector="NixlConnector",
+        kv_role="kv_both",
+    )
+    return VllmConfig(scheduler_config=scheduler_config,
+                      model_config=model_config,
+                      cache_config=cache_config,
+                      kv_transfer_config=kv_transfer_config,
+                      device_config=DeviceConfig("cpu"))
+
+
+def create_scheduler(
+    vllm_config: VllmConfig,
+    num_blocks: int = 10000,
+) -> Scheduler:
+    """Initialize Scheduler For Testing."""
+    block_size = vllm_config.cache_config.block_size
+    kv_cache_config = KVCacheConfig(
+        num_blocks=num_blocks,  # A large number of blocks to hold all requests
+        tensors={},
+        kv_cache_groups=[
+            KVCacheGroupSpec(['layer'],
+                             FullAttentionSpec(block_size, 1, 1, torch.float32,
+                                               False))
+        ],
+    )
+    vllm_config.cache_config.num_gpu_blocks = num_blocks
+    return Scheduler(
+        vllm_config=vllm_config,
+        kv_cache_config=kv_cache_config,
+        log_stats=True,
+        structured_output_manager=StructuredOutputManager(vllm_config),
+    )
+
+
+def create_request(
+    request_id: int,
+    num_tokens: int = 10,
+    max_tokens: int = 16,
+    do_remote_decode: bool = False,
+    do_remote_prefill: bool = False,
+    use_all_1s_for_prompt_tokens: bool = False,
+    num_remote_blocks: int = 3,
+) -> Request:
+    """Make dummy request for testing."""
+
+    if do_remote_decode:
+        assert not do_remote_prefill
+        kv_transfer_params = NixlKVTransferParams(do_remote_prefill=False,
+                                                  do_remote_decode=True)
+    elif do_remote_prefill:
+        kv_transfer_params = NixlKVTransferParams(
+            do_remote_prefill=True,
+            do_remote_decode=False,
+            remote_engine_id="my-engine-id",
+            remote_block_ids=list(range(num_remote_blocks)),
+            remote_host="my-host",
+            remote_port=1234)
+    else:
+        kv_transfer_params = None
+
+    max_tokens = 1 if do_remote_decode else max_tokens
+    sampling_params = SamplingParams(max_tokens=max_tokens)
+
+    if use_all_1s_for_prompt_tokens:
+        prompt_token_ids = [1] * num_tokens
+    else:
+        prompt_token_ids = [i * request_id for i in range(num_tokens)]
+
+    req = Request(
+        request_id=f"id-{request_id}",
+        prompt_token_ids=prompt_token_ids,
+        sampling_params=sampling_params,
+        multi_modal_inputs=None,
+        multi_modal_placeholders=None,
+        multi_modal_hashes=None,
+        eos_token_id=EOS_TOKEN_ID,
+        arrival_time=0,
+    )
+    req.kv_transfer_params = kv_transfer_params
+    return req
+
+
+def create_model_runner_output(
+    reqs: list[Request],
+    finished_sending: Optional[list[str]] = None,
+    finished_recving: Optional[list[str]] = None,
+    use_eos: bool = False,
+) -> ModelRunnerOutput:
+    """Make dummy model runner output for testing."""
+
+    # Make request data.
+    req_ids = [req.request_id for req in reqs]
+    req_id_to_index = {req_id: idx for idx, req_id in enumerate(req_ids)}
+
+    # Make sampled tokens.
+    sampled_token = EOS_TOKEN_ID if use_eos else 0
+    sampled_token_ids = [[sampled_token] for _ in req_ids]
+
+    # Make output data structure.
+    return ModelRunnerOutput(
+        req_ids=req_ids,
+        req_id_to_index=req_id_to_index,
+        sampled_token_ids=sampled_token_ids,
+        spec_token_ids=None,
+        logprobs=None,
+        prompt_logprobs_dict={},
+        finished_sending=finished_sending,
+        finished_recving=finished_recving,
+    )
diff --git a/vllm/config.py b/vllm/config.py
index 4a5036655..c6b97bbdc 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -8,6 +8,7 @@ import inspect
 import json
 import re
 import textwrap
+import uuid
 import warnings
 from collections import Counter
 from contextlib import contextmanager
@@ -3438,6 +3439,9 @@ class KVTransferConfig:
     """The KV connector for vLLM to transmit KV caches between vLLM instances.
     """
 
+    engine_id: str = str(uuid.uuid4())
+    """The engine id for KV transfers."""
+
     kv_buffer_device: Optional[str] = "cuda"
     """The device used by kv connector to buffer the KV cache.
     Currently only support 'cuda'."""
@@ -3448,7 +3452,7 @@ class KVTransferConfig:
 
     kv_role: Optional[KVRole] = None
     """Whether this vLLM instance produces, consumes KV cache, or both. Choices
-    are 'kv_producer', 'kv_consumer', and 'both'."""
+    are 'kv_producer', 'kv_consumer', and 'kv_both'."""
 
     kv_rank: Optional[int] = None
     """The rank of this vLLM instance in the KV cache transfer. Typical value:
diff --git a/vllm/distributed/kv_transfer/kv_connector/factory.py b/vllm/distributed/kv_transfer/kv_connector/factory.py
index 6532c101a..54cb1871d 100644
--- a/vllm/distributed/kv_transfer/kv_connector/factory.py
+++ b/vllm/distributed/kv_transfer/kv_connector/factory.py
@@ -105,3 +105,8 @@ KVConnectorFactory.register_connector(
     "LMCacheConnectorV1",
     "vllm.distributed.kv_transfer.kv_connector.v1.lmcache_connector",
     "LMCacheConnectorV1")
+
+KVConnectorFactory.register_connector(
+    "NixlConnector",
+    "vllm.distributed.kv_transfer.kv_connector.v1.nixl_connector",
+    "NixlConnector")
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/__init__.py b/vllm/distributed/kv_transfer/kv_connector/v1/__init__.py
index a017b140e..43181ab79 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/__init__.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/__init__.py
@@ -1,8 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
 from vllm.distributed.kv_transfer.kv_connector.v1.base import (
-    KVConnectorBase_V1, KVConnectorRole)
+    KVConnectorBase_V1, KVConnectorRole, KVTransferParams)
 
-__all__ = [
-    "KVConnectorRole",
-    "KVConnectorBase_V1",
-]
+__all__ = ["KVConnectorRole", "KVConnectorBase_V1", "KVTransferParams"]
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/base.py b/vllm/distributed/kv_transfer/kv_connector/v1/base.py
index 95967d2ca..2ff61e8a4 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/base.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/base.py
@@ -23,7 +23,7 @@ The class provides the following primitives:
 import enum
 from abc import ABC, abstractmethod
 from dataclasses import dataclass
-from typing import TYPE_CHECKING
+from typing import TYPE_CHECKING, Any, Optional
 
 import torch
 
@@ -34,6 +34,7 @@ if TYPE_CHECKING:
     from vllm.attention.backends.abstract import AttentionMetadata
     from vllm.config import VllmConfig
     from vllm.forward_context import ForwardContext
+    from vllm.v1.core.kv_cache_manager import KVCacheBlocks
     from vllm.v1.request import Request
 
 logger = init_logger(__name__)
@@ -47,12 +48,34 @@ class KVConnectorRole(enum.Enum):
     WORKER = 1
 
 
+class KVTransferParams:
+    """
+    Abstract KVTransferParams used to send KVTransfer
+    parameters between instances of vLLM.
+    
+    Specific instances of KVConnector customize this
+    method for serializing / deserializing msgs sent
+    via the HTTP protocol.
+    """
+
+    @staticmethod
+    def from_raw_dict(
+            raw_dict: Optional[dict[str,
+                                    Any]]) -> Optional["KVTransferParams"]:
+        return None
+
+
 @dataclass
 class KVConnectorMetadata:
+    """
+    Abstract Metadata used to communicate between the
+    Scheduler KVConnector and Worker KVConnector.
+    """
     pass
 
 
 class KVConnectorBase_V1(ABC):
+    _KVTransferParams = KVTransferParams
 
     def __init__(self, vllm_config: "VllmConfig", role: KVConnectorRole):
         logger.warning(
@@ -66,6 +89,10 @@ class KVConnectorBase_V1(ABC):
     def role(self) -> KVConnectorRole:
         return self._role
 
+    # ==============================
+    # Worker-side methods
+    # ==============================
+
     def bind_connector_metadata(
             self, connector_metadata: KVConnectorMetadata) -> None:
         """Set the connector metadata from the scheduler.
@@ -97,9 +124,15 @@ class KVConnectorBase_V1(ABC):
         """
         return self._connector_metadata
 
-    # ==============================
-    # Worker-side methods
-    # ==============================
+    def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
+        """
+        Initialize with the KV caches. Useful for pre-registering the
+        KV Caches in the KVConnector (e.g. for NIXL).
+
+        Args: kv_caches:
+            dictionary of layer names, kv cache
+        """
+        return
 
     @abstractmethod
     def start_load_kv(self, forward_context: "ForwardContext",
@@ -162,15 +195,37 @@ class KVConnectorBase_V1(ABC):
         """
         pass
 
+    def get_finished(
+        self, finished_req_ids: set[str]
+    ) -> tuple[Optional[set[str]], Optional[set[str]]]:
+        """
+        Notifies worker-side connector ids of requests that have
+        finished generating tokens.
+
+        Returns:
+            ids of requests that have finished asynchronous (recving, sending).
+            The finished saves/sends req ids must belong to a set provided in a
+            call to this method (this call or a prior one).
+        """
+        return None, None
+
     # ==============================
     # Scheduler-side methods
     # ==============================
+
+    def set_kv_transfer_params(self, request: "Request"):
+        """Parse raw KV Transfer params."""
+        assert request.kv_transfer_params is None
+        kv_transfer_params = self._KVTransferParams.from_raw_dict(
+            request.raw_kv_transfer_params)
+        request.kv_transfer_params = kv_transfer_params
+
     @abstractmethod
     def get_num_new_matched_tokens(
         self,
         request: "Request",
         num_computed_tokens: int,
-    ) -> int:
+    ) -> tuple[int, bool]:
         """
         Get number of new tokens that can be loaded from the
         external KV cache beyond the num_computed_tokens.
@@ -181,13 +236,16 @@ class KVConnectorBase_V1(ABC):
                 computed tokens for this request
 
         Returns:
-            the number of tokens that can be loaded from the 
-            external KV cache beyond what is already computed.
+            * the number of tokens that can be loaded from the 
+              external KV cache beyond what is already computed.
+            * true if external KV cache tokens will be loaded
+              asynchronously (between scheduler steps).
         """
         pass
 
     @abstractmethod
     def update_state_after_alloc(self, request: "Request",
+                                 blocks: "KVCacheBlocks",
                                  num_external_tokens: int):
         """
         Update KVConnector state after block allocation.
@@ -207,3 +265,20 @@ class KVConnectorBase_V1(ABC):
             scheduler_output (SchedulerOutput): the scheduler output object.
         """
         pass
+
+    def request_finished(
+        self,
+        request: "Request",
+        block_ids: list[int],
+    ) -> tuple[bool, Optional[dict[str, Any]]]:
+        """
+        Called when a request has finished, before its blocks are freed.
+
+        Returns:
+            True if the request is being saved/sent asynchronously and blocks
+            should not be freed until the request_id is returned from
+            get_finished().
+            Optional KVTransferParams to be included in the request outputs
+            returned by the engine.
+        """
+        return False, None
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_connector.py
index e07f185f0..2cb68dc1f 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_connector.py
@@ -13,6 +13,7 @@ from vllm.v1.core.sched.output import SchedulerOutput
 if TYPE_CHECKING:
     from vllm.attention.backends.abstract import AttentionMetadata
     from vllm.forward_context import ForwardContext
+    from vllm.v1.core.kv_cache_manager import KVCacheBlocks
     from vllm.v1.request import Request
 
 logger = init_logger(__name__)
@@ -92,7 +93,7 @@ class LMCacheConnectorV1(KVConnectorBase_V1):
         self,
         request: "Request",
         num_computed_tokens: int,
-    ) -> int:
+    ) -> tuple[int, bool]:
         """
         Get number of new tokens that can be loaded from the
         external KV cache beyond the num_computed_tokens.
@@ -107,9 +108,10 @@ class LMCacheConnectorV1(KVConnectorBase_V1):
             external KV cache beyond what is already computed.
         """
         return self._lmcache_engine.get_num_new_matched_tokens(
-            request, num_computed_tokens)
+            request, num_computed_tokens), False
 
     def update_state_after_alloc(self, request: "Request",
+                                 blocks: "KVCacheBlocks",
                                  num_external_tokens: int):
         """
         Update KVConnector state after block allocation.
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
new file mode 100644
index 000000000..d26184982
--- /dev/null
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -0,0 +1,805 @@
+# SPDX-License-Identifier: Apache-2.0
+import contextlib
+import math
+import threading
+import time
+import uuid
+from collections import defaultdict
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Any, Iterator
+
+import msgspec
+import torch
+import zmq
+from typing_extensions import Optional
+
+from vllm import envs
+from vllm.config import VllmConfig
+from vllm.distributed.kv_transfer.kv_connector.v1.base import (
+    KVConnectorBase_V1, KVConnectorMetadata, KVConnectorRole, KVTransferParams)
+from vllm.distributed.parallel_state import (
+    get_tensor_model_parallel_rank, get_tensor_model_parallel_world_size,
+    get_tp_group)
+from vllm.logger import init_logger
+from vllm.utils import round_down
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.request import RequestStatus
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionMetadata
+    from vllm.forward_context import ForwardContext
+    from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.request import Request
+
+GET_META_MSG = b"get_meta_msg"
+
+logger = init_logger(__name__)
+
+# Lazy import nixl_wrapper to avoid loading nixl_bindings if nixl is not used
+try:
+    from nixl._api import nixl_agent as NixlWrapper
+    logger.info("NIXL is available")
+except ImportError:
+    logger.warning("NIXL is not available")
+    NixlWrapper = None
+
+
+@dataclass
+class NixlKVTransferParams(KVTransferParams):
+
+    def __init__(
+        self,
+        do_remote_prefill: bool,
+        do_remote_decode: bool,
+        remote_block_ids: Optional[list[int]] = None,
+        remote_host: Optional[str] = None,
+        remote_port: Optional[int] = None,
+        remote_engine_id: Optional[str] = None,
+    ):
+        self.do_remote_prefill = do_remote_prefill
+        self.do_remote_decode = do_remote_decode
+        self.remote_block_ids = remote_block_ids
+        self.remote_host = remote_host
+        self.remote_port = remote_port
+        self.remote_engine_id = remote_engine_id
+
+    @staticmethod
+    def from_raw_dict(
+        raw_dict: Optional[dict[str,
+                                Any]]) -> Optional["NixlKVTransferParams"]:
+
+        # If no raw transfer params passed, return None.
+        if raw_dict is None:
+            return None
+
+        # Validate the request is formatted properly.
+        if (("do_remote_prefill" not in raw_dict)
+                or ("do_remote_decode" not in raw_dict)
+                or ("remote_block_ids" not in raw_dict)
+                or ("remote_host" not in raw_dict)
+                or ("remote_port" not in raw_dict)
+                or ("remote_engine_id" not in raw_dict)):
+            logger.warning(
+                "Got invalid KVTransferParams: %s. This "
+                "request will not utilize KVTransfer", raw_dict)
+            return None
+
+        return NixlKVTransferParams(
+            do_remote_prefill=raw_dict["do_remote_prefill"],
+            do_remote_decode=raw_dict["do_remote_decode"],
+            remote_block_ids=raw_dict["remote_block_ids"],
+            remote_host=raw_dict["remote_host"],
+            remote_port=raw_dict["remote_port"],
+            remote_engine_id=raw_dict["remote_engine_id"],
+        )
+
+
+class NixlAgentMetadata(
+        msgspec.Struct,
+        omit_defaults=True,  # type: ignore[call-arg]
+        # required for @cached_property.
+        dict=True):
+    engine_id: str
+    agent_metadata: bytes
+    kv_caches_base_addr: list[int]
+    num_blocks: int
+
+
+@dataclass
+class ReqMeta:
+    local_block_ids: list[int]
+    remote_block_ids: list[int]
+    remote_host: str
+    remote_port: int
+    remote_engine_id: str
+
+
+class NixlConnectorMetadata(KVConnectorMetadata):
+
+    def __init__(self):
+        self.requests: dict[str, ReqMeta] = {}
+
+    def add_new_req(
+        self,
+        request_id: str,
+        local_block_ids: list[int],
+        kv_transfer_params: NixlKVTransferParams,
+    ):
+        assert request_id not in self.requests
+        assert kv_transfer_params.remote_block_ids is not None
+        assert kv_transfer_params.remote_engine_id is not None
+        assert kv_transfer_params.remote_host is not None
+        assert kv_transfer_params.remote_port is not None
+
+        self.requests[request_id] = ReqMeta(
+            local_block_ids=local_block_ids,
+            remote_block_ids=kv_transfer_params.remote_block_ids,
+            remote_engine_id=kv_transfer_params.remote_engine_id,
+            remote_host=kv_transfer_params.remote_host,
+            remote_port=kv_transfer_params.remote_port,
+        )
+
+
+class NixlConnector(KVConnectorBase_V1):
+    _KVTransferParams: type[NixlKVTransferParams] = NixlKVTransferParams
+
+    def __init__(self, vllm_config: VllmConfig, role: KVConnectorRole):
+        assert vllm_config.kv_transfer_config is not None
+        self.engine_id = vllm_config.kv_transfer_config.engine_id
+
+        if role == KVConnectorRole.SCHEDULER:
+            self.connector_scheduler : Optional[NixlConnectorScheduler] = \
+                NixlConnectorScheduler(vllm_config, str(self.engine_id))
+            self.connector_worker: Optional[NixlConnectorWorker] = None
+        elif role == KVConnectorRole.WORKER:
+            self.connector_scheduler = None
+            self.connector_worker = NixlConnectorWorker(str(self.engine_id))
+
+    ############################################################
+    # Scheduler Side Methods
+    ############################################################
+
+    def get_num_new_matched_tokens(
+            self, request: "Request",
+            num_computed_tokens: int) -> tuple[int, bool]:
+        assert self.connector_scheduler is not None
+        return self.connector_scheduler.get_num_new_matched_tokens(
+            request, num_computed_tokens)
+
+    def update_state_after_alloc(self, request: "Request",
+                                 blocks: "KVCacheBlocks",
+                                 num_external_tokens: int):
+        assert self.connector_scheduler is not None
+        return self.connector_scheduler.update_state_after_alloc(
+            request, blocks, num_external_tokens)
+
+    def build_connector_meta(
+        self,
+        scheduler_output: SchedulerOutput,
+    ) -> KVConnectorMetadata:
+        assert self.connector_scheduler is not None
+        return self.connector_scheduler.build_connector_meta(scheduler_output)
+
+    def request_finished(
+        self,
+        request: "Request",
+        block_ids: list[int],
+    ) -> tuple[bool, Optional[dict[str, Any]]]:
+        assert self.connector_scheduler is not None
+        return self.connector_scheduler.request_finished(request, block_ids)
+
+    ############################################################
+    # Worker Side Methods
+    ############################################################
+    def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
+        assert self.connector_worker is not None
+        self.connector_worker.register_kv_caches(kv_caches)
+
+    def get_finished(self,
+                     finished_req_ids: set[str]) -> tuple[set[str], set[str]]:
+        """Get the finished recving and sending requests."""
+        assert self.connector_worker is not None
+        return self.connector_worker.get_finished()
+
+    def start_load_kv(self, forward_context: "ForwardContext",
+                      **kwargs) -> None:
+        assert self.connector_worker is not None
+        assert isinstance(self._connector_metadata, NixlConnectorMetadata)
+        self.connector_worker.start_load_kv(self._connector_metadata)
+
+    def wait_for_layer_load(self, layer_name: str) -> None:
+        """NixlConnector does not do layerwise saving."""
+        pass
+
+    def save_kv_layer(self, layer_name: str, kv_layer: torch.Tensor,
+                      attn_metadata: "AttentionMetadata", **kwargs) -> None:
+        """NixlConnector does not save explicitly."""
+        pass
+
+    def wait_for_save(self):
+        """NixlConnector does not save explicitly."""
+        pass
+
+
+class NixlConnectorScheduler:
+    """Implementation of Scheduler side methods"""
+
+    def __init__(self, vllm_config: VllmConfig, engine_id: str):
+        self.vllm_config = vllm_config
+        self.block_size = vllm_config.cache_config.block_size
+        self.engine_id = engine_id
+        logger.info("Initializing NIXL Scheduler %s", engine_id)
+
+        # Requests that need to start recv.
+        # New requests are added by update_state_after_alloc in
+        # the scheduler. Used to make metadata passed to Worker.
+        self._reqs_need_recv: dict[str, tuple[Request, list[int]]] = {}
+
+    def get_num_new_matched_tokens(
+            self, request: "Request",
+            num_computed_tokens: int) -> tuple[int, bool]:
+        """
+        For remote prefill, pull all prompt blocks from remote
+        asynchronously relative to engine execution.
+        
+        Args:
+            request (Request): the request object.
+            num_computed_tokens (int): the number of locally
+                computed tokens for this request
+        Returns:
+            * the number of tokens that can be loaded from the 
+              external KV cache beyond what is already computed.
+            * true if the external KV cache tokens will be loaded
+              asynchronously (between scheduler steps).
+        """
+
+        # No KVTransfer for this request.
+        if request.kv_transfer_params is None:
+            return 0, False
+        assert isinstance(request.kv_transfer_params, NixlKVTransferParams)
+
+        # Remote prefill: get all prompt blocks from remote.
+        if request.kv_transfer_params.do_remote_prefill:
+            assert num_computed_tokens % self.block_size == 0
+            rounded_num_prompt_tokens = round_down(
+                len(request.prompt_token_ids), self.block_size)
+            count = max(rounded_num_prompt_tokens - num_computed_tokens, 0)
+            return count, count > 0
+
+        return 0, False
+
+    def update_state_after_alloc(self, request: "Request",
+                                 blocks: "KVCacheBlocks",
+                                 num_external_tokens: int):
+        if request.kv_transfer_params is None:
+            return
+
+        assert isinstance(request.kv_transfer_params, NixlKVTransferParams)
+        if request.kv_transfer_params.do_remote_prefill:
+            # NOTE(rob): if prompt < block_size, no remote blocks
+            # since the remote only sends fully computed blocks, so
+            # skip recving for this request. num_external_tokens
+            # should be 0 if there are no remote blocks.
+            if request.kv_transfer_params.remote_block_ids:
+                # Get unhashed blocks to pull from remote.
+                self._reqs_need_recv[request.request_id] = (
+                    request, blocks.get_unhashed_block_ids())
+            else:
+                assert num_external_tokens == 0
+            # Only trigger 1 KV transfer per request.
+            request.kv_transfer_params.do_remote_prefill = False
+
+    def build_connector_meta(
+        self,
+        scheduler_output: SchedulerOutput,
+    ) -> KVConnectorMetadata:
+        meta = NixlConnectorMetadata()
+
+        # Loop through scheduled reqs and convert to ReqMeta.
+        for req_id, (req, block_ids) in self._reqs_need_recv.items():
+            assert isinstance(req.kv_transfer_params, NixlKVTransferParams)
+            meta.add_new_req(
+                request_id=req_id,
+                local_block_ids=block_ids,
+                kv_transfer_params=req.kv_transfer_params,
+            )
+
+        # Clear the list once workers start the transfers
+        self._reqs_need_recv.clear()
+
+        return meta
+
+    def request_finished(
+        self,
+        request: "Request",
+        block_ids: list[int],
+    ) -> tuple[bool, Optional[dict[str, Any]]]:
+        """
+        Once a request is finished, determine whether request blocks
+        should be freed now or will be sent asynchronously and freed later.
+        """
+
+        if request.kv_transfer_params is None:
+            return False, None
+        assert isinstance(request.kv_transfer_params, NixlKVTransferParams)
+
+        if ((not request.kv_transfer_params.do_remote_decode)
+                or (request.status != RequestStatus.FINISHED_LENGTH_CAPPED)):
+            return False, None
+
+        # Get computed blocks.
+        all_full = request.num_computed_tokens % self.block_size == 0
+        computed_block_ids = (block_ids if all_full else block_ids[:-1])
+
+        # If prompt < block_size, no xfer so free blocks immediately.
+        delay_free_blocks = len(computed_block_ids) > 0
+
+        return delay_free_blocks, NixlKVTransferParams(
+            do_remote_prefill=True,
+            do_remote_decode=False,
+            remote_block_ids=computed_block_ids,
+            remote_engine_id=self.engine_id,
+            remote_host=envs.VLLM_NIXL_SIDE_CHANNEL_HOST,
+            remote_port=envs.VLLM_NIXL_SIDE_CHANNEL_PORT,
+        ).__dict__
+
+
+class NixlConnectorWorker:
+    """Implementation of Worker side methods"""
+
+    def __init__(self, engine_id: str):
+        if NixlWrapper is None:
+            logger.error("NIXL is not available")
+            raise RuntimeError("NIXL is not available")
+        logger.info("Initializing NIXL wrapper")
+        logger.info("Initializing NIXL worker %s", engine_id)
+
+        # Agent.
+        self.nixl_wrapper = NixlWrapper(str(uuid.uuid4()), None)
+        # Map of engine_id -> agent_name.
+        self._remote_agents: dict[str, str] = {}
+
+        # Metadata.
+        self.engine_id = engine_id
+        self.rank = get_tensor_model_parallel_rank()
+        self.world_size = get_tensor_model_parallel_world_size()
+        self.tp_group = get_tp_group()
+
+        # KV Caches and nixl tracking data.
+        self.kv_caches: dict[str, torch.Tensor] = {}
+
+        # Map of engine_id -> kv_caches_base_addr
+        self.kv_caches_base_addr: dict[str, list[int]] = {}
+
+        # Number of NIXL regions. Currently one region per cache
+        # (so 1 per layer for MLA, otherwise 2 per layer)
+        self.num_regions = 0
+
+        # nixl_prepped_dlist_handle (int).
+        self.src_xfer_side_handle: int = 0
+        # Map of engine_id -> nixl_prepped_dlist_handle (int)].
+        self.dst_xfer_side_handles: dict[str, int] = {}
+
+        # Map of engine_id -> num_blocks.
+        self.dst_num_blocks: dict[str, int] = {}
+        self._registered_descs: list[Any] = []
+
+        # In progress transfers.
+        # [req_id -> list[handle]]
+        self._recving_transfers: defaultdict[str, list[Any]] = defaultdict(
+            list[Any])
+
+        # Complete transfer tracker. Used by the rank 0 to track finished
+        # transactions on ranks 1 to N-1.
+        # [req_id -> count]
+        self._done_recving_count: defaultdict[str,
+                                              int] = defaultdict(lambda: 0)
+        self._done_sending_count: defaultdict[str,
+                                              int] = defaultdict(lambda: 0)
+
+        # Background thread for establishing new connections.
+        self._nixl_handshake_listener_t: Optional[threading.Thread] = None
+
+    @staticmethod
+    def _nixl_handshake_listener(metadata: NixlAgentMetadata,
+                                 ready_event: threading.Event, rank: int):
+        """Background thread for getting new NIXL handshakes."""
+        # NOTE(rob): this is a simple implementation. We will move
+        # to a better approach like an ETCD server in the future.
+
+        # NOTE(rob): to support heterogeneous TP, we will have to
+        # move this into the scheduler rather than worker, since
+        # each rank needs the metadata of all other ranks (whereas
+        # in this setup, each rank only gets one other rank's meta.
+
+        encoder = msgspec.msgpack.Encoder()
+        encoded_data = encoder.encode(metadata)
+        size_in_bytes = len(encoded_data)
+        logger.debug("Size of encoded NixlAgentMetadata: %s bytes",
+                     str(size_in_bytes))
+
+        # Listen for new requests for metadata.
+        host = envs.VLLM_NIXL_SIDE_CHANNEL_HOST
+        # NOTE(rob): we need each rank to have a unique port. This
+        # hack to keeps us moving. We will switch when moving to etcd
+        # or where we have a single ZMQ socket in the scheduler.
+        port = envs.VLLM_NIXL_SIDE_CHANNEL_PORT + rank
+        path = f"tcp://{host}:{port}"
+        logger.debug("Starting listening on path: %s", path)
+        with zmq_ctx(zmq.ROUTER, path) as sock:
+            ready_event.set()
+            while True:
+                identity, _, msg = sock.recv_multipart()
+                if msg != GET_META_MSG:
+                    logger.warning(
+                        "Connection listener got unexpected message %s", msg)
+                sock.send_multipart((identity, b"", encoded_data))
+
+    def _nixl_handshake(self, host: str, port: int):
+        """Do a NIXL handshake with a remote instance."""
+
+        start_time = time.perf_counter()
+        # NOTE(rob): we need each rank to have a unique port. This is
+        # a hack to keep us moving. We will switch when moving to etcd
+        # or where we have a single ZMQ socket in the scheduler.
+        path = f"tcp://{host}:{port + self.rank}"
+        logger.debug("Querying metadata on path: %s", path)
+        with zmq_ctx(zmq.REQ, path) as sock:
+            # Send query for the request.
+            sock.send(GET_META_MSG)
+            metadata_bytes = sock.recv()
+            decoder = msgspec.msgpack.Decoder(NixlAgentMetadata)
+            metadata = decoder.decode(metadata_bytes)
+            got_metadata_time = time.perf_counter()
+
+            # Register Remote agent.
+            self.add_remote_agent(metadata)
+            setup_agent_time = time.perf_counter()
+
+            logger.debug("NIXL handshake: get metadata took: %s",
+                         got_metadata_time - start_time)
+            logger.debug("NIXL handshake: add agent took: %s",
+                         setup_agent_time - got_metadata_time)
+
+    def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
+        """Register the KV Cache data in nixl."""
+
+        _, first_kv_cache = next(iter(kv_caches.items()))
+        kv_elem_size = first_kv_cache.element_size()
+
+        # TODO(tms): Find a more robust way to detect and handle MLA
+        use_mla = len(first_kv_cache.shape) == 3
+        if use_mla:
+            # MLA case.
+            self.num_blocks = first_kv_cache.shape[0]
+            block_rank = 2  # [block_size, latent_dim]
+            block_shape = first_kv_cache.shape[-block_rank:]
+        else:
+            # [2 (k and v), num_blocks, ...]
+            self.num_blocks = first_kv_cache.shape[1]
+            block_rank = 3  # [block_size, kv_heads, head_dim]
+            block_shape = first_kv_cache.shape[-block_rank:]
+
+        # TODO(tms): self.block_len needs to be per-layer for sliding window,
+        # hybrid attn, etc
+        self.block_len = kv_elem_size * math.prod(block_shape)
+
+        logger.debug("Registering KV_Caches. use_mla: %s, shape %s", use_mla,
+                     first_kv_cache.shape)
+        logger.debug("num_blocks: %s, block_shape: %s", self.num_blocks,
+                     block_shape)
+        logger.debug("Per layer kv cache size: %s", first_kv_cache.shape)
+        self.dst_num_blocks[self.engine_id] = self.num_blocks
+        self.kv_caches = kv_caches
+        kv_caches_base_addr = []
+        caches_data = []
+
+        # Note(tms): I modified this from the original region setup code.
+        # K and V are now in different regions. Advantage is that we can
+        # elegantly support MLA and any cases where the K and V tensors
+        # are non-contiguous (it's not locally guaranteed that they will be)
+        # Disadvantage is that the encoded NixlAgentMetadata is now larger
+        # (roughly 8KB vs 5KB).
+        for cache_or_caches in kv_caches.values():
+            # Normalize to always be a list of caches
+            cache_list = [cache_or_caches] if use_mla else cache_or_caches
+            for cache in cache_list:
+                base_addr = cache.data_ptr()
+                region_len = self.num_blocks * self.block_len
+                caches_data.append((base_addr, region_len, self.rank, ""))
+                kv_caches_base_addr.append(base_addr)
+        self.kv_caches_base_addr[self.engine_id] = kv_caches_base_addr
+        self.num_regions = len(caches_data)
+
+        descs = self.nixl_wrapper.get_reg_descs(caches_data, "VRAM")
+        logger.debug("Registering descs: %s", caches_data)
+        self.nixl_wrapper.register_memory(descs)
+        logger.debug("Done registering descs")
+
+        self._registered_descs.append(descs)
+
+        # After KV Caches registered, listen for new connections.
+        metadata = NixlAgentMetadata(
+            engine_id=self.engine_id,
+            agent_metadata=self.nixl_wrapper.get_agent_metadata(),
+            kv_caches_base_addr=self.kv_caches_base_addr[self.engine_id],
+            num_blocks=self.num_blocks,
+        )
+        ready_event = threading.Event()
+        self._nixl_handshake_listener_t = threading.Thread(
+            target=self._nixl_handshake_listener,
+            args=(metadata, ready_event, self.rank),
+            daemon=True,
+            name="nixl_handshake_listener")
+        self._nixl_handshake_listener_t.start()
+        ready_event.wait()
+
+    def add_remote_agent(self, nixl_agent_meta: NixlAgentMetadata):
+        engine_id = nixl_agent_meta.engine_id
+        if engine_id in self._remote_agents:
+            return
+
+        self._remote_agents[engine_id] = self.nixl_wrapper.add_remote_agent(
+            nixl_agent_meta.agent_metadata)
+        self.kv_caches_base_addr[
+            engine_id] = nixl_agent_meta.kv_caches_base_addr
+
+        # Create src descs and xfer side handles.
+        blocks_data = []
+        for base_addr in self.kv_caches_base_addr[self.engine_id]:
+            for block_id in range(self.num_blocks):
+                block_offset = block_id * self.block_len
+                # (addr, len, device id)
+                blocks_data.append(
+                    (base_addr + block_offset, self.block_len, self.rank))
+        logger.debug("Created %s blocks for src engine %s and rank %s",
+                     len(blocks_data), self.engine_id, self.rank)
+
+        # Register with NIXL.
+        descs = self.nixl_wrapper.get_xfer_descs(blocks_data, "VRAM")
+        self.src_xfer_side_handle = self.nixl_wrapper.prep_xfer_dlist(
+            "NIXL_INIT_AGENT", descs)
+
+        # Create dst descs and xfer side handles.
+        self.dst_num_blocks[engine_id] = nixl_agent_meta.num_blocks
+        blocks_data = []
+        for base_addr in self.kv_caches_base_addr[engine_id]:
+            for block_id in range(nixl_agent_meta.num_blocks):
+                block_offset = block_id * self.block_len
+                # (addr, len, device id)
+                blocks_data.append(
+                    (base_addr + block_offset, self.block_len, self.rank))
+        logger.debug("Created %s blocks for dst engine %s and rank %s",
+                     len(blocks_data), engine_id, self.rank)
+
+        # Register with NIXL.
+        descs = self.nixl_wrapper.get_xfer_descs(blocks_data, "VRAM")
+        self.dst_xfer_side_handles[
+            engine_id] = self.nixl_wrapper.prep_xfer_dlist(
+                self._remote_agents[engine_id], descs)
+
+    def get_finished(self) -> tuple[set[str], set[str]]:
+        """
+        Get requests that are done sending or recving.
+
+        In TP>1 setup, each rank exchanges KVs with its counterpart
+        ranks independently. get_finished() runs in a worker creates
+        the done_sending and done_recving sets that are sent to the
+        scheduler via ModelRunnerOutput by Rank 0. To ensure trnxs
+        are done before adding to finished, Ranks 1 to N-1 communicate
+        to Rank 0 once their transaction is done + Rank 0 returns
+        finished sets to Scheduler only once all ranks are done.
+        """
+        done_sending = self._get_new_notifs()
+        done_recving = self._pop_done_transfers(self._recving_transfers)
+        if len(done_sending) > 0 or len(done_recving) > 0:
+            logger.debug(
+                "Rank %s, get_finished: %s requests done sending "
+                "and %s requests done recving", self.rank, len(done_sending),
+                len(done_recving))
+
+        if self.world_size == 1:
+            return done_sending, done_recving
+
+        # Rank 0: get finished from all other ranks.
+        if self.rank == 0:
+            for req_id in done_sending:
+                self._done_sending_count[req_id] += 1
+            for req_id in done_recving:
+                self._done_recving_count[req_id] += 1
+
+            # Keep track of how many other ranks have finished.
+            other_ranks_finished_ids: list[str] = []
+            for i in range(1, self.world_size):
+                other_ranks_finished_ids.extend(
+                    self.tp_group.recv_object(src=i))
+            for req_id in other_ranks_finished_ids:
+                if (req_id in self._done_recving_count
+                        or req_id in self._recving_transfers):
+                    self._done_recving_count[req_id] += 1
+                else:
+                    self._done_sending_count[req_id] += 1
+
+            # Return ids that finished on all ranks to the scheduler.
+            all_done_recving: set[str] = set()
+            for req_id in list(self._done_recving_count.keys()):
+                if self._done_recving_count[req_id] == self.world_size:
+                    del self._done_recving_count[req_id]
+                    all_done_recving.add(req_id)
+
+            all_done_sending: set[str] = set()
+            for req_id in list(self._done_sending_count.keys()):
+                if self._done_sending_count[req_id] == self.world_size:
+                    del self._done_sending_count[req_id]
+                    all_done_sending.add(req_id)
+
+            return all_done_sending, all_done_recving
+
+        # Ranks 1 to N-1: send finished ids to Rank 0.
+        else:
+            finished_req_ids = list(done_recving.union(done_sending))
+            self.tp_group.send_object(finished_req_ids, dst=0)
+
+            # Unused as only Rank 0 results are sent to scheduler.
+            return done_sending, done_recving
+
+    def _get_new_notifs(self) -> set[str]:
+        """Get req_ids which got a remote xfer message."""
+
+        notified_req_ids: set[str] = set()
+        for req_ids in self.nixl_wrapper.get_new_notifs().values():
+            for req_id in req_ids:
+                assert req_id not in notified_req_ids
+                notified_req_ids.add(req_id.decode("utf-8"))
+        return notified_req_ids
+
+    def _pop_done_transfers(self, transfers: dict[str, list[int]]) -> set[str]:
+        """
+        Pop completed xfers by checking for DONE state.
+        Args:
+            transfers: dict of req_id -> list[running_xfer]
+        Returns:
+            set of req_ids that have all done xfers
+        """
+        done_req_ids: set[str] = set()
+        for req_id, handles in list(transfers.items()):
+            running_reqs = []
+            for handle in handles:
+                xfer_state = self.nixl_wrapper.check_xfer_state(handle)
+                if xfer_state == "DONE":
+                    # TODO ptarasiewicz: why abort is throwing errors?
+                    # self.nixl_wrapper.release_xfer_handle(handle)
+                    continue
+                if xfer_state == "PROC":
+                    running_reqs.append(handle)
+                else:
+                    raise RuntimeError("Transfer failed with state %s",
+                                       xfer_state)
+            if len(running_reqs) == 0:
+                done_req_ids.add(req_id)
+                del transfers[req_id]
+            else:
+                transfers[req_id] = running_reqs
+        return done_req_ids
+
+    def start_load_kv(self, metadata: NixlConnectorMetadata):
+        """
+        Start loading by triggering non-blocking nixl_xfer.
+        We check for these trnxs to complete in each step().
+        """
+        for req_id, meta in metadata.requests.items():
+            logger.debug(
+                "start_load_kv for request %s from remote engine %s. "
+                "Num local_block_ids: %s. Num remote_block_ids: %s. ", req_id,
+                meta.remote_engine_id, len(meta.local_block_ids),
+                len(meta.remote_block_ids))
+            self._read_blocks(
+                request_id=req_id,
+                dst_engine_id=meta.remote_engine_id,
+                local_block_ids=meta.local_block_ids,
+                remote_block_ids=meta.remote_block_ids,
+                remote_host=meta.remote_host,
+                remote_port=meta.remote_port,
+            )
+
+    def _read_blocks(
+        self,
+        local_block_ids: list[int],
+        remote_block_ids: list[int],
+        remote_host: str,
+        remote_port: int,
+        dst_engine_id: str,
+        request_id: str,
+    ):
+        # NOTE(rob): this takes ~2s. We need to get this off the hotpath.
+        if dst_engine_id not in self._remote_agents:
+            self._nixl_handshake(remote_host, remote_port)
+
+        # NOTE(rob): having the staging blocks be on the READER side is
+        # not going to work well (since we will have to call rearrange tensors).
+        # after we detect the txn is complete (which means we cannot make the
+        # read trxn async easily). If we want to make "READ" happen cleanly,
+        # then we will need to have the staging blocks on the remote side.
+
+        # NOTE(rob): according to nvidia the staging blocks are used to
+        # saturate IB with heterogeneous TP sizes. We should remove the staging
+        # blocks until we are ready.
+
+        # Full prefix cache hit: do not need to read remote blocks,
+        # just notify P worker that we have the blocks we need.
+        num_local_blocks = len(local_block_ids)
+        if num_local_blocks == 0:
+            self.nixl_wrapper.send_notif(dst_engine_id,
+                                         notif_msg=request_id.encode("utf-8"))
+            return
+
+        # Partial prefix cache hit: just read uncomputed blocks.
+        num_remote_blocks = len(remote_block_ids)
+        assert num_local_blocks <= num_remote_blocks
+        if num_local_blocks < num_remote_blocks:
+            remote_block_ids = remote_block_ids[-num_local_blocks:]
+
+        # Get side handles.
+        local_xfer_side_handle = self.src_xfer_side_handle
+        remote_xfer_side_handle = self.dst_xfer_side_handles[dst_engine_id]
+
+        # Get descs ids.
+        remote_block_descs_ids = self._get_block_descs_ids(
+            dst_engine_id, remote_block_ids)
+        local_block_descs_ids = self._get_block_descs_ids(
+            self.engine_id, local_block_ids)
+        assert len(local_block_descs_ids) == len(remote_block_descs_ids)
+
+        # Prepare transfer with Nixl.
+        handle = self.nixl_wrapper.make_prepped_xfer(
+            "READ",
+            local_xfer_side_handle,
+            local_block_descs_ids,
+            remote_xfer_side_handle,
+            remote_block_descs_ids,
+            notif_msg=request_id.encode("utf-8"),
+        )
+
+        # Begin async xfer.
+        self.nixl_wrapper.transfer(handle)
+
+        # Use handle to check completion in future step().
+        self._recving_transfers[request_id].append(handle)
+
+    def _get_block_descs_ids(self, engine_id: str,
+                             block_ids: list[int]) -> list[int]:
+        """Get the descs ids for a set of block ids."""
+
+        # range(1) for MLA, range(2) otherwise.
+        region_ids = range(self.num_regions)
+        num_blocks = self.dst_num_blocks[engine_id]
+
+        # Compute the desc ids for each block.
+        descs_ids: list[int] = []
+        for reg_id in region_ids:
+            for block_id in block_ids:
+                descs_ids.append(reg_id * num_blocks + block_id)
+        return descs_ids
+
+
+@contextlib.contextmanager
+def zmq_ctx(socket_type: Any, addr: str) -> Iterator[zmq.Socket]:
+    """Context manager for a ZMQ socket"""
+
+    ctx: Optional[zmq.Context] = None
+    try:
+        ctx = zmq.Context()  # type: ignore[attr-defined]
+
+        if socket_type == zmq.ROUTER:
+            socket = ctx.socket(zmq.ROUTER)
+            socket.bind(addr)
+        elif socket_type == zmq.REQ:
+            socket = ctx.socket(zmq.REQ)
+            socket.connect(addr)
+        else:
+            raise ValueError(f"Unexpected socket type: {socket_type}")
+
+        yield socket
+    finally:
+        if ctx is not None:
+            ctx.destroy(linger=0)
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py
index f91ffbc72..0fedb6fd5 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py
@@ -17,6 +17,7 @@ from vllm.v1.core.sched.output import SchedulerOutput
 if TYPE_CHECKING:
     from vllm.attention.backends.abstract import AttentionMetadata
     from vllm.forward_context import ForwardContext
+    from vllm.v1.core.kv_cache_manager import KVCacheBlocks
     from vllm.v1.request import Request
 
 logger = init_logger(__name__)
@@ -132,8 +133,7 @@ class SharedStorageConnector(KVConnectorBase_V1):
                 dst_kv_cache_layer.reshape(dst_kv_cache_layer_shape)
 
         # Get the metadata
-        metadata: KVConnectorMetadata = \
-            self._get_connector_metadata()
+        metadata: KVConnectorMetadata = self._get_connector_metadata()
         assert isinstance(metadata, SharedStorageConnectorMetadata)
 
         if metadata is None:
@@ -225,7 +225,7 @@ class SharedStorageConnector(KVConnectorBase_V1):
         self,
         request: "Request",
         num_computed_tokens: int,
-    ) -> int:
+    ) -> tuple[int, bool]:
         """
         Get number of new tokens that can be loaded from the
         external KV cache beyond the num_computed_tokens.
@@ -239,7 +239,6 @@ class SharedStorageConnector(KVConnectorBase_V1):
             the number of tokens that can be loaded from the 
             external KV cache beyond what is already computed.
         """
-
         # NOTE: in this debug implementation, we assume that the prompt is
         # cached_prompt + newly_generated_single_token
         # Therefore, we use prompt_token_ids[:-1] to determine the folder name
@@ -248,7 +247,7 @@ class SharedStorageConnector(KVConnectorBase_V1):
         # with the block granularity. And it expects the returned blocks and
         # num_computed_tokens to also be aligned with the block granularity.
         if not self._found_match_for_request(request):
-            return 0
+            return 0, False
 
         logger.info("External Cache Hit!")
 
@@ -257,9 +256,10 @@ class SharedStorageConnector(KVConnectorBase_V1):
         num_tokens_to_check = align_to_block_size(
             len(request.prompt_token_ids) - 1, self._block_size)
 
-        return num_tokens_to_check - num_computed_tokens
+        return num_tokens_to_check - num_computed_tokens, False
 
     def update_state_after_alloc(self, request: "Request",
+                                 blocks: "KVCacheBlocks",
                                  num_external_tokens: int):
         """
         Update KVConnector state after block allocation.
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
index 19c426b19..8ac653487 100644
--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -403,6 +403,9 @@ class ChatCompletionRequest(OpenAIBaseModel):
             "access by 3rd parties, and long enough to be "
             "unpredictable (e.g., 43 characters base64-encoded, corresponding "
             "to 256 bit). Not supported by vLLM engine V0."))
+    kv_transfer_params: Optional[dict[str, Any]] = Field(
+        default=None,
+        description="KVTransfer parameters used for disaggregated serving.")
 
     # doc: end-chat-completion-extra-params
 
@@ -540,7 +543,9 @@ class ChatCompletionRequest(OpenAIBaseModel):
             output_kind=RequestOutputKind.DELTA if self.stream \
                 else RequestOutputKind.FINAL_ONLY,
             guided_decoding=guided_decoding,
-            logit_bias=self.logit_bias)
+            logit_bias=self.logit_bias,
+            extra_args=({"kv_transfer_params": self.kv_transfer_params}
+                        if self.kv_transfer_params else None))
 
     def _get_guided_json_from_tool(
             self) -> Optional[Union[str, dict, BaseModel]]:
@@ -848,6 +853,10 @@ class CompletionRequest(OpenAIBaseModel):
             " as strings of the form 'token_id:{token_id}' so that tokens "
             "that are not JSON-encodable can be identified."))
 
+    kv_transfer_params: Optional[dict[str, Any]] = Field(
+        default=None,
+        description="KVTransfer parameters used for disaggregated serving.")
+
     # doc: end-completion-extra-params
 
     # Default sampling parameters for completion requests
@@ -973,7 +982,9 @@ class CompletionRequest(OpenAIBaseModel):
                 else RequestOutputKind.FINAL_ONLY,
             guided_decoding=guided_decoding,
             logit_bias=self.logit_bias,
-            allowed_token_ids=self.allowed_token_ids)
+            allowed_token_ids=self.allowed_token_ids,
+            extra_args=({"kv_transfer_params": self.kv_transfer_params}
+                        if self.kv_transfer_params else None))
 
     @model_validator(mode="before")
     @classmethod
@@ -1223,6 +1234,8 @@ class CompletionResponse(OpenAIBaseModel):
     model: str
     choices: list[CompletionResponseChoice]
     usage: UsageInfo
+    kv_transfer_params: Optional[dict[str, Any]] = Field(
+        default=None, description="KVTransfer parameters.")
 
 
 class CompletionResponseStreamChoice(OpenAIBaseModel):
@@ -1412,6 +1425,8 @@ class ChatCompletionResponse(OpenAIBaseModel):
     choices: list[ChatCompletionResponseChoice]
     usage: UsageInfo
     prompt_logprobs: Optional[list[Optional[dict[int, Logprob]]]] = None
+    kv_transfer_params: Optional[dict[str, Any]] = Field(
+        default=None, description="KVTransfer parameters.")
 
 
 class DeltaMessage(OpenAIBaseModel):
diff --git a/vllm/entrypoints/openai/serving_chat.py b/vllm/entrypoints/openai/serving_chat.py
index 30f8aade0..a9ba0e4d6 100644
--- a/vllm/entrypoints/openai/serving_chat.py
+++ b/vllm/entrypoints/openai/serving_chat.py
@@ -1086,6 +1086,7 @@ class OpenAIServingChat(OpenAIServing):
             choices=choices,
             usage=usage,
             prompt_logprobs=clamp_prompt_logprobs(final_res.prompt_logprobs),
+            kv_transfer_params=final_res.kv_transfer_params,
         )
 
         return response
diff --git a/vllm/entrypoints/openai/serving_completion.py b/vllm/entrypoints/openai/serving_completion.py
index 1067f35ce..0b3bdf7d4 100644
--- a/vllm/entrypoints/openai/serving_completion.py
+++ b/vllm/entrypoints/openai/serving_completion.py
@@ -482,7 +482,7 @@ class OpenAIServingCompletion(OpenAIServing):
             model=model_name,
             choices=choices,
             usage=usage,
-        )
+            kv_transfer_params=final_res_batch[0].kv_transfer_params)
 
     def _create_completion_logprobs(
         self,
diff --git a/vllm/envs.py b/vllm/envs.py
index d7f332cb0..b3faad03d 100644
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -112,6 +112,8 @@ if TYPE_CHECKING:
     VLLM_XGRAMMAR_CACHE_MB: int = 0
     VLLM_MSGPACK_ZERO_COPY_THRESHOLD: int = 256
     VLLM_ALLOW_INSECURE_SERIALIZATION: bool = False
+    VLLM_NIXL_SIDE_CHANNEL_HOST: str = "localhost"
+    VLLM_NIXL_SIDE_CHANNEL_PORT: int = 5557
 
 
 def get_default_cache_root():
@@ -747,6 +749,14 @@ environment_variables: dict[str, Callable[[], Any]] = {
     # insecure method and it is needed for some reason.
     "VLLM_ALLOW_INSECURE_SERIALIZATION":
     lambda: bool(int(os.getenv("VLLM_ALLOW_INSECURE_SERIALIZATION", "0"))),
+
+    # IP address used for NIXL handshake between remote agents.
+    "VLLM_NIXL_SIDE_CHANNEL_HOST":
+    lambda: os.getenv("VLLM_NIXL_SIDE_CHANNEL_HOST", "localhost"),
+
+    # Port used for NIXL handshake between remote agents.
+    "VLLM_NIXL_SIDE_CHANNEL_PORT":
+    lambda: int(os.getenv("VLLM_NIXL_SIDE_CHANNEL_PORT", "5557")),
 }
 
 # end-env-vars-definition
diff --git a/vllm/forward_context.py b/vllm/forward_context.py
index 9ddc3d1f2..eb1e1f569 100644
--- a/vllm/forward_context.py
+++ b/vllm/forward_context.py
@@ -11,10 +11,6 @@ import torch.distributed as dist
 
 import vllm.envs as envs
 from vllm.config import VllmConfig
-from vllm.distributed.kv_transfer import (get_kv_transfer_group,
-                                          has_kv_transfer_group,
-                                          is_v1_kv_transfer_group)
-from vllm.distributed.kv_transfer.kv_connector.v1 import KVConnectorBase_V1
 from vllm.logger import init_logger
 
 if TYPE_CHECKING:
@@ -106,16 +102,6 @@ def set_forward_context(attn_metadata: Any,
         attn_metadata=attn_metadata,
         dp_metadata=dp_metadata)
 
-    # KVConnector: trigger (possibly async) load before forward.
-    # Each attn layer will block until the reading is complete.
-    trigger_kv_transfer = (attn_metadata is not None
-                           and has_kv_transfer_group()
-                           and is_v1_kv_transfer_group())
-    if trigger_kv_transfer:
-        kv_connector = get_kv_transfer_group()
-        assert isinstance(kv_connector, KVConnectorBase_V1)
-        kv_connector.start_load_kv(_forward_context)
-
     try:
         yield
     finally:
@@ -152,11 +138,4 @@ def set_forward_context(attn_metadata: Any,
                                  "(batchsize, count, median_time(ms)): %s"),
                                 forward_stats)
 
-        # KVConnector: each attn layer triggers (possibly async) save.
-        # Ensure all those operations complete before forward() is done.
-        if trigger_kv_transfer:
-            kv_connector = get_kv_transfer_group()
-            assert isinstance(kv_connector, KVConnectorBase_V1)
-            kv_connector.wait_for_save()
-
         _forward_context = prev_context
diff --git a/vllm/outputs.py b/vllm/outputs.py
index 65a6ed014..6cd60575b 100644
--- a/vllm/outputs.py
+++ b/vllm/outputs.py
@@ -4,7 +4,7 @@ import time
 from collections.abc import MutableSequence
 from collections.abc import Sequence as GenericSequence
 from dataclasses import dataclass
-from typing import Generic, Optional, Union
+from typing import Any, Generic, Optional, Union
 
 import torch
 from typing_extensions import TypeVar, deprecated
@@ -103,6 +103,7 @@ class RequestOutput:
         encoder_prompt_token_ids: The token IDs of the encoder prompt.
                                   None if decoder-only.
         num_cached_tokens: The number of tokens with prefix cache hit.
+        kv_transfer_params: The params for remote K/V transfer.
     """
 
     def __init__(
@@ -120,6 +121,7 @@ class RequestOutput:
         num_cached_tokens: Optional[int] = None,
         *,
         multi_modal_placeholders: Optional[MultiModalPlaceholderDict] = None,
+        kv_transfer_params: Optional[dict[str, Any]] = None,
     ) -> None:
         self.request_id = request_id
         self.prompt = prompt
@@ -133,11 +135,13 @@ class RequestOutput:
         self.encoder_prompt = encoder_prompt
         self.encoder_prompt_token_ids = encoder_prompt_token_ids
         self.num_cached_tokens = num_cached_tokens
+        self.kv_transfer_params = kv_transfer_params
 
     def add(self, next_output: "RequestOutput", aggregate: bool) -> None:
         """Merge subsequent RequestOutput into this one"""
 
         self.finished |= next_output.finished
+        self.kv_transfer_params = next_output.kv_transfer_params
 
         for next_completion in next_output.outputs:
             for i, completion in enumerate(self.outputs):
diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
index ad8468a89..27368374e 100644
--- a/vllm/v1/core/kv_cache_manager.py
+++ b/vllm/v1/core/kv_cache_manager.py
@@ -36,6 +36,12 @@ class KVCacheBlocks:
         """Converts the KVCacheBlocks instance to a list of block IDs."""
         return [block.block_id for block in self.blocks]
 
+    def get_unhashed_block_ids(self) -> list[int]:
+        """Get block_ids of unhashed blocks from KVCacheBlocks instance."""
+        return [
+            block.block_id for block in self.blocks if block.block_hash is None
+        ]
+
 
 class KVCacheManager:
 
@@ -116,6 +122,12 @@ class KVCacheManager:
                 - The number of computed tokens.
         """
 
+        # Request already has blocks from async load via KVConnector.
+        num_existing_blocks = len(
+            self.single_type_manager.req_to_blocks[request.request_id])
+        if num_existing_blocks > 0:
+            return KVCacheBlocks.create_empty(), request.num_computed_tokens
+
         # Prefix caching is disabled or
         # When the request requires prompt logprobs, we skip prefix caching.
         if (not self.enable_caching
@@ -173,6 +185,7 @@ class KVCacheManager:
         num_new_tokens: int,
         new_computed_blocks: Optional[KVCacheBlocks] = None,
         num_lookahead_tokens: int = 0,
+        delay_cache_blocks: bool = False,
     ) -> Optional[KVCacheBlocks]:
         """Add slots for a request with new tokens to append.
 
@@ -186,6 +199,9 @@ class KVCacheManager:
             num_lookahead_tokens: The number of speculative tokens to allocate.
                 This is used by spec decode proposers with kv-cache such 
                 as eagle.
+            delay_cache_blocks: Whether to skip caching the blocks. This is
+                used by P/D when allocating blocks used in a KV transfer
+                which will complete in a future step.
 
         Blocks layout:
         ```
@@ -255,7 +271,9 @@ class KVCacheManager:
         new_blocks = self.single_type_manager.allocate_new_blocks(
             request.request_id, num_tokens_need_slot)
 
-        if not self.enable_caching:
+        # P/D: delay caching blocks if we have to recv from
+        # remote. Update state for locally cached blocks.
+        if not self.enable_caching or delay_cache_blocks:
             return KVCacheBlocks(new_blocks)
 
         # Speculated tokens might be rejected in the future, so we does
@@ -350,3 +368,16 @@ class KVCacheManager:
             A list of KV cache events.
         """
         return self.block_pool.take_events()
+
+    def get_block_ids(self, request_id: str) -> list[int]:
+        """Get the block ids of a request."""
+        assert request_id in self.single_type_manager.req_to_blocks
+        return [
+            block.block_id
+            for block in self.single_type_manager.req_to_blocks[request_id]
+        ]
+
+    def get_num_blocks(self, request_id: str):
+        """Get the number of blocks."""
+        assert request_id in self.single_type_manager.req_to_blocks
+        return len(self.single_type_manager.req_to_blocks[request_id])
diff --git a/vllm/v1/core/sched/interface.py b/vllm/v1/core/sched/interface.py
index 0b328f510..c17f80b6a 100644
--- a/vllm/v1/core/sched/interface.py
+++ b/vllm/v1/core/sched/interface.py
@@ -4,6 +4,7 @@ from collections.abc import Iterable
 from typing import TYPE_CHECKING, Optional, Union
 
 if TYPE_CHECKING:
+    from vllm.distributed.kv_transfer.kv_connector.v1 import KVConnectorBase_V1
     from vllm.v1.core.sched.output import SchedulerOutput
     from vllm.v1.engine import EngineCoreOutputs
     from vllm.v1.metrics.stats import SchedulerStats
@@ -137,3 +138,6 @@ class SchedulerInterface(ABC):
     def shutdown(self) -> None:
         """Shutdown the scheduler."""
         raise NotImplementedError
+
+    def get_kv_connector(self) -> Optional["KVConnectorBase_V1"]:
+        return None
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 258e0d570..7773853b0 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -5,13 +5,15 @@ from __future__ import annotations
 import time
 from collections import defaultdict, deque
 from collections.abc import Iterable
-from typing import Optional, Union
+from typing import Any, Optional, Union
 
 from vllm.config import VllmConfig
 from vllm.distributed.kv_events import EventPublisherFactory, KVEventBatch
 from vllm.distributed.kv_transfer.kv_connector.factory import (
     KVConnectorFactory)
-from vllm.distributed.kv_transfer.kv_connector.v1 import KVConnectorRole
+from vllm.distributed.kv_transfer.kv_connector.v1 import (KVConnectorBase_V1,
+                                                          KVConnectorRole,
+                                                          KVTransferParams)
 from vllm.logger import init_logger
 from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
 from vllm.v1.core.encoder_cache_manager import (EncoderCacheManager,
@@ -96,6 +98,9 @@ class Scheduler(SchedulerInterface):
         # This is flushed at the end of each scheduling step.
         self.finished_req_ids: set[str] = set()
 
+        # P/D: requests in process of recving KV transfers
+        self.finished_recving_kv_req_ids: set[str] = set()
+
         # OPTIMIZATION: Cache the CachedRequestData objects to avoid creating
         # them at each scheduling step.
         # Request id -> deque of CachedRequestData
@@ -307,6 +312,16 @@ class Scheduler(SchedulerInterface):
 
                 request = self.waiting[0]
 
+                # P/D: skip request if still waiting for remote kvs.
+                if request.status == RequestStatus.WAITING_FOR_REMOTE_KVS:
+                    is_ready = self._update_waiting_for_remote_kv(request)
+                    if is_ready:
+                        request.status = RequestStatus.WAITING
+                    else:
+                        self.waiting.popleft()
+                        skipped_waiting_requests.appendleft(request)
+                        continue
+
                 # Skip request if the structured output request is still waiting
                 # for FSM compilation.
                 if request.status == RequestStatus.WAITING_FOR_FSM:
@@ -330,49 +345,55 @@ class Scheduler(SchedulerInterface):
                     continue
 
                 # Get already-cached tokens.
-                computed_blocks, num_computed_tokens = \
+                new_computed_blocks, num_computed_tokens = \
                     self.kv_cache_manager.get_computed_blocks(
                         request)
 
                 # Get externally-cached tokens if using a KVConnector.
-                num_external_tokens = (
-                    0 if self.connector is None else
+                num_external_tokens, load_kv_async = (
+                    (0, False) if self.connector is None else
                     self.connector.get_num_new_matched_tokens(
                         request, num_computed_tokens))
 
                 # Total computed tokens (local + external).
                 num_computed_tokens += num_external_tokens
 
+                encoder_inputs_to_schedule = None
+                new_encoder_budget = encoder_budget
+
+                # P/D: loading remote KV, do not allocate for new work.
+                if load_kv_async:
+                    num_new_tokens = 0
                 # Number of tokens to be scheduled.
-                # We use `request.num_tokens` instead of
-                # `request.num_prompt_tokens` to consider the resumed requests,
-                # which have output tokens.
-                num_new_tokens = request.num_tokens - num_computed_tokens
-                if (0 < self.scheduler_config.long_prefill_token_threshold <
-                        num_new_tokens):
-                    num_new_tokens = (
-                        self.scheduler_config.long_prefill_token_threshold)
-                num_new_tokens = min(num_new_tokens, token_budget)
-                assert num_new_tokens > 0
-
-                # Schedule encoder inputs.
-                if request.has_encoder_inputs:
-                    (encoder_inputs_to_schedule, num_new_tokens,
-                     new_encoder_budget) = self._try_schedule_encoder_inputs(
-                         request, num_computed_tokens, num_new_tokens,
-                         encoder_budget)
-                    if num_new_tokens == 0:
-                        # The request cannot be scheduled.
-                        break
                 else:
-                    encoder_inputs_to_schedule = None
-                    new_encoder_budget = encoder_budget
+                    # We use `request.num_tokens` instead of
+                    # `request.num_prompt_tokens` to consider the resumed
+                    # requests, which have output tokens.
+                    num_new_tokens = request.num_tokens - num_computed_tokens
+                    if (0 < self.scheduler_config.long_prefill_token_threshold
+                            < num_new_tokens):
+                        num_new_tokens = (
+                            self.scheduler_config.long_prefill_token_threshold)
+                    num_new_tokens = min(num_new_tokens, token_budget)
+                    assert num_new_tokens > 0
+
+                    # Schedule encoder inputs.
+                    if request.has_encoder_inputs:
+                        (encoder_inputs_to_schedule, num_new_tokens,
+                         new_encoder_budget
+                         ) = self._try_schedule_encoder_inputs(
+                             request, num_computed_tokens, num_new_tokens,
+                             encoder_budget)
+                        if num_new_tokens == 0:
+                            # The request cannot be scheduled.
+                            break
 
                 new_blocks = self.kv_cache_manager.allocate_slots(
                     request,
                     num_new_tokens + num_external_tokens,
-                    computed_blocks,
+                    new_computed_blocks,
                     num_lookahead_tokens=self.num_lookahead_tokens,
+                    delay_cache_blocks=load_kv_async,
                 )
                 if new_blocks is None:
                     # The request cannot be scheduled.
@@ -384,10 +405,18 @@ class Scheduler(SchedulerInterface):
                 if self.connector is not None:
                     self.connector.update_state_after_alloc(
                         request,
+                        new_computed_blocks + new_blocks,
                         num_external_tokens,
                     )
 
                 self.waiting.popleft()
+                if load_kv_async:
+                    # If loading async, allocate memory and put request
+                    # into the WAITING_FOR_REMOTE_KV state.
+                    skipped_waiting_requests.appendleft(request)
+                    request.status = RequestStatus.WAITING_FOR_REMOTE_KVS
+                    continue
+
                 if request.use_structured_output:
                     structured_output_request_ids[
                         request.request_id] = req_index
@@ -407,7 +436,7 @@ class Scheduler(SchedulerInterface):
                 if self.lora_config and request.lora_request:
                     scheduled_loras.add(request.lora_request.lora_int_id)
                 req_to_new_block_ids[request.request_id] = (
-                    computed_blocks + new_blocks).get_block_ids()
+                    self.kv_cache_manager.get_block_ids(request.request_id))
                 num_scheduled_tokens[request.request_id] = num_new_tokens
                 token_budget -= num_new_tokens
                 request.status = RequestStatus.RUNNING
@@ -698,6 +727,7 @@ class Scheduler(SchedulerInterface):
             stopped = False
             new_logprobs = None
             new_token_ids = generated_token_ids
+            kv_transfer_params = None
 
             # Append generated tokens and check for stop. Note that if
             # a request is still being prefilled, we expect the model runner
@@ -709,7 +739,7 @@ class Scheduler(SchedulerInterface):
                 # This must be called before we make the EngineCoreOutput.
                 stopped = check_stop(request, self.max_model_len)
                 if stopped:
-                    self._free_request(request)
+                    kv_transfer_params = self._free_request(request)
                     del new_token_ids[num_new:]  # Trim new tokens if needed.
                     break
 
@@ -739,7 +769,8 @@ class Scheduler(SchedulerInterface):
 
             # Get prompt logprobs for this request.
             prompt_logprobs_tensors = prompt_logprobs_dict.get(req_id)
-            if new_token_ids:
+            if new_token_ids or kv_transfer_params:
+
                 # Add EngineCoreOutput for this Request.
                 outputs.append(
                     EngineCoreOutput(
@@ -749,7 +780,10 @@ class Scheduler(SchedulerInterface):
                         new_logprobs=new_logprobs,
                         new_prompt_logprobs_tensors=prompt_logprobs_tensors,
                         stop_reason=request.stop_reason,
-                        events=request.take_events()))
+                        events=request.take_events(),
+                        kv_transfer_params=kv_transfer_params,
+                    ))
+
             else:
                 # Invariant: EngineCore returns no partial prefill outputs.
                 assert not prompt_logprobs_tensors
@@ -757,6 +791,9 @@ class Scheduler(SchedulerInterface):
             if not stopped:
                 new_running.append(request)
 
+        # P/D: update state for finished KV Transfers.
+        self._update_from_kv_xfer_finished(model_runner_output)
+
         # Return the cached request data to the queue so they can be reused.
         for req_data in scheduler_output.scheduled_cached_reqs:
             # NOTE(rob): since we free stopped reqs above, adding stopped reqs
@@ -811,15 +848,27 @@ class Scheduler(SchedulerInterface):
             request.status = finished_status
             self._free_request(request)
 
-    def _free_request(self, request: Request) -> None:
+    def _free_request(self, request: Request) -> Optional[dict[str, Any]]:
+
         assert request.is_finished()
-        self.kv_cache_manager.free(request)
-        self.kv_cache_manager.free_block_hashes(request)
+
+        delay_free_blocks, kv_xfer_params = self._connector_finished(request)
         self.encoder_cache_manager.free(request)
         self._cached_reqs_data.pop(request.request_id, None)
-        del self.requests[request.request_id]
         self.finished_req_ids.add(request.request_id)
 
+        if not delay_free_blocks:
+            self._free_blocks(request)
+
+        return kv_xfer_params
+
+    def _free_blocks(self, request: Request):
+        assert request.is_finished()
+        assert request.request_id not in self._cached_reqs_data
+        self.kv_cache_manager.free(request)
+        self.kv_cache_manager.free_block_hashes(request)
+        del self.requests[request.request_id]
+
     def get_num_unfinished_requests(self) -> int:
         return len(self.waiting) + len(self.running)
 
@@ -863,3 +912,70 @@ class Scheduler(SchedulerInterface):
     def shutdown(self) -> None:
         if self.kv_event_publisher:
             self.kv_event_publisher.shutdown()
+
+    ########################################################################
+    # P/D Related Methods
+    ########################################################################
+
+    def get_kv_connector(self) -> Optional[KVConnectorBase_V1]:
+        return self.connector
+
+    def _connector_finished(
+            self, request: Request) -> tuple[bool, Optional[KVTransferParams]]:
+        """Invoke the KV connector request_finished() method if applicable."""
+        if self.connector is None:
+            return False, None
+        block_ids = self.kv_cache_manager.get_block_ids(request.request_id)
+        return self.connector.request_finished(request, block_ids)
+
+    def _update_waiting_for_remote_kv(self, request: Request) -> bool:
+        """
+        P/D: check if the request_id is finished_recving.
+
+        The finished_recving_kv_req_ids list is populated
+        on the previous steps()'s update_from_output based
+        on the worker side connector.
+
+        When the kv transfer is ready, we cache the blocks
+        and the request state will be moved back to WAITING from
+        WAITING_FOR_REMOTE_KV.
+        """
+        if request.request_id not in self.finished_recving_kv_req_ids:
+            return False
+
+        # Now that the blocks are ready, actually cache them.
+        block_ids = self.kv_cache_manager.get_block_ids(request.request_id)
+        num_computed_tokens = len(block_ids) * self.block_size
+        if num_computed_tokens == request.num_tokens:
+            num_computed_tokens -= 1
+        self.kv_cache_manager.single_type_manager.cache_blocks(
+            request,
+            self.kv_cache_manager.req_to_block_hashes[request.request_id],
+            num_computed_tokens,
+        )
+
+        # Update the request state for scheduling.
+        request.num_computed_tokens = num_computed_tokens
+
+        # Return that we are ready.
+        self.finished_recving_kv_req_ids.remove(request.request_id)
+        return True
+
+    def _update_from_kv_xfer_finished(self,
+                                      model_runner_output: ModelRunnerOutput):
+        """
+        P/D: update the scheduler state based on the output.
+
+        The Worker side connectors add finished_recving and
+        finished_sending reqs to the output.
+        * if finished_sending: free the blocks
+        # if finished_recving: add to state so we can
+            scheduler the request during the next step.
+        """
+        # P/D: update recv and send status from last step.
+        for req_id in (model_runner_output.finished_recving or ()):
+            logger.debug("Finished recving KV transfer for request %s", req_id)
+            self.finished_recving_kv_req_ids.add(req_id)
+        for req_id in (model_runner_output.finished_sending or ()):
+            logger.debug("Finished sending KV transfer for request %s", req_id)
+            self._free_blocks(self.requests[req_id])
diff --git a/vllm/v1/engine/__init__.py b/vllm/v1/engine/__init__.py
index e33d1a1e5..122a5a72c 100644
--- a/vllm/v1/engine/__init__.py
+++ b/vllm/v1/engine/__init__.py
@@ -105,6 +105,7 @@ class EngineCoreOutput(
     finish_reason: Optional[FinishReason] = None
     stop_reason: Union[int, str, None] = None
     events: Optional[list[EngineCoreEvent]] = None
+    kv_transfer_params: Optional[dict[str, Any]] = None
 
     @property
     def finished(self) -> bool:
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index d9dd4957c..c1aa0ce27 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -182,6 +182,15 @@ class EngineCore:
             # Start grammar compilation asynchronously
             self.structured_output_manager.grammar_init(req)
 
+        if req.raw_kv_transfer_params is not None:
+            if (kv_connector := self.scheduler.get_kv_connector()):
+                # Parse raw KV transfer params via connector.
+                kv_connector.set_kv_transfer_params(req)
+            else:
+                logger.warning(
+                    "Got KVTransferParams, but no KVConnector found. "
+                    "Disabling KVTransfer for this request.")
+
         self.scheduler.add_request(req)
 
     def abort_requests(self, request_ids: list[str]):
diff --git a/vllm/v1/engine/output_processor.py b/vllm/v1/engine/output_processor.py
index 5f5ffe6e0..a7a9b0e4a 100644
--- a/vllm/v1/engine/output_processor.py
+++ b/vllm/v1/engine/output_processor.py
@@ -3,7 +3,7 @@
 import asyncio
 from collections.abc import Iterable
 from dataclasses import dataclass
-from typing import Optional, Union
+from typing import Any, Optional, Union
 
 from vllm.outputs import CompletionOutput, RequestOutput
 from vllm.sampling_params import RequestOutputKind
@@ -146,6 +146,7 @@ class RequestState:
         new_token_ids: list[int],
         finish_reason: Optional[FinishReason],
         stop_reason: Union[int, str, None],
+        kv_transfer_params: Optional[dict[str, Any]] = None,
     ) -> Optional[RequestOutput]:
 
         finished = finish_reason is not None
@@ -167,13 +168,15 @@ class RequestState:
             if not outputs:
                 return None
 
-        return self._new_request_output(request_id, outputs, finished)
+        return self._new_request_output(request_id, outputs, finished,
+                                        kv_transfer_params)
 
     def _new_request_output(
         self,
         request_id: str,
         outputs: list[CompletionOutput],
         finished: bool,
+        kv_transfer_params: Optional[dict[str, Any]] = None,
     ) -> RequestOutput:
 
         if self.output_kind == RequestOutputKind.DELTA:
@@ -189,6 +192,7 @@ class RequestState:
             prompt_logprobs=prompt_logprobs,
             outputs=outputs,
             finished=finished,
+            kv_transfer_params=kv_transfer_params,
         )
 
     def _new_completion_output(
@@ -335,6 +339,7 @@ class OutputProcessor:
             new_token_ids = engine_core_output.new_token_ids
             finish_reason = engine_core_output.finish_reason
             stop_reason = engine_core_output.stop_reason
+            kv_transfer_params = engine_core_output.kv_transfer_params
 
             req_state.is_prefilling = False
 
@@ -350,7 +355,8 @@ class OutputProcessor:
 
             # 4) Create and handle RequestOutput objects.
             if request_output := req_state.make_request_output(
-                    new_token_ids, finish_reason, stop_reason):
+                    new_token_ids, finish_reason, stop_reason,
+                    kv_transfer_params):
                 if req_state.queue is not None:
                     # AsyncLLM: put into queue for handling by generate().
                     req_state.queue.put(request_output)
diff --git a/vllm/v1/outputs.py b/vllm/v1/outputs.py
index 2732b933c..e8ce0df5e 100644
--- a/vllm/v1/outputs.py
+++ b/vllm/v1/outputs.py
@@ -100,12 +100,16 @@ class ModelRunnerOutput:
     # [prompt_len]
     prompt_logprobs_dict: dict[str, Optional[LogprobsTensors]]
 
-
-EMPTY_MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
-    req_ids=[],
-    req_id_to_index={},
-    sampled_token_ids=[],
-    spec_token_ids=None,
-    logprobs=None,
-    prompt_logprobs_dict={},
-)
+    # [req_ids]
+    finished_sending: Optional[set[str]] = None
+    finished_recving: Optional[set[str]] = None
+
+
+EMPTY_MODEL_RUNNER_OUTPUT = ModelRunnerOutput(req_ids=[],
+                                              req_id_to_index={},
+                                              sampled_token_ids=[],
+                                              spec_token_ids=None,
+                                              logprobs=None,
+                                              prompt_logprobs_dict={},
+                                              finished_sending=None,
+                                              finished_recving=None)
diff --git a/vllm/v1/request.py b/vllm/v1/request.py
index fde366d61..fc6b73854 100644
--- a/vllm/v1/request.py
+++ b/vllm/v1/request.py
@@ -1,8 +1,9 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import enum
-from typing import TYPE_CHECKING, Optional, Union
+from typing import TYPE_CHECKING, Any, Optional, Union
 
+from vllm.distributed.kv_transfer.kv_connector.v1 import KVTransferParams
 from vllm.multimodal.inputs import MultiModalKwargs, PlaceholderRange
 from vllm.sampling_params import SamplingParams
 from vllm.utils import is_list_of
@@ -61,6 +62,15 @@ class Request:
         self.num_encoder_inputs = len(self.mm_inputs)
         self.has_encoder_inputs = self.num_encoder_inputs > 0
 
+        # P/D: KV transfer parameters (raw and parsed).
+        raw_params = (None if sampling_params.extra_args is None
+                      else sampling_params.extra_args.get(
+                          "kv_transfer_params", None))
+        self.raw_kv_transfer_params: Optional[dict[str, Any]] = raw_params
+        # Each connector parses the raw dictionary and sets this
+        # attr the first time that the request is processed.
+        self.kv_transfer_params: Optional[KVTransferParams] = None
+
         # Sanity check
         assert len(self.mm_inputs) == len(self.mm_positions)
         if self.mm_hashes:
@@ -150,6 +160,7 @@ class RequestStatus(enum.IntEnum):
     """Status of a request."""
     WAITING = enum.auto()
     WAITING_FOR_FSM = enum.auto()
+    WAITING_FOR_REMOTE_KVS = enum.auto()
     RUNNING = enum.auto()
     PREEMPTED = enum.auto()
     # Note: anything after PREEMPTED will be considered
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index fdb1339cd..bd833735b 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -1,5 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
+import copy
 import gc
 import time
 import weakref
@@ -17,8 +18,9 @@ from vllm.config import (CompilationLevel, VllmConfig,
                          get_layers_from_vllm_config)
 from vllm.distributed.kv_transfer import (get_kv_transfer_group,
                                           has_kv_transfer_group)
+from vllm.distributed.kv_transfer.kv_connector.v1 import KVConnectorBase_V1
 from vllm.distributed.parallel_state import get_pp_group, graph_capture
-from vllm.forward_context import set_forward_context
+from vllm.forward_context import get_forward_context, set_forward_context
 from vllm.logger import init_logger
 from vllm.model_executor.layers.rotary_embedding import MRotaryEmbedding
 from vllm.model_executor.model_loader import get_model
@@ -1065,15 +1067,14 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         scheduler_output: "SchedulerOutput",
         intermediate_tensors: Optional[IntermediateTensors] = None,
     ) -> Union[ModelRunnerOutput, IntermediateTensors]:
-        # Update KVConnector with the KVConnector metadata forward().
-        if has_kv_transfer_group():
-            get_kv_transfer_group().bind_connector_metadata(
-                scheduler_output.kv_connector_metadata)
 
         self._update_states(scheduler_output)
         if not scheduler_output.total_num_scheduled_tokens:
-            # Return empty ModelRunnerOutput if there's no work to do.
-            return EMPTY_MODEL_RUNNER_OUTPUT
+            if not has_kv_transfer_group():
+                # Return empty ModelRunnerOutput if there's no work to do.
+                return EMPTY_MODEL_RUNNER_OUTPUT
+
+            return self.kv_connector_no_forward(scheduler_output)
 
         # Prepare the decoder inputs.
         attn_metadata, logits_indices, spec_decode_metadata = (
@@ -1150,17 +1151,23 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         with set_forward_context(attn_metadata,
                                  self.vllm_config,
                                  num_tokens=num_input_tokens):
-            output = self.model(
+            self.maybe_setup_kv_connector(scheduler_output)
+
+            model_output = self.model(
                 input_ids=input_ids,
                 positions=positions,
                 intermediate_tensors=intermediate_tensors,
                 inputs_embeds=inputs_embeds,
             )
 
+            self.maybe_wait_for_kv_save()
+            finished_sending, finished_recving = (
+                self.get_finished_kv_transfers(scheduler_output))
+
         if self.use_aux_hidden_state_outputs:
-            hidden_states, aux_hidden_states = output
+            hidden_states, aux_hidden_states = model_output
         else:
-            hidden_states = output
+            hidden_states = model_output
 
         if not get_pp_group().is_last_rank:
             # For mid-pipeline stages, return the hidden states.
@@ -1341,8 +1348,56 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             spec_token_ids=spec_token_ids,
             logprobs=logprobs_lists,
             prompt_logprobs_dict=prompt_logprobs_dict,
+            finished_sending=finished_sending,
+            finished_recving=finished_recving,
         )
 
+    def kv_connector_no_forward(
+            self, scheduler_output: "SchedulerOutput") -> ModelRunnerOutput:
+        # KV send/recv even if no work to do.
+        with set_forward_context(None, self.vllm_config):
+            self.maybe_setup_kv_connector(scheduler_output)
+            finished_sending, finished_recving = (
+                self.get_finished_kv_transfers(scheduler_output))
+
+        if not finished_sending and not finished_recving:
+            return EMPTY_MODEL_RUNNER_OUTPUT
+
+        output = copy.copy(EMPTY_MODEL_RUNNER_OUTPUT)
+        output.finished_sending = finished_sending
+        output.finished_recving = finished_recving
+        return output
+
+    @staticmethod
+    def maybe_setup_kv_connector(scheduler_output: "SchedulerOutput"):
+        # Update KVConnector with the KVConnector metadata forward().
+        if has_kv_transfer_group():
+            kv_connector = get_kv_transfer_group()
+            assert isinstance(kv_connector, KVConnectorBase_V1)
+            assert scheduler_output.kv_connector_metadata is not None
+            kv_connector.bind_connector_metadata(
+                scheduler_output.kv_connector_metadata)
+
+            # Background KV cache transfers happen here.
+            # These transfers are designed to be async and the requests
+            # involved may be disjoint from the running requests.
+            # Do this here to save a collective_rpc.
+            kv_connector.start_load_kv(get_forward_context())
+
+    @staticmethod
+    def maybe_wait_for_kv_save() -> None:
+        if has_kv_transfer_group():
+            get_kv_transfer_group().wait_for_save()
+
+    @staticmethod
+    def get_finished_kv_transfers(
+        scheduler_output: "SchedulerOutput",
+    ) -> tuple[Optional[set[str]], Optional[set[str]]]:
+        if has_kv_transfer_group():
+            return get_kv_transfer_group().get_finished(
+                scheduler_output.finished_req_ids)
+        return None, None
+
     def generate_draft_token_ids(
         self,
         sampled_token_ids: list[list[int]],
@@ -1813,6 +1868,9 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             self.vllm_config.compilation_config.static_forward_context,
             self.kv_caches)
 
+        if has_kv_transfer_group():
+            get_kv_transfer_group().register_kv_caches(kv_caches)
+
         self.attn_metadata_builder = self.attn_backend.get_builder_cls()(
             weakref.proxy(self),
             kv_cache_config.kv_cache_groups[0].kv_cache_spec,
-- 
GitLab


From 98ea35601cdb34fdd618f965e7bcc3cb02a677fc Mon Sep 17 00:00:00 2001
From: Jonathan Berkhahn <jaberkha@us.ibm.com>
Date: Mon, 12 May 2025 10:39:10 -0700
Subject: [PATCH 294/461] [Lora][Frontend]Add default local directory LoRA
 resolver plugin. (#16855)

Signed-off-by: jberkhahn <jaberkha@us.ibm.com>
---
 .buildkite/test-pipeline.yaml                 |  3 +-
 docs/source/features/lora.md                  |  7 +-
 pyproject.toml                                |  3 +
 tests/plugins/lora_resolvers/__init__.py      |  0
 .../test_filesystem_resolver.py               | 65 +++++++++++++++++++
 vllm/envs.py                                  |  7 ++
 vllm/plugins/lora_resolvers/README.md         | 15 +++++
 vllm/plugins/lora_resolvers/__init__.py       |  0
 .../lora_resolvers/filesystem_resolver.py     | 49 ++++++++++++++
 9 files changed, 146 insertions(+), 3 deletions(-)
 create mode 100644 tests/plugins/lora_resolvers/__init__.py
 create mode 100644 tests/plugins/lora_resolvers/test_filesystem_resolver.py
 create mode 100644 vllm/plugins/lora_resolvers/README.md
 create mode 100644 vllm/plugins/lora_resolvers/__init__.py
 create mode 100644 vllm/plugins/lora_resolvers/filesystem_resolver.py

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 027cb218d..9664615be 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -628,7 +628,7 @@ steps:
   - vllm/plugins/
   - tests/plugins/
   commands:
-  # begin platform plugin tests, all the code in-between runs on dummy platform
+  # begin platform plugin and general plugin tests, all the code in-between runs on dummy platform
   - pip install -e ./plugins/vllm_add_dummy_platform
   - pytest -v -s plugins_tests/test_platform_plugins.py
   - pip uninstall vllm_add_dummy_platform -y
@@ -639,6 +639,7 @@ steps:
   - pytest -v -s distributed/test_distributed_oot.py
   - pytest -v -s entrypoints/openai/test_oot_registration.py # it needs a clean process
   - pytest -v -s models/test_oot_registration.py # it needs a clean process
+  - pytest -v -s plugins/lora_resolvers # unit tests for in-tree lora resolver plugins
 
 - label: Multi-step Tests (4 GPUs) # 36min
   mirror_hardwares: [amdexperimental]
diff --git a/docs/source/features/lora.md b/docs/source/features/lora.md
index 85f03ba79..5a3ce0c01 100644
--- a/docs/source/features/lora.md
+++ b/docs/source/features/lora.md
@@ -159,9 +159,12 @@ Alternatively, you can use the LoRAResolver plugin to dynamically load LoRA adap
 
 You can set up multiple LoRAResolver plugins if you want to load LoRA adapters from different sources. For example, you might have one resolver for local files and another for S3 storage. vLLM will load the first LoRA adapter that it finds.
 
-You can either install existing plugins or implement your own.
+You can either install existing plugins or implement your own. By default, vLLM comes with a [resolver plugin to load LoRA adapters from a local directory.](https://github.com/vllm-project/vllm/tree/main/vllm/plugins/lora_resolvers)
+To enable this resolver, set `VLLM_ALLOW_RUNTIME_LORA_UPDATING` to True, set `VLLM_PLUGINS` to include `lora_filesystem_resolver`, and then set `VLLM_LORA_RESOLVER_CACHE_DIR` to a local directory. When vLLM receives a request using a LoRA adapter `foobar`,
+it will first look in the local directory for a directory `foobar`, and attempt to load the contents of that directory as a LoRA adapter. If successful, the request will complete as normal and
+that adapter will then be available for normal use on the server.
 
-Steps to implement your own LoRAResolver plugin:
+Alternatively, follow these example steps to implement your own plugin:
 1. Implement the LoRAResolver interface.
 
     Example of a simple S3 LoRAResolver implementation:
diff --git a/pyproject.toml b/pyproject.toml
index 069e295bf..a26917a09 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -41,6 +41,9 @@ Slack="http://slack.vllm.ai/"
 [project.scripts]
 vllm = "vllm.entrypoints.cli.main:main"
 
+[project.entry-points."vllm.general_plugins"]
+lora_filesystem_resolver = "vllm.plugins.lora_resolvers.filesystem_resolver:register_filesystem_resolver"
+
 [tool.setuptools_scm]
 # no extra settings needed, presence enables setuptools-scm
 
diff --git a/tests/plugins/lora_resolvers/__init__.py b/tests/plugins/lora_resolvers/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tests/plugins/lora_resolvers/test_filesystem_resolver.py b/tests/plugins/lora_resolvers/test_filesystem_resolver.py
new file mode 100644
index 000000000..cb0f0c3c5
--- /dev/null
+++ b/tests/plugins/lora_resolvers/test_filesystem_resolver.py
@@ -0,0 +1,65 @@
+# SPDX-License-Identifier: Apache-2.0
+import os
+import shutil
+
+import pytest
+from huggingface_hub import snapshot_download
+
+from vllm.plugins.lora_resolvers.filesystem_resolver import FilesystemResolver
+
+MODEL_NAME = "mistralai/Mistral-7B-v0.1"
+LORA_NAME = "typeof/zephyr-7b-beta-lora"
+PA_NAME = "swapnilbp/llama_tweet_ptune"
+
+
+@pytest.fixture(scope='module')
+def adapter_cache(request, tmpdir_factory):
+    # Create dir that mimics the structure of the adapter cache
+    adapter_cache = tmpdir_factory.mktemp(
+        request.module.__name__) / "adapter_cache"
+    return adapter_cache
+
+
+@pytest.fixture(scope="module")
+def zephyr_lora_files():
+    return snapshot_download(repo_id=LORA_NAME)
+
+
+@pytest.fixture(scope="module")
+def pa_files():
+    return snapshot_download(repo_id=PA_NAME)
+
+
+@pytest.mark.asyncio
+async def test_filesystem_resolver(adapter_cache, zephyr_lora_files):
+    model_files = adapter_cache / LORA_NAME
+    shutil.copytree(zephyr_lora_files, model_files)
+
+    fs_resolver = FilesystemResolver(adapter_cache)
+    assert fs_resolver is not None
+
+    lora_request = await fs_resolver.resolve_lora(MODEL_NAME, LORA_NAME)
+    assert lora_request is not None
+    assert lora_request.lora_name == LORA_NAME
+    assert lora_request.lora_path == os.path.join(adapter_cache, LORA_NAME)
+
+
+@pytest.mark.asyncio
+async def test_missing_adapter(adapter_cache):
+    fs_resolver = FilesystemResolver(adapter_cache)
+    assert fs_resolver is not None
+
+    missing_lora_request = await fs_resolver.resolve_lora(MODEL_NAME, "foobar")
+    assert missing_lora_request is None
+
+
+@pytest.mark.asyncio
+async def test_nonlora_adapter(adapter_cache, pa_files):
+    model_files = adapter_cache / PA_NAME
+    shutil.copytree(pa_files, model_files)
+
+    fs_resolver = FilesystemResolver(adapter_cache)
+    assert fs_resolver is not None
+
+    pa_request = await fs_resolver.resolve_lora(MODEL_NAME, PA_NAME)
+    assert pa_request is None
diff --git a/vllm/envs.py b/vllm/envs.py
index b3faad03d..0c742bf05 100644
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -68,6 +68,7 @@ if TYPE_CHECKING:
     VLLM_ALLOW_LONG_MAX_MODEL_LEN: bool = False
     VLLM_RPC_TIMEOUT: int = 10000  # ms
     VLLM_PLUGINS: Optional[list[str]] = None
+    VLLM_LORA_RESOLVER_CACHE_DIR: Optional[str] = None
     VLLM_TORCH_PROFILER_DIR: Optional[str] = None
     VLLM_USE_TRITON_AWQ: bool = False
     VLLM_ALLOW_RUNTIME_LORA_UPDATING: bool = False
@@ -503,6 +504,12 @@ environment_variables: dict[str, Callable[[], Any]] = {
     lambda: None if "VLLM_PLUGINS" not in os.environ else os.environ[
         "VLLM_PLUGINS"].split(","),
 
+    # a local directory to look in for unrecognized LoRA adapters.
+    # only works if plugins are enabled and
+    # VLLM_ALLOW_RUNTIME_LORA_UPDATING is enabled.
+    "VLLM_LORA_RESOLVER_CACHE_DIR":
+    lambda: os.getenv("VLLM_LORA_RESOLVER_CACHE_DIR", None),
+
     # Enables torch profiler if set. Path to the directory where torch profiler
     # traces are saved. Note that it must be an absolute path.
     "VLLM_TORCH_PROFILER_DIR":
diff --git a/vllm/plugins/lora_resolvers/README.md b/vllm/plugins/lora_resolvers/README.md
new file mode 100644
index 000000000..7e7c55f5c
--- /dev/null
+++ b/vllm/plugins/lora_resolvers/README.md
@@ -0,0 +1,15 @@
+# LoRA Resolver Plugins
+
+This directory contains vLLM general plugins for dynamically discovering and loading LoRA adapters
+via the LoRAResolver plugin framework.
+
+Note that `VLLM_ALLOW_RUNTIME_LORA_UPDATING` must be set to true to allow LoRA resolver plugins
+to work, and `VLLM_PLUGINS` must be set to include the desired resolver plugins.
+
+# lora_filesystem_resolver
+This LoRA Resolver is installed with vLLM by default.
+To use, set `VLLM_PLUGIN_LORA_CACHE_DIR` to a local directory. When vLLM receives a request
+for a LoRA adapter `foobar` it doesn't currently recognize, it will look in that local directory
+for a subdirectory `foobar` containing a LoRA adapter. If such an adapter exists, it will
+load that adapter, and then service the request as normal. That adapter will then be available
+for future requests as normal.
diff --git a/vllm/plugins/lora_resolvers/__init__.py b/vllm/plugins/lora_resolvers/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/vllm/plugins/lora_resolvers/filesystem_resolver.py b/vllm/plugins/lora_resolvers/filesystem_resolver.py
new file mode 100644
index 000000000..219231f77
--- /dev/null
+++ b/vllm/plugins/lora_resolvers/filesystem_resolver.py
@@ -0,0 +1,49 @@
+# SPDX-License-Identifier: Apache-2.0
+import json
+import os
+from typing import Optional
+
+import vllm.envs as envs
+from vllm.lora.request import LoRARequest
+from vllm.lora.resolver import LoRAResolver, LoRAResolverRegistry
+
+
+class FilesystemResolver(LoRAResolver):
+
+    def __init__(self, lora_cache_dir: str):
+        self.lora_cache_dir = lora_cache_dir
+
+    async def resolve_lora(self, base_model_name: str,
+                           lora_name: str) -> Optional[LoRARequest]:
+        lora_path = os.path.join(self.lora_cache_dir, lora_name)
+        if os.path.exists(lora_path):
+            adapter_config_path = os.path.join(self.lora_cache_dir, lora_name,
+                                               "adapter_config.json")
+            if os.path.exists(adapter_config_path):
+                with open(adapter_config_path) as file:
+                    adapter_config = json.load(file)
+                if adapter_config["peft_type"] == "LORA" and adapter_config[
+                        "base_model_name_or_path"] == base_model_name:
+                    lora_request = LoRARequest(lora_name=lora_name,
+                                               lora_int_id=abs(
+                                                   hash(lora_name)),
+                                               lora_path=lora_path)
+                    return lora_request
+        return None
+
+
+def register_filesystem_resolver():
+    """Register the filesystem LoRA Resolver with vLLM"""
+
+    lora_cache_dir = envs.VLLM_LORA_RESOLVER_CACHE_DIR
+    if lora_cache_dir:
+        if not os.path.exists(lora_cache_dir) or not os.path.isdir(
+                lora_cache_dir):
+            raise ValueError(
+                "VLLM_LORA_RESOLVER_CACHE_DIR must be set to a valid directory \
+                for Filesystem Resolver plugin to function")
+        fs_resolver = FilesystemResolver(lora_cache_dir)
+        LoRAResolverRegistry.register_resolver("Filesystem Resolver",
+                                               fs_resolver)
+
+    return
-- 
GitLab


From 72a3f6b898d8397c406debc49593e15aa7cbb4bc Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Mon, 12 May 2025 19:25:33 +0100
Subject: [PATCH 295/461] Construct `KVTransferConfig` properly from Python
 instead of using JSON blobs without CLI (#17994)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 examples/lmcache/disagg_prefill_lmcache_v0.py | 14 +++++++------
 .../lmcache/kv_cache_sharing_lmcache_v1.py    |  8 +++----
 .../decode_example.py                         | 21 ++++++++++---------
 .../prefill_example.py                        | 11 +++++-----
 .../disaggregated_prefill.py                  | 14 +++++++------
 5 files changed, 37 insertions(+), 31 deletions(-)

diff --git a/examples/lmcache/disagg_prefill_lmcache_v0.py b/examples/lmcache/disagg_prefill_lmcache_v0.py
index 7da6fb7aa..66cc94185 100644
--- a/examples/lmcache/disagg_prefill_lmcache_v0.py
+++ b/examples/lmcache/disagg_prefill_lmcache_v0.py
@@ -49,9 +49,10 @@ def run_prefill(prefill_done, prompts):
 
     sampling_params = SamplingParams(temperature=0, top_p=0.95, max_tokens=1)
 
-    ktc = KVTransferConfig.from_cli(
-        '{"kv_connector":"LMCacheConnector","kv_role":"kv_producer","kv_rank":0,"kv_parallel_size":2}'
-    )
+    ktc = KVTransferConfig(kv_connector="LMCacheConnector",
+                           kv_role="kv_producer",
+                           kv_rank=0,
+                           kv_parallel_size=2)
     # Set GPU memory utilization to 0.8 for an A40 GPU with 40GB
     # memory. Reduce the value if your GPU has less memory.
     llm = LLM(model="mistralai/Mistral-7B-Instruct-v0.2",
@@ -78,9 +79,10 @@ def run_decode(prefill_done, prompts, timeout=1):
 
     sampling_params = SamplingParams(temperature=0, top_p=0.95, max_tokens=10)
 
-    ktc = KVTransferConfig.from_cli(
-        '{"kv_connector":"LMCacheConnector","kv_role":"kv_consumer","kv_rank":1,"kv_parallel_size":2}'
-    )
+    ktc = KVTransferConfig(kv_connector="LMCacheConnector",
+                           kv_role="kv_consumer",
+                           kv_rank=1,
+                           kv_parallel_size=2)
     # Set GPU memory utilization to 0.8 for an A40 GPU with 40GB
     # of memory. Reduce the value if your GPU has less memory.
     llm = LLM(model="mistralai/Mistral-7B-Instruct-v0.2",
diff --git a/examples/lmcache/kv_cache_sharing_lmcache_v1.py b/examples/lmcache/kv_cache_sharing_lmcache_v1.py
index af1b4351d..7748f8ca6 100644
--- a/examples/lmcache/kv_cache_sharing_lmcache_v1.py
+++ b/examples/lmcache/kv_cache_sharing_lmcache_v1.py
@@ -49,8 +49,8 @@ def run_store(store_done, prompts):
 
     sampling_params = SamplingParams(temperature=0, top_p=0.95, max_tokens=10)
 
-    ktc = KVTransferConfig.from_cli(
-        '{"kv_connector":"LMCacheConnectorV1", "kv_role":"kv_both"}')
+    ktc = KVTransferConfig(kv_connector="LMCacheConnectorV1",
+                           kv_role="kv_both")
     # Set GPU memory utilization to 0.8 for an A40 GPU with 40GB
     # memory. Reduce the value if your GPU has less memory.
     llm = LLM(model="mistralai/Mistral-7B-Instruct-v0.2",
@@ -76,8 +76,8 @@ def run_retrieve(store_done, prompts, timeout=1):
 
     sampling_params = SamplingParams(temperature=0, top_p=0.95, max_tokens=10)
 
-    ktc = KVTransferConfig.from_cli(
-        '{"kv_connector":"LMCacheConnectorV1", "kv_role":"kv_both"}')
+    ktc = KVTransferConfig(kv_connector="LMCacheConnectorV1",
+                           kv_role="kv_both")
     # Set GPU memory utilization to 0.8 for an A40 GPU with 40GB
     # of memory. Reduce the value if your GPU has less memory.
     llm = LLM(model="mistralai/Mistral-7B-Instruct-v0.2",
diff --git a/examples/offline_inference/disaggregated-prefill-v1/decode_example.py b/examples/offline_inference/disaggregated-prefill-v1/decode_example.py
index 66efbc0c9..11918f72f 100644
--- a/examples/offline_inference/disaggregated-prefill-v1/decode_example.py
+++ b/examples/offline_inference/disaggregated-prefill-v1/decode_example.py
@@ -16,16 +16,17 @@ except FileNotFoundError:
 
 sampling_params = SamplingParams(temperature=0, top_p=0.95, max_tokens=10)
 
-llm = LLM(
-    model="meta-llama/Llama-3.2-1B-Instruct",
-    enforce_eager=True,
-    gpu_memory_utilization=0.8,
-    max_num_batched_tokens=64,
-    max_num_seqs=16,
-    kv_transfer_config=KVTransferConfig.from_cli(
-        '{"kv_connector":"SharedStorageConnector","kv_role":"kv_both",'
-        '"kv_connector_extra_config": {"shared_storage_path": "local_storage"}}'
-    ))  #, max_model_len=2048, max_num_batched_tokens=2048)
+llm = LLM(model="meta-llama/Llama-3.2-1B-Instruct",
+          enforce_eager=True,
+          gpu_memory_utilization=0.8,
+          max_num_batched_tokens=64,
+          max_num_seqs=16,
+          kv_transfer_config=KVTransferConfig(
+              kv_connector="SharedStorageConnector",
+              kv_role="kv_both",
+              kv_connector_extra_config={
+                  "shared_storage_path": "local_storage"
+              }))  #, max_model_len=2048, max_num_batched_tokens=2048)
 
 # 1ST generation (prefill instance)
 outputs = llm.generate(prompts, sampling_params)
diff --git a/examples/offline_inference/disaggregated-prefill-v1/prefill_example.py b/examples/offline_inference/disaggregated-prefill-v1/prefill_example.py
index f7cbf6557..798128301 100644
--- a/examples/offline_inference/disaggregated-prefill-v1/prefill_example.py
+++ b/examples/offline_inference/disaggregated-prefill-v1/prefill_example.py
@@ -17,11 +17,12 @@ sampling_params = SamplingParams(temperature=0, top_p=0.95, max_tokens=1)
 llm = LLM(model="meta-llama/Llama-3.2-1B-Instruct",
           enforce_eager=True,
           gpu_memory_utilization=0.8,
-          kv_transfer_config=KVTransferConfig.from_cli(
-              '{"kv_connector":"SharedStorageConnector","kv_role":"kv_both", '
-              '"kv_connector_extra_config": '
-              '{"shared_storage_path": "local_storage"}}')
-          )  #, max_model_len=2048, max_num_batched_tokens=2048)
+          kv_transfer_config=KVTransferConfig(
+              kv_connector="SharedStorageConnector",
+              kv_role="kv_both",
+              kv_connector_extra_config={
+                  "shared_storage_path": "local_storage"
+              }))  #, max_model_len=2048, max_num_batched_tokens=2048)
 
 # 1ST generation (prefill instance)
 outputs = llm.generate(
diff --git a/examples/offline_inference/disaggregated_prefill.py b/examples/offline_inference/disaggregated_prefill.py
index d60985146..bb6fdd48f 100644
--- a/examples/offline_inference/disaggregated_prefill.py
+++ b/examples/offline_inference/disaggregated_prefill.py
@@ -32,9 +32,10 @@ def run_prefill(prefill_done):
     # This instance is the prefill node (kv_producer, rank 0).
     # The number of parallel instances for KV cache transfer is set to 2,
     # as required for PyNcclConnector.
-    ktc = KVTransferConfig.from_cli(
-        '{"kv_connector":"PyNcclConnector","kv_role":"kv_producer","kv_rank":0,"kv_parallel_size":2}'
-    )
+    ktc = KVTransferConfig(kv_connector="PyNcclConnector",
+                           kv_role="kv_producer",
+                           kv_rank=0,
+                           kv_parallel_size=2)
 
     # Set GPU memory utilization to 0.8 for an A6000 GPU with 40GB
     # memory. You may need to adjust the value to fit your GPU.
@@ -71,9 +72,10 @@ def run_decode(prefill_done):
     # This instance is the decode node (kv_consumer, rank 1).
     # The number of parallel instances for KV cache transfer is set to 2,
     # as required for PyNcclConnector.
-    ktc = KVTransferConfig.from_cli(
-        '{"kv_connector":"PyNcclConnector","kv_role":"kv_consumer","kv_rank":1,"kv_parallel_size":2}'
-    )
+    ktc = KVTransferConfig(kv_connector="PyNcclConnector",
+                           kv_role="kv_consumer",
+                           kv_rank=1,
+                           kv_parallel_size=2)
 
     # Set GPU memory utilization to 0.8 for an A6000 GPU with 40GB
     # memory. You may need to adjust the value to fit your GPU.
-- 
GitLab


From b9fd0d7a6984bd1b6090f564660c9d1706490700 Mon Sep 17 00:00:00 2001
From: Carol Zheng <cazheng@google.com>
Date: Mon, 12 May 2025 12:06:59 -0700
Subject: [PATCH 296/461] [CI/Build] Fix TPU V1 Test mixed use of & and &&
 across tests (#17968)

---
 .../scripts/hardware_ci/run-tpu-v1-test.sh    | 42 +++++++++----------
 1 file changed, 21 insertions(+), 21 deletions(-)

diff --git a/.buildkite/scripts/hardware_ci/run-tpu-v1-test.sh b/.buildkite/scripts/hardware_ci/run-tpu-v1-test.sh
index 939daddad..2d375d7e9 100755
--- a/.buildkite/scripts/hardware_ci/run-tpu-v1-test.sh
+++ b/.buildkite/scripts/hardware_ci/run-tpu-v1-test.sh
@@ -26,27 +26,27 @@ docker run --privileged --net host --shm-size=16G -it \
     && tpu-info \
     && { \
         echo TEST_0: Running test_perf.py; \
-        pytest -s -v /workspace/vllm/tests/tpu/test_perf.py; \
+        python3 -m pytest -s -v /workspace/vllm/tests/tpu/test_perf.py; \
         echo TEST_0_EXIT_CODE: \$?; \
     } & \
-    && { \
+    { \
         echo TEST_1: Running test_compilation.py; \
-        pytest -s -v /workspace/vllm/tests/tpu/test_compilation.py; \
+        python3 -m pytest -s -v /workspace/vllm/tests/tpu/test_compilation.py; \
         echo TEST_1_EXIT_CODE: \$?; \
     } & \
     { \
         echo TEST_2: Running test_basic.py; \
-        pytest -s -v /workspace/vllm/tests/v1/tpu/test_basic.py; \
+        python3 -m pytest -s -v /workspace/vllm/tests/v1/tpu/test_basic.py; \
         echo TEST_2_EXIT_CODE: \$?; \
     } & \
     { \
         echo TEST_3: Running test_accuracy.py::test_lm_eval_accuracy_v1_engine; \
-        pytest -s -v /workspace/vllm/tests/entrypoints/llm/test_accuracy.py::test_lm_eval_accuracy_v1_engine; \
+        python3 -m pytest -s -v /workspace/vllm/tests/entrypoints/llm/test_accuracy.py::test_lm_eval_accuracy_v1_engine; \
         echo TEST_3_EXIT_CODE: \$?; \
     } & \
     { \
         echo TEST_4: Running test_quantization_accuracy.py; \
-        pytest -s -v /workspace/vllm/tests/tpu/test_quantization_accuracy.py; \
+        python3 -m pytest -s -v /workspace/vllm/tests/tpu/test_quantization_accuracy.py; \
         echo TEST_4_EXIT_CODE: \$?; \
     } & \
     { \
@@ -56,43 +56,43 @@ docker run --privileged --net host --shm-size=16G -it \
     } & \
     { \
         echo TEST_6: Running test_tpu_model_runner.py; \
-        pytest -s -v /workspace/vllm/tests/tpu/worker/test_tpu_model_runner.py; \
+        python3 -m pytest -s -v /workspace/vllm/tests/tpu/worker/test_tpu_model_runner.py; \
         echo TEST_6_EXIT_CODE: \$?; \
     } & \
-    && { \
+    { \
         echo TEST_7: Running test_sampler.py; \
-        pytest -s -v /workspace/vllm/tests/v1/tpu/test_sampler.py; \
+        python3 -m pytest -s -v /workspace/vllm/tests/v1/tpu/test_sampler.py; \
         echo TEST_7_EXIT_CODE: \$?; \
     } & \
-    && { \
+    { \
         echo TEST_8: Running test_topk_topp_sampler.py; \
-        pytest -s -v /workspace/vllm/tests/v1/tpu/test_topk_topp_sampler.py; \
+        python3 -m pytest -s -v /workspace/vllm/tests/v1/tpu/test_topk_topp_sampler.py; \
         echo TEST_8_EXIT_CODE: \$?; \
     } & \
-    && { \
+    { \
         echo TEST_9: Running test_multimodal.py; \
-        pytest -s -v /workspace/vllm/tests/v1/tpu/test_multimodal.py; \
+        python3 -m pytest -s -v /workspace/vllm/tests/v1/tpu/test_multimodal.py; \
         echo TEST_9_EXIT_CODE: \$?; \
     } & \
-    && { \
+    { \
         echo TEST_10: Running test_pallas.py; \
-        pytest -s -v /workspace/vllm/tests/v1/tpu/test_pallas.py; \
+        python3 -m pytest -s -v /workspace/vllm/tests/v1/tpu/test_pallas.py; \
         echo TEST_10_EXIT_CODE: \$?; \
     } & \
-    && { \
+    { \
         echo TEST_11: Running test_struct_output_generate.py; \
-        pytest -s -v /workspace/vllm/tests/v1/entrypoints/llm/test_struct_output_generate.py; \
+        python3 -m pytest -s -v /workspace/vllm/tests/v1/entrypoints/llm/test_struct_output_generate.py; \
         echo TEST_11_EXIT_CODE: \$?; \
     } & \
-    && { \
+    { \
         echo TEST_12: Running test_moe_pallas.py; \
-        pytest -s -v /workspace/vllm/tests/tpu/test_moe_pallas.py; \
+        python3 -m pytest -s -v /workspace/vllm/tests/tpu/test_moe_pallas.py; \
         echo TEST_12_EXIT_CODE: \$?; \
     } & \
     # Disable the TPU LoRA tests until the feature is activated
-    # && { \
+    # & { \
     #     echo TEST_13: Running test_moe_pallas.py; \
-    #     pytest -s -v /workspace/vllm/tests/tpu/lora/; \
+    #     python3 -m pytest -s -v /workspace/vllm/tests/tpu/lora/; \
     #     echo TEST_13_EXIT_CODE: \$?; \
     # } & \
     wait \
-- 
GitLab


From 289199feb6616a27d97d15cde470772e1585bb84 Mon Sep 17 00:00:00 2001
From: Jade Zheng <zheng.shoujian@outlook.com>
Date: Tue, 13 May 2025 03:09:16 +0800
Subject: [PATCH 297/461] [Core] Use platform-agnostic device control for DP
 engine core (#17245)

Signed-off-by: Jade Zheng <zheng.shoujian@outlook.com>
---
 vllm/platforms/cuda.py      | 26 ++++----------------------
 vllm/platforms/interface.py | 19 +++++++++++++++++++
 vllm/platforms/rocm.py      | 11 +----------
 vllm/v1/engine/core.py      | 13 ++++++-------
 4 files changed, 30 insertions(+), 39 deletions(-)

diff --git a/vllm/platforms/cuda.py b/vllm/platforms/cuda.py
index f11628587..dd3a54f7d 100644
--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
@@ -34,24 +34,6 @@ pynvml = import_pynvml()
 torch.backends.cuda.enable_cudnn_sdp(False)
 
 
-def device_id_to_physical_device_id(device_id: int) -> int:
-    if "CUDA_VISIBLE_DEVICES" in os.environ:
-        device_ids = os.environ["CUDA_VISIBLE_DEVICES"].split(",")
-        if device_ids == [""]:
-            msg = (
-                "CUDA_VISIBLE_DEVICES is set to empty string, which means"
-                " GPU support is disabled. If you are using ray, please unset"
-                " the environment variable `CUDA_VISIBLE_DEVICES` inside the"
-                " worker/actor. "
-                "Check https://github.com/vllm-project/vllm/issues/8402 for"
-                " more information.")
-            raise RuntimeError(msg)
-        physical_device_id = device_ids[device_id]
-        return int(physical_device_id)
-    else:
-        return device_id
-
-
 def with_nvml_context(fn: Callable[_P, _R]) -> Callable[_P, _R]:
 
     @wraps(fn)
@@ -338,7 +320,7 @@ class NvmlCudaPlatform(CudaPlatformBase):
                               device_id: int = 0
                               ) -> Optional[DeviceCapability]:
         try:
-            physical_device_id = device_id_to_physical_device_id(device_id)
+            physical_device_id = cls.device_id_to_physical_device_id(device_id)
             handle = pynvml.nvmlDeviceGetHandleByIndex(physical_device_id)
             major, minor = pynvml.nvmlDeviceGetCudaComputeCapability(handle)
             return DeviceCapability(major=major, minor=minor)
@@ -360,20 +342,20 @@ class NvmlCudaPlatform(CudaPlatformBase):
     @classmethod
     @with_nvml_context
     def get_device_name(cls, device_id: int = 0) -> str:
-        physical_device_id = device_id_to_physical_device_id(device_id)
+        physical_device_id = cls.device_id_to_physical_device_id(device_id)
         return cls._get_physical_device_name(physical_device_id)
 
     @classmethod
     @with_nvml_context
     def get_device_uuid(cls, device_id: int = 0) -> str:
-        physical_device_id = device_id_to_physical_device_id(device_id)
+        physical_device_id = cls.device_id_to_physical_device_id(device_id)
         handle = pynvml.nvmlDeviceGetHandleByIndex(physical_device_id)
         return pynvml.nvmlDeviceGetUUID(handle)
 
     @classmethod
     @with_nvml_context
     def get_device_total_memory(cls, device_id: int = 0) -> int:
-        physical_device_id = device_id_to_physical_device_id(device_id)
+        physical_device_id = cls.device_id_to_physical_device_id(device_id)
         handle = pynvml.nvmlDeviceGetHandleByIndex(physical_device_id)
         return int(pynvml.nvmlDeviceGetMemoryInfo(handle).total)
 
diff --git a/vllm/platforms/interface.py b/vllm/platforms/interface.py
index 68b90796e..a0c9e2ae3 100644
--- a/vllm/platforms/interface.py
+++ b/vllm/platforms/interface.py
@@ -1,5 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 import enum
+import os
 import platform
 import random
 from platform import uname
@@ -161,6 +162,24 @@ class Platform:
     def is_sleep_mode_available(self) -> bool:
         return self._enum == PlatformEnum.CUDA
 
+    @classmethod
+    def device_id_to_physical_device_id(cls, device_id: int):
+        if cls.device_control_env_var in os.environ:
+            device_ids = os.environ[cls.device_control_env_var].split(",")
+            if device_ids == [""]:
+                msg = (f"{cls.device_control_env_var} is set to empty string, "
+                       "which means current platform support is disabled. If "
+                       "you are using ray, please unset the environment "
+                       f"variable `{cls.device_control_env_var}` inside the "
+                       "worker/actor. Check "
+                       "https://github.com/vllm-project/vllm/issues/8402 for "
+                       "more information.")
+                raise RuntimeError(msg)
+            physical_device_id = device_ids[device_id]
+            return int(physical_device_id)
+        else:
+            return device_id
+
     @classmethod
     def get_attn_backend_cls(cls, selected_backend: _Backend, head_size: int,
                              dtype: torch.dtype, kv_cache_dtype: Optional[str],
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index ea028e13f..f3d64f01b 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -95,15 +95,6 @@ def with_amdsmi_context(fn):
     return wrapper
 
 
-def device_id_to_physical_device_id(device_id: int) -> int:
-    if "CUDA_VISIBLE_DEVICES" in os.environ:
-        device_ids = os.environ["CUDA_VISIBLE_DEVICES"].split(",")
-        physical_device_id = device_ids[device_id]
-        return int(physical_device_id)
-    else:
-        return device_id
-
-
 @cache
 def on_mi250_mi300() -> bool:
     GPU_ARCH = torch.cuda.get_device_properties("cuda").gcnArchName
@@ -238,7 +229,7 @@ class RocmPlatform(Platform):
     @with_amdsmi_context
     @lru_cache(maxsize=8)
     def get_device_name(cls, device_id: int = 0) -> str:
-        physical_device_id = device_id_to_physical_device_id(device_id)
+        physical_device_id = cls.device_id_to_physical_device_id(device_id)
         handle = amdsmi_get_processor_handles()[physical_device_id]
         asic_info = amdsmi_get_gpu_asic_info(handle)
         device_name: str = asic_info["device_id"]
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index c1aa0ce27..fde60bbfa 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -622,13 +622,12 @@ class DPEngineCoreProc(EngineCoreProc):
         assert 0 <= local_dp_rank <= dp_rank < dp_size
 
         from vllm.platforms import current_platform
-        if current_platform.is_cuda_alike():
-            from vllm.platforms.cuda import device_id_to_physical_device_id
-            tp_size = vllm_config.parallel_config.tensor_parallel_size
-            os.environ["CUDA_VISIBLE_DEVICES"] = ",".join(
-                str(device_id_to_physical_device_id(i))
-                for i in range(local_dp_rank * tp_size, (local_dp_rank + 1) *
-                               tp_size))
+        device_control_env_var = current_platform.device_control_env_var
+        tp_size = vllm_config.parallel_config.tensor_parallel_size
+        os.environ[device_control_env_var] = ",".join(
+            str(current_platform.device_id_to_physical_device_id(i))
+            for i in range(local_dp_rank * tp_size, (local_dp_rank + 1) *
+                           tp_size))
 
         self.local_dp_rank = local_dp_rank
         self.dp_group = vllm_config.parallel_config.stateless_init_dp_group()
-- 
GitLab


From e9c730c9bd0fda1056581bc4cf018871e64fb966 Mon Sep 17 00:00:00 2001
From: Alexei-V-Ivanov-AMD
 <156011006+Alexei-V-Ivanov-AMD@users.noreply.github.com>
Date: Mon, 12 May 2025 15:05:33 -0500
Subject: [PATCH 298/461] Enabling "Weight Loading Multiple GPU Test - Large
 Models" (#18020)

---
 .buildkite/test-pipeline.yaml | 1 +
 1 file changed, 1 insertion(+)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 9664615be..6900efdcf 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -703,6 +703,7 @@ steps:
     - bash weight_loading/run_model_weight_loading_test.sh -c weight_loading/models.txt
 
 - label: Weight Loading Multiple GPU Test - Large Models # optional
+  mirror_hardwares: [amdexperimental] 
   working_dir: "/vllm-workspace/tests"
   num_gpus: 2
   gpu: a100
-- 
GitLab


From 302f3aca7ea3f57842881cb2ae0062c19ad24758 Mon Sep 17 00:00:00 2001
From: Chen Zhang <zhangch99@outlook.com>
Date: Tue, 13 May 2025 04:46:12 +0800
Subject: [PATCH 299/461] [v1][KVCacheManager] Change prefix caching metric
 from counting blocks to counting tokens (#18003)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>
---
 vllm/v1/core/kv_cache_manager.py | 12 ++++++------
 vllm/v1/metrics/loggers.py       |  4 ++--
 vllm/v1/metrics/stats.py         |  2 +-
 3 files changed, 9 insertions(+), 9 deletions(-)

diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
index 27368374e..d0e922363 100644
--- a/vllm/v1/core/kv_cache_manager.py
+++ b/vllm/v1/core/kv_cache_manager.py
@@ -161,11 +161,15 @@ class KVCacheManager:
 
         computed_blocks = (
             self.single_type_manager.find_longest_cache_hit(block_hashes))
+        # NOTE(woosuk): Since incomplete blocks are not eligible for
+        # sharing, `num_computed_tokens` is always a multiple of
+        # `block_size`.
+        num_computed_tokens = len(computed_blocks) * self.block_size
 
         if self.log_stats:
             assert self.prefix_cache_stats is not None
-            self.prefix_cache_stats.queries += len(block_hashes)
-            self.prefix_cache_stats.hits += len(computed_blocks)
+            self.prefix_cache_stats.queries += request.num_tokens
+            self.prefix_cache_stats.hits += num_computed_tokens
 
         if last_block_hash is not None:
             # Add back the last block hash if it was removed.
@@ -173,10 +177,6 @@ class KVCacheManager:
             # we shouldn't modify it directly.
             block_hashes.append(last_block_hash)
 
-        # NOTE(woosuk): Since incomplete blocks are not eligible for
-        # sharing, `num_computed_tokens` is always a multiple of
-        # `block_size`.
-        num_computed_tokens = len(computed_blocks) * self.block_size
         return KVCacheBlocks(computed_blocks), num_computed_tokens
 
     def allocate_slots(
diff --git a/vllm/v1/metrics/loggers.py b/vllm/v1/metrics/loggers.py
index 7455f1813..6ee40850b 100644
--- a/vllm/v1/metrics/loggers.py
+++ b/vllm/v1/metrics/loggers.py
@@ -183,13 +183,13 @@ class PrometheusStatLogger(StatLoggerBase):
         self.counter_gpu_prefix_cache_queries = prometheus_client.Counter(
             name="vllm:gpu_prefix_cache_queries",
             documentation=
-            "GPU prefix cache queries, in terms of number of queried blocks.",
+            "GPU prefix cache queries, in terms of number of queried tokens.",
             labelnames=labelnames).labels(*labelvalues)
 
         self.counter_gpu_prefix_cache_hits = prometheus_client.Counter(
             name="vllm:gpu_prefix_cache_hits",
             documentation=
-            "GPU prefix cache hits, in terms of number of cached blocks.",
+            "GPU prefix cache hits, in terms of number of cached tokens.",
             labelnames=labelnames).labels(*labelvalues)
 
         #
diff --git a/vllm/v1/metrics/stats.py b/vllm/v1/metrics/stats.py
index fd9492648..8fe163061 100644
--- a/vllm/v1/metrics/stats.py
+++ b/vllm/v1/metrics/stats.py
@@ -19,7 +19,7 @@ class PrefixCacheStats:
     # The number of requests in this update.
     requests: int = 0
     # The number of queries in these requests. Note that "queries" here
-    # means the number of blocks that were queried from the cache.
+    # means the number of tokens that were queried from the cache.
     queries: int = 0
     # The number of hits in these requests.
     hits: int = 0
-- 
GitLab


From 195adb47c0f181d32856aed49fad9973c3013217 Mon Sep 17 00:00:00 2001
From: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
Date: Mon, 12 May 2025 16:59:47 -0400
Subject: [PATCH 300/461] [Chore] Remove unused method (#18024)

Signed-off-by: rshaw@neuralmagic.com <robertgshaw2@gmail.com>
---
 vllm/v1/core/kv_cache_manager.py | 5 -----
 1 file changed, 5 deletions(-)

diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
index d0e922363..b34b53155 100644
--- a/vllm/v1/core/kv_cache_manager.py
+++ b/vllm/v1/core/kv_cache_manager.py
@@ -376,8 +376,3 @@ class KVCacheManager:
             block.block_id
             for block in self.single_type_manager.req_to_blocks[request_id]
         ]
-
-    def get_num_blocks(self, request_id: str):
-        """Get the number of blocks."""
-        assert request_id in self.single_type_manager.req_to_blocks
-        return len(self.single_type_manager.req_to_blocks[request_id])
-- 
GitLab


From 2b0db9b0e2378dbb7c44dd17e4066b1f42d42b70 Mon Sep 17 00:00:00 2001
From: Yang Wang <elainewy@meta.com>
Date: Mon, 12 May 2025 14:00:04 -0700
Subject: [PATCH 301/461] Enable standard language model for torhc nightly
 (#18004)

Signed-off-by: Yang Wang <elainewy@meta.com>
---
 .buildkite/test-pipeline.yaml | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 6900efdcf..da5db189f 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -472,12 +472,14 @@ steps:
 
 - label: Language Models Test (Standard)
   mirror_hardwares: [amdexperimental]
+  torch_nightly: true
   source_file_dependencies:
   - vllm/
   - tests/models/language
   commands:
     # Install causal-conv1d for plamo2 models here, as it is not compatible with pip-compile.
     - pip install 'git+https://github.com/Dao-AILab/causal-conv1d@v1.5.0.post8'
+    - pip freeze | grep -E 'torch'
     - pytest -v -s models/language -m core_model
 
 - label: Language Models Test (Extended)
@@ -493,11 +495,13 @@ steps:
 
 - label: Multi-Modal Models Test (Standard)
   mirror_hardwares: [amdexperimental]
+  torch_nightly: true
   source_file_dependencies:
   - vllm/
   - tests/models/multimodal
   commands:
     - pip install git+https://github.com/TIGER-AI-Lab/Mantis.git
+    - pip freeze | grep -E 'torch'
     - pytest -v -s models/multimodal/processing
     - pytest -v -s --ignore models/multimodal/generation/test_whisper.py models/multimodal -m core_model
     - cd .. && pytest -v -s tests/models/multimodal/generation/test_whisper.py -m core_model  # Otherwise, mp_method="spawn" doesn't work
-- 
GitLab


From ebab1ac37c8efbb29ce052044b1a73ab20b2ea62 Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Mon, 12 May 2025 18:31:54 -0400
Subject: [PATCH 302/461] [CI] Make JSON output tests less likely to fail
 (#17859)

Signed-off-by: Russell Bryant <rbryant@redhat.com>
---
 tests/v1/entrypoints/conftest.py              | 12 ++++++---
 .../llm/test_struct_output_generate.py        | 26 ++++++++++++++-----
 2 files changed, 27 insertions(+), 11 deletions(-)

diff --git a/tests/v1/entrypoints/conftest.py b/tests/v1/entrypoints/conftest.py
index d84b2b22d..bdee0bb8d 100644
--- a/tests/v1/entrypoints/conftest.py
+++ b/tests/v1/entrypoints/conftest.py
@@ -72,12 +72,14 @@ def sample_json_schema():
                             "type": "string"
                         }
                     },
-                    "required": ["company", "duration", "position"]
+                    "required": ["company", "duration", "position"],
+                    "additionalProperties": False
                 }
             }
         },
         "required":
-        ["name", "age", "skills", "grade", "email", "work_history"]
+        ["name", "age", "skills", "grade", "email", "work_history"],
+        "additionalProperties": False
     }
 
 
@@ -100,7 +102,8 @@ def unsupported_json_schema():
                 }
             }
         },
-        "required": ["score", "tags"]
+        "required": ["score", "tags"],
+        "additionalProperties": False
     }
 
 
@@ -139,7 +142,8 @@ def sample_definition_json_schema():
         },
         'required': ['steps', 'final_answer'],
         'title': 'MathReasoning',
-        'type': 'object'
+        'type': 'object',
+        "additionalProperties": False
     }
 
 
diff --git a/tests/v1/entrypoints/llm/test_struct_output_generate.py b/tests/v1/entrypoints/llm/test_struct_output_generate.py
index 81601c87a..5c116598f 100644
--- a/tests/v1/entrypoints/llm/test_struct_output_generate.py
+++ b/tests/v1/entrypoints/llm/test_struct_output_generate.py
@@ -62,6 +62,16 @@ class CarDescription(BaseModel):
     car_type: CarType
 
 
+def _load_json(s: str, backend: str) -> str:
+    if backend != "xgrammar":
+        return json.loads(s)
+
+    # xgrammar specific workarounds
+    # https://github.com/mlc-ai/xgrammar/issues/286
+    s = re.sub(r'[\x00-\x1F\x7F-\xFF]', '', s)
+    return json.loads(s)
+
+
 @pytest.mark.skip_global_cleanup
 @pytest.mark.parametrize(
     "model_name, guided_decoding_backend, tokenizer_mode, speculative_config",
@@ -102,7 +112,7 @@ def test_structured_output(
     #
     sampling_params = SamplingParams(
         temperature=1.0,
-        max_tokens=1000,
+        max_tokens=4096,
         guided_decoding=GuidedDecodingParams(json=sample_json_schema))
     outputs = llm.generate(prompts=[
         (f"Give an example JSON for an employee profile that fits this "
@@ -131,7 +141,7 @@ def test_structured_output(
     #
     sampling_params = SamplingParams(
         temperature=1.0,
-        max_tokens=100,
+        max_tokens=4096,
         n=2,
         guided_decoding=GuidedDecodingParams(json_object=True))
 
@@ -161,7 +171,7 @@ def test_structured_output(
     #
     sampling_params = SamplingParams(
         temperature=1.0,
-        max_tokens=1000,
+        max_tokens=4096,
         guided_decoding=GuidedDecodingParams(json=unsupported_json_schema))
     if guided_decoding_backend.startswith("xgrammar"):
         with pytest.raises(ValueError,
@@ -376,12 +386,13 @@ def test_structured_output(
                 "minLength": min_length
             }
         },
-        "required": ["description"]
+        "required": ["description"],
+        "additionalProperties": False
     }
 
     sampling_params = SamplingParams(
         temperature=1.0,
-        max_tokens=1000,
+        max_tokens=4096,
         guided_decoding=GuidedDecodingParams(json=json_schema))
 
     outputs = llm.generate(
@@ -417,7 +428,8 @@ def test_structured_output(
                     "city": {
                         "type": "string"
                     }
-                }
+                },
+                "additionalProperties": False
             },
             "end": "</function>"
         }],
@@ -426,7 +438,7 @@ def test_structured_output(
 
     sampling_params = SamplingParams(
         temperature=0.0,
-        max_tokens=100,
+        max_tokens=4096,
         guided_decoding=GuidedDecodingParams(
             structural_tag=json.dumps(structural_tag_config)))
 
-- 
GitLab


From dc9905368dd6f298395adaa20eeec37415c0cefe Mon Sep 17 00:00:00 2001
From: wwl2755 <wangwenlong2755@gmail.com>
Date: Mon, 12 May 2025 16:01:17 -0700
Subject: [PATCH 303/461] [V1][Spec Decode] Eagle unit tests (#17350)

Signed-off-by: wwl2755 <wangwenlong2755@gmail.com>
---
 tests/v1/spec_decode/test_eagle.py | 340 +++++++++++++++++++++++++++++
 vllm/v1/spec_decode/eagle.py       |   4 +
 2 files changed, 344 insertions(+)
 create mode 100644 tests/v1/spec_decode/test_eagle.py

diff --git a/tests/v1/spec_decode/test_eagle.py b/tests/v1/spec_decode/test_eagle.py
new file mode 100644
index 000000000..a7e148d01
--- /dev/null
+++ b/tests/v1/spec_decode/test_eagle.py
@@ -0,0 +1,340 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from unittest import mock
+
+import pytest
+import torch
+
+from vllm.config import (CacheConfig, DeviceConfig, LoadConfig, ModelConfig,
+                         ParallelConfig, SchedulerConfig, SpeculativeConfig,
+                         VllmConfig)
+from vllm.v1.spec_decode.eagle import EagleProposer
+
+model_dir = "meta-llama/Llama-3.1-8B-Instruct"
+eagle_dir = "yuhuili/EAGLE-LLaMA3.1-Instruct-8B"
+eagle3_dir = "yuhuili/EAGLE3-LLaMA3.1-Instruct-8B"
+
+
+def _create_proposer(method: str, k: int) -> EagleProposer:
+    model_config = ModelConfig(model=model_dir,
+                               task="generate",
+                               max_model_len=100,
+                               tokenizer=model_dir,
+                               tokenizer_mode="auto",
+                               dtype="auto",
+                               seed=None,
+                               trust_remote_code=False)
+
+    # Choose model directory based on method
+    draft_model_dir = eagle_dir if method == "eagle" else eagle3_dir
+
+    speculative_config = SpeculativeConfig(
+        target_model_config=model_config,
+        target_parallel_config=ParallelConfig(),
+        model=draft_model_dir,
+        method=method,
+        num_speculative_tokens=k,
+    )
+
+    vllm_config = VllmConfig(model_config=model_config,
+                             cache_config=CacheConfig(),
+                             speculative_config=speculative_config,
+                             device_config=DeviceConfig(device="cuda"),
+                             parallel_config=ParallelConfig(),
+                             load_config=LoadConfig(),
+                             scheduler_config=SchedulerConfig())
+
+    return EagleProposer(vllm_config=vllm_config, device='cuda')
+
+
+def test_prepare_inputs():
+    """
+    cu_target_query_lens: [0, a, a + b, a + b + c]
+    num_rejected_tokens: [n1, n2, n3]
+    num_tokens_per_req: [a - n1, b - n2, c - n3]
+    cu_num_tokens: [0, a - n1, a + b - n1 - n2, a + b + c - n1 - n2 - n3]
+    token_indices: [0, 1, ..., a - n1 - 1,
+                    a, a + 1, ..., a + b - n2 - 1,
+                    a + b, a + b + 1, ..., a + b + c - n3 - 1]
+    """
+    device = torch.device('cuda')
+
+    # a = 4, b = 7, c = 5
+    # n1 = 1, n2 = 3, n3 = 2
+
+    # Cumulative lengths: [0, 4, 11, 16]
+    cu_target_query_lens = torch.tensor([0, 4, 11, 16],
+                                        dtype=torch.int32,
+                                        device=device)
+
+    # Rejected tokens per request: [1, 3, 2]
+    num_rejected_tokens = torch.tensor([1, 3, 2],
+                                       dtype=torch.int32,
+                                       device=device)
+
+    # Expected calculations:
+    # query_len_per_req = [4, 7, 5]
+    # num_tokens_per_req = [3, 4, 3]  (after subtracting rejected tokens)
+    # Expected cumulative counts: [0, 3, 7, 10]
+    expected_cu_num_tokens = torch.tensor([0, 3, 7, 10],
+                                          dtype=torch.int32,
+                                          device=device)
+
+    # Expected token indices (mapped from original positions):
+    # First request: indices 0, 1, 2      (keeping first 3 from positions 0-3)
+    # Second request: indices 4, 5, 6, 7  (keeping first 4 from positions 4-10)
+    # Third request: indices 11, 12, 13   (keeping first 3 from positions 11-15)
+    expected_token_indices = torch.tensor(
+        [
+            0,
+            1,
+            2,  # First request: 3 tokens (4-1)
+            4,
+            5,
+            6,
+            7,  # Second request: 4 tokens (7-3)
+            11,
+            12,
+            13  # Third request: 3 tokens (5-2)
+        ],
+        dtype=torch.int32,
+        device=device)
+
+    cu_num_tokens, token_indices = EagleProposer.prepare_inputs(
+        cu_target_query_lens, num_rejected_tokens)
+
+    assert torch.equal(cu_num_tokens, expected_cu_num_tokens)
+    assert token_indices.shape[0] == expected_cu_num_tokens[-1].item()
+    assert torch.equal(token_indices, expected_token_indices)
+
+
+@pytest.mark.parametrize(
+    "method,proposer_helper,draft_model_dir,target_attribute_path", [
+        ("eagle", lambda k: _create_proposer("eagle", k), eagle_dir,
+         ('lm_head', )),
+        ("eagle3", lambda k: _create_proposer("eagle3", k), eagle3_dir,
+         ('model', 'embed_tokens')),
+    ])
+@mock.patch('vllm.v1.spec_decode.eagle.get_layers_from_vllm_config')
+@mock.patch('vllm.v1.spec_decode.eagle.ModelRegistry')
+@mock.patch('vllm.v1.spec_decode.eagle.get_model_loader')
+@mock.patch('vllm.v1.spec_decode.eagle.set_default_torch_dtype')
+@mock.patch('vllm.v1.spec_decode.eagle.set_current_vllm_config')
+def test_load_model(mock_set_config, mock_set_dtype, mock_get_loader,
+                    mock_registry, mock_get_layers, method, proposer_helper,
+                    draft_model_dir, target_attribute_path):
+
+    # Setup mock for model class
+    mock_model_cls = mock.MagicMock()
+    mock_registry.resolve_model_cls.return_value = (mock_model_cls,
+                                                    "test_arch")
+
+    # Create a real context manager for mocks
+    class MockContextManager:
+
+        def __init__(self):
+            pass
+
+        def __enter__(self):
+            return None
+
+        def __exit__(self, exc_type, exc_val, exc_tb):
+            return False
+
+    # Make the mocks return actual context manager objects
+    mock_set_dtype.return_value = MockContextManager()
+    mock_set_config.return_value = MockContextManager()
+
+    # Setup mocks for attention layers
+    target_attn_layers = {
+        "target_attn_1": mock.MagicMock(),
+        "target_attn_2": mock.MagicMock()
+    }
+    # Draft model has one extra attention layer compared to target model
+    all_attn_layers = {
+        **target_attn_layers, "draft_extra_attn": mock.MagicMock()
+    }
+
+    # Make mock_get_layers return different values for each call
+    mock_get_layers.side_effect = [target_attn_layers, all_attn_layers]
+
+    # Setup model loader mock
+    mock_loader = mock.MagicMock()
+    mock_get_loader.return_value = mock_loader
+
+    # Setup model mock
+    mock_model = mock.MagicMock()
+    mock_model_cls.return_value = mock_model
+    mock_model.to.return_value = mock_model
+
+    # Configure mock to test the attribute sharing path
+    if method == "eagle":
+        # For eagle, test the lm_head path
+        mock_model.load_weights.return_value = {
+            "model.embed_tokens.weight": torch.zeros(1)
+        }
+    else:
+        # For eagle3, test the embed_tokens path
+        mock_model.load_weights.return_value = {}
+
+    # Setup target model with the appropriate attributes
+    target_model = mock.MagicMock()
+
+    # Create the necessary attributes on the target model
+    current_obj = target_model
+    for i, attr in enumerate(target_attribute_path):
+        if i == len(target_attribute_path) - 1:
+            # Set the last attribute in the path to a MagicMock
+            setattr(current_obj, attr, mock.MagicMock())
+        else:
+            # Create intermediate objects if needed
+            setattr(current_obj, attr, mock.MagicMock())
+            current_obj = getattr(current_obj, attr)
+
+    # Create proposer using the helper function
+    proposer = proposer_helper(k=8)
+
+    # Call the method under test
+    proposer.load_model(target_model)
+
+    # Verify common interactions
+    mock_get_loader.assert_called_once()
+    mock_model_cls.assert_called_once()
+    mock_model.to.assert_called_once()
+    mock_model.load_weights.assert_called_once()
+
+    # Verify the loader was called with the right config
+    mock_get_loader.assert_called_once_with(proposer.vllm_config.load_config)
+
+    # Verify the specific attribute sharing based on the method
+    if method == "eagle":
+        assert proposer.model.lm_head == target_model.lm_head
+    else:
+        assert proposer.model.model.embed_tokens == \
+            target_model.model.embed_tokens
+
+
+@pytest.mark.parametrize("num_speculative_tokens", [1, 3, 8])
+def test_propose(num_speculative_tokens):
+    # Use GPU device
+    device = torch.device('cuda')
+
+    # Setup test parameters
+    batch_size = 2
+    seq_len_1 = 5
+    seq_len_2 = 3
+    total_tokens = seq_len_1 + seq_len_2
+    vocab_size = 100
+
+    # Create proposer first so we can use its actual hidden_size
+    proposer = _create_proposer("eagle", num_speculative_tokens)
+    # Get the hidden_size from the proposer to ensure consistency
+    hidden_size = proposer.hidden_size
+
+    # Helper to create deterministic logits that will produce specific tokens
+    def create_deterministic_logits(token_ids):
+        logits = torch.full((batch_size, vocab_size), -100.0, device=device)
+        for i, token_id in enumerate(token_ids):
+            logits[i, token_id] = 100.0
+        return logits
+
+    # We mock a model that returns deterministic logits
+    # Sequence 1: 42, 43, 44, ...
+    # Sequence 2: 60, 61, 62, ...
+    base_token_ids = [42, 60]
+
+    # Skip loading the model and replace it with a mock directly
+    # Create the mock model with deterministic outputs
+    model_mock = mock.MagicMock()
+
+    # Setup for model forward calls
+    forward_returns = []
+    for i in range(num_speculative_tokens):
+        if i == 0:
+            # First call uses all tokens
+            h_logits = torch.zeros(total_tokens, hidden_size, device=device)
+            h_states = torch.zeros(total_tokens, hidden_size, device=device)
+        else:
+            # Subsequent calls use batch_size tokens
+            h_logits = torch.zeros(batch_size, hidden_size, device=device)
+            h_states = torch.zeros(batch_size, hidden_size, device=device)
+        forward_returns.append((h_logits, h_states))
+
+    # For single token case, we only need the first item;
+    # for multi-token, we need the sequence
+    if num_speculative_tokens == 1:
+        model_mock.return_value = forward_returns[0]
+    else:
+        model_mock.side_effect = forward_returns
+
+    # Setup for compute_logits calls
+    logits_returns = []
+    for i in range(num_speculative_tokens):
+        # For each call, increment the base token IDs
+        current_tokens = [base_id + i for base_id in base_token_ids]
+        logits_returns.append(create_deterministic_logits(current_tokens))
+
+    if num_speculative_tokens == 1:
+        model_mock.compute_logits.return_value = logits_returns[0]
+    else:
+        model_mock.compute_logits.side_effect = logits_returns
+
+    # Assign the mock to the proposer
+    proposer.model = model_mock
+
+    # Create input tensors
+    cu_num_tokens = torch.tensor([0, seq_len_1, total_tokens],
+                                 dtype=torch.int32,
+                                 device=device)
+
+    target_token_ids = torch.randint(0,
+                                     vocab_size, (total_tokens, ),
+                                     device=device)
+    target_positions = torch.cat([
+        torch.arange(seq_len_1, device=device),
+        torch.arange(seq_len_2, device=device)
+    ])
+    target_hidden_states = torch.randn(total_tokens,
+                                       hidden_size,
+                                       device=device)
+    target_slot_mapping = torch.randint(0,
+                                        100, (total_tokens, ),
+                                        device=device)
+    next_token_ids = torch.randint(0,
+                                   vocab_size, (batch_size, ),
+                                   dtype=torch.int32,
+                                   device=device)
+    block_table = torch.randint(0, 10, (batch_size, 10), device=device)
+
+    sampling_metadata = mock.MagicMock()
+
+    # Call the method under test
+    result = proposer.propose(target_token_ids=target_token_ids,
+                              target_positions=target_positions,
+                              target_hidden_states=target_hidden_states,
+                              target_slot_mapping=target_slot_mapping,
+                              next_token_ids=next_token_ids,
+                              cu_num_tokens=cu_num_tokens,
+                              block_table=block_table,
+                              sampling_metadata=sampling_metadata)
+
+    assert result.shape == (batch_size, num_speculative_tokens)
+
+    # Create expected tokens based on our token pattern
+    if num_speculative_tokens == 1:
+        # Example for num_speculative_tokens=1:
+        # [[42], [60]]
+        expected_tokens = torch.tensor(
+            [[base_token_ids[0]], [base_token_ids[1]]], device=device)
+    else:
+        # Example for num_speculative_tokens=3:
+        # [[42, 43, 44], [60, 61, 62]]
+        expected_tokens = torch.zeros((batch_size, num_speculative_tokens),
+                                      dtype=torch.int64,
+                                      device=device)
+        for i in range(batch_size):
+            for j in range(num_speculative_tokens):
+                expected_tokens[i, j] = base_token_ids[i] + j
+
+    # Verify all tokens match our expectations
+    assert torch.equal(result, expected_tokens)
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index 13cfcc4bb..8af8fda39 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -223,6 +223,8 @@ class EagleProposer:
             hidden_states = hidden_states[:batch_size]
             logits = self.model.compute_logits(last_hidden_states[:batch_size],
                                                None)
+
+            # TODO(wenlong): get more than one token for tree attention
             draft_token_ids = logits.argmax(dim=-1)
             draft_token_ids_list.append(draft_token_ids)
 
@@ -251,6 +253,8 @@ class EagleProposer:
         # [a, b, c] -> [a - n1, b - n2, c - n3]
         num_tokens_per_req = query_len_per_req - num_rejected_tokens
 
+        # [a - n1, b - n2, c - n3] ->
+        # [0, a - n1, a + b - n1 - n2, a + b + c - n1 - n2 - n3]
         cu_num_tokens = torch.empty_like(cu_target_query_lens)
         torch.cumsum(num_tokens_per_req, dim=0, out=cu_num_tokens[1:])
         cu_num_tokens[0] = 0
-- 
GitLab


From f065de4e88e7651f1f68fc4c0ca95b79d4577b89 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Mon, 12 May 2025 19:02:07 -0400
Subject: [PATCH 304/461] Fix FBGEMM integration (#18002)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 .../layers/quantization/fbgemm_fp8.py         |  4 +++-
 .../quantization/utils/marlin_utils_fp8.py    | 20 ++++++++-----------
 2 files changed, 11 insertions(+), 13 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/fbgemm_fp8.py b/vllm/model_executor/layers/quantization/fbgemm_fp8.py
index 1fa2b3a8e..163aabb45 100644
--- a/vllm/model_executor/layers/quantization/fbgemm_fp8.py
+++ b/vllm/model_executor/layers/quantization/fbgemm_fp8.py
@@ -63,7 +63,9 @@ class FBGEMMFp8Config(QuantizationConfig):
     def get_quant_method(self, layer: torch.nn.Module,
                          prefix: str) -> Optional["QuantizeMethodBase"]:
         if isinstance(layer, LinearBase):
-            if is_layer_skipped(prefix, self.ignore_list):
+            if is_layer_skipped(prefix=prefix,
+                                ignored_layers=self.ignore_list,
+                                fused_mapping=self.packed_modules_mapping):
                 return UnquantizedLinearMethod()
             return FBGEMMFp8LinearMethod(self)
         return None
diff --git a/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py b/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py
index 3080d2a0d..08812debd 100644
--- a/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py
@@ -86,6 +86,7 @@ def prepare_fp8_layer_for_marlin(layer: torch.nn.Module,
 
     part_size_n = layer.output_size_per_partition
     part_size_k = layer.input_size_per_partition
+    weight_block_size = getattr(layer, "weight_block_size", None)
 
     if size_k_first:
         assert layer.weight.shape == (part_size_k, part_size_n)
@@ -119,14 +120,11 @@ def prepare_fp8_layer_for_marlin(layer: torch.nn.Module,
         scales = layer.weight_scale_inv.to(layer.orig_dtype)
         del layer.weight_scale_inv
 
-    if layer.weight_block_size is None:
-        group_size = -1
-    else:
-        group_size = layer.weight_block_size[1]
+    group_size = -1 if weight_block_size is None else weight_block_size[1]
 
     # marlin kernel only support channel-wise and group-wise quantization
     # we need to convert the scales
-    if layer.weight_block_size is None:
+    if weight_block_size is None:
         if scales.nelement() == 1:
             # tensor-wise quantization -> channel-wise quantization
             # (1, 1) =>(repeat)=> (1, size_n)
@@ -149,7 +147,7 @@ def prepare_fp8_layer_for_marlin(layer: torch.nn.Module,
         #  =>(repeat)=> (size_k // block_size[1], size_n)
         if not size_k_first:
             scales = scales.T.contiguous()
-        block_n = layer.weight_block_size[0]
+        block_n = weight_block_size[0]
         scales = scales.repeat_interleave(block_n, 1)
         # size_n may not divisible by block_size[0]
         scales = scales[:, :part_size_n]
@@ -173,6 +171,7 @@ def prepare_moe_fp8_layer_for_marlin(layer: torch.nn.Module,
     e = layer.num_experts
     k = layer.hidden_size
     n = layer.intermediate_size_per_partition
+    weight_block_size = getattr(layer, "weight_block_size", None)
 
     # WORKSPACE
     device = layer.w13_weight.device
@@ -213,10 +212,7 @@ def prepare_moe_fp8_layer_for_marlin(layer: torch.nn.Module,
 
     # WEIGHT SCALES
     # Permute scales
-    if layer.weight_block_size is None:
-        group_size = -1
-    else:
-        group_size = layer.weight_block_size[1]
+    group_size = -1 if weight_block_size is None else weight_block_size[1]
 
     for name in ["w13", "w2"]:
         if name + "_weight_scale" in dir(layer):
@@ -236,7 +232,7 @@ def prepare_moe_fp8_layer_for_marlin(layer: torch.nn.Module,
 
         # marlin kernel only support channel-wise and group-wise quantization
         # we need to convert the scales
-        if layer.weight_block_size is None:
+        if weight_block_size is None:
             if scales.nelement() == e:
                 # tensor-wise quantization -> channel-wise quantization
                 # (e, 1, 1) =>(repeat)=> (e, 1, size_n)
@@ -259,7 +255,7 @@ def prepare_moe_fp8_layer_for_marlin(layer: torch.nn.Module,
             #  =>(repeat)=> (e, size_k // block_size[1], size_n)
             if not size_k_first:
                 scales = scales.permute(0, 2, 1)
-            block_n = layer.weight_block_size[0]
+            block_n = weight_block_size[0]
             scales = scales.repeat_interleave(block_n, 2)
             # size_n may not divisible by block_size[0]
             scales = scales[..., :size_n].contiguous()
-- 
GitLab


From acee8f48aa9c580d0a54d00117ab772b6fe68650 Mon Sep 17 00:00:00 2001
From: bwshen-mi <shenbowen1@xiaomi.com>
Date: Tue, 13 May 2025 07:25:33 +0800
Subject: [PATCH 305/461] [Model] Support MiMo-7B inference with MTP (#17433)

Signed-off-by: wp-alpha <wangpeng66@xiaomi.com>
Co-authored-by: wangpeng66 <wangpeng66@xiaomi.com>
---
 docs/source/models/supported_models.md |   5 +
 tests/models/registry.py               |   5 +
 vllm/config.py                         |  20 +-
 vllm/model_executor/models/mimo.py     | 190 +++++++++++++++++
 vllm/model_executor/models/mimo_mtp.py | 283 +++++++++++++++++++++++++
 vllm/model_executor/models/registry.py |   2 +
 vllm/worker/worker.py                  |   6 +-
 7 files changed, 507 insertions(+), 4 deletions(-)
 create mode 100644 vllm/model_executor/models/mimo.py
 create mode 100644 vllm/model_executor/models/mimo_mtp.py

diff --git a/docs/source/models/supported_models.md b/docs/source/models/supported_models.md
index 48fc24f34..b9c1a4f8d 100644
--- a/docs/source/models/supported_models.md
+++ b/docs/source/models/supported_models.md
@@ -592,6 +592,11 @@ Specified using `--task generate`.
   * `Zyphra/Zamba2-7B-instruct`, `Zyphra/Zamba2-2.7B-instruct`, `Zyphra/Zamba2-1.2B-instruct`, etc.
   *
   *
+- * `MiMoForCausalLM`
+  * MiMo
+  * `XiaomiMiMo/MiMo-7B-RL`, etc.
+  *
+  *
 :::
 
 :::{note}
diff --git a/tests/models/registry.py b/tests/models/registry.py
index 683d15d50..8e6422ae1 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -242,6 +242,8 @@ _TEXT_GENERATION_EXAMPLE_MODELS = {
                                          is_available_online=False,
                                          trust_remote_code=True),
     "Zamba2ForCausalLM": _HfExamplesInfo("Zyphra/Zamba2-7B-instruct"),
+    "MiMoForCausalLM": _HfExamplesInfo("XiaomiMiMo/MiMo-7B-RL",
+                                        trust_remote_code=True),
     # [Encoder-decoder]
     "BartModel": _HfExamplesInfo("facebook/bart-base"),
     "BartForConditionalGeneration": _HfExamplesInfo("facebook/bart-large-cnn"),
@@ -403,6 +405,9 @@ _SPECULATIVE_DECODING_EXAMPLE_MODELS = {
                                             trust_remote_code=True,
                                             speculative_model="yuhuili/EAGLE3-LLaMA3.1-Instruct-8B",
                                             tokenizer="meta-llama/Llama-3.1-8B-Instruct"),
+    "MiMoMTPModel": _HfExamplesInfo("XiaomiMiMo/MiMo-7B-RL",
+                                    trust_remote_code=True,
+                                    speculative_model="XiaomiMiMo/MiMo-7B-RL")
 }
 
 _TRANSFORMERS_MODELS = {
diff --git a/vllm/config.py b/vllm/config.py
index c6b97bbdc..377e7f5a5 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -1139,7 +1139,8 @@ class ModelConfig:
     def get_layers_start_end_indices(
             self, parallel_config: "ParallelConfig") -> tuple[int, int]:
         from vllm.distributed.utils import get_pp_indices
-        if self.hf_text_config.model_type == "deepseek_mtp":
+        if (self.hf_text_config.model_type == "deepseek_mtp"
+                or self.hf_config.model_type == "mimo_mtp"):
             total_num_hidden_layers = getattr(self.hf_text_config,
                                               "num_nextn_predict_layers", 0)
         else:
@@ -2357,6 +2358,17 @@ class SpeculativeConfig:
                 "n_predict": n_predict,
                 "architectures": ["DeepSeekMTPModel"]
             })
+
+        if hf_config.architectures[0] == "MiMoForCausalLM":
+            hf_config.model_type = "mimo_mtp"
+            n_predict = getattr(hf_config, "num_nextn_predict_layers", None)
+            hf_config.update({
+                "num_hidden_layers": 0,
+                "n_predict": n_predict,
+                "architectures": ["MiMoMTPModel"]
+            })
+            return hf_config
+
         return hf_config
 
     def __post_init__(self):
@@ -2373,8 +2385,10 @@ class SpeculativeConfig:
             # TODO(Shangming): Refactor mtp configuration logic when supporting
             # mtp acceleration for more models besides deepseek_v3
             if self.target_model_config and \
-                self.target_model_config.hf_text_config.model_type \
-                        == "deepseek_v3":
+                (self.target_model_config.hf_text_config.model_type \
+                        == "deepseek_v3" or
+                    self.target_model_config.hf_text_config.model_type \
+                        == "mimo"):
                 # use the draft model from the same model:
                 self.model = self.target_model_config.model
             elif self.method in ("ngram", "[ngram]"):
diff --git a/vllm/model_executor/models/mimo.py b/vllm/model_executor/models/mimo.py
new file mode 100644
index 000000000..b882aeebb
--- /dev/null
+++ b/vllm/model_executor/models/mimo.py
@@ -0,0 +1,190 @@
+# SPDX-License-Identifier: Apache-2.0
+
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/qwen2/modeling_qwen2.py
+# Copyright 2025 Xiaomi Corporation.
+# Copyright 2024 The Qwen team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only MiMo model compatible with HuggingFace weights."""
+from typing import Iterable, Optional, Set, Tuple, Union
+
+import torch
+import torch.nn as nn
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+from vllm.distributed import get_pp_group
+from vllm.logger import init_logger
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.sampler import get_sampler
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader, maybe_remap_kv_scale_name)
+from vllm.model_executor.models.qwen2 import Qwen2ForCausalLM, Qwen2Model
+from vllm.model_executor.sampling_metadata import SamplingMetadata
+from vllm.sequence import IntermediateTensors
+
+from .utils import PPMissingLayer, is_pp_missing_parameter, maybe_prefix
+
+logger = init_logger(__name__)
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "input_ids": 0,
+        "positions": -1,
+        "intermediate_tensors": 0,
+        "inputs_embeds": 0,
+    })
+class MiMoModel(Qwen2Model):
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: Optional[IntermediateTensors] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+    ) -> Union[torch.Tensor, IntermediateTensors]:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.get_input_embeddings(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+        for layer in self.layers[self.start_layer:self.end_layer]:
+            hidden_states, residual = layer(
+                positions,
+                hidden_states,
+                residual,
+            )
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors({
+                "hidden_states": hidden_states,
+                "residual": residual
+            })
+        hidden_states = hidden_states + residual
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[Tuple[str,
+                                                   torch.Tensor]]) -> Set[str]:
+        stacked_params_mapping = [
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: Set[str] = set()
+        for name, loaded_weight in weights:
+            if "mtp_layers" in name:
+                continue
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if (self.quant_config is not None and
+                (scale_name := self.quant_config.get_cache_scale(name))):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader",
+                                        default_weight_loader)
+                loaded_weight = (loaded_weight if loaded_weight.dim() == 0 else
+                                 loaded_weight[0])
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for (param_name, weight_name, shard_id) in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader",
+                                        default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class MiMoForCausalLM(Qwen2ForCausalLM, nn.Module):
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        nn.Module.__init__(self)
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        lora_config = vllm_config.lora_config
+
+        self.config = config
+        self.lora_config = lora_config
+
+        self.quant_config = quant_config
+
+        self.model = MiMoModel(vllm_config=vllm_config,
+                               prefix=maybe_prefix(prefix, "model"))
+
+        if get_pp_group().is_last_rank:
+            if config.tie_word_embeddings:
+                self.lm_head = self.model.embed_tokens
+            else:
+                self.lm_head = ParallelLMHead(config.vocab_size,
+                                              config.hidden_size,
+                                              quant_config=quant_config,
+                                              prefix=maybe_prefix(
+                                                  prefix, "lm_head"))
+        else:
+            self.lm_head = PPMissingLayer()
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.sampler = get_sampler()
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors)
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+    ) -> Optional[torch.Tensor]:
+        hidden_states = self.model.norm(hidden_states)
+        logits = self.logits_processor(self.lm_head, hidden_states,
+                                       sampling_metadata)
+        return logits
diff --git a/vllm/model_executor/models/mimo_mtp.py b/vllm/model_executor/models/mimo_mtp.py
new file mode 100644
index 000000000..c2f1cf411
--- /dev/null
+++ b/vllm/model_executor/models/mimo_mtp.py
@@ -0,0 +1,283 @@
+# SPDX-License-Identifier: Apache-2.0
+
+# Adapted from
+# https://github.com/vllm-project/vllm/blob/v0.7.3/vllm/model_executor/models/deepseek_mtp.py
+# Copyright 2025 Xiaomi Corporation.
+# Copyright 2023 The vLLM team.
+# Copyright 2024 DeepSeek-AI team.
+
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only MiMo-MTP model."""
+from typing import Iterable, Optional, Set, Tuple
+
+import torch
+import torch.nn as nn
+from transformers import PretrainedConfig
+
+from vllm.config import CacheConfig, ModelConfig, VllmConfig
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.sampler import SamplerOutput, get_sampler
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead, VocabParallelEmbedding)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.qwen2 import Qwen2DecoderLayer
+from vllm.model_executor.sampling_metadata import SamplingMetadata
+from vllm.sequence import IntermediateTensors
+
+from .utils import maybe_prefix
+
+
+class MiMoMultiTokenPredictorLayer(nn.Module):
+
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        prefix: str,
+        model_config: ModelConfig,
+        cache_config: Optional[CacheConfig] = None,
+        quant_config: Optional[QuantizationConfig] = None,
+    ) -> None:
+        super().__init__()
+
+        self.token_layernorm = RMSNorm(config.hidden_size,
+                                       eps=config.rms_norm_eps)
+        self.hidden_layernorm = RMSNorm(config.hidden_size,
+                                        eps=config.rms_norm_eps)
+        self.input_proj = nn.Linear(config.hidden_size * 2,
+                                    config.hidden_size,
+                                    bias=False)
+        self.mtp_block = Qwen2DecoderLayer(config=config,
+                                           cache_config=cache_config,
+                                           quant_config=quant_config,
+                                           prefix=prefix)
+        self.final_layernorm = RMSNorm(config.hidden_size,
+                                       eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        inputs_embeds: torch.Tensor,
+        positions: torch.Tensor,
+        previous_hidden_states: torch.Tensor,
+        spec_step_index: int = 0,
+    ) -> torch.Tensor:
+        assert inputs_embeds is not None
+        # masking inputs at position 0, as not needed by MTP
+        inputs_embeds[positions == 0] = 0
+        inputs_embeds = self.token_layernorm(inputs_embeds)
+        previous_hidden_states = self.hidden_layernorm(previous_hidden_states)
+
+        hidden_states = self.input_proj(
+            torch.cat([previous_hidden_states, inputs_embeds], dim=-1))
+
+        hidden_states, residual = self.mtp_block(positions=positions,
+                                                 hidden_states=hidden_states,
+                                                 residual=None)
+        hidden_states = residual + hidden_states
+        return self.final_layernorm(hidden_states)
+
+
+class MiMoMultiTokenPredictor(nn.Module):
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        self.mtp_start_layer_idx = config.num_hidden_layers
+        self.num_mtp_layers = config.num_nextn_predict_layers
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+
+        self.mtp_layers = torch.nn.ModuleDict({
+            str(idx):
+            MiMoMultiTokenPredictorLayer(
+                config,
+                f"{prefix}.layers.{idx}",
+                model_config=vllm_config.model_config,
+                cache_config=vllm_config.cache_config,
+                quant_config=vllm_config.quant_config,
+            )
+            for idx in range(self.mtp_start_layer_idx,
+                             self.mtp_start_layer_idx + self.num_mtp_layers)
+        })
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        previous_hidden_states: torch.Tensor,
+        inputs_embeds: Optional[torch.Tensor] = None,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+
+        if inputs_embeds is None:
+            inputs_embeds = self.embed_tokens(input_ids)
+        return self.mtp_layers[str(self.mtp_start_layer_idx + spec_step_idx)](
+            inputs_embeds,
+            positions,
+            previous_hidden_states,
+            spec_step_idx,
+        )
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        lm_head: ParallelLMHead,
+        sampling_metadata: SamplingMetadata,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        self.mtp_layers[str(self.mtp_start_layer_idx + spec_step_idx)]
+        logits = self.logits_processor(lm_head, hidden_states,
+                                       sampling_metadata)
+        return logits
+
+
+class MiMoMTP(nn.Module):
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        self.config = vllm_config.model_config.hf_config
+        self.model = MiMoMultiTokenPredictor(vllm_config=vllm_config,
+                                             prefix=maybe_prefix(
+                                                 prefix, "model"))
+        self.lm_head = ParallelLMHead(self.config.vocab_size,
+                                      self.config.hidden_size)
+
+        self.sampler = get_sampler()
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        previous_hidden_states: torch.Tensor,
+        intermediate_tensors: Optional[IntermediateTensors] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        assert spec_step_idx == 0, "mimo_mtp only support predict one token now"
+        hidden_states = self.model(input_ids, positions,
+                                   previous_hidden_states, inputs_embeds,
+                                   spec_step_idx)
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+        spec_step_idx: int = 0,
+    ) -> Optional[torch.Tensor]:
+        return self.model.compute_logits(hidden_states, self.lm_head,
+                                         sampling_metadata, spec_step_idx)
+
+    def sample(
+        self,
+        logits: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+    ) -> Optional[SamplerOutput]:
+        next_tokens = self.sampler(logits, sampling_metadata)
+        return next_tokens
+
+    def load_weights(self, weights: Iterable[Tuple[str,
+                                                   torch.Tensor]]) -> Set[str]:
+        stacked_params_mapping = [
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: Set[str] = set()
+        for name, loaded_weight in weights:
+
+            if "rotary_emb.inv_freq" in name:
+                continue
+            name = self.map_model_name_to_mtp_param_name(name)
+
+            for (param_name, weight_name, shard_id) in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+                if "mtp_layers" not in name:
+                    break
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if (("mlp.experts." in name) and name not in params_dict):
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if "mtp_layers" not in name and ("embed_tokens" not in name
+                                                 and "lm_head" not in name):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader",
+                                        default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+    def map_model_name_to_mtp_param_name(self, name: str) -> str:
+        import re
+        name_without_prefix = [
+            "token_layernorm", "hidden_layernorm", "input_proj",
+            "final_layernorm"
+        ]
+        for sub_name in name_without_prefix:
+            if sub_name in name:
+                return name
+        pattern = r"model.mtp_layers.(\d+)."
+        group = re.match(pattern, name)
+        if group is not None:
+            name = name.replace(group.group(), group.group() + "mtp_block.")
+        return name
+
+    def _rewrite_spec_layer_name(self, spec_layer: int, name: str) -> str:
+        """
+        Rewrite the weight name to match the format of the original model.
+        Add .mtp_block for modules in transformer layer block for spec layer
+        """
+        spec_layer_weight_names = [
+            "embed_tokens", "enorm", "hnorm", "eh_proj", "shared_head"
+        ]
+        spec_layer_weight = False
+        for weight_name in spec_layer_weight_names:
+            if weight_name in name:
+                spec_layer_weight = True
+                break
+        if not spec_layer_weight:
+            # treat rest weights as weights for transformer layer block
+            name = name.replace(f"model.layers.{spec_layer}.",
+                                f"model.layers.{spec_layer}.mtp_block.")
+        return name
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index c5414e129..ebbbb3938 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -88,6 +88,7 @@ _TEXT_GENERATION_MODELS = {
     # transformers's mpt class has lower case
     "MptForCausalLM": ("mpt", "MPTForCausalLM"),
     "MPTForCausalLM": ("mpt", "MPTForCausalLM"),
+    "MiMoForCausalLM": ("mimo", "MiMoForCausalLM"),
     "NemotronForCausalLM": ("nemotron", "NemotronForCausalLM"),
     "OlmoForCausalLM": ("olmo", "OlmoForCausalLM"),
     "Olmo2ForCausalLM": ("olmo2", "Olmo2ForCausalLM"),
@@ -215,6 +216,7 @@ _MULTIMODAL_MODELS = {
 }
 
 _SPECULATIVE_DECODING_MODELS = {
+    "MiMoMTPModel": ("mimo_mtp", "MiMoMTP"),
     "EAGLEModel": ("eagle", "EAGLE"),
     "EagleLlamaForCausalLM": ("llama_eagle", "EagleLlamaForCausalLM"),
     "Eagle3LlamaForCausalLM": ("llama_eagle3", "Eagle3LlamaForCausalLM"),
diff --git a/vllm/worker/worker.py b/vllm/worker/worker.py
index 1a14919dd..17f636765 100644
--- a/vllm/worker/worker.py
+++ b/vllm/worker/worker.py
@@ -71,7 +71,11 @@ class Worker(LocalOrDistributedWorkerBase):
             or (speculative_config.draft_model_config.hf_config.model_type ==
                 model_config.hf_config.model_type) \
             or (speculative_config.draft_model_config.hf_config.model_type
-                not in ("medusa", "mlp_speculator", "eagle", "deepseek_mtp")) \
+                not in ("medusa",
+                        "mlp_speculator",
+                        "eagle",
+                        "deepseek_mtp",
+                         "mimo_mtp")) \
                     else {"return_hidden_states": True}
 
         ModelRunnerClass: Type[GPUModelRunnerBase] = ModelRunner
-- 
GitLab


From 9d7ea9dbbf570098dba44e4f00948bef2510fc8d Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 13 May 2025 00:49:33 +0100
Subject: [PATCH 306/461] Update some more deprecated type hinting (#17998)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 pyproject.toml                                |  4 +-
 vllm/model_executor/custom_op.py              |  4 +-
 .../guidance_logits_processors.py             |  4 +-
 .../guided_decoding/guided_fields.py          | 10 +--
 .../guided_decoding/outlines_decoding.py      |  4 +-
 .../outlines_logits_processors.py             | 16 ++--
 .../guided_decoding/xgrammar_decoding.py      |  4 +-
 vllm/model_executor/pooling_metadata.py       |  8 +-
 vllm/model_executor/sampling_metadata.py      | 88 +++++++++----------
 vllm/model_executor/utils.py                  |  4 +-
 10 files changed, 73 insertions(+), 73 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index a26917a09..4147b6bde 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -79,7 +79,9 @@ exclude = [
 "vllm/engine/**/*.py" = ["UP006", "UP035"]
 "vllm/executor/**/*.py" = ["UP006", "UP035"]
 "vllm/lora/**/*.py" = ["UP006", "UP035"]
-"vllm/model_executor/**/*.py" = ["UP006", "UP035"]
+"vllm/model_executor/layers/**/*.py" = ["UP006", "UP035"]
+"vllm/model_executor/model_loader/**/*.py" = ["UP006", "UP035"]
+"vllm/model_executor/models/**/*.py" = ["UP006", "UP035"]
 "vllm/platforms/**/*.py" = ["UP006", "UP035"]
 "vllm/plugins/**/*.py" = ["UP006", "UP035"]
 "vllm/profiler/**/*.py" = ["UP006", "UP035"]
diff --git a/vllm/model_executor/custom_op.py b/vllm/model_executor/custom_op.py
index b0d00ee48..acf722467 100644
--- a/vllm/model_executor/custom_op.py
+++ b/vllm/model_executor/custom_op.py
@@ -1,7 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Dict, Type
-
 import torch.nn as nn
 
 from vllm.config import get_current_vllm_config
@@ -138,7 +136,7 @@ class CustomOp(nn.Module):
     # Examples:
     # - MyOp.enabled()
     # - op_registry["my_op"].enabled()
-    op_registry: Dict[str, Type['CustomOp']] = {}
+    op_registry: dict[str, type['CustomOp']] = {}
 
     # Decorator to register custom ops.
     @classmethod
diff --git a/vllm/model_executor/guided_decoding/guidance_logits_processors.py b/vllm/model_executor/guided_decoding/guidance_logits_processors.py
index 26fcafe31..4b45c272a 100644
--- a/vllm/model_executor/guided_decoding/guidance_logits_processors.py
+++ b/vllm/model_executor/guided_decoding/guidance_logits_processors.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 import os
-from typing import Any, List
+from typing import Any
 
 import llguidance
 import llguidance.hf
@@ -62,7 +62,7 @@ class GuidanceLogitsProcessor:
 
     def __call__(
         self,
-        input_ids: List[int],
+        input_ids: list[int],
         scores: torch.Tensor,
     ) -> torch.Tensor:
         # we initialize the guidance model here
diff --git a/vllm/model_executor/guided_decoding/guided_fields.py b/vllm/model_executor/guided_decoding/guided_fields.py
index 1593868a1..085f37a5d 100644
--- a/vllm/model_executor/guided_decoding/guided_fields.py
+++ b/vllm/model_executor/guided_decoding/guided_fields.py
@@ -1,16 +1,16 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from dataclasses import dataclass
-from typing import Dict, List, Optional, TypedDict, Union
+from typing import Optional, TypedDict, Union
 
 from pydantic import BaseModel
 
 
 # These classes are deprecated, see SamplingParams
 class LLMGuidedOptions(TypedDict, total=False):
-    guided_json: Union[Dict, BaseModel, str]
+    guided_json: Union[dict, BaseModel, str]
     guided_regex: str
-    guided_choice: List[str]
+    guided_choice: list[str]
     guided_grammar: str
     guided_decoding_backend: str
     guided_whitespace_pattern: str
@@ -20,9 +20,9 @@ class LLMGuidedOptions(TypedDict, total=False):
 @dataclass
 class GuidedDecodingRequest:
     """One of the fields will be used to retrieve the logit processor."""
-    guided_json: Optional[Union[Dict, BaseModel, str]] = None
+    guided_json: Optional[Union[dict, BaseModel, str]] = None
     guided_regex: Optional[str] = None
-    guided_choice: Optional[List[str]] = None
+    guided_choice: Optional[list[str]] = None
     guided_grammar: Optional[str] = None
     guided_decoding_backend: Optional[str] = None
     guided_whitespace_pattern: Optional[str] = None
diff --git a/vllm/model_executor/guided_decoding/outlines_decoding.py b/vllm/model_executor/guided_decoding/outlines_decoding.py
index 564f9277a..bcd7494e6 100644
--- a/vllm/model_executor/guided_decoding/outlines_decoding.py
+++ b/vllm/model_executor/guided_decoding/outlines_decoding.py
@@ -6,7 +6,7 @@ import os
 from enum import Enum
 from json import dumps as json_dumps
 from re import escape as regex_escape
-from typing import Optional, Tuple, Union
+from typing import Optional, Union
 
 from transformers import PreTrainedTokenizerBase
 
@@ -111,7 +111,7 @@ def get_local_outlines_guided_decoding_logits_processor(
 
 def _get_guide_and_mode(
     guided_params: GuidedDecodingParams
-) -> Union[Tuple[str, GuidedDecodingMode], Tuple[None, None]]:
+) -> Union[tuple[str, GuidedDecodingMode], tuple[None, None]]:
     if guided_params.json:
         if isinstance(guided_params.json, dict):
             # turn dict into hashable string
diff --git a/vllm/model_executor/guided_decoding/outlines_logits_processors.py b/vllm/model_executor/guided_decoding/outlines_logits_processors.py
index 936fd0f06..8ae7c7b6b 100644
--- a/vllm/model_executor/guided_decoding/outlines_logits_processors.py
+++ b/vllm/model_executor/guided_decoding/outlines_logits_processors.py
@@ -19,7 +19,7 @@ import copy
 import json
 from collections import defaultdict
 from functools import lru_cache
-from typing import Callable, DefaultDict, Dict, List, Optional, Union
+from typing import Callable, Optional, Union
 
 import numpy as np
 import torch
@@ -53,10 +53,10 @@ class BaseLogitsProcessor:
         self._guide: Guide = guide
         self._reasoner: Optional[ReasoningParser] = reasoner
         # CFGState is used for the FSM state for CFGGuide
-        self._fsm_state: DefaultDict[int, Union[int,
+        self._fsm_state: defaultdict[int, Union[int,
                                                 CFGState]] = defaultdict(int)
 
-    def __call__(self, input_ids: List[int],
+    def __call__(self, input_ids: list[int],
                  scores: torch.Tensor) -> torch.Tensor:
         """Use the FSM to bias the logits before sampling the next token."""
 
@@ -160,7 +160,7 @@ class RegexLogitsProcessor(BaseLogitsProcessor):
 
 class JSONLogitsProcessor(RegexLogitsProcessor):
 
-    def __init__(self, schema: Union[str, Dict, BaseModel],
+    def __init__(self, schema: Union[str, dict, BaseModel],
                  tokenizer: PreTrainedTokenizerBase,
                  whitespace_pattern: Union[str, None],
                  reasoner: Optional[ReasoningParser]):
@@ -181,7 +181,7 @@ class JSONLogitsProcessor(RegexLogitsProcessor):
         """
         if isinstance(schema, type(BaseModel)):
             schema_str = json.dumps(schema.model_json_schema())
-        elif isinstance(schema, Dict):
+        elif isinstance(schema, dict):
             schema_str = json.dumps(schema)
         elif isinstance(schema, str):
             schema_str = schema
@@ -252,11 +252,11 @@ def _adapt_tokenizer(tokenizer: PreTrainedTokenizerBase):
         return string
 
     def change_decoder(
-        decoder: Callable[[List[int]],
-                          str]) -> Callable[[List[int]], List[str]]:
+        decoder: Callable[[list[int]],
+                          str]) -> Callable[[list[int]], list[str]]:
         """Sync vLLM's decoder with the outlines by returning list."""
 
-        def new_decoder(inp_tokens: List[int]) -> List[str]:
+        def new_decoder(inp_tokens: list[int]) -> list[str]:
             if (isinstance(inp_tokens, list) and len(inp_tokens) == 1
                     and isinstance(inp_tokens[0], list)):
                 inp_tokens = inp_tokens[0]
diff --git a/vllm/model_executor/guided_decoding/xgrammar_decoding.py b/vllm/model_executor/guided_decoding/xgrammar_decoding.py
index ac2d73626..8e40da4b3 100644
--- a/vllm/model_executor/guided_decoding/xgrammar_decoding.py
+++ b/vllm/model_executor/guided_decoding/xgrammar_decoding.py
@@ -6,7 +6,7 @@ from __future__ import annotations
 import json
 import re
 from dataclasses import dataclass, field
-from typing import TYPE_CHECKING, Any, List
+from typing import TYPE_CHECKING, Any
 
 import torch
 
@@ -273,7 +273,7 @@ class GrammarConfig:
         return re.sub(r'(["\\])', r'\\\1', s)
 
     @staticmethod
-    def choice_as_grammar(choice: List[str] | None) -> str:
+    def choice_as_grammar(choice: list[str] | None) -> str:
         if choice is None:
             raise ValueError("Choice is not set")
         escaped_choices = (GrammarConfig.escape_ebnf_string(c) for c in choice)
diff --git a/vllm/model_executor/pooling_metadata.py b/vllm/model_executor/pooling_metadata.py
index dea8b0e9d..4c5db7396 100644
--- a/vllm/model_executor/pooling_metadata.py
+++ b/vllm/model_executor/pooling_metadata.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from dataclasses import dataclass
-from typing import Any, Dict, List, Tuple
+from typing import Any
 
 import torch
 
@@ -23,9 +23,9 @@ class PoolingMetadata:
 
     def __init__(
         self,
-        seq_groups: List[Tuple[List[int], PoolingParams]],
-        seq_data: Dict[int, Any],  # Specific data related to sequences
-        prompt_lens: List[int],
+        seq_groups: list[tuple[list[int], PoolingParams]],
+        seq_data: dict[int, Any],  # Specific data related to sequences
+        prompt_lens: list[int],
     ) -> None:
         self.seq_groups = seq_groups
         self.seq_data = seq_data
diff --git a/vllm/model_executor/sampling_metadata.py b/vllm/model_executor/sampling_metadata.py
index 888ca3e50..6b83a59b5 100644
--- a/vllm/model_executor/sampling_metadata.py
+++ b/vllm/model_executor/sampling_metadata.py
@@ -2,7 +2,7 @@
 
 from array import array
 from dataclasses import dataclass
-from typing import Dict, List, Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -25,10 +25,10 @@ class SequenceGroupToSample:
     #                                   |-- query_len ---|
 
     # Sequence ids for the sequence group in a previous step.
-    seq_ids: List[int]
+    seq_ids: list[int]
     sampling_params: SamplingParams
     # seq_id -> sequence data.
-    seq_data: Dict[int, SequenceData]
+    seq_data: dict[int, SequenceData]
     # The length of the sequence (all tokens seen in the past + new token to
     # compute attention) of the sequence group. None if it is in a decode
     # stage.
@@ -44,9 +44,9 @@ class SequenceGroupToSample:
     is_prompt: bool
     # Query token indices from logits. to compute prompt logprob. Empty if
     # prompt logprob is not required.
-    prompt_logprob_indices: List[int]
+    prompt_logprob_indices: list[int]
     # Sample token indices from logits. Empty if sampling is not required.
-    sample_indices: List[int]
+    sample_indices: list[int]
 
     @property
     def do_sample(self):
@@ -78,7 +78,7 @@ class SamplingMetadataCache:
     """Used to cache SamplingMetadata objects between scheduler iterations"""
 
     def __init__(self):
-        self._seq_group_to_sample_cache: Dict[int, PyObjectCache] = {}
+        self._seq_group_to_sample_cache: dict[int, PyObjectCache] = {}
 
     def get_cached_seq_group_to_sample(self, num_seqs):
         if num_seqs not in self._seq_group_to_sample_cache:
@@ -130,9 +130,9 @@ class SamplingMetadata:
 
     def __init__(
         self,
-        seq_groups: List[SequenceGroupToSample],
+        seq_groups: list[SequenceGroupToSample],
         selected_token_indices: torch.Tensor,
-        categorized_sample_indices: Dict[SamplingType, torch.Tensor],
+        categorized_sample_indices: dict[SamplingType, torch.Tensor],
         num_prompts: int,
         skip_sampler_cpu_output: bool = False,
         reuse_sampling_tensors: bool = False,
@@ -146,12 +146,12 @@ class SamplingMetadata:
 
     @staticmethod
     def prepare(
-        seq_group_metadata_list: List[SequenceGroupMetadata],
-        seq_lens: List[int],
-        query_lens: List[int],
+        seq_group_metadata_list: list[SequenceGroupMetadata],
+        seq_lens: list[int],
+        query_lens: list[int],
         device: str,
         pin_memory: bool,
-        generators: Optional[Dict[str, torch.Generator]] = None,
+        generators: Optional[dict[str, torch.Generator]] = None,
         cache: Optional[SamplingMetadataCache] = None,
     ) -> "SamplingMetadata":
         (
@@ -195,16 +195,16 @@ class SamplingMetadata:
 
 
 def _prepare_seq_groups(
-    seq_group_metadata_list: List[SequenceGroupMetadata],
-    seq_lens: List[int],
-    query_lens: List[int],
+    seq_group_metadata_list: list[SequenceGroupMetadata],
+    seq_lens: list[int],
+    query_lens: list[int],
     device: str,
-    generators: Optional[Dict[str, torch.Generator]] = None,
+    generators: Optional[dict[str, torch.Generator]] = None,
     cache: Optional[SamplingMetadataCache] = None,
-) -> Tuple[
-        List[SequenceGroupToSample],
-        List[int],
-        Dict[SamplingType, List[int]],
+) -> tuple[
+        list[SequenceGroupToSample],
+        list[int],
+        dict[SamplingType, list[int]],
         int,
 ]:
     """Prepare sequence groups and indices for sampling.
@@ -227,17 +227,17 @@ def _prepare_seq_groups(
         num_prompts: Total number of prompts from `seq_group_metadata_list`.
     """
     # Batched sequence groups for the current model forward stsep.
-    seq_groups: List[SequenceGroupToSample] = []
+    seq_groups: list[SequenceGroupToSample] = []
     # A list of token indices to sample/compute logprob. It is used to
     # prune the outcome logits from the model for the performance.
-    selected_token_indices: List[int] = []
+    selected_token_indices: list[int] = []
     # Used for selected_token_indices.
     model_output_idx = 0
 
     # Sampling type -> (
     # indices to sample/prompt logprob within pruned output logits,
     # indices to sample within pruned logits)
-    categorized_sample_indices: Dict[SamplingType, List[int]] = {
+    categorized_sample_indices: dict[SamplingType, list[int]] = {
         t: []
         for t in SamplingType
     }
@@ -265,9 +265,9 @@ def _prepare_seq_groups(
         # If the current seq group is in decode stage, it is None.
         seq_len: Optional[int] = None
         query_len: Optional[int] = None
-        prompt_logprob_indices: List[int] = (sample_obj.prompt_logprob_indices
+        prompt_logprob_indices: list[int] = (sample_obj.prompt_logprob_indices
                                              if cache is not None else [])
-        sample_indices: List[int] = (sample_obj.sample_indices
+        sample_indices: list[int] = (sample_obj.sample_indices
                                      if cache is not None else [])
         do_sample = seq_group_metadata.do_sample
 
@@ -389,16 +389,16 @@ class SamplingTensors:
         vocab_size: int,
         device: torch.device,
         dtype: torch.dtype,
-    ) -> Tuple["SamplingTensors", bool, bool, bool]:
-        prompt_tokens: List[array] = []
-        output_tokens: List[array] = []
-        top_ks: List[int] = []
-        temperatures: List[float] = []
-        top_ps: List[float] = []
-        min_ps: List[float] = []
-        presence_penalties: List[float] = []
-        frequency_penalties: List[float] = []
-        repetition_penalties: List[float] = []
+    ) -> tuple["SamplingTensors", bool, bool, bool]:
+        prompt_tokens: list[array] = []
+        output_tokens: list[array] = []
+        top_ks: list[int] = []
+        temperatures: list[float] = []
+        top_ps: list[float] = []
+        min_ps: list[float] = []
+        presence_penalties: list[float] = []
+        frequency_penalties: list[float] = []
+        repetition_penalties: list[float] = []
         do_penalties = False
         do_top_p_top_k = False
         do_min_p = False
@@ -496,15 +496,15 @@ class SamplingTensors:
     @classmethod
     def from_lists(
         cls,
-        temperatures: List[float],
-        top_ps: List[float],
-        top_ks: List[int],
-        min_ps: List[float],
-        presence_penalties: List[float],
-        frequency_penalties: List[float],
-        repetition_penalties: List[float],
-        prompt_tokens: List[array],
-        output_tokens: List[array],
+        temperatures: list[float],
+        top_ps: list[float],
+        top_ks: list[int],
+        min_ps: list[float],
+        presence_penalties: list[float],
+        frequency_penalties: list[float],
+        repetition_penalties: list[float],
+        prompt_tokens: list[array],
+        output_tokens: list[array],
         vocab_size: int,
         device: torch.device,
         dtype: torch.dtype,
diff --git a/vllm/model_executor/utils.py b/vllm/model_executor/utils.py
index 04f922dfd..f9d89e64b 100644
--- a/vllm/model_executor/utils.py
+++ b/vllm/model_executor/utils.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 """Utils for model executor."""
-from typing import Any, Dict, Optional
+from typing import Any, Optional
 
 import torch
 
@@ -12,7 +12,7 @@ def set_random_seed(seed: int) -> None:
 
 def set_weight_attrs(
     weight: torch.Tensor,
-    weight_attrs: Optional[Dict[str, Any]],
+    weight_attrs: Optional[dict[str, Any]],
 ):
     """Set attributes on a weight tensor.
 
-- 
GitLab


From 307939f299db4ee695720fdeae3fb4b2dc233353 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Mon, 12 May 2025 20:07:34 -0400
Subject: [PATCH 307/461] Use NVFP4 Marlin for CompressedTensorsW4A16Fp4
 (#18000)

Signed-off-by: mgoin <mgoin64@gmail.com>
Signed-off-by: Dipika <dipikasikka1@gmail.com>
Co-authored-by: Dipika <dipikasikka1@gmail.com>
---
 .../schemes/compressed_tensors_w4a16_nvfp4.py | 67 +++++++------------
 1 file changed, 26 insertions(+), 41 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py
index f192a8164..caa4fe89c 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py
@@ -2,13 +2,12 @@
 from typing import Callable, List, Optional
 
 import torch
-import torch.nn.functional as F
 from torch.nn.parameter import Parameter
 
 from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
     CompressedTensorsScheme)
-from vllm.model_executor.layers.quantization.utils.nvfp4_emulation_utils import (  # noqa: E501
-    dequantize_to_dtype)
+from vllm.model_executor.layers.quantization.utils.marlin_utils_fp4 import (
+    apply_fp4_marlin_linear, prepare_fp4_layer_for_marlin)
 from vllm.model_executor.parameter import (GroupQuantScaleParameter,
                                            ModelWeightParameter,
                                            PerTensorScaleParameter)
@@ -31,6 +30,10 @@ class CompressedTensorsW4A16Fp4(CompressedTensorsScheme):
                        input_size_per_partition: int,
                        params_dtype: torch.dtype, weight_loader: Callable,
                        **kwargs):
+        output_size_per_partition = sum(output_partition_sizes)
+        layer.logical_widths = output_partition_sizes
+        layer.input_size_per_partition = input_size_per_partition
+        layer.output_size_per_partition = output_size_per_partition
 
         # Weight
         weight = ModelWeightParameter(data=torch.empty(
@@ -60,48 +63,30 @@ class CompressedTensorsW4A16Fp4(CompressedTensorsScheme):
 
         layer.register_parameter("weight_scale", weight_scale)
 
-    def swizzle_blockscale(self, scale: torch.tensor):
-        assert (scale.dtype == torch.float8_e4m3fn)
-        # Pad and blockwise interleave weight_scale
-        scale_ndim = scale.ndim
-        if scale.ndim == 2:
-            scale = scale.unsqueeze(0)
-        assert scale.ndim == 3
-        B, M, K = scale.shape
-        round_up_multiple = lambda x, m: (x + m - 1) // m * m
-        M_padded = round_up_multiple(M, 128)
-        K_padded = round_up_multiple(K, 4)
-        padded_scale = torch.zeros((B, M_padded, K_padded), dtype=scale.dtype)
-        padded_scale[:B, :M, :K] = scale
-        batches, rows, cols = padded_scale.shape
-        assert rows % 128 == 0
-        assert cols % 4 == 0
-        padded_scale = padded_scale.reshape(batches, rows // 128, 4, 32,
-                                            cols // 4, 4)
-        swizzled_scale = padded_scale.permute((0, 1, 4, 3, 2, 5))
-        swizzled_scale = swizzled_scale.contiguous().cuda()
-        return (swizzled_scale.reshape(M, K)
-                if scale_ndim == 2 else swizzled_scale.reshape(B, M, K))
-
     def process_weights_after_loading(self, layer) -> None:
-        layer.weight_global_scale = Parameter(
-            layer.weight_global_scale.max().to(torch.float32),
+        # Process parameters for marlin repacking
+
+        # Rename weight_packed to weight that marlin expects
+        layer.weight = Parameter(layer.weight_packed.data, requires_grad=False)
+        del layer.weight_packed
+        # Rename weight_global_scale to weight_scale_2 that marlin expects
+        # Note: ct stores the inverse of what is expected by the marlin kernel
+        layer.weight_scale_2 = Parameter(
+            1 / layer.weight_global_scale.max().to(torch.float32),
             requires_grad=False)
-        # Note: a post weight loading step but not required for the emulation
-        swizzled_weight_scale = self.swizzle_blockscale(layer.weight_scale)
-        layer.weight_scale_swizzled = Parameter(swizzled_weight_scale,
-                                                requires_grad=False)
+        del layer.weight_global_scale
+
+        prepare_fp4_layer_for_marlin(layer)
 
     def apply_weights(self,
                       layer: torch.nn.Module,
                       x: torch.Tensor,
                       bias: Optional[torch.Tensor] = None) -> torch.Tensor:
-
-        w_fp4 = layer.weight_packed.data
-        w_global_scale = layer.weight_global_scale
-        w_blockscale = layer.weight_scale_swizzled.data
-        w_dq = dequantize_to_dtype(w_fp4, w_blockscale, w_global_scale,
-                                   x.dtype, x.device, self.group_size)
-        out = F.linear(x, w_dq)
-        del w_dq, w_fp4, w_global_scale, w_blockscale
-        return out
+        return apply_fp4_marlin_linear(input=x,
+                                       weight=layer.weight,
+                                       weight_scale=layer.weight_scale,
+                                       weight_scale_2=layer.weight_scale_2,
+                                       workspace=layer.workspace,
+                                       size_n=layer.output_size_per_partition,
+                                       size_k=layer.input_size_per_partition,
+                                       bias=bias)
-- 
GitLab


From d67085c2c8a5de07fb531b0c0416d173f31cd9af Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 13 May 2025 01:33:45 +0100
Subject: [PATCH 308/461] Remove noisy warnings from `SchedulerConfig` (#17995)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 vllm/config.py | 6 ------
 1 file changed, 6 deletions(-)

diff --git a/vllm/config.py b/vllm/config.py
index 377e7f5a5..ed33030ed 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -2018,15 +2018,9 @@ class SchedulerConfig:
     def __post_init__(self) -> None:
         if self.max_model_len is None:
             self.max_model_len = 8192
-            logger.warning_once(
-                "max_model_len was is not set. Defaulting to arbitrary value "
-                "of %d.", self.max_model_len)
 
         if self.max_num_seqs is None:
             self.max_num_seqs = 128
-            logger.warning_once(
-                "max_num_seqs was is not set. Defaulting to arbitrary value "
-                "of %d.", self.max_num_seqs)
 
         if self.max_num_batched_tokens is None:
             if self.enable_chunked_prefill:
-- 
GitLab


From f6518b2b487724b3aa20c8b8224faba5622c4e44 Mon Sep 17 00:00:00 2001
From: hissu-hyvarinen <hissu.hyvarinen@amd.com>
Date: Tue, 13 May 2025 03:39:28 +0300
Subject: [PATCH 309/461] [ROCm] Skip tests for quantizations incompatible with
 ROCm (#17905)

Signed-off-by: Hissu Hyvarinen <hissu.hyvarinen@amd.com>
---
 tests/models/quantization/test_aqlm.py           | 5 ++++-
 tests/models/quantization/test_fp8.py            | 8 ++++++++
 tests/models/quantization/test_gptq_marlin.py    | 5 ++++-
 tests/models/quantization/test_gptq_marlin_24.py | 5 ++++-
 4 files changed, 20 insertions(+), 3 deletions(-)

diff --git a/tests/models/quantization/test_aqlm.py b/tests/models/quantization/test_aqlm.py
index 548053b7a..1272a6297 100644
--- a/tests/models/quantization/test_aqlm.py
+++ b/tests/models/quantization/test_aqlm.py
@@ -2,6 +2,7 @@
 import pytest
 
 from tests.quantization.utils import is_quant_method_supported
+from vllm.platforms import current_platform
 
 # These ground truth generations were generated using `transformers==4.38.1
 # aqlm==1.1.0 torch==2.2.0`
@@ -34,7 +35,9 @@ ground_truth_generations = [
 ]
 
 
-@pytest.mark.skipif(not is_quant_method_supported("aqlm"),
+@pytest.mark.skipif(not is_quant_method_supported("aqlm")
+                    or current_platform.is_rocm()
+                    or not current_platform.is_cuda(),
                     reason="AQLM is not supported on this GPU type.")
 @pytest.mark.parametrize("model", ["ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf"])
 @pytest.mark.parametrize("dtype", ["half"])
diff --git a/tests/models/quantization/test_fp8.py b/tests/models/quantization/test_fp8.py
index 4d15675a3..e01ee2026 100644
--- a/tests/models/quantization/test_fp8.py
+++ b/tests/models/quantization/test_fp8.py
@@ -55,6 +55,14 @@ def test_models(
     Only checks log probs match to cover the discrepancy in
     numerical sensitive kernels.
     """
+
+    if backend == "FLASHINFER" and current_platform.is_rocm():
+        pytest.skip("Flashinfer does not support ROCm/HIP.")
+
+    if kv_cache_dtype == "fp8_e5m2" and current_platform.is_rocm():
+        pytest.skip(
+            f"{kv_cache_dtype} is currently not supported on ROCm/HIP.")
+
     with monkeypatch.context() as m:
         m.setenv("TOKENIZERS_PARALLELISM", 'true')
         m.setenv(STR_BACKEND_ENV_VAR, backend)
diff --git a/tests/models/quantization/test_gptq_marlin.py b/tests/models/quantization/test_gptq_marlin.py
index 680134c6e..397bdb981 100644
--- a/tests/models/quantization/test_gptq_marlin.py
+++ b/tests/models/quantization/test_gptq_marlin.py
@@ -14,6 +14,7 @@ import pytest
 
 from tests.quantization.utils import is_quant_method_supported
 from vllm.model_executor.layers.rotary_embedding import _ROPE_DICT
+from vllm.platforms import current_platform
 
 from ..utils import check_logprobs_close
 
@@ -34,7 +35,9 @@ MODELS = [
 
 
 @pytest.mark.flaky(reruns=3)
-@pytest.mark.skipif(not is_quant_method_supported("gptq_marlin"),
+@pytest.mark.skipif(not is_quant_method_supported("gptq_marlin")
+                    or current_platform.is_rocm()
+                    or not current_platform.is_cuda(),
                     reason="gptq_marlin is not supported on this GPU type.")
 @pytest.mark.parametrize("model", MODELS)
 @pytest.mark.parametrize("dtype", ["half", "bfloat16"])
diff --git a/tests/models/quantization/test_gptq_marlin_24.py b/tests/models/quantization/test_gptq_marlin_24.py
index ce28f964d..6fb24b1f4 100644
--- a/tests/models/quantization/test_gptq_marlin_24.py
+++ b/tests/models/quantization/test_gptq_marlin_24.py
@@ -10,6 +10,7 @@ from dataclasses import dataclass
 import pytest
 
 from tests.quantization.utils import is_quant_method_supported
+from vllm.platforms import current_platform
 
 from ..utils import check_logprobs_close
 
@@ -38,7 +39,9 @@ model_pairs = [
 
 
 @pytest.mark.flaky(reruns=2)
-@pytest.mark.skipif(not is_quant_method_supported("gptq_marlin_24"),
+@pytest.mark.skipif(not is_quant_method_supported("gptq_marlin_24")
+                    or current_platform.is_rocm()
+                    or not current_platform.is_cuda(),
                     reason="Marlin24 is not supported on this GPU type.")
 @pytest.mark.parametrize("model_pair", model_pairs)
 @pytest.mark.parametrize("dtype", ["half"])
-- 
GitLab


From 60f76243344d2d3deca5e5ecdade547acc7fed50 Mon Sep 17 00:00:00 2001
From: Tao He <linzhu.ht@alibaba-inc.com>
Date: Tue, 13 May 2025 10:52:47 +0800
Subject: [PATCH 310/461] Implements dual-chunk-flash-attn backend for dual
 chunk attention with sparse attention support (#11844)

---
 CMakeLists.txt                                |    1 +
 csrc/attention/vertical_slash_index.cu        |  401 +++++
 csrc/ops.h                                    |   25 +
 csrc/torch_bindings.cpp                       |   23 +
 examples/offline_inference/qwen_1m.py         |   66 +
 vllm/_custom_ops.py                           |   95 ++
 .../backends/dual_chunk_flash_attn.py         | 1494 +++++++++++++++++
 vllm/config.py                                |   19 +
 vllm/engine/arg_utils.py                      |   15 +-
 .../model_executor/layers/rotary_embedding.py |  204 ++-
 .../model_loader/weight_utils.py              |   33 +
 vllm/model_executor/models/qwen2.py           |   56 +-
 vllm/model_executor/models/qwen2_moe.py       |   26 +-
 vllm/platforms/cuda.py                        |    4 +
 vllm/platforms/interface.py                   |    1 +
 vllm/utils.py                                 |    1 +
 vllm/worker/model_runner.py                   |   12 +
 17 files changed, 2444 insertions(+), 32 deletions(-)
 create mode 100644 csrc/attention/vertical_slash_index.cu
 create mode 100644 examples/offline_inference/qwen_1m.py
 create mode 100644 vllm/attention/backends/dual_chunk_flash_attn.py

diff --git a/CMakeLists.txt b/CMakeLists.txt
index 270c48000..fed6e11e5 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -230,6 +230,7 @@ set(VLLM_EXT_SRC
   "csrc/attention/paged_attention_v1.cu"
   "csrc/attention/paged_attention_v2.cu"
   "csrc/attention/merge_attn_states.cu"
+  "csrc/attention/vertical_slash_index.cu"
   "csrc/pos_encoding_kernels.cu"
   "csrc/activation_kernels.cu"
   "csrc/layernorm_kernels.cu"
diff --git a/csrc/attention/vertical_slash_index.cu b/csrc/attention/vertical_slash_index.cu
new file mode 100644
index 000000000..c1b45b143
--- /dev/null
+++ b/csrc/attention/vertical_slash_index.cu
@@ -0,0 +1,401 @@
+// Copyright (c) Microsoft Corporation.
+// Licensed under the MIT license.
+
+#include <assert.h>
+
+#include <cuda.h>
+
+#include <torch/all.h>
+
+__device__ int64_t save_blocks(int* block_offset, int64_t range_start,
+                               int64_t range_end, int64_t block_size,
+                               int64_t input_block_count, int64_t kv_seqlen) {
+  if (range_start >= kv_seqlen) {
+    return input_block_count;
+  }
+  if (range_end > kv_seqlen) {
+    range_end = kv_seqlen;
+  }
+  int64_t current_block_count = input_block_count;
+  for (int idx = range_start; idx < range_end; idx += block_size) {
+    block_offset[current_block_count++] = idx;
+  }
+  return current_block_count;
+}
+
+__global__ void convert_vertical_slash_indexes_kernel(
+    const int* q_seqlens,         // [BATCH, ]
+    const int* kv_seqlens,        // [BATCH, ]
+    const int* vertical_indexes,  // [BATCH, N_HEADS, NNZ_V]
+    const int* slash_indexes,     // [BATCH, N_HEADS, NNZ_S]
+    int* block_count,             // [BATCH, N_HEADS, cdiv(N_CTX, BLOCK_SIZE_M)]
+    int* block_offset,  // [BATCH, N_HEADS, cdiv(N_CTX, BLOCK_SIZE_M), NNZ_S]
+    int* column_count,  // [BATCH, N_HEADS, cdiv(N_CTX, BLOCK_SIZE_M)]
+    int* column_index,  // [BATCH, N_HEADS, cdiv(N_CTX, BLOCK_SIZE_M), NNZ_V]
+    int64_t N_HEADS, int64_t N_ROWS, int64_t BLOCK_SIZE_M, int64_t BLOCK_SIZE_N,
+    int64_t NNZ_V, int64_t NNZ_S,
+    bool causal  // True for intra, False for succ
+) {
+  const int batch_idx = blockIdx.y;
+  const int head_idx = blockIdx.x;
+  const int group_idx = blockIdx.z;
+
+  int64_t q_seqlen = q_seqlens[batch_idx];
+  int64_t kv_seqlen = kv_seqlens[batch_idx];
+  int64_t block_idx_m = group_idx * blockDim.x + threadIdx.x;
+  int64_t start_m = block_idx_m * BLOCK_SIZE_M;
+  if (start_m >= q_seqlen) {
+    return;
+  }
+  int64_t end_m = start_m + BLOCK_SIZE_M;
+  vertical_indexes += (batch_idx * N_HEADS + head_idx) * NNZ_V;
+  slash_indexes += (batch_idx * N_HEADS + head_idx) * NNZ_S;
+  int64_t row_offset = (batch_idx * N_HEADS + head_idx) * N_ROWS + block_idx_m;
+  block_count += row_offset;
+  block_offset += row_offset * NNZ_S;
+  column_count += row_offset;
+  column_index += row_offset * NNZ_V;
+
+  bool has_slash = true;
+  int64_t tmp_col_cnt = 0, tmp_blk_cnt = 0;
+  int64_t s = 0, v = 0;
+  int64_t v_idx = vertical_indexes[v++];
+  int64_t s_idx = slash_indexes[s++];
+  if (causal) {
+    while (s_idx >= end_m + (kv_seqlen - q_seqlen) && s < NNZ_S) {
+      s_idx = slash_indexes[s++];
+    }
+    if (s_idx > end_m + (kv_seqlen - q_seqlen)) has_slash = false;
+    s_idx = max((kv_seqlen - q_seqlen) + end_m - s_idx, BLOCK_SIZE_M);
+  } else {
+    while (s_idx >= end_m + kv_seqlen && s < NNZ_S) {
+      s_idx = slash_indexes[s++];
+    }
+    if (s_idx > end_m + kv_seqlen) has_slash = false;
+    s_idx = max(kv_seqlen + end_m - s_idx, BLOCK_SIZE_M);
+  }
+
+  int64_t range_start = s_idx - BLOCK_SIZE_M, range_end = s_idx;
+  if (!has_slash) {
+    if (causal) {
+      range_start = (kv_seqlen - q_seqlen) + end_m;
+      range_end = (kv_seqlen - q_seqlen) + end_m + BLOCK_SIZE_N;
+    } else {
+      range_start = kv_seqlen;
+      range_end = kv_seqlen + BLOCK_SIZE_N;
+    }
+  }
+
+  bool slash_finished = false;
+  while (1) {
+    if (v_idx < range_end) {
+      if (v_idx < range_start) {
+        column_index[tmp_col_cnt++] = v_idx;
+      }
+      if (v < NNZ_V) {
+        v_idx = vertical_indexes[v++];
+      } else {
+        if (causal)
+          v_idx = end_m + BLOCK_SIZE_N + (kv_seqlen - q_seqlen);
+        else
+          v_idx = end_m + BLOCK_SIZE_N + kv_seqlen;
+      }
+    } else {
+      if ((s < NNZ_S && causal) ||
+          (s < NNZ_S && !causal && slash_indexes[s] >= start_m)) {
+        if (causal)
+          s_idx = max((kv_seqlen - q_seqlen) + end_m - slash_indexes[s++],
+                      BLOCK_SIZE_M);
+        else
+          s_idx = max(kv_seqlen + end_m - slash_indexes[s++], BLOCK_SIZE_M);
+      } else {
+        if (v == NNZ_V || (v_idx > range_start && causal)) {
+          // add the last vertical if no more slash
+          if (v == NNZ_V && !causal && v_idx < kv_seqlen) {
+            column_index[tmp_col_cnt++] = v_idx;
+          }
+          tmp_blk_cnt = save_blocks(block_offset, range_start, range_end,
+                                    BLOCK_SIZE_N, tmp_blk_cnt, kv_seqlen);
+          break;
+        } else {
+          if (causal) {
+            range_start = (kv_seqlen - q_seqlen) + end_m;
+            range_end = (kv_seqlen - q_seqlen) + end_m + BLOCK_SIZE_N;
+          } else {
+            // if slash_finished but there are vertical left, save current
+            // blocks
+            tmp_blk_cnt = save_blocks(block_offset, range_start, range_end,
+                                      BLOCK_SIZE_N, tmp_blk_cnt, kv_seqlen);
+            range_start = kv_seqlen;
+            range_end = kv_seqlen + BLOCK_SIZE_N;
+          }
+          slash_finished = true;
+        }
+      }
+      if (!slash_finished) {
+        if (s_idx > range_end + BLOCK_SIZE_M) {
+          tmp_blk_cnt = save_blocks(block_offset, range_start, range_end,
+                                    BLOCK_SIZE_N, tmp_blk_cnt, kv_seqlen);
+          range_start = s_idx - BLOCK_SIZE_M;
+          range_end = s_idx;
+        } else if (s_idx > range_end) {
+          range_end += BLOCK_SIZE_M;
+        }
+      }
+    }
+  }
+
+  block_count[0] = tmp_blk_cnt;
+  column_count[0] = tmp_col_cnt;
+}
+
+void convert_vertical_slash_indexes_64x64(
+    const int* q_seqlens,         // [BATCH, ]
+    const int* kv_seqlens,        // [BATCH, ]
+    const int* vertical_indexes,  // [BATCH, N_HEADS, NNZ_V]
+    const int* slash_indexes,     // [BATCH, N_HEADS, NNZ_S]
+    int* block_count,             // [BATCH, N_HEADS, cdiv(N_CTX, BLOCK_SIZE_M)]
+    int* block_offset,  // [BATCH, N_HEADS, cdiv(N_CTX, BLOCK_SIZE_M), NNZ_S]
+    int* column_count,  // [BATCH, N_HEADS, cdiv(N_CTX, BLOCK_SIZE_M)]
+    int* column_index,  // [BATCH, N_HEADS, cdiv(N_CTX, BLOCK_SIZE_M), NNZ_V]
+    int64_t BATCH_SIZE, int64_t N_HEADS, int64_t N_ROWS, int64_t BLOCK_SIZE_M,
+    int64_t BLOCK_SIZE_N, int64_t NNZ_V, int64_t NNZ_S, bool causal) {
+  const int N_THREADS = 64;
+  const dim3 dimBlock(N_THREADS);
+  const dim3 dimGrid(N_HEADS, BATCH_SIZE, (N_ROWS + N_THREADS - 1) / N_THREADS);
+  convert_vertical_slash_indexes_kernel<<<dimGrid, dimBlock>>>(
+      q_seqlens, kv_seqlens, vertical_indexes, slash_indexes, block_count,
+      block_offset, column_count, column_index, N_HEADS, N_ROWS, BLOCK_SIZE_M,
+      BLOCK_SIZE_N, NNZ_V, NNZ_S, causal);
+}
+
+/**
+ * Implements the Algorithm 4 in paper https://arxiv.org/abs/2407.02490.
+ *
+ * This function builds the index of each row of blocks from vertical indices
+ * and slash indices. The vertical indices are treated as points, while the
+ * slash indices are converted as ranges. The output consists of the merged
+ * ranges and separate column indices, where the ranges are represented by
+ * block indices.
+ *
+ * The implementation is referenced from the original MInference repo:
+ * https://github.com/microsoft/MInference/blob/main/csrc/vertical_slash_index.cu.
+ */
+void convert_vertical_slash_indexes(
+    torch::Tensor& block_count,      // [BATCH, N_HEADS, NUM_ROWS]
+    torch::Tensor& block_offset,     // [BATCH, N_HEADS, NUM_ROWS, NNZ_S]
+    torch::Tensor& column_count,     // [BATCH, N_HEADS, NUM_ROWS]
+    torch::Tensor& column_index,     // [BATCH, N_HEADS, NUM_ROWS, NNZ_V]
+    torch::Tensor q_seqlens,         // [BATCH, ]
+    torch::Tensor kv_seqlens,        // [BATCH, ]
+    torch::Tensor vertical_indexes,  // [BATCH, N_HEADS, NNZ_V]
+    torch::Tensor slash_indexes,     // [BATCH, N_HEADS, NNZ_S]
+    int64_t context_size, int64_t block_size_M, int64_t block_size_N,
+    bool causal) {
+  cudaSetDevice(q_seqlens.get_device());
+
+  int batch_size = slash_indexes.size(0);
+  int num_heads = slash_indexes.size(1);
+  int nnz_slash = slash_indexes.size(2);
+  int nnz_vertical = vertical_indexes.size(2);
+  int num_rows = (context_size + block_size_M - 1) / block_size_M;
+
+  convert_vertical_slash_indexes_64x64(
+      q_seqlens.data_ptr<int>(), kv_seqlens.data_ptr<int>(),
+      vertical_indexes.data_ptr<int>(), slash_indexes.data_ptr<int>(),
+      block_count.data_ptr<int>(), block_offset.data_ptr<int>(),
+      column_count.data_ptr<int>(), column_index.data_ptr<int>(), batch_size,
+      num_heads, num_rows, block_size_M, block_size_N, nnz_vertical, nnz_slash,
+      causal);
+}
+
+__global__ void convert_vertical_slash_indexes_kernel_mergehead(
+    const int* q_seqlens,         // [BATCH, ]
+    const int* kv_seqlens,        // [BATCH, ]
+    const int* vertical_indexes,  // [BATCH, N_HEADS, NNZ_V]
+    const int* slash_indexes,     // [BATCH, N_HEADS, NNZ_S]
+    const int* per_head_vertical_topkv, const int* per_head_slash_topkv,
+    int* block_count,   // [BATCH, N_HEADS, cdiv(N_CTX, BLOCK_SIZE_M)]
+    int* block_offset,  // [BATCH, N_HEADS, cdiv(N_CTX, BLOCK_SIZE_M), NNZ_S]
+    int* column_count,  // [BATCH, N_HEADS, cdiv(N_CTX, BLOCK_SIZE_M)]
+    int* column_index,  // [BATCH, N_HEADS, cdiv(N_CTX, BLOCK_SIZE_M), NNZ_V]
+    int64_t N_HEADS, int64_t N_ROWS, int64_t BLOCK_SIZE_M, int64_t BLOCK_SIZE_N,
+    int64_t NNZ_V, int64_t NNZ_S,
+    bool causal  // True for intra, False for succ
+) {
+  const int batch_idx = blockIdx.y;
+  const int head_idx = blockIdx.x;
+  const int group_idx = blockIdx.z;
+
+  int64_t q_seqlen = q_seqlens[batch_idx];
+  int64_t kv_seqlen = kv_seqlens[batch_idx];
+  int64_t block_idx_m = group_idx * blockDim.x + threadIdx.x;
+  int64_t start_m = block_idx_m * BLOCK_SIZE_M;
+  if (start_m >= q_seqlen) {
+    return;
+  }
+  int64_t end_m = start_m + BLOCK_SIZE_M;
+  vertical_indexes += (batch_idx * N_HEADS + head_idx) * NNZ_V;
+  slash_indexes += (batch_idx * N_HEADS + head_idx) * NNZ_S;
+  int64_t row_offset = (batch_idx * N_HEADS + head_idx) * N_ROWS + block_idx_m;
+  block_count += row_offset;
+  block_offset += row_offset * NNZ_S;
+  column_count += row_offset;
+  column_index += row_offset * NNZ_V;
+
+  // MergeHead: each head has it's unique max topk NNZ_V，NNZ_S. (NNZ_V，NNZ_S
+  // above is buffer size, use to compute offset)
+  NNZ_S = per_head_slash_topkv[head_idx];
+  NNZ_V = per_head_vertical_topkv[head_idx];
+
+  bool has_slash = true;
+  int64_t tmp_col_cnt = 0, tmp_blk_cnt = 0;
+  int64_t s = 0, v = 0;
+  int64_t v_idx = vertical_indexes[v++];
+  int64_t s_idx = slash_indexes[s++];
+  if (causal) {
+    while (s_idx >= end_m + (kv_seqlen - q_seqlen) && s < NNZ_S) {
+      s_idx = slash_indexes[s++];
+    }
+    if (s_idx > end_m + (kv_seqlen - q_seqlen)) has_slash = false;
+    s_idx = max((kv_seqlen - q_seqlen) + end_m - s_idx, BLOCK_SIZE_M);
+  } else {
+    while (s_idx >= end_m + kv_seqlen && s < NNZ_S) {
+      s_idx = slash_indexes[s++];
+    }
+    if (s_idx > end_m + kv_seqlen) has_slash = false;
+    s_idx = max(kv_seqlen + end_m - s_idx, BLOCK_SIZE_M);
+  }
+
+  int64_t range_start = s_idx - BLOCK_SIZE_M, range_end = s_idx;
+  if (!has_slash) {
+    if (causal) {
+      range_start = (kv_seqlen - q_seqlen) + end_m;
+      range_end = (kv_seqlen - q_seqlen) + end_m + BLOCK_SIZE_N;
+    } else {
+      range_start = kv_seqlen;
+      range_end = kv_seqlen + BLOCK_SIZE_N;
+    }
+  }
+
+  bool slash_finished = false;
+  while (1) {
+    if (v_idx < range_end) {
+      if (v_idx < range_start) {
+        column_index[tmp_col_cnt++] = v_idx;
+      }
+      if (v < NNZ_V) {
+        v_idx = vertical_indexes[v++];
+      } else {
+        if (causal)
+          v_idx = end_m + BLOCK_SIZE_N + (kv_seqlen - q_seqlen);
+        else
+          v_idx = end_m + BLOCK_SIZE_N + kv_seqlen;
+      }
+    } else {
+      if ((s < NNZ_S && causal) ||
+          (s < NNZ_S && !causal && slash_indexes[s] >= start_m)) {
+        if (causal)
+          s_idx = max((kv_seqlen - q_seqlen) + end_m - slash_indexes[s++],
+                      BLOCK_SIZE_M);
+        else
+          s_idx = max(kv_seqlen + end_m - slash_indexes[s++], BLOCK_SIZE_M);
+      } else {
+        if (v == NNZ_V || (v_idx > range_start && causal)) {
+          // add the last vertical if no more slash
+          if (v == NNZ_V && !causal && v_idx < kv_seqlen) {
+            column_index[tmp_col_cnt++] = v_idx;
+          }
+          tmp_blk_cnt = save_blocks(block_offset, range_start, range_end,
+                                    BLOCK_SIZE_N, tmp_blk_cnt, kv_seqlen);
+          break;
+        } else {
+          if (causal) {
+            range_start = (kv_seqlen - q_seqlen) + end_m;
+            range_end = (kv_seqlen - q_seqlen) + end_m + BLOCK_SIZE_N;
+          } else {
+            // if slash_finished but there are vertical left, save current
+            // blocks
+            tmp_blk_cnt = save_blocks(block_offset, range_start, range_end,
+                                      BLOCK_SIZE_N, tmp_blk_cnt, kv_seqlen);
+            range_start = kv_seqlen;
+            range_end = kv_seqlen + BLOCK_SIZE_N;
+          }
+          slash_finished = true;
+        }
+      }
+      if (!slash_finished) {
+        if (s_idx > range_end + BLOCK_SIZE_M) {
+          tmp_blk_cnt = save_blocks(block_offset, range_start, range_end,
+                                    BLOCK_SIZE_N, tmp_blk_cnt, kv_seqlen);
+          range_start = s_idx - BLOCK_SIZE_M;
+          range_end = s_idx;
+        } else if (s_idx > range_end) {
+          range_end += BLOCK_SIZE_M;
+        }
+      }
+    }
+  }
+
+  block_count[0] = tmp_blk_cnt;
+  column_count[0] = tmp_col_cnt;
+}
+
+void convert_vertical_slash_indexes_64x64_mergehead(
+    const int* q_seqlens,         // [BATCH, ]
+    const int* kv_seqlens,        // [BATCH, ]
+    const int* vertical_indexes,  // [BATCH, N_HEADS, NNZ_V]
+    const int* slash_indexes,     // [BATCH, N_HEADS, NNZ_S]
+    int* per_head_vertical_topkv, int* per_head_slash_topkv,
+    int* block_count,   // [BATCH, N_HEADS, cdiv(N_CTX, BLOCK_SIZE_M)]
+    int* block_offset,  // [BATCH, N_HEADS, cdiv(N_CTX, BLOCK_SIZE_M), NNZ_S]
+    int* column_count,  // [BATCH, N_HEADS, cdiv(N_CTX, BLOCK_SIZE_M)]
+    int* column_index,  // [BATCH, N_HEADS, cdiv(N_CTX, BLOCK_SIZE_M), NNZ_V]
+    int64_t BATCH_SIZE, int64_t N_HEADS, int64_t N_ROWS, int64_t BLOCK_SIZE_M,
+    int64_t BLOCK_SIZE_N, int64_t NNZ_V, int64_t NNZ_S, bool causal) {
+  const int N_THREADS = 64;
+  const dim3 dimBlock(N_THREADS);
+  const dim3 dimGrid(N_HEADS, BATCH_SIZE, (N_ROWS + N_THREADS - 1) / N_THREADS);
+  convert_vertical_slash_indexes_kernel_mergehead<<<dimGrid, dimBlock>>>(
+      q_seqlens, kv_seqlens, vertical_indexes, slash_indexes,
+      per_head_vertical_topkv, per_head_slash_topkv, block_count, block_offset,
+      column_count, column_index, N_HEADS, N_ROWS, BLOCK_SIZE_M, BLOCK_SIZE_N,
+      NNZ_V, NNZ_S, causal);
+}
+
+/**
+ * Implements the Algorithm 4 in paper https://arxiv.org/abs/2407.02490.
+ *
+ * Like the above convert_vertical_slash_indexes, but with
+ * pre-computed vertical and slash counts.
+ */
+void convert_vertical_slash_indexes_mergehead(
+    torch::Tensor& block_count,            // [BATCH, N_HEADS, NUM_ROWS]
+    torch::Tensor& block_offset,           // [BATCH, N_HEADS, NUM_ROWS, NNZ_S]
+    torch::Tensor& column_count,           // [BATCH, N_HEADS, NUM_ROWS]
+    torch::Tensor& column_index,           // [BATCH, N_HEADS, NUM_ROWS, NNZ_V]
+    torch::Tensor q_seqlens,               // [BATCH, ]
+    torch::Tensor kv_seqlens,              // [BATCH, ]
+    torch::Tensor vertical_indexes,        // [BATCH, N_HEADS, NNZ_V]
+    torch::Tensor slash_indexes,           // [BATCH, N_HEADS, NNZ_S]
+    torch::Tensor vertical_indices_count,  // [N_HEADS, ]
+    torch::Tensor slash_indices_count,     // [N_HEADS, ]
+    int64_t context_size, int64_t block_size_M, int64_t block_size_N,
+    bool causal) {
+  cudaSetDevice(q_seqlens.get_device());
+
+  int batch_size = slash_indexes.size(0);
+  int num_heads = slash_indexes.size(1);
+  int nnz_slash = slash_indexes.size(2);
+  int nnz_vertical = vertical_indexes.size(2);
+  int num_rows = (context_size + block_size_M - 1) / block_size_M;
+
+  convert_vertical_slash_indexes_64x64_mergehead(
+      q_seqlens.data_ptr<int>(), kv_seqlens.data_ptr<int>(),
+      vertical_indexes.data_ptr<int>(), slash_indexes.data_ptr<int>(),
+      vertical_indices_count.data_ptr<int>(),
+      slash_indices_count.data_ptr<int>(), block_count.data_ptr<int>(),
+      block_offset.data_ptr<int>(), column_count.data_ptr<int>(),
+      column_index.data_ptr<int>(), batch_size, num_heads, num_rows,
+      block_size_M, block_size_N, nnz_vertical, nnz_slash, causal);
+}
diff --git a/csrc/ops.h b/csrc/ops.h
index 21c5a9e29..7044b4588 100644
--- a/csrc/ops.h
+++ b/csrc/ops.h
@@ -59,6 +59,31 @@ void merge_attn_states(torch::Tensor& output,
                        const torch::Tensor& prefix_lse,
                        const torch::Tensor& suffix_output,
                        const torch::Tensor& suffix_lse);
+
+void convert_vertical_slash_indexes(
+    torch::Tensor& block_count,      // [BATCH, N_HEADS, NUM_ROWS]
+    torch::Tensor& block_offset,     // [BATCH, N_HEADS, NUM_ROWS, NNZ_S]
+    torch::Tensor& column_count,     // [BATCH, N_HEADS, NUM_ROWS]
+    torch::Tensor& column_index,     // [BATCH, N_HEADS, NUM_ROWS, NNZ_V]
+    torch::Tensor q_seqlens,         // [BATCH, ]
+    torch::Tensor kv_seqlens,        // [BATCH, ]
+    torch::Tensor vertical_indexes,  // [BATCH, N_HEADS, NNZ_V]
+    torch::Tensor slash_indexes,     // [BATCH, N_HEADS, NNZ_S]
+    int64_t context_size, int64_t block_size_M, int64_t block_size_N,
+    bool causal);
+
+void convert_vertical_slash_indexes_mergehead(
+    torch::Tensor& block_count,            // [BATCH, N_HEADS, NUM_ROWS]
+    torch::Tensor& block_offset,           // [BATCH, N_HEADS, NUM_ROWS, NNZ_S]
+    torch::Tensor& column_count,           // [BATCH, N_HEADS, NUM_ROWS]
+    torch::Tensor& column_index,           // [BATCH, N_HEADS, NUM_ROWS, NNZ_V]
+    torch::Tensor q_seqlens,               // [BATCH, ]
+    torch::Tensor kv_seqlens,              // [BATCH, ]
+    torch::Tensor vertical_indexes,        // [BATCH, N_HEADS, NNZ_V]
+    torch::Tensor slash_indexes,           // [BATCH, N_HEADS, NNZ_S]
+    torch::Tensor vertical_indices_count,  // [N_HEADS, ]
+    torch::Tensor slash_indices_count, int64_t context_size,
+    int64_t block_size_M, int64_t block_size_N, bool causal);
 #endif
 
 void rms_norm(torch::Tensor& out, torch::Tensor& input, torch::Tensor& weight,
diff --git a/csrc/torch_bindings.cpp b/csrc/torch_bindings.cpp
index 2430641ea..4eda1aacc 100644
--- a/csrc/torch_bindings.cpp
+++ b/csrc/torch_bindings.cpp
@@ -77,6 +77,29 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
       "    Tensor suffix_output,"
       "    Tensor suffix_lse) -> ()");
   ops.impl("merge_attn_states", torch::kCUDA, &merge_attn_states);
+
+  ops.def(
+      "convert_vertical_slash_indexes("
+      "   Tensor! block_count, Tensor! block_offset, "
+      "   Tensor! column_count, Tensor! column_index, "
+      "   Tensor q_seqlens, Tensor q_seqlens, "
+      "   Tensor vertical_indexes, Tensor slash_indexes, "
+      "   int context_size, int block_size_M, int block_size_N, "
+      "   bool causal) -> ()");
+  ops.impl("convert_vertical_slash_indexes", torch::kCUDA,
+           &convert_vertical_slash_indexes);
+
+  ops.def(
+      "convert_vertical_slash_indexes_mergehead("
+      "   Tensor! block_count, Tensor! block_offset, "
+      "   Tensor! column_count, Tensor! column_index, "
+      "   Tensor q_seqlens, Tensor q_seqlens, "
+      "   Tensor vertical_indexes, Tensor slash_indexes, "
+      "   Tensor vertical_indices_count, Tensor slash_indices_count, "
+      "   int context_size, int block_size_M, int block_size_N, "
+      "   bool causal) -> ()");
+  ops.impl("convert_vertical_slash_indexes_mergehead", torch::kCUDA,
+           &convert_vertical_slash_indexes_mergehead);
 #endif
 
   // Activation ops
diff --git a/examples/offline_inference/qwen_1m.py b/examples/offline_inference/qwen_1m.py
new file mode 100644
index 000000000..64a1f4c54
--- /dev/null
+++ b/examples/offline_inference/qwen_1m.py
@@ -0,0 +1,66 @@
+# SPDX-License-Identifier: Apache-2.0
+import os
+from urllib.request import urlopen
+
+from vllm import LLM, SamplingParams
+
+os.environ["VLLM_ATTENTION_BACKEND"] = "DUAL_CHUNK_FLASH_ATTN"
+os.environ["VLLM_ALLOW_LONG_MAX_MODEL_LEN"] = "1"
+
+
+def load_prompt() -> str:
+    # Test cases with various lengths can be found at:
+    #
+    # https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/test-data/64k.txt
+    # https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/test-data/200k.txt
+    # https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/test-data/600k.txt
+    # https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/test-data/1m.txt
+
+    with urlopen(
+            "https://qianwen-res.oss-cn-beijing.aliyuncs.com"
+            "/Qwen2.5-1M/test-data/600k.txt",
+            timeout=5) as response:
+        prompt = response.read().decode('utf-8')
+    return prompt
+
+
+# Processing the prompt.
+def process_requests(llm: LLM, prompts: list[str]) -> None:
+    # Create a sampling params object.
+    sampling_params = SamplingParams(
+        temperature=0.7,
+        top_p=0.8,
+        top_k=20,
+        repetition_penalty=1.05,
+        detokenize=True,
+        max_tokens=256,
+    )
+    # Generate texts from the prompts.
+    outputs = llm.generate(prompts, sampling_params)
+    # Print the outputs.
+    for output in outputs:
+        prompt_token_ids = output.prompt_token_ids
+        generated_text = output.outputs[0].text
+        print(f"Prompt length: {len(prompt_token_ids)}, "
+              f"Generated text: {generated_text!r}")
+
+
+# Create an LLM.
+def initialize_engine() -> LLM:
+    llm = LLM(model="Qwen/Qwen2.5-7B-Instruct-1M",
+              max_model_len=1048576,
+              tensor_parallel_size=4,
+              enforce_eager=True,
+              enable_chunked_prefill=True,
+              max_num_batched_tokens=131072)
+    return llm
+
+
+def main():
+    llm = initialize_engine()
+    prompt = load_prompt()
+    process_requests(llm, [prompt])
+
+
+if __name__ == '__main__':
+    main()
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index 9d920b644..c81300db5 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -150,6 +150,101 @@ def merge_attn_states(output: torch.Tensor,
                                    prefix_lse, suffix_output, suffix_lse)
 
 
+def convert_vertical_slash_indexes(
+    q_seqlens: torch.Tensor,  # [BATCH, ]
+    kv_seqlens: torch.Tensor,  # [BATCH, ]
+    vertical_indexes: torch.Tensor,  # [BATCH, N_HEADS, NNZ_V]
+    slash_indexes: torch.Tensor,  # [BATCH, N_HEADS, NNZ_S]
+    context_size: int,
+    block_size_M: int,
+    block_size_N: int,
+    causal: bool = True,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+    batch_size = slash_indexes.size(0)
+    num_heads = slash_indexes.size(1)
+    nnz_slash = slash_indexes.size(2)
+    nnz_vertical = vertical_indexes.size(2)
+    num_rows = (context_size + block_size_M - 1) // block_size_M
+
+    block_count = torch.zeros(batch_size,
+                              num_heads,
+                              num_rows,
+                              dtype=q_seqlens.dtype,
+                              device=q_seqlens.device)
+    block_offset = torch.zeros(batch_size,
+                               num_heads,
+                               num_rows,
+                               nnz_slash,
+                               dtype=q_seqlens.dtype,
+                               device=q_seqlens.device)
+    column_count = torch.zeros(batch_size,
+                               num_heads,
+                               num_rows,
+                               dtype=q_seqlens.dtype,
+                               device=q_seqlens.device)
+    column_index = torch.zeros(batch_size,
+                               num_heads,
+                               num_rows,
+                               nnz_vertical,
+                               dtype=q_seqlens.dtype,
+                               device=q_seqlens.device)
+
+    torch.ops._C.convert_vertical_slash_indexes(
+        block_count, block_offset, column_count, column_index, q_seqlens,
+        kv_seqlens, vertical_indexes, slash_indexes, context_size,
+        block_size_M, block_size_N, causal)
+    return block_count, block_offset, column_count, column_index
+
+
+def convert_vertical_slash_indexes_mergehead(
+    q_seqlens: torch.Tensor,  # [BATCH, ]
+    kv_seqlens: torch.Tensor,  # [BATCH, ]
+    vertical_indexes: torch.Tensor,  # [BATCH, N_HEADS, NNZ_V]
+    slash_indexes: torch.Tensor,  # [BATCH, N_HEADS, NNZ_S]
+    # [N_HEADS] : different head use different number of indices
+    vertical_indices_count: torch.Tensor,
+    slash_indices_count: torch.Tensor,
+    context_size: int,
+    block_size_M: int,
+    block_size_N: int,
+    causal: bool = True,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+    batch_size = slash_indexes.size(0)
+    num_heads = slash_indexes.size(1)
+    nnz_slash = slash_indexes.size(2)
+    nnz_vertical = vertical_indexes.size(2)
+    num_rows = (context_size + block_size_M - 1) // block_size_M
+
+    block_count = torch.empty(batch_size,
+                              num_heads,
+                              num_rows,
+                              dtype=q_seqlens.dtype,
+                              device=q_seqlens.device)
+    block_offset = torch.empty(batch_size,
+                               num_heads,
+                               num_rows,
+                               nnz_slash,
+                               dtype=q_seqlens.dtype,
+                               device=q_seqlens.device)
+    column_count = torch.empty(batch_size,
+                               num_heads,
+                               num_rows,
+                               dtype=q_seqlens.dtype,
+                               device=q_seqlens.device)
+    column_index = torch.empty(batch_size,
+                               num_heads,
+                               num_rows,
+                               nnz_vertical,
+                               dtype=q_seqlens.dtype,
+                               device=q_seqlens.device)
+
+    torch.ops._C.convert_vertical_slash_indexes_mergehead(
+        block_count, block_offset, column_count, column_index, q_seqlens,
+        kv_seqlens, vertical_indexes, slash_indexes, vertical_indices_count,
+        slash_indices_count, context_size, block_size_M, block_size_N, causal)
+    return block_count, block_offset, column_count, column_index
+
+
 # pos encoding ops
 def rotary_embedding(
     positions: torch.Tensor,
diff --git a/vllm/attention/backends/dual_chunk_flash_attn.py b/vllm/attention/backends/dual_chunk_flash_attn.py
new file mode 100644
index 000000000..eceab1f1a
--- /dev/null
+++ b/vllm/attention/backends/dual_chunk_flash_attn.py
@@ -0,0 +1,1494 @@
+# SPDX-License-Identifier: Apache-2.0
+"""Attention layer with Dual chunk flash attention and sparse attention.
+"""
+import math
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Any, Dict, List, Optional, Tuple, Type
+
+import torch
+import torch.distributed
+import torch.nn.functional as F
+
+from vllm import _custom_ops as ops
+from vllm.attention.backends.abstract import AttentionLayer, AttentionType
+from vllm.attention.backends.flash_attn import (FlashAttentionBackend,
+                                                FlashAttentionImpl,
+                                                FlashAttentionMetadata,
+                                                FlashAttentionMetadataBuilder)
+from vllm.distributed.parallel_state import get_tensor_model_parallel_rank
+from vllm.logger import init_logger
+from vllm.utils import async_tensor_h2d
+from vllm.vllm_flash_attn import (flash_attn_varlen_func,
+                                  flash_attn_with_kvcache, sparse_attn_func)
+
+if TYPE_CHECKING:
+    from vllm.worker.model_runner import ModelInputForGPUBuilder
+
+logger = init_logger(__name__)
+
+
+class DualChunkFlashAttentionBackend(FlashAttentionBackend):
+
+    accept_output_buffer: bool = False
+
+    @staticmethod
+    def get_name() -> str:
+        return "DUAL_CHUNK_FLASH_ATTN"
+
+    @staticmethod
+    def get_impl_cls() -> Type["DualChunkFlashAttentionImpl"]:
+        return DualChunkFlashAttentionImpl
+
+    @staticmethod
+    def get_metadata_cls() -> Type["DualChunkFlashAttentionMetadata"]:
+        return DualChunkFlashAttentionMetadata
+
+    @staticmethod
+    def get_builder_cls() -> Type["DualChunkFlashAttentionMetadataBuilder"]:
+        return DualChunkFlashAttentionMetadataBuilder
+
+
+@dataclass
+class DualChunkFlashAttentionMetadata(FlashAttentionMetadata):
+    # Block size of the paged kv cache.
+    block_size: int = 16
+
+    # Original max position embeddings.
+    original_max_position_embeddings: int = 0
+
+    # Chunk size
+    chunk_size: int = 8192
+
+    # Local size
+    local_size: int = 1024
+
+    # (batch_size,). The orig sequence length per sequence.
+    orig_seq_lens: Optional[List[int]] = None
+
+    # orig_seq_lens stored as a tensor.
+    orig_seq_lens_tensor: Optional[torch.Tensor] = None
+
+    # Length scaling factor
+    scaling_factor: Optional[torch.Tensor] = None
+
+    # (batch_size,). Sequence lengths for intra attention.
+    seq_lens_intra: Optional[torch.Tensor] = None
+
+    # Max sequence length for intra attention.
+    max_seq_len_intra: Optional[int] = None
+
+    # (batch_size, num_blocks). Block table for intra attention.
+    block_tables_intra: Optional[torch.Tensor] = None
+
+    # (batch_size,). Sequence lengths for succ attention.
+    seq_lens_succ: Optional[torch.Tensor] = None
+
+    # Max sequence length for succ attention.
+    max_seq_len_succ: Optional[int] = None
+
+    # (batch_size, num_blocks). Block table for succ attention.
+    block_tables_succ: Optional[torch.Tensor] = None
+
+    # (batch_size,). Sequence lengths for inter attention.
+    seq_lens_inter: Optional[torch.Tensor] = None
+
+    # Max sequence length for inter attention.
+    max_seq_len_inter: Optional[int] = None
+
+    _cached_prefill_metadata: Optional[
+        "DualChunkFlashAttentionMetadata"] = None
+    _cached_decode_metadata: Optional["DualChunkFlashAttentionMetadata"] = None
+
+    @property
+    def prefill_metadata(self) -> Optional["DualChunkFlashAttentionMetadata"]:
+        if self.num_prefills == 0:
+            return None
+
+        if self._cached_prefill_metadata is not None:
+            return self._cached_prefill_metadata
+
+        prefill_metadata = super().prefill_metadata
+        if prefill_metadata is None:
+            return None
+
+        prefill_metadata = DualChunkFlashAttentionMetadata(
+            **prefill_metadata.asdict_zerocopy())
+
+        prefill_metadata.orig_seq_lens = (
+            None if self.orig_seq_lens is None else
+            self.orig_seq_lens[:self.num_prefills])
+        prefill_metadata.orig_seq_lens_tensor = (
+            None if self.orig_seq_lens_tensor is None else
+            self.orig_seq_lens_tensor[:self.num_prefills])
+
+        if self.original_max_position_embeddings > 0:
+            assert prefill_metadata.orig_seq_lens_tensor is not None
+            prefill_metadata.scaling_factor = (
+                0.1 * torch.log(prefill_metadata.orig_seq_lens_tensor /
+                                self.original_max_position_embeddings) +
+                1.0).clip(min=1)
+
+        self._cached_prefill_metadata = prefill_metadata
+        return prefill_metadata
+
+    @property
+    def decode_metadata(self) -> Optional["DualChunkFlashAttentionMetadata"]:
+        if self.num_decode_tokens == 0:
+            return None
+
+        if self._cached_decode_metadata is not None:
+            return self._cached_decode_metadata
+
+        decode_metadata = super().decode_metadata
+        if decode_metadata is None:
+            return None
+
+        decode_metadata = DualChunkFlashAttentionMetadata(
+            **decode_metadata.asdict_zerocopy())
+
+        decode_metadata.orig_seq_lens_tensor = (
+            None if self.orig_seq_lens_tensor is None else
+            self.orig_seq_lens_tensor[self.num_prefills:])
+
+        assert decode_metadata.orig_seq_lens_tensor is not None
+        assert decode_metadata.block_tables is not None
+
+        cache_seq_lens = decode_metadata.orig_seq_lens_tensor
+        chunk_len = self.chunk_size - self.local_size
+        chunk_num_curr = (cache_seq_lens - 1) // chunk_len
+        batch_size = decode_metadata.num_decode_tokens
+
+        if self.original_max_position_embeddings > 0:
+            decode_metadata.scaling_factor = (0.1 * torch.log(
+                cache_seq_lens / self.original_max_position_embeddings) +
+                                              1.0).clip(min=1)
+
+        seq_lens_intra = cache_seq_lens - chunk_num_curr * chunk_len
+        max_seq_len_intra = seq_lens_intra.max().item()
+        decode_metadata.seq_lens_intra = seq_lens_intra
+        decode_metadata.max_seq_len_intra = max_seq_len_intra
+
+        block_tables_intra = torch.zeros(
+            batch_size,
+            (max_seq_len_intra - 1) // self.block_size + 1,
+            dtype=decode_metadata.block_tables.dtype,
+            device=decode_metadata.block_tables.device,
+        )
+        for i in range(batch_size):
+            st = chunk_num_curr[i] * chunk_len // self.block_size
+            ed = min(
+                st + (max_seq_len_intra - 1) // self.block_size + 1,
+                (cache_seq_lens[i] - 1) // self.block_size + 1,
+            )
+            block_tables_intra[i, :ed -
+                               st] = decode_metadata.block_tables[i, st:ed]
+        decode_metadata.block_tables_intra = block_tables_intra
+
+        seq_lens_succ = (chunk_num_curr -
+                         (chunk_num_curr - 1).clip(min=0)) * chunk_len
+        max_seq_len_succ = seq_lens_succ.max().item()
+        decode_metadata.seq_lens_succ = seq_lens_succ
+        decode_metadata.max_seq_len_succ = max_seq_len_succ
+        if max_seq_len_succ:
+            block_tables_succ = torch.zeros(
+                batch_size,
+                (max_seq_len_succ - 1) // self.block_size + 1,
+                dtype=decode_metadata.block_tables.dtype,
+                device=decode_metadata.block_tables.device,
+            )
+            for i in range(batch_size):
+                start = ((chunk_num_curr[i] - 1).clip(min=0) * chunk_len //
+                         self.block_size)
+                end = min(
+                    start + (max_seq_len_succ - 1) // self.block_size + 1,
+                    (cache_seq_lens[i] - 1) // self.block_size + 1,
+                )
+                block_tables_succ[
+                    i, :end - start] = decode_metadata.block_tables[i,
+                                                                    start:end]
+            decode_metadata.block_tables_succ = block_tables_succ
+
+        seq_lens_inter = (chunk_num_curr - 1).clip(min=0) * chunk_len
+        max_seq_len_inter = seq_lens_inter.max().item()
+        decode_metadata.seq_lens_inter = seq_lens_inter
+        decode_metadata.max_seq_len_inter = max_seq_len_inter
+
+        self._cached_decode_metadata = decode_metadata
+        return decode_metadata
+
+
+class DualChunkFlashAttentionMetadataBuilder(FlashAttentionMetadataBuilder):
+
+    def prepare(self):
+        super().prepare()
+        self.orig_seq_lens: List[int] = []
+
+    def _add_seq_group(
+            self, inter_data: "ModelInputForGPUBuilder.InterDataForSeqGroup",
+            chunked_prefill_enabled: bool, prefix_cache_hit: bool):
+        super()._add_seq_group(inter_data, chunked_prefill_enabled,
+                               prefix_cache_hit)
+        for prompt_len, seq_len in zip(inter_data.prompt_lens,
+                                       inter_data.seq_lens):
+            self.orig_seq_lens.append(max(prompt_len, seq_len))
+
+    def build(self, seq_lens: List[int], query_lens: List[int],
+              cuda_graph_pad_size: int, batch_size: int):
+        attn_metadata = super().build(seq_lens, query_lens,
+                                      cuda_graph_pad_size, batch_size)
+        attn_metadata = DualChunkFlashAttentionMetadata(
+            **attn_metadata.asdict_zerocopy())
+
+        device = self.runner.device
+        attn_metadata.orig_seq_lens = self.orig_seq_lens
+        attn_metadata.orig_seq_lens_tensor = async_tensor_h2d(
+            self.orig_seq_lens, torch.int, device, self.runner.pin_memory)
+
+        attn_metadata.block_size = self.runner.block_size
+        dual_chunk_attn_config = getattr(self.runner.model_config.hf_config,
+                                         "dual_chunk_attention_config", {})
+        attn_metadata.original_max_position_embeddings = \
+            dual_chunk_attn_config.get("original_max_position_embeddings", 0)
+        attn_metadata.chunk_size = dual_chunk_attn_config.get(
+            "chunk_size", 8192)
+        attn_metadata.local_size = dual_chunk_attn_config.get(
+            "local_size", 1024)
+
+        return attn_metadata
+
+
+class DualChunkFlashAttentionImpl(FlashAttentionImpl):
+    """
+    If the input tensors contain prompt tokens, the layout is as follows:
+    |<--------------- num_prefill_tokens ----------------->|
+    |<--prefill_0-->|<--prefill_1-->|...|<--prefill_N-1--->|
+    Otherwise, the layout is as follows:
+    |<----------------- num_decode_tokens ------------------>|
+    |<--decode_0-->|..........|<--decode_M-1-->|<--padding-->|
+    Generation tokens can contain padding when cuda-graph is used.
+    Currently, prompt tokens don't contain any padding.
+    The prompts might have different lengths, while the generation tokens
+    always have length 1.
+    If chunked prefill is enabled, prefill tokens and decode tokens can be
+    batched together in a flattened 1D query.
+    |<----- num_prefill_tokens ---->|<------- num_decode_tokens --------->|
+    |<-prefill_0->|...|<-prefill_N-1->|<--decode_0-->|...|<--decode_M-1-->|
+    Currently, cuda graph is disabled for chunked prefill, meaning there's no
+    padding between prefill and decode tokens.
+    """
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: Optional[List[float]],
+        sliding_window: Optional[int],
+        kv_cache_dtype: str,
+        blocksparse_params: Optional[Dict[str, Any]] = None,
+        logits_soft_cap: Optional[float] = None,
+        attn_type: str = AttentionType.DECODER,
+        layer_idx: int = -1,
+        dual_chunk_attention_config: Optional[Dict[str, Any]] = None,
+    ) -> None:
+        self.num_heads = num_heads
+        self.head_size = head_size
+        self.scale = float(scale)
+        self.num_kv_heads = num_kv_heads
+        if alibi_slopes is not None:
+            alibi_slopes = torch.tensor(alibi_slopes, dtype=torch.float32)
+        self.alibi_slopes = alibi_slopes
+        self.sliding_window = ((sliding_window, sliding_window)
+                               if sliding_window is not None else (-1, -1))
+        self.kv_cache_dtype = kv_cache_dtype
+
+        assert self.num_heads % self.num_kv_heads == 0
+        self.num_queries_per_kv = self.num_heads // self.num_kv_heads
+        if sliding_window is not None:
+            # NOTE(woosuk): flash-attn's sliding window does not work with
+            # paged KV cache.
+            raise ValueError(
+                "Sliding window is not supported in FlashAttention.")
+
+        support_head_sizes = (
+            DualChunkFlashAttentionBackend.get_supported_head_sizes())
+
+        if head_size not in support_head_sizes:
+            raise ValueError(
+                f"Head size {head_size} is not supported by FlashAttention. "
+                f"Supported head sizes are: {support_head_sizes}.")
+
+        assert dual_chunk_attention_config is not None
+        self.chunk_size = dual_chunk_attention_config.get("chunk_size", 8192)
+        self.local_size = dual_chunk_attention_config.get("local_size", 1024)
+        self.original_max_position_embeddings = dual_chunk_attention_config.get(
+            "original_max_position_embeddings", 0)
+        self.sparse_attention_config = dual_chunk_attention_config.get(
+            "sparse_attention_config", None)
+        if not self.sparse_attention_config:
+            logger.warning_once("Sparse attention will not be enabled as "
+                                "sparse attention config is not provided.")
+        self.sparse_attention_enabled = dual_chunk_attention_config.get(
+            "sparse_attention_enabled", self.sparse_attention_config
+            is not None)
+        self.sparse_attention_threshold = dual_chunk_attention_config.get(
+            "sparse_attention_threshold", 32768)
+        self.sparse_attention_last_q = dual_chunk_attention_config.get(
+            "sparse_attention_last_q", 64)
+        self.layer_idx = layer_idx
+        self.dual_chunk_attention_config = dual_chunk_attention_config
+
+        if self.sparse_attention_config:
+            self.sparse_attention_config = {
+                int(i): j
+                for i, j in self.sparse_attention_config[
+                    self.layer_idx].items()
+            }
+            start_head = self.num_heads * get_tensor_model_parallel_rank()
+            end_head = start_head + self.num_heads
+            self.sparse_attention_config = [
+                self.sparse_attention_config[i]
+                for i in range(start_head, end_head)
+            ]
+
+        if self.sparse_attention_enabled:
+            self.arange = torch.arange(self.sparse_attention_last_q,
+                                       device="cuda")
+            self.last_q_mask = (self.arange[None, None, :, None]
+                                >= self.arange[None, None, None, :])
+
+    def forward(  # type: ignore
+        self,
+        layer: AttentionLayer,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        kv_cache: torch.Tensor,
+        attn_metadata: DualChunkFlashAttentionMetadata,
+    ) -> torch.Tensor:
+        """Forward pass with DualChunkFlashAttention.
+        Args:
+            query: shape = [num_tokens, num_heads * head_size]
+            query_succ: shape = [num_tokens, num_heads * head_size]
+            query_inter: shape = [num_tokens, num_heads * head_size]
+            key: shape = [num_tokens, num_kv_heads * head_size]
+            value: shape = [num_tokens, num_kv_heads * head_size]
+            kv_cache = [2, num_blocks, block_size, num_kv_heads * head_size]
+            attn_metadata: Metadata for attention.
+        Returns:
+            shape = [num_tokens, num_heads * head_size]
+        """
+        (
+            query,
+            query_succ,
+            query_inter,
+            query_succ_critical,
+            query_inter_critical,
+        ) = torch.split(query, query.shape[-1] // 5, dim=-1)
+
+        assert (
+            query_succ is not None and query_inter is not None
+        ), "query_succ and query_inter are required in Dual Chunk Attention."
+
+        num_tokens, hidden_size = query.shape
+
+        # Reshape the query, key, and value tensors.
+        query = query.view(-1, self.num_heads, self.head_size)
+        query_succ = query_succ.view(-1, self.num_heads, self.head_size)
+        query_inter = query_inter.view(-1, self.num_heads, self.head_size)
+        query_succ_critical = query_succ_critical.view(-1, self.num_heads,
+                                                       self.head_size)
+        query_inter_critical = query_inter_critical.view(
+            -1, self.num_heads, self.head_size)
+        key = key.view(-1, self.num_kv_heads, self.head_size)
+        value = value.view(-1, self.num_kv_heads, self.head_size)
+
+        if self.original_max_position_embeddings > 0:
+            if prefill_meta := attn_metadata.prefill_metadata:
+                assert prefill_meta.scaling_factor is not None
+                assert prefill_meta.query_start_loc is not None
+                assert prefill_meta.orig_seq_lens is not None
+                current_start = 0
+                query_start_loc_cpu = prefill_meta.query_start_loc.cpu()
+                for i in range(len(prefill_meta.orig_seq_lens)):
+                    current_end = (current_start +
+                                   (query_start_loc_cpu[i + 1] -
+                                    query_start_loc_cpu[i]).item())
+                    key[current_start:current_end].mul_(
+                        prefill_meta.scaling_factor[i])
+                    current_start = current_end
+                assert current_end <= attn_metadata.num_prefill_tokens
+            if decode_meta := attn_metadata.decode_metadata:
+                assert decode_meta.scaling_factor is not None
+                scaling_factor = decode_meta.scaling_factor
+                key[attn_metadata.num_prefill_tokens:].mul_(
+                    scaling_factor.unsqueeze(-1).unsqueeze(-1))
+
+        if kv_cache is not None and kv_cache.numel() > 0:
+            key_cache = kv_cache[0]
+            value_cache = kv_cache[1]
+
+            # Reshape the input keys and values and store them in the cache.
+            # If kv_cache is not provided, the new key and value tensors are
+            # not cached. This happens during the initial memory profiling run.
+            ops.reshape_and_cache_flash(
+                key,
+                value,
+                key_cache,
+                value_cache,
+                attn_metadata.slot_mapping.flatten(),
+                self.kv_cache_dtype,
+                layer._k_scale,
+                layer._v_scale,
+            )
+
+        num_prefill_tokens = attn_metadata.num_prefill_tokens
+        num_decode_tokens = attn_metadata.num_decode_tokens
+        assert key.shape[0] == num_prefill_tokens + num_decode_tokens
+        assert value.shape[0] == num_prefill_tokens + num_decode_tokens
+        output = torch.empty_like(query)
+
+        # Query for decode. KV is not needed because it is already cached.
+        decode_query = query[num_prefill_tokens:]
+        decode_query_succ = query_succ[num_prefill_tokens:]
+        decode_query_inter = query_inter[num_prefill_tokens:]
+
+        # QKV for prefill.
+        query = query[:num_prefill_tokens]
+        query_succ = query_succ[:num_prefill_tokens]
+        query_inter = query_inter[:num_prefill_tokens]
+        query_succ_critical = query_succ_critical[:num_prefill_tokens]
+        query_inter_critical = query_inter_critical[:num_prefill_tokens]
+        key = key[:num_prefill_tokens]
+        value = value[:num_prefill_tokens]
+        assert query.shape[0] == num_prefill_tokens
+        assert decode_query.shape[0] == num_decode_tokens
+
+        if prefill_meta := attn_metadata.prefill_metadata:
+            # Prompt run.
+            if (kv_cache is None or prefill_meta.block_tables is None
+                    or prefill_meta.block_tables.numel() == 0):
+                # normal attention, called during the profiling run.
+                out = flash_attn_varlen_func(
+                    q=query,
+                    k=key,
+                    v=value,
+                    cu_seqlens_q=prefill_meta.seq_start_loc,
+                    cu_seqlens_k=prefill_meta.seq_start_loc,
+                    max_seqlen_q=prefill_meta.max_prefill_seq_len,
+                    max_seqlen_k=prefill_meta.max_prefill_seq_len,
+                    softmax_scale=self.scale,
+                    causal=True,
+                    window_size=self.sliding_window,
+                    alibi_slopes=self.alibi_slopes,
+                )
+                assert output[:num_prefill_tokens].shape == out.shape
+                output[:num_prefill_tokens] = out
+            else:
+                # prefix-enabled attention
+                assert prefill_meta.seq_lens is not None
+                assert prefill_meta.orig_seq_lens is not None
+                output[:num_prefill_tokens] = (
+                    self._dual_chunk_flash_attn_prefill(
+                        q=query,
+                        q_succ=query_succ,
+                        q_inter=query_inter,
+                        q_succ_critical=query_succ_critical,
+                        q_inter_critical=query_inter_critical,
+                        k=key_cache,
+                        v=value_cache,
+                        cu_seqlens_q=prefill_meta.query_start_loc,
+                        cu_seqlens_k=prefill_meta.seq_start_loc,
+                        orig_seq_lens=prefill_meta.orig_seq_lens,
+                        scaling_factor=prefill_meta.scaling_factor,
+                        softmax_scale=self.scale,
+                        causal=True,
+                        window_size=(-1, -1),
+                        alibi_slopes=self.alibi_slopes,
+                        block_table=prefill_meta.block_tables,
+                        chunk_size=self.chunk_size,
+                        local_size=self.local_size,
+                    ))
+
+        if decode_meta := attn_metadata.decode_metadata:
+            # Decoding run.
+            output[num_prefill_tokens:] = (
+                self._dual_chunk_flash_attn_decoding(
+                    decode_query.unsqueeze(1),
+                    decode_query_succ.unsqueeze(1),
+                    decode_query_inter.unsqueeze(1),
+                    key_cache,
+                    value_cache,
+                    block_table=decode_meta.block_tables,
+                    cache_seqlens=decode_meta.seq_lens_tensor,
+                    softmax_scale=self.scale,
+                    causal=True,
+                    alibi_slopes=self.alibi_slopes,
+                    chunk_size=self.chunk_size,
+                    local_size=self.local_size,
+                    original_max_position_embeddings=self.
+                    original_max_position_embeddings,
+                    decode_meta=decode_meta,
+                ).squeeze(1))
+        # Reshape the output tensor.
+        return output.view(num_tokens, hidden_size)
+
+    def _dual_chunk_flash_attn_prefill(
+        self,
+        q,
+        q_succ,
+        q_inter,
+        q_succ_critical,
+        q_inter_critical,
+        k,
+        v,
+        cu_seqlens_q,
+        cu_seqlens_k,
+        orig_seq_lens: List[int],
+        scaling_factor: torch.Tensor,
+        softmax_scale: float,
+        causal: Optional[bool] = True,
+        window_size: Tuple[int, int] = (-1, -1),
+        alibi_slopes: Optional[torch.Tensor] = None,
+        block_table: Optional[torch.Tensor] = None,
+        chunk_size: int = 8192,
+        local_size: int = 1024,
+    ):
+        if alibi_slopes is not None:
+            raise ValueError(
+                "Dual Chunk Attention does not support alibi_slopes")
+        if not causal:
+            raise ValueError(
+                "Dual Chunk Attention does not support causal=False")
+        if window_size != (-1, -1):
+            raise ValueError(
+                "Dual Chunk Attention does not support window_size")
+
+        cu_seqlens_q_cpu = cu_seqlens_q.cpu().tolist()
+        cu_seqlens_k_cpu = cu_seqlens_k.cpu().tolist()
+        all_outputs = []
+
+        for i in range(0, len(cu_seqlens_q_cpu) - 1):
+            qs = cu_seqlens_q_cpu[i]
+            qe = cu_seqlens_q_cpu[i:i + 2][-1]
+            ks = cu_seqlens_k_cpu[i]
+            ke = cu_seqlens_k_cpu[i:i + 2][-1]
+
+            current_q = q[qs:qe]
+            current_q_succ = q_succ[qs:qe]
+            current_q_inter = q_inter[qs:qe]
+            current_q_succ_critical = q_succ_critical[qs:qe]
+            current_q_inter_critical = q_inter_critical[qs:qe]
+
+            if block_table is None:
+                current_k = k[ks:ke]
+                current_v = v[ks:ke]
+                current_block_table = None
+                current_orig_seq_len = orig_seq_lens[i]
+            else:
+                current_block_table = block_table[i]
+                current_orig_seq_len = orig_seq_lens[i]
+                current_k = k
+                current_v = v
+            sparse_attn_enabled = (self.sparse_attention_enabled
+                                   and current_orig_seq_len
+                                   > self.sparse_attention_threshold)
+
+            if current_q.shape[0] == 0:
+                continue
+
+            if current_k.shape[0] == 0:
+                all_outputs.append(
+                    torch.zeros(
+                        (current_q.shape[0], current_q.shape[1], v.shape[2]),
+                        device=q.device,
+                        dtype=q.dtype,
+                    ))
+                continue
+
+            current_output = torch.empty_like(current_q)
+            group_size = int(current_q.size(-2) / current_k.size(-2))
+
+            if sparse_attn_enabled:
+                num_device_q_heads = current_q.size(-2)
+                heads_vertical_size = torch.empty(size=(num_device_q_heads, ),
+                                                  dtype=torch.int32)
+                heads_slash_size = torch.empty(size=(num_device_q_heads, ),
+                                               dtype=torch.int32)
+                for head_id in range(current_q.size(-2)):
+                    (
+                        ty,
+                        vertical_size,
+                        slash_size,
+                        _,
+                    ) = self.sparse_attention_config[head_id]
+                    assert ty == "vertical_and_slash", "only support slash mode"
+
+                    if vertical_size == 30:
+                        vertical_size += 100
+                    heads_vertical_size[head_id] = vertical_size
+                    heads_slash_size[head_id] = slash_size
+
+                current_output = self._dual_chunk_flash_attn_prefill_func(
+                    current_q,  # allheads
+                    current_q_succ,
+                    current_q_inter,
+                    current_q_succ_critical,
+                    current_q_inter_critical,
+                    current_k,
+                    current_v,
+                    current_block_table,
+                    softmax_scale,
+                    chunk_size,
+                    local_size,
+                    scaling_factor[i].item(),
+                    ke - ks,
+                    sparse_attn_enabled=sparse_attn_enabled,
+                    heads_vertical_size=heads_vertical_size,
+                    heads_slash_size=heads_slash_size,
+                    group_size=group_size)
+            else:
+                for head_id in range(current_q.size(-2)):
+                    # (seq_len, num_heads, head_size)
+                    current_q_head = current_q[:, head_id, :].unsqueeze(1)
+                    current_q_succ_head = \
+                        current_q_succ[:, head_id, :].unsqueeze(1)
+                    current_q_inter_head = \
+                        current_q_inter[:, head_id, :].unsqueeze(1)
+                    current_q_succ_head_critical = \
+                        current_q_succ_critical[:, head_id, :].unsqueeze(1)
+                    current_q_inter_head_critical = \
+                        current_q_inter_critical[:, head_id, :].unsqueeze(1)
+                    if block_table is not None:
+                        current_k_head = current_k[..., head_id //
+                                                   group_size, :].unsqueeze(2)
+                        current_v_head = current_v[..., head_id //
+                                                   group_size, :].unsqueeze(2)
+
+                    else:
+                        current_k_head = current_k[:, head_id, :].unsqueeze(1)
+                        current_v_head = current_v[:, head_id, :].unsqueeze(1)
+
+                    current_out = self._dual_chunk_flash_attn_prefill_func(
+                        current_q_head,
+                        current_q_succ_head,
+                        current_q_inter_head,
+                        current_q_succ_head_critical,
+                        current_q_inter_head_critical,
+                        current_k_head,
+                        current_v_head,
+                        current_block_table,
+                        softmax_scale,
+                        chunk_size,
+                        local_size,
+                        scaling_factor[i].item(),
+                        ke - ks,
+                        sparse_attn_enabled=sparse_attn_enabled,
+                    )
+                    current_output[:, head_id:head_id + 1, :] = current_out
+            all_outputs.append(current_output)
+        return torch.cat(all_outputs, dim=0)
+
+    def _dual_chunk_flash_attn_prefill_func(
+        self,
+        q,
+        q_succ,
+        q_inter,
+        q_succ_critical,
+        q_inter_critical,
+        k,
+        v,
+        block_table,
+        softmax_scale: float,
+        chunk_size: int,
+        local_size: int,
+        scaling_factor: float,
+        k_length: int,
+        sparse_attn_enabled: Optional[bool] = True,
+        heads_vertical_size=None,
+        heads_slash_size=None,
+        group_size=None,
+    ):
+        flash_results = []
+        chunk_len = chunk_size - local_size
+
+        if block_table is not None:
+            block_size = v.shape[1]
+            if chunk_len % block_size != 0:
+                raise ValueError("chunk_len must be divisible by block_size.")
+        else:
+            block_size = 1
+
+        if self.original_max_position_embeddings > 0:
+            softmax_scale = softmax_scale * scaling_factor
+
+        begin = k_length - q.shape[0]
+        while begin < k_length:
+            flash_per_chunk = []
+
+            prev_chunk_end_pos = (begin // chunk_len) * chunk_len
+            next_chunk_end_pos = prev_chunk_end_pos + chunk_len
+            end = min(next_chunk_end_pos, k_length)
+            qbegin = begin - (k_length - q.shape[0])
+            qend = end - (k_length - q.shape[0])
+
+            qk_chunks = []
+            q_states_intra = q[qbegin:qend]
+            # choose critical token
+            if block_table is not None:
+                block_tables_intra = _get_block(block_table, block_size,
+                                                prev_chunk_end_pos, end)
+                k_states_intra = k[block_tables_intra].view(
+                    -1, *k.shape[-2:])[:(end - prev_chunk_end_pos)]
+                v_states_intra = v[block_tables_intra].view(
+                    -1, *v.shape[-2:])[:(end - prev_chunk_end_pos)]
+            else:
+                block_tables_intra = None
+                k_states_intra = k[prev_chunk_end_pos:end]
+                v_states_intra = v[prev_chunk_end_pos:end]
+
+            if sparse_attn_enabled:
+                last_q_size = min(qend - qbegin, self.sparse_attention_last_q)
+                _, num_device_k_heads, head_dim = k_states_intra.shape
+                k_states_intra = (k_states_intra.unsqueeze(2).repeat(
+                    1, 1, group_size,
+                    1).reshape(-1, num_device_k_heads * group_size, head_dim))
+                v_states_intra = (v_states_intra.unsqueeze(2).repeat(
+                    1, 1, group_size,
+                    1).reshape(-1, num_device_k_heads * group_size, head_dim))
+                qk_chunks.append(
+                    (q_states_intra.transpose(0, 1)[:, -last_q_size:] *
+                     softmax_scale) @ k_states_intra.permute(1, 2, 0))
+
+            if prev_chunk_end_pos - chunk_len >= 0:
+                q_states_succ = q_succ[qbegin:qend]
+                q_states_succ_critical = q_succ_critical[qbegin:qend]
+                if block_table is not None:
+                    block_tables_succ = _get_block(
+                        block_table, block_size,
+                        prev_chunk_end_pos - chunk_len, prev_chunk_end_pos)
+                    k_states_succ = k[block_tables_succ].view(
+                        -1, *k.shape[-2:])[:chunk_len]
+                    v_states_succ = v[block_tables_succ].view(
+                        -1, *v.shape[-2:])[:chunk_len]
+                else:
+                    k_states_succ = k[prev_chunk_end_pos -
+                                      chunk_len:prev_chunk_end_pos]
+                    v_states_succ = v[prev_chunk_end_pos -
+                                      chunk_len:prev_chunk_end_pos]
+
+                if sparse_attn_enabled:
+                    k_states_succ = (k_states_succ.unsqueeze(2).repeat(
+                        1, 1, group_size,
+                        1).reshape(-1, num_device_k_heads * group_size,
+                                   head_dim))
+                    v_states_succ = (v_states_succ.unsqueeze(2).repeat(
+                        1, 1, group_size,
+                        1).reshape(-1, num_device_k_heads * group_size,
+                                   head_dim))
+                    qk_chunks.append((q_states_succ_critical.transpose(
+                        0, 1)[:, -last_q_size:] * softmax_scale)
+                                     @ k_states_succ.permute(1, 2, 0))
+
+            if prev_chunk_end_pos - chunk_len * 2 >= 0:
+                q_states_inter = q_inter[qbegin:qend]
+                q_states_inter_critical = q_inter_critical[qbegin:qend]
+                if block_table is not None:
+                    block_tables_inter = _get_block(
+                        block_table, block_size, 0,
+                        prev_chunk_end_pos - chunk_len)
+                    k_states_inter = k[block_tables_inter].view(
+                        -1, *k.shape[-2:])[:(prev_chunk_end_pos - chunk_len)]
+                    v_states_inter = v[block_tables_inter].view(
+                        -1, *v.shape[-2:])[:(prev_chunk_end_pos - chunk_len)]
+                else:
+                    k_states_inter = k[:prev_chunk_end_pos - chunk_len]
+                    v_states_inter = v[:prev_chunk_end_pos - chunk_len]
+
+                if sparse_attn_enabled:
+                    k_states_inter = (k_states_inter.unsqueeze(2).repeat(
+                        1, 1, group_size,
+                        1).reshape(-1, num_device_k_heads * group_size,
+                                   head_dim))
+                    v_states_inter = (v_states_inter.unsqueeze(2).repeat(
+                        1, 1, group_size,
+                        1).reshape(-1, num_device_k_heads * group_size,
+                                   head_dim))
+                    qk_chunks.append((q_states_inter_critical.transpose(
+                        0, 1)[:, -last_q_size:] * softmax_scale)
+                                     @ k_states_inter.permute(1, 2, 0))
+
+            if sparse_attn_enabled:
+                reversed_qk = qk_chunks[::-1]
+                qk = torch.cat(reversed_qk, dim=-1)
+
+                qk[:, :, -last_q_size:] = torch.where(
+                    self.last_q_mask[..., -last_q_size:,
+                                     -last_q_size:].to(qk.device),
+                    qk[:, :, -last_q_size:], -torch.inf)
+                qk = F.softmax(qk, dim=-1, dtype=torch.float32)
+
+                vertical = qk.sum(-2, keepdim=True)
+                vertical[..., :30] = torch.inf
+
+                # Avoid sorting by using the min/max ints to fill the indexer
+                # buffers.
+                int32_max = torch.iinfo(torch.int32).max
+                int32_min = torch.iinfo(torch.int32).min
+                n_heads = qk.size()[0]
+                max_slash_topk = torch.max(heads_slash_size).item()
+                max_vertical_topk = torch.max(heads_vertical_size).item()
+                # store each head's slash topk, vertical topk
+                vertical = vertical.reshape((n_heads, -1))
+                # prevent out of range when prompt size < max_vertical_topk
+                max_vertical_topk = min(vertical.shape[-1], max_vertical_topk)
+                vertical_topk_buffer = torch.topk(vertical, max_vertical_topk,
+                                                  -1).indices
+                slash_topk_buffer = torch.empty(size=(n_heads, max_slash_topk),
+                                                dtype=torch.int64,
+                                                device=qk.device)
+                for head_i in range(n_heads):
+                    #  (nqheads=1, lastq, k_len)
+                    head_score = qk[head_i:head_i + 1, :, :]
+                    slash_scores = _sum_all_diagonal_matrix(head_score)
+                    if head_score.size(1) != 1:
+                        # drop right up corner
+                        slash_scores = slash_scores[..., :-last_q_size + 1]
+                    slash_scores[..., -100:] = torch.inf
+
+                    head_slash_size = heads_slash_size[head_i]
+                    head_slash_size = min(head_slash_size, vertical.size(-1))
+                    slash_topk = torch.topk(slash_scores, head_slash_size,
+                                            -1).indices
+                    #（nheads, max_topk）
+                    slash_topk_buffer[head_i, :head_slash_size] = slash_topk
+
+                    # reset heads topk
+                    heads_slash_size[head_i] = head_slash_size
+                    heads_vertical_size[head_i] = min(
+                        heads_vertical_size[head_i], max_vertical_topk)
+
+                # store
+                vertical_buffer = torch.full((n_heads, max_vertical_topk),
+                                             int32_max,
+                                             dtype=torch.int64,
+                                             device=q.device)
+                slash_buffer = torch.full((n_heads, max_slash_topk),
+                                          int32_min,
+                                          dtype=torch.int64,
+                                          device=q.device)
+                succ_vertical_buffer = torch.full((n_heads, max_vertical_topk),
+                                                  int32_max,
+                                                  dtype=torch.int64,
+                                                  device=q.device)
+                succ_slash_buffer = torch.full((n_heads, max_slash_topk),
+                                               int32_min,
+                                               dtype=torch.int64,
+                                               device=q.device)
+                inter_vertical_buffer = torch.full(
+                    (n_heads, max_vertical_topk),
+                    int32_max,
+                    dtype=torch.int64,
+                    device=q.device)
+                inter_slash_buffer = torch.full((n_heads, max_slash_topk),
+                                                int32_min,
+                                                dtype=torch.int64,
+                                                device=q.device)
+
+                vertical_size_buffer = torch.empty(size=(n_heads, ),
+                                                   dtype=torch.int32,
+                                                   device=q.device)
+                slash_sizes_buffer = torch.empty(size=(n_heads, ),
+                                                 dtype=torch.int32,
+                                                 device=q.device)
+                succ_vertical_size_buffer = torch.empty(size=(n_heads, ),
+                                                        dtype=torch.int32,
+                                                        device=q.device)
+                succ_slash_sizes_buffer = torch.empty(size=(n_heads, ),
+                                                      dtype=torch.int32,
+                                                      device=q.device)
+                inter_vertical_size_buffer = torch.empty(size=(n_heads, ),
+                                                         dtype=torch.int32,
+                                                         device=q.device)
+                inter_slash_sizes_buffer = torch.empty(size=(n_heads, ),
+                                                       dtype=torch.int32,
+                                                       device=q.device)
+
+                for head_i in range(n_heads):
+                    vertical_topk = vertical_topk_buffer[
+                        head_i, :heads_vertical_size[head_i]]
+                    # intra
+                    intra_vertical_indices = vertical_topk[
+                        vertical_topk >=
+                        prev_chunk_end_pos] - prev_chunk_end_pos
+                    if intra_vertical_indices.nelement() == 0:
+                        intra_vertical_indices = torch.cat([
+                            intra_vertical_indices,
+                            torch.arange(0,
+                                         k_states_intra.size(0),
+                                         max(1,
+                                             k_states_intra.size(0) / 5),
+                                         dtype=torch.int32,
+                                         device=intra_vertical_indices.device)
+                        ])
+                    slash_topk = slash_topk_buffer[
+                        head_i, :heads_slash_size[head_i]]
+                    intra_slash_indices = (
+                        (qk.size(-1) - 1) -
+                        slash_topk[slash_topk >= prev_chunk_end_pos])
+                    # fill buffer
+                    v_count = intra_vertical_indices.nelement()
+                    s_count = intra_slash_indices.nelement()
+                    vertical_size_buffer[head_i] = v_count
+                    slash_sizes_buffer[head_i] = s_count
+                    vertical_buffer[head_i, :v_count].copy_(
+                        intra_vertical_indices)
+                    slash_buffer[head_i, :s_count].copy_(intra_slash_indices)
+                    # succ
+                    if prev_chunk_end_pos - chunk_len >= 0:
+                        succ_vertical_indices = vertical_topk[
+                            (vertical_topk < prev_chunk_end_pos)
+                            & (vertical_topk >= prev_chunk_end_pos -
+                               chunk_len)] - (prev_chunk_end_pos - chunk_len)
+                        # TODO: support no vertical
+                        if succ_vertical_indices.nelement() == 0:
+                            succ_vertical_indices = torch.cat([
+                                succ_vertical_indices,
+                                torch.arange(
+                                    0,
+                                    k_states_succ.size(0),
+                                    max(1,
+                                        k_states_succ.size(0) / 5),
+                                    dtype=torch.int32,
+                                    device=intra_vertical_indices.device)
+                            ])
+                        succ_slash_indices = (
+                            (prev_chunk_end_pos + (qend - qbegin) - 1) -
+                            slash_topk[((slash_topk >=
+                                         (prev_chunk_end_pos - chunk_len)) &
+                                        (slash_topk < (prev_chunk_end_pos +
+                                                       (qend - qbegin))))])
+                        if succ_slash_indices.nelement() == 0:
+                            succ_slash_indices = torch.cat([
+                                succ_slash_indices,
+                                torch.arange(
+                                    0,
+                                    k_states_succ.size(0),
+                                    max(1,
+                                        k_states_succ.size(0) / 5),
+                                    dtype=torch.int32,
+                                    device=intra_vertical_indices.device)
+                            ])
+                        # fill buffer
+                        v_count = succ_vertical_indices.nelement()
+                        s_count = succ_slash_indices.nelement()
+                        succ_vertical_size_buffer[head_i] = v_count
+                        succ_slash_sizes_buffer[head_i] = s_count
+                        succ_vertical_buffer[head_i, :v_count].copy_(
+                            succ_vertical_indices)
+                        succ_slash_buffer[head_i, :s_count].copy_(
+                            succ_slash_indices)
+
+                    if prev_chunk_end_pos - 2 * chunk_len >= 0:
+                        inter_vertical_indices = vertical_topk[
+                            vertical_topk < prev_chunk_end_pos - chunk_len]
+
+                        if inter_vertical_indices.nelement() == 0:
+                            inter_vertical_indices = torch.cat([
+                                inter_vertical_indices,
+                                torch.arange(
+                                    0,
+                                    k_states_inter.size(0),
+                                    max(1,
+                                        k_states_inter.size(0) / 5),
+                                    dtype=torch.int32,
+                                    device=intra_vertical_indices.device)
+                            ])
+                        inter_slash_indices = (
+                            (prev_chunk_end_pos - chunk_len +
+                             (qend - qbegin) - 1) -
+                            slash_topk[slash_topk < (prev_chunk_end_pos -
+                                                     chunk_len +
+                                                     (qend - qbegin))])
+                        if inter_slash_indices.nelement() == 0:
+                            inter_slash_indices = torch.cat([
+                                inter_slash_indices,
+                                torch.arange(
+                                    0,
+                                    k_states_inter.size(0),
+                                    max(1,
+                                        k_states_inter.size(0) / 5),
+                                    dtype=torch.int32,
+                                    device=intra_vertical_indices.device)
+                            ])
+                        # fill buffer
+                        v_count = inter_vertical_indices.nelement()
+                        s_count = inter_slash_indices.nelement()
+                        inter_vertical_size_buffer[head_i] = v_count
+                        inter_slash_sizes_buffer[head_i] = s_count
+                        inter_vertical_buffer[head_i, :v_count].copy_(
+                            inter_vertical_indices)
+                        inter_slash_buffer[head_i, :s_count].copy_(
+                            inter_slash_indices)
+            else:
+                intra_vertical_indices, intra_slash_indices = None, None
+                succ_vertical_indices, succ_slash_indices = None, None
+                inter_vertical_indices, inter_slash_indices = None, None
+
+            if sparse_attn_enabled:
+                flash_result = self._do_flash_attn(
+                    q_states_intra,
+                    k_states_intra,
+                    v_states_intra,
+                    softmax_scale=softmax_scale,
+                    causal=True,
+                    block_table=block_table,
+                    stage="intra",
+                    vertical_indices=vertical_buffer,
+                    slash_indices=slash_buffer,
+                    vertical_indices_count=vertical_size_buffer,
+                    slash_indices_count=slash_sizes_buffer,
+                    mergehead_softmax_scale=softmax_scale,
+                    sparse_attn_enabled=sparse_attn_enabled)
+            else:
+                flash_result = self._do_flash_attn(
+                    q_states_intra,
+                    k_states_intra,
+                    v_states_intra,
+                    softmax_scale=softmax_scale,
+                    causal=True,
+                    block_table=block_table,
+                    stage="intra",
+                    vertical_indices=intra_vertical_indices,
+                    slash_indices=intra_slash_indices,
+                    sparse_attn_enabled=sparse_attn_enabled)
+            flash_per_chunk.append(flash_result)
+
+            if prev_chunk_end_pos - chunk_len >= 0:
+                if sparse_attn_enabled:
+                    flash_result = self._do_flash_attn(
+                        q_states_succ,
+                        k_states_succ,
+                        v_states_succ,
+                        softmax_scale=softmax_scale,
+                        causal=False,
+                        block_table=block_table,
+                        stage="succ",
+                        vertical_indices=succ_vertical_buffer,
+                        slash_indices=succ_slash_buffer,
+                        vertical_indices_count=succ_vertical_size_buffer,
+                        slash_indices_count=succ_slash_sizes_buffer,
+                        mergehead_softmax_scale=softmax_scale,
+                        sparse_attn_enabled=sparse_attn_enabled)
+                else:
+                    flash_result = self._do_flash_attn(
+                        q_states_succ,
+                        k_states_succ,
+                        v_states_succ,
+                        softmax_scale=softmax_scale,
+                        causal=False,
+                        block_table=block_table,
+                        stage="succ",
+                        vertical_indices=succ_vertical_indices,
+                        slash_indices=succ_slash_indices,
+                        sparse_attn_enabled=sparse_attn_enabled)
+                flash_per_chunk.append(flash_result)
+
+            if prev_chunk_end_pos - chunk_len * 2 >= 0:
+                if sparse_attn_enabled:
+                    flash_result = self._do_flash_attn(
+                        q_states_inter,
+                        k_states_inter,
+                        v_states_inter,
+                        softmax_scale=softmax_scale,
+                        causal=False,
+                        block_table=block_table,
+                        stage="inter",
+                        vertical_indices=inter_vertical_buffer,
+                        slash_indices=inter_slash_buffer,
+                        vertical_indices_count=inter_vertical_size_buffer,
+                        slash_indices_count=inter_slash_sizes_buffer,
+                        mergehead_softmax_scale=softmax_scale,
+                        sparse_attn_enabled=sparse_attn_enabled)
+                else:
+                    flash_result = self._do_flash_attn(
+                        q_states_inter,
+                        k_states_inter,
+                        v_states_inter,
+                        softmax_scale=softmax_scale,
+                        causal=False,
+                        block_table=block_table,
+                        stage="inter",
+                        vertical_indices=inter_vertical_indices,
+                        slash_indices=inter_slash_indices,
+                        sparse_attn_enabled=sparse_attn_enabled)
+                flash_per_chunk.append(flash_result)
+
+            flash_results.append(flash_per_chunk)
+            begin = end
+
+        attn_output = self._merge_attn_outputs(flash_results)
+        del flash_results
+        return attn_output
+
+    def _do_flash_attn(
+        self,
+        query_states: torch.Tensor,
+        key_states: torch.Tensor,
+        value_states: torch.Tensor,
+        softmax_scale: float,
+        causal: bool = True,
+        block_table: torch.Tensor = None,
+        max_seqlen_k: Optional[int] = None,
+        stage: str = "intra",
+        vertical_indices: Optional[torch.Tensor] = None,
+        slash_indices: Optional[torch.Tensor] = None,
+        vertical_indices_count: Optional[torch.Tensor] = None,
+        slash_indices_count: Optional[torch.Tensor] = None,
+        mergehead_softmax_scale: Optional[float] = None,
+        sparse_attn_enabled: Optional[bool] = False,
+    ):
+        if max_seqlen_k is None:
+            max_seqlen_k = key_states.shape[0]
+
+        q_len = query_states.shape[0]
+        q_heads = query_states.shape[1]
+        h_dim = query_states.shape[-1]
+
+        if sparse_attn_enabled:
+            assert slash_indices is not None
+            if stage == "intra":
+                assert causal
+            else:
+                assert not causal
+
+            query_states = query_states.unsqueeze(0).transpose(1, 2)
+            key_states = key_states.unsqueeze(0).transpose(1, 2)
+            value_states = value_states.unsqueeze(0).transpose(1, 2)
+
+            q = query_states
+            k = key_states
+            v = value_states
+
+            if (vertical_indices_count is not None and \
+                    slash_indices_count is not None):
+                assert mergehead_softmax_scale is not None
+
+                res, s_lse = _vertical_slash_sparse_attention(
+                    q,
+                    k,
+                    v,
+                    vertical_indices,
+                    slash_indices,
+                    mergehead_softmax_scale,
+                    causal=causal,
+                    stage=stage,
+                    vertical_indices_count=vertical_indices_count,
+                    slash_indices_count=slash_indices_count)
+                res = res.view(q_heads, q_len,
+                               h_dim).transpose(0, 1)  # (qlen,nhead,h_dim)
+                s_lse = s_lse.view(
+                    q_heads, q_len,
+                    1).squeeze(-1).unsqueeze(0).float()  # (1, nhead,qlen)
+            else:
+                res, s_lse = _vertical_slash_sparse_attention(q,
+                                                              k,
+                                                              v,
+                                                              vertical_indices,
+                                                              slash_indices,
+                                                              softmax_scale,
+                                                              causal=causal,
+                                                              stage=stage)
+                res = res.view(q_len, q_heads, h_dim)
+                s_lse = s_lse.view(q_len, q_heads, 1).transpose(0, 2).float()
+            return res, s_lse
+
+        output, softmax_lse = flash_attn_varlen_func(
+            q=query_states,
+            k=key_states,
+            v=value_states,
+            softmax_scale=softmax_scale,
+            cu_seqlens_q=torch.tensor([0, query_states.shape[0]],
+                                      dtype=torch.int32,
+                                      device=query_states.device),
+            max_seqlen_q=query_states.shape[0],
+            cu_seqlens_k=torch.tensor([0, max_seqlen_k],
+                                      dtype=torch.int32,
+                                      device=query_states.device),
+            max_seqlen_k=max_seqlen_k,
+            causal=causal,
+            block_table=block_table.unsqueeze(0),
+            return_softmax_lse=True,
+        )
+        softmax_lse = softmax_lse.view(q_len, q_heads, 1).transpose(0,
+                                                                    2).float()
+        return output, softmax_lse
+
+    def _merge_attn_outputs(
+        self,
+        flash_results: List[List[Tuple[torch.Tensor, torch.Tensor]]],
+        return_lse: Optional[bool] = False,
+    ) -> torch.Tensor:
+        attn_outputs_all = []
+        logits_all = []
+
+        for flash_per_chunk in flash_results:
+            if len(flash_per_chunk) == 1:
+                attn_outputs_all.append(flash_per_chunk[0][0])
+                if return_lse:
+                    logits_all.append(flash_per_chunk[0][1])
+                continue
+
+            attn_outputs = torch.stack([
+                flash_attn_output[0] for flash_attn_output in flash_per_chunk
+            ])
+            logits = torch.stack([
+                flash_attn_output[1] for flash_attn_output in flash_per_chunk
+            ])
+            logits = logits.to(torch.float32)
+
+            if return_lse:
+                max_val = torch.max(logits, dim=0).values
+                diff = torch.abs(logits[0] - logits[1])
+                log_sum_exp = max_val + torch.log1p(torch.exp(-diff))
+                logits_all.append(log_sum_exp)
+
+            max_logits = torch.max(logits, dim=0).values
+            stable_logits = logits - max_logits.unsqueeze(0)
+            lse_s = torch.exp(stable_logits).detach()
+            lse_sum = torch.sum(lse_s, dim=0)
+            lse_s /= lse_sum
+            attn_outputs *= lse_s.unsqueeze(-1).transpose(2, 3).squeeze(1)
+            attn_outputs_all.append(attn_outputs.sum(dim=0))
+
+        if return_lse:
+            return (torch.cat(attn_outputs_all,
+                              dim=0), torch.cat(logits_all, dim=-1))
+        else:
+            return torch.cat(attn_outputs_all, dim=0)
+
+    def _dual_chunk_flash_attn_decoding(
+        self,
+        query: torch.Tensor,
+        query_succ: torch.Tensor,
+        query_inter: torch.Tensor,
+        key_cache: torch.Tensor,
+        value_cache: torch.Tensor,
+        block_table: torch.Tensor,
+        cache_seqlens: torch.Tensor,
+        softmax_scale: float,
+        causal: bool,
+        alibi_slopes: Optional[torch.Tensor],
+        chunk_size: int,
+        local_size: int,
+        original_max_position_embeddings: int,
+        decode_meta: DualChunkFlashAttentionMetadata,
+    ):
+        if not causal:
+            raise ValueError(
+                "Dual Chunk Attention does not support causal=False")
+
+        block_size = value_cache.shape[1]
+        chunk_len = chunk_size - local_size
+        if chunk_len % block_size != 0:
+            raise ValueError("chunk_len must be divisible by block_size.")
+        if original_max_position_embeddings > 0:
+            assert decode_meta.scaling_factor is not None
+            scaling_factor = decode_meta.scaling_factor
+            query = (query * scaling_factor.view(-1, 1, 1, 1)).to(
+                query.dtype
+            )  # possible for numerical issue, need to fused in the kernel
+            query_succ = (query_succ * scaling_factor.view(-1, 1, 1, 1)).to(
+                query.dtype)
+            query_inter = (query_inter * scaling_factor.view(-1, 1, 1, 1)).to(
+                query.dtype)
+        outputs_list = []
+        softmax_lses_list = []
+
+        # intra-attention
+        intra_output, intra_softmax_lse = (
+            self._dual_chunk_flash_attn_decoding_with_exp_sums(
+                query,
+                key_cache,
+                value_cache,
+                decode_meta.block_tables_intra,
+                decode_meta.seq_lens_intra,
+                softmax_scale,
+                alibi_slopes,
+                causal=False,
+            ))
+        outputs_list.append(intra_output)
+        softmax_lses_list.append(intra_softmax_lse)
+
+        # succ-attention
+        if decode_meta.max_seq_len_succ:
+            succ_output, succ_softmax_lse = (
+                self._dual_chunk_flash_attn_decoding_with_exp_sums(
+                    query_succ,
+                    key_cache,
+                    value_cache,
+                    decode_meta.block_tables_succ,
+                    decode_meta.seq_lens_succ,
+                    softmax_scale,
+                    alibi_slopes,
+                    causal=False,
+                ))
+            outputs_list.append(succ_output)
+            softmax_lses_list.append(succ_softmax_lse)
+
+        # inter-attention
+        if decode_meta.max_seq_len_inter:
+            inter_output, inter_softmax_lse = (
+                self._dual_chunk_flash_attn_decoding_with_exp_sums(
+                    query_inter,
+                    key_cache,
+                    value_cache,
+                    block_table[:, :decode_meta.max_seq_len_inter],
+                    decode_meta.seq_lens_inter,
+                    softmax_scale,
+                    alibi_slopes,
+                    causal=False,
+                ))
+            outputs_list.append(inter_output)
+            softmax_lses_list.append(inter_softmax_lse)
+        outputs = torch.stack(outputs_list, dim=0)
+        del outputs_list
+        softmax_lses = torch.stack(softmax_lses_list, dim=0).to(torch.float32)
+        del softmax_lses_list
+        max_logits = torch.max(softmax_lses, dim=0).values
+        stable_logits = softmax_lses - max_logits.unsqueeze(0)
+        lse_s = torch.exp(stable_logits).detach()
+        lse_sum = torch.sum(lse_s, dim=0)
+        lse_s /= lse_sum
+        outputs *= lse_s.unsqueeze(-1).transpose(2, 3)
+        return outputs.sum(0)
+
+    def _dual_chunk_flash_attn_decoding_with_exp_sums(
+        self,
+        query: torch.Tensor,
+        key_cache: torch.Tensor,
+        value_cache: torch.Tensor,
+        block_table: torch.Tensor,
+        cache_seqlens: torch.Tensor,
+        softmax_scale: float,
+        alibi_slopes: Optional[torch.Tensor],
+        causal: bool,
+    ):
+        out, softmax_lse = flash_attn_with_kvcache(
+            q=query,
+            k_cache=key_cache,
+            v_cache=value_cache,
+            block_table=block_table,
+            cache_seqlens=cache_seqlens,
+            softmax_scale=softmax_scale,
+            alibi_slopes=alibi_slopes,
+            causal=causal,
+            return_softmax_lse=True,
+        )
+        mask = (cache_seqlens == 0)
+        out[mask] = 0
+        softmax_lse[mask] = -float("inf")
+        return out, softmax_lse
+
+
+def _vertical_slash_sparse_attention(
+    query: torch.Tensor,  # [BATCH, N_HEADS, N_CTX, D_HEAD]
+    key: torch.Tensor,  # [BATCH, N_HEADS, N_KV_CTX, D_HEAD]
+    value: torch.Tensor,  # [BATCH, N_HEADS, N_KV_CTX, D_HEAD]
+    v_idx: torch.Tensor,  # [BATCH, N_HEADS, NNZ_V]
+    s_idx: torch.Tensor,  # [BATCH, N_HEADS, NNZ_S]
+    softmax_scale: float,
+    causal: bool = True,
+    stage: str = "intra",
+    block_size_M: int = 64,
+    block_size_N: int = 64,
+    vertical_indices_count: torch.Tensor = None,  # [N_HEADS,]
+    slash_indices_count: torch.Tensor = None,
+):
+    if stage == "intra":
+        assert causal
+    else:
+        assert not causal
+
+    batch_size, num_heads, context_size, head_dim = query.shape
+    _, _, kv_seq_len, _ = key.shape
+
+    if head_dim not in [16, 32, 64, 128, 256, 512]:
+        target_dim = 2**math.ceil(math.log2(head_dim)) - head_dim
+        query = F.pad(query, [0, target_dim, 0, 0, 0, 0, 0, 0])
+        key = F.pad(key, [0, target_dim, 0, 0, 0, 0, 0, 0])
+        value = F.pad(value, [0, target_dim, 0, 0, 0, 0, 0, 0])
+
+    v_idx = v_idx.to(torch.int32).reshape(
+        (batch_size, num_heads, -1)).sort(dim=-1, descending=False)[0]
+    s_idx = s_idx.to(torch.int32).reshape(
+        (batch_size, num_heads, -1)).sort(dim=-1, descending=True)[0]
+    q_seqlens = torch.tensor([context_size],
+                             dtype=torch.int32,
+                             device=query.device)
+    kv_seqlens = torch.tensor([kv_seq_len],
+                              dtype=torch.int32,
+                              device=query.device)
+
+    if vertical_indices_count is not None and slash_indices_count is not None:
+        (
+            block_count,
+            block_offset,
+            column_count,
+            column_index,
+        ) = ops.convert_vertical_slash_indexes_mergehead(
+            q_seqlens, kv_seqlens, v_idx, s_idx, vertical_indices_count,
+            slash_indices_count, context_size, block_size_M, block_size_N,
+            causal)
+    else:
+        (
+            block_count,
+            block_offset,
+            column_count,
+            column_index,
+        ) = ops.convert_vertical_slash_indexes(q_seqlens, kv_seqlens, v_idx,
+                                               s_idx, context_size,
+                                               block_size_M, block_size_N,
+                                               causal)
+
+    q = query.transpose(1, 2).contiguous()
+    k = key.transpose(1, 2).contiguous()
+    v = value.transpose(1, 2).contiguous()
+    out, lse = sparse_attn_func(
+        q,
+        k,
+        v,
+        block_count,
+        block_offset,
+        column_count,
+        column_index,
+        causal=causal,
+        softmax_scale=softmax_scale,
+        return_softmax_lse=True,
+    )
+    out = out.transpose(1, 2).contiguous()
+    softmax_lse = lse.reshape(*lse.shape, 1)
+    return (out[..., :context_size, :head_dim],
+            softmax_lse[..., :context_size, :])
+
+
+def _sum_all_diagonal_matrix(mat: torch.tensor):
+    h, n, m = mat.shape
+    # Zero matrix used for padding
+    zero_mat = torch.zeros((h, n, n), device=mat.device)
+    # pads the matrix on left and right
+    mat_padded = torch.cat((zero_mat, mat, zero_mat), -1)
+    # Change the strides
+    mat_strided = mat_padded.as_strided((1, n, n + m),
+                                        (n * (2 * n + m), 2 * n + m + 1, 1))
+    # Sums the resulting matrix's columns
+    sum_diags = torch.sum(mat_strided, 1)
+    return sum_diags[:, 1:]  # drop left bottom corner
+
+
+def _get_block(block_table: torch.Tensor, block_size: int, begin: int,
+               end: int):
+    begin_block = begin // block_size
+    end_block = (end - 1) // block_size + 1
+    return block_table[begin_block:end_block]
diff --git a/vllm/config.py b/vllm/config.py
index ed33030ed..19664b24a 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -929,6 +929,23 @@ class ModelConfig:
                 "Number of experts in the model must be greater than 0 "
                 "when expert parallelism is enabled.")
 
+    def verify_dual_chunk_attention_config(
+        self,
+        load_config: "LoadConfig",
+    ) -> None:
+        if hasattr(self.hf_config, "dual_chunk_attention_config"):
+            # Try loading the sparse attention config
+            from vllm.model_executor.model_loader.weight_utils import (
+                get_sparse_attention_config)
+            sparse_attn_config = get_sparse_attention_config(self, load_config)
+            if sparse_attn_config:
+                self.hf_config.dual_chunk_attention_config[
+                    "sparse_attention_config"] = sparse_attn_config
+                if "sparse_attention_enabled" not in \
+                        self.hf_config.dual_chunk_attention_config:
+                    self.hf_config.dual_chunk_attention_config[
+                        "sparse_attention_enabled"] = True
+
     def verify_async_output_proc(self, parallel_config, speculative_config,
                                  device_config) -> None:
         if not self.use_async_output_proc:
@@ -4187,6 +4204,8 @@ class VllmConfig:
                                                        self.speculative_config,
                                                        self.device_config)
             self.model_config.verify_with_parallel_config(self.parallel_config)
+            self.model_config.verify_dual_chunk_attention_config(
+                self.load_config)
 
         if self.cache_config is not None:
             self.cache_config.verify_with_parallel_config(self.parallel_config)
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 388e04323..bba05c4c3 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -37,8 +37,8 @@ from vllm.reasoning import ReasoningParserManager
 from vllm.test_utils import MODEL_WEIGHTS_S3_BUCKET, MODELS_ON_S3
 from vllm.transformers_utils.utils import check_gguf_file
 from vllm.usage.usage_lib import UsageContext
-from vllm.utils import (FlexibleArgumentParser, GiB_bytes, is_in_doc_build,
-                        is_in_ray_actor)
+from vllm.utils import (STR_DUAL_CHUNK_FLASH_ATTN_VAL, FlexibleArgumentParser,
+                        GiB_bytes, is_in_doc_build, is_in_ray_actor)
 
 # yapf: enable
 
@@ -983,6 +983,17 @@ class EngineArgs:
 
         assert self.enable_chunked_prefill is not None
 
+        if envs.VLLM_ATTENTION_BACKEND in [STR_DUAL_CHUNK_FLASH_ATTN_VAL]:
+            assert self.enforce_eager, (
+                "Cuda graph is not supported with DualChunkFlashAttention. "
+                "To run the model in eager mode, set 'enforce_eager=True' "
+                "or use '--enforce-eager' in the CLI.")
+            assert current_platform.is_cuda(), (
+                "DualChunkFlashAttention is only supported on CUDA platform.")
+            assert not use_v1, (
+                "DualChunkFlashAttention is not supported on V1 engine. "
+                "To run the model in V0 engine, try set 'VLLM_USE_V1=0'")
+
         cache_config = CacheConfig(
             block_size=self.block_size,
             gpu_memory_utilization=self.gpu_memory_utilization,
diff --git a/vllm/model_executor/layers/rotary_embedding.py b/vllm/model_executor/layers/rotary_embedding.py
index f8392eb67..2d634273e 100644
--- a/vllm/model_executor/layers/rotary_embedding.py
+++ b/vllm/model_executor/layers/rotary_embedding.py
@@ -1486,6 +1486,184 @@ class MRotaryEmbedding(RotaryEmbedding):
         return updates
 
 
+@CustomOp.register("dual_chunk_rotary_embedding")
+class DualChunkRotaryEmbedding(CustomOp):
+    """Rotary positional embedding for Dual Chunk Attention."""
+
+    def __init__(
+        self,
+        head_size: int,
+        rotary_dim: int,
+        max_position_embeddings: int,
+        base: int,
+        is_neox_style: bool,
+        dtype: torch.dtype,
+        chunk_size: int,
+        local_size: int,
+    ) -> None:
+        super().__init__()
+        self.head_size = head_size
+        self.rotary_dim = rotary_dim
+        self.max_position_embeddings = max_position_embeddings
+        self.base = base
+        self.is_neox_style = is_neox_style
+        self.chunk_size = chunk_size
+        self.local_size = local_size
+        self.dtype = dtype
+        self.device = torch.device(f"cuda:{torch.cuda.current_device()}")
+        (q_cache, qc_cache, k_cache, qc_no_clamp_cache,
+         q_inter_cache) = self._compute_cos_sin_cache()
+
+        self.register_buffer("cos_sin_q_cache", q_cache, persistent=False)
+        self.register_buffer("cos_sin_qc_cache", qc_cache, persistent=False)
+        self.register_buffer("cos_sin_k_cache", k_cache, persistent=False)
+        self.register_buffer("cos_sin_qc_no_clamp_cache",
+                             qc_no_clamp_cache,
+                             persistent=False)
+        self.register_buffer("cos_sin_q_inter_cache",
+                             q_inter_cache,
+                             persistent=False)
+
+    def _compute_inv_freq(self, base: Union[int, float]) -> torch.Tensor:
+        """Compute the inverse frequency."""
+        # NOTE(woosuk): The HF implementation uses `torch.arange(...).float()`.
+        # However, we use `torch.arange(..., dtype=torch.float)` instead to
+        # avoid numerical issues with large base values (e.g., 10000000).
+        # This may cause a slight numerical difference between the HF
+        # implementation and ours.
+        # NOTE(woosuk): To exactly match the HF implementation, we need to
+        # use CPU to compute the cache and then move it to GPU. However, we
+        # create the cache on GPU for faster initialization. This may cause
+        # a slight numerical difference between the HF implementation and ours.
+        inv_freq = 1.0 / (base**(torch.arange(
+            0, self.rotary_dim, 2, dtype=torch.float) / self.rotary_dim))
+        return inv_freq
+
+    def _compute_cos_sin_cache(self) -> torch.Tensor:
+        """Compute the cos and sin cache."""
+        inv_freq = self._compute_inv_freq(self.base)
+        chunk_len = self.chunk_size - self.local_size
+        q_t = torch.arange(chunk_len, dtype=torch.float)
+        qc_t = (torch.arange(chunk_len, dtype=torch.float) +
+                chunk_len).clamp(max=self.chunk_size)
+        k_t = torch.arange(self.max_position_embeddings,
+                           dtype=torch.float) % chunk_len
+
+        # count from chunk_len, no clamp(self.chunk_size) restriction
+        qc_no_clamp_t = torch.arange(chunk_len, dtype=torch.float) + chunk_len
+        # count from self.chunk_size for q_inter's rope
+        q_inter_t = torch.arange(chunk_len,
+                                 dtype=torch.float) + self.chunk_size
+
+        q_freqs = torch.outer(q_t, inv_freq)
+        qc_freqs = torch.outer(qc_t, inv_freq)
+        k_freqs = torch.outer(k_t, inv_freq)
+        qc_no_clamp_freqs = torch.outer(qc_no_clamp_t, inv_freq)
+        q_inter_freqs = torch.outer(q_inter_t, inv_freq)
+
+        q_cos = q_freqs.cos()
+        q_sin = q_freqs.sin()
+        qc_cos = qc_freqs.cos()
+        qc_sin = qc_freqs.sin()
+        k_cos = k_freqs.cos()
+        k_sin = k_freqs.sin()
+
+        qc_no_clamp_cos = qc_no_clamp_freqs.cos()
+        qc_no_clamp_sin = qc_no_clamp_freqs.sin()
+        q_inter_cos = q_inter_freqs.cos()
+        q_inter_sin = q_inter_freqs.sin()
+
+        q_cache = torch.cat((q_cos, q_sin), dim=-1).to(dtype=self.dtype,
+                                                       device=self.device)
+        qc_cache = torch.cat((qc_cos, qc_sin), dim=-1).to(dtype=self.dtype,
+                                                          device=self.device)
+        k_cache = torch.cat((k_cos, k_sin), dim=-1).to(dtype=self.dtype,
+                                                       device=self.device)
+        qc_no_clamp_cache = torch.cat((qc_no_clamp_cos, qc_no_clamp_sin),
+                                      dim=-1).to(dtype=self.dtype,
+                                                 device=self.device)
+        q_inter_cache = torch.cat((q_inter_cos, q_inter_sin),
+                                  dim=-1).to(dtype=self.dtype,
+                                             device=self.device)
+        return q_cache, qc_cache, k_cache, qc_no_clamp_cache, q_inter_cache
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        offsets: Optional[torch.Tensor] = None,
+    ) -> Tuple[torch.Tensor, torch.Tensor]:
+        query = query.view(*query.shape[:-1], -1, self.head_size)
+        key = key.view(*key.shape[:-1], -1, self.head_size)
+        query_rot = query[..., :self.rotary_dim]
+        key_rot = key[..., :self.rotary_dim]
+        if self.rotary_dim < self.head_size:
+            query_pass = query[..., self.rotary_dim:]
+            key_pass = key[..., self.rotary_dim:]
+        else:
+            query_pass = None
+            key_pass = None
+
+        positions_with_offsets = (torch.add(positions, offsets)
+                                  if offsets is not None else positions)
+        key = self._apply_rotary_embedding(
+            self.cos_sin_k_cache[positions_with_offsets], key_rot, key_pass)
+        chunk_len = self.chunk_size - self.local_size
+        query = self._apply_rotary_embedding(
+            self.cos_sin_q_cache[positions_with_offsets % chunk_len],
+            query_rot, query_pass)
+        query_succ = self._apply_rotary_embedding(
+            self.cos_sin_qc_cache[positions_with_offsets % chunk_len],
+            query_rot, query_pass)
+        query_inter = self._apply_rotary_embedding(
+            self.cos_sin_qc_cache[chunk_len - 1].repeat(positions.shape[0], 1),
+            query_rot, query_pass)
+        query_succ_critical = self._apply_rotary_embedding(
+            self.cos_sin_qc_no_clamp_cache[positions_with_offsets % chunk_len],
+            query_rot, query_pass)
+        query_inter_critical = self._apply_rotary_embedding(
+            self.cos_sin_q_inter_cache[positions_with_offsets % chunk_len],
+            query_rot, query_pass)
+
+        # merge query into one tensor to simplify the interfaces
+        query = torch.cat((
+            query,
+            query_succ,
+            query_inter,
+            query_succ_critical,
+            query_inter_critical,
+        ),
+                          dim=-1)
+        return query, key
+
+    def _apply_rotary_embedding(self, cos_sin, hidden_rot, hidden_pass):
+        cos, sin = cos_sin.chunk(2, dim=-1)
+        if self.is_neox_style:
+            # NOTE(woosuk): Here we assume that the positions tensor has the
+            # shape [batch_size, seq_len].
+            cos = cos.repeat(1, 1, 2).unsqueeze(-2)
+            sin = sin.repeat(1, 1, 2).unsqueeze(-2)
+        else:
+            cos = cos.repeat_interleave(2, dim=-1).unsqueeze(-2)
+            sin = sin.repeat_interleave(2, dim=-1).unsqueeze(-2)
+        rotate_fn = _rotate_neox if self.is_neox_style else _rotate_gptj
+        hidden_rot = hidden_rot * cos + rotate_fn(hidden_rot) * sin
+
+        if self.rotary_dim < self.head_size:
+            hidden = torch.cat((hidden_rot, hidden_pass), dim=-1)
+        else:
+            hidden = hidden_rot
+        return hidden.flatten(-2).squeeze(0)
+
+    def extra_repr(self) -> str:
+        s = f"head_size={self.head_size}, rotary_dim={self.rotary_dim}"
+        s += f", max_position_embeddings={self.max_position_embeddings}"
+        s += f", base={self.base}, is_neox_style={self.is_neox_style}"
+        s += f", chunk_size={self.chunk_size}, local_size={self.local_size}"
+        return s
+
+
 _ROPE_DICT: Dict[Tuple, RotaryEmbedding] = {}
 
 
@@ -1498,6 +1676,7 @@ def get_rope(
     rope_scaling: Optional[Dict[str, Any]] = None,
     dtype: Optional[torch.dtype] = None,
     partial_rotary_factor: float = 1.0,
+    dual_chunk_attention_config: Optional[Dict[str, Any]] = None,
 ) -> RotaryEmbedding:
     if dtype is None:
         dtype = torch.get_default_dtype()
@@ -1510,14 +1689,35 @@ def get_rope(
         rope_scaling_args = tuple(rope_scaling_tuple.items())
     else:
         rope_scaling_args = None
+
+    if dual_chunk_attention_config is not None:
+        dual_chunk_attention_tuple = {
+            k: tuple(v) if isinstance(v, list) else v
+            for k, v in dual_chunk_attention_config.items()
+            if k != "sparse_attention_config"
+        }
+        dual_chunk_attention_args = tuple(dual_chunk_attention_tuple.items())
+    else:
+        dual_chunk_attention_args = None
+
     if partial_rotary_factor < 1.0:
         rotary_dim = int(rotary_dim * partial_rotary_factor)
     key = (head_size, rotary_dim, max_position, base, is_neox_style,
-           rope_scaling_args, dtype)
+           rope_scaling_args, dual_chunk_attention_args, dtype)
     if key in _ROPE_DICT:
         return _ROPE_DICT[key]
 
-    if not rope_scaling:
+    if dual_chunk_attention_config is not None:
+        extra_kwargs = {
+            k: v
+            for k, v in dual_chunk_attention_config.items()
+            if k in ("chunk_size", "local_size")
+        }
+        rotary_emb = DualChunkRotaryEmbedding(head_size, rotary_dim,
+                                              max_position, base,
+                                              is_neox_style, dtype,
+                                              **extra_kwargs)
+    elif not rope_scaling:
         rotary_emb = RotaryEmbedding(head_size, rotary_dim, max_position, base,
                                      is_neox_style, dtype)
     else:
diff --git a/vllm/model_executor/model_loader/weight_utils.py b/vllm/model_executor/model_loader/weight_utils.py
index beff33414..8f9d80902 100644
--- a/vllm/model_executor/model_loader/weight_utils.py
+++ b/vllm/model_executor/model_loader/weight_utils.py
@@ -217,6 +217,39 @@ def get_quant_config(model_config: ModelConfig,
     return quant_cls.from_config(config)
 
 
+def get_sparse_attention_config(
+    model_config: ModelConfig,
+    load_config: LoadConfig,
+    sparse_attention_config_filename: str = "sparse_attention_config.json",
+) -> Dict[str, Any]:
+    model_name_or_path = model_config.model
+    is_local = os.path.isdir(model_name_or_path)
+    if not is_local:
+        # Download the config files.
+        with get_lock(model_name_or_path, load_config.download_dir):
+            hf_folder = snapshot_download(
+                model_name_or_path,
+                revision=model_config.revision,
+                allow_patterns="*.json",
+                cache_dir=load_config.download_dir,
+                local_files_only=huggingface_hub.constants.HF_HUB_OFFLINE,
+                tqdm_class=DisabledTqdm,
+            )
+    else:
+        hf_folder = model_name_or_path
+
+    config_file = os.path.join(hf_folder, sparse_attention_config_filename)
+    if not os.path.exists(config_file):
+        return {}
+
+    # Load the sparse attention config.
+    with open(config_file) as f:
+        config = json.load(f)
+    logger.info("Loaded sparse attention config from %s", config_file)
+
+    return config
+
+
 def download_weights_from_hf(
     model_name_or_path: str,
     cache_dir: Optional[str],
diff --git a/vllm/model_executor/models/qwen2.py b/vllm/model_executor/models/qwen2.py
index f76f31c9f..b5850011e 100644
--- a/vllm/model_executor/models/qwen2.py
+++ b/vllm/model_executor/models/qwen2.py
@@ -23,7 +23,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only Qwen2 model compatible with HuggingFace weights."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from typing import Any, Iterable, Optional, Set, Tuple, Union
 
 import torch
 from torch import nn
@@ -53,7 +53,7 @@ from vllm.sequence import IntermediateTensors, PoolerOutput
 
 from .interfaces import SupportsLoRA, SupportsPP
 from .utils import (AutoWeightsLoader, PPMissingLayer, WeightsMapper,
-                    is_pp_missing_parameter,
+                    extract_layer_index, is_pp_missing_parameter,
                     make_empty_intermediate_tensors_factory, make_layers,
                     maybe_prefix)
 
@@ -99,17 +99,20 @@ class Qwen2MLP(nn.Module):
 
 class Qwen2Attention(nn.Module):
 
-    def __init__(self,
-                 hidden_size: int,
-                 num_heads: int,
-                 num_kv_heads: int,
-                 max_position: int = 4096 * 32,
-                 rope_theta: float = 10000,
-                 cache_config: Optional[CacheConfig] = None,
-                 quant_config: Optional[QuantizationConfig] = None,
-                 rope_scaling: Optional[Tuple] = None,
-                 prefix: str = "",
-                 attn_type: str = AttentionType.DECODER) -> None:
+    def __init__(
+            self,
+            hidden_size: int,
+            num_heads: int,
+            num_kv_heads: int,
+            max_position: int = 4096 * 32,
+            rope_theta: float = 10000,
+            cache_config: Optional[CacheConfig] = None,
+            quant_config: Optional[QuantizationConfig] = None,
+            rope_scaling: Optional[Tuple] = None,
+            prefix: str = "",
+            attn_type: str = AttentionType.DECODER,
+            dual_chunk_attention_config: Optional[dict[str,
+                                                       Any]] = None) -> None:
         super().__init__()
         self.hidden_size = hidden_size
         tp_size = get_tensor_model_parallel_world_size()
@@ -131,6 +134,7 @@ class Qwen2Attention(nn.Module):
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
         self.rope_theta = rope_theta
+        self.dual_chunk_attention_config = dual_chunk_attention_config
 
         self.qkv_proj = QKVParallelLinear(
             hidden_size,
@@ -155,15 +159,21 @@ class Qwen2Attention(nn.Module):
             max_position=max_position,
             base=self.rope_theta,
             rope_scaling=rope_scaling,
+            dual_chunk_attention_config=dual_chunk_attention_config,
         )
-        self.attn = Attention(self.num_heads,
-                              self.head_dim,
-                              self.scaling,
-                              num_kv_heads=self.num_kv_heads,
-                              cache_config=cache_config,
-                              quant_config=quant_config,
-                              prefix=f"{prefix}.attn",
-                              attn_type=attn_type)
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            attn_type=attn_type,
+            prefix=f"{prefix}.attn",
+            **{
+                "layer_idx": extract_layer_index(prefix),
+                "dual_chunk_attention_config": dual_chunk_attention_config,
+            } if dual_chunk_attention_config else {})
 
     def forward(
         self,
@@ -192,6 +202,9 @@ class Qwen2DecoderLayer(nn.Module):
         # Requires transformers > 4.32.0
         rope_theta = getattr(config, "rope_theta", 1000000)
         rope_scaling = getattr(config, "rope_scaling", None)
+        dual_chunk_attention_config = getattr(config,
+                                              "dual_chunk_attention_config",
+                                              None)
 
         # By default, Qwen2 uses causal attention as it is a decoder-only model.
         # You can override the HF config with `is_causal=False` to enable
@@ -213,6 +226,7 @@ class Qwen2DecoderLayer(nn.Module):
             rope_scaling=rope_scaling,
             prefix=f"{prefix}.self_attn",
             attn_type=attn_type,
+            dual_chunk_attention_config=dual_chunk_attention_config,
         )
         self.mlp = Qwen2MLP(
             hidden_size=self.hidden_size,
diff --git a/vllm/model_executor/models/qwen2_moe.py b/vllm/model_executor/models/qwen2_moe.py
index 47d90919e..14f9f8158 100644
--- a/vllm/model_executor/models/qwen2_moe.py
+++ b/vllm/model_executor/models/qwen2_moe.py
@@ -175,6 +175,7 @@ class Qwen2MoeAttention(nn.Module):
         cache_config: Optional[CacheConfig] = None,
         quant_config: Optional[QuantizationConfig] = None,
         prefix: str = "",
+        dual_chunk_attention_config: Optional[Dict[str, Any]] = None,
     ) -> None:
         super().__init__()
         self.hidden_size = hidden_size
@@ -198,6 +199,7 @@ class Qwen2MoeAttention(nn.Module):
         self.scaling = self.head_dim**-0.5
         self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
+        self.dual_chunk_attention_config = dual_chunk_attention_config
 
         self.qkv_proj = QKVParallelLinear(
             hidden_size,
@@ -221,14 +223,20 @@ class Qwen2MoeAttention(nn.Module):
             max_position=max_position_embeddings,
             base=rope_theta,
             rope_scaling=rope_scaling,
+            dual_chunk_attention_config=dual_chunk_attention_config,
         )
-        self.attn = Attention(self.num_heads,
-                              self.head_dim,
-                              self.scaling,
-                              num_kv_heads=self.num_kv_heads,
-                              cache_config=cache_config,
-                              quant_config=quant_config,
-                              prefix=f"{prefix}.attn")
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+            **{
+                "layer_idx": extract_layer_index(prefix),
+                "dual_chunk_attention_config": dual_chunk_attention_config,
+            } if dual_chunk_attention_config else {})
 
     def forward(
         self,
@@ -256,6 +264,9 @@ class Qwen2MoeDecoderLayer(nn.Module):
         self.hidden_size = config.hidden_size
         rope_theta = getattr(config, "rope_theta", 10000)
         rope_scaling = getattr(config, "rope_scaling", None)
+        dual_chunk_attention_config = getattr(config,
+                                              "dual_chunk_attention_config",
+                                              None)
         max_position_embeddings = getattr(config, "max_position_embeddings",
                                           8192)
         self.self_attn = Qwen2MoeAttention(
@@ -268,6 +279,7 @@ class Qwen2MoeDecoderLayer(nn.Module):
             cache_config=cache_config,
             quant_config=quant_config,
             prefix=f"{prefix}.self_attn",
+            dual_chunk_attention_config=dual_chunk_attention_config,
         )
 
         # Note: Qwen/Qwen2-57B-A14B-Instruct does not have
diff --git a/vllm/platforms/cuda.py b/vllm/platforms/cuda.py
index dd3a54f7d..2343e6d82 100644
--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
@@ -222,6 +222,10 @@ class CudaPlatformBase(Platform):
         elif selected_backend == _Backend.XFORMERS:
             logger.info("Using XFormers backend.")
             return "vllm.attention.backends.xformers.XFormersBackend"
+        elif selected_backend == _Backend.DUAL_CHUNK_FLASH_ATTN:
+            logger.info("Using DualChunkFlashAttention backend.")
+            return ("vllm.attention.backends.dual_chunk_flash_attn."
+                    "DualChunkFlashAttentionBackend")
         elif selected_backend == _Backend.FLASH_ATTN:
             pass
         elif selected_backend:
diff --git a/vllm/platforms/interface.py b/vllm/platforms/interface.py
index a0c9e2ae3..cf30f7529 100644
--- a/vllm/platforms/interface.py
+++ b/vllm/platforms/interface.py
@@ -51,6 +51,7 @@ class _Backend(enum.Enum):
     PALLAS_VLLM_V1 = enum.auto()
     IPEX = enum.auto()
     BLOCK_SPARSE_FLASH_ATTN = enum.auto()
+    DUAL_CHUNK_FLASH_ATTN = enum.auto()
     NO_ATTENTION = enum.auto()
 
 
diff --git a/vllm/utils.py b/vllm/utils.py
index 6779c5b3f..59635a25e 100644
--- a/vllm/utils.py
+++ b/vllm/utils.py
@@ -153,6 +153,7 @@ STR_TORCH_SDPA_ATTN_VAL: str = "TORCH_SDPA"
 STR_ROCM_FLASH_ATTN_VAL: str = "ROCM_FLASH"
 STR_XFORMERS_ATTN_VAL: str = "XFORMERS"
 STR_FLASH_ATTN_VAL: str = "FLASH_ATTN"
+STR_DUAL_CHUNK_FLASH_ATTN_VAL: str = "DUAL_CHUNK_FLASH_ATTN"
 STR_INVALID_VAL: str = "INVALID"
 
 GB_bytes = 1_000_000_000
diff --git a/vllm/worker/model_runner.py b/vllm/worker/model_runner.py
index d96021cc6..8a294de45 100644
--- a/vllm/worker/model_runner.py
+++ b/vllm/worker/model_runner.py
@@ -204,6 +204,7 @@ class ModelInputForGPUBuilder(ModelRunnerInputBuilderBase[ModelInputForGPU]):
             self.mrope_input_positions = None  # type: ignore
             self.seq_lens[0] = 0  # type: ignore
             self.orig_seq_lens[0] = 0  # type: ignore
+            self.prompt_lens[0] = 0  # type: ignore
             self.query_lens[0] = 0  # type: ignore
             self.context_lens[0] = 0  # type: ignore
             self.curr_sliding_window_blocks[0] = 0  # type: ignore
@@ -236,6 +237,8 @@ class ModelInputForGPUBuilder(ModelRunnerInputBuilderBase[ModelInputForGPU]):
             # The original sequence length (before applying sliding window).
             # This is used to compute slot mapping.
             orig_seq_lens: Optional[List[int]] = None,
+            # This is used in the dual-chunk flash attention backend.
+            prompt_lens: Optional[List[int]] = None,
             # The query length.
             query_lens: Optional[List[int]] = None,
             # The number of tokens that are already computed.
@@ -316,6 +319,12 @@ class ModelInputForGPUBuilder(ModelRunnerInputBuilderBase[ModelInputForGPU]):
                         for seq_id in range(len(self.seq_ids)):
                             self.orig_seq_lens[seq_id] = 0
 
+                    if prompt_lens:
+                        self.prompt_lens = prompt_lens
+                    else:
+                        for seq_id in range(len(self.seq_ids)):
+                            self.prompt_lens[seq_id] = 0
+
                     if query_lens:
                         self.query_lens = query_lens
                     else:
@@ -370,6 +379,7 @@ class ModelInputForGPUBuilder(ModelRunnerInputBuilderBase[ModelInputForGPU]):
                 self.mrope_input_positions = mrope_input_positions or None
                 self.seq_lens = seq_lens or []
                 self.orig_seq_lens = orig_seq_lens or []
+                self.prompt_lens = prompt_lens or []
                 self.query_lens = query_lens or []
                 self.context_lens = context_lens or []
                 self.curr_sliding_window_blocks = \
@@ -403,6 +413,7 @@ class ModelInputForGPUBuilder(ModelRunnerInputBuilderBase[ModelInputForGPU]):
             self.mrope_input_positions = None
             self.seq_lens = [0] * self.n_seqs
             self.orig_seq_lens = [0] * self.n_seqs
+            self.prompt_lens = [0] * self.n_seqs
             self.query_lens = [0] * self.n_seqs
             self.context_lens = [0] * self.n_seqs
             self.curr_sliding_window_blocks = [0] * self.n_seqs
@@ -552,6 +563,7 @@ class ModelInputForGPUBuilder(ModelRunnerInputBuilderBase[ModelInputForGPU]):
 
         inter_data.seq_lens[seq_idx] = seq_len
         inter_data.orig_seq_lens[seq_idx] = seq_len
+        inter_data.prompt_lens[seq_idx] = seq_data.get_prompt_len()
         inter_data.context_lens[seq_idx] = context_len
         inter_data.input_tokens[seq_idx].extend(tokens)
         inter_data.inputs_embeds = prompt_embeds
-- 
GitLab


From c06af9a9597091d1a3ea6f893ca26a002c61e4ec Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Tue, 13 May 2025 11:36:27 +0800
Subject: [PATCH 311/461] [Misc] Slight spelling modification (#18039)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 README.md                                      | 2 +-
 vllm/model_executor/layers/logits_processor.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/README.md b/README.md
index df294c600..5b87ae838 100644
--- a/README.md
+++ b/README.md
@@ -74,7 +74,7 @@ vLLM is flexible and easy to use with:
 - OpenAI-compatible API server
 - Support NVIDIA GPUs, AMD CPUs and GPUs, Intel CPUs and GPUs, PowerPC CPUs, TPU, and AWS Neuron.
 - Prefix caching support
-- Multi-lora support
+- Multi-LoRA support
 
 vLLM seamlessly supports most popular open-source models on HuggingFace, including:
 - Transformer-like LLMs (e.g., Llama)
diff --git a/vllm/model_executor/layers/logits_processor.py b/vllm/model_executor/layers/logits_processor.py
index 4a359725b..6b69a2608 100644
--- a/vllm/model_executor/layers/logits_processor.py
+++ b/vllm/model_executor/layers/logits_processor.py
@@ -119,7 +119,7 @@ class LogitsProcessor(nn.Module):
 
     def extra_repr(self) -> str:
         s = f"vocab_size={self.vocab_size}"
-        s += f", forg_vocab_size={self.org_vocab_size}"
+        s += f", org_vocab_size={self.org_vocab_size}"
         s += f", scale={self.scale}, logits_as_input={self.logits_as_input}"
         return s
 
-- 
GitLab


From d8487ef557cd10647c2471adb6d04a707023f549 Mon Sep 17 00:00:00 2001
From: Arjun Kathuria <arjun.kathuria8@gmail.com>
Date: Tue, 13 May 2025 09:06:33 +0530
Subject: [PATCH 312/461] [ROCm]: Fix build from source failure with gcc14 and
 ROCm 6.3 (#13779)

Signed-off-by: Arjun Kathuria <arjun.kathuria8@gmail.com>
---
 .../compressed_tensors/int8_quant_kernels.cu     | 16 ++++++++++++++--
 .../fused_kernels/quant_conversions.cuh          |  8 +++++++-
 2 files changed, 21 insertions(+), 3 deletions(-)

diff --git a/csrc/quantization/compressed_tensors/int8_quant_kernels.cu b/csrc/quantization/compressed_tensors/int8_quant_kernels.cu
index e79785827..bf46cce60 100644
--- a/csrc/quantization/compressed_tensors/int8_quant_kernels.cu
+++ b/csrc/quantization/compressed_tensors/int8_quant_kernels.cu
@@ -26,7 +26,13 @@ static inline __device__ int8_t float_to_int8_rn(float x) {
   float dst = std::nearbyint(x);
 
   // saturate
-  dst = std::clamp(dst, i8_min, i8_max);
+
+  // See https://github.com/pytorch/pytorch/issues/127666
+  // See https://github.com/llvm/llvm-project/issues/95183
+  // hip-clang std::clamp __glibcxx_assert_fail host function when building on
+  // Arch/gcc14. The following replaces std::clamp usage with similar logic
+  // dst = std::clamp(dst, i8_min, i8_max);
+  dst = (dst < i8_min) ? i8_min : (dst > i8_max) ? i8_max : dst;
   return static_cast<int8_t>(dst);
 #else
   // CUDA path
@@ -79,7 +85,13 @@ static inline __device__ int8_t int32_to_int8(int32_t x) {
       static_cast<int32_t>(std::numeric_limits<int8_t>::max());
 
   // saturate
-  int32_t dst = std::clamp(x, i8_min, i8_max);
+
+  // See https://github.com/pytorch/pytorch/issues/127666
+  // See https://github.com/llvm/llvm-project/issues/95183
+  // hip-clang std::clamp __glibcxx_assert_fail host function when building on
+  // Arch/gcc14. The following replaces std::clamp usage with similar logic
+  // int32_t dst = std::clamp(x, i8_min, i8_max);
+  int32_t dst = (x < i8_min) ? i8_min : (x > i8_max) ? i8_max : x;
   return static_cast<int8_t>(dst);
 #else
   // CUDA path
diff --git a/csrc/quantization/fused_kernels/quant_conversions.cuh b/csrc/quantization/fused_kernels/quant_conversions.cuh
index 7c10aaa81..4e6118e52 100644
--- a/csrc/quantization/fused_kernels/quant_conversions.cuh
+++ b/csrc/quantization/fused_kernels/quant_conversions.cuh
@@ -21,7 +21,13 @@ static __device__ __forceinline__ int8_t float_to_int8_rn(float const x) {
   // round
   float dst = std::nearbyint(x);
   // saturate
-  dst = std::clamp(dst, i8_min, i8_max);
+
+  // See https://github.com/pytorch/pytorch/issues/127666
+  // See https://github.com/llvm/llvm-project/issues/95183
+  // hip-clang std::clamp __glibcxx_assert_fail host function when building on
+  // Arch/gcc14. The following replaces std::clamp usage with similar logic
+  // dst = std::clamp(dst, i8_min, i8_max);
+  dst = (dst < i8_min) ? i8_min : (dst > i8_max) ? i8_max : dst;
   return static_cast<int8_t>(dst);
 #else
   // CUDA path
-- 
GitLab


From 1df491c522c92c3b15dea4a4cd92c437bbda9f3f Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Mon, 12 May 2025 23:50:04 -0400
Subject: [PATCH 313/461] [Bugfix] Fixes for new marlin moe usage (#18017)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 .../compressed_tensors/compressed_tensors_moe.py             | 5 +++--
 vllm/model_executor/layers/quantization/gptq_marlin.py       | 4 ++--
 2 files changed, 5 insertions(+), 4 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index 4a3fc2a1a..d905cc9eb 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -57,9 +57,10 @@ class CompressedTensorsMoEMethod(FusedMoEMethodBase):
             "input_activations")
 
         if quant_config._is_wNa16_group_channel(weight_quant, input_quant):
+            # group_size=None means channelwise
+            group_size = weight_quant.group_size or -1
             # Prefer to use the MarlinMoE kernel when it is supported.
-            if not check_moe_marlin_supports_layer(layer,
-                                                   weight_quant.group_size):
+            if not check_moe_marlin_supports_layer(layer, group_size):
                 if (weight_quant.strategy in QuantizationStrategy.GROUP and
                         weight_quant.actorder in (ActivationOrdering.GROUP,
                                                   ActivationOrdering.DYNAMIC)):
diff --git a/vllm/model_executor/layers/quantization/gptq_marlin.py b/vllm/model_executor/layers/quantization/gptq_marlin.py
index 56aafca87..1c60d0f64 100644
--- a/vllm/model_executor/layers/quantization/gptq_marlin.py
+++ b/vllm/model_executor/layers/quantization/gptq_marlin.py
@@ -610,9 +610,9 @@ class GPTQMarlinMoEMethod(FusedMoEMethodBase):
         activation: str = "silu",
     ) -> torch.Tensor:
         assert activation == "silu", "Only SiLU activation is supported."
-        if apply_router_weight_on_input is not None:
+        if apply_router_weight_on_input:
             raise NotImplementedError(
-                "Apply router weight on input is not supported for"
+                "Apply router weight on input is not supported for "
                 "fused Marlin MoE method.")
 
         topk_weights, topk_ids = FusedMoE.select_experts(
-- 
GitLab


From 61e0a506a3a30445fddff21355936e9f83725c97 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Tue, 13 May 2025 13:40:19 +0800
Subject: [PATCH 314/461] [Bugfix] Avoid repeatedly creating dummy data during
 engine startup (#17935)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 vllm/engine/async_llm_engine.py         |  3 +++
 vllm/engine/llm_engine.py               |  7 +++++++
 vllm/engine/multiprocessing/__init__.py |  5 +++++
 vllm/engine/multiprocessing/client.py   |  8 ++++++++
 vllm/engine/multiprocessing/engine.py   |  6 ++++++
 vllm/engine/protocol.py                 |  5 +++++
 vllm/entrypoints/openai/api_server.py   |  4 ++++
 vllm/multimodal/processing.py           |  5 +++++
 vllm/multimodal/registry.py             | 14 ++++++++++----
 vllm/v1/engine/async_llm.py             |  5 +++++
 vllm/v1/engine/core.py                  |  9 +++++++++
 vllm/v1/engine/core_client.py           | 15 +++++++++++++++
 vllm/v1/engine/llm_engine.py            |  8 ++++++++
 vllm/v1/engine/mm_input_cache.py        |  5 +++++
 vllm/v1/engine/processor.py             |  4 ++++
 15 files changed, 99 insertions(+), 4 deletions(-)

diff --git a/vllm/engine/async_llm_engine.py b/vllm/engine/async_llm_engine.py
index 37bb12d44..56b9e49d2 100644
--- a/vllm/engine/async_llm_engine.py
+++ b/vllm/engine/async_llm_engine.py
@@ -1232,6 +1232,9 @@ class AsyncLLMEngine(EngineClient):
     async def stop_profile(self) -> None:
         self.engine.stop_profile()
 
+    async def reset_mm_cache(self) -> None:
+        self.engine.reset_mm_cache()
+
     async def reset_prefix_cache(self,
                                  device: Optional[Device] = None) -> None:
         self.engine.reset_prefix_cache(device)
diff --git a/vllm/engine/llm_engine.py b/vllm/engine/llm_engine.py
index bed696d3d..2a27afe97 100644
--- a/vllm/engine/llm_engine.py
+++ b/vllm/engine/llm_engine.py
@@ -409,6 +409,9 @@ class LLMEngine:
         # the next step without re-scheduling.
         self._skip_scheduling_next_step = False
 
+        # Don't keep the dummy data in memory
+        self.reset_mm_cache()
+
     def _initialize_kv_caches(self) -> None:
         """Initialize the KV cache in the worker(s).
 
@@ -913,6 +916,10 @@ class LLMEngine:
         """
         return self.scheduler[virtual_engine].has_unfinished_seqs()
 
+    def reset_mm_cache(self) -> bool:
+        """Reset the multi-modal cache."""
+        return self.input_preprocessor.mm_registry.reset_processor_cache()
+
     def reset_prefix_cache(self, device: Optional[Device] = None) -> bool:
         """Reset prefix cache for all devices."""
 
diff --git a/vllm/engine/multiprocessing/__init__.py b/vllm/engine/multiprocessing/__init__.py
index cafd8150b..af72c8e6b 100644
--- a/vllm/engine/multiprocessing/__init__.py
+++ b/vllm/engine/multiprocessing/__init__.py
@@ -123,6 +123,10 @@ class RPCUProfileRequest(Enum):
     STOP_PROFILE = 2
 
 
+class RPCResetMultiModalCacheRequest(Enum):
+    RESET = 1
+
+
 @dataclass
 class RPCResetPrefixCacheRequest:
     device: Device
@@ -164,6 +168,7 @@ class RPCAdapterLoadedResponse:
 
 RPC_REQUEST_T = Union[RPCProcessRequest, RPCAbortRequest, RPCStartupRequest,
                       RPCUProfileRequest, RPCLoadAdapterRequest,
+                      RPCResetMultiModalCacheRequest,
                       RPCResetPrefixCacheRequest, RPCSleepRequest,
                       RPCWakeUpRequest, RPCIsSleepingRequest]
 
diff --git a/vllm/engine/multiprocessing/client.py b/vllm/engine/multiprocessing/client.py
index 505d3d06b..eea89a9a0 100644
--- a/vllm/engine/multiprocessing/client.py
+++ b/vllm/engine/multiprocessing/client.py
@@ -31,6 +31,7 @@ from vllm.engine.multiprocessing import (ENGINE_DEAD_ERROR, IPC_DATA_EXT,
                                          RPCIsSleepingResponse,
                                          RPCLoadAdapterRequest,
                                          RPCProcessRequest,
+                                         RPCResetMultiModalCacheRequest,
                                          RPCResetPrefixCacheRequest,
                                          RPCSleepRequest, RPCStartupRequest,
                                          RPCStartupResponse,
@@ -687,6 +688,13 @@ class MQLLMEngineClient(EngineClient):
         await self._send_one_way_rpc_request(
             request=RPCUProfileRequest.STOP_PROFILE, socket=self.input_socket)
 
+    async def reset_mm_cache(self) -> None:
+        """Reset the multi-modal cache"""
+
+        await self._send_one_way_rpc_request(
+            request=RPCResetMultiModalCacheRequest.RESET,
+            socket=self.input_socket)
+
     async def reset_prefix_cache(self,
                                  device: Optional[Device] = None) -> None:
         """Reset the prefix cache"""
diff --git a/vllm/engine/multiprocessing/engine.py b/vllm/engine/multiprocessing/engine.py
index a5dcf9e2d..ac234d253 100644
--- a/vllm/engine/multiprocessing/engine.py
+++ b/vllm/engine/multiprocessing/engine.py
@@ -22,6 +22,7 @@ from vllm.engine.multiprocessing import (ENGINE_DEAD_ERROR, IPC_DATA_EXT,
                                          RPCIsSleepingResponse,
                                          RPCLoadAdapterRequest,
                                          RPCProcessRequest,
+                                         RPCResetMultiModalCacheRequest,
                                          RPCResetPrefixCacheRequest,
                                          RPCSleepRequest, RPCStartupRequest,
                                          RPCStartupResponse,
@@ -269,6 +270,8 @@ class MQLLMEngine:
                         self.stop_profile()
                 elif isinstance(request, RPCLoadAdapterRequest):
                     self._handle_load_adapter_request(request)
+                elif isinstance(request, RPCResetMultiModalCacheRequest):
+                    self.reset_mm_cache()
                 elif isinstance(request, RPCResetPrefixCacheRequest):
                     self.reset_prefix_cache()
                 elif isinstance(request, RPCSleepRequest):
@@ -409,6 +412,9 @@ class MQLLMEngine:
     def stop_profile(self) -> None:
         self.engine.stop_profile()
 
+    def reset_mm_cache(self) -> bool:
+        return self.engine.reset_mm_cache()
+
     def reset_prefix_cache(self) -> bool:
         return self.engine.reset_prefix_cache()
 
diff --git a/vllm/engine/protocol.py b/vllm/engine/protocol.py
index e9350612e..a837a2d28 100644
--- a/vllm/engine/protocol.py
+++ b/vllm/engine/protocol.py
@@ -278,6 +278,11 @@ class EngineClient(ABC):
         """Start profiling the engine"""
         ...
 
+    @abstractmethod
+    async def reset_mm_cache(self) -> None:
+        """Reset the multi-modal cache"""
+        ...
+
     @abstractmethod
     async def reset_prefix_cache(self,
                                  device: Optional[Device] = None) -> None:
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index 25b6f98bb..e809579c2 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -150,6 +150,10 @@ async def build_async_engine_client(
 
     async with build_async_engine_client_from_engine_args(
             engine_args, args.disable_frontend_multiprocessing) as engine:
+
+        # Don't keep the dummy data in memory
+        await engine.reset_mm_cache()
+
         yield engine
 
 
diff --git a/vllm/multimodal/processing.py b/vllm/multimodal/processing.py
index 27b059b3e..92f9e70b5 100644
--- a/vllm/multimodal/processing.py
+++ b/vllm/multimodal/processing.py
@@ -1026,6 +1026,11 @@ class ProcessingCache:
     def put_item(self, item: ProcessingCacheItem) -> None:
         self._cache[item.key] = item.value
 
+    def reset(self) -> bool:
+        self._cache.clear()
+
+        return True
+
 
 class BaseProcessingInfo:
     """Base class to provide the information necessary for data processing."""
diff --git a/vllm/multimodal/registry.py b/vllm/multimodal/registry.py
index 3e62f4c43..67d0d7fc1 100644
--- a/vllm/multimodal/registry.py
+++ b/vllm/multimodal/registry.py
@@ -88,6 +88,12 @@ class MultiModalRegistry:
 
         self._processing_cache = ProcessingCache(VLLM_MM_INPUT_CACHE_GIB)
 
+    def reset_processor_cache(self) -> bool:
+        """Reset the multi-modal processing cache."""
+        self._processing_cache.reset()
+
+        return True  # Success
+
     @deprecated("Legacy input processor/mapper pipeline has been removed. "
                 "Please update your model runner to use "
                 "`seq_group_metadata.multi_modal_data` directly without "
@@ -106,7 +112,7 @@ class MultiModalRegistry:
         if not model_config.is_multimodal_model:
             return {}
 
-        processor = self.create_processor(model_config, disable_cache=True)
+        processor = self.create_processor(model_config, disable_cache=False)
         profiler = MultiModalProfiler(processor)
 
         seq_len = model_config.max_model_len
@@ -190,7 +196,7 @@ class MultiModalRegistry:
         if not model_config.is_multimodal_model:
             return {}
 
-        processor = self.create_processor(model_config, disable_cache=True)
+        processor = self.create_processor(model_config, disable_cache=False)
         profiler = MultiModalProfiler(processor)
         return profiler.get_mm_limits()
 
@@ -286,7 +292,7 @@ class MultiModalRegistry:
 
         The model is identified by ``model_config``.
         """
-        processor = self.create_processor(model_config, disable_cache=True)
+        processor = self.create_processor(model_config, disable_cache=False)
         profiler = MultiModalProfiler(processor)
         dummy_data = profiler.get_decoder_dummy_data(seq_len, mm_counts)
 
@@ -310,7 +316,7 @@ class MultiModalRegistry:
 
         The model is identified by ``model_config``.
         """
-        processor = self.create_processor(model_config, disable_cache=True)
+        processor = self.create_processor(model_config, disable_cache=False)
         profiler = MultiModalProfiler(processor)
         dummy_data = profiler.get_encoder_dummy_data(seq_len, mm_counts)
 
diff --git a/vllm/v1/engine/async_llm.py b/vllm/v1/engine/async_llm.py
index 00ceb7d3d..0d646d8dd 100644
--- a/vllm/v1/engine/async_llm.py
+++ b/vllm/v1/engine/async_llm.py
@@ -476,6 +476,11 @@ class AsyncLLM(EngineClient):
     async def stop_profile(self) -> None:
         await self.engine_core.profile_async(False)
 
+    async def reset_mm_cache(self) -> None:
+        self.processor.mm_registry.reset_processor_cache()
+        self.processor.mm_input_cache_client.reset()
+        await self.engine_core.reset_mm_cache_async()
+
     async def reset_prefix_cache(self,
                                  device: Optional[Device] = None) -> None:
         if device == Device.CPU:
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index fde60bbfa..5a493db8a 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -286,6 +286,15 @@ class EngineCore:
     def profile(self, is_start: bool = True):
         self.model_executor.profile(is_start)
 
+    def reset_mm_cache(self):
+        # NOTE: Since this is mainly for debugging, we don't attempt to
+        # re-sync the internal caches (P0 processor, P0 mirror, P1 mirror)
+        if self.scheduler.get_num_unfinished_requests():
+            logger.warning("Resetting the multi-modal cache when requests are "
+                           "in progress may lead to desynced internal caches.")
+
+        self.mm_input_cache_server.reset()
+
     def reset_prefix_cache(self):
         self.scheduler.reset_prefix_cache()
 
diff --git a/vllm/v1/engine/core_client.py b/vllm/v1/engine/core_client.py
index 91a0a75a3..c33317edc 100644
--- a/vllm/v1/engine/core_client.py
+++ b/vllm/v1/engine/core_client.py
@@ -88,6 +88,9 @@ class EngineCoreClient(ABC):
     def profile(self, is_start: bool = True) -> None:
         raise NotImplementedError
 
+    def reset_mm_cache(self) -> None:
+        raise NotImplementedError
+
     def reset_prefix_cache(self) -> None:
         raise NotImplementedError
 
@@ -143,6 +146,9 @@ class EngineCoreClient(ABC):
     async def profile_async(self, is_start: bool = True) -> None:
         raise NotImplementedError
 
+    async def reset_mm_cache_async(self) -> None:
+        raise NotImplementedError
+
     async def reset_prefix_cache_async(self) -> None:
         raise NotImplementedError
 
@@ -214,6 +220,9 @@ class InprocClient(EngineCoreClient):
     def profile(self, is_start: bool = True) -> None:
         self.engine_core.profile(is_start)
 
+    def reset_mm_cache(self) -> None:
+        self.engine_core.reset_mm_cache()
+
     def reset_prefix_cache(self) -> None:
         self.engine_core.reset_prefix_cache()
 
@@ -600,6 +609,9 @@ class SyncMPClient(MPClient):
     def profile(self, is_start: bool = True) -> None:
         self.call_utility("profile", is_start)
 
+    def reset_mm_cache(self) -> None:
+        self.call_utility("reset_mm_cache")
+
     def reset_prefix_cache(self) -> None:
         self.call_utility("reset_prefix_cache")
 
@@ -787,6 +799,9 @@ class AsyncMPClient(MPClient):
     async def profile_async(self, is_start: bool = True) -> None:
         await self.call_utility_async("profile", is_start)
 
+    async def reset_mm_cache_async(self) -> None:
+        await self.call_utility_async("reset_mm_cache")
+
     async def reset_prefix_cache_async(self) -> None:
         await self.call_utility_async("reset_prefix_cache")
 
diff --git a/vllm/v1/engine/llm_engine.py b/vllm/v1/engine/llm_engine.py
index b471b1536..112896d6c 100644
--- a/vllm/v1/engine/llm_engine.py
+++ b/vllm/v1/engine/llm_engine.py
@@ -101,6 +101,9 @@ class LLMEngine:
             # for v0 compatibility
             self.model_executor = self.engine_core.engine_core.model_executor  # type: ignore
 
+        # Don't keep the dummy data in memory
+        self.reset_mm_cache()
+
     @classmethod
     def from_vllm_config(
         cls,
@@ -240,6 +243,11 @@ class LLMEngine:
     def stop_profile(self):
         self.engine_core.profile(False)
 
+    def reset_mm_cache(self):
+        self.processor.mm_registry.reset_processor_cache()
+        self.processor.mm_input_cache_client.reset()
+        self.engine_core.reset_mm_cache()
+
     def reset_prefix_cache(self, device: Optional[Device] = None):
         self.engine_core.reset_prefix_cache()
 
diff --git a/vllm/v1/engine/mm_input_cache.py b/vllm/v1/engine/mm_input_cache.py
index 64ece840f..fcb90bebd 100644
--- a/vllm/v1/engine/mm_input_cache.py
+++ b/vllm/v1/engine/mm_input_cache.py
@@ -83,3 +83,8 @@ class MirroredProcessingCache:
             full_mm_inputs.append(mm_input)
 
         return full_mm_inputs
+
+    def reset(self) -> bool:
+        self.mm_cache.clear()
+
+        return True
diff --git a/vllm/v1/engine/processor.py b/vllm/v1/engine/processor.py
index 66be88738..64a756148 100644
--- a/vllm/v1/engine/processor.py
+++ b/vllm/v1/engine/processor.py
@@ -54,6 +54,10 @@ class Processor:
         self.use_hash = self.mm_input_cache_client.use_cache or \
             self.cache_config.enable_prefix_caching
 
+    @property
+    def mm_registry(self):
+        return self.input_preprocessor.mm_registry
+
     def _validate_logprobs(
         self,
         params: SamplingParams,
-- 
GitLab


From dc1a821768c757881ad7c9e7462aaae1fa47a340 Mon Sep 17 00:00:00 2001
From: Chauncey <chaunceyjiang@gmail.com>
Date: Tue, 13 May 2025 14:01:31 +0800
Subject: [PATCH 315/461] [Feature][V1]  Support `tool_choice: required` when
 using Xgrammar as the `StructuredOutputBackend`. (#17845)

Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>
---
 requirements/common.txt                       |   2 +-
 .../test_completion_with_function_calling.py  | 154 ++++++++++++++++++
 tests/v1/entrypoints/conftest.py              |   4 +-
 tests/v1/structured_output/test_utils.py      |   8 -
 vllm/v1/structured_output/backend_xgrammar.py |   5 +-
 5 files changed, 160 insertions(+), 13 deletions(-)
 create mode 100644 tests/entrypoints/openai/test_completion_with_function_calling.py

diff --git a/requirements/common.txt b/requirements/common.txt
index f537b3aab..80f90e600 100644
--- a/requirements/common.txt
+++ b/requirements/common.txt
@@ -22,7 +22,7 @@ lm-format-enforcer >= 0.10.11, < 0.11
 llguidance >= 0.7.11, < 0.8.0; platform_machine == "x86_64" or platform_machine == "arm64" or platform_machine == "aarch64"
 outlines == 0.1.11
 lark == 1.2.2
-xgrammar == 0.1.18; platform_machine == "x86_64" or platform_machine == "aarch64"
+xgrammar == 0.1.19; platform_machine == "x86_64" or platform_machine == "aarch64"
 typing_extensions >= 4.10
 filelock >= 3.16.1 # need to contain https://github.com/tox-dev/filelock/pull/317
 partial-json-parser # used for parsing partial JSON outputs
diff --git a/tests/entrypoints/openai/test_completion_with_function_calling.py b/tests/entrypoints/openai/test_completion_with_function_calling.py
new file mode 100644
index 000000000..dad76b54c
--- /dev/null
+++ b/tests/entrypoints/openai/test_completion_with_function_calling.py
@@ -0,0 +1,154 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import openai  # use the official client for correctness check
+import pytest
+import pytest_asyncio
+
+# downloading lora to test lora requests
+from ...utils import RemoteOpenAIServer
+
+# any model with a chat template should work here
+MODEL_NAME = "Qwen/Qwen2.5-1.5B-Instruct"
+
+
+@pytest.fixture(scope="module")
+def server():  # noqa: F811
+    args = [
+        # use half precision for speed and memory savings in CI environment
+        "--dtype",
+        "half",
+        "--enable-auto-tool-choice",
+        "--guided-decoding-backend",
+        "xgrammar",
+        "--tool-call-parser",
+        "hermes"
+    ]
+
+    with RemoteOpenAIServer(MODEL_NAME, args) as remote_server:
+        yield remote_server
+
+
+@pytest_asyncio.fixture
+async def client(server):
+    async with server.get_async_client() as async_client:
+        yield async_client
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+async def test_required_tool_use(client: openai.AsyncOpenAI, model_name: str):
+    tools = [
+        {
+            "type": "function",
+            "function": {
+                "name": "get_current_weather",
+                "description": "Get the current weather in a given location",
+                "parameters": {
+                    "type": "object",
+                    "properties": {
+                        "city": {
+                            "type": "string",
+                            "description":
+                            "The city to find the weather for, e.g. 'Vienna'",
+                            "default": "Vienna",
+                        },
+                        "country": {
+                            "type":
+                            "string",
+                            "description":
+                            "The country that the city is in, e.g. 'Austria'",
+                        },
+                        "unit": {
+                            "type": "string",
+                            "description":
+                            "The unit to fetch the temperature in",
+                            "enum": ["celsius", "fahrenheit"],
+                        },
+                    },
+                    "required": ["country", "unit"],
+                },
+            },
+        },
+        {
+            "type": "function",
+            "function": {
+                "name": "get_forecast",
+                "description": "Get the weather forecast for a given location",
+                "parameters": {
+                    "type": "object",
+                    "properties": {
+                        "city": {
+                            "type": "string",
+                            "description":
+                            "The city to get the forecast for, e.g. 'Vienna'",
+                            "default": "Vienna",
+                        },
+                        "country": {
+                            "type":
+                            "string",
+                            "description":
+                            "The country that the city is in, e.g. 'Austria'",
+                        },
+                        "days": {
+                            "type":
+                            "integer",
+                            "description":
+                            "Number of days to get the forecast for (1-7)",
+                        },
+                        "unit": {
+                            "type": "string",
+                            "description":
+                            "The unit to fetch the temperature in",
+                            "enum": ["celsius", "fahrenheit"],
+                        },
+                    },
+                    "required": ["country", "days", "unit"],
+                },
+            },
+        },
+    ]
+
+    messages = [
+        {
+            "role": "user",
+            "content": "Hi! How are you doing today?"
+        },
+        {
+            "role": "assistant",
+            "content": "I'm doing well! How can I help you?"
+        },
+        {
+            "role":
+            "user",
+            "content":
+            "Can you tell me what the current weather is in Berlin and the "\
+            "forecast for the next 5 days, in fahrenheit?",
+        },
+    ]
+
+    # Non-streaming test
+    chat_completion = await client.chat.completions.create(
+        messages=messages,
+        model=model_name,
+        tools=tools,
+        tool_choice="required",
+    )
+
+    assert chat_completion.choices[0].message.tool_calls is not None
+    assert len(chat_completion.choices[0].message.tool_calls) > 0
+
+    # Streaming test
+    stream = await client.chat.completions.create(
+        messages=messages,
+        model=model_name,
+        tools=tools,
+        tool_choice="required",
+        stream=True,
+    )
+
+    output = []
+    async for chunk in stream:
+        if chunk.choices and chunk.choices[0].delta.tool_calls:
+            output.extend(chunk.choices[0].delta.tool_calls)
+
+    assert len(output) > 0
diff --git a/tests/v1/entrypoints/conftest.py b/tests/v1/entrypoints/conftest.py
index bdee0bb8d..8c03f0433 100644
--- a/tests/v1/entrypoints/conftest.py
+++ b/tests/v1/entrypoints/conftest.py
@@ -74,7 +74,9 @@ def sample_json_schema():
                     },
                     "required": ["company", "duration", "position"],
                     "additionalProperties": False
-                }
+                },
+                "minItems": 0,
+                "maxItems": 3
             }
         },
         "required":
diff --git a/tests/v1/structured_output/test_utils.py b/tests/v1/structured_output/test_utils.py
index 1cefe8726..ffc0bceee 100644
--- a/tests/v1/structured_output/test_utils.py
+++ b/tests/v1/structured_output/test_utils.py
@@ -57,14 +57,6 @@ def unsupported_array_schemas():
             "type": "array",
             "maxContains": 5
         },
-        {
-            "type": "array",
-            "minItems": 1
-        },
-        {
-            "type": "array",
-            "maxItems": 10
-        },
     ]
 
 
diff --git a/vllm/v1/structured_output/backend_xgrammar.py b/vllm/v1/structured_output/backend_xgrammar.py
index baa478bc6..2ce2be337 100644
--- a/vllm/v1/structured_output/backend_xgrammar.py
+++ b/vllm/v1/structured_output/backend_xgrammar.py
@@ -215,9 +215,8 @@ def has_xgrammar_unsupported_json_features(schema: dict[str, Any]) -> bool:
 
         # Check for array unsupported keywords
         if obj.get("type") == "array" and any(
-                key in obj
-                for key in ("uniqueItems", "contains", "minContains",
-                            "maxContains", "minItems", "maxItems")):
+                key in obj for key in ("uniqueItems", "contains",
+                                       "minContains", "maxContains")):
             return True
 
         # Unsupported keywords for strings
-- 
GitLab


From 48545728d872e9311b4a87b7976673fc7d1fb554 Mon Sep 17 00:00:00 2001
From: Calvin Chen <45745657+calvin0327@users.noreply.github.com>
Date: Tue, 13 May 2025 14:01:57 +0800
Subject: [PATCH 316/461] cleanup invalid prints (#18050)

Signed-off-by: calvin chen <120380290@qq.com>
---
 vllm/worker/hpu_model_runner.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/vllm/worker/hpu_model_runner.py b/vllm/worker/hpu_model_runner.py
index a343e2fed..e2261cbb2 100644
--- a/vllm/worker/hpu_model_runner.py
+++ b/vllm/worker/hpu_model_runner.py
@@ -1554,10 +1554,8 @@ class HPUModelRunnerBase(ModelRunnerBase[TModelInputForHPU]):
                            'Please update Gaudi Software Suite.')
         with compile_only_mode_context(
         ) if can_use_compile_only_mode else contextlib.nullcontext():
-            print("aa")
             self.warmup_all_buckets(self.bucketing_ctx.prompt_buckets, True,
                                     kv_caches)
-            print("bb")
             self.warmup_all_buckets(self.bucketing_ctx.decode_buckets, False,
                                     kv_caches)
 
-- 
GitLab


From ee5be834e7dcdea02512cffc125add6961f71b82 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Mon, 12 May 2025 23:03:55 -0700
Subject: [PATCH 317/461] [BugFix] Fix 4-GPU RLHF tests (#18007)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 .buildkite/test-pipeline.yaml | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index da5db189f..d46459eae 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -158,8 +158,8 @@ steps:
   # TODO: create a dedicated test section for multi-GPU example tests
   # when we have multiple distributed example tests
   - pushd ../examples/offline_inference
-  - python3 rlhf.py
-  - RAY_DEDUP_LOGS=0 python3 rlhf_colocate.py
+  - VLLM_ALLOW_INSECURE_SERIALIZATION=1 python3 rlhf.py
+  - VLLM_ALLOW_INSECURE_SERIALIZATION=1 RAY_DEDUP_LOGS=0 python3 rlhf_colocate.py
   - popd
 
 - label: Metrics, Tracing Test # 10min
-- 
GitLab


From e57e4d6e9e3aa9987c1cffe4724d59d52b97c44e Mon Sep 17 00:00:00 2001
From: Driss Guessous <32754868+drisspg@users.noreply.github.com>
Date: Mon, 12 May 2025 23:31:06 -0700
Subject: [PATCH 318/461] Fix Broken macro for cutlass moe (#18049)

Signed-off-by: drisspg <drisspguessous@gmail.com>
---
 csrc/quantization/cutlass_w8a8/scaled_mm_entry.cu | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/csrc/quantization/cutlass_w8a8/scaled_mm_entry.cu b/csrc/quantization/cutlass_w8a8/scaled_mm_entry.cu
index 9843cd857..3c258ddce 100644
--- a/csrc/quantization/cutlass_w8a8/scaled_mm_entry.cu
+++ b/csrc/quantization/cutlass_w8a8/scaled_mm_entry.cu
@@ -29,7 +29,8 @@ void cutlass_scaled_mm_sm90(torch::Tensor& c, torch::Tensor const& a,
                             torch::Tensor const& a_scales,
                             torch::Tensor const& b_scales,
                             std::optional<torch::Tensor> const& bias);
-
+#endif
+#if defined ENABLE_CUTLASS_MOE_SM90 && ENABLE_CUTLASS_MOE_SM90
 void cutlass_moe_mm_sm90(
     torch::Tensor& out_tensors, torch::Tensor const& a_tensors,
     torch::Tensor const& b_tensors, torch::Tensor const& a_scales,
-- 
GitLab


From f0d610a8aeaeb5bc1b207b51fd20bd4985f7f8bf Mon Sep 17 00:00:00 2001
From: Chen Zhang <zhangch99@outlook.com>
Date: Tue, 13 May 2025 14:50:38 +0800
Subject: [PATCH 319/461] [v1][KVCacheManager] Avoid full cache hit by
 controlling max_length (#17999)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>
Co-authored-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>
---
 tests/v1/core/test_specialized_manager.py    |  7 ++--
 vllm/v1/core/kv_cache_manager.py             | 31 ++++++----------
 vllm/v1/core/single_type_kv_cache_manager.py | 37 +++++++++++---------
 3 files changed, 36 insertions(+), 39 deletions(-)

diff --git a/tests/v1/core/test_specialized_manager.py b/tests/v1/core/test_specialized_manager.py
index de06da0fc..101a2379b 100644
--- a/tests/v1/core/test_specialized_manager.py
+++ b/tests/v1/core/test_specialized_manager.py
@@ -17,8 +17,9 @@ def get_sliding_window_manager(sliding_window_spec, block_pool):
 
 
 def test_sliding_window_possible_cached_prefix():
+    block_size = 2
     sliding_window_spec = SlidingWindowSpec(
-        block_size=2,
+        block_size=block_size,
         num_kv_heads=1,
         head_size=1,
         dtype=torch.float32,
@@ -44,7 +45,9 @@ def test_sliding_window_possible_cached_prefix():
                     i: block_pool.blocks[i + 10]
                 }
 
-        computed_blocks = manager.find_longest_cache_hit(block_hash_list)
+        computed_blocks = manager.find_longest_cache_hit(
+            block_hash_list,
+            len(block_hash_list) * block_size)
         assert len(computed_blocks) == expect_length
 
         assert all(block == block_pool.null_block
diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
index b34b53155..61ccb5311 100644
--- a/vllm/v1/core/kv_cache_manager.py
+++ b/vllm/v1/core/kv_cache_manager.py
@@ -146,21 +146,16 @@ class KVCacheManager:
             assert self.prefix_cache_stats is not None
             self.prefix_cache_stats.requests += 1
 
-        if len(block_hashes) * self.block_size == request.num_tokens:
-            # When prompt length is divisible by the block size and all
-            # blocks are cached, we need to recompute the last token. This
-            # have to be achieved by re-computing an entire block because
-            # allocate_slots() assumes num_computed_tokens is always a
-            # multiple of the block size. To achieve this, remove the last
-            # block hash from the block_hashes for find_longest_cache_hit
-            # This limitation can potentially be removed in the future to
-            # slightly improve the performance.
-            last_block_hash = block_hashes.pop()
-        else:
-            last_block_hash = None
-
-        computed_blocks = (
-            self.single_type_manager.find_longest_cache_hit(block_hashes))
+        # NOTE: When all tokens hit the cache, we must recompute the last token
+        # to obtain logits. Thus, set max_cache_hit_length to prompt_length - 1.
+        # This can trigger recomputation of an entire block, rather than just
+        # the single last token, because allocate_slots() requires
+        # num_computed_tokens to be block-size aligned. Removing this limitation
+        # could slightly improve performance in the future.
+        max_cache_hit_length = request.num_tokens - 1
+
+        computed_blocks = self.single_type_manager.find_longest_cache_hit(
+            block_hashes, max_cache_hit_length)
         # NOTE(woosuk): Since incomplete blocks are not eligible for
         # sharing, `num_computed_tokens` is always a multiple of
         # `block_size`.
@@ -171,12 +166,6 @@ class KVCacheManager:
             self.prefix_cache_stats.queries += request.num_tokens
             self.prefix_cache_stats.hits += num_computed_tokens
 
-        if last_block_hash is not None:
-            # Add back the last block hash if it was removed.
-            # NOTE: Because block_hashes is cached in req_to_block_hashes,
-            # we shouldn't modify it directly.
-            block_hashes.append(last_block_hash)
-
         return KVCacheBlocks(computed_blocks), num_computed_tokens
 
     def allocate_slots(
diff --git a/vllm/v1/core/single_type_kv_cache_manager.py b/vllm/v1/core/single_type_kv_cache_manager.py
index 3fd3cb284..0223c9cee 100644
--- a/vllm/v1/core/single_type_kv_cache_manager.py
+++ b/vllm/v1/core/single_type_kv_cache_manager.py
@@ -187,17 +187,19 @@ class SingleTypeKVCacheManager(ABC):
         raise NotImplementedError
 
     @abstractmethod
-    def find_longest_cache_hit(
-            self, block_hashes: list[BlockHashType]) -> list[KVCacheBlock]:
+    def find_longest_cache_hit(self, block_hashes: list[BlockHashType],
+                               max_length: int) -> list[KVCacheBlock]:
         """
-        Get the longest cache hit prefix of the blocks. If no cache hit is 
-        found, return an empty list. if eagle is enabled, drop the last matched 
-        block to force recompute the last block to get the required hidden 
-        states for eagle drafting head. Need to be customized for each attention
-        type.
+        Get the longest cache hit prefix of the blocks that is not longer than 
+        `max_length`. If no cache hit is found, return an empty list. 
+        If eagle is enabled, drop the last matched block to force recompute the 
+        last block to get the required hidden states for eagle drafting head. 
+        Need to be customized for each attention type.
 
         Args:
             block_hashes: The block hashes of the request.
+            max_length: The maximum length of the cache hit prefix.
+
         Returns:
             A list of cached blocks with skipped blocks replaced by null block.
             For example, sliding window manager should return a list like
@@ -226,10 +228,12 @@ class SingleTypeKVCacheManager(ABC):
 
 class FullAttentionManager(SingleTypeKVCacheManager):
 
-    def find_longest_cache_hit(
-            self, block_hashes: list[BlockHashType]) -> list[KVCacheBlock]:
+    def find_longest_cache_hit(self, block_hashes: list[BlockHashType],
+                               max_length: int) -> list[KVCacheBlock]:
         computed_blocks: list[KVCacheBlock] = []
-        for block_hash in block_hashes:
+        max_num_blocks = max_length // self.block_size
+        for i in range(max_num_blocks):
+            block_hash = block_hashes[i]
             # block_hashes is a chain of block hashes. If a block hash is not
             # in the cached_block_hash_to_id, the following block hashes are
             # not computed yet for sure.
@@ -276,19 +280,20 @@ class SlidingWindowManager(SingleTypeKVCacheManager):
             self.sliding_window_contiguous_blocks += 1
         self._null_block = block_pool.null_block
 
-    def find_longest_cache_hit(
-            self, block_hashes: list[BlockHashType]) -> list[KVCacheBlock]:
+    def find_longest_cache_hit(self, block_hashes: list[BlockHashType],
+                               max_length: int) -> list[KVCacheBlock]:
         # TODO: reduce i by sliding_window_contiguous_blocks when cache miss, to
-        # optimize the time complexity from O(len(block_hashes)) to
-        # O(len(block_hashes) / sliding_window_contiguous_blocks +
+        # optimize the time complexity from O(max_num_blocks) to
+        # O(max_num_blocks / sliding_window_contiguous_blocks +
         # sliding_window_contiguous_blocks),
         # which is good for low cache hit rate scenarios.
-        computed_blocks = [self._null_block] * len(block_hashes)
+        max_num_blocks = max_length // self.block_size
+        computed_blocks = [self._null_block] * max_num_blocks
         num_contiguous_blocks = 0
 
         match_found = False
         # Search from right to left and early stop when a match is found.
-        for i in range(len(block_hashes) - 1, -1, -1):
+        for i in range(max_num_blocks - 1, -1, -1):
             if cached_block := self.block_pool.get_cached_block(
                     block_hashes[i]):
                 computed_blocks[i] = cached_block
-- 
GitLab


From 8dd0671baca64527ddc53dbe93a78b800fdc3e54 Mon Sep 17 00:00:00 2001
From: Jin Huang <jinhuang1992@gmail.com>
Date: Tue, 13 May 2025 03:10:07 -0400
Subject: [PATCH 320/461] [Bugfix][V1] Only get input embeddings w/ multi-modal
 models if first PP (#17916)

Signed-off-by: Jin Huang <jinhun@amazon.com>
Co-authored-by: Jin Huang <jinhun@amazon.com>
---
 vllm/v1/worker/gpu_model_runner.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index bd833735b..31895cc08 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -1107,7 +1107,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         else:
             mm_embeds = []
 
-        if self.is_multimodal_model:
+        if self.is_multimodal_model and get_pp_group().is_first_rank:
             # NOTE(woosuk): To unify token ids and soft tokens (vision
             # embeddings), we always use embeddings (rather than token ids)
             # as input to the multimodal model, even when the input is text.
-- 
GitLab


From 2ff297dce93317f8d1f806852a4e98b3d2755f92 Mon Sep 17 00:00:00 2001
From: Woosuk Kwon <woosuk.kwon@berkeley.edu>
Date: Tue, 13 May 2025 00:52:19 -0700
Subject: [PATCH 321/461] [BugFix] Set default random seed to 0 for V1 (#17929)

Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>
---
 vllm/config.py | 21 ++++++++++++++++++++-
 1 file changed, 20 insertions(+), 1 deletion(-)

diff --git a/vllm/config.py b/vllm/config.py
index 19664b24a..dd0791537 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -261,7 +261,8 @@ class ModelConfig:
     - "float" is shorthand for FP32 precision.\n
     - "float32" for FP32 precision."""
     seed: Optional[int] = None
-    """Random seed for reproducibility."""
+    """Random seed for reproducibility. Initialized to None in V0, but
+    initialized to 0 in V1."""
     hf_config_path: Optional[str] = None
     """Name or path of the Hugging Face config to use. If unspecified, model
     name or path will be used."""
@@ -441,6 +442,24 @@ class ModelConfig:
         return hashlib.sha256(str(factors).encode()).hexdigest()
 
     def __post_init__(self) -> None:
+        # Set the default seed to 0 in V1.
+        # NOTE(woosuk): In V0, we set the default seed to None because the
+        # driver worker shares the same process as the user process, and thus
+        # setting a seed affects the user process as well.
+        # In V1, we use separate processes for workers (unless
+        # VLLM_ENABLE_V1_MULTIPROCESSING=0), so setting a seed here
+        # doesn't affect the user process. However, without a consistent seed,
+        # different tensor parallel workers would sample different tokens,
+        # leading to inconsistent results.
+        if envs.VLLM_USE_V1 and self.seed is None:
+            self.seed = 0
+            if not envs.VLLM_ENABLE_V1_MULTIPROCESSING:
+                logger.warning(
+                    "The global random seed is set to %d. Since "
+                    "VLLM_ENABLE_V1_MULTIPROCESSING is set to False, this may "
+                    "affect the random state of the Python process that "
+                    "launched vLLM.", self.seed)
+
         self.model = maybe_model_redirect(self.model)
         # The tokenizer is consistent with the model by default.
         if self.tokenizer is None:
-- 
GitLab


From ea6ae8cb45f7c1f8bbe76e1166893adae43881ae Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Tue, 13 May 2025 03:53:28 -0400
Subject: [PATCH 322/461] [Bugfix] Fix marlin moe fallback logic for llama4
 (#18042)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 tests/weight_loading/models-large.txt                |  3 ++-
 vllm/model_executor/layers/fused_moe/layer.py        |  2 +-
 .../layers/quantization/utils/marlin_utils.py        | 12 +++++++++---
 3 files changed, 12 insertions(+), 5 deletions(-)

diff --git a/tests/weight_loading/models-large.txt b/tests/weight_loading/models-large.txt
index 9c1c11da5..ee98aed26 100644
--- a/tests/weight_loading/models-large.txt
+++ b/tests/weight_loading/models-large.txt
@@ -4,4 +4,5 @@ compressed-tensors, nm-testing/Mixtral-8x7B-Instruct-v0.1-W8A16-quantized, main
 compressed-tensors, nm-testing/test-w4a16-mixtral-actorder-group, main
 gptq_marlin, TheBloke/Mixtral-8x7B-v0.1-GPTQ, main
 gptq_marlin, TheBloke/Mixtral-8x7B-v0.1-GPTQ, gptq-8bit-128g-actorder_True
-awq_marlin, casperhansen/deepseek-coder-v2-instruct-awq, main
\ No newline at end of file
+awq_marlin, casperhansen/deepseek-coder-v2-instruct-awq, main
+compressed-tensors, RedHatAI/Llama-4-Scout-17B-16E-Instruct-quantized.w4a16, main
\ No newline at end of file
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 5337ff003..6a3d00acd 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -480,6 +480,7 @@ class FusedMoE(torch.nn.Module):
         self.custom_routing_function = custom_routing_function
         self.scoring_func = scoring_func
         self.e_score_correction_bias = e_score_correction_bias
+        self.apply_router_weight_on_input = apply_router_weight_on_input
         self.activation = activation
 
         if self.scoring_func != "softmax" and not self.use_grouped_topk:
@@ -498,7 +499,6 @@ class FusedMoE(torch.nn.Module):
             self.quant_method = quant_config.get_quant_method(self, prefix)
         assert self.quant_method is not None
 
-        self.apply_router_weight_on_input = apply_router_weight_on_input
         moe_quant_params = {
             "num_experts": self.local_num_experts,
             "hidden_size": hidden_size,
diff --git a/vllm/model_executor/layers/quantization/utils/marlin_utils.py b/vllm/model_executor/layers/quantization/utils/marlin_utils.py
index 89268ef7a..11efd5802 100644
--- a/vllm/model_executor/layers/quantization/utils/marlin_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils.py
@@ -171,13 +171,19 @@ def check_moe_marlin_supports_layer(layer: LinearBase, group_size: int) \
                                     -> bool:
     hidden_size = layer.hidden_size
     intermediate_size_per_partition = layer.intermediate_size_per_partition
+    # apply_router_weight_on_input is not supported for moe marlin
+    supports_router_weight = not layer.apply_router_weight_on_input
+    # moe marlin requires the activation to be silu
+    supports_activation = layer.activation == "silu"
 
     # gate-up: (n, k) = (intermediate_size_per_partition * 2, hidden_size)
     # down: (n, k) = (hidden_size, intermediate_size_per_partition)
     # moe marlin requires n % 128 == 0 and k % 64 == 0
-    return hidden_size % 128 == 0 and \
-        intermediate_size_per_partition % max(64, group_size) == 0 and \
-        group_size in [-1, 32, 64, 128]
+    supports_shape = hidden_size % 128 == 0 and \
+        intermediate_size_per_partition % max(64, group_size) == 0
+    supports_group_size = group_size in [-1, 32, 64, 128]
+    return supports_shape and supports_group_size and \
+        supports_router_weight and supports_activation
 
 
 def marlin_make_workspace(output_size_per_partition: int,
-- 
GitLab


From 23b3134eb5ee45f2d2e97d89110f8a52e3f421a1 Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Tue, 13 May 2025 04:47:29 -0400
Subject: [PATCH 323/461] [Benchmarks] Refactor
 run_structured_output_benchmarks.sh (#17722)

Signed-off-by: Russell Bryant <rbryant@redhat.com>
---
 benchmarks/run_structured_output_benchmark.sh | 101 +++++++++++++++---
 1 file changed, 85 insertions(+), 16 deletions(-)

diff --git a/benchmarks/run_structured_output_benchmark.sh b/benchmarks/run_structured_output_benchmark.sh
index 53dc7ed70..b043ab83e 100755
--- a/benchmarks/run_structured_output_benchmark.sh
+++ b/benchmarks/run_structured_output_benchmark.sh
@@ -1,32 +1,98 @@
 #!/bin/bash
 
-# Define the model to use
-MODEL=${1:-"Qwen/Qwen2.5-7B-Instruct"}
-
-# Define the backend to use
-BACKEND=${2:-"vllm"}
-
-# Define the dataset to use
-DATASET=${3:-"xgrammar_bench"}
-
+# default values
+MODEL=${MODEL:-"Qwen/Qwen2.5-7B-Instruct"}
+BACKEND=${BACKEND:-"vllm"}
+DATASET=${DATASET:-"xgrammar_bench"}
 SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
-OUTPUT_DIR=${4:-"$SCRIPT_DIR/structured_output_benchmark_results"}
+OUTPUT_DIR=${OUTPUT_DIR:-"$SCRIPT_DIR/structured_output_benchmark_results"}
+PORT=${PORT:-8000}
+STRUCTURED_OUTPUT_RATIO=${STRUCTURED_OUTPUT_RATIO:-1}
+TOTAL_SECONDS=${TOTAL_SECONDS:-90}
+MAX_NEW_TOKENS=${MAX_NEW_TOKENS:-300}
+TOKENIZER_MODE=${TOKENIZER_MODE:-"auto"}
 
-GUIDED_RATIO=${5:-0.5}
+usage() {
+    echo "Usage: $0 [options]"
+    echo "Options:"
+    echo "  --model MODEL                  Model to benchmark (default: $MODEL)"
+    echo "  --backend BACKEND              Backend to use (default: $BACKEND)" 
+    echo "  --dataset DATASET              Dataset to use (default: $DATASET)"
+    echo "  --max-new-tokens N             Maximum number of tokens to generate (default: $MAX_NEW_TOKENS)"
+    echo "  --output-dir DIR               Output directory for results (default: $OUTPUT_DIR)"
+    echo "  --port PORT                    Port to use (default: $PORT)"
+    echo "  --structured-output-ratio N    Ratio of structured outputs (default: $STRUCTURED_OUTPUT_RATIO)"
+    echo "  --tokenizer-mode MODE          Tokenizer mode to use (default: $TOKENIZER_MODE)"
+    echo "  --total-seconds N              Total seconds to run the benchmark (default: $TOTAL_SECONDS)"
+    echo "  -h, --help                     Show this help message and exit"
+    exit 0
+}
+
+# parse command line arguments
+while [[ $# -gt 0 ]]; do
+  case $1 in
+    --model)
+      MODEL="$2"
+      shift 2
+      ;;
+    --backend)
+      BACKEND="$2"
+      shift 2
+      ;;
+    --dataset)
+      DATASET="$2"
+      shift 2
+      ;;
+    --max-new-tokens)
+      MAX_NEW_TOKENS="$2"
+      shift 2
+      ;;
+    --output-dir)
+      OUTPUT_DIR="$2"
+      shift 2
+      ;;
+    --port)
+      PORT="$2"
+      shift 2
+      ;;
+    --structured-output-ratio)
+      STRUCTURED_OUTPUT_RATIO="$2"
+      shift 2
+      ;;
+    --tokenizer-mode)
+      TOKENIZER_MODE="$2"
+      shift 2
+      ;;
+    --total-seconds)
+      TOTAL_SECONDS="$2"
+      shift 2
+      ;;
+    -h|--help)
+      usage
+      ;;
+    *)
+      echo "Unknown argument: $1\n"
+      usage
+      ;;
+  esac
+done
 
 # Create output directory if it doesn't exist
 mkdir -p "$OUTPUT_DIR"
 
 # Define QPS values to test
-QPS_VALUES=(70 60 50 25 20 15 10)
+QPS_VALUES=(25 20 15 10 5 1)
 
 # Common parameters
 COMMON_PARAMS="--backend $BACKEND \
                --model $MODEL \
                --dataset $DATASET \
-               --structured-output-ratio $GUIDED_RATIO \
+               --structured-output-ratio $STRUCTURED_OUTPUT_RATIO \
                --save-results \
-               --result-dir $OUTPUT_DIR"
+               --result-dir $OUTPUT_DIR \
+               --output-len $MAX_NEW_TOKENS \
+               --port $PORT \
+               --tokenizer-mode $TOKENIZER_MODE"
 
 echo "Starting structured output benchmark with model: $MODEL"
 echo "Backend: $BACKEND"
@@ -45,12 +111,15 @@ for qps in "${QPS_VALUES[@]}"; do
   # Construct filename for this run
   FILENAME="${BACKEND}_${qps}qps_$(basename $MODEL)_${DATASET}_${GIT_HASH}.json"
 
+  NUM_PROMPTS=$(echo "$TOTAL_SECONDS * $qps" | bc)
+  NUM_PROMPTS=${NUM_PROMPTS%.*}  # Remove fractional part
+  echo "Running benchmark with $NUM_PROMPTS prompts"
+
   # Run the benchmark
   python "$SCRIPT_DIR/benchmark_serving_structured_output.py" $COMMON_PARAMS \
     --request-rate $qps \
     --result-filename "$FILENAME" \
-    --tokenizer-mode ${TOKENIZER_MODE:-"auto"} \
-    --port ${PORT:-8000}
+    --num-prompts $NUM_PROMPTS
 
   echo "Completed benchmark with QPS: $qps"
   echo "----------------------------------------"
-- 
GitLab


From 98fcba1575da8d80e47d0540898015d2906d4720 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 13 May 2025 10:28:31 +0100
Subject: [PATCH 324/461] Convert `.buildkite` to `ruff format` (#17656)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .buildkite/check-wheel-size.py                | 20 +++--
 .buildkite/generate_index.py                  |  4 +-
 .buildkite/lm-eval-harness/conftest.py        | 16 ++--
 .../test_lm_eval_correctness.py               | 26 +++---
 .../convert-results-json-to-markdown.py       | 89 ++++++++++---------
 .../scripts/download-tokenizer.py             | 15 ++--
 .../scripts/generate-nightly-markdown.py      | 41 +++++----
 .../scripts/summary-nightly-results.py        | 24 +++--
 .buildkite/pyproject.toml                     | 55 ++++++++++++
 .pre-commit-config.yaml                       |  4 +
 pyproject.toml                                |  2 +
 11 files changed, 182 insertions(+), 114 deletions(-)
 create mode 100644 .buildkite/pyproject.toml

diff --git a/.buildkite/check-wheel-size.py b/.buildkite/check-wheel-size.py
index a378bc6ba..e29881fcb 100644
--- a/.buildkite/check-wheel-size.py
+++ b/.buildkite/check-wheel-size.py
@@ -8,12 +8,12 @@ import zipfile
 # Note that we have 400 MiB quota, please use it wisely.
 # See https://github.com/pypi/support/issues/3792 .
 # Please also sync the value with the one in Dockerfile.
-VLLM_MAX_SIZE_MB = int(os.environ.get('VLLM_MAX_SIZE_MB', 400))
+VLLM_MAX_SIZE_MB = int(os.environ.get("VLLM_MAX_SIZE_MB", 400))
 
 
 def print_top_10_largest_files(zip_file):
     """Print the top 10 largest files in the given zip file."""
-    with zipfile.ZipFile(zip_file, 'r') as z:
+    with zipfile.ZipFile(zip_file, "r") as z:
         file_sizes = [(f, z.getinfo(f).file_size) for f in z.namelist()]
         file_sizes.sort(key=lambda x: x[1], reverse=True)
         for f, size in file_sizes[:10]:
@@ -28,14 +28,18 @@ def check_wheel_size(directory):
                 wheel_path = os.path.join(root, file_name)
                 wheel_size_mb = os.path.getsize(wheel_path) / (1024 * 1024)
                 if wheel_size_mb > VLLM_MAX_SIZE_MB:
-                    print(f"Not allowed: Wheel {wheel_path} is larger "
-                          f"({wheel_size_mb:.2f} MB) than the limit "
-                          f"({VLLM_MAX_SIZE_MB} MB).")
+                    print(
+                        f"Not allowed: Wheel {wheel_path} is larger "
+                        f"({wheel_size_mb:.2f} MB) than the limit "
+                        f"({VLLM_MAX_SIZE_MB} MB)."
+                    )
                     print_top_10_largest_files(wheel_path)
                     return 1
                 else:
-                    print(f"Wheel {wheel_path} is within the allowed size "
-                          f"({wheel_size_mb:.2f} MB).")
+                    print(
+                        f"Wheel {wheel_path} is within the allowed size "
+                        f"({wheel_size_mb:.2f} MB)."
+                    )
     return 0
 
 
@@ -45,4 +49,4 @@ if __name__ == "__main__":
         sys.exit(1)
 
     directory = sys.argv[1]
-    sys.exit(check_wheel_size(directory))
\ No newline at end of file
+    sys.exit(check_wheel_size(directory))
diff --git a/.buildkite/generate_index.py b/.buildkite/generate_index.py
index 36e1b6c01..270663c41 100644
--- a/.buildkite/generate_index.py
+++ b/.buildkite/generate_index.py
@@ -22,5 +22,5 @@ with open("index.html", "w") as f:
     print(f"Generated index.html for {args.wheel}")
     # cloudfront requires escaping the '+' character
     f.write(
-        template.format(wheel=filename,
-                        wheel_html_escaped=filename.replace("+", "%2B")))
+        template.format(wheel=filename, wheel_html_escaped=filename.replace("+", "%2B"))
+    )
diff --git a/.buildkite/lm-eval-harness/conftest.py b/.buildkite/lm-eval-harness/conftest.py
index a0bcc993e..769d2efda 100644
--- a/.buildkite/lm-eval-harness/conftest.py
+++ b/.buildkite/lm-eval-harness/conftest.py
@@ -8,11 +8,14 @@ def pytest_addoption(parser):
     parser.addoption(
         "--config-list-file",
         action="store",
-        help="Path to the file listing model config YAMLs (one per line)")
-    parser.addoption("--tp-size",
-                     action="store",
-                     default="1",
-                     help="Tensor parallel size to use for evaluation")
+        help="Path to the file listing model config YAMLs (one per line)",
+    )
+    parser.addoption(
+        "--tp-size",
+        action="store",
+        default="1",
+        help="Tensor parallel size to use for evaluation",
+    )
 
 
 @pytest.fixture(scope="session")
@@ -33,7 +36,8 @@ def pytest_generate_tests(metafunc):
         config_dir = config_list_file.parent
         with open(config_list_file, encoding="utf-8") as f:
             configs = [
-                config_dir / line.strip() for line in f
+                config_dir / line.strip()
+                for line in f
                 if line.strip() and not line.startswith("#")
             ]
         metafunc.parametrize("config_filename", configs)
diff --git a/.buildkite/lm-eval-harness/test_lm_eval_correctness.py b/.buildkite/lm-eval-harness/test_lm_eval_correctness.py
index c5411daf0..409a6ca82 100644
--- a/.buildkite/lm-eval-harness/test_lm_eval_correctness.py
+++ b/.buildkite/lm-eval-harness/test_lm_eval_correctness.py
@@ -16,19 +16,22 @@ RTOL = 0.08
 
 
 def launch_lm_eval(eval_config, tp_size):
-    trust_remote_code = eval_config.get('trust_remote_code', False)
-    model_args = f"pretrained={eval_config['model_name']}," \
-                 f"tensor_parallel_size={tp_size}," \
-                 f"enforce_eager=true," \
-                 f"add_bos_token=true," \
-                 f"trust_remote_code={trust_remote_code}"
+    trust_remote_code = eval_config.get("trust_remote_code", False)
+    model_args = (
+        f"pretrained={eval_config['model_name']},"
+        f"tensor_parallel_size={tp_size},"
+        f"enforce_eager=true,"
+        f"add_bos_token=true,"
+        f"trust_remote_code={trust_remote_code}"
+    )
     results = lm_eval.simple_evaluate(
         model="vllm",
         model_args=model_args,
         tasks=[task["name"] for task in eval_config["tasks"]],
         num_fewshot=eval_config["num_fewshot"],
         limit=eval_config["limit"],
-        batch_size="auto")
+        batch_size="auto",
+    )
     return results
 
 
@@ -42,9 +45,10 @@ def test_lm_eval_correctness_param(config_filename, tp_size):
         for metric in task["metrics"]:
             ground_truth = metric["value"]
             measured_value = results["results"][task["name"]][metric["name"]]
-            print(f'{task["name"]} | {metric["name"]}: '
-                  f'ground_truth={ground_truth} | measured={measured_value}')
-            success = success and np.isclose(
-                ground_truth, measured_value, rtol=RTOL)
+            print(
+                f"{task['name']} | {metric['name']}: "
+                f"ground_truth={ground_truth} | measured={measured_value}"
+            )
+            success = success and np.isclose(ground_truth, measured_value, rtol=RTOL)
 
     assert success
diff --git a/.buildkite/nightly-benchmarks/scripts/convert-results-json-to-markdown.py b/.buildkite/nightly-benchmarks/scripts/convert-results-json-to-markdown.py
index 1030ec24e..7f2a2d8dc 100644
--- a/.buildkite/nightly-benchmarks/scripts/convert-results-json-to-markdown.py
+++ b/.buildkite/nightly-benchmarks/scripts/convert-results-json-to-markdown.py
@@ -65,18 +65,18 @@ def read_markdown(file):
 
 
 def results_to_json(latency, throughput, serving):
-    return json.dumps({
-        'latency': latency.to_dict(),
-        'throughput': throughput.to_dict(),
-        'serving': serving.to_dict()
-    })
+    return json.dumps(
+        {
+            "latency": latency.to_dict(),
+            "throughput": throughput.to_dict(),
+            "serving": serving.to_dict(),
+        }
+    )
 
 
 if __name__ == "__main__":
-
     # collect results
     for test_file in results_folder.glob("*.json"):
-
         with open(test_file) as f:
             raw_result = json.loads(f.read())
 
@@ -120,7 +120,8 @@ if __name__ == "__main__":
             for perc in [10, 25, 50, 75, 90, 99]:
                 # Multiply 1000 to convert the time unit from s to ms
                 raw_result.update(
-                    {f"P{perc}": 1000 * raw_result["percentiles"][str(perc)]})
+                    {f"P{perc}": 1000 * raw_result["percentiles"][str(perc)]}
+                )
             raw_result["avg_latency"] = raw_result["avg_latency"] * 1000
 
             # add the result to raw_result
@@ -153,26 +154,27 @@ if __name__ == "__main__":
     serving_results = pd.DataFrame.from_dict(serving_results)
     throughput_results = pd.DataFrame.from_dict(throughput_results)
 
-    raw_results_json = results_to_json(latency_results, throughput_results,
-                                       serving_results)
+    raw_results_json = results_to_json(
+        latency_results, throughput_results, serving_results
+    )
 
     # remapping the key, for visualization purpose
     if not latency_results.empty:
-        latency_results = latency_results[list(
-            latency_column_mapping.keys())].rename(
-                columns=latency_column_mapping)
+        latency_results = latency_results[list(latency_column_mapping.keys())].rename(
+            columns=latency_column_mapping
+        )
     if not serving_results.empty:
-        serving_results = serving_results[list(
-            serving_column_mapping.keys())].rename(
-                columns=serving_column_mapping)
+        serving_results = serving_results[list(serving_column_mapping.keys())].rename(
+            columns=serving_column_mapping
+        )
     if not throughput_results.empty:
-        throughput_results = throughput_results[list(
-            throughput_results_column_mapping.keys())].rename(
-                columns=throughput_results_column_mapping)
+        throughput_results = throughput_results[
+            list(throughput_results_column_mapping.keys())
+        ].rename(columns=throughput_results_column_mapping)
 
-    processed_results_json = results_to_json(latency_results,
-                                             throughput_results,
-                                             serving_results)
+    processed_results_json = results_to_json(
+        latency_results, throughput_results, serving_results
+    )
 
     for df in [latency_results, serving_results, throughput_results]:
         if df.empty:
@@ -184,38 +186,39 @@ if __name__ == "__main__":
         # The GPUs sometimes come in format of "GPUTYPE\nGPUTYPE\n...",
         # we want to turn it into "8xGPUTYPE"
         df["GPU"] = df["GPU"].apply(
-            lambda x: f"{len(x.split('\n'))}x{x.split('\n')[0]}")
+            lambda x: f"{len(x.split('\n'))}x{x.split('\n')[0]}"
+        )
 
     # get markdown tables
-    latency_md_table = tabulate(latency_results,
-                                headers='keys',
-                                tablefmt='pipe',
-                                showindex=False)
-    serving_md_table = tabulate(serving_results,
-                                headers='keys',
-                                tablefmt='pipe',
-                                showindex=False)
-    throughput_md_table = tabulate(throughput_results,
-                                   headers='keys',
-                                   tablefmt='pipe',
-                                   showindex=False)
+    latency_md_table = tabulate(
+        latency_results, headers="keys", tablefmt="pipe", showindex=False
+    )
+    serving_md_table = tabulate(
+        serving_results, headers="keys", tablefmt="pipe", showindex=False
+    )
+    throughput_md_table = tabulate(
+        throughput_results, headers="keys", tablefmt="pipe", showindex=False
+    )
 
     # document the result
     with open(results_folder / "benchmark_results.md", "w") as f:
-
-        results = read_markdown("../.buildkite/nightly-benchmarks/" +
-                                "performance-benchmarks-descriptions.md")
+        results = read_markdown(
+            "../.buildkite/nightly-benchmarks/"
+            + "performance-benchmarks-descriptions.md"
+        )
         results = results.format(
             latency_tests_markdown_table=latency_md_table,
             throughput_tests_markdown_table=throughput_md_table,
             serving_tests_markdown_table=serving_md_table,
-            benchmarking_results_in_json_string=processed_results_json)
+            benchmarking_results_in_json_string=processed_results_json,
+        )
         f.write(results)
 
     # document benchmarking results in json
     with open(results_folder / "benchmark_results.json", "w") as f:
-
-        results = latency_results.to_dict(
-            orient='records') + throughput_results.to_dict(
-                orient='records') + serving_results.to_dict(orient='records')
+        results = (
+            latency_results.to_dict(orient="records")
+            + throughput_results.to_dict(orient="records")
+            + serving_results.to_dict(orient="records")
+        )
         f.write(json.dumps(results))
diff --git a/.buildkite/nightly-benchmarks/scripts/download-tokenizer.py b/.buildkite/nightly-benchmarks/scripts/download-tokenizer.py
index 5e17b79d2..778a3a8d8 100644
--- a/.buildkite/nightly-benchmarks/scripts/download-tokenizer.py
+++ b/.buildkite/nightly-benchmarks/scripts/download-tokenizer.py
@@ -14,15 +14,12 @@ def main(model, cachedir):
 
 if __name__ == "__main__":
     parser = argparse.ArgumentParser(
-        description="Download and save Hugging Face tokenizer")
-    parser.add_argument("--model",
-                        type=str,
-                        required=True,
-                        help="Name of the model")
-    parser.add_argument("--cachedir",
-                        type=str,
-                        required=True,
-                        help="Directory to save the tokenizer")
+        description="Download and save Hugging Face tokenizer"
+    )
+    parser.add_argument("--model", type=str, required=True, help="Name of the model")
+    parser.add_argument(
+        "--cachedir", type=str, required=True, help="Directory to save the tokenizer"
+    )
 
     args = parser.parse_args()
     main(args.model, args.cachedir)
diff --git a/.buildkite/nightly-benchmarks/scripts/generate-nightly-markdown.py b/.buildkite/nightly-benchmarks/scripts/generate-nightly-markdown.py
index 0ff95a091..10a7a2f5a 100644
--- a/.buildkite/nightly-benchmarks/scripts/generate-nightly-markdown.py
+++ b/.buildkite/nightly-benchmarks/scripts/generate-nightly-markdown.py
@@ -11,33 +11,33 @@ from tabulate import tabulate
 
 def parse_arguments():
     parser = argparse.ArgumentParser(
-        description=
-        'Parse command line arguments for summary-nightly-results script.')
-    parser.add_argument('--results-folder',
-                        type=str,
-                        required=True,
-                        help='The folder where the results are stored.')
-    parser.add_argument('--description',
-                        type=str,
-                        required=True,
-                        help='Description of the results.')
+        description="Parse command line arguments for summary-nightly-results script."
+    )
+    parser.add_argument(
+        "--results-folder",
+        type=str,
+        required=True,
+        help="The folder where the results are stored.",
+    )
+    parser.add_argument(
+        "--description", type=str, required=True, help="Description of the results."
+    )
 
     args = parser.parse_args()
     return args
 
 
 def get_perf(df, method, model, metric):
-
     means = []
 
     for qps in [2, 4, 8, 16, "inf"]:
-        target = df['Test name'].str.contains(model)
-        target = target & df['Engine'].str.contains(method)
-        target = target & df['Test name'].str.contains("qps_" + str(qps))
+        target = df["Test name"].str.contains(model)
+        target = target & df["Engine"].str.contains(method)
+        target = target & df["Test name"].str.contains("qps_" + str(qps))
         filtered_df = df[target]
 
         if filtered_df.empty:
-            means.append(0.)
+            means.append(0.0)
         else:
             means.append(filtered_df[metric].values[0])
 
@@ -45,7 +45,6 @@ def get_perf(df, method, model, metric):
 
 
 def get_perf_w_std(df, method, model, metric):
-
     if metric in ["TTFT", "ITL"]:
         mean = get_perf(df, method, model, "Mean " + metric + " (ms)")
         mean = mean.tolist()
@@ -60,7 +59,8 @@ def get_perf_w_std(df, method, model, metric):
     else:
         assert metric == "Tput"
         mean = get_perf(df, method, model, "Input Tput (tok/s)") + get_perf(
-            df, method, model, "Output Tput (tok/s)")
+            df, method, model, "Output Tput (tok/s)"
+        )
         mean = mean.tolist()
         std = None
 
@@ -80,18 +80,17 @@ def main(args):
     # generate markdown table
     df = pd.DataFrame.from_dict(results)
 
-    md_table = tabulate(df, headers='keys', tablefmt='pipe', showindex=False)
+    md_table = tabulate(df, headers="keys", tablefmt="pipe", showindex=False)
 
     with open(args.description) as f:
         description = f.read()
 
-    description = description.format(
-        nightly_results_benchmarking_table=md_table)
+    description = description.format(nightly_results_benchmarking_table=md_table)
 
     with open("nightly_results.md", "w") as f:
         f.write(description)
 
 
-if __name__ == '__main__':
+if __name__ == "__main__":
     args = parse_arguments()
     main(args)
diff --git a/.buildkite/nightly-benchmarks/scripts/summary-nightly-results.py b/.buildkite/nightly-benchmarks/scripts/summary-nightly-results.py
index 62ee5e10b..2a7b37991 100644
--- a/.buildkite/nightly-benchmarks/scripts/summary-nightly-results.py
+++ b/.buildkite/nightly-benchmarks/scripts/summary-nightly-results.py
@@ -34,10 +34,8 @@ serving_column_mapping = {
 }
 
 if __name__ == "__main__":
-
     # collect results
     for test_file in results_folder.glob("*.json"):
-
         with open(test_file) as f:
             raw_result = json.loads(f.read())
 
@@ -56,17 +54,16 @@ if __name__ == "__main__":
     serving_results = pd.DataFrame.from_dict(serving_results)
 
     if not serving_results.empty:
-        serving_results = serving_results[list(
-            serving_column_mapping.keys())].rename(
-                columns=serving_column_mapping)
+        serving_results = serving_results[list(serving_column_mapping.keys())].rename(
+            columns=serving_column_mapping
+        )
 
-    serving_md_table_with_headers = tabulate(serving_results,
-                                             headers='keys',
-                                             tablefmt='pipe',
-                                             showindex=False)
+    serving_md_table_with_headers = tabulate(
+        serving_results, headers="keys", tablefmt="pipe", showindex=False
+    )
     # remove the first line of header
-    serving_md_table_lines = serving_md_table_with_headers.split('\n')
-    serving_md_table_without_header = '\n'.join(serving_md_table_lines[2:])
+    serving_md_table_lines = serving_md_table_with_headers.split("\n")
+    serving_md_table_without_header = "\n".join(serving_md_table_lines[2:])
 
     prefix = datetime.datetime.now().strftime("%Y-%m-%d_%H-%M-%S")
     prefix = prefix + "_" + os.environ.get("CURRENT_LLM_SERVING_ENGINE")
@@ -76,10 +73,9 @@ if __name__ == "__main__":
         # document results with header.
         # for those who wants to reproduce our benchmark.
         f.write(serving_md_table_with_headers)
-        f.write('\n')
+        f.write("\n")
 
     # document benchmarking results in json
     with open(results_folder / f"{prefix}_nightly_results.json", "w") as f:
-
-        results = serving_results.to_dict(orient='records')
+        results = serving_results.to_dict(orient="records")
         f.write(json.dumps(results))
diff --git a/.buildkite/pyproject.toml b/.buildkite/pyproject.toml
new file mode 100644
index 000000000..6ae0c2a39
--- /dev/null
+++ b/.buildkite/pyproject.toml
@@ -0,0 +1,55 @@
+# This local pyproject file is part of the migration from yapf to ruff format.
+# It uses the same core rules as the main pyproject.toml file, but with the
+# following differences:
+# - isort profile is set to black
+# - ruff line length is overridden to 88
+# - deprecated typing ignores (UP006, UP035) have been removed
+
+[tool.isort]
+profile = "black"
+
+[tool.ruff]
+line-length = 88
+exclude = [
+    # External file, leaving license intact
+    "examples/other/fp8/quantizer/quantize.py",
+    "vllm/vllm_flash_attn/flash_attn_interface.pyi"
+]
+
+[tool.ruff.lint.per-file-ignores]
+"vllm/third_party/**" = ["ALL"]
+"vllm/version.py" = ["F401"]
+"vllm/_version.py" = ["ALL"]
+
+[tool.ruff.lint]
+select = [
+    # pycodestyle
+    "E",
+    # Pyflakes
+    "F",
+    # pyupgrade
+    "UP",
+    # flake8-bugbear
+    "B",
+    # flake8-simplify
+    "SIM",
+    # isort
+    "I",
+    # flake8-logging-format
+    "G",
+]
+ignore = [
+    # star imports
+    "F405", "F403",
+    # lambda expression assignment
+    "E731",
+    # Loop control variable not used within loop body
+    "B007",
+    # f-string format
+    "UP032",
+    # Can remove once 3.10+ is the minimum Python version
+    "UP007",
+]
+
+[tool.ruff.format]
+docstring-code-format = true
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
index 3dc06952c..23f83db01 100644
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -16,6 +16,8 @@ repos:
   hooks:
   - id: ruff
     args: [--output-format, github, --fix]
+  - id: ruff-format
+    files: ^(.buildkite).*
 - repo: https://github.com/codespell-project/codespell
   rev: v2.4.1
   hooks:
@@ -26,6 +28,8 @@ repos:
   rev: 6.0.1
   hooks:
   - id: isort
+    # necessary during the transition from yapf to ruff format
+    args: [--resolve-all-configs, --config-root, .]
 - repo: https://github.com/pre-commit/mirrors-clang-format
   rev: v20.1.3
   hooks:
diff --git a/pyproject.toml b/pyproject.toml
index 4147b6bde..0393bb1ed 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -53,6 +53,7 @@ include = ["vllm*"]
 
 [tool.yapfignore]
 ignore_patterns = [
+    ".buildkite/**",
     "build/**",
 ]
 
@@ -107,6 +108,7 @@ select = [
     "SIM",
     # isort
     # "I",
+    # flake8-logging-format
     "G",
 ]
 ignore = [
-- 
GitLab


From cb528d0585c0a2a876dfc3813c7fe6092a2549ae Mon Sep 17 00:00:00 2001
From: Aaron Pham <contact@aarnphm.xyz>
Date: Tue, 13 May 2025 06:04:10 -0400
Subject: [PATCH 325/461] [Fix] check to make sure processor has chat templates
 (#18047)

Signed-off-by: Aaron Pham <contact@aarnphm.xyz>
---
 tests/compile/test_pass_manager.py | 2 +-
 vllm/compilation/inductor_pass.py  | 2 +-
 vllm/entrypoints/chat_utils.py     | 4 ++--
 3 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/tests/compile/test_pass_manager.py b/tests/compile/test_pass_manager.py
index 673ebe8b6..b630d0e85 100644
--- a/tests/compile/test_pass_manager.py
+++ b/tests/compile/test_pass_manager.py
@@ -22,7 +22,7 @@ def test_bad_callable():
     pass_manager.configure(config)
 
     with pytest.raises(AssertionError):
-        pass_manager.add(simple_callable)  # noqa, type wrong on purpose
+        pass_manager.add(simple_callable)
 
 
 # Pass that inherits from InductorPass
diff --git a/vllm/compilation/inductor_pass.py b/vllm/compilation/inductor_pass.py
index 6cd7720fc..4f5c82776 100644
--- a/vllm/compilation/inductor_pass.py
+++ b/vllm/compilation/inductor_pass.py
@@ -16,7 +16,7 @@ if is_torch_equal_or_newer("2.6"):
     from torch._inductor.custom_graph_pass import CustomGraphPass
 else:
     # CustomGraphPass is not present in 2.5 or lower, import our version
-    from .torch25_custom_graph_pass import (  # noqa: yapf
+    from .torch25_custom_graph_pass import (  # noqa: E501
         Torch25CustomGraphPass as CustomGraphPass)
 
 _pass_context = None
diff --git a/vllm/entrypoints/chat_utils.py b/vllm/entrypoints/chat_utils.py
index 4ff8821fc..183b5bf68 100644
--- a/vllm/entrypoints/chat_utils.py
+++ b/vllm/entrypoints/chat_utils.py
@@ -349,11 +349,11 @@ def resolve_hf_chat_template(
                 trust_remote_code=model_config.trust_remote_code,
             )
             if isinstance(processor, ProcessorMixin) and \
+                hasattr(processor, 'chat_template') and \
                 processor.chat_template is not None:
                 return processor.chat_template
         except Exception:
-            logger.debug("Failed to load AutoProcessor chat template for %s",
-                        tokenizer.name_or_path, exc_info=True)
+            logger.debug("Failed to load AutoProcessor chat template for %s", tokenizer.name_or_path, exc_info=True)  # noqa: E501
 
     # 3rd priority: AutoTokenizer chat template
     try:
-- 
GitLab


From 906f0598fca846028dbd98253c62380eb510478f Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Tue, 13 May 2025 19:15:51 +0800
Subject: [PATCH 326/461] [doc] add download/list/delete HF model CLI usage
 (#17940)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 docs/source/models/supported_models.md | 60 ++++++++++++++++++++++++++
 1 file changed, 60 insertions(+)

diff --git a/docs/source/models/supported_models.md b/docs/source/models/supported_models.md
index b9c1a4f8d..e20521df0 100644
--- a/docs/source/models/supported_models.md
+++ b/docs/source/models/supported_models.md
@@ -168,6 +168,66 @@ If vLLM successfully returns text (for generative models) or hidden states (for
 Otherwise, please refer to [Adding a New Model](#new-model) for instructions on how to implement your model in vLLM.
 Alternatively, you can [open an issue on GitHub](https://github.com/vllm-project/vllm/issues/new/choose) to request vLLM support.
 
+#### Download a model
+
+If you prefer, you can use the Hugging Face CLI to [download a model](https://huggingface.co/docs/huggingface_hub/guides/cli#huggingface-cli-download) or specific files from a model repository:
+
+```console
+# Download a model
+huggingface-cli download HuggingFaceH4/zephyr-7b-beta
+
+# Specify a custom cache directory
+huggingface-cli download HuggingFaceH4/zephyr-7b-beta --cache-dir ./path/to/cache
+
+# Download a specific file from a model repo
+huggingface-cli download HuggingFaceH4/zephyr-7b-beta eval_results.json
+```
+
+#### List the downloaded models
+
+Use the Hugging Face CLI to [manage models](https://huggingface.co/docs/huggingface_hub/guides/manage-cache#scan-your-cache) stored in local cache:
+
+```console
+# List cached models
+huggingface-cli scan-cache
+
+# Show detailed (verbose) output
+huggingface-cli scan-cache -v
+
+# Specify a custom cache directory
+huggingface-cli scan-cache --dir ~/.cache/huggingface/hub
+```
+
+#### Delete a cached model
+
+Use the Hugging Face CLI to interactively [delete downloaded model](https://huggingface.co/docs/huggingface_hub/guides/manage-cache#clean-your-cache) from the cache:
+
+```console
+# The `delete-cache` command requires extra dependencies to work with the TUI.
+# Please run `pip install huggingface_hub[cli]` to install them.
+
+# Launch the interactive TUI to select models to delete
+$ huggingface-cli delete-cache
+? Select revisions to delete: 1 revisions selected counting for 438.9M.
+  ○ None of the following (if selected, nothing will be deleted).
+Model BAAI/bge-base-en-v1.5 (438.9M, used 1 week ago)
+❯ ◉ a5beb1e3: main # modified 1 week ago
+
+Model BAAI/bge-large-en-v1.5 (1.3G, used 1 week ago)
+  ○ d4aa6901: main # modified 1 week ago
+
+Model BAAI/bge-reranker-base (1.1G, used 4 weeks ago)
+  ○ 2cfc18c9: main # modified 4 weeks ago
+
+Press <space> to select, <enter> to validate and <ctrl+c> to quit without modification.
+
+# Need to confirm after selected
+? Select revisions to delete: 1 revision(s) selected.
+? 1 revisions selected counting for 438.9M. Confirm deletion ? Yes
+Start deletion.
+Done. Deleted 1 repo(s) and 0 revision(s) for a total of 438.9M.
+```
+
 #### Using a proxy
 
 Here are some tips for loading/downloading models from Hugging Face using a proxy:
-- 
GitLab


From 6223dd811493c331043dfb748194011b37258e3e Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 13 May 2025 12:17:23 +0100
Subject: [PATCH 327/461] Update deprecated type hinting in
 `model_executor/layers` (#18056)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 pyproject.toml                                |   1 -
 .../layers/fused_moe/__init__.py              |   6 +-
 .../layers/fused_moe/deep_gemm_moe.py         |   4 +-
 .../layers/fused_moe/fused_moe.py             |  46 ++++----
 vllm/model_executor/layers/fused_moe/layer.py |   8 +-
 .../layers/fused_moe/moe_align_block_size.py  |   4 +-
 .../layers/fused_moe/moe_permute_unpermute.py |   4 +-
 .../layers/fused_moe/rocm_aiter_fused_moe.py  |  14 +--
 vllm/model_executor/layers/fused_moe/utils.py |   8 +-
 vllm/model_executor/layers/layernorm.py       |  20 ++--
 .../layers/mamba/mamba_mixer2.py              |   6 +-
 vllm/model_executor/layers/pooler.py          |   8 +-
 .../layers/quantization/__init__.py           |   6 +-
 .../layers/quantization/aqlm.py               |  14 +--
 .../model_executor/layers/quantization/awq.py |  14 +--
 .../layers/quantization/awq_marlin.py         |  16 +--
 .../layers/quantization/base_config.py        |  16 +--
 .../layers/quantization/bitblas.py            |  16 +--
 .../layers/quantization/bitsandbytes.py       |  14 +--
 .../compressed_tensors/compressed_tensors.py  |  38 +++----
 .../schemes/compressed_tensors_24.py          |  12 +-
 .../schemes/compressed_tensors_w4a16_24.py    |   4 +-
 .../schemes/compressed_tensors_w4a16_nvfp4.py |   4 +-
 .../schemes/compressed_tensors_w8a16_fp8.py   |   4 +-
 .../schemes/compressed_tensors_w8a8_fp8.py    |   4 +-
 .../schemes/compressed_tensors_w8a8_int8.py   |   6 +-
 .../schemes/compressed_tensors_wNa16.py       |   6 +-
 .../compressed_tensors/triton_scaled_mm.py    |   4 +-
 .../quantization/compressed_tensors/utils.py  |  11 +-
 .../layers/quantization/deepspeedfp.py        |  10 +-
 .../layers/quantization/experts_int8.py       |   8 +-
 .../layers/quantization/fbgemm_fp8.py         |  12 +-
 .../model_executor/layers/quantization/fp8.py |  14 +--
 .../layers/quantization/gguf.py               |  12 +-
 .../layers/quantization/gptq.py               |  14 +--
 .../layers/quantization/gptq_bitblas.py       |  14 +--
 .../layers/quantization/gptq_marlin.py        |  20 ++--
 .../layers/quantization/gptq_marlin_24.py     |  10 +-
 .../layers/quantization/hqq_marlin.py         |  12 +-
 .../layers/quantization/ipex_quant.py         |  10 +-
 .../kernels/mixed_precision/MPLinearKernel.py |  10 +-
 .../kernels/mixed_precision/__init__.py       |   8 +-
 .../kernels/mixed_precision/allspark.py       |   4 +-
 .../kernels/mixed_precision/bitblas.py        |   8 +-
 .../kernels/mixed_precision/exllama.py        |   4 +-
 .../kernels/mixed_precision/machete.py        |   4 +-
 .../kernels/mixed_precision/marlin.py         |   4 +-
 .../kernels/scaled_mm/ScaledMMLinearKernel.py |   6 +-
 .../kernels/scaled_mm/__init__.py             |   8 +-
 .../quantization/kernels/scaled_mm/aiter.py   |   4 +-
 .../quantization/kernels/scaled_mm/cutlass.py |   4 +-
 .../quantization/kernels/scaled_mm/triton.py  |   4 +-
 .../quantization/kernels/scaled_mm/xla.py     |   4 +-
 .../layers/quantization/marlin.py             |  10 +-
 .../layers/quantization/modelopt.py           |  22 ++--
 .../layers/quantization/moe_wna16.py          |  16 +--
 .../layers/quantization/neuron_quant.py       |   8 +-
 .../layers/quantization/ptpc_fp8.py           |   6 +-
 .../model_executor/layers/quantization/qqq.py |  10 +-
 .../layers/quantization/quark/quark.py        |  54 ++++-----
 .../layers/quantization/quark/quark_moe.py    |   4 +-
 .../quark/schemes/quark_w4a4_mxfp4.py         |   8 +-
 .../quark/schemes/quark_w8a8_fp8.py           |   4 +-
 .../quark/schemes/quark_w8a8_int8.py          |   6 +-
 .../layers/quantization/quark/utils.py        |   5 +-
 .../layers/quantization/schema.py             |   4 +-
 .../layers/quantization/torchao.py            |  12 +-
 .../layers/quantization/tpu_int8.py           |  12 +-
 .../quantization/utils/bitblas_utils.py       |   8 +-
 .../layers/quantization/utils/fp8_utils.py    |  18 +--
 .../layers/quantization/utils/gptq_utils.py   |   4 +-
 .../layers/quantization/utils/int8_utils.py   |  16 +--
 .../quantization/utils/machete_utils.py       |   8 +-
 .../layers/quantization/utils/marlin_utils.py |  12 +-
 .../quantization/utils/marlin_utils_test.py   |   6 +-
 .../utils/marlin_utils_test_24.py             |   9 +-
 .../utils/marlin_utils_test_qqq.py            |  10 +-
 .../layers/quantization/utils/mxfp4_utils.py  |   3 +-
 .../layers/quantization/utils/quant_utils.py  |  17 +--
 .../layers/quantization/utils/w8a8_utils.py   |  18 +--
 .../layers/rejection_sampler.py               |  16 +--
 vllm/model_executor/layers/resampler.py       |  10 +-
 .../model_executor/layers/rotary_embedding.py | 106 +++++++++---------
 vllm/model_executor/layers/sampler.py         |  55 ++++-----
 .../layers/spec_decode_base_sampler.py        |   4 +-
 vllm/model_executor/layers/utils.py           |   4 +-
 .../layers/vocab_parallel_embedding.py        |  15 +--
 87 files changed, 523 insertions(+), 523 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index 0393bb1ed..108fd7af9 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -80,7 +80,6 @@ exclude = [
 "vllm/engine/**/*.py" = ["UP006", "UP035"]
 "vllm/executor/**/*.py" = ["UP006", "UP035"]
 "vllm/lora/**/*.py" = ["UP006", "UP035"]
-"vllm/model_executor/layers/**/*.py" = ["UP006", "UP035"]
 "vllm/model_executor/model_loader/**/*.py" = ["UP006", "UP035"]
 "vllm/model_executor/models/**/*.py" = ["UP006", "UP035"]
 "vllm/platforms/**/*.py" = ["UP006", "UP035"]
diff --git a/vllm/model_executor/layers/fused_moe/__init__.py b/vllm/model_executor/layers/fused_moe/__init__.py
index 53e7769b2..08be9de62 100644
--- a/vllm/model_executor/layers/fused_moe/__init__.py
+++ b/vllm/model_executor/layers/fused_moe/__init__.py
@@ -1,13 +1,13 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from contextlib import contextmanager
-from typing import Any, Dict, Optional
+from typing import Any, Optional
 
 from vllm.model_executor.layers.fused_moe.layer import (
     FusedMoE, FusedMoEMethodBase, FusedMoeWeightScaleSupported)
 from vllm.triton_utils import HAS_TRITON
 
-_config: Optional[Dict[str, Any]] = None
+_config: Optional[dict[str, Any]] = None
 
 
 @contextmanager
@@ -19,7 +19,7 @@ def override_config(config):
     _config = old_config
 
 
-def get_config() -> Optional[Dict[str, Any]]:
+def get_config() -> Optional[dict[str, Any]]:
     return _config
 
 
diff --git a/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py b/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py
index 353c8cc9d..5098e15dc 100644
--- a/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py
+++ b/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 import importlib.util
-from typing import Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -61,7 +61,7 @@ def _moe_permute(
     global_num_experts: int,
     expert_map: Optional[torch.Tensor],
     block_m: int,
-) -> Tuple[torch.Tensor, Optional[torch.Tensor], torch.Tensor, torch.Tensor,
+) -> tuple[torch.Tensor, Optional[torch.Tensor], torch.Tensor, torch.Tensor,
            Optional[torch.Tensor]]:
     """
     Determine the sorted_token_ids, expert_ids for the given problem size.
diff --git a/vllm/model_executor/layers/fused_moe/fused_moe.py b/vllm/model_executor/layers/fused_moe/fused_moe.py
index f6305822c..8c28cedbc 100644
--- a/vllm/model_executor/layers/fused_moe/fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/fused_moe.py
@@ -3,7 +3,7 @@
 import functools
 import json
 import os
-from typing import Any, Callable, Dict, List, Optional, Tuple
+from typing import Any, Callable, Optional
 
 import torch
 
@@ -472,14 +472,14 @@ def invoke_fused_moe_kernel(A: torch.Tensor,
                             num_tokens_post_padded: torch.Tensor,
                             mul_routed_weight: bool,
                             top_k: int,
-                            config: Dict[str, Any],
+                            config: dict[str, Any],
                             compute_type: tl.dtype,
                             use_fp8_w8a8: bool,
                             use_int8_w8a8: bool,
                             use_int8_w8a16: bool,
                             use_int4_w4a16: bool,
                             per_channel_quant: bool,
-                            block_shape: Optional[List[int]] = None) -> None:
+                            block_shape: Optional[list[int]] = None) -> None:
     assert topk_weights is not None or not mul_routed_weight
     assert topk_weights is None or topk_weights.stride(1) == 1
     assert sorted_token_ids.stride(0) == 1
@@ -622,7 +622,7 @@ def invoke_fused_moe_kernel(A: torch.Tensor,
 def get_config_file_name(E: int,
                          N: int,
                          dtype: Optional[str],
-                         block_shape: Optional[List[int]] = None) -> str:
+                         block_shape: Optional[list[int]] = None) -> str:
     device_name = current_platform.get_device_name().replace(" ", "_")
     dtype_selector = "" if not dtype else f",dtype={dtype}"
     block_shape_selector = ("" if not block_shape or not all(block_shape) else
@@ -638,7 +638,7 @@ def get_moe_configs(
     dtype: Optional[str],
     block_n: Optional[int] = None,
     block_k: Optional[int] = None,
-) -> Optional[Dict[int, Any]]:
+) -> Optional[dict[int, Any]]:
     """
     Return optimized configurations for the fused MoE kernel.
 
@@ -670,7 +670,7 @@ def get_moe_configs(
     return None
 
 
-def get_moe_wna16_block_config(config: Dict[str,
+def get_moe_wna16_block_config(config: dict[str,
                                             int], use_moe_wna16_cuda: bool,
                                num_valid_tokens: int, size_k: int, size_n: int,
                                num_experts: int, group_size: int,
@@ -742,8 +742,8 @@ def get_default_config(
     topk: int,
     dtype: Optional[str],
     is_marlin: bool,
-    block_shape: Optional[List[int]] = None,
-) -> Dict[str, int]:
+    block_shape: Optional[list[int]] = None,
+) -> dict[str, int]:
     if dtype == "fp8_w8a8" and block_shape is not None:
         # Block-wise quant: BLOCK_SIZE_N must be divisible by block_shape[0]
         # BLOCK_SIZE_K must be divisible by block_shape[1]
@@ -795,13 +795,13 @@ def get_default_config(
 
 
 def try_get_optimal_moe_config(
-    w1_shape: Tuple[int, ...],
-    w2_shape: Tuple[int, ...],
+    w1_shape: tuple[int, ...],
+    w2_shape: tuple[int, ...],
     top_k: int,
     dtype: Optional[str],
     M: int,
     is_marlin: bool = False,
-    block_shape: Optional[List[int]] = None,
+    block_shape: Optional[list[int]] = None,
 ):
     from vllm.model_executor.layers.fused_moe import get_config
     override_config = get_config()
@@ -855,7 +855,7 @@ def fused_topk(
     gating_output: torch.Tensor,
     topk: int,
     renormalize: bool,
-) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
     assert hidden_states.shape[0] == gating_output.shape[0], (
         "Number of tokens mismatch")
 
@@ -895,7 +895,7 @@ def grouped_topk(
     topk_group: int = 0,
     scoring_func: str = "softmax",
     e_score_correction_bias: Optional[torch.Tensor] = None
-) -> Tuple[torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, torch.Tensor]:
 
     assert hidden_states.shape[0] == gating_output.shape[0], (
         "Number of tokens mismatch")
@@ -982,7 +982,7 @@ def inplace_fused_experts(hidden_states: torch.Tensor,
                           w2_zp: Optional[torch.Tensor] = None,
                           a1_scale: Optional[torch.Tensor] = None,
                           a2_scale: Optional[torch.Tensor] = None,
-                          block_shape: Optional[List[int]] = None) -> None:
+                          block_shape: Optional[list[int]] = None) -> None:
     fused_experts_impl(hidden_states, w1, w2, topk_weights, topk_ids, True,
                        activation, apply_router_weight_on_input, use_fp8_w8a8,
                        use_int8_w8a8, use_int8_w8a16, use_int4_w4a16,
@@ -1012,7 +1012,7 @@ def inplace_fused_experts_fake(
         w2_zp: Optional[torch.Tensor] = None,
         a1_scale: Optional[torch.Tensor] = None,
         a2_scale: Optional[torch.Tensor] = None,
-        block_shape: Optional[List[int]] = None) -> None:
+        block_shape: Optional[list[int]] = None) -> None:
     pass
 
 
@@ -1046,7 +1046,7 @@ def outplace_fused_experts(
         w2_zp: Optional[torch.Tensor] = None,
         a1_scale: Optional[torch.Tensor] = None,
         a2_scale: Optional[torch.Tensor] = None,
-        block_shape: Optional[List[int]] = None) -> torch.Tensor:
+        block_shape: Optional[list[int]] = None) -> torch.Tensor:
     return fused_experts_impl(hidden_states, w1, w2, topk_weights, topk_ids,
                               False, activation, apply_router_weight_on_input,
                               use_fp8_w8a8, use_int8_w8a8, use_int8_w8a16,
@@ -1076,7 +1076,7 @@ def outplace_fused_experts_fake(
         w2_zp: Optional[torch.Tensor] = None,
         a1_scale: Optional[torch.Tensor] = None,
         a2_scale: Optional[torch.Tensor] = None,
-        block_shape: Optional[List[int]] = None) -> torch.Tensor:
+        block_shape: Optional[list[int]] = None) -> torch.Tensor:
     return torch.empty_like(hidden_states)
 
 
@@ -1129,7 +1129,7 @@ def fused_experts(hidden_states: torch.Tensor,
                   w2_zp: Optional[torch.Tensor] = None,
                   a1_scale: Optional[torch.Tensor] = None,
                   a2_scale: Optional[torch.Tensor] = None,
-                  block_shape: Optional[List[int]] = None,
+                  block_shape: Optional[list[int]] = None,
                   allow_deep_gemm: bool = False) -> torch.Tensor:
     if (allow_deep_gemm and use_fp8_w8a8
             and _valid_deep_gemm(hidden_states, w1, w2, expert_map)):
@@ -1184,8 +1184,8 @@ def moe_kernel_prepare_input(
     use_int8_w8a16: bool,
     use_int4_w4a16: bool,
     per_channel_quant: bool,
-    block_shape: Optional[List[int]] = None,
-) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
+    block_shape: Optional[list[int]] = None,
+) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
     if use_fp8_w8a8:
         assert B_scale is not None
         if block_shape is None:
@@ -1248,7 +1248,7 @@ def fused_experts_impl(hidden_states: torch.Tensor,
                        w2_zp: Optional[torch.Tensor] = None,
                        a1_scale: Optional[torch.Tensor] = None,
                        a2_scale: Optional[torch.Tensor] = None,
-                       block_shape: Optional[List[int]] = None):
+                       block_shape: Optional[list[int]] = None):
     # Check constraints.
     if use_int4_w4a16:
         assert hidden_states.shape[1] // 2 == w1.shape[
@@ -1452,7 +1452,7 @@ def fused_moe(
     w2_zp: Optional[torch.Tensor] = None,
     a1_scale: Optional[torch.Tensor] = None,
     a2_scale: Optional[torch.Tensor] = None,
-    block_shape: Optional[List[int]] = None,
+    block_shape: Optional[list[int]] = None,
 ) -> torch.Tensor:
     """
     This function computes a Mixture of Experts (MoE) layer using two sets of
@@ -1497,7 +1497,7 @@ def fused_moe(
         a1.
     - a2_scale (Optional[torch.Tensor]): Optional scale to be used for
         a2.
-    - block_shape: (Optional[List[int]]): Optional block size for block-wise
+    - block_shape: (Optional[list[int]]): Optional block size for block-wise
         quantization.
 
     Returns:
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 6a3d00acd..eae029b33 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -2,7 +2,7 @@
 
 from abc import abstractmethod
 from enum import Enum
-from typing import Callable, List, Optional, Tuple
+from typing import Callable, Optional
 
 import torch
 import torch.nn.functional as F
@@ -326,7 +326,7 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
 
 def determine_expert_map(
         ep_size: int, ep_rank: int,
-        global_num_experts: int) -> Tuple[int, Optional[torch.Tensor]]:
+        global_num_experts: int) -> tuple[int, Optional[torch.Tensor]]:
     """
         Calculates how many experts should be assigned to each rank for EP and
         creates a mapping from global to local expert index. Experts are
@@ -338,7 +338,7 @@ def determine_expert_map(
             global_num_experts (int): The total number of experts in the model.
 
         Returns:
-            Tuple[int, Optional[torch.Tensor]]: A tuple containing:
+            tuple[int, Optional[torch.Tensor]]: A tuple containing:
                 - local_num_experts (int): The number of experts assigned
                     to the current rank.
                 - expert_map (Optional[torch.Tensor]): A tensor of shape
@@ -909,7 +909,7 @@ class FusedMoE(torch.nn.Module):
     def make_expert_params_mapping(
             cls, ckpt_gate_proj_name: str, ckpt_down_proj_name: str,
             ckpt_up_proj_name: str,
-            num_experts: int) -> List[Tuple[str, str, int, str]]:
+            num_experts: int) -> list[tuple[str, str, int, str]]:
 
         return [
             # (param_name, weight_name, expert_id, shard_id)
diff --git a/vllm/model_executor/layers/fused_moe/moe_align_block_size.py b/vllm/model_executor/layers/fused_moe/moe_align_block_size.py
index b68e58efa..d025f1257 100644
--- a/vllm/model_executor/layers/fused_moe/moe_align_block_size.py
+++ b/vllm/model_executor/layers/fused_moe/moe_align_block_size.py
@@ -1,5 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
-from typing import Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -153,7 +153,7 @@ def moe_align_block_size(
     num_experts: int,
     expert_map: Optional[torch.Tensor] = None,
     pad_sorted_ids: bool = False
-) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
     """
     Aligns the token distribution across experts to be compatible with block
     size for matrix multiplication.
diff --git a/vllm/model_executor/layers/fused_moe/moe_permute_unpermute.py b/vllm/model_executor/layers/fused_moe/moe_permute_unpermute.py
index cdf7e31c1..90cb04084 100644
--- a/vllm/model_executor/layers/fused_moe/moe_permute_unpermute.py
+++ b/vllm/model_executor/layers/fused_moe/moe_permute_unpermute.py
@@ -1,5 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
-from typing import Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -15,7 +15,7 @@ def moe_permute(
     expert_map: Optional[torch.Tensor] = None,
     align_block_size: Optional[int] = None,
     fill_invalid_expert: int = -1
-) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
     """
     This function expands and permutes activation to gather uncontinuous tokens 
       for each expert.
diff --git a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
index 7d7bce9ec..d42cfce4a 100644
--- a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 from functools import cache
-from typing import List, Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -97,7 +97,7 @@ def rocm_aiter_fmoe_fp8_blockscale_g1u1_impl(
         w1_scale: torch.Tensor,
         w2_scale: torch.Tensor,
         a1_scale: torch.Tensor,
-        block_shape: List[int],
+        block_shape: list[int],
         smooth_scale: Optional[torch.Tensor] = None) -> torch.Tensor:
     from aiter import fmoe_fp8_blockscale_g1u1
     from aiter.fused_moe_bf16_asm import moe_sorting_ck
@@ -142,7 +142,7 @@ def rocm_aiter_fmoe_fp8_blockscale_g1u1_fake(
         w1_scale: torch.Tensor,
         w2_scale: torch.Tensor,
         a1_scale: torch.Tensor,
-        block_shape: List[int],
+        block_shape: list[int],
         smooth_scale: Optional[torch.Tensor] = None) -> torch.Tensor:
 
     return torch.empty_like(a1, dtype=hidden_states_dtype)
@@ -280,7 +280,7 @@ def rocm_aiter_fused_experts(hidden_states: torch.Tensor,
                              w2_zp: Optional[torch.Tensor] = None,
                              a1_scale: Optional[torch.Tensor] = None,
                              a2_scale: Optional[torch.Tensor] = None,
-                             block_shape: Optional[List[int]] = None,
+                             block_shape: Optional[list[int]] = None,
                              allow_deep_gemm: bool = False) -> torch.Tensor:
 
     from vllm.model_executor.layers.quantization.utils.fp8_utils import (
@@ -372,14 +372,14 @@ def rocm_aiter_topk_softmax(topk_weights: torch.Tensor,
                             topk_indices: torch.Tensor,
                             token_expert_indices: torch.Tensor,
                             gating_output: torch.Tensor,
-                            renormalize: bool) -> Tuple[torch.Tensor, ...]:
+                            renormalize: bool) -> tuple[torch.Tensor, ...]:
     torch.ops.vllm.rocm_aiter_topk_softmax(topk_weights, topk_indices,
                                            token_expert_indices, gating_output,
                                            renormalize)
     return topk_weights, topk_indices
 
 
-def shuffle_weights(*tensors: torch.Tensor) -> Tuple[torch.Tensor, ...]:
+def shuffle_weights(*tensors: torch.Tensor) -> tuple[torch.Tensor, ...]:
     """
     Applies shuffle_weight function from AITER to each 
     input tensor and returns them.
@@ -395,7 +395,7 @@ def shuffle_weights(*tensors: torch.Tensor) -> Tuple[torch.Tensor, ...]:
 
 
 def expand_weights(*tensors: torch.Tensor,
-                   expansion_dims: list[int]) -> Tuple[torch.Tensor, ...]:
+                   expansion_dims: list[int]) -> tuple[torch.Tensor, ...]:
     """
     Expands the dimensions of input tensors.
 
diff --git a/vllm/model_executor/layers/fused_moe/utils.py b/vllm/model_executor/layers/fused_moe/utils.py
index db31422f7..1acbba205 100644
--- a/vllm/model_executor/layers/fused_moe/utils.py
+++ b/vllm/model_executor/layers/fused_moe/utils.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 from math import prod
-from typing import List, Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -10,7 +10,7 @@ from vllm.model_executor.layers.quantization.utils.fp8_utils import (
 from vllm.utils import cdiv
 
 
-def _resize_cache(x: torch.Tensor, v: Tuple[int, ...]) -> torch.Tensor:
+def _resize_cache(x: torch.Tensor, v: tuple[int, ...]) -> torch.Tensor:
     """
     Shrink the given tensor and apply the given view to it.  This is
     used to resize the intermediate fused_moe caches.
@@ -22,8 +22,8 @@ def _resize_cache(x: torch.Tensor, v: Tuple[int, ...]) -> torch.Tensor:
 def _fp8_quantize(
     A: torch.Tensor,
     A_scale: Optional[torch.Tensor],
-    block_shape: Optional[List[int]],
-) -> Tuple[torch.Tensor, torch.Tensor]:
+    block_shape: Optional[list[int]],
+) -> tuple[torch.Tensor, torch.Tensor]:
     """
     Perform fp8 quantization on the inputs.  If a block_shape
     is provided, the output will be blocked.
diff --git a/vllm/model_executor/layers/layernorm.py b/vllm/model_executor/layers/layernorm.py
index cdf9ecc25..e8abd32ff 100644
--- a/vllm/model_executor/layers/layernorm.py
+++ b/vllm/model_executor/layers/layernorm.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 """Custom normalization layers."""
-from typing import Optional, Tuple, Union
+from typing import Optional, Union
 
 import torch
 import torch.nn as nn
@@ -31,7 +31,7 @@ def rms_norm(x: torch.Tensor, weight: torch.Tensor,
 
 def fused_add_rms_norm(
         x: torch.Tensor, residual: torch.Tensor, weight: torch.Tensor,
-        variance_epsilon: float) -> Tuple[torch.Tensor, torch.Tensor]:
+        variance_epsilon: float) -> tuple[torch.Tensor, torch.Tensor]:
     from vllm import _custom_ops as ops
     ops.fused_add_rms_norm(
         x,
@@ -57,7 +57,7 @@ def rocm_aiter_rms_norm(x: torch.Tensor, weight: torch.Tensor,
 
 def rocm_aiter_fused_add_rms_norm(
         x: torch.Tensor, residual: torch.Tensor, weight: torch.Tensor,
-        variance_epsilon: float) -> Tuple[torch.Tensor, torch.Tensor]:
+        variance_epsilon: float) -> tuple[torch.Tensor, torch.Tensor]:
 
     import aiter as rocm_aiter
 
@@ -119,7 +119,7 @@ class RMSNorm(CustomOp):
         self,
         x: torch.Tensor,
         residual: Optional[torch.Tensor] = None,
-    ) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
+    ) -> Union[torch.Tensor, tuple[torch.Tensor, torch.Tensor]]:
         """PyTorch-native implementation equivalent to forward()."""
         orig_dtype = x.dtype
         x = x.to(torch.float32)
@@ -157,7 +157,7 @@ class RMSNorm(CustomOp):
         self,
         x: torch.Tensor,
         residual: Optional[torch.Tensor] = None,
-    ) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
+    ) -> Union[torch.Tensor, tuple[torch.Tensor, torch.Tensor]]:
         if self.variance_size_override is not None:
             return self.forward_native(x, residual)
 
@@ -174,7 +174,7 @@ class RMSNorm(CustomOp):
         self,
         x: torch.Tensor,
         residual: Optional[torch.Tensor] = None,
-    ) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
+    ) -> Union[torch.Tensor, tuple[torch.Tensor, torch.Tensor]]:
         from vllm_hpu_extension.kernels import rms_norm
         HPUFusedRMSNorm = rms_norm()
         if HPUFusedRMSNorm is None:
@@ -194,7 +194,7 @@ class RMSNorm(CustomOp):
         self,
         x: torch.Tensor,
         residual: Optional[torch.Tensor] = None,
-    ) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
+    ) -> Union[torch.Tensor, tuple[torch.Tensor, torch.Tensor]]:
         if self.variance_size_override is not None:
             return self.forward_native(x, residual)
 
@@ -244,7 +244,7 @@ class GemmaRMSNorm(CustomOp):
         variance_epsilon: float,
         x: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
+    ) -> Union[torch.Tensor, tuple[torch.Tensor, torch.Tensor]]:
         """PyTorch-native implementation equivalent to forward()."""
         orig_dtype = x.dtype
         if residual is not None:
@@ -267,7 +267,7 @@ class GemmaRMSNorm(CustomOp):
         self,
         x: torch.Tensor,
         residual: Optional[torch.Tensor] = None,
-    ) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
+    ) -> Union[torch.Tensor, tuple[torch.Tensor, torch.Tensor]]:
         """PyTorch-native implementation equivalent to forward()."""
         return self.forward_static(self.weight.data, self.variance_epsilon, x,
                                    residual)
@@ -276,7 +276,7 @@ class GemmaRMSNorm(CustomOp):
         self,
         x: torch.Tensor,
         residual: Optional[torch.Tensor] = None,
-    ) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
+    ) -> Union[torch.Tensor, tuple[torch.Tensor, torch.Tensor]]:
         if torch.compiler.is_compiling():
             return self.forward_native(x, residual)
 
diff --git a/vllm/model_executor/layers/mamba/mamba_mixer2.py b/vllm/model_executor/layers/mamba/mamba_mixer2.py
index 05b9d87ac..1ea65e96d 100644
--- a/vllm/model_executor/layers/mamba/mamba_mixer2.py
+++ b/vllm/model_executor/layers/mamba/mamba_mixer2.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import List, Optional, Tuple, Union
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -104,7 +104,7 @@ class Mixer2RMSNormGated(CustomOp):
         self,
         x: torch.Tensor,
         gate: torch.Tensor,
-    ) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
+    ) -> Union[torch.Tensor, tuple[torch.Tensor, torch.Tensor]]:
 
         if self.tp_size > 1 or self.n_groups != 1:
             return self.forward_native(x, gate)
@@ -136,7 +136,7 @@ def extra_groups_for_head_shards(ngroups: int, tp_size: int):
 
 
 def mamba_v2_sharded_weight_loader(
-    shard_spec: List[Tuple[int, int, float]],
+    shard_spec: list[tuple[int, int, float]],
     tp_size: int,
     tp_rank: int,
 ) -> LoaderFunction:
diff --git a/vllm/model_executor/layers/pooler.py b/vllm/model_executor/layers/pooler.py
index 3f6ab64e4..c5bf603a1 100644
--- a/vllm/model_executor/layers/pooler.py
+++ b/vllm/model_executor/layers/pooler.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from enum import IntEnum
-from typing import List, Optional, Union
+from typing import Optional, Union
 
 import torch
 import torch.nn as nn
@@ -46,7 +46,7 @@ class SimplePooler(nn.Module):
         normalize: bool,
         softmax: bool,
         step_tag_id: Optional[int] = None,
-        returned_token_ids: Optional[List[int]] = None,
+        returned_token_ids: Optional[list[int]] = None,
     ) -> "SimplePooler":
         if pooling_type == PoolingType.LAST:
             assert step_tag_id is None and returned_token_ids is None
@@ -174,7 +174,7 @@ class StepPool(SimplePooler):
         normalize: bool,
         softmax: bool,
         step_tag_id: Optional[int] = None,
-        returned_token_ids: Optional[List[int]] = None,
+        returned_token_ids: Optional[list[int]] = None,
     ):
         super().__init__(normalize=normalize, softmax=softmax)
 
@@ -259,7 +259,7 @@ class Pooler(nn.Module):
         normalize: bool,
         softmax: bool,
         step_tag_id: Optional[int] = None,
-        returned_token_ids: Optional[List[int]] = None,
+        returned_token_ids: Optional[list[int]] = None,
     ) -> SimplePooler:
         return SimplePooler.from_pooling_type(
             pooling_type=PoolingType[pooler_config.pooling_type]
diff --git a/vllm/model_executor/layers/quantization/__init__.py b/vllm/model_executor/layers/quantization/__init__.py
index 15e08220b..a713b1e93 100644
--- a/vllm/model_executor/layers/quantization/__init__.py
+++ b/vllm/model_executor/layers/quantization/__init__.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Literal, Type, get_args
+from typing import Literal, get_args
 
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig)
@@ -76,7 +76,7 @@ def register_quantization_config(quantization: str):
     return _wrapper
 
 
-def get_quantization_config(quantization: str) -> Type[QuantizationConfig]:
+def get_quantization_config(quantization: str) -> type[QuantizationConfig]:
     if quantization not in QUANTIZATION_METHODS:
         raise ValueError(f"Invalid quantization method: {quantization}")
 
@@ -110,7 +110,7 @@ def get_quantization_config(quantization: str) -> Type[QuantizationConfig]:
     from .torchao import TorchAOConfig
     from .tpu_int8 import Int8TpuConfig
 
-    method_to_config: dict[str, Type[QuantizationConfig]] = {
+    method_to_config: dict[str, type[QuantizationConfig]] = {
         "aqlm": AQLMConfig,
         "awq": AWQConfig,
         "deepspeedfp": DeepSpeedFPConfig,
diff --git a/vllm/model_executor/layers/quantization/aqlm.py b/vllm/model_executor/layers/quantization/aqlm.py
index 0b74e8faf..8bf0ca5c0 100644
--- a/vllm/model_executor/layers/quantization/aqlm.py
+++ b/vllm/model_executor/layers/quantization/aqlm.py
@@ -4,7 +4,7 @@
 # and https://arxiv.org/pdf/2401.06118.pdf
 
 import math
-from typing import Any, Dict, List, Optional
+from typing import Any, Optional
 
 import torch
 import torch.nn.functional as F
@@ -98,7 +98,7 @@ def generic_dequantize_gemm(
     codebooks: torch.
     Tensor,  #  [num_codebooks, codebook_size, out_group_size, in_group_size]
     scales: torch.Tensor,  #  [num_out_groups, 1, 1, 1]
-    output_partition_sizes: List[int],
+    output_partition_sizes: list[int],
     bias: Optional[torch.Tensor],
 ) -> torch.Tensor:
     output_shape = input.shape[:-1] + (scales.shape[0], )
@@ -136,7 +136,7 @@ def optimized_dequantize_gemm(
     codebooks: torch.
     Tensor,  #  [num_codebooks, codebook_size, out_group_size, in_group_size]
     scales: torch.Tensor,  #  [num_out_groups, 1, 1, 1]
-    output_partition_sizes: List[int],
+    output_partition_sizes: list[int],
     bias: Optional[torch.Tensor],
 ) -> torch.Tensor:
     weights = ops.aqlm_dequant(codes, codebooks, output_partition_sizes)
@@ -191,7 +191,7 @@ class AQLMConfig(QuantizationConfig):
         return "aqlm"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.half]
 
     @classmethod
@@ -199,11 +199,11 @@ class AQLMConfig(QuantizationConfig):
         return 60
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return []  # no extra configs.
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "AQLMConfig":
+    def from_config(cls, config: dict[str, Any]) -> "AQLMConfig":
         in_group_size = cls.get_from_keys(config, ["in_group_size"])
         nbits_per_codebook = cls.get_from_keys(config, ["nbits_per_codebook"])
         num_code_books = cls.get_from_keys(config, ["num_codebooks"])
@@ -230,7 +230,7 @@ class AQLMLinearMethod(LinearMethodBase):
 
     def create_weights(self, layer: torch.nn.Module,
                        input_size_per_partition: int,
-                       output_partition_sizes: List[int], input_size: int,
+                       output_partition_sizes: list[int], input_size: int,
                        output_size: int, params_dtype: torch.dtype,
                        **extra_weight_attrs):
         del output_size  # Unused.
diff --git a/vllm/model_executor/layers/quantization/awq.py b/vllm/model_executor/layers/quantization/awq.py
index cfc31ae20..4660c28c8 100644
--- a/vllm/model_executor/layers/quantization/awq.py
+++ b/vllm/model_executor/layers/quantization/awq.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Dict, List, Optional
+from typing import Any, Optional
 
 import torch
 
@@ -25,7 +25,7 @@ class AWQConfig(QuantizationConfig):
         weight_bits: int,
         group_size: int,
         zero_point: bool,
-        modules_to_not_convert: Optional[List[str]] = None,
+        modules_to_not_convert: Optional[list[str]] = None,
     ) -> None:
         super().__init__()
         self.weight_bits = weight_bits
@@ -48,7 +48,7 @@ class AWQConfig(QuantizationConfig):
     def get_name(self) -> QuantizationMethods:
         return "awq"
 
-    def get_supported_act_dtypes(self) -> List[torch.dtype]:
+    def get_supported_act_dtypes(self) -> list[torch.dtype]:
         return [torch.half]
 
     @classmethod
@@ -57,7 +57,7 @@ class AWQConfig(QuantizationConfig):
         return 75
 
     @staticmethod
-    def get_config_filenames() -> List[str]:
+    def get_config_filenames() -> list[str]:
         return [
             "quant_config.json",  # E.g., casperhansen/vicuna-7b-v1.5-awq
             # E.g., abhinavkulkarni/mosaicml-mpt-7b-instruct-w4-g128-awq
@@ -65,7 +65,7 @@ class AWQConfig(QuantizationConfig):
         ]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "AWQConfig":
+    def from_config(cls, config: dict[str, Any]) -> "AWQConfig":
         weight_bits = cls.get_from_keys(config, ["w_bit", "bits"])
         group_size = cls.get_from_keys(config, ["q_group_size", "group_size"])
         zero_point = cls.get_from_keys(config, ["zero_point"])
@@ -82,7 +82,7 @@ class AWQConfig(QuantizationConfig):
         return None
 
 
-def is_layer_skipped_awq(prefix: str, modules_to_not_convert: List[str]):
+def is_layer_skipped_awq(prefix: str, modules_to_not_convert: list[str]):
     return any(module_name in prefix for module_name in modules_to_not_convert)
 
 
@@ -98,7 +98,7 @@ class AWQLinearMethod(LinearMethodBase):
 
     def create_weights(self, layer: torch.nn.Module,
                        input_size_per_partition: int,
-                       output_partition_sizes: List[int], input_size: int,
+                       output_partition_sizes: list[int], input_size: int,
                        output_size: int, params_dtype: torch.dtype,
                        **extra_weight_attrs):
         if input_size_per_partition % self.quant_config.group_size != 0:
diff --git a/vllm/model_executor/layers/quantization/awq_marlin.py b/vllm/model_executor/layers/quantization/awq_marlin.py
index 556166f19..0c8d082bb 100644
--- a/vllm/model_executor/layers/quantization/awq_marlin.py
+++ b/vllm/model_executor/layers/quantization/awq_marlin.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Callable, Dict, List, Optional
+from typing import Any, Callable, Optional
 
 import torch
 from torch.nn import Parameter
@@ -46,8 +46,8 @@ class AWQMarlinConfig(QuantizationConfig):
 
     def __init__(self, weight_bits: int, group_size: int, zero_point: bool,
                  lm_head_quantized: bool,
-                 modules_to_not_convert: Optional[List[str]],
-                 full_config: Dict[str, Any]) -> None:
+                 modules_to_not_convert: Optional[list[str]],
+                 full_config: dict[str, Any]) -> None:
         super().__init__()
         self.pack_factor = 32 // weight_bits  # packed into int32
         self.group_size = group_size
@@ -79,7 +79,7 @@ class AWQMarlinConfig(QuantizationConfig):
         return "awq_marlin"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.half, torch.bfloat16]
 
     @classmethod
@@ -87,11 +87,11 @@ class AWQMarlinConfig(QuantizationConfig):
         return 80
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return ["quantize_config.json"]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "AWQMarlinConfig":
+    def from_config(cls, config: dict[str, Any]) -> "AWQMarlinConfig":
         weight_bits = cls.get_from_keys(config, ["bits"])
         group_size = cls.get_from_keys(config, ["group_size"])
         zero_point = cls.get_from_keys(config, ["zero_point"])
@@ -150,7 +150,7 @@ class AWQMarlinConfig(QuantizationConfig):
         return None
 
     @classmethod
-    def is_awq_marlin_compatible(cls, quant_config: Dict[str, Any]):
+    def is_awq_marlin_compatible(cls, quant_config: dict[str, Any]):
         # Extract data from quant config.
         quant_method = quant_config.get("quant_method", "").lower()
         num_bits = quant_config.get("bits")
@@ -189,7 +189,7 @@ class AWQMarlinLinearMethod(LinearMethodBase):
         self,
         layer: torch.nn.Module,
         input_size_per_partition: int,
-        output_partition_sizes: List[int],
+        output_partition_sizes: list[int],
         input_size: int,
         output_size: int,
         params_dtype: torch.dtype,
diff --git a/vllm/model_executor/layers/quantization/base_config.py b/vllm/model_executor/layers/quantization/base_config.py
index 8cf058b40..c9533da9d 100644
--- a/vllm/model_executor/layers/quantization/base_config.py
+++ b/vllm/model_executor/layers/quantization/base_config.py
@@ -2,7 +2,7 @@
 
 import inspect
 from abc import ABC, abstractmethod
-from typing import TYPE_CHECKING, Any, Dict, List, Optional, Type
+from typing import TYPE_CHECKING, Any, Optional
 
 import torch
 from torch import nn
@@ -48,7 +48,7 @@ class QuantizeMethodBase(ABC):
 
 
 def method_has_implemented_embedding(
-        method_class: Type[QuantizeMethodBase]) -> bool:
+        method_class: type[QuantizeMethodBase]) -> bool:
     """
     Not all quant methods have embedding implemented, so we need to check that
     it exists for our given method. We check this by making sure the function
@@ -68,7 +68,7 @@ class QuantizationConfig(ABC):
     def __init__(self):
         super().__init__()
         # mapping is updated by models as they initialize
-        self.packed_modules_mapping: Dict[str, List[str]] = dict()
+        self.packed_modules_mapping: dict[str, list[str]] = dict()
 
     @abstractmethod
     def get_name(self) -> QuantizationMethods:
@@ -76,7 +76,7 @@ class QuantizationConfig(ABC):
         raise NotImplementedError
 
     @abstractmethod
-    def get_supported_act_dtypes(self) -> List[torch.dtype]:
+    def get_supported_act_dtypes(self) -> list[torch.dtype]:
         """List of supported activation dtypes."""
         raise NotImplementedError
 
@@ -93,13 +93,13 @@ class QuantizationConfig(ABC):
 
     @staticmethod
     @abstractmethod
-    def get_config_filenames() -> List[str]:
+    def get_config_filenames() -> list[str]:
         """List of filenames to search for in the model directory."""
         raise NotImplementedError
 
     @classmethod
     @abstractmethod
-    def from_config(cls, config: Dict[str, Any]) -> "QuantizationConfig":
+    def from_config(cls, config: dict[str, Any]) -> "QuantizationConfig":
         """Create a config class from the model's quantization config."""
         raise NotImplementedError
 
@@ -115,7 +115,7 @@ class QuantizationConfig(ABC):
         return None
 
     @staticmethod
-    def get_from_keys(config: Dict[str, Any], keys: List[str]) -> Any:
+    def get_from_keys(config: dict[str, Any], keys: list[str]) -> Any:
         """Get a value from the model's quantization config."""
         for key in keys:
             if key in config:
@@ -124,7 +124,7 @@ class QuantizationConfig(ABC):
                          "quantization config.")
 
     @staticmethod
-    def get_from_keys_or(config: Dict[str, Any], keys: List[str],
+    def get_from_keys_or(config: dict[str, Any], keys: list[str],
                          default: Any) -> Any:
         """Get a optional value from the model's quantization config."""
         try:
diff --git a/vllm/model_executor/layers/quantization/bitblas.py b/vllm/model_executor/layers/quantization/bitblas.py
index ab858d720..1cd12bb76 100644
--- a/vllm/model_executor/layers/quantization/bitblas.py
+++ b/vllm/model_executor/layers/quantization/bitblas.py
@@ -1,5 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
-from typing import Any, Dict, List, Optional
+from typing import Any, Optional
 
 import torch
 
@@ -105,7 +105,7 @@ class BitBLASConfig(QuantizationConfig):
         return "bitblas"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.half, torch.bfloat16]
 
     @classmethod
@@ -114,12 +114,12 @@ class BitBLASConfig(QuantizationConfig):
         return 70
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return ["quantize_config.json"]
 
     @staticmethod
-    def get_from_keys(config: Dict[str, Any],
-                      keys: List[str],
+    def get_from_keys(config: dict[str, Any],
+                      keys: list[str],
                       default: Any = None) -> Any:
         """Get a value from the model's quantization config."""
         for key in keys:
@@ -128,7 +128,7 @@ class BitBLASConfig(QuantizationConfig):
         return default
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "BitBLASConfig":
+    def from_config(cls, config: dict[str, Any]) -> "BitBLASConfig":
         weight_bits = cls.get_from_keys(config, ["bits"])
         group_size = cls.get_from_keys(config, ["group_size"], -1)
         desc_act = cls.get_from_keys(config, ["desc_act"], False)
@@ -193,7 +193,7 @@ class BitBLASLinearMethod(LinearMethodBase):
         self,
         layer: torch.nn.Module,
         input_size_per_partition: int,
-        output_partition_sizes: List[int],
+        output_partition_sizes: list[int],
         input_size: int,
         output_size: int,
         params_dtype: torch.dtype,
@@ -329,7 +329,7 @@ class BitBLASLinearMethod(LinearMethodBase):
         self,
         layer: torch.nn.Module,
         input_size_per_partition: int,
-        output_partition_sizes: List[int],
+        output_partition_sizes: list[int],
         input_size: int,
         output_size: int,
         params_dtype: torch.dtype,
diff --git a/vllm/model_executor/layers/quantization/bitsandbytes.py b/vllm/model_executor/layers/quantization/bitsandbytes.py
index a472779d9..049ce7a71 100644
--- a/vllm/model_executor/layers/quantization/bitsandbytes.py
+++ b/vllm/model_executor/layers/quantization/bitsandbytes.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Dict, List, Optional
+from typing import Any, Optional
 
 import torch
 
@@ -29,7 +29,7 @@ class BitsAndBytesConfig(QuantizationConfig):
         bnb_4bit_use_double_quant: bool = False,
         llm_int8_enable_fp32_cpu_offload: bool = False,
         llm_int8_has_fp16_weight: bool = False,
-        llm_int8_skip_modules: Optional[List[str]] = None,
+        llm_int8_skip_modules: Optional[list[str]] = None,
         llm_int8_threshold: float = 6.0,
     ) -> None:
         super().__init__()
@@ -61,7 +61,7 @@ class BitsAndBytesConfig(QuantizationConfig):
         return "bitsandbytes"
 
     @classmethod
-    def get_supported_act_dtypes(self) -> List[torch.dtype]:
+    def get_supported_act_dtypes(self) -> list[torch.dtype]:
         return [torch.float32, torch.float16, torch.bfloat16]
 
     @classmethod
@@ -69,13 +69,13 @@ class BitsAndBytesConfig(QuantizationConfig):
         return 70
 
     @staticmethod
-    def get_config_filenames() -> List[str]:
+    def get_config_filenames() -> list[str]:
         return [
             "adapter_config.json",
         ]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "BitsAndBytesConfig":
+    def from_config(cls, config: dict[str, Any]) -> "BitsAndBytesConfig":
 
         def get_safe_value(config, keys, default_value=None):
             try:
@@ -130,7 +130,7 @@ class BitsAndBytesConfig(QuantizationConfig):
         return None
 
 
-def is_layer_skipped_bnb(prefix: str, llm_int8_skip_modules: List[str]):
+def is_layer_skipped_bnb(prefix: str, llm_int8_skip_modules: list[str]):
     # Split the prefix into its dot-separated components
     components = prefix.split('.')
 
@@ -169,7 +169,7 @@ class BitsAndBytesLinearMethod(LinearMethodBase):
 
     def create_weights(self, layer: torch.nn.Module,
                        input_size_per_partition: int,
-                       output_partition_sizes: List[int], input_size: int,
+                       output_partition_sizes: list[int], input_size: int,
                        output_size: int, params_dtype: torch.dtype,
                        **extra_weight_attrs):
         from bitsandbytes.nn import Int8Params
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
index a001a8582..27547f315 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from contextlib import suppress
-from typing import Any, Dict, List, Literal, Optional, Tuple, cast
+from typing import Any, Literal, Optional, cast
 
 import torch
 from compressed_tensors.config import (CompressionFormat,
@@ -38,20 +38,20 @@ logger = init_logger(__name__)
 __all__ = ["CompressedTensorsLinearMethod"]
 
 SPARSITY_CONFIG_NAME: Literal["sparsity_config"] = "sparsity_config"
-QUANTIZATION_SCHEME_MAP_TYPE = Dict[str, Optional[Dict[str, QuantizationArgs]]]
+QUANTIZATION_SCHEME_MAP_TYPE = dict[str, Optional[dict[str, QuantizationArgs]]]
 
 
 class CompressedTensorsConfig(QuantizationConfig):
 
     def __init__(
         self,
-        target_scheme_map: Dict[str, Any],
-        ignore: List[str],
+        target_scheme_map: dict[str, Any],
+        ignore: list[str],
         quant_format: str,
-        sparsity_scheme_map: Dict[str, SparsityCompressionConfig],
-        sparsity_ignore_list: List[str],
-        kv_cache_scheme: Optional[Dict[str, Any]] = None,
-        config: Optional[Dict[str, Any]] = None,
+        sparsity_scheme_map: dict[str, SparsityCompressionConfig],
+        sparsity_ignore_list: list[str],
+        kv_cache_scheme: Optional[dict[str, Any]] = None,
+        config: Optional[dict[str, Any]] = None,
     ):
         super().__init__()
         self.ignore = ignore
@@ -66,7 +66,7 @@ class CompressedTensorsConfig(QuantizationConfig):
     def get_linear_method(self) -> "CompressedTensorsLinearMethod":
         return CompressedTensorsLinearMethod(self)
 
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.float16, torch.bfloat16]
 
     @classmethod
@@ -102,8 +102,8 @@ class CompressedTensorsConfig(QuantizationConfig):
         return None
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "CompressedTensorsConfig":
-        ignore: List[str] = cast(List[str], config.get("ignore", []))
+    def from_config(cls, config: dict[str, Any]) -> "CompressedTensorsConfig":
+        ignore: list[str] = cast(list[str], config.get("ignore", []))
         quant_format = cast(str, config.get("format"))
         target_scheme_map = cls._quantization_scheme_map_from_config(
             config=config)
@@ -121,8 +121,8 @@ class CompressedTensorsConfig(QuantizationConfig):
 
     @classmethod
     def _parse_sparsity_config(
-        cls, config: Dict[str, Any]
-    ) -> Tuple[Dict[str, SparsityCompressionConfig], List[str]]:
+        cls, config: dict[str, Any]
+    ) -> tuple[dict[str, SparsityCompressionConfig], list[str]]:
         """
         :param config: The `quantization_config` dictionary from config.json
         :return: A tuple with two elements
@@ -135,7 +135,7 @@ class CompressedTensorsConfig(QuantizationConfig):
 
         sparsity_config = SparsityCompressionConfig.model_validate(
             sparsity_config)
-        sparse_scheme_map: Dict[str, SparsityCompressionConfig] = {
+        sparse_scheme_map: dict[str, SparsityCompressionConfig] = {
             target: sparsity_config
             for target in sparsity_config.targets or list()
         }
@@ -144,13 +144,13 @@ class CompressedTensorsConfig(QuantizationConfig):
 
     @classmethod
     def _quantization_scheme_map_from_config(
-            cls, config: Dict[str, Any]) -> QUANTIZATION_SCHEME_MAP_TYPE:
+            cls, config: dict[str, Any]) -> QUANTIZATION_SCHEME_MAP_TYPE:
         """
         :param config: The `quantization_config` dictionary from config.json
         :return: A dictionary mapping target layer names to their corresponding
             quantization_args for weights and input activations
         """
-        target_scheme_map: Dict[str, Any] = dict()
+        target_scheme_map: dict[str, Any] = dict()
         quant_format = cast(str, config.get("format"))
 
         # The quant_config has multiple config_groups, each containing
@@ -188,7 +188,7 @@ class CompressedTensorsConfig(QuantizationConfig):
         return target_scheme_map
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return []
 
     def _check_scheme_supported(self,
@@ -565,7 +565,7 @@ class CompressedTensorsLinearMethod(LinearMethodBase):
 
     def create_weights(self, layer: torch.nn.Module,
                        input_size_per_partition: int,
-                       output_partition_sizes: List[int], input_size: int,
+                       output_partition_sizes: list[int], input_size: int,
                        output_size: int, params_dtype: torch.dtype,
                        **extra_weight_attrs):
         """
@@ -611,7 +611,7 @@ class CompressedTensorsKVCacheMethod(BaseKVCacheMethod):
         super().__init__(quant_config)
 
     @staticmethod
-    def validate_kv_cache_scheme(kv_cache_scheme: Optional[Dict[str, Any]]):
+    def validate_kv_cache_scheme(kv_cache_scheme: Optional[dict[str, Any]]):
         """
         Validator for the kv cache scheme. Useful for controlling the
         kv cache quantization schemes, that are being supported in vLLM
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_24.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_24.py
index ec805c934..f010bc034 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_24.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_24.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Callable, Dict, List, Optional, Tuple
+from typing import Any, Callable, Optional
 
 import torch
 from compressed_tensors import CompressionFormat, ModelCompressor
@@ -31,7 +31,7 @@ class CompressedTensors24(CompressedTensorsScheme):
         quantized: bool = False,
         weight_quant: Optional[QuantizationArgs] = None,
         input_quant: Optional[QuantizationArgs] = None,
-        model_compression_config: Optional[Dict[str, Any]] = None,
+        model_compression_config: Optional[dict[str, Any]] = None,
     ):
         self.quantized = quantized
         self.weight_quant = weight_quant
@@ -53,7 +53,7 @@ class CompressedTensors24(CompressedTensorsScheme):
         self,
         layer: torch.nn.Module,
         input_size: int,
-        output_partition_sizes: List[int],
+        output_partition_sizes: list[int],
         input_size_per_partition: int,
         params_dtype: torch.dtype,
         weight_loader: Callable,
@@ -327,9 +327,9 @@ class CompressedTensors24(CompressedTensorsScheme):
             )
             return sparsity_compressor.decompress_weight(weight_data)
 
-        split_weights: List[torch.Tensor] = []
-        split_bitmask: List[torch.Tensor] = []
-        split_shape: List[Tuple[int, int]] = []
+        split_weights: list[torch.Tensor] = []
+        split_bitmask: list[torch.Tensor] = []
+        split_shape: list[tuple[int, int]] = []
 
         if isinstance(layer, (QKVParallelLinear, MergedColumnParallelLinear)):
             split_weights = torch.split(compressed, layer.logical_widths)
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_24.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_24.py
index 535ea6b32..6ea31e50c 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_24.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_24.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Callable, List, Optional
+from typing import Callable, Optional
 
 import torch
 from torch.nn import Parameter
@@ -58,7 +58,7 @@ class CompressedTensorsW4A16Sparse24(CompressedTensorsScheme):
         layer.meta = Parameter(layer.meta.data, requires_grad=False)
 
     def create_weights(self, layer: torch.nn.Module, input_size: int,
-                       output_partition_sizes: List[int],
+                       output_partition_sizes: list[int],
                        input_size_per_partition: int,
                        params_dtype: torch.dtype, weight_loader: Callable,
                        **kwargs):
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py
index caa4fe89c..cf60b34ba 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py
@@ -1,5 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
-from typing import Callable, List, Optional
+from typing import Callable, Optional
 
 import torch
 from torch.nn.parameter import Parameter
@@ -26,7 +26,7 @@ class CompressedTensorsW4A16Fp4(CompressedTensorsScheme):
         return 80
 
     def create_weights(self, layer: torch.nn.Module,
-                       output_partition_sizes: List[int],
+                       output_partition_sizes: list[int],
                        input_size_per_partition: int,
                        params_dtype: torch.dtype, weight_loader: Callable,
                        **kwargs):
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a16_fp8.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a16_fp8.py
index 1b54e154e..61e4918ca 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a16_fp8.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a16_fp8.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Callable, List, Optional
+from typing import Callable, Optional
 
 import torch
 from compressed_tensors.quantization import QuantizationStrategy
@@ -58,7 +58,7 @@ class CompressedTensorsW8A16Fp8(CompressedTensorsScheme):
         prepare_fp8_layer_for_marlin(layer)
 
     def create_weights(self, layer: torch.nn.Module, input_size: int,
-                       output_partition_sizes: List[int],
+                       output_partition_sizes: list[int],
                        input_size_per_partition: int,
                        params_dtype: torch.dtype, weight_loader: Callable,
                        **kwargs):
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py
index e99a45296..99bb73b71 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Callable, List, Optional
+from typing import Callable, Optional
 
 import torch
 from compressed_tensors.quantization import QuantizationStrategy
@@ -90,7 +90,7 @@ class CompressedTensorsW8A8Fp8(CompressedTensorsScheme):
             layer.input_scale = None
 
     def create_weights(self, layer: torch.nn.Module,
-                       output_partition_sizes: List[int],
+                       output_partition_sizes: list[int],
                        input_size_per_partition: int,
                        params_dtype: torch.dtype, weight_loader: Callable,
                        **kwargs):
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_int8.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_int8.py
index 08d86a4e5..7792ce865 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_int8.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_int8.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Callable, List, Optional, Set
+from typing import Callable, Optional
 
 import torch
 from compressed_tensors.quantization import QuantizationStrategy
@@ -19,7 +19,7 @@ logger = init_logger(__name__)
 
 
 class CompressedTensorsW8A8Int8(CompressedTensorsScheme):
-    _kernel_backends_being_used: Set[str] = set()
+    _kernel_backends_being_used: set[str] = set()
 
     def __init__(self, strategy: str, is_static_input_scheme: bool,
                  input_symmetric: bool):
@@ -33,7 +33,7 @@ class CompressedTensorsW8A8Int8(CompressedTensorsScheme):
         return 75
 
     def create_weights(self, layer: torch.nn.Module,
-                       output_partition_sizes: List[int],
+                       output_partition_sizes: list[int],
                        input_size_per_partition: int,
                        params_dtype: torch.dtype, weight_loader: Callable,
                        **kwargs):
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa16.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa16.py
index 3535dd3f3..a33c58acb 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa16.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa16.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Callable, List, Optional, Set
+from typing import Callable, Optional
 
 import torch
 from compressed_tensors.quantization import ActivationOrdering
@@ -35,7 +35,7 @@ WNA16_SUPPORTED_BITS = list(WNA16_SUPPORTED_TYPES_MAP.keys())
 
 
 class CompressedTensorsWNA16(CompressedTensorsScheme):
-    _kernel_backends_being_used: Set[str] = set()
+    _kernel_backends_being_used: set[str] = set()
 
     def __init__(self,
                  strategy: str,
@@ -70,7 +70,7 @@ class CompressedTensorsWNA16(CompressedTensorsScheme):
         return 80
 
     def create_weights(self, layer: torch.nn.Module, output_size: int,
-                       input_size: int, output_partition_sizes: List[int],
+                       input_size: int, output_partition_sizes: list[int],
                        input_size_per_partition: int,
                        params_dtype: torch.dtype, weight_loader: Callable,
                        **kwargs):
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/triton_scaled_mm.py b/vllm/model_executor/layers/quantization/compressed_tensors/triton_scaled_mm.py
index d5d98ee8b..2380d3570 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/triton_scaled_mm.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/triton_scaled_mm.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Optional, Type
+from typing import Optional
 
 import torch
 
@@ -126,7 +126,7 @@ def triton_scaled_mm(input: torch.Tensor,
                      weight: torch.Tensor,
                      scale_a: torch.Tensor,
                      scale_b: torch.Tensor,
-                     out_dtype: Type[torch.dtype],
+                     out_dtype: type[torch.dtype],
                      bias: Optional[torch.Tensor] = None,
                      block_size_m: int = 32,
                      block_size_n: int = 32,
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/utils.py b/vllm/model_executor/layers/quantization/compressed_tensors/utils.py
index 85ae1d5cb..ccd54281c 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/utils.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/utils.py
@@ -1,8 +1,9 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import re
+from collections.abc import Iterable, Mapping
 from types import MappingProxyType
-from typing import Iterable, List, Mapping, Optional
+from typing import Optional
 
 from compressed_tensors import CompressionFormat
 from torch.nn import Module
@@ -20,7 +21,7 @@ def is_activation_quantization_format(format: str) -> bool:
 def should_ignore_layer(
     layer_name: Optional[str],
     ignore: Iterable[str] = tuple(),
-    fused_mapping: Mapping[str, List[str]] = MappingProxyType({})
+    fused_mapping: Mapping[str, list[str]] = MappingProxyType({})
 ) -> bool:
     if layer_name is None:
         return False
@@ -84,7 +85,7 @@ def find_matched_target(
     layer_name: Optional[str],
     module: Module,
     targets: Iterable[str],
-    fused_mapping: Mapping[str, List[str]] = MappingProxyType({})
+    fused_mapping: Mapping[str, list[str]] = MappingProxyType({})
 ) -> str:
     """
     Helper function to look up which "target" in the compressed-tensors
@@ -171,7 +172,7 @@ def _is_equal_or_regex_match(value: str,
 
 def _match_fused_layer(
         layer_name: str, target_layers: Iterable[str],
-        fused_mapping: Mapping[str, List[str]]) -> Optional[str]:
+        fused_mapping: Mapping[str, list[str]]) -> Optional[str]:
     """
     Match a fused layer name to its corresponding individual layer in 
     target_layers. Returns first value in fused_mapping which matches targets
@@ -201,7 +202,7 @@ def _match_fused_layer(
     ]
 
     # for each unfused component, find a match in targets
-    unfused_matches: List[Optional[str]] = []
+    unfused_matches: list[Optional[str]] = []
     for unfused in unfused_paths:
         for target in target_layers:
             if _is_equal_or_regex_match(unfused, target):
diff --git a/vllm/model_executor/layers/quantization/deepspeedfp.py b/vllm/model_executor/layers/quantization/deepspeedfp.py
index df7ec3376..0c1eaff93 100644
--- a/vllm/model_executor/layers/quantization/deepspeedfp.py
+++ b/vllm/model_executor/layers/quantization/deepspeedfp.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Dict, List, Optional
+from typing import Any, Optional
 
 import torch
 import torch.nn as nn
@@ -46,7 +46,7 @@ class DeepSpeedFPConfig(QuantizationConfig):
         return "deepspeedfp"
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "DeepSpeedFPConfig":
+    def from_config(cls, config: dict[str, Any]) -> "DeepSpeedFPConfig":
         weight_bits = cls.get_from_keys(config, ["bits"])
         group_size = cls.get_from_keys(config, ["group_size"])
         return cls(weight_bits=weight_bits, group_size=group_size)
@@ -55,7 +55,7 @@ class DeepSpeedFPConfig(QuantizationConfig):
         return DeepSpeedFPLinearMethod(self)
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.half, torch.bfloat16]
 
     @classmethod
@@ -64,7 +64,7 @@ class DeepSpeedFPConfig(QuantizationConfig):
         return 60
 
     @staticmethod
-    def get_config_filenames() -> List[str]:
+    def get_config_filenames() -> list[str]:
         return [
             "quant_config.json",
             "quantize_config.json",
@@ -91,7 +91,7 @@ class DeepSpeedFPLinearMethod(LinearMethodBase):
     def create_weights(self,
                        layer: torch.nn.Module,
                        input_size_per_partition: int,
-                       output_partition_sizes: List[int],
+                       output_partition_sizes: list[int],
                        input_size: int,
                        output_size: int,
                        params_dtype: torch.dtype,
diff --git a/vllm/model_executor/layers/quantization/experts_int8.py b/vllm/model_executor/layers/quantization/experts_int8.py
index cce95941b..3601d219d 100644
--- a/vllm/model_executor/layers/quantization/experts_int8.py
+++ b/vllm/model_executor/layers/quantization/experts_int8.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Callable, Dict, List, Optional
+from typing import Any, Callable, Optional
 
 import torch
 
@@ -25,7 +25,7 @@ class ExpertsInt8Config(QuantizationConfig):
         return "experts_int8"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.bfloat16, torch.half]
 
     @classmethod
@@ -33,11 +33,11 @@ class ExpertsInt8Config(QuantizationConfig):
         return 80
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return []
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "ExpertsInt8Config":
+    def from_config(cls, config: dict[str, Any]) -> "ExpertsInt8Config":
         return cls()
 
     def get_quant_method(self, layer: torch.nn.Module,
diff --git a/vllm/model_executor/layers/quantization/fbgemm_fp8.py b/vllm/model_executor/layers/quantization/fbgemm_fp8.py
index 163aabb45..223682ee9 100644
--- a/vllm/model_executor/layers/quantization/fbgemm_fp8.py
+++ b/vllm/model_executor/layers/quantization/fbgemm_fp8.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Dict, List, Optional
+from typing import Any, Optional
 
 import torch
 from torch.nn import Module
@@ -28,7 +28,7 @@ logger = init_logger(__name__)
 class FBGEMMFp8Config(QuantizationConfig):
     """Config class for FBGEMM Fp8."""
 
-    def __init__(self, ignore_list: List[str], input_scale_ub: float):
+    def __init__(self, ignore_list: list[str], input_scale_ub: float):
         super().__init__()
         self.ignore_list = ignore_list if ignore_list else []
         self.input_scale_ub = input_scale_ub
@@ -43,7 +43,7 @@ class FBGEMMFp8Config(QuantizationConfig):
         return "fbgemm_fp8"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.bfloat16, torch.float16]
 
     @classmethod
@@ -51,11 +51,11 @@ class FBGEMMFp8Config(QuantizationConfig):
         return 80
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return []
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "FBGEMMFp8Config":
+    def from_config(cls, config: dict[str, Any]) -> "FBGEMMFp8Config":
         ignore_list = cls.get_from_keys(config, ["modules_to_not_convert"])
         input_scale_ub = cls.get_from_keys(config, ["activation_scale_ub"])
         return cls(ignore_list=ignore_list, input_scale_ub=input_scale_ub)
@@ -82,7 +82,7 @@ class FBGEMMFp8LinearMethod(LinearMethodBase):
         self,
         layer: torch.nn.Module,
         input_size_per_partition: int,
-        output_partition_sizes: List[int],
+        output_partition_sizes: list[int],
         input_size: int,
         output_size: int,
         params_dtype: torch.dtype,
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index f7056016f..ca3126354 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import importlib.util
-from typing import Any, Callable, Dict, List, Optional
+from typing import Any, Callable, Optional
 
 import torch
 import torch.nn.functional as F
@@ -57,8 +57,8 @@ class Fp8Config(QuantizationConfig):
         self,
         is_checkpoint_fp8_serialized: bool = False,
         activation_scheme: str = "dynamic",
-        ignored_layers: Optional[List[str]] = None,
-        weight_block_size: Optional[List[int]] = None,
+        ignored_layers: Optional[list[str]] = None,
+        weight_block_size: Optional[list[int]] = None,
     ) -> None:
         super().__init__()
         self.is_checkpoint_fp8_serialized = is_checkpoint_fp8_serialized
@@ -90,7 +90,7 @@ class Fp8Config(QuantizationConfig):
         return "fp8"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.bfloat16, torch.half]
 
     @classmethod
@@ -98,11 +98,11 @@ class Fp8Config(QuantizationConfig):
         return 80
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return []
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "Fp8Config":
+    def from_config(cls, config: dict[str, Any]) -> "Fp8Config":
         quant_method = cls.get_from_keys(config, ["quant_method"])
         is_checkpoint_fp8_serialized = ("fp8" in quant_method)
         activation_scheme = cls.get_from_keys(config, ["activation_scheme"])
@@ -191,7 +191,7 @@ class Fp8LinearMethod(LinearMethodBase):
         self,
         layer: torch.nn.Module,
         input_size_per_partition: int,
-        output_partition_sizes: List[int],
+        output_partition_sizes: list[int],
         input_size: int,
         output_size: int,
         params_dtype: torch.dtype,
diff --git a/vllm/model_executor/layers/quantization/gguf.py b/vllm/model_executor/layers/quantization/gguf.py
index c88152454..d7d4a5d6a 100644
--- a/vllm/model_executor/layers/quantization/gguf.py
+++ b/vllm/model_executor/layers/quantization/gguf.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Callable, Dict, List, Optional
+from typing import Any, Callable, Optional
 
 import gguf
 import torch
@@ -35,7 +35,7 @@ class GGUFConfig(QuantizationConfig):
     def get_name(self) -> QuantizationMethods:
         return "gguf"
 
-    def get_supported_act_dtypes(self) -> List[torch.dtype]:
+    def get_supported_act_dtypes(self) -> list[torch.dtype]:
         return [torch.half, torch.bfloat16, torch.float32]
 
     @classmethod
@@ -43,11 +43,11 @@ class GGUFConfig(QuantizationConfig):
         return 60
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return []  # no extra configs.
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "GGUFConfig":
+    def from_config(cls, config: dict[str, Any]) -> "GGUFConfig":
         return cls()
 
     def get_quant_method(self, layer: torch.nn.Module,
@@ -215,7 +215,7 @@ class GGUFLinearMethod(LinearMethodBase):
 
     def create_weights(self, layer: torch.nn.Module,
                        input_size_per_partition: int,
-                       output_partition_sizes: List[int], input_size: int,
+                       output_partition_sizes: list[int], input_size: int,
                        output_size: int, params_dtype: torch.dtype,
                        **extra_weight_attrs):
         self.params_dtype = params_dtype
@@ -406,7 +406,7 @@ class GGUFEmbeddingMethod(GGUFLinearMethod):
 
 class GGUFUninitializedParameter(UninitializedParameter):
     cls_to_become = Parameter
-    data_container: List[torch.Tensor]
+    data_container: list[torch.Tensor]
 
     def materialize_nested(self) -> Parameter:
         dtype = {data.dtype for data in self.data_container}
diff --git a/vllm/model_executor/layers/quantization/gptq.py b/vllm/model_executor/layers/quantization/gptq.py
index 5059e0cdf..436f1e3cc 100644
--- a/vllm/model_executor/layers/quantization/gptq.py
+++ b/vllm/model_executor/layers/quantization/gptq.py
@@ -3,7 +3,7 @@
 import enum
 from enum import Enum
 from fractions import Fraction
-from typing import Any, Dict, List, Optional, Union
+from typing import Any, Optional, Union
 
 import torch
 from torch.nn.parameter import Parameter
@@ -34,11 +34,11 @@ class GPTQConfig(QuantizationConfig):
         group_size: int,
         desc_act: bool,
         lm_head_quantized: bool,
-        dynamic: Dict[str, Dict[str, Union[int, bool]]],
+        dynamic: dict[str, dict[str, Union[int, bool]]],
     ) -> None:
         # GPTQModel use `dynamic` config property to allow per module
         # quantization config so each module can be individually optimized.
-        # Format is Dict[str, Dict] where key is a regex string that can
+        # Format is dict[str, dict] where key is a regex string that can
         # perform both positive ("+:" prefixed) or negative ("-:" prefixed)
         # matching of a module.
         # Default to positive match, override base quant config mode, if no
@@ -84,7 +84,7 @@ class GPTQConfig(QuantizationConfig):
         return "gptq"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.half]
 
     @classmethod
@@ -93,11 +93,11 @@ class GPTQConfig(QuantizationConfig):
         return 60
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return ["quantize_config.json"]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "GPTQConfig":
+    def from_config(cls, config: dict[str, Any]) -> "GPTQConfig":
         dynamic = cls.get_from_keys_or(config, ["dynamic"], default={})
         dynamic = {} if dynamic is None else dynamic
 
@@ -135,7 +135,7 @@ class GPTQLinearMethod(LinearMethodBase):
         self,
         layer: torch.nn.Module,
         input_size_per_partition: int,
-        output_partition_sizes: List[int],
+        output_partition_sizes: list[int],
         input_size: int,
         output_size: int,
         params_dtype: torch.dtype,
diff --git a/vllm/model_executor/layers/quantization/gptq_bitblas.py b/vllm/model_executor/layers/quantization/gptq_bitblas.py
index b06c9579d..be9510abd 100644
--- a/vllm/model_executor/layers/quantization/gptq_bitblas.py
+++ b/vllm/model_executor/layers/quantization/gptq_bitblas.py
@@ -1,5 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
-from typing import Any, Dict, List, Optional, Set
+from typing import Any, Optional
 
 import torch
 from torch.nn.parameter import Parameter
@@ -129,7 +129,7 @@ class GPTQBitBLASConfig(QuantizationConfig):
         return "gptq_bitblas"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.half, torch.bfloat16]
 
     @classmethod
@@ -137,11 +137,11 @@ class GPTQBitBLASConfig(QuantizationConfig):
         return 80
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return ["quantize_config.json"]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "GPTQBitBLASConfig":
+    def from_config(cls, config: dict[str, Any]) -> "GPTQBitBLASConfig":
         weight_bits = cls.get_from_keys(config, ["bits"])
         group_size = cls.get_from_keys(config, ["group_size"])
         desc_act = cls.get_from_keys(config, ["desc_act"])
@@ -185,7 +185,7 @@ class GPTQBitBLASConfig(QuantizationConfig):
         return self.TORCH_BITBLAS_STORAGE_DTYPE
 
     @classmethod
-    def is_gptq_bitblas_compatible(cls, quant_config: Dict[str, Any]):
+    def is_gptq_bitblas_compatible(cls, quant_config: dict[str, Any]):
         # Extract data from quant config.
         num_bits = quant_config.get("bits")
         group_size = quant_config.get("group_size")
@@ -224,7 +224,7 @@ class GPTQBitBLASLinearMethod(LinearMethodBase):
     """
 
     kernel_type = BitBLASLinearKernel
-    _kernel_backends_being_used: Set[str] = set()
+    _kernel_backends_being_used: set[str] = set()
 
     def __init__(self, quant_config: GPTQBitBLASConfig) -> None:
         self.quant_config = quant_config
@@ -236,7 +236,7 @@ class GPTQBitBLASLinearMethod(LinearMethodBase):
         self,
         layer: torch.nn.Module,
         input_size_per_partition: int,
-        output_partition_sizes: List[int],
+        output_partition_sizes: list[int],
         input_size: int,
         output_size: int,
         params_dtype: torch.dtype,
diff --git a/vllm/model_executor/layers/quantization/gptq_marlin.py b/vllm/model_executor/layers/quantization/gptq_marlin.py
index 1c60d0f64..cf012e145 100644
--- a/vllm/model_executor/layers/quantization/gptq_marlin.py
+++ b/vllm/model_executor/layers/quantization/gptq_marlin.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Callable, Dict, List, Optional, Set, Union
+from typing import Any, Callable, Optional, Union
 
 import torch
 
@@ -45,8 +45,8 @@ class GPTQMarlinConfig(QuantizationConfig):
 
     def __init__(self, weight_bits: int, group_size: int, desc_act: bool,
                  is_sym: bool, lm_head_quantized: bool,
-                 dynamic: Dict[str, Dict[str, Union[int, bool]]],
-                 full_config: Dict[str, Any]) -> None:
+                 dynamic: dict[str, dict[str, Union[int, bool]]],
+                 full_config: dict[str, Any]) -> None:
         super().__init__()
         if desc_act and group_size == -1:
             # In this case, act_order == True is the same as act_order == False
@@ -55,7 +55,7 @@ class GPTQMarlinConfig(QuantizationConfig):
 
         # GPTQModel use `dynamic` config property to allow per module
         # quantization config so each module can be individually optimized.
-        # Format is Dict[str, Dict] where key is a regex string that can
+        # Format is dict[str, dict] where key is a regex string that can
         # perform both positive ("+:" prefixed) or negative ("-:" prefixed)
         # matching of a module.
         # Default to positive match, override base quant config mode, if no
@@ -105,7 +105,7 @@ class GPTQMarlinConfig(QuantizationConfig):
         return "gptq_marlin"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.half, torch.bfloat16]
 
     @classmethod
@@ -113,11 +113,11 @@ class GPTQMarlinConfig(QuantizationConfig):
         return 80
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return ["quantize_config.json"]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "GPTQMarlinConfig":
+    def from_config(cls, config: dict[str, Any]) -> "GPTQMarlinConfig":
         dynamic = cls.get_from_keys_or(config, ["dynamic"], default={})
         dynamic = {} if dynamic is None else dynamic
 
@@ -167,7 +167,7 @@ class GPTQMarlinConfig(QuantizationConfig):
                                        GPTQMarlinLinearMethod)
 
     @classmethod
-    def is_gptq_marlin_compatible(cls, quant_config: Dict[str, Any]):
+    def is_gptq_marlin_compatible(cls, quant_config: dict[str, Any]):
         quant_method = quant_config.get("quant_method", "").lower()
         num_bits = quant_config.get("bits")
         group_size = quant_config.get("group_size")
@@ -199,7 +199,7 @@ class GPTQMarlinLinearMethod(LinearMethodBase):
         quant_config: The GPTQ Marlin quantization config.
     """
 
-    _kernel_backends_being_used: Set[str] = set()
+    _kernel_backends_being_used: set[str] = set()
 
     def __init__(self, quant_config: GPTQMarlinConfig) -> None:
         self.quant_config = quant_config
@@ -212,7 +212,7 @@ class GPTQMarlinLinearMethod(LinearMethodBase):
         self,
         layer: torch.nn.Module,
         input_size_per_partition: int,
-        output_partition_sizes: List[int],
+        output_partition_sizes: list[int],
         input_size: int,
         output_size: int,
         params_dtype: torch.dtype,
diff --git a/vllm/model_executor/layers/quantization/gptq_marlin_24.py b/vllm/model_executor/layers/quantization/gptq_marlin_24.py
index 1fe08e4b3..e90416f37 100644
--- a/vllm/model_executor/layers/quantization/gptq_marlin_24.py
+++ b/vllm/model_executor/layers/quantization/gptq_marlin_24.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Dict, List, Optional
+from typing import Any, Optional
 
 import torch
 from torch.nn.parameter import Parameter
@@ -90,7 +90,7 @@ class GPTQMarlin24Config(QuantizationConfig):
         return "gptq_marlin_24"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.half]
 
     @classmethod
@@ -99,11 +99,11 @@ class GPTQMarlin24Config(QuantizationConfig):
         return 80
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return ["quantize_config.json"]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "GPTQMarlin24Config":
+    def from_config(cls, config: dict[str, Any]) -> "GPTQMarlin24Config":
         weight_bits = cls.get_from_keys(config, ["bits"])
         group_size = cls.get_from_keys(config, ["group_size"])
         return cls(weight_bits, group_size)
@@ -146,7 +146,7 @@ class GPTQMarlin24LinearMethod(LinearMethodBase):
         self,
         layer: torch.nn.Module,
         input_size_per_partition: int,
-        output_partition_sizes: List[int],
+        output_partition_sizes: list[int],
         input_size: int,
         output_size: int,
         params_dtype: torch.dtype,
diff --git a/vllm/model_executor/layers/quantization/hqq_marlin.py b/vllm/model_executor/layers/quantization/hqq_marlin.py
index e7511f330..a8faf9772 100644
--- a/vllm/model_executor/layers/quantization/hqq_marlin.py
+++ b/vllm/model_executor/layers/quantization/hqq_marlin.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Dict, List, Optional
+from typing import Any, Optional
 
 import torch
 
@@ -32,7 +32,7 @@ class HQQMarlinConfig(QuantizationConfig):
         self,
         weight_bits: int,
         group_size: int,
-        skip_modules: Optional[List[str]] = None,
+        skip_modules: Optional[list[str]] = None,
     ) -> None:
         super().__init__()
         assert group_size == 64, ("The only supported HQQ group size is "
@@ -55,7 +55,7 @@ class HQQMarlinConfig(QuantizationConfig):
         return "hqq"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.half, torch.bfloat16]
 
     @classmethod
@@ -63,11 +63,11 @@ class HQQMarlinConfig(QuantizationConfig):
         return 80
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return ["quantize_config.json"]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "HQQMarlinConfig":
+    def from_config(cls, config: dict[str, Any]) -> "HQQMarlinConfig":
         wq_params = (config["quant_config"]["weight_quant_params"])
         weight_bits = cls.get_from_keys(wq_params, ["nbits"])
         group_size = cls.get_from_keys(wq_params, ["group_size"])
@@ -192,7 +192,7 @@ class HQQMarlinMethod(LinearMethodBase):
         self,
         layer: torch.nn.Module,
         input_size_per_partition: int,
-        output_partition_sizes: List[int],
+        output_partition_sizes: list[int],
         input_size: int,
         output_size: int,
         params_dtype: torch.dtype,
diff --git a/vllm/model_executor/layers/quantization/ipex_quant.py b/vllm/model_executor/layers/quantization/ipex_quant.py
index 212af278f..8bce6bba4 100644
--- a/vllm/model_executor/layers/quantization/ipex_quant.py
+++ b/vllm/model_executor/layers/quantization/ipex_quant.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Dict, List, Optional
+from typing import Any, Optional
 
 import torch
 
@@ -32,7 +32,7 @@ class IPEXConfig(QuantizationConfig):
         method: str,
         weight_bits: int,
         group_size: int,
-        modules_to_not_convert: Optional[List[str]] = None,
+        modules_to_not_convert: Optional[list[str]] = None,
         desc_act: Optional[bool] = None,
         lm_head_quantized: Optional[bool] = None,
     ) -> None:
@@ -63,7 +63,7 @@ class IPEXConfig(QuantizationConfig):
         return "ipex"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.bfloat16, torch.float16]
 
     @classmethod
@@ -71,14 +71,14 @@ class IPEXConfig(QuantizationConfig):
         return -1
 
     @staticmethod
-    def get_config_filenames() -> List[str]:
+    def get_config_filenames() -> list[str]:
         return [
             "quant_config.json",
             "quantize_config.json",
         ]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "IPEXConfig":
+    def from_config(cls, config: dict[str, Any]) -> "IPEXConfig":
         method = cls.get_from_keys(config, ["quant_method"]).lower()
         if method == "awq":
             weight_bits = cls.get_from_keys(config, ["w_bit", "bits"])
diff --git a/vllm/model_executor/layers/quantization/kernels/mixed_precision/MPLinearKernel.py b/vllm/model_executor/layers/quantization/kernels/mixed_precision/MPLinearKernel.py
index c06befaf3..55ad00b1c 100644
--- a/vllm/model_executor/layers/quantization/kernels/mixed_precision/MPLinearKernel.py
+++ b/vllm/model_executor/layers/quantization/kernels/mixed_precision/MPLinearKernel.py
@@ -2,7 +2,7 @@
 
 from abc import ABC, abstractmethod
 from dataclasses import dataclass
-from typing import Callable, Optional, Tuple
+from typing import Callable, Optional
 
 import torch
 
@@ -12,8 +12,8 @@ from vllm.scalar_type import ScalarType
 
 @dataclass
 class MPLinearLayerConfig:
-    full_weight_shape: Tuple[int, int]  # [in, out]
-    partition_weight_shape: Tuple[int, int]
+    full_weight_shape: tuple[int, int]  # [in, out]
+    partition_weight_shape: tuple[int, int]
     weight_type: ScalarType
     act_type: torch.dtype
     group_size: int
@@ -31,7 +31,7 @@ class MPLinearKernel(ABC):
     @classmethod
     @abstractmethod
     def can_implement(cls,
-                      c: MPLinearLayerConfig) -> Tuple[bool, Optional[str]]:
+                      c: MPLinearLayerConfig) -> tuple[bool, Optional[str]]:
         raise NotImplementedError
 
     def __init__(self,
@@ -75,7 +75,7 @@ class MPLinearKernel(ABC):
                 torch.nn.Parameter(new_param.data, requires_grad=False))
 
     def _get_weight_params(
-            self, layer: torch.nn.Module) -> Tuple[
+            self, layer: torch.nn.Module) -> tuple[
                 torch.Tensor,  # w_q
                 torch.Tensor,  # w_s
                 Optional[torch.Tensor],  # w_zp, 
diff --git a/vllm/model_executor/layers/quantization/kernels/mixed_precision/__init__.py b/vllm/model_executor/layers/quantization/kernels/mixed_precision/__init__.py
index d144bb436..bb1dc40ad 100644
--- a/vllm/model_executor/layers/quantization/kernels/mixed_precision/__init__.py
+++ b/vllm/model_executor/layers/quantization/kernels/mixed_precision/__init__.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import List, Optional, Type
+from typing import Optional
 
 import vllm.envs as envs
 from vllm.model_executor.layers.quantization.kernels.mixed_precision.allspark import (  # noqa: E501
@@ -18,7 +18,7 @@ from vllm.model_executor.layers.quantization.kernels.mixed_precision.MPLinearKer
 from vllm.platforms import current_platform
 
 # in priority/performance order (when available)
-_POSSIBLE_KERNELS: List[Type[MPLinearKernel]] = [
+_POSSIBLE_KERNELS: list[type[MPLinearKernel]] = [
     MacheteLinearKernel,
     AllSparkLinearKernel,
     MarlinLinearKernel,
@@ -29,7 +29,7 @@ _POSSIBLE_KERNELS: List[Type[MPLinearKernel]] = [
 
 def choose_mp_linear_kernel(
         config: MPLinearLayerConfig,
-        compute_capability: Optional[int] = None) -> Type[MPLinearKernel]:
+        compute_capability: Optional[int] = None) -> type[MPLinearKernel]:
     """
     Choose an MPLinearKernel that can implement the given config for the given
      compute capability. Attempts to choose the best kernel in terms of 
@@ -46,7 +46,7 @@ def choose_mp_linear_kernel(
         ValueError: If no kernel can implement the given config.
 
     Returns:
-        Type[MPLinearKernel]: Chosen kernel.
+        type[MPLinearKernel]: Chosen kernel.
     """
     if compute_capability is None:
         if current_platform is None:
diff --git a/vllm/model_executor/layers/quantization/kernels/mixed_precision/allspark.py b/vllm/model_executor/layers/quantization/kernels/mixed_precision/allspark.py
index 56fdd6a18..e07177dd6 100644
--- a/vllm/model_executor/layers/quantization/kernels/mixed_precision/allspark.py
+++ b/vllm/model_executor/layers/quantization/kernels/mixed_precision/allspark.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -22,7 +22,7 @@ class AllSparkLinearKernel(MPLinearKernel):
 
     @classmethod
     def can_implement(cls,
-                      c: MPLinearLayerConfig) -> Tuple[bool, Optional[str]]:
+                      c: MPLinearLayerConfig) -> tuple[bool, Optional[str]]:
         if c.has_g_idx:
             return False, "Act reordering currently not supported by AllSpark"
 
diff --git a/vllm/model_executor/layers/quantization/kernels/mixed_precision/bitblas.py b/vllm/model_executor/layers/quantization/kernels/mixed_precision/bitblas.py
index 21452d08b..29e206991 100644
--- a/vllm/model_executor/layers/quantization/kernels/mixed_precision/bitblas.py
+++ b/vllm/model_executor/layers/quantization/kernels/mixed_precision/bitblas.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Dict, List, Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -21,10 +21,10 @@ logger = init_logger(__name__)
 
 class BitBLASLinearKernel(MPLinearKernel):
 
-    OPT_FEATURES: List[int] = BITBLAS_OPTIMIZE_FEATURES
+    OPT_FEATURES: list[int] = BITBLAS_OPTIMIZE_FEATURES
     ENABLE_TUNING: bool = True
     MATMUL_LAYOUT: str = "nt"
-    BITBLAS_DTYPES: Dict[torch.dtype, str] = {
+    BITBLAS_DTYPES: dict[torch.dtype, str] = {
         torch.float32: "float32",
         torch.float16: "float16",
         torch.bfloat16: "bfloat16",
@@ -103,7 +103,7 @@ class BitBLASLinearKernel(MPLinearKernel):
 
     @classmethod
     def can_implement(cls,
-                      c: MPLinearLayerConfig) -> Tuple[bool, Optional[str]]:
+                      c: MPLinearLayerConfig) -> tuple[bool, Optional[str]]:
 
         is_bitblas_installed = True
 
diff --git a/vllm/model_executor/layers/quantization/kernels/mixed_precision/exllama.py b/vllm/model_executor/layers/quantization/kernels/mixed_precision/exllama.py
index 2706fbb53..50d293cf4 100644
--- a/vllm/model_executor/layers/quantization/kernels/mixed_precision/exllama.py
+++ b/vllm/model_executor/layers/quantization/kernels/mixed_precision/exllama.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -25,7 +25,7 @@ class ExllamaLinearKernel(MPLinearKernel):
 
     @classmethod
     def can_implement(cls,
-                      c: MPLinearLayerConfig) -> Tuple[bool, Optional[str]]:
+                      c: MPLinearLayerConfig) -> tuple[bool, Optional[str]]:
         if c.has_g_idx and\
             c.partition_weight_shape[0] != c.full_weight_shape[0]:
             return False, "Act reordering currently not supported by Exllama, "\
diff --git a/vllm/model_executor/layers/quantization/kernels/mixed_precision/machete.py b/vllm/model_executor/layers/quantization/kernels/mixed_precision/machete.py
index b3ffeca4f..855867fa4 100644
--- a/vllm/model_executor/layers/quantization/kernels/mixed_precision/machete.py
+++ b/vllm/model_executor/layers/quantization/kernels/mixed_precision/machete.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from functools import partial
-from typing import Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -25,7 +25,7 @@ class MacheteLinearKernel(MPLinearKernel):
 
     @classmethod
     def can_implement(cls,
-                      c: MPLinearLayerConfig) -> Tuple[bool, Optional[str]]:
+                      c: MPLinearLayerConfig) -> tuple[bool, Optional[str]]:
 
         if c.has_g_idx and\
             c.partition_weight_shape[0] != c.full_weight_shape[0]:
diff --git a/vllm/model_executor/layers/quantization/kernels/mixed_precision/marlin.py b/vllm/model_executor/layers/quantization/kernels/mixed_precision/marlin.py
index 97fcde161..899011f00 100644
--- a/vllm/model_executor/layers/quantization/kernels/mixed_precision/marlin.py
+++ b/vllm/model_executor/layers/quantization/kernels/mixed_precision/marlin.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -24,7 +24,7 @@ class MarlinLinearKernel(MPLinearKernel):
 
     @classmethod
     def can_implement(cls,
-                      c: MPLinearLayerConfig) -> Tuple[bool, Optional[str]]:
+                      c: MPLinearLayerConfig) -> tuple[bool, Optional[str]]:
 
         quant_types = query_marlin_supported_quant_types(c.zero_points)
         if c.weight_type not in quant_types:
diff --git a/vllm/model_executor/layers/quantization/kernels/scaled_mm/ScaledMMLinearKernel.py b/vllm/model_executor/layers/quantization/kernels/scaled_mm/ScaledMMLinearKernel.py
index 91e765405..2d92af74b 100644
--- a/vllm/model_executor/layers/quantization/kernels/scaled_mm/ScaledMMLinearKernel.py
+++ b/vllm/model_executor/layers/quantization/kernels/scaled_mm/ScaledMMLinearKernel.py
@@ -2,7 +2,7 @@
 
 from abc import ABC, abstractmethod
 from dataclasses import dataclass
-from typing import Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -24,7 +24,7 @@ class ScaledMMLinearKernel(ABC):
     @classmethod
     @abstractmethod
     def can_implement(
-            cls, c: ScaledMMLinearLayerConfig) -> Tuple[bool, Optional[str]]:
+            cls, c: ScaledMMLinearLayerConfig) -> tuple[bool, Optional[str]]:
         raise NotImplementedError
 
     def __init__(self, c: ScaledMMLinearLayerConfig, w_q_param_name: str,
@@ -50,7 +50,7 @@ class ScaledMMLinearKernel(ABC):
         raise NotImplementedError
 
     def _get_weight_params(
-            self, layer: torch.nn.Module) -> Tuple[
+            self, layer: torch.nn.Module) -> tuple[
                 torch.Tensor,  # weight
                 torch.Tensor,  # weight_scale
                 Optional[torch.Tensor],  # input_scale, 
diff --git a/vllm/model_executor/layers/quantization/kernels/scaled_mm/__init__.py b/vllm/model_executor/layers/quantization/kernels/scaled_mm/__init__.py
index 014108e69..5d58c0489 100644
--- a/vllm/model_executor/layers/quantization/kernels/scaled_mm/__init__.py
+++ b/vllm/model_executor/layers/quantization/kernels/scaled_mm/__init__.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import os
-from typing import Dict, List, Optional, Type
+from typing import Optional
 
 from vllm.model_executor.layers.quantization.kernels.scaled_mm.aiter import (
     AiterScaledMMLinearKernel)
@@ -16,7 +16,7 @@ from vllm.model_executor.layers.quantization.kernels.scaled_mm.xla import (
 from vllm.platforms import PlatformEnum, current_platform
 
 # in priority/performance order (when available)
-_POSSIBLE_KERNELS: Dict[PlatformEnum, List[Type[ScaledMMLinearKernel]]] = {
+_POSSIBLE_KERNELS: dict[PlatformEnum, list[type[ScaledMMLinearKernel]]] = {
     PlatformEnum.CPU: [CutlassScaledMMLinearKernel],
     PlatformEnum.CUDA: [CutlassScaledMMLinearKernel],
     PlatformEnum.ROCM: [AiterScaledMMLinearKernel, TritonScaledMMLinearKernel],
@@ -27,7 +27,7 @@ _POSSIBLE_KERNELS: Dict[PlatformEnum, List[Type[ScaledMMLinearKernel]]] = {
 def choose_scaled_mm_linear_kernel(
         config: ScaledMMLinearLayerConfig,
         compute_capability: Optional[int] = None
-) -> Type[ScaledMMLinearKernel]:
+) -> type[ScaledMMLinearKernel]:
     """
     Choose an ScaledMMLinearKernel that can implement the given config for the 
     given compute capability. Attempts to choose the best kernel in terms of 
@@ -44,7 +44,7 @@ def choose_scaled_mm_linear_kernel(
         ValueError: If no kernel can implement the given config.
 
     Returns:
-        Type[ScaledMMLinearKernel]: Chosen kernel.
+        type[ScaledMMLinearKernel]: Chosen kernel.
     """
 
     if compute_capability is None:
diff --git a/vllm/model_executor/layers/quantization/kernels/scaled_mm/aiter.py b/vllm/model_executor/layers/quantization/kernels/scaled_mm/aiter.py
index 582b12f76..6c2c464e6 100644
--- a/vllm/model_executor/layers/quantization/kernels/scaled_mm/aiter.py
+++ b/vllm/model_executor/layers/quantization/kernels/scaled_mm/aiter.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -20,7 +20,7 @@ class AiterScaledMMLinearKernel(CutlassScaledMMLinearKernel):
 
     @classmethod
     def can_implement(
-            cls, c: ScaledMMLinearLayerConfig) -> Tuple[bool, Optional[str]]:
+            cls, c: ScaledMMLinearLayerConfig) -> tuple[bool, Optional[str]]:
         if not current_platform.is_rocm():
             return (
                 False,
diff --git a/vllm/model_executor/layers/quantization/kernels/scaled_mm/cutlass.py b/vllm/model_executor/layers/quantization/kernels/scaled_mm/cutlass.py
index 047724129..98a0b30be 100644
--- a/vllm/model_executor/layers/quantization/kernels/scaled_mm/cutlass.py
+++ b/vllm/model_executor/layers/quantization/kernels/scaled_mm/cutlass.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -22,7 +22,7 @@ class CutlassScaledMMLinearKernel(ScaledMMLinearKernel):
 
     @classmethod
     def can_implement(
-            cls, c: ScaledMMLinearLayerConfig) -> Tuple[bool, Optional[str]]:
+            cls, c: ScaledMMLinearLayerConfig) -> tuple[bool, Optional[str]]:
 
         if (not current_platform.is_cuda() and not current_platform.is_cpu()):
             return False, "CutlassScaledMM requires running on CUDA or CPU."
diff --git a/vllm/model_executor/layers/quantization/kernels/scaled_mm/triton.py b/vllm/model_executor/layers/quantization/kernels/scaled_mm/triton.py
index 5da5df8ef..c09ca83d0 100644
--- a/vllm/model_executor/layers/quantization/kernels/scaled_mm/triton.py
+++ b/vllm/model_executor/layers/quantization/kernels/scaled_mm/triton.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -18,7 +18,7 @@ class TritonScaledMMLinearKernel(CutlassScaledMMLinearKernel):
 
     @classmethod
     def can_implement(
-            cls, c: ScaledMMLinearLayerConfig) -> Tuple[bool, Optional[str]]:
+            cls, c: ScaledMMLinearLayerConfig) -> tuple[bool, Optional[str]]:
         if current_platform.is_cpu():
             return (
                 False,
diff --git a/vllm/model_executor/layers/quantization/kernels/scaled_mm/xla.py b/vllm/model_executor/layers/quantization/kernels/scaled_mm/xla.py
index 089314071..a97b53b9d 100644
--- a/vllm/model_executor/layers/quantization/kernels/scaled_mm/xla.py
+++ b/vllm/model_executor/layers/quantization/kernels/scaled_mm/xla.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import warnings
-from typing import Optional, Tuple
+from typing import Optional
 
 import torch
 from functorch.experimental.control_flow import cond  # noqa: F401
@@ -25,7 +25,7 @@ class XLAScaledMMLinearKernel(ScaledMMLinearKernel):
 
     @classmethod
     def can_implement(
-            cls, c: ScaledMMLinearLayerConfig) -> Tuple[bool, Optional[str]]:
+            cls, c: ScaledMMLinearLayerConfig) -> tuple[bool, Optional[str]]:
 
         if not current_platform.is_tpu():
             return False, "ScaledMMXLA requires running on TPU."
diff --git a/vllm/model_executor/layers/quantization/marlin.py b/vllm/model_executor/layers/quantization/marlin.py
index 9ef71a789..2437030c8 100644
--- a/vllm/model_executor/layers/quantization/marlin.py
+++ b/vllm/model_executor/layers/quantization/marlin.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Dict, List, Optional
+from typing import Any, Optional
 
 import torch
 from torch.nn.parameter import Parameter
@@ -68,7 +68,7 @@ class MarlinConfig(QuantizationConfig):
         return "marlin"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.half]
 
     @classmethod
@@ -77,11 +77,11 @@ class MarlinConfig(QuantizationConfig):
         return 80
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return ["quantize_config.json"]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "MarlinConfig":
+    def from_config(cls, config: dict[str, Any]) -> "MarlinConfig":
         group_size = cls.get_from_keys(config, ["group_size"])
         lm_head_quantized = cls.get_from_keys_or(config, ["lm_head"],
                                                  default=False)
@@ -128,7 +128,7 @@ class MarlinLinearMethod(LinearMethodBase):
         self,
         layer: torch.nn.Module,
         input_size_per_partition: int,
-        output_partition_sizes: List[int],
+        output_partition_sizes: list[int],
         input_size: int,
         output_size: int,
         params_dtype: torch.dtype,
diff --git a/vllm/model_executor/layers/quantization/modelopt.py b/vllm/model_executor/layers/quantization/modelopt.py
index bd9daa7c6..6a0dce83b 100644
--- a/vllm/model_executor/layers/quantization/modelopt.py
+++ b/vllm/model_executor/layers/quantization/modelopt.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Callable, Dict, List, Optional, Union
+from typing import Any, Callable, Optional, Union
 
 import torch
 from torch.nn import Module
@@ -53,7 +53,7 @@ class ModelOptFp8Config(QuantizationConfig):
         return "modelopt"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.bfloat16, torch.half]
 
     @classmethod
@@ -61,11 +61,11 @@ class ModelOptFp8Config(QuantizationConfig):
         return 89
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return ["hf_quant_config.json"]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "ModelOptFp8Config":
+    def from_config(cls, config: dict[str, Any]) -> "ModelOptFp8Config":
         quant_config = cls.get_from_keys(config, ["quantization"])
         quant_method = quant_config["quant_algo"]
         if quant_method not in QUANT_ALGOS:
@@ -107,7 +107,7 @@ class ModelOptFp8LinearMethod(LinearMethodBase):
         self,
         layer: torch.nn.Module,
         input_size_per_partition: int,
-        output_partition_sizes: List[int],
+        output_partition_sizes: list[int],
         input_size: int,
         output_size: int,
         params_dtype: torch.dtype,
@@ -177,7 +177,7 @@ class ModelOptNvFp4Config(QuantizationConfig):
         self,
         is_checkpoint_nvfp4_serialized: bool,
         kv_cache_quant_algo: str,
-        exclude_modules: List[str],
+        exclude_modules: list[str],
         group_size: int = 16,
     ) -> None:
         self.is_checkpoint_nvfp4_serialized = is_checkpoint_nvfp4_serialized
@@ -195,7 +195,7 @@ class ModelOptNvFp4Config(QuantizationConfig):
         return "nvfp4"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.bfloat16, torch.half, torch.float8_e4m3fn]
 
     @classmethod
@@ -203,11 +203,11 @@ class ModelOptNvFp4Config(QuantizationConfig):
         return 80
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return ["hf_quant_config.json"]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "ModelOptNvFp4Config":
+    def from_config(cls, config: dict[str, Any]) -> "ModelOptNvFp4Config":
         quant_config = cls.get_from_keys(config, ["quantization"])
         quant_method = quant_config["quant_algo"]
         if quant_method not in QUANT_ALGOS:
@@ -227,7 +227,7 @@ class ModelOptNvFp4Config(QuantizationConfig):
         return cls(is_checkpoint_nvfp4_serialized, kv_cache_quant_algo,
                    exclude_modules, group_size)
 
-    def is_layer_excluded(self, prefix: str, exclude_modules: List):
+    def is_layer_excluded(self, prefix: str, exclude_modules: list):
         import re
         for pattern in exclude_modules:
             regex_str = pattern.replace('.', r'\.').replace('*', r'.*')
@@ -296,7 +296,7 @@ class ModelOptNvFp4LinearMethod(LinearMethodBase):
         self,
         layer: torch.nn.Module,
         input_size_per_partition: int,
-        output_partition_sizes: List[int],
+        output_partition_sizes: list[int],
         input_size: int,
         output_size: int,
         params_dtype: torch.dtype,
diff --git a/vllm/model_executor/layers/quantization/moe_wna16.py b/vllm/model_executor/layers/quantization/moe_wna16.py
index b8e3a4364..74bd6dc13 100644
--- a/vllm/model_executor/layers/quantization/moe_wna16.py
+++ b/vllm/model_executor/layers/quantization/moe_wna16.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Callable, Dict, List, Optional
+from typing import Any, Callable, Optional
 
 import torch
 
@@ -23,8 +23,8 @@ class MoeWNA16Config(QuantizationConfig):
 
     def __init__(self, linear_quant_method: str, weight_bits: int,
                  group_size: int, has_zp: bool, lm_head_quantized: bool,
-                 modules_to_not_convert: Optional[List[str]],
-                 full_config: Dict[str, Any]) -> None:
+                 modules_to_not_convert: Optional[list[str]],
+                 full_config: dict[str, Any]) -> None:
         super().__init__()
         self.weight_bits = weight_bits
         self.group_size = group_size
@@ -69,7 +69,7 @@ class MoeWNA16Config(QuantizationConfig):
         return "moe_wna16"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.bfloat16, torch.half]
 
     @classmethod
@@ -77,11 +77,11 @@ class MoeWNA16Config(QuantizationConfig):
         return 70
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return ["quantize_config.json"]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "MoeWNA16Config":
+    def from_config(cls, config: dict[str, Any]) -> "MoeWNA16Config":
         linear_quant_method = cls.get_from_keys(config, ["quant_method"])
         weight_bits = cls.get_from_keys(config, ["bits"])
         group_size = cls.get_from_keys(config, ["group_size"])
@@ -109,7 +109,7 @@ class MoeWNA16Config(QuantizationConfig):
         return None
 
     @classmethod
-    def is_moe_wna16_compatible(cls, quant_config: Dict[str, Any]):
+    def is_moe_wna16_compatible(cls, quant_config: dict[str, Any]):
         # Extract data from quant config.
         quant_method = quant_config.get("quant_method", "").lower()
         num_bits = quant_config.get("bits")
@@ -163,7 +163,7 @@ class MoeWNA16Config(QuantizationConfig):
         return None
 
 
-def is_layer_skipped_quant(prefix: str, modules_to_not_convert: List[str]):
+def is_layer_skipped_quant(prefix: str, modules_to_not_convert: list[str]):
     return any(module_name in prefix for module_name in modules_to_not_convert)
 
 
diff --git a/vllm/model_executor/layers/quantization/neuron_quant.py b/vllm/model_executor/layers/quantization/neuron_quant.py
index 7933eab2a..38b374fee 100644
--- a/vllm/model_executor/layers/quantization/neuron_quant.py
+++ b/vllm/model_executor/layers/quantization/neuron_quant.py
@@ -2,7 +2,7 @@
 
 import os
 from importlib.util import find_spec
-from typing import Any, Dict, List, Optional
+from typing import Any, Optional
 
 from torch.nn import Module
 
@@ -34,7 +34,7 @@ class NeuronQuantConfig(QuantizationConfig):
     def get_name(self) -> QuantizationMethods:
         return "neuron_quant"
 
-    def get_supported_act_dtypes(self) -> List[str]:
+    def get_supported_act_dtypes(self) -> list[str]:
         return SUPPORTED_QUANT_DTYPE_LIST
 
     @classmethod
@@ -43,11 +43,11 @@ class NeuronQuantConfig(QuantizationConfig):
             "This function should not be called with Neuron Backend")
 
     @staticmethod
-    def get_config_filenames() -> List[str]:
+    def get_config_filenames() -> list[str]:
         return []
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "NeuronQuantConfig":
+    def from_config(cls, config: dict[str, Any]) -> "NeuronQuantConfig":
         quantize_method = cls.get_from_keys(config, ["quantize_method"])
         dequant_dtype = cls.get_from_keys(config, ["dequant_dtype"])
         return cls(dequant_dtype=dequant_dtype,
diff --git a/vllm/model_executor/layers/quantization/ptpc_fp8.py b/vllm/model_executor/layers/quantization/ptpc_fp8.py
index 004d74e68..9e4fb3363 100644
--- a/vllm/model_executor/layers/quantization/ptpc_fp8.py
+++ b/vllm/model_executor/layers/quantization/ptpc_fp8.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Dict, List, Optional
+from typing import Any, Optional
 
 import torch
 from torch.nn.parameter import Parameter
@@ -32,7 +32,7 @@ class PTPCFp8Config(Fp8Config):
     def __init__(
         self,
         activation_scheme: str = "dynamic",
-        ignored_layers: Optional[List[str]] = None,
+        ignored_layers: Optional[list[str]] = None,
     ) -> None:
         if not current_platform.is_rocm():
             raise ValueError(
@@ -55,7 +55,7 @@ class PTPCFp8Config(Fp8Config):
         return "ptpc_fp8"
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "PTPCFp8Config":
+    def from_config(cls, config: dict[str, Any]) -> "PTPCFp8Config":
         activation_scheme = cls.get_from_keys(config, ["activation_scheme"])
         ignored_layers = cls.get_from_keys_or(config, ["ignored_layers"], None)
         return cls(activation_scheme=activation_scheme,
diff --git a/vllm/model_executor/layers/quantization/qqq.py b/vllm/model_executor/layers/quantization/qqq.py
index 06ff6c71b..6028b8a2a 100644
--- a/vllm/model_executor/layers/quantization/qqq.py
+++ b/vllm/model_executor/layers/quantization/qqq.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Dict, List, Optional
+from typing import Any, Optional
 
 import torch
 from torch.nn.parameter import Parameter
@@ -89,7 +89,7 @@ class QQQConfig(QuantizationConfig):
         return "qqq"
 
     @classmethod
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.half]
 
     @classmethod
@@ -97,7 +97,7 @@ class QQQConfig(QuantizationConfig):
         return 80
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         """List of filenames to search for in the model directory."""
         return [
             "quant_config.json",
@@ -105,7 +105,7 @@ class QQQConfig(QuantizationConfig):
         ]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "QQQConfig":
+    def from_config(cls, config: dict[str, Any]) -> "QQQConfig":
         weight_bits = cls.get_from_keys(config, ["wbits"])
         group_size = cls.get_from_keys(config, ["group_size"])
         return cls(weight_bits, group_size)
@@ -131,7 +131,7 @@ class QQQLinearMethod(LinearMethodBase):
         self,
         layer: torch.nn.Module,
         input_size_per_partition: int,
-        output_partition_sizes: List[int],
+        output_partition_sizes: list[int],
         input_size: int,
         output_size: int,
         params_dtype: torch.dtype,
diff --git a/vllm/model_executor/layers/quantization/quark/quark.py b/vllm/model_executor/layers/quantization/quark/quark.py
index 66e677f56..df4bfbbbc 100644
--- a/vllm/model_executor/layers/quantization/quark/quark.py
+++ b/vllm/model_executor/layers/quantization/quark/quark.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import fnmatch
-from typing import Any, Dict, List, Optional, cast
+from typing import Any, Optional, cast
 
 import torch
 
@@ -29,9 +29,9 @@ logger = init_logger(__name__)
 class QuarkConfig(QuantizationConfig):
 
     def __init__(self,
-                 quant_config: Dict[str, Any],
-                 kv_cache_group: Optional[List[str]] = None,
-                 kv_cache_config: Optional[Dict[str, Any]] = None,
+                 quant_config: dict[str, Any],
+                 kv_cache_group: Optional[list[str]] = None,
+                 kv_cache_config: Optional[dict[str, Any]] = None,
                  pack_method: str = "reorder"):
         super().__init__()
         if kv_cache_group is None:
@@ -44,7 +44,7 @@ class QuarkConfig(QuantizationConfig):
     def get_linear_method(self) -> "QuarkLinearMethod":
         return QuarkLinearMethod(self)
 
-    def get_supported_act_dtypes(cls) -> List[torch.dtype]:
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
         return [torch.float16, torch.bfloat16]
 
     @classmethod
@@ -59,7 +59,7 @@ class QuarkConfig(QuantizationConfig):
         from vllm.attention.layer import Attention  # Avoid circular import
 
         # Check if the layer is skipped for quantization.
-        exclude_layers = cast(List[str], self.quant_config.get("exclude"))
+        exclude_layers = cast(list[str], self.quant_config.get("exclude"))
         if should_ignore_layer(prefix,
                                ignore=exclude_layers,
                                fused_mapping=self.packed_modules_mapping):
@@ -78,12 +78,12 @@ class QuarkConfig(QuantizationConfig):
         return None
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "QuarkConfig":
+    def from_config(cls, config: dict[str, Any]) -> "QuarkConfig":
         export_config = config.get("export")
         if export_config is None:
             raise ValueError("The export key should be included in "
                              "the configurations of Quark quantized model")
-        kv_cache_group = cast(List[str], export_config.get("kv_cache_group"))
+        kv_cache_group = cast(list[str], export_config.get("kv_cache_group"))
         pack_method = cast(str, export_config.get("pack_method"))
 
         # In the export model of quark, the quantization configuration
@@ -95,7 +95,7 @@ class QuarkConfig(QuantizationConfig):
             kv_cache_config = None
         else:
             kv_cache_set = set(kv_cache_group)
-            layer_quant_config = cast(Dict[str, Any],
+            layer_quant_config = cast(dict[str, Any],
                                       config.get("layer_quant_config"))
             layer_quant_names = list(layer_quant_config.keys())
             layer_quant_set = set(layer_quant_names)
@@ -108,7 +108,7 @@ class QuarkConfig(QuantizationConfig):
                                  "configuration.")
 
             q_configs = [
-                cast(Dict[str, Any], layer_quant_config.get(name))
+                cast(dict[str, Any], layer_quant_config.get(name))
                 for name in kv_cache_group
             ]
             if not all(
@@ -131,7 +131,7 @@ class QuarkConfig(QuantizationConfig):
 
             # In case q_proj output is also quantized, remove the configuration
             # to keep qkv consistency.
-            q_proj_q_config = cast(Dict[str, Any],
+            q_proj_q_config = cast(dict[str, Any],
                                    layer_quant_config.get("*q_proj"))
             if q_proj_q_config is not None:
                 q_proj_q_config["output_tensors"] = None
@@ -142,7 +142,7 @@ class QuarkConfig(QuantizationConfig):
                    pack_method=pack_method)
 
     @classmethod
-    def get_config_filenames(cls) -> List[str]:
+    def get_config_filenames(cls) -> list[str]:
         return []
 
     def _check_scheme_supported(self,
@@ -162,8 +162,8 @@ class QuarkConfig(QuantizationConfig):
         else:
             return False
 
-    def _is_fp8_w8a8(self, weight_quant: Optional[Dict[str, Any]],
-                     input_quant: Optional[Dict[str, Any]]) -> bool:
+    def _is_fp8_w8a8(self, weight_quant: Optional[dict[str, Any]],
+                     input_quant: Optional[dict[str, Any]]) -> bool:
         # Confirm weights and input quantized.
         if weight_quant is None or input_quant is None:
             return False
@@ -187,8 +187,8 @@ class QuarkConfig(QuantizationConfig):
         is_per_tensor_activation = (input_quant.get("qscheme") == "per_tensor")
         return is_per_tensor_activation
 
-    def _is_static_tensor_w8a8(self, weight_quant: Optional[Dict[str, Any]],
-                               input_quant: Optional[Dict[str, Any]]) -> bool:
+    def _is_static_tensor_w8a8(self, weight_quant: Optional[dict[str, Any]],
+                               input_quant: Optional[dict[str, Any]]) -> bool:
         # Confirm weights and input quantized.
         if weight_quant is None or input_quant is None:
             return False
@@ -209,8 +209,8 @@ class QuarkConfig(QuantizationConfig):
         # Only symmetric weight quantization supported.
         return is_int8_dtype and is_tensor and is_weight_symmetric and is_static
 
-    def _is_mx_fp4(self, weight_quant: Optional[Dict[str, Any]],
-                   input_quant: Optional[Dict[str, Any]]) -> bool:
+    def _is_mx_fp4(self, weight_quant: Optional[dict[str, Any]],
+                   input_quant: Optional[dict[str, Any]]) -> bool:
         # Confirm weights and input quantized.
         if weight_quant is None or input_quant is None:
             logger.debug("Quark model is not in MX-FP4 format: "
@@ -258,7 +258,7 @@ class QuarkConfig(QuantizationConfig):
         return True
 
     def _find_matched_config(self, layer_name: str,
-                             module: torch.nn.Module) -> Dict[str, Any]:
+                             module: torch.nn.Module) -> dict[str, Any]:
 
         proj_name = layer_name.split(".")[-1]
         if proj_name in self.packed_modules_mapping:
@@ -283,29 +283,29 @@ class QuarkConfig(QuantizationConfig):
             return shard_configs[0]
         else:
             layer_quant_config = cast(
-                Dict[str, Any], self.quant_config.get("layer_quant_config"))
+                dict[str, Any], self.quant_config.get("layer_quant_config"))
             for name_pattern in layer_quant_config:
                 if fnmatch.fnmatch(layer_name, name_pattern):
                     return layer_quant_config[name_pattern]
 
             layer_type = cast(str, type(module))
             layer_type_quant_config = cast(
-                Dict[str, Any],
+                dict[str, Any],
                 self.quant_config.get("layer_type_quant_config"))
             if layer_type in layer_type_quant_config:
                 return layer_type_quant_config[layer_type]
 
             global_quant_config = cast(
-                Dict[str, Any], self.quant_config.get("global_quant_config"))
+                dict[str, Any], self.quant_config.get("global_quant_config"))
             return global_quant_config
 
-    def _get_scheme_from_config(self, config: Dict[str, Any]) -> "QuarkScheme":
+    def _get_scheme_from_config(self, config: dict[str, Any]) -> "QuarkScheme":
         if config.get("output_tensors") or config.get("bias"):
             raise NotImplementedError(
                 "Currently, Quark models with output_tensors "
                 "and bias quantized are not supported")
-        weight_config = cast(Dict[str, Any], config.get("weight"))
-        input_config = cast(Dict[str, Any], config.get("input_tensors"))
+        weight_config = cast(dict[str, Any], config.get("weight"))
+        input_config = cast(dict[str, Any], config.get("input_tensors"))
 
         if self._is_fp8_w8a8(weight_config, input_config):
             is_fp8_w8a8_supported = self._check_scheme_supported(
@@ -373,7 +373,7 @@ class QuarkLinearMethod(LinearMethodBase):
 
     def create_weights(self, layer: torch.nn.Module,
                        input_size_per_partition: int,
-                       output_partition_sizes: List[int], input_size: int,
+                       output_partition_sizes: list[int], input_size: int,
                        output_size: int, params_dtype: torch.dtype,
                        **extra_weight_attrs):
         """
@@ -417,7 +417,7 @@ class QuarkKVCacheMethod(BaseKVCacheMethod):
         super().__init__(quant_config)
 
     @staticmethod
-    def validate_kv_cache_config(kv_cache_config: Optional[Dict[str, Any]]):
+    def validate_kv_cache_config(kv_cache_config: Optional[dict[str, Any]]):
         """
         Validator for the kv cache configuration. Useful for controlling the
         kv cache quantization schemes, that are being supported in vLLM
diff --git a/vllm/model_executor/layers/quantization/quark/quark_moe.py b/vllm/model_executor/layers/quantization/quark/quark_moe.py
index d1146c0f0..aa7d72543 100644
--- a/vllm/model_executor/layers/quantization/quark/quark_moe.py
+++ b/vllm/model_executor/layers/quantization/quark/quark_moe.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Callable, Dict, Optional
+from typing import Any, Callable, Optional
 
 import torch
 
@@ -45,7 +45,7 @@ class QuarkMoEMethod(FusedMoEMethodBase):
 
 class QuarkW8A8Fp8MoEMethod(QuarkMoEMethod):
 
-    def __init__(self, weight_config: Dict[str, Any], input_config: Dict[str,
+    def __init__(self, weight_config: dict[str, Any], input_config: dict[str,
                                                                          Any]):
         self.weight_quant = weight_config
         self.input_quant = input_config
diff --git a/vllm/model_executor/layers/quantization/quark/schemes/quark_w4a4_mxfp4.py b/vllm/model_executor/layers/quantization/quark/schemes/quark_w4a4_mxfp4.py
index 9da52a732..34c077b29 100644
--- a/vllm/model_executor/layers/quantization/quark/schemes/quark_w4a4_mxfp4.py
+++ b/vllm/model_executor/layers/quantization/quark/schemes/quark_w4a4_mxfp4.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Callable, Dict, List, Optional
+from typing import Any, Callable, Optional
 
 import torch
 import torch.nn.functional as F
@@ -18,8 +18,8 @@ __all__ = ["QuarkW4A4MXFP4"]
 
 class QuarkW4A4MXFP4(QuarkScheme):
 
-    def __init__(self, weight_quant_spec: Dict[str, Any],
-                 input_quant_spec: Dict[str, Any]):
+    def __init__(self, weight_quant_spec: dict[str, Any],
+                 input_quant_spec: dict[str, Any]):
         self.out_dtype = torch.get_default_dtype()
         self.qscheme = "per_group"
         self.weight_quant_spec = weight_quant_spec
@@ -74,7 +74,7 @@ class QuarkW4A4MXFP4(QuarkScheme):
             torch.cuda.empty_cache()
 
     def create_weights(self, layer: torch.nn.Module,
-                       output_partition_sizes: List[int],
+                       output_partition_sizes: list[int],
                        input_size_per_partition: int,
                        params_dtype: torch.dtype, weight_loader: Callable,
                        **kwargs):
diff --git a/vllm/model_executor/layers/quantization/quark/schemes/quark_w8a8_fp8.py b/vllm/model_executor/layers/quantization/quark/schemes/quark_w8a8_fp8.py
index f8eb36115..149c90937 100644
--- a/vllm/model_executor/layers/quantization/quark/schemes/quark_w8a8_fp8.py
+++ b/vllm/model_executor/layers/quantization/quark/schemes/quark_w8a8_fp8.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Callable, List, Optional
+from typing import Callable, Optional
 
 import torch
 from torch.nn import Parameter
@@ -88,7 +88,7 @@ class QuarkW8A8Fp8(QuarkScheme):
             layer.input_scale = None
 
     def create_weights(self, layer: torch.nn.Module,
-                       output_partition_sizes: List[int],
+                       output_partition_sizes: list[int],
                        input_size_per_partition: int,
                        params_dtype: torch.dtype, weight_loader: Callable,
                        **kwargs):
diff --git a/vllm/model_executor/layers/quantization/quark/schemes/quark_w8a8_int8.py b/vllm/model_executor/layers/quantization/quark/schemes/quark_w8a8_int8.py
index da8ed8c08..94f9fcd56 100644
--- a/vllm/model_executor/layers/quantization/quark/schemes/quark_w8a8_int8.py
+++ b/vllm/model_executor/layers/quantization/quark/schemes/quark_w8a8_int8.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Callable, List, Optional, Set
+from typing import Callable, Optional
 
 import torch
 
@@ -17,7 +17,7 @@ logger = init_logger(__name__)
 
 
 class QuarkW8A8Int8(QuarkScheme):
-    _kernel_backends_being_used: Set[str] = set()
+    _kernel_backends_being_used: set[str] = set()
 
     def __init__(self, qscheme: str, is_static_input_scheme: Optional[bool],
                  input_symmetric: Optional[bool]):
@@ -31,7 +31,7 @@ class QuarkW8A8Int8(QuarkScheme):
         return 75
 
     def create_weights(self, layer: torch.nn.Module,
-                       output_partition_sizes: List[int],
+                       output_partition_sizes: list[int],
                        input_size_per_partition: int,
                        params_dtype: torch.dtype, weight_loader: Callable,
                        **kwargs):
diff --git a/vllm/model_executor/layers/quantization/quark/utils.py b/vllm/model_executor/layers/quantization/quark/utils.py
index 17e0df021..d1d293b01 100644
--- a/vllm/model_executor/layers/quantization/quark/utils.py
+++ b/vllm/model_executor/layers/quantization/quark/utils.py
@@ -1,8 +1,9 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import re
+from collections.abc import Iterable, Mapping
 from types import MappingProxyType
-from typing import Any, Iterable, List, Mapping, Optional
+from typing import Any, Optional
 
 
 def deep_compare(dict1: Any, dict2: Any) -> bool:
@@ -21,7 +22,7 @@ def deep_compare(dict1: Any, dict2: Any) -> bool:
 def should_ignore_layer(
     layer_name: Optional[str],
     ignore: Iterable[str],
-    fused_mapping: Mapping[str, List[str]] = MappingProxyType({})
+    fused_mapping: Mapping[str, list[str]] = MappingProxyType({})
 ) -> bool:
     if layer_name is None:
         return False
diff --git a/vllm/model_executor/layers/quantization/schema.py b/vllm/model_executor/layers/quantization/schema.py
index 026881f2d..c0be40c16 100644
--- a/vllm/model_executor/layers/quantization/schema.py
+++ b/vllm/model_executor/layers/quantization/schema.py
@@ -12,7 +12,7 @@ possible on ROCm), the model can be optionally augmented with KV cache
 scaling factors.
 """
 
-from typing import Dict, Optional
+from typing import Optional
 
 from pydantic import BaseModel, ConfigDict, ValidationInfo, model_validator
 
@@ -23,7 +23,7 @@ class KVCacheQuantSchema(BaseModel):
     # layer indices to their per-tensor KV cache scaling factor.
     # TODO: Consider pulling this and its validation methods out into its
     # own schema class (tricky as its members are variable)
-    scaling_factor: Dict[int, Dict[int, float]]
+    scaling_factor: dict[int, dict[int, float]]
 
     @model_validator(mode="after")
     def check_is_fp8(self) -> "KVCacheQuantSchema":
diff --git a/vllm/model_executor/layers/quantization/torchao.py b/vllm/model_executor/layers/quantization/torchao.py
index 751002fa0..9b60775df 100644
--- a/vllm/model_executor/layers/quantization/torchao.py
+++ b/vllm/model_executor/layers/quantization/torchao.py
@@ -1,5 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
-from typing import Any, Dict, List, Optional
+from typing import Any, Optional
 
 import torch
 import torch.nn.functional as F
@@ -24,7 +24,7 @@ class TorchAOConfig(QuantizationConfig):
     def get_name(self) -> QuantizationMethods:
         return "torchao"
 
-    def get_supported_act_dtypes(self) -> List[torch.dtype]:
+    def get_supported_act_dtypes(self) -> list[torch.dtype]:
         return [torch.float32, torch.float16, torch.bfloat16]
 
     @classmethod
@@ -32,11 +32,11 @@ class TorchAOConfig(QuantizationConfig):
         return 75
 
     @staticmethod
-    def get_config_filenames() -> List[str]:
+    def get_config_filenames() -> list[str]:
         return ["config.json"]
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "TorchAOConfig":
+    def from_config(cls, config: dict[str, Any]) -> "TorchAOConfig":
         """Create the quant config from an hf model config"""
         try:
             from torchao.core.config import config_from_dict
@@ -60,7 +60,7 @@ class TorchAOConfig(QuantizationConfig):
             return TorchAOLinearMethod(self)
         return None
 
-    def get_scaled_act_names(self) -> List[str]:
+    def get_scaled_act_names(self) -> list[str]:
         return []
 
 
@@ -97,7 +97,7 @@ class TorchAOLinearMethod(LinearMethodBase):
         self,
         layer: torch.nn.Module,
         input_size_per_partition: int,
-        output_partition_sizes: List[int],
+        output_partition_sizes: list[int],
         input_size: int,
         output_size: int,
         params_dtype: torch.dtype,
diff --git a/vllm/model_executor/layers/quantization/tpu_int8.py b/vllm/model_executor/layers/quantization/tpu_int8.py
index 8333c16ce..7941ec973 100644
--- a/vllm/model_executor/layers/quantization/tpu_int8.py
+++ b/vllm/model_executor/layers/quantization/tpu_int8.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Dict, List, Optional, Tuple
+from typing import Any, Optional
 
 import torch
 from torch.nn import Module
@@ -31,7 +31,7 @@ class Int8TpuConfig(QuantizationConfig):
     def get_name(self) -> QuantizationMethods:
         return "tpu_int8"
 
-    def get_supported_act_dtypes(self) -> List[torch.dtype]:
+    def get_supported_act_dtypes(self) -> list[torch.dtype]:
         return [torch.float16, torch.bfloat16]
 
     @classmethod
@@ -40,11 +40,11 @@ class Int8TpuConfig(QuantizationConfig):
             "This function should not be called with TPU Backend")
 
     @staticmethod
-    def get_config_filenames() -> List[str]:
+    def get_config_filenames() -> list[str]:
         return []
 
     @classmethod
-    def from_config(cls, config: Dict[str, Any]) -> "Int8TpuConfig":
+    def from_config(cls, config: dict[str, Any]) -> "Int8TpuConfig":
         activation_scheme = cls.get_from_keys(config, ["activation_scheme"])
         return cls(activation_scheme=activation_scheme)
 
@@ -62,7 +62,7 @@ class TPUInt8LinearMethod(LinearMethodBase):
         self.quant_config = quant_config
 
     def create_weights(self, layer: Module, input_size_per_partition: int,
-                       output_partition_sizes: List[int], input_size: int,
+                       output_partition_sizes: list[int], input_size: int,
                        output_size: int, params_dtype: torch.dtype,
                        **extra_weight_attrs):
 
@@ -77,7 +77,7 @@ class TPUInt8LinearMethod(LinearMethodBase):
         layer.register_parameter("weight", weight)
 
     def _quantize_weight(
-            self, weight: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
+            self, weight: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
         weight_dtype = weight.dtype
         weight = weight.cpu().to(torch.float32)
         n_bit = 8
diff --git a/vllm/model_executor/layers/quantization/utils/bitblas_utils.py b/vllm/model_executor/layers/quantization/utils/bitblas_utils.py
index e26ac4ea3..70d24cc89 100644
--- a/vllm/model_executor/layers/quantization/utils/bitblas_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/bitblas_utils.py
@@ -1,5 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
-from typing import Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -51,7 +51,7 @@ def _check_bitblas_supported(
         quant_type: ScalarType,
         group_size: Optional[int],
         has_zp: bool,
-        device_capability: Optional[int] = None) -> Tuple[bool, Optional[str]]:
+        device_capability: Optional[int] = None) -> tuple[bool, Optional[str]]:
 
     if device_capability is None:
         capability_tuple = current_platform.get_device_capability()
@@ -133,7 +133,7 @@ def verify_bitblas_supports_shape(output_size_per_partition: int,
 def check_bitblas_supports_shape(output_size_per_partition: int,
                                 input_size_per_partition: int,
                                 input_size: int, group_size: int) \
-                                    -> Tuple[bool, Optional[str]]:
+                                    -> tuple[bool, Optional[str]]:
     try:
         verify_bitblas_supports_shape(output_size_per_partition,
                                       input_size_per_partition, input_size,
@@ -166,7 +166,7 @@ def bitblas_make_empty_zp(device: torch.device) -> torch.Tensor:
 
 
 def bitblas_sort_g_idx(
-        g_idx: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
+        g_idx: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
     g_idx_sort_indices = torch.argsort(g_idx).to(torch.int)
     return g_idx[g_idx_sort_indices], g_idx_sort_indices
 
diff --git a/vllm/model_executor/layers/quantization/utils/fp8_utils.py b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
index 3bb42e737..723d2ffd4 100644
--- a/vllm/model_executor/layers/quantization/utils/fp8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
@@ -4,7 +4,7 @@
 import functools
 import json
 import os
-from typing import Any, Dict, List, Optional, Tuple, Union
+from typing import Any, Optional, Union
 
 import torch
 
@@ -32,7 +32,7 @@ def is_fp8(x: Union[torch.dtype, torch.Tensor]) -> bool:
 def apply_w8a8_block_fp8_linear(
     input: torch.Tensor,
     weight: torch.Tensor,
-    block_size: List[int],
+    block_size: list[int],
     weight_scale: torch.Tensor,
     input_scale: Optional[torch.Tensor] = None,
     bias: Optional[torch.Tensor] = None,
@@ -95,7 +95,7 @@ def apply_w8a8_block_fp8_linear(
 def apply_w8a8_block_fp8_linear_fake(
     input: torch.Tensor,
     weight: torch.Tensor,
-    block_size: List[int],
+    block_size: list[int],
     weight_scale: torch.Tensor,
     input_scale: Optional[torch.Tensor] = None,
 ) -> torch.Tensor:
@@ -114,7 +114,7 @@ direct_register_custom_op(
 def input_to_float8(
         x: torch.Tensor,
         dtype: Optional[torch.dtype] = None
-) -> Tuple[torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, torch.Tensor]:
     """This function quantizes input values to float8 values "
     "with tensor-wise quantization."""
     dtype = current_platform.fp8_dtype() if dtype is None else dtype
@@ -129,7 +129,7 @@ def input_to_float8(
 def block_quant_to_tensor_quant(
     x_q_block: torch.Tensor,
     x_s: torch.Tensor,
-) -> Tuple[torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, torch.Tensor]:
     """This function converts block-wise quantization to tensor-wise
     quantization. The inputs are block-wise quantization tensor `x_q_block`,
     block-wise quantization scale and the block size.
@@ -247,7 +247,7 @@ def per_token_group_quant_fp8(
     eps: float = 1e-10,
     dtype: Optional[torch.dtype] = None,
     column_major_scales: bool = False,
-) -> Tuple[torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, torch.Tensor]:
     """Function to perform per-token-group quantization on an input tensor `x`.
     It converts the tensor values into signed float8 values and returns the
     quantized tensor along with the scaling factor used for quantization.
@@ -258,7 +258,7 @@ def per_token_group_quant_fp8(
         dtype: The dype of output tensor. Note that only `torch.float8_e4m3fn`
         is supported for now.
     Returns:
-        Tuple[torch.Tensor, torch.Tensor]: The quantized tensor and the
+        tuple[torch.Tensor, torch.Tensor]: The quantized tensor and the
         scaling factor for quantization.
     """
     dtype = current_platform.fp8_dtype() if dtype is None else dtype
@@ -412,7 +412,7 @@ def _w8a8_block_fp8_matmul(
 
 @functools.lru_cache
 def get_w8a8_block_fp8_configs(N: int, K: int, block_n: int,
-                               block_k: int) -> Optional[Dict[int, Any]]:
+                               block_k: int) -> Optional[dict[int, Any]]:
     """
     Return optimized configurations for the w8a8 block fp8 kernel.
     The return value will be a dictionary that maps an irregular grid of
@@ -452,7 +452,7 @@ def w8a8_block_fp8_matmul(
     B: torch.Tensor,
     As: torch.Tensor,
     Bs: torch.Tensor,
-    block_size: List[int],
+    block_size: list[int],
     output_dtype: torch.dtype = torch.float16,
 ) -> torch.Tensor:
     """This function performs matrix multiplication with block-wise
diff --git a/vllm/model_executor/layers/quantization/utils/gptq_utils.py b/vllm/model_executor/layers/quantization/utils/gptq_utils.py
index 5b0e6299f..ff7a8169e 100644
--- a/vllm/model_executor/layers/quantization/utils/gptq_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/gptq_utils.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 import re
 from copy import deepcopy
-from typing import Dict, Optional, Union
+from typing import Optional, Union
 
 import torch
 
@@ -52,7 +52,7 @@ def get_dynamic_override(
     layer_name: str,
     key: Optional[str] = None,
     default_value: Union[int, bool,
-                         None] = None) -> Union[Dict, int, bool, None]:
+                         None] = None) -> Union[dict, int, bool, None]:
     for pattern, pattern_dict in config.dynamic.items():
         # Negative match: matched modules are excluded from quantized init
         if pattern.startswith("-:"):
diff --git a/vllm/model_executor/layers/quantization/utils/int8_utils.py b/vllm/model_executor/layers/quantization/utils/int8_utils.py
index 431f0cf73..72fff3fa1 100644
--- a/vllm/model_executor/layers/quantization/utils/int8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/int8_utils.py
@@ -5,7 +5,7 @@ import functools
 import json
 import logging
 import os
-from typing import Any, Dict, List, Optional, Tuple
+from typing import Any, Optional
 
 import torch
 
@@ -18,7 +18,7 @@ logger = logging.getLogger(__name__)
 def apply_w8a8_block_int8_linear(
     input: torch.Tensor,
     weight: torch.Tensor,
-    block_size: List[int],
+    block_size: list[int],
     weight_scale: torch.Tensor,
     input_scale: Optional[torch.Tensor] = None,
     bias: Optional[torch.Tensor] = None,
@@ -43,7 +43,7 @@ def apply_w8a8_block_int8_linear(
 
 def input_to_int8(
         x: torch.Tensor,
-        dtype: torch.dtype = torch.int8) -> Tuple[torch.Tensor, torch.Tensor]:
+        dtype: torch.dtype = torch.int8) -> tuple[torch.Tensor, torch.Tensor]:
     """This function quantizes input values to int8 values with
     tensor-wise quantization."""
     iinfo = torch.iinfo(dtype)
@@ -58,7 +58,7 @@ def input_to_int8(
 def block_dequant(
     x_q_block: torch.Tensor,
     x_s: torch.Tensor,
-    block_size: List[int],
+    block_size: list[int],
 ) -> torch.Tensor:
     """This function conducts block-wise dequantization.
     The inputs are block-wise quantization tensor `x_q_block`,
@@ -211,7 +211,7 @@ def per_token_group_quant_int8(
     group_size: int,
     eps: float = 1e-10,
     dtype: torch.dtype = torch.int8,
-) -> Tuple[torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, torch.Tensor]:
     """Function to perform per-token-group quantization on an input tensor `x`.
 
     It converts the tensor values into signed int8 values and returns the
@@ -225,7 +225,7 @@ def per_token_group_quant_int8(
             is supported for now.
 
     Returns:
-        Tuple[torch.Tensor, torch.Tensor]: The quantized tensor and the
+        tuple[torch.Tensor, torch.Tensor]: The quantized tensor and the
             scaling factor for quantization.
     """
     assert (x.shape[-1] % group_size == 0
@@ -358,7 +358,7 @@ def _w8a8_block_int8_matmul(
 
 @functools.lru_cache
 def get_w8a8_block_int8_configs(N: int, K: int, block_n: int,
-                                block_k: int) -> Optional[Dict[int, Any]]:
+                                block_k: int) -> Optional[dict[int, Any]]:
     """
     Return optimized configurations for the w8a8 block fp8 kernel.
 
@@ -399,7 +399,7 @@ def w8a8_block_int8_matmul(
     B: torch.Tensor,
     As: torch.Tensor,
     Bs: torch.Tensor,
-    block_size: List[int],
+    block_size: list[int],
     output_dtype: torch.dtype = torch.float16,
 ) -> torch.Tensor:
     """This function performs matrix multiplication with block-wise
diff --git a/vllm/model_executor/layers/quantization/utils/machete_utils.py b/vllm/model_executor/layers/quantization/utils/machete_utils.py
index cb7d49ed6..6d840b568 100644
--- a/vllm/model_executor/layers/quantization/utils/machete_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/machete_utils.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import List, Optional, Tuple
+from typing import Optional
 
 import torch
 
@@ -10,19 +10,19 @@ MACHETE_SUPPORTED_GROUP_SIZES = [-1, 128]
 MACHETE_PREPACKED_BLOCK_SHAPE = [64, 128]
 
 
-def query_machete_supported_quant_types(zero_points: bool) -> List[ScalarType]:
+def query_machete_supported_quant_types(zero_points: bool) -> list[ScalarType]:
     if zero_points:
         return [scalar_types.uint4, scalar_types.uint8]
     else:
         return [scalar_types.uint4b8, scalar_types.uint8b128]
 
 
-def query_machete_supported_act_types(zero_points: bool) -> List[ScalarType]:
+def query_machete_supported_act_types(zero_points: bool) -> list[ScalarType]:
     return [torch.float16, torch.bfloat16]
 
 
 def check_machete_supports_shape(in_features: int, out_featrues: int) \
-    -> Tuple[bool, Optional[str]]:
+    -> tuple[bool, Optional[str]]:
     if in_features % MACHETE_PREPACKED_BLOCK_SHAPE[0] != 0:
         return False, "Input features size must be divisible by "\
             f"{MACHETE_PREPACKED_BLOCK_SHAPE[0]}"
diff --git a/vllm/model_executor/layers/quantization/utils/marlin_utils.py b/vllm/model_executor/layers/quantization/utils/marlin_utils.py
index 11efd5802..e059a7ac3 100644
--- a/vllm/model_executor/layers/quantization/utils/marlin_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import List, Optional, Tuple
+from typing import Optional
 
 import numpy
 import torch
@@ -70,7 +70,7 @@ def _check_marlin_supported(
         quant_type: ScalarType,
         group_size: Optional[int],
         has_zp: bool,
-        device_capability: Optional[int] = None) -> Tuple[bool, Optional[str]]:
+        device_capability: Optional[int] = None) -> tuple[bool, Optional[str]]:
 
     if device_capability is None:
         capability_tuple = current_platform.get_device_capability()
@@ -143,7 +143,7 @@ def verify_marlin_supports_shape(output_size_per_partition: int,
 def check_marlin_supports_shape(output_size_per_partition: int,
                                 input_size_per_partition: int,
                                 input_size: int, group_size: int) \
-                                    -> Tuple[bool, Optional[str]]:
+                                    -> tuple[bool, Optional[str]]:
     try:
         verify_marlin_supports_shape(output_size_per_partition,
                                      input_size_per_partition, input_size,
@@ -231,16 +231,16 @@ def marlin_make_empty_zp(device: torch.device) -> torch.Tensor:
 
 
 def marlin_sort_g_idx(
-        g_idx: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
+        g_idx: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
     g_idx_sort_indices = torch.argsort(g_idx).to(torch.int)
     return g_idx[g_idx_sort_indices], g_idx_sort_indices
 
 
 def get_scale_perms():
-    scale_perm: List[int] = []
+    scale_perm: list[int] = []
     for i in range(8):
         scale_perm.extend([i + 8 * j for j in range(8)])
-    scale_perm_single: List[int] = []
+    scale_perm_single: list[int] = []
     for i in range(4):
         scale_perm_single.extend(
             [2 * i + j for j in [0, 1, 8, 9, 16, 17, 24, 25]])
diff --git a/vllm/model_executor/layers/quantization/utils/marlin_utils_test.py b/vllm/model_executor/layers/quantization/utils/marlin_utils_test.py
index fb557a313..81112b27f 100644
--- a/vllm/model_executor/layers/quantization/utils/marlin_utils_test.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils_test.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 """Utility functions used for tests and benchmarks"""
 
-from typing import List, Optional
+from typing import Optional
 
 import numpy as np
 import torch
@@ -64,9 +64,9 @@ def marlin_weights(q_w, size_k, size_n, num_bits, perm):
 
 
 def get_weight_perm(num_bits: int):
-    perm_list: List[int] = []
+    perm_list: list[int] = []
     for i in range(32):
-        perm1: List[int] = []
+        perm1: list[int] = []
         col = i // 4
         for block in [0, 1]:
             for row in [
diff --git a/vllm/model_executor/layers/quantization/utils/marlin_utils_test_24.py b/vllm/model_executor/layers/quantization/utils/marlin_utils_test_24.py
index 3654268e2..73feb4264 100644
--- a/vllm/model_executor/layers/quantization/utils/marlin_utils_test_24.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils_test_24.py
@@ -2,7 +2,6 @@
 """Utility functions used for tests and benchmarks"""
 
 import random
-from typing import List
 
 import numpy
 import torch
@@ -373,19 +372,19 @@ def compress_quantized_24_weight(q_24, size_k, size_n, wtype: ScalarType):
 
 
 def get_scale_perms_24():
-    scale_perm: List[int] = []
+    scale_perm: list[int] = []
     for i in range(8):
         scale_perm.extend([i * 8 + j for j in [0, 4, 1, 5, 2, 6, 3, 7]])
-    scale_perm_single: List[int] = []
+    scale_perm_single: list[int] = []
     for i in range(8):
         scale_perm_single.extend([8 * i + j for j in [0, 1, 2, 3, 4, 5, 6, 7]])
     return scale_perm, scale_perm_single
 
 
 def get_weight_perm_24(num_bits: int):
-    perm_list: List[int] = []
+    perm_list: list[int] = []
     for i in range(32):
-        perm1: List[int] = []
+        perm1: list[int] = []
         col = i // 4
         col_o = col // 2
         for block in [0, 1]:
diff --git a/vllm/model_executor/layers/quantization/utils/marlin_utils_test_qqq.py b/vllm/model_executor/layers/quantization/utils/marlin_utils_test_qqq.py
index 176b2947a..0123540fc 100644
--- a/vllm/model_executor/layers/quantization/utils/marlin_utils_test_qqq.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils_test_qqq.py
@@ -1,7 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import List
-
 import numpy
 import torch
 
@@ -34,10 +32,10 @@ def marlin_qqq_weights(q_w, size_k, size_n, num_bits, perm, group_size):
 
 
 def get_qqq_scale_perms():
-    scale_perm: List[int] = []
+    scale_perm: list[int] = []
     for i in range(8):
         scale_perm.extend([i + 8 * j for j in range(8)])
-    scale_perm_single: List[int] = []
+    scale_perm_single: list[int] = []
     for i in range(4):
         scale_perm_single.extend(
             [2 * i + j for j in [0, 1, 8, 9, 16, 17, 24, 25]])
@@ -46,9 +44,9 @@ def get_qqq_scale_perms():
 
 # NOTE(HandH1998): QQQ employs different perms for per-group and per-channel weight quantization. # noqa: E501
 def get_qqq_weight_perm(num_bits: int, quant_type: str):
-    perm_list: List[int] = []
+    perm_list: list[int] = []
     for i in range(32):
-        perm1: List[int] = []
+        perm1: list[int] = []
         col = i // 4
         for block in [0, 1]:
             for row in [
diff --git a/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py b/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py
index 6312c3934..e7c95e38e 100644
--- a/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py
@@ -1,5 +1,4 @@
 # SPDX-License-Identifier: Apache-2.0
-from typing import Tuple
 
 import torch
 
@@ -9,7 +8,7 @@ OCP_MX_BLOCK_SIZE = 32
 def per_token_group_quant_mxfp4(x: torch.Tensor,
                                 block_k: int,
                                 scale_calculation_mode: str = "even"
-                                ) -> Tuple[torch.Tensor, torch.Tensor]:
+                                ) -> tuple[torch.Tensor, torch.Tensor]:
     try:
         from quark.torch.kernel.hw_emulation.hw_emulation_interface import (
             fake_quantize_fp4_fp6_per_group_with_scale)
diff --git a/vllm/model_executor/layers/quantization/utils/quant_utils.py b/vllm/model_executor/layers/quantization/utils/quant_utils.py
index c7ce3a42c..6ba327f3d 100644
--- a/vllm/model_executor/layers/quantization/utils/quant_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/quant_utils.py
@@ -1,7 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 """This file is used for /tests and /benchmarks"""
+from collections.abc import Mapping
 from types import MappingProxyType
-from typing import List, Mapping, Optional, Tuple
+from typing import Optional
 
 import numpy
 import torch
@@ -15,7 +16,7 @@ SUPPORTED_GROUP_SIZES = [-1, 32, 64, 128]
 
 
 # Normalize the group_shape to the full extent for any dims that are -1
-def _normalize_quant_group_shape(x: torch.Tensor, group_shape: Tuple[int,
+def _normalize_quant_group_shape(x: torch.Tensor, group_shape: tuple[int,
                                                                      int]):
     # -1 means full extent
     return (group_shape[0] if group_shape[0] > 0 else x.shape[-2],
@@ -56,9 +57,9 @@ def group_broadcast(t, shape):
 #               (i.e. per-token-per-group)
 def scaled_quantize(
     x: torch.Tensor,
-    group_shape: Tuple[int, int],
+    group_shape: tuple[int, int],
     quant_dtype: torch.dtype,
-) -> Tuple[torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, torch.Tensor]:
     group_shape = _normalize_quant_group_shape(x, group_shape)
     assert quant_dtype.is_floating_point, \
         "currently `scaled_quantize` only supports floating point dtypes " \
@@ -97,9 +98,9 @@ def scaled_quantize(
 def scaled_dequantize(
     x_q: torch.Tensor,
     x_s: torch.Tensor,
-    group_shape: Optional[Tuple[int, int]] = None,
+    group_shape: Optional[tuple[int, int]] = None,
     out_dtype: torch.dtype = torch.float32,
-) -> Tuple[torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, torch.Tensor]:
     if group_shape is not None:
         group_shape = _normalize_quant_group_shape(x_q, group_shape)
 
@@ -173,8 +174,8 @@ def unpack_quantized_values_into_int32(w_q: torch.Tensor,
 
 def is_layer_skipped(
     prefix: str,
-    ignored_layers: List[str],
-    fused_mapping: Mapping[str, List[str]] = MappingProxyType({})
+    ignored_layers: list[str],
+    fused_mapping: Mapping[str, list[str]] = MappingProxyType({})
 ) -> bool:
     # prefix: model.layers.0.self_attn.q_proj
     # proj_name: q_proj
diff --git a/vllm/model_executor/layers/quantization/utils/w8a8_utils.py b/vllm/model_executor/layers/quantization/utils/w8a8_utils.py
index 8ab45d610..4b041cff2 100644
--- a/vllm/model_executor/layers/quantization/utils/w8a8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/w8a8_utils.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Callable, List, Optional, Tuple, Union
+from typing import Callable, Optional, Union
 
 import torch
 
@@ -81,7 +81,7 @@ def all_close_1d(x: torch.Tensor) -> bool:
 
 def convert_to_channelwise(
         weight_scale: torch.Tensor,
-        logical_widths: List[int]) -> Tuple[torch.Tensor, torch.Tensor]:
+        logical_widths: list[int]) -> tuple[torch.Tensor, torch.Tensor]:
     # Create channelwise buffer
     weight_scale_channel = torch.empty((sum(logical_widths), 1),
                                        dtype=torch.float32,
@@ -99,7 +99,7 @@ def convert_to_channelwise(
 
 def requantize_with_max_scale(
         weight: torch.Tensor, weight_scale: torch.Tensor,
-        logical_widths: List[int]) -> Tuple[torch.Tensor, torch.Tensor]:
+        logical_widths: list[int]) -> tuple[torch.Tensor, torch.Tensor]:
     # Max scale to be used for requanitzation.
     max_w_scale = weight_scale.max()
 
@@ -136,7 +136,7 @@ def maybe_create_device_identity():
 def cutlass_w8a8_scaled_mm(*, qinput: torch.Tensor, weight: torch.Tensor,
                            out_dtype: torch.dtype, scale_a: torch.Tensor,
                            scale_b: torch.Tensor, bias: torch.Tensor,
-                           output_shape: List, **kwargs) -> torch.Tensor:
+                           output_shape: list, **kwargs) -> torch.Tensor:
 
     # Fused GEMM_DQ
     output = ops.cutlass_scaled_mm(qinput,
@@ -154,7 +154,7 @@ def rocm_per_tensor_w8a8_scaled_mm(*, qinput: torch.Tensor,
                                    scale_a: torch.Tensor,
                                    scale_b: torch.Tensor, bias: torch.Tensor,
                                    input_2d: torch.Tensor,
-                                   output_shape: List) -> torch.Tensor:
+                                   output_shape: list) -> torch.Tensor:
     from vllm.platforms.rocm import on_mi250_mi300
     if envs.VLLM_ROCM_USE_SKINNY_GEMM and on_mi250_mi300(
     ) and qinput.shape[0] == 1 and qinput.shape[1] % 16 == 0:
@@ -177,7 +177,7 @@ def torch_per_tensor_w8a8_scaled_mm(*, qinput: torch.Tensor,
                                     scale_a: torch.Tensor,
                                     scale_b: torch.Tensor, bias: torch.Tensor,
                                     input_2d: torch.Tensor,
-                                    output_shape: List) -> torch.Tensor:
+                                    output_shape: list) -> torch.Tensor:
     output = torch._scaled_mm(qinput,
                               weight,
                               out_dtype=out_dtype,
@@ -198,7 +198,7 @@ def torch_per_token_w8a8_scaled_mm(*, qinput: torch.Tensor,
                                    scale_a: torch.Tensor,
                                    scale_b: torch.Tensor, bias: torch.Tensor,
                                    input_2d: torch.Tensor,
-                                   output_shape: List) -> torch.Tensor:
+                                   output_shape: list) -> torch.Tensor:
     # Note: Callers of this function should check USE_ROWWISE_TORCH_SCALED_MM
     #  when using it.
     #  For now it has only been validated on ROCm platform.
@@ -228,7 +228,7 @@ def torch_channelwise_w8a8_scaled_mm(*, qinput: torch.Tensor,
                                      scale_a: torch.Tensor,
                                      scale_b: torch.Tensor, bias: torch.Tensor,
                                      input_2d: torch.Tensor,
-                                     output_shape: List,
+                                     output_shape: list,
                                      **kwargs) -> torch.Tensor:
     # Use unfused DQ due to limitations with scaled_mm
 
@@ -384,7 +384,7 @@ def normalize_e4m3fn_to_e4m3fnuz(
     weight: torch.Tensor,
     weight_scale: torch.Tensor,
     input_scale: Optional[torch.Tensor] = None
-) -> Tuple[torch.Tensor, torch.Tensor, Optional[torch.Tensor]]:
+) -> tuple[torch.Tensor, torch.Tensor, Optional[torch.Tensor]]:
     assert weight.dtype == torch.float8_e4m3fn
     # The bits pattern 10000000(-128) represents zero in e4m3fn
     # but NaN in e4m3fnuz. So here we set it to 0.
diff --git a/vllm/model_executor/layers/rejection_sampler.py b/vllm/model_executor/layers/rejection_sampler.py
index d1d3326ac..26a2760f7 100644
--- a/vllm/model_executor/layers/rejection_sampler.py
+++ b/vllm/model_executor/layers/rejection_sampler.py
@@ -2,7 +2,7 @@
 
 from functools import cached_property
 from importlib.util import find_spec
-from typing import Dict, Optional, Tuple
+from typing import Optional
 
 import torch
 import torch.jit
@@ -65,7 +65,7 @@ class RejectionSampler(SpecDecodeStochasticBaseSampler):
         bonus_token_ids: torch.Tensor,
         draft_probs: torch.Tensor,
         draft_token_ids: torch.Tensor,
-        seeded_seqs: Optional[Dict[int, torch.Generator]] = None,
+        seeded_seqs: Optional[dict[int, torch.Generator]] = None,
     ) -> torch.Tensor:
         """Sample token ids using rejection sampling. This accepts or rejects
         tokens proposed by the draft model using the probability of each token
@@ -161,8 +161,8 @@ class RejectionSampler(SpecDecodeStochasticBaseSampler):
         target_probs: torch.Tensor,  # [batch_size, k, vocab_size]
         draft_probs: torch.Tensor,  # [batch_size, k, vocab_size]
         draft_token_ids: torch.Tensor,  # [batch_size, k]
-        seeded_seqs: Optional[Dict[int, torch.Generator]],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+        seeded_seqs: Optional[dict[int, torch.Generator]],
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         """Perform modified rejection sampling on each sequence.
 
         Returns:
@@ -194,7 +194,7 @@ class RejectionSampler(SpecDecodeStochasticBaseSampler):
         return accepted, recovered_token_ids
 
     def _create_uniform_samples(self,
-                                seeded_seqs: Optional[Dict[int,
+                                seeded_seqs: Optional[dict[int,
                                                            torch.Generator]],
                                 batch_size: int, k: int,
                                 device: torch.device) -> torch.Tensor:
@@ -210,7 +210,7 @@ class RejectionSampler(SpecDecodeStochasticBaseSampler):
         a seed.
 
         Args:
-            seeded_seqs : Optional[Dict[int, torch.Generator]]
+            seeded_seqs : Optional[dict[int, torch.Generator]]
                 A dictionary mapping indices in the batch to 
                 `torch.Generator` objects. If `None`, all samples are 
                 generated without a seed.
@@ -255,7 +255,7 @@ class RejectionSampler(SpecDecodeStochasticBaseSampler):
         target_probs: torch.Tensor,  # [batch_size, k, vocab_size]
         draft_probs: torch.Tensor,  # [batch_size, k, vocab_size]
         draft_token_ids: torch.Tensor,  # [batch_size, k]
-        seeded_seqs: Optional[Dict[int, torch.Generator]],
+        seeded_seqs: Optional[dict[int, torch.Generator]],
     ) -> torch.Tensor:
         r"""Create bool matrix over the proposed draft tokens. If
         True, then a token can be accepted, else it should be
@@ -379,7 +379,7 @@ def _multinomial(
     probs: torch.Tensor,
     num_samples: int,
     k: int,
-    seeded_seqs: Dict[int, torch.Generator],
+    seeded_seqs: dict[int, torch.Generator],
 ) -> torch.Tensor:
 
     if num_samples > 1:
diff --git a/vllm/model_executor/layers/resampler.py b/vllm/model_executor/layers/resampler.py
index 4c9860006..839688e31 100644
--- a/vllm/model_executor/layers/resampler.py
+++ b/vllm/model_executor/layers/resampler.py
@@ -33,7 +33,7 @@ Example models: Qwen (Qwen-VL), MiniCPM-V 2.0
 """
 import math
 from functools import partial
-from typing import Callable, Optional, Tuple, Union
+from typing import Callable, Optional, Union
 
 import numpy as np
 import torch
@@ -69,7 +69,7 @@ def get_abs_pos(abs_pos: torch.Tensor, tgt_size: Union[torch.Tensor,
 # https://github.com/facebookresearch/mae/blob/efb2a8062c206524e35e47d04501ed4f544c0ae8/util/pos_embed.py#L20
 def get_1d_sincos_pos_embed_from_grid(
     embed_dim: int, pos: np.ndarray,
-    version: Tuple[int, int] = (2, 0)) -> torch.Tensor:
+    version: tuple[int, int] = (2, 0)) -> torch.Tensor:
     """
     embed_dim: output dimension for each position
     pos: a list of positions to be encoded: size (M,) / (H, W)
@@ -96,7 +96,7 @@ def get_1d_sincos_pos_embed_from_grid(
 
 def get_2d_sincos_pos_embed_from_grid(
     embed_dim: int, grid: np.ndarray,
-    version: Tuple[int, int] = (2, 0)) -> torch.Tensor:
+    version: tuple[int, int] = (2, 0)) -> torch.Tensor:
     assert embed_dim % 2 == 0
 
     # use half of dimensions to encode grid_h
@@ -114,9 +114,9 @@ def get_2d_sincos_pos_embed_from_grid(
 
 def get_2d_sincos_pos_embed(
         embed_dim: int,
-        grid_size: Union[int, Tuple[int, int]],
+        grid_size: Union[int, tuple[int, int]],
         cls_token: bool = False,
-        version: Tuple[int, int] = (2, 0),
+        version: tuple[int, int] = (2, 0),
 ) -> torch.Tensor:
     """
     grid_size: int of the grid height and width
diff --git a/vllm/model_executor/layers/rotary_embedding.py b/vllm/model_executor/layers/rotary_embedding.py
index 2d634273e..7e0d65684 100644
--- a/vllm/model_executor/layers/rotary_embedding.py
+++ b/vllm/model_executor/layers/rotary_embedding.py
@@ -23,7 +23,7 @@
 # limitations under the License.
 """Rotary Positional Embeddings."""
 import math
-from typing import Any, Dict, List, Optional, Tuple, Union
+from typing import Any, Optional, Union
 
 import torch
 import torch.nn as nn
@@ -140,7 +140,7 @@ class RotaryEmbedding(CustomOp):
         query: torch.Tensor,
         key: Optional[torch.Tensor] = None,
         offsets: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
         """A PyTorch-native implementation of forward()."""
         if offsets is not None:
             positions = positions + offsets
@@ -174,7 +174,7 @@ class RotaryEmbedding(CustomOp):
         query: torch.Tensor,
         key: Optional[torch.Tensor] = None,
         offsets: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
         from vllm import _custom_ops as ops
 
         # __setattr__ in nn.Module (called by `self.cos_sin_cache = ...`)
@@ -202,7 +202,7 @@ class RotaryEmbedding(CustomOp):
         query: torch.Tensor,
         key: Optional[torch.Tensor] = None,
         offsets: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
         from vllm._ipex_ops import ipex_ops as ops
 
         self.cos_sin_cache = self.cos_sin_cache.to(positions.device,
@@ -232,7 +232,7 @@ class RotaryEmbedding(CustomOp):
         query: torch.Tensor,
         key: Optional[torch.Tensor] = None,
         offsets: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
         from habana_frameworks.torch.hpex.kernels import (
             RotaryPosEmbeddingMode, apply_rotary_pos_emb)
         if offsets is not None:
@@ -290,7 +290,7 @@ class RotaryEmbedding(CustomOp):
         query: torch.Tensor,
         key: Optional[torch.Tensor] = None,
         offsets: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
 
         def _apply_rotary_emb_neuron(
             x: torch.Tensor,
@@ -406,23 +406,23 @@ class LinearScalingRotaryEmbedding(RotaryEmbedding):
         max_position_embeddings: int,
         base: int,
         is_neox_style: bool,
-        scaling_factors: Union[List[float], float],
+        scaling_factors: Union[list[float], float],
         dtype: torch.dtype,
     ) -> None:
         if isinstance(scaling_factors, float):
             scaling_factors = [scaling_factors]
-        self.scaling_factors: List[float] = scaling_factors  # noqa
+        self.scaling_factors: list[float] = scaling_factors  # noqa
         super().__init__(head_size, rotary_dim, max_position_embeddings, base,
                          is_neox_style, dtype)
         # Lazy initialized.
-        self._scaling_factor_to_offset: Dict[float, int]
+        self._scaling_factor_to_offset: dict[float, int]
 
     def _compute_cos_sin_cache(self) -> torch.Tensor:
         inv_freq = self._compute_inv_freq(self.base)
-        cache_list: List[torch.Tensor] = []
+        cache_list: list[torch.Tensor] = []
         # offsets to the next cache in a tensor.
         # Each offset corresponds to the same index in scaling_factors.
-        offsets: List[int] = []
+        offsets: list[int] = []
         for scaling_factor in self.scaling_factors:
             # NOTE(woosuk): self.max_position_embeddings is the original
             # maximum length before applying the rope scaling.
@@ -452,7 +452,7 @@ class LinearScalingRotaryEmbedding(RotaryEmbedding):
         return torch.cat(cache_list, dim=0)
 
     @property
-    def scaling_factor_to_offset(self) -> Dict[float, int]:
+    def scaling_factor_to_offset(self) -> dict[float, int]:
         return self._scaling_factor_to_offset
 
 
@@ -512,7 +512,7 @@ def _yarn_find_correction_range(
         high_rot: int,
         dim: int,
         base: float = 10000,
-        max_position_embeddings: int = 2048) -> Tuple[int, int]:
+        max_position_embeddings: int = 2048) -> tuple[int, int]:
     low = math.floor(
         _yarn_find_correction_dim(low_rot, dim, base, max_position_embeddings))
     high = math.ceil(
@@ -613,8 +613,8 @@ class Phi3LongRoPEScaledRotaryEmbedding(nn.Module):
         base: int,
         is_neox_style: bool,
         dtype: torch.dtype,
-        short_factor: List[float],
-        long_factor: List[float],
+        short_factor: list[float],
+        long_factor: list[float],
         short_mscale: Optional[float] = None,
         long_mscale: Optional[float] = None,
     ):
@@ -662,7 +662,7 @@ class Phi3LongRoPEScaledRotaryEmbedding(nn.Module):
                              long_short_cache,
                              persistent=False)
 
-    def _compute_inv_freq(self, rescale_factors: List[float]) -> torch.Tensor:
+    def _compute_inv_freq(self, rescale_factors: list[float]) -> torch.Tensor:
         rescale_factors = torch.tensor(rescale_factors, dtype=torch.float32)
         inv_freq = 1.0 / (rescale_factors * (self.base**(torch.arange(
             0, self.rotary_dim, 2, dtype=torch.float) / self.rotary_dim)))
@@ -671,7 +671,7 @@ class Phi3LongRoPEScaledRotaryEmbedding(nn.Module):
     def _compute_cos_sin_cache(
         self,
         max_position_embeddings: int,
-        rescale_factors: List[float],
+        rescale_factors: list[float],
         mscale: float,
     ) -> torch.Tensor:
         inv_freq = self._compute_inv_freq(rescale_factors)
@@ -688,7 +688,7 @@ class Phi3LongRoPEScaledRotaryEmbedding(nn.Module):
         query: torch.Tensor,
         key: Optional[torch.Tensor] = None,
         offsets: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
         assert key is not None
         query = query.view(*query.shape[:-1], -1, self.head_size)
         key = key.view(*key.shape[:-1], -1, self.head_size)
@@ -799,7 +799,7 @@ class DeepseekScalingRotaryEmbedding(RotaryEmbedding):
         query: torch.Tensor,
         key: Optional[torch.Tensor] = None,
         offsets: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
         """PyTorch-native implementation equivalent to forward()."""
         assert key is not None
         query_rot = query[..., :self.rotary_dim]
@@ -930,7 +930,7 @@ class Llama4VisionRotaryEmbedding(RotaryEmbedding):
         self,
         query: torch.Tensor,
         key: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
         assert key is not None
         self.cos_sin_cache: torch.Tensor = self.cos_sin_cache.to(query.device)
         query_ = torch.view_as_complex(query.float().reshape(
@@ -958,7 +958,7 @@ class MRotaryEmbedding(RotaryEmbedding):
         base: int,
         is_neox_style: bool,
         dtype: torch.dtype,
-        mrope_section: Optional[List[int]] = None,
+        mrope_section: Optional[list[int]] = None,
     ) -> None:
         # In Qwen2.5-VL, the maximum index value is related to the duration of
         # the input video. We enlarge max_position_embeddings to 4 times to get
@@ -976,7 +976,7 @@ class MRotaryEmbedding(RotaryEmbedding):
         positions: torch.Tensor,
         query: torch.Tensor,
         key: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
         """PyTorch-native implementation equivalent to forward().
 
         Args:
@@ -1024,16 +1024,16 @@ class MRotaryEmbedding(RotaryEmbedding):
     @classmethod
     def get_input_positions(
         cls,
-        input_tokens: List[int],
+        input_tokens: list[int],
         hf_config: PretrainedConfig,
-        image_grid_thw: Optional[Union[List[List[int]], torch.Tensor]],
-        video_grid_thw: Optional[Union[List[List[int]], torch.Tensor]],
-        second_per_grid_ts: Optional[List[float]],
+        image_grid_thw: Optional[Union[list[list[int]], torch.Tensor]],
+        video_grid_thw: Optional[Union[list[list[int]], torch.Tensor]],
+        second_per_grid_ts: Optional[list[float]],
         context_len: int = 0,
         seq_len: Optional[int] = None,
         audio_feature_lengths: Optional[torch.Tensor] = None,
         use_audio_in_video: bool = False,
-    ) -> Tuple[List[List[int]], int]:
+    ) -> tuple[list[list[int]], int]:
         """Get mrope input positions and delta value."""
 
         image_grid_thw = [] if image_grid_thw is None else image_grid_thw
@@ -1059,16 +1059,16 @@ class MRotaryEmbedding(RotaryEmbedding):
     @classmethod
     def get_input_positions_tensor(
         cls,
-        input_tokens: List[int],
+        input_tokens: list[int],
         hf_config: PretrainedConfig,
-        image_grid_thw: Union[List[List[int]], torch.Tensor],
-        video_grid_thw: Union[List[List[int]], torch.Tensor],
-        second_per_grid_ts: List[float],
+        image_grid_thw: Union[list[list[int]], torch.Tensor],
+        video_grid_thw: Union[list[list[int]], torch.Tensor],
+        second_per_grid_ts: list[float],
         context_len: int = 0,
         seq_len: Optional[int] = None,
         audio_feature_lengths: Optional[torch.Tensor] = None,
         use_audio_in_video: bool = False,
-    ) -> Tuple[torch.Tensor, int]:
+    ) -> tuple[torch.Tensor, int]:
         from vllm.transformers_utils.config import thinker_uses_mrope
         if thinker_uses_mrope(hf_config):
             return cls._omni_get_input_positions_tensor(
@@ -1096,14 +1096,14 @@ class MRotaryEmbedding(RotaryEmbedding):
     @classmethod
     def _vl_get_input_positions_tensor(
         cls,
-        input_tokens: List[int],
+        input_tokens: list[int],
         hf_config: PretrainedConfig,
-        image_grid_thw: Union[List[List[int]], torch.Tensor],
-        video_grid_thw: Union[List[List[int]], torch.Tensor],
-        second_per_grid_ts: List[float],
+        image_grid_thw: Union[list[list[int]], torch.Tensor],
+        video_grid_thw: Union[list[list[int]], torch.Tensor],
+        second_per_grid_ts: list[float],
         context_len: int = 0,
         seq_len: Optional[int] = None,
-    ) -> Tuple[torch.Tensor, int]:
+    ) -> tuple[torch.Tensor, int]:
         """Get mrope input positions and delta value."""
 
         image_token_id = hf_config.image_token_id
@@ -1195,16 +1195,16 @@ class MRotaryEmbedding(RotaryEmbedding):
     @classmethod
     def _omni_get_input_positions_tensor(
         cls,
-        input_tokens: List[int],
+        input_tokens: list[int],
         hf_config: PretrainedConfig,
-        image_grid_thw: Union[List[List[int]], torch.Tensor],
-        video_grid_thw: Union[List[List[int]], torch.Tensor],
-        second_per_grid_ts: Optional[List[float]] = None,
+        image_grid_thw: Union[list[list[int]], torch.Tensor],
+        video_grid_thw: Union[list[list[int]], torch.Tensor],
+        second_per_grid_ts: Optional[list[float]] = None,
         context_len: int = 0,
         seq_len: Optional[int] = None,
         audio_feature_lengths: Optional[torch.Tensor] = None,
         use_audio_in_video: bool = False,
-    ) -> Tuple[torch.Tensor, int]:
+    ) -> tuple[torch.Tensor, int]:
         """Get mrope input positions and delta value (Qwen2.5-Omni version).
 
         Differences from MRotaryEmbedding:
@@ -1329,7 +1329,7 @@ class MRotaryEmbedding(RotaryEmbedding):
                 place_num = (((audio_seqlen - 1) // 2 + 1 - 2) // 2 + 1) + 2
                 pure_audio_len = place_num - 2
                 added_audio_len = 0
-                audio_llm_pos_ids_list: List[torch.Tensor] = []
+                audio_llm_pos_ids_list: list[torch.Tensor] = []
                 for t_chunk in t_index_split_chunk:
                     vision_ntoken_per_chunk = len(
                         t_chunk) * grid_h * grid_w // (spatial_merge_size**2)
@@ -1382,7 +1382,7 @@ class MRotaryEmbedding(RotaryEmbedding):
         start_idx: int,
         vision_idx: int,
         spatial_merge_size: int,
-        t_index: List[int],
+        t_index: list[int],
         grid_hs: torch.Tensor,
         grid_ws: torch.Tensor,
     ) -> torch.Tensor:
@@ -1402,8 +1402,8 @@ class MRotaryEmbedding(RotaryEmbedding):
 
     @staticmethod
     def _split_list_into_ranges(lst: torch.Tensor,
-                                interval: int) -> List[List[int]]:
-        ranges: List[List[int]] = [[]
+                                interval: int) -> list[list[int]]:
+        ranges: list[list[int]] = [[]
                                    for _ in range((max(lst) // interval) + 1)]
         for num in lst:
             index = num // interval
@@ -1415,7 +1415,7 @@ class MRotaryEmbedding(RotaryEmbedding):
         mrope_position_delta: int,
         context_len: int,
         seq_len: int,
-    ) -> List[List[int]]:
+    ) -> list[list[int]]:
         return [
             list(
                 range(context_len + mrope_position_delta,
@@ -1438,9 +1438,9 @@ class MRotaryEmbedding(RotaryEmbedding):
         cls,
         thinker_config: PretrainedConfig,
         audio_len: int,
-        video_grid_thw: Union[List[int], torch.Tensor],
+        video_grid_thw: Union[list[int], torch.Tensor],
         video_second_per_grid_t: float,
-    ) -> List[int]:
+    ) -> list[int]:
         """Get video prompt updates when `use_audio_in_video` is True.
 
         In this case, audio and vision update ids will be split into
@@ -1593,7 +1593,7 @@ class DualChunkRotaryEmbedding(CustomOp):
         query: torch.Tensor,
         key: torch.Tensor,
         offsets: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         query = query.view(*query.shape[:-1], -1, self.head_size)
         key = key.view(*key.shape[:-1], -1, self.head_size)
         query_rot = query[..., :self.rotary_dim]
@@ -1664,7 +1664,7 @@ class DualChunkRotaryEmbedding(CustomOp):
         return s
 
 
-_ROPE_DICT: Dict[Tuple, RotaryEmbedding] = {}
+_ROPE_DICT: dict[tuple, RotaryEmbedding] = {}
 
 
 def get_rope(
@@ -1673,10 +1673,10 @@ def get_rope(
     max_position: int,
     base: int,
     is_neox_style: bool = True,
-    rope_scaling: Optional[Dict[str, Any]] = None,
+    rope_scaling: Optional[dict[str, Any]] = None,
     dtype: Optional[torch.dtype] = None,
     partial_rotary_factor: float = 1.0,
-    dual_chunk_attention_config: Optional[Dict[str, Any]] = None,
+    dual_chunk_attention_config: Optional[dict[str, Any]] = None,
 ) -> RotaryEmbedding:
     if dtype is None:
         dtype = torch.get_default_dtype()
diff --git a/vllm/model_executor/layers/sampler.py b/vllm/model_executor/layers/sampler.py
index 920c0f5a6..2e2c46edf 100644
--- a/vllm/model_executor/layers/sampler.py
+++ b/vllm/model_executor/layers/sampler.py
@@ -2,10 +2,11 @@
 """A layer that samples the next tokens from the model's outputs."""
 import itertools
 import warnings
+from collections.abc import Iterator
 from dataclasses import dataclass
 from importlib.util import find_spec
 from math import inf
-from typing import Dict, Iterator, List, Optional, Tuple, Union
+from typing import Optional, Union
 
 import msgspec
 import torch
@@ -42,14 +43,14 @@ def get_sampler() -> torch.nn.Module:
 
 
 # (num_token_ids, num_parent_ids) per sequence group.
-SampleResultType = List[Tuple[List[int], List[int]]]
+SampleResultType = list[tuple[list[int], list[int]]]
 
 # Types of temporary data structures used for
 # computing sample_result
-SampleMetadataType = Dict[SamplingType, Tuple[List[int],
-                                              List[SequenceGroupToSample]]]
-MultinomialSamplesType = Dict[SamplingType, torch.Tensor]
-SampleResultsDictType = Dict[int, Tuple[List[int], List[int]]]
+SampleMetadataType = dict[SamplingType, tuple[list[int],
+                                              list[SequenceGroupToSample]]]
+MultinomialSamplesType = dict[SamplingType, torch.Tensor]
+SampleResultsDictType = dict[int, tuple[list[int], list[int]]]
 
 
 # Encapsulates temporary data structures for computing
@@ -76,7 +77,7 @@ class SampleResultArgsType:
 MaybeDeferredSampleResultType = Union[SampleResultType, SampleResultArgsType]
 
 # Abbreviation of the _sample() return type
-SampleReturnType = Tuple[MaybeDeferredSampleResultType, Optional[torch.Tensor]]
+SampleReturnType = tuple[MaybeDeferredSampleResultType, Optional[torch.Tensor]]
 
 
 class SamplerOutput(
@@ -90,7 +91,7 @@ class SamplerOutput(
     also has optional fields for device tensors.
     """
 
-    outputs: List[CompletionSequenceGroupOutput]
+    outputs: list[CompletionSequenceGroupOutput]
 
     # On-device tensor containing probabilities of each token.
     sampled_token_probs: Optional[torch.Tensor] = None
@@ -350,7 +351,7 @@ def _apply_min_tokens_penalty(
         have not been generated yet
     """
     # list of indices in logits that will be set to -inf
-    logits_to_penalize: List[Tuple[int, int]] = []
+    logits_to_penalize: list[tuple[int, int]] = []
     logits_applied = 0
     for seq_group in sampling_metadata.seq_groups:
         seq_ids = seq_group.seq_ids
@@ -366,7 +367,7 @@ def _apply_min_tokens_penalty(
         min_tokens = sampling_params.min_tokens
         token_ids_to_penalize = sampling_params.all_stop_token_ids
         if min_tokens > 0 and token_ids_to_penalize:
-            seqs_to_penalize: List[int] = []
+            seqs_to_penalize: list[int] = []
             for j, seq_id in enumerate(seq_ids):
                 seq_data = seq_group.seq_data[seq_id]
                 if len(seq_data.output_token_ids_array) < min_tokens:
@@ -436,7 +437,7 @@ def _apply_min_p(
 
 
 def _greedy_sample(
-    selected_seq_groups: List[SequenceGroupToSample],
+    selected_seq_groups: list[SequenceGroupToSample],
     samples: torch.Tensor,
 ) -> SampleResultType:
     """Run greedy sampling on a given samples.
@@ -471,7 +472,7 @@ def _greedy_sample(
 
 
 def _random_sample(
-    selected_seq_groups: List[SequenceGroupToSample],
+    selected_seq_groups: list[SequenceGroupToSample],
     random_samples: torch.Tensor,
 ) -> SampleResultType:
     """Run random sampling on a given samples.
@@ -522,7 +523,7 @@ def _random_sample(
 def _multinomial(
     probs: torch.Tensor,
     num_samples: int,
-    seq_groups: Optional[List[SequenceGroupToSample]] = None,
+    seq_groups: Optional[list[SequenceGroupToSample]] = None,
 ) -> torch.Tensor:
     if num_samples > 1:
         probs = probs.repeat_interleave(num_samples, dim=0)
@@ -543,7 +544,7 @@ def _multinomial(
 
 def _top_k_top_p_multinomial_with_flashinfer(
         probs: torch.Tensor, top_ks: torch.Tensor, top_ps: torch.Tensor,
-        num_samples: int, seq_groups: Optional[List[SequenceGroupToSample]]):
+        num_samples: int, seq_groups: Optional[list[SequenceGroupToSample]]):
     max_top_k_round = 32
     if num_samples > 1:
         probs = probs.repeat_interleave(num_samples, dim=0)
@@ -648,7 +649,7 @@ def _sample_with_torch(
       tensors required for Pythonization
     '''
 
-    categorized_seq_group_ids: Dict[SamplingType, List[int]] = {
+    categorized_seq_group_ids: dict[SamplingType, list[int]] = {
         t: []
         for t in SamplingType
     }
@@ -812,7 +813,7 @@ def get_logprobs(
     logprobs: torch.Tensor,
     sampling_metadata: SamplingMetadata,
     sample_results: SampleResultType,
-) -> Tuple[List[Optional[PromptLogprobs]], List[SampleLogprobs]]:
+) -> tuple[list[Optional[PromptLogprobs]], list[SampleLogprobs]]:
     """Return sample logprobs and prompt logprobs.
 
     The logic consists of 3 parts.
@@ -841,9 +842,9 @@ def get_logprobs(
     """
     # The index of query token to calculate logprobs. It includes both
     # prompt and sample logprob indices.
-    query_indices: List[int] = []
+    query_indices: list[int] = []
     # The next token ids to get the logprob value from.
-    next_token_ids: List[int] = []
+    next_token_ids: list[int] = []
     # The largest requested number of logprobs. We find logprobs as many as the
     # largest num logprobs in this API. If every logprobs is None, it will be
     # set to -1.
@@ -925,8 +926,8 @@ def get_logprobs(
         ranks = ranks.to('cpu')
 
     # Find prompt/sample logprobs.
-    prompt_logprobs_per_seq_group: List[Optional[PromptLogprobs]] = []
-    sample_logprobs_per_seq_group: List[SampleLogprobs] = []
+    prompt_logprobs_per_seq_group: list[Optional[PromptLogprobs]] = []
+    sample_logprobs_per_seq_group: list[SampleLogprobs] = []
     top_logprob_idx = 0
     selected_logprobs_idx = 0
 
@@ -977,7 +978,7 @@ def _get_prompt_logprob_if_needed(
         for idx, token_id in enumerate(next_prompt_tokens):
             # Calculate the prompt logprob of the real prompt tokens.
             # {token_id: (logprob, rank_from_vocab)}
-            prompt_logprobs_dict: Dict[int, Tuple[float, int]] = {
+            prompt_logprobs_dict: dict[int, tuple[float, int]] = {
                 token_id: (selected_logprob_items[idx], rank_items[idx])
             }
 
@@ -1009,7 +1010,7 @@ def _get_prompt_logprob_if_needed(
 
 def _get_sampled_logprob_if_needed(
     seq_group: SequenceGroupToSample,
-    sample_result: Tuple[List[int], List[int]],
+    sample_result: tuple[list[int], list[int]],
     selected_logprobs: torch.Tensor,
     ranks: torch.Tensor,
     top_token_ids: torch.Tensor,
@@ -1130,9 +1131,9 @@ def _modify_greedy_probs_inplace(logprobs: torch.Tensor, probs: torch.Tensor,
 def _build_sampler_output(
     maybe_deferred_sample_results: MaybeDeferredSampleResultType,
     sampling_metadata: SamplingMetadata,
-    prompt_logprobs: Optional[List[Optional[PromptLogprobs]]],
-    sample_logprobs: Optional[List[SampleLogprobs]],
-    on_device_tensors: Optional[Tuple[torch.Tensor, torch.Tensor,
+    prompt_logprobs: Optional[list[Optional[PromptLogprobs]]],
+    sample_logprobs: Optional[list[SampleLogprobs]],
+    on_device_tensors: Optional[tuple[torch.Tensor, torch.Tensor,
                                       torch.Tensor]],
     skip_sampler_cpu_output: bool = False,
 ) -> SamplerOutput:
@@ -1144,7 +1145,7 @@ def _build_sampler_output(
             allows post-processing without copies to CPU/serialization, e.g. in
             speculative decoding rejection sampling.
     """
-    sampler_output: List[CompletionSequenceGroupOutput] = []
+    sampler_output: list[CompletionSequenceGroupOutput] = []
 
     if skip_sampler_cpu_output:
         assert isinstance(maybe_deferred_sample_results, SampleResultArgsType)
@@ -1166,7 +1167,7 @@ def _build_sampler_output(
                                            prompt_logprobs, sample_logprobs):
             seq_ids = seq_group.seq_ids
             next_token_ids, parent_ids = sample_result
-            seq_outputs: List[SequenceOutput] = []
+            seq_outputs: list[SequenceOutput] = []
             for parent_id, next_token_id, logprobs in zip(
                     parent_ids, next_token_ids, group_sample_logprobs):
                 seq_outputs.append(
diff --git a/vllm/model_executor/layers/spec_decode_base_sampler.py b/vllm/model_executor/layers/spec_decode_base_sampler.py
index 54fd43fc6..969cd59b5 100644
--- a/vllm/model_executor/layers/spec_decode_base_sampler.py
+++ b/vllm/model_executor/layers/spec_decode_base_sampler.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from abc import abstractmethod
-from typing import Dict, Optional, Union
+from typing import Optional, Union
 
 import torch
 import torch.jit
@@ -253,6 +253,6 @@ class SpecDecodeStochasticBaseSampler(SpecDecodeBaseSampler):
         bonus_token_ids: torch.Tensor,
         draft_probs: torch.Tensor,
         draft_token_ids: torch.Tensor,
-        seeded_seqs: Optional[Dict[int, torch.Generator]] = None,
+        seeded_seqs: Optional[dict[int, torch.Generator]] = None,
     ) -> torch.Tensor:
         raise NotImplementedError
diff --git a/vllm/model_executor/layers/utils.py b/vllm/model_executor/layers/utils.py
index 751b86787..18783d0d7 100644
--- a/vllm/model_executor/layers/utils.py
+++ b/vllm/model_executor/layers/utils.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 """Utility methods for model layers."""
-from typing import Callable, Optional, Tuple
+from typing import Callable, Optional
 
 import torch
 
@@ -13,7 +13,7 @@ def get_token_bin_counts_and_mask(
     tokens: torch.Tensor,
     vocab_size: int,
     num_seqs: int,
-) -> Tuple[torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, torch.Tensor]:
     # Compute the bin counts for the tokens.
     # vocab_size + 1 for padding.
     bin_counts = torch.zeros((num_seqs, vocab_size + 1),
diff --git a/vllm/model_executor/layers/vocab_parallel_embedding.py b/vllm/model_executor/layers/vocab_parallel_embedding.py
index d5eaeec1a..46d2075af 100644
--- a/vllm/model_executor/layers/vocab_parallel_embedding.py
+++ b/vllm/model_executor/layers/vocab_parallel_embedding.py
@@ -1,7 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 
+from collections.abc import Sequence
 from dataclasses import dataclass
-from typing import List, Optional, Sequence, Tuple
+from typing import Optional
 
 import torch
 import torch.nn.functional as F
@@ -25,7 +26,7 @@ class UnquantizedEmbeddingMethod(QuantizeMethodBase):
 
     def create_weights(self, layer: torch.nn.Module,
                        input_size_per_partition: int,
-                       output_partition_sizes: List[int], input_size: int,
+                       output_partition_sizes: list[int], input_size: int,
                        output_size: int, params_dtype: torch.dtype,
                        **extra_weight_attrs):
         """Create weights for embedding layer."""
@@ -141,7 +142,7 @@ def get_masked_input_and_mask(
         input_: torch.Tensor, org_vocab_start_index: int,
         org_vocab_end_index: int, num_org_vocab_padding: int,
         added_vocab_start_index: int,
-        added_vocab_end_index: int) -> Tuple[torch.Tensor, torch.Tensor]:
+        added_vocab_end_index: int) -> tuple[torch.Tensor, torch.Tensor]:
     # torch.compile will fuse all of the pointwise ops below
     # into a single kernel, making it very fast
     org_vocab_mask = (input_ >= org_vocab_start_index) & (
@@ -298,7 +299,7 @@ class VocabParallelEmbedding(torch.nn.Module):
             org_vocab_start_index, org_vocab_end_index,
             added_vocab_start_index, added_vocab_end_index)
 
-    def get_sharded_to_full_mapping(self) -> Optional[List[int]]:
+    def get_sharded_to_full_mapping(self) -> Optional[list[int]]:
         """Get a mapping that can be used to reindex the gathered
         logits for sampling.
         
@@ -312,9 +313,9 @@ class VocabParallelEmbedding(torch.nn.Module):
         if self.tp_size < 2:
             return None
 
-        base_embeddings: List[int] = []
-        added_embeddings: List[int] = []
-        padding: List[int] = []
+        base_embeddings: list[int] = []
+        added_embeddings: list[int] = []
+        padding: list[int] = []
         for tp_rank in range(self.tp_size):
             shard_indices = self._get_indices(self.num_embeddings_padded,
                                               self.org_vocab_size_padded,
-- 
GitLab


From ff334ca1cd92c41cc79e9dead91de40b87601daf Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 13 May 2025 12:34:34 +0100
Subject: [PATCH 328/461] Update deprecated type hinting in `vllm/profiler`
 (#18057)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 pyproject.toml                     |  1 -
 vllm/profiler/layerwise_profile.py | 38 +++++++++++++++---------------
 vllm/profiler/utils.py             |  8 +++----
 3 files changed, 23 insertions(+), 24 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index 108fd7af9..a3e75ec69 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -84,7 +84,6 @@ exclude = [
 "vllm/model_executor/models/**/*.py" = ["UP006", "UP035"]
 "vllm/platforms/**/*.py" = ["UP006", "UP035"]
 "vllm/plugins/**/*.py" = ["UP006", "UP035"]
-"vllm/profiler/**/*.py" = ["UP006", "UP035"]
 "vllm/prompt_adapter/**/*.py" = ["UP006", "UP035"]
 "vllm/spec_decode/**/*.py" = ["UP006", "UP035"]
 "vllm/transformers_utils/**/*.py" = ["UP006", "UP035"]
diff --git a/vllm/profiler/layerwise_profile.py b/vllm/profiler/layerwise_profile.py
index 6351ef63d..6934d328a 100644
--- a/vllm/profiler/layerwise_profile.py
+++ b/vllm/profiler/layerwise_profile.py
@@ -3,7 +3,7 @@
 import copy
 from collections import defaultdict
 from dataclasses import asdict, dataclass, field
-from typing import Any, Callable, Dict, List, Optional, Tuple, TypeAlias, Union
+from typing import Any, Callable, Optional, TypeAlias, Union
 
 import pandas as pd
 from torch._C._autograd import DeviceType, _KinetoEvent, _ProfilerResult
@@ -20,7 +20,7 @@ from vllm.profiler.utils import (TablePrinter, event_has_module,
 class _ModuleTreeNode:
     event: _ProfilerEvent
     parent: Optional['_ModuleTreeNode'] = None
-    children: List['_ModuleTreeNode'] = field(default_factory=list)
+    children: list['_ModuleTreeNode'] = field(default_factory=list)
     trace: str = ""
 
     @property
@@ -60,19 +60,19 @@ StatsEntry: TypeAlias = Union[ModelStatsEntry, SummaryStatsEntry]
 @dataclass
 class _StatsTreeNode:
     entry: StatsEntry
-    children: List[StatsEntry]
+    children: list[StatsEntry]
     parent: Optional[StatsEntry]
 
 
 @dataclass
 class LayerwiseProfileResults(profile):
     _kineto_results: _ProfilerResult
-    _kineto_event_correlation_map: Dict[int,
-                                        List[_KinetoEvent]] = field(init=False)
-    _event_correlation_map: Dict[int, List[FunctionEvent]] = field(init=False)
-    _module_tree: List[_ModuleTreeNode] = field(init=False)
-    _model_stats_tree: List[_StatsTreeNode] = field(init=False)
-    _summary_stats_tree: List[_StatsTreeNode] = field(init=False)
+    _kineto_event_correlation_map: dict[int,
+                                        list[_KinetoEvent]] = field(init=False)
+    _event_correlation_map: dict[int, list[FunctionEvent]] = field(init=False)
+    _module_tree: list[_ModuleTreeNode] = field(init=False)
+    _model_stats_tree: list[_StatsTreeNode] = field(init=False)
+    _summary_stats_tree: list[_StatsTreeNode] = field(init=False)
 
     # profile metadata
     num_running_seqs: Optional[int] = None
@@ -82,7 +82,7 @@ class LayerwiseProfileResults(profile):
         self._build_module_tree()
         self._build_stats_trees()
 
-    def print_model_table(self, column_widths: Dict[str, int] = None):
+    def print_model_table(self, column_widths: dict[str, int] = None):
         _column_widths = dict(name=60,
                               cpu_time_us=12,
                               cuda_time_us=12,
@@ -100,7 +100,7 @@ class LayerwiseProfileResults(profile):
                 filtered_model_table,
                 indent_style=lambda indent: "|" + "-" * indent + " "))
 
-    def print_summary_table(self, column_widths: Dict[str, int] = None):
+    def print_summary_table(self, column_widths: dict[str, int] = None):
         _column_widths = dict(name=80,
                               cuda_time_us=12,
                               pct_cuda_time=12,
@@ -142,7 +142,7 @@ class LayerwiseProfileResults(profile):
         }
 
     @staticmethod
-    def _indent_row_names_based_on_depth(depths_rows: List[Tuple[int,
+    def _indent_row_names_based_on_depth(depths_rows: list[tuple[int,
                                                                  StatsEntry]],
                                          indent_style: Union[Callable[[int],
                                                                       str],
@@ -229,7 +229,7 @@ class LayerwiseProfileResults(profile):
             [self._cumulative_cuda_time(root) for root in self._module_tree])
 
     def _build_stats_trees(self):
-        summary_dict: Dict[str, _StatsTreeNode] = {}
+        summary_dict: dict[str, _StatsTreeNode] = {}
         total_cuda_time = self._total_cuda_time()
 
         def pct_cuda_time(cuda_time_us):
@@ -238,7 +238,7 @@ class LayerwiseProfileResults(profile):
         def build_summary_stats_tree_df(
             node: _ModuleTreeNode,
             parent: Optional[_StatsTreeNode] = None,
-            summary_trace: Tuple[str] = ()):
+            summary_trace: tuple[str] = ()):
 
             if event_has_module(node.event):
                 name = event_module_repr(node.event)
@@ -313,8 +313,8 @@ class LayerwiseProfileResults(profile):
             self._model_stats_tree.append(build_model_stats_tree_df(root))
 
     def _flatten_stats_tree(
-            self, tree: List[_StatsTreeNode]) -> List[Tuple[int, StatsEntry]]:
-        entries: List[Tuple[int, StatsEntry]] = []
+            self, tree: list[_StatsTreeNode]) -> list[tuple[int, StatsEntry]]:
+        entries: list[tuple[int, StatsEntry]] = []
 
         def df_traversal(node: _StatsTreeNode, depth=0):
             entries.append((depth, node.entry))
@@ -327,10 +327,10 @@ class LayerwiseProfileResults(profile):
         return entries
 
     def _convert_stats_tree_to_dict(self,
-                                    tree: List[_StatsTreeNode]) -> List[Dict]:
-        root_dicts: List[Dict] = []
+                                    tree: list[_StatsTreeNode]) -> list[dict]:
+        root_dicts: list[dict] = []
 
-        def df_traversal(node: _StatsTreeNode, curr_json_list: List[Dict]):
+        def df_traversal(node: _StatsTreeNode, curr_json_list: list[dict]):
             curr_json_list.append({
                 "entry": asdict(node.entry),
                 "children": []
diff --git a/vllm/profiler/utils.py b/vllm/profiler/utils.py
index 62b39f510..b26fd4dd8 100644
--- a/vllm/profiler/utils.py
+++ b/vllm/profiler/utils.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import dataclasses
-from typing import Callable, Dict, List, Type, Union
+from typing import Callable, Union
 
 from torch._C._profiler import _EventType, _ProfilerEvent, _TensorMetadata
 
@@ -30,14 +30,14 @@ def trim_string_back(string, width):
 
 class TablePrinter:
 
-    def __init__(self, row_cls: Type[dataclasses.dataclass],
-                 column_widths: Dict[str, int]):
+    def __init__(self, row_cls: type[dataclasses.dataclass],
+                 column_widths: dict[str, int]):
         self.row_cls = row_cls
         self.fieldnames = [x.name for x in dataclasses.fields(row_cls)]
         self.column_widths = column_widths
         assert set(self.column_widths.keys()) == set(self.fieldnames)
 
-    def print_table(self, rows: List[dataclasses.dataclass]):
+    def print_table(self, rows: list[dataclasses.dataclass]):
         self._print_header()
         self._print_line()
         for row in rows:
-- 
GitLab


From 8c946cecca72ac9c05ab17dd4ffb51ecd2094074 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 13 May 2025 12:34:37 +0100
Subject: [PATCH 329/461] Update deprecated type hinting in
 `vllm/transformers_utils` (#18058)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 vllm/transformers_utils/config.py             | 10 ++--
 vllm/transformers_utils/configs/arctic.py     |  6 +--
 vllm/transformers_utils/configs/cohere2.py    |  6 +--
 .../configs/deepseek_vl2.py                   |  5 +-
 vllm/transformers_utils/configs/exaone.py     |  4 +-
 vllm/transformers_utils/configs/jais.py       |  4 +-
 .../configs/mlp_speculator.py                 |  6 +--
 vllm/transformers_utils/configs/mpt.py        | 18 ++++----
 vllm/transformers_utils/configs/solar.py      |  2 +-
 vllm/transformers_utils/configs/ultravox.py   | 10 ++--
 vllm/transformers_utils/detokenizer.py        |  6 +--
 vllm/transformers_utils/detokenizer_utils.py  | 24 +++++-----
 .../processors/deepseek_vl2.py                | 29 ++++++------
 vllm/transformers_utils/processors/ovis.py    | 12 ++---
 vllm/transformers_utils/tokenizer_group.py    |  8 ++--
 vllm/transformers_utils/tokenizers/mistral.py | 46 +++++++++----------
 vllm/transformers_utils/utils.py              |  4 +-
 17 files changed, 98 insertions(+), 102 deletions(-)

diff --git a/vllm/transformers_utils/config.py b/vllm/transformers_utils/config.py
index f6c2b3553..02034bf02 100644
--- a/vllm/transformers_utils/config.py
+++ b/vllm/transformers_utils/config.py
@@ -6,7 +6,7 @@ import os
 import time
 from functools import cache
 from pathlib import Path
-from typing import Any, Callable, Dict, Literal, Optional, Type, Union
+from typing import Any, Callable, Literal, Optional, Union
 
 import huggingface_hub
 from huggingface_hub import hf_hub_download
@@ -55,11 +55,11 @@ HF_TOKEN = os.getenv('HF_TOKEN', None)
 
 logger = init_logger(__name__)
 
-_CONFIG_REGISTRY_OVERRIDE_HF: Dict[str, Type[PretrainedConfig]] = {
+_CONFIG_REGISTRY_OVERRIDE_HF: dict[str, type[PretrainedConfig]] = {
     "mllama": MllamaConfig
 }
 
-_CONFIG_REGISTRY: Dict[str, Type[PretrainedConfig]] = {
+_CONFIG_REGISTRY: dict[str, type[PretrainedConfig]] = {
     "chatglm": ChatGLMConfig,
     "cohere2": Cohere2Config,
     "dbrx": DbrxConfig,
@@ -199,7 +199,7 @@ def patch_rope_scaling(config: PretrainedConfig) -> None:
         patch_rope_scaling_dict(rope_scaling)
 
 
-def patch_rope_scaling_dict(rope_scaling: Dict[str, Any]) -> None:
+def patch_rope_scaling_dict(rope_scaling: dict[str, Any]) -> None:
     if "rope_type" in rope_scaling and "type" in rope_scaling:
         rope_type = rope_scaling["rope_type"]
         rope_type_legacy = rope_scaling["type"]
@@ -748,7 +748,7 @@ def get_hf_image_processor_config(
     hf_token: Optional[Union[bool, str]] = None,
     revision: Optional[str] = None,
     **kwargs,
-) -> Dict[str, Any]:
+) -> dict[str, Any]:
     # ModelScope does not provide an interface for image_processor
     if VLLM_USE_MODELSCOPE:
         return dict()
diff --git a/vllm/transformers_utils/configs/arctic.py b/vllm/transformers_utils/configs/arctic.py
index 5ab70c0e4..2261f0a9e 100644
--- a/vllm/transformers_utils/configs/arctic.py
+++ b/vllm/transformers_utils/configs/arctic.py
@@ -8,7 +8,7 @@
 """ Arctic model configuration"""
 
 from dataclasses import asdict, dataclass
-from typing import Any, Dict
+from typing import Any
 
 from transformers.configuration_utils import PretrainedConfig
 from transformers.utils import logging
@@ -192,14 +192,14 @@ class ArcticConfig(PretrainedConfig):
         )
 
     @classmethod
-    def from_dict(cls, config_dict: Dict[str, Any], **kwargs) -> "ArcticConfig":
+    def from_dict(cls, config_dict: dict[str, Any], **kwargs) -> "ArcticConfig":
         result = super().from_dict(config_dict, **kwargs)
         config = result[0] if isinstance(result, tuple) else result
         if isinstance(config.quantization, dict):
             config.quantization = ArcticQuantizationConfig(**config.quantization)
         return result
 
-    def to_dict(self) -> Dict[str, Any]:
+    def to_dict(self) -> dict[str, Any]:
         ret = super().to_dict()
         if isinstance(ret["quantization"], ArcticQuantizationConfig):
             ret["quantization"] = asdict(ret["quantization"])
diff --git a/vllm/transformers_utils/configs/cohere2.py b/vllm/transformers_utils/configs/cohere2.py
index e30409b3a..21328d767 100644
--- a/vllm/transformers_utils/configs/cohere2.py
+++ b/vllm/transformers_utils/configs/cohere2.py
@@ -61,7 +61,7 @@ class Cohere2Config(PretrainedConfig):
             Whether to tie weight embeddings
         rope_theta (`float`, *optional*, defaults to 10000.0):
             The base period of the RoPE embeddings.
-        rope_scaling (`Dict`, *optional*):
+        rope_scaling (`dict`, *optional*):
             Dictionary containing the scaling configuration for the RoPE embeddings. NOTE: if you apply new rope type
             and you expect the model to work on longer `max_position_embeddings`, we recommend you to update this value
             accordingly.
@@ -86,11 +86,11 @@ class Cohere2Config(PretrainedConfig):
                 `beta_slow` (`float`, *optional*):
                     Only used with 'yarn'. Parameter to set the boundary for interpolation (only) in the linear
                     ramp function. If unspecified, it defaults to 1.
-                `short_factor` (`List[float]`, *optional*):
+                `short_factor` (`list[float]`, *optional*):
                     Only used with 'longrope'. The scaling factor to be applied to short contexts (<
                     `original_max_position_embeddings`). Must be a list of numbers with the same length as the hidden
                     size divided by the number of attention heads divided by 2
-                `long_factor` (`List[float]`, *optional*):
+                `long_factor` (`list[float]`, *optional*):
                     Only used with 'longrope'. The scaling factor to be applied to long contexts (<
                     `original_max_position_embeddings`). Must be a list of numbers with the same length as the hidden
                     size divided by the number of attention heads divided by 2
diff --git a/vllm/transformers_utils/configs/deepseek_vl2.py b/vllm/transformers_utils/configs/deepseek_vl2.py
index 24d4052d8..a54486fa4 100644
--- a/vllm/transformers_utils/configs/deepseek_vl2.py
+++ b/vllm/transformers_utils/configs/deepseek_vl2.py
@@ -1,7 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
 # adapted from https://github.com/deepseek-ai/DeepSeek-VL2/blob/faf18023f24b962b32d9f0a2d89e402a8d383a78/deepseek_vl2/models/modeling_deepseek_vl_v2.py#L115-L268
-from typing import Tuple
 
 from transformers.configuration_utils import PretrainedConfig
 
@@ -191,12 +190,12 @@ class DeepseekVLV2Config(PretrainedConfig):
 
     tile_tag: str = "2D"
     global_view_pos: str = "head"
-    candidate_resolutions: Tuple[Tuple[int, int]] = ((384, 384), )
+    candidate_resolutions: tuple[tuple[int, int]] = ((384, 384), )
 
     def __init__(self,
                  tile_tag: str = "tile_tag",
                  global_view_pos: str = "head",
-                 candidate_resolutions: Tuple[Tuple[int,
+                 candidate_resolutions: tuple[tuple[int,
                                                     int]] = ((384, 384), ),
                  **kwargs):
         super().__init__(**kwargs)
diff --git a/vllm/transformers_utils/configs/exaone.py b/vllm/transformers_utils/configs/exaone.py
index 818160419..25bafbb85 100644
--- a/vllm/transformers_utils/configs/exaone.py
+++ b/vllm/transformers_utils/configs/exaone.py
@@ -17,14 +17,12 @@
 # limitations under the License.
 """Exaone model configuration"""
 
-from typing import Dict
-
 from transformers.configuration_utils import PretrainedConfig
 from transformers.utils import logging
 
 logger = logging.get_logger(__name__)
 
-EXAONE_PRETRAINED_CONFIG_ARCHIVE_MAP: Dict[str, str] = {}
+EXAONE_PRETRAINED_CONFIG_ARCHIVE_MAP: dict[str, str] = {}
 
 
 class ExaoneConfig(PretrainedConfig):
diff --git a/vllm/transformers_utils/configs/jais.py b/vllm/transformers_utils/configs/jais.py
index be0f3b7e5..b947c6a9e 100644
--- a/vllm/transformers_utils/configs/jais.py
+++ b/vllm/transformers_utils/configs/jais.py
@@ -98,7 +98,7 @@ class JAISConfig(PretrainedConfig):
             Scale attention weights by dividing by hidden_size instead of
             sqrt(hidden_size). Need to set scale_attn_weights to `True` as
             well.
-        alibi_scaling (`Dict`, *optional*):
+        alibi_scaling (`dict`, *optional*):
             Dictionary containing the scaling configuration for ALiBi
             embeddings. Currently only supports linear
             scaling strategy. Can specify either the scaling `factor` (must be
@@ -108,7 +108,7 @@ class JAISConfig(PretrainedConfig):
             formats are `{"type": strategy name, "factor": scaling factor}` or
             `{"type": strategy name,
             "train_seq_len": training sequence length}`.
-        architectures (`List`, *optional*, defaults to ['JAISLMHeadModel']):
+        architectures (`list`, *optional*, defaults to ['JAISLMHeadModel']):
             architecture names for Jais.
 
     Example:
diff --git a/vllm/transformers_utils/configs/mlp_speculator.py b/vllm/transformers_utils/configs/mlp_speculator.py
index c761f659e..70f607529 100644
--- a/vllm/transformers_utils/configs/mlp_speculator.py
+++ b/vllm/transformers_utils/configs/mlp_speculator.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import List, Optional
+from typing import Optional
 
 from transformers import PretrainedConfig
 
@@ -17,7 +17,7 @@ class MLPSpeculatorConfig(PretrainedConfig):
                  emb_dim: int = 4096,
                  inner_dim: int = 0,
                  n_predict: int = 3,
-                 top_k_tokens_per_head: Optional[List[int]] = None,
+                 top_k_tokens_per_head: Optional[list[int]] = None,
                  n_candidates: int = 5,
                  tie_weights: bool = False,
                  scale_input: bool = False,
@@ -34,7 +34,7 @@ class MLPSpeculatorConfig(PretrainedConfig):
                 the inner dimension of the model. If 0, will be the emb_dim.
             n_predict: int
                 the number of lookaheads for the speculator
-            top_k_tokens_per_head: List[int]
+            top_k_tokens_per_head: list[int]
                 Number of tokens to consider from each head when forming the
                 candidate tree.
                 For each candidate branch in the tree, head n produces topk[n]
diff --git a/vllm/transformers_utils/configs/mpt.py b/vllm/transformers_utils/configs/mpt.py
index 96356135f..2d52658d3 100644
--- a/vllm/transformers_utils/configs/mpt.py
+++ b/vllm/transformers_utils/configs/mpt.py
@@ -4,11 +4,11 @@
 # https://huggingface.co/mosaicml/mpt-7b/blob/main/configuration_mpt.py
 """A HuggingFace-style model configuration."""
 import warnings
-from typing import Any, Dict, Optional, Union
+from typing import Any, Optional, Union
 
 from transformers import PretrainedConfig
 
-attn_config_defaults: Dict = {
+attn_config_defaults: dict = {
     'attn_type': 'multihead_attention',
     'attn_pdrop': 0.0,
     'attn_impl': 'triton',
@@ -20,8 +20,8 @@ attn_config_defaults: Dict = {
     'alibi': False,
     'alibi_bias_max': 8
 }
-ffn_config_defaults: Dict = {'ffn_type': 'mptmlp'}
-init_config_defaults: Dict = {
+ffn_config_defaults: dict = {'ffn_type': 'mptmlp'}
+init_config_defaults: dict = {
     'name': 'kaiming_normal_',
     'fan_mode': 'fan_in',
     'init_nonlinearity': 'relu',
@@ -52,15 +52,15 @@ class MPTConfig(PretrainedConfig):
                  resid_pdrop: float = 0.0,
                  emb_pdrop: float = 0.0,
                  learned_pos_emb: bool = True,
-                 attn_config: Dict = attn_config_defaults,
-                 ffn_config: Dict = ffn_config_defaults,
+                 attn_config: dict = attn_config_defaults,
+                 ffn_config: dict = ffn_config_defaults,
                  init_device: str = 'cpu',
                  logit_scale: Optional[Union[float, str]] = None,
                  no_bias: bool = False,
                  embedding_fraction: float = 1.0,
                  norm_type: str = 'low_precision_layernorm',
                  use_cache: bool = False,
-                 init_config: Dict = init_config_defaults,
+                 init_config: dict = init_config_defaults,
                  fc_type: str = 'torch',
                  verbose: Optional[int] = None,
                  **kwargs: Any):
@@ -102,8 +102,8 @@ class MPTConfig(PretrainedConfig):
         self._validate_config()
 
     def _set_config_defaults(
-            self, config: Dict[str, Any],
-            config_defaults: Dict[str, Any]) -> Dict[str, Any]:
+            self, config: dict[str, Any],
+            config_defaults: dict[str, Any]) -> dict[str, Any]:
         for (k, v) in config_defaults.items():
             if k not in config:
                 config[k] = v
diff --git a/vllm/transformers_utils/configs/solar.py b/vllm/transformers_utils/configs/solar.py
index 0d5db896b..6eaf699d1 100644
--- a/vllm/transformers_utils/configs/solar.py
+++ b/vllm/transformers_utils/configs/solar.py
@@ -108,7 +108,7 @@ class SolarConfig(PretrainedConfig):
             Whether to tie weight embeddings
         rope_theta (`float`, *optional*, defaults to 10000.0):
             The base period of the RoPE embeddings.
-        rope_scaling (`Dict`, *optional*):
+        rope_scaling (`dict`, *optional*):
             Dictionary containing the scaling configuration for
             the RoPE embeddings.
             Currently supports two scaling
diff --git a/vllm/transformers_utils/configs/ultravox.py b/vllm/transformers_utils/configs/ultravox.py
index 6b2765db9..4c5072427 100644
--- a/vllm/transformers_utils/configs/ultravox.py
+++ b/vllm/transformers_utils/configs/ultravox.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 # Adapted from https://github.com/fixie-ai/ultravox/blob/ecd58c4041030bae2ad15aa6bcf04ab43199ea02/ultravox/model/ultravox_config.py
-from typing import Any, Dict, Optional
+from typing import Any, Optional
 
 import transformers
 
@@ -48,8 +48,8 @@ class UltravoxConfig(transformers.PretrainedConfig):
 
     def __init__(
         self,
-        audio_config: Optional[Dict[str, Any]] = None,
-        text_config: Optional[Dict[str, Any]] = None,
+        audio_config: Optional[dict[str, Any]] = None,
+        text_config: Optional[dict[str, Any]] = None,
         audio_model_id: Optional[str] = None,
         text_model_id: Optional[str] = None,
         ignore_index: int = -100,
@@ -58,8 +58,8 @@ class UltravoxConfig(transformers.PretrainedConfig):
         stack_factor: int = 8,
         norm_init: float = 0.4,
         projector_act: str = "swiglu",
-        text_model_lora_config: Optional[Dict[str, Any]] = None,
-        audio_model_lora_config: Optional[Dict[str, Any]] = None,
+        text_model_lora_config: Optional[dict[str, Any]] = None,
+        audio_model_lora_config: Optional[dict[str, Any]] = None,
         projector_ln_mid: bool = False,
         **kwargs,
     ):
diff --git a/vllm/transformers_utils/detokenizer.py b/vllm/transformers_utils/detokenizer.py
index 991d5631e..3adf2e32c 100644
--- a/vllm/transformers_utils/detokenizer.py
+++ b/vllm/transformers_utils/detokenizer.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Dict, List, Optional
+from typing import Optional
 
 from vllm.sequence import (VLLM_INVALID_TOKEN_ID, Logprob, SamplingParams,
                            Sequence, SequenceGroup)
@@ -22,7 +22,7 @@ class Detokenizer:
         return self.tokenizer_group.get_lora_tokenizer(sequence.lora_request)
 
     def decode_prompt_logprobs_inplace(self, seq_group: SequenceGroup,
-                                       prompt_logprobs: List[Optional[Dict[
+                                       prompt_logprobs: list[Optional[dict[
                                            int, Logprob]]],
                                        position_offset: int) -> None:
         """Decodes the logprobs for the prompt of a sequence group.
@@ -49,7 +49,7 @@ class Detokenizer:
         read_offset = 0
         next_iter_prefix_offset = 0
         next_iter_read_offset = 0
-        next_iter_tokens: List[str] = []
+        next_iter_tokens: list[str] = []
         prev_tokens = None
 
         for token_position_in_logprob, prompt_logprobs_for_token in enumerate(
diff --git a/vllm/transformers_utils/detokenizer_utils.py b/vllm/transformers_utils/detokenizer_utils.py
index a1fa27773..7373fa0ed 100644
--- a/vllm/transformers_utils/detokenizer_utils.py
+++ b/vllm/transformers_utils/detokenizer_utils.py
@@ -1,11 +1,11 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import List, Optional, Tuple
+from typing import Optional
 
 from .tokenizer import AnyTokenizer
 
 
-def _replace_none_with_empty(tokens: List[Optional[str]]):
+def _replace_none_with_empty(tokens: list[Optional[str]]):
     for i, token in enumerate(tokens):
         if token is None:
             tokens[i] = ""
@@ -13,7 +13,7 @@ def _replace_none_with_empty(tokens: List[Optional[str]]):
 
 def _convert_tokens_to_string_with_added_encoders(
     tokenizer: AnyTokenizer,
-    output_tokens: List[str],
+    output_tokens: list[str],
     skip_special_tokens: bool,
     spaces_between_special_tokens: bool,
 ) -> str:
@@ -22,8 +22,8 @@ def _convert_tokens_to_string_with_added_encoders(
     # NOTE(woosuk): The following code is slow because it runs a for loop over
     # the output_tokens. In Python, running a for loop over a list can be slow
     # even when the loop body is very simple.
-    sub_texts: List[str] = []
-    current_sub_text: List[str] = []
+    sub_texts: list[str] = []
+    current_sub_text: list[str] = []
     all_special_tokens = set(tokenizer.all_special_tokens)
     for token in output_tokens:
         if skip_special_tokens and token in all_special_tokens:
@@ -52,9 +52,9 @@ INITIAL_INCREMENTAL_DETOKENIZATION_OFFSET = 5
 
 def convert_prompt_ids_to_tokens(
     tokenizer: AnyTokenizer,
-    prompt_ids: List[int],
+    prompt_ids: list[int],
     skip_special_tokens: bool = False,
-) -> Tuple[List[str], int, int]:
+) -> tuple[list[str], int, int]:
     """Converts the prompt ids to tokens and returns the tokens and offsets
     for incremental detokenization.
 
@@ -76,8 +76,8 @@ def convert_prompt_ids_to_tokens(
 
 def convert_ids_list_to_tokens(
     tokenizer: AnyTokenizer,
-    token_ids: List[int],
-) -> List[str]:
+    token_ids: list[int],
+) -> list[str]:
     """Detokenize the input ids individually.
 
     Args:
@@ -98,13 +98,13 @@ def convert_ids_list_to_tokens(
 # under Apache 2.0 license
 def detokenize_incrementally(
     tokenizer: AnyTokenizer,
-    all_input_ids: List[int],
-    prev_tokens: Optional[List[str]],
+    all_input_ids: list[int],
+    prev_tokens: Optional[list[str]],
     prefix_offset: int,
     read_offset: int,
     skip_special_tokens: bool = False,
     spaces_between_special_tokens: bool = True,
-) -> Tuple[List[str], str, int, int]:
+) -> tuple[list[str], str, int, int]:
     """Detokenizes the input ids incrementally and returns the new tokens
     and the new text.
 
diff --git a/vllm/transformers_utils/processors/deepseek_vl2.py b/vllm/transformers_utils/processors/deepseek_vl2.py
index 316281f2a..df960e9c7 100644
--- a/vllm/transformers_utils/processors/deepseek_vl2.py
+++ b/vllm/transformers_utils/processors/deepseek_vl2.py
@@ -24,7 +24,6 @@
 # CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
 
 import math
-from typing import List, Tuple
 
 import torch
 import torchvision.transforms as T
@@ -36,8 +35,8 @@ from transformers.processing_utils import ProcessorMixin
 class ImageTransform:
 
     def __init__(self,
-                 mean: Tuple[float, float, float] = (0.5, 0.5, 0.5),
-                 std: Tuple[float, float, float] = (0.5, 0.5, 0.5),
+                 mean: tuple[float, float, float] = (0.5, 0.5, 0.5),
+                 std: tuple[float, float, float] = (0.5, 0.5, 0.5),
                  normalize: bool = True):
         self.mean = mean
         self.std = std
@@ -62,11 +61,11 @@ class DeepseekVLV2Processor(ProcessorMixin):
     def __init__(
         self,
         tokenizer: LlamaTokenizerFast,
-        candidate_resolutions: Tuple[Tuple[int, int]],
+        candidate_resolutions: tuple[tuple[int, int]],
         patch_size: int,
         downsample_ratio: int,
-        image_mean: Tuple[float, float, float] = (0.5, 0.5, 0.5),
-        image_std: Tuple[float, float, float] = (0.5, 0.5, 0.5),
+        image_mean: tuple[float, float, float] = (0.5, 0.5, 0.5),
+        image_std: tuple[float, float, float] = (0.5, 0.5, 0.5),
         normalize: bool = True,
         image_token: str = "<image>",
         pad_token: str = "<｜▁pad▁｜>",
@@ -170,13 +169,13 @@ class DeepseekVLV2Processor(ProcessorMixin):
 
         return t
 
-    def decode(self, t: List[int], **kwargs) -> str:
+    def decode(self, t: list[int], **kwargs) -> str:
         return self.tokenizer.decode(t, **kwargs)
 
     def process_one(
         self,
         prompt: str,
-        images: List[Image.Image],
+        images: list[Image.Image],
         inference_mode: bool = True,
         **kwargs,
     ):
@@ -184,8 +183,8 @@ class DeepseekVLV2Processor(ProcessorMixin):
 
         Args:
             prompt (str): the formatted prompt;
-            conversations (List[Dict]): conversations with a list of messages;
-            images (List[ImageType]): the list of images;
+            conversations (list[dict]): conversations with a list of messages;
+            images (list[ImageType]): the list of images;
             inference_mode (bool): if True, then remove the last eos token;
             system_prompt (str): the system prompt;
             **kwargs:
@@ -196,7 +195,7 @@ class DeepseekVLV2Processor(ProcessorMixin):
                 - target_ids (torch.LongTensor): [N + image tokens]
                 - pixel_values (torch.FloatTensor): [n_patches, 3, H, W]
                 - image_id (int): the id of the image token
-                - num_image_tokens (List[int]): the number of image tokens
+                - num_image_tokens (list[int]): the number of image tokens
         """
 
         assert (prompt is not None and images is not None
@@ -257,7 +256,7 @@ class DeepseekVLV2Processor(ProcessorMixin):
         self,
         *,
         prompt: str,
-        images: List[Image.Image],
+        images: list[Image.Image],
         inference_mode: bool = True,
         **kwargs,
     ):
@@ -265,7 +264,7 @@ class DeepseekVLV2Processor(ProcessorMixin):
 
         Args:
             prompt (str): the formatted prompt;
-            images (List[ImageType]): the list of images;
+            images (list[ImageType]): the list of images;
             inference_mode (bool): if True, then remove the last eos token;
             **kwargs:
 
@@ -274,7 +273,7 @@ class DeepseekVLV2Processor(ProcessorMixin):
                 - input_ids (torch.LongTensor): [N + image tokens]
                 - images (torch.FloatTensor): [n_images, 3, H, W]
                 - image_id (int): the id of the image token
-                - num_image_tokens (List[int]): the number of image tokens
+                - num_image_tokens (list[int]): the number of image tokens
         """
 
         prepare = self.process_one(
@@ -288,7 +287,7 @@ class DeepseekVLV2Processor(ProcessorMixin):
     def tokenize_with_images(
         self,
         conversation: str,
-        images: List[Image.Image],
+        images: list[Image.Image],
         bos: bool = True,
         eos: bool = True,
         cropping: bool = True,
diff --git a/vllm/transformers_utils/processors/ovis.py b/vllm/transformers_utils/processors/ovis.py
index 48e786792..a35d32999 100644
--- a/vllm/transformers_utils/processors/ovis.py
+++ b/vllm/transformers_utils/processors/ovis.py
@@ -23,7 +23,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 from functools import cached_property
-from typing import List, Union
+from typing import Union
 
 import PIL
 import torch
@@ -102,7 +102,7 @@ class OvisProcessor(ProcessorMixin):
     def __call__(
         self,
         images: ImageInput = None,
-        text: Union[TextInput, PreTokenizedInput, List[TextInput], List[PreTokenizedInput]] = None,
+        text: Union[TextInput, PreTokenizedInput, list[TextInput], list[PreTokenizedInput]] = None,
         **kwargs: Unpack[OvisProcessorKwargs],
     ) -> BatchFeature:
         """
@@ -111,14 +111,14 @@ class OvisProcessor(ProcessorMixin):
         the text. To prepare the vision inputs, this method forwards the `vision_infos` and `kwrags` arguments to
         Qwen2VLImageProcessor's [`~Qwen2VLImageProcessor.__call__`] if `vision_infos` is not `None`.
             Args:
-                images (`PIL.Image.Image`, `np.ndarray`, `torch.Tensor`, `List[PIL.Image.Image]`, `List[np.ndarray]`, `List[torch.Tensor]`):
+                images (`PIL.Image.Image`, `np.ndarray`, `torch.Tensor`, `list[PIL.Image.Image]`, `list[np.ndarray]`, `list[torch.Tensor]`):
                     The image or batch of images to be prepared. Each image can be a PIL image, NumPy array or PyTorch
                     tensor. Both channels-first and channels-last formats are supported.
-                text (`str`, `List[str]`, `List[List[str]]`):
+                text (`str`, `list[str]`, `list[list[str]]`):
                     The sequence or batch of sequences to be encoded. Each sequence can be a string or a list of strings
                     (pretokenized string). If the sequences are provided as list of strings (pretokenized), you must set
                     `is_split_into_words=True` (to lift the ambiguity with a batch of sequences).
-                videos (`np.ndarray`, `torch.Tensor`, `List[np.ndarray]`, `List[torch.Tensor]`):
+                videos (`np.ndarray`, `torch.Tensor`, `list[np.ndarray]`, `list[torch.Tensor]`):
                     The image or batch of videos to be prepared. Each video can be a 4D NumPy array or PyTorch
                     tensor, or a nested list of 3D frames. Both channels-first and channels-last formats are supported.
                 return_tensors (`str` or [`~utils.TensorType`], *optional*):
@@ -400,7 +400,7 @@ class OvisProcessor(ProcessorMixin):
                 The output of the model `generate` function. The output is expected to be a tensor of shape `(batch_size, sequence_length)`
                 or `(sequence_length,)`.
         Returns:
-            `List[str]`: The decoded text.
+            `list[str]`: The decoded text.
         """
         return self.tokenizer.batch_decode(
             generated_outputs, skip_special_tokens=True, clean_up_tokenization_spaces=False
diff --git a/vllm/transformers_utils/tokenizer_group.py b/vllm/transformers_utils/tokenizer_group.py
index aff2d2eb1..8b9e4881e 100644
--- a/vllm/transformers_utils/tokenizer_group.py
+++ b/vllm/transformers_utils/tokenizer_group.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import List, Optional
+from typing import Optional
 
 from vllm.config import LoRAConfig, ModelConfig, SchedulerConfig
 from vllm.lora.request import LoRARequest
@@ -32,7 +32,7 @@ class TokenizerGroup:
         return self.max_input_length
 
     def _raise_if_input_too_long(self,
-                                 encoded_tokens: List[int],
+                                 encoded_tokens: list[int],
                                  lora_request: Optional[LoRARequest] = None):
         input_length = len(encoded_tokens)
         if lora_request:
@@ -48,7 +48,7 @@ class TokenizerGroup:
                max_length: Optional[int] = None,
                truncation: Optional[bool] = None,
                lora_request: Optional[LoRARequest] = None,
-               add_special_tokens: Optional[bool] = None) -> List[int]:
+               add_special_tokens: Optional[bool] = None) -> list[int]:
 
         tokenizer = self.get_lora_tokenizer(lora_request)
         ret = encode_tokens(tokenizer,
@@ -65,7 +65,7 @@ class TokenizerGroup:
             max_length: Optional[int] = None,
             truncation: Optional[bool] = None,
             lora_request: Optional[LoRARequest] = None,
-            add_special_tokens: Optional[bool] = None) -> List[int]:
+            add_special_tokens: Optional[bool] = None) -> list[int]:
         tokenizer = await self.get_lora_tokenizer_async(lora_request)
         ret = encode_tokens(tokenizer,
                             prompt,
diff --git a/vllm/transformers_utils/tokenizers/mistral.py b/vllm/transformers_utils/tokenizers/mistral.py
index 3db7a0a5c..551c2d55b 100644
--- a/vllm/transformers_utils/tokenizers/mistral.py
+++ b/vllm/transformers_utils/tokenizers/mistral.py
@@ -4,7 +4,7 @@ import os
 import re
 from dataclasses import dataclass
 from pathlib import Path
-from typing import TYPE_CHECKING, Any, Dict, List, Optional, Union, cast
+from typing import TYPE_CHECKING, Any, Optional, Union, cast
 
 import huggingface_hub
 from huggingface_hub import HfApi, hf_hub_download
@@ -28,7 +28,7 @@ logger = init_logger(__name__)
 
 @dataclass
 class Encoding:
-    input_ids: Union[List[int], List[List[int]]]
+    input_ids: Union[list[int], list[list[int]]]
 
 
 def maybe_serialize_tool_calls(request: "ChatCompletionRequest"):
@@ -105,7 +105,7 @@ def validate_request_params(request: "ChatCompletionRequest"):
                          "for Mistral tokenizers.")
 
 
-def list_local_repo_files(repo_id: str, revision: Optional[str]) -> List[str]:
+def list_local_repo_files(repo_id: str, revision: Optional[str]) -> list[str]:
     repo_cache = os.path.join(
         huggingface_hub.constants.HF_HUB_CACHE,
         huggingface_hub.constants.REPO_ID_SEPARATOR.join(
@@ -125,7 +125,7 @@ def list_local_repo_files(repo_id: str, revision: Optional[str]) -> List[str]:
     return []
 
 
-def find_tokenizer_file(files: List[str]):
+def find_tokenizer_file(files: list[str]):
     file_pattern = re.compile(
         r"^tokenizer\.model\.v.*$|^tekken\.json$|^tokenizer\.mm\.model\.v.*$")
 
@@ -145,10 +145,10 @@ def find_tokenizer_file(files: List[str]):
 
 
 def make_mistral_chat_completion_request(
-        messages: List["ChatCompletionMessageParam"],
-        tools: Optional[List[Dict[str,
+        messages: list["ChatCompletionMessageParam"],
+        tools: Optional[list[dict[str,
                                   Any]]] = None) -> "ChatCompletionRequest":
-    last_message = cast(Dict[str, Any], messages[-1])
+    last_message = cast(dict[str, Any], messages[-1])
     if last_message["role"] == "assistant":
         last_message["prefix"] = True
 
@@ -199,7 +199,7 @@ class MistralTokenizer(TokenizerBase):
             raise TypeError(f"Unsupported tokenizer: {type(tokenizer_)}")
 
         self._vocab = tokenizer_.vocab()
-        # Convert to a Dict[str, int] to match protocol, but this is a lossy
+        # Convert to a dict[str, int] to match protocol, but this is a lossy
         # conversion. There may be multiple token ids that decode to the same
         # string due to partial UTF-8 byte sequences being converted to �
         self._vocab_dict = {
@@ -314,21 +314,21 @@ class MistralTokenizer(TokenizerBase):
 
     def __call__(
         self,
-        text: Union[str, List[str], List[int]],
+        text: Union[str, list[str], list[int]],
         text_pair: Optional[str] = None,
         add_special_tokens: bool = False,
         truncation: bool = False,
         max_length: Optional[int] = None,
     ):
-        input_ids: Union[List[int], List[List[int]]]
-        # For List[str], original prompt text
+        input_ids: Union[list[int], list[list[int]]]
+        # For list[str], original prompt text
         if is_list_of(text, str):
-            input_ids_: List[List[int]] = []
+            input_ids_: list[list[int]] = []
             for p in text:
                 each_input_ids = self.encode_one(p, truncation, max_length)
                 input_ids_.append(each_input_ids)
             input_ids = input_ids_
-        # For List[int], apply chat template output, already tokens.
+        # For list[int], apply chat template output, already tokens.
         elif is_list_of(text, int):
             input_ids = text
         # For str, single prompt text
@@ -350,7 +350,7 @@ class MistralTokenizer(TokenizerBase):
         text: str,
         truncation: bool = False,
         max_length: Optional[int] = None,
-    ) -> List[int]:
+    ) -> list[int]:
         # Mistral Tokenizers should not add special tokens
         input_ids = self.encode(text)
 
@@ -362,7 +362,7 @@ class MistralTokenizer(TokenizerBase):
                text: str,
                truncation: Optional[bool] = None,
                max_length: Optional[int] = None,
-               add_special_tokens: Optional[bool] = None) -> List[int]:
+               add_special_tokens: Optional[bool] = None) -> list[int]:
         # `encode` should only be used for prompt completion
         # it should never be used for chat_completion.
         # For chat completion use `apply_chat_template`
@@ -374,9 +374,9 @@ class MistralTokenizer(TokenizerBase):
             return self.tokenizer.encode(text, bos=True, eos=False)
 
     def apply_chat_template(self,
-                            messages: List["ChatCompletionMessageParam"],
-                            tools: Optional[List[Dict[str, Any]]] = None,
-                            **kwargs) -> List[int]:
+                            messages: list["ChatCompletionMessageParam"],
+                            tools: Optional[list[dict[str, Any]]] = None,
+                            **kwargs) -> list[int]:
 
         request = make_mistral_chat_completion_request(messages, tools)
         encoded = self.mistral.encode_chat_completion(request)
@@ -384,7 +384,7 @@ class MistralTokenizer(TokenizerBase):
         # encode-decode to get clean prompt
         return encoded.tokens
 
-    def convert_tokens_to_string(self, tokens: List[str]) -> str:
+    def convert_tokens_to_string(self, tokens: list[str]) -> str:
         from mistral_common.tokens.tokenizers.base import SpecialTokens
         if self.is_tekken:
             tokens = [
@@ -417,7 +417,7 @@ class MistralTokenizer(TokenizerBase):
             # make sure certain special tokens like Tool calls are
             # not decoded
             special_tokens = {SpecialTokens.tool_calls}
-            regular_tokens: List[str] = []
+            regular_tokens: list[str] = []
             decoded_list = []
 
             for token in tokens:
@@ -442,7 +442,7 @@ class MistralTokenizer(TokenizerBase):
     # See: guided_decoding/outlines_logits_processors.py::_adapt_tokenizer
     # for more.
     def decode(self,
-               ids: Union[List[int], int],
+               ids: Union[list[int], int],
                skip_special_tokens: bool = True) -> str:
         assert (
             skip_special_tokens
@@ -454,9 +454,9 @@ class MistralTokenizer(TokenizerBase):
 
     def convert_ids_to_tokens(
         self,
-        ids: List[int],
+        ids: list[int],
         skip_special_tokens: bool = True,
-    ) -> List[str]:
+    ) -> list[str]:
         from mistral_common.tokens.tokenizers.base import SpecialTokens
 
         # TODO(Patrick) - potentially allow special tokens to not be skipped
diff --git a/vllm/transformers_utils/utils.py b/vllm/transformers_utils/utils.py
index 81eb4d9b6..8dff1b612 100644
--- a/vllm/transformers_utils/utils.py
+++ b/vllm/transformers_utils/utils.py
@@ -4,7 +4,7 @@ import json
 from functools import cache
 from os import PathLike
 from pathlib import Path
-from typing import List, Optional, Union
+from typing import Optional, Union
 
 from vllm.envs import VLLM_MODEL_REDIRECT_PATH
 from vllm.logger import init_logger
@@ -38,7 +38,7 @@ def modelscope_list_repo_files(
     repo_id: str,
     revision: Optional[str] = None,
     token: Union[str, bool, None] = None,
-) -> List[str]:
+) -> list[str]:
     """List files in a modelscope repo."""
     from modelscope.hub.api import HubApi
     api = HubApi()
-- 
GitLab


From 9944011b30378717a8238afa342bade3a0173dc4 Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Tue, 13 May 2025 08:46:58 -0400
Subject: [PATCH 330/461] [CI] Set token permissions for reminder comment CI
 job (#17728)

Co-authored-by: Copilot Autofix powered by AI <62310815+github-advanced-security[bot]@users.noreply.github.com>
---
 .github/workflows/reminder_comment.yml | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/.github/workflows/reminder_comment.yml b/.github/workflows/reminder_comment.yml
index 27318c2fd..b691c268c 100644
--- a/.github/workflows/reminder_comment.yml
+++ b/.github/workflows/reminder_comment.yml
@@ -1,4 +1,6 @@
 name: PR Reminder Comment Bot
+permissions:
+  issues: write
 on:
   pull_request_target:
     types: [opened]
-- 
GitLab


From 79a1d25bbd09420ad7d8631671a70cbcaf496cfb Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Tue, 13 May 2025 08:49:07 -0400
Subject: [PATCH 331/461] [CI] Add workflow permissions for helm CI job
 (#17727)

Signed-off-by: Russell Bryant <rbryant@redhat.com>
Co-authored-by: Copilot Autofix powered by AI <62310815+github-advanced-security[bot]@users.noreply.github.com>
---
 .github/workflows/lint-and-deploy.yaml | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/.github/workflows/lint-and-deploy.yaml b/.github/workflows/lint-and-deploy.yaml
index dd9b61a64..64011922a 100644
--- a/.github/workflows/lint-and-deploy.yaml
+++ b/.github/workflows/lint-and-deploy.yaml
@@ -2,6 +2,9 @@ name: Lint and Deploy Charts
 
 on: pull_request
 
+permissions:
+  contents: read
+
 jobs:
   lint-and-deploy:
     runs-on: ubuntu-latest
-- 
GitLab


From 54e467e6f8099a0d417c6880b43d188c8a49ee96 Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Tue, 13 May 2025 09:38:13 -0400
Subject: [PATCH 332/461] [CI] Add token permissions for add-ready-label CI job
 (#17730)

Co-authored-by: Copilot Autofix powered by AI <62310815+github-advanced-security[bot]@users.noreply.github.com>
---
 .github/workflows/add_label_automerge.yml | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/.github/workflows/add_label_automerge.yml b/.github/workflows/add_label_automerge.yml
index c9d6d4259..69c89f695 100644
--- a/.github/workflows/add_label_automerge.yml
+++ b/.github/workflows/add_label_automerge.yml
@@ -1,4 +1,6 @@
 name: Add label on auto-merge enabled
+permissions:
+    issues: write
 on:
     pull_request_target:
         types:
-- 
GitLab


From 00b14e0f16927fe94e4ee68ffaf9c4857c9e400e Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Tue, 13 May 2025 09:38:30 -0400
Subject: [PATCH 333/461] [CI] set token permissions for pre-commit CI job
 (#17729)

Co-authored-by: Copilot Autofix powered by AI <62310815+github-advanced-security[bot]@users.noreply.github.com>
---
 .github/workflows/pre-commit.yml | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/.github/workflows/pre-commit.yml b/.github/workflows/pre-commit.yml
index 6ab63a402..8e694d181 100644
--- a/.github/workflows/pre-commit.yml
+++ b/.github/workflows/pre-commit.yml
@@ -5,6 +5,9 @@ on:
   push:
     branches: [main]
 
+permissions:
+  contents: read
+
 jobs:
   pre-commit:
     runs-on: ubuntu-latest
-- 
GitLab


From b922c2ebd27159a5f6247aa557ed5fc12d864660 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Tue, 13 May 2025 21:42:43 +0800
Subject: [PATCH 334/461] [Bugfix] Fix entrypoints metrics tests (#18063)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 vllm/entrypoints/openai/api_server.py | 8 ++++----
 vllm/v1/engine/core.py                | 2 +-
 2 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index e809579c2..a954a9ff9 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -150,10 +150,6 @@ async def build_async_engine_client(
 
     async with build_async_engine_client_from_engine_args(
             engine_args, args.disable_frontend_multiprocessing) as engine:
-
-        # Don't keep the dummy data in memory
-        await engine.reset_mm_cache()
-
         yield engine
 
 
@@ -189,6 +185,10 @@ async def build_async_engine_client_from_engine_args(
                 usage_context=usage_context,
                 disable_log_requests=engine_args.disable_log_requests,
                 disable_log_stats=engine_args.disable_log_stats)
+
+            # Don't keep the dummy data in memory
+            await async_llm.reset_mm_cache()
+
             yield async_llm
         finally:
             if async_llm:
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index 5a493db8a..bc410befb 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -289,7 +289,7 @@ class EngineCore:
     def reset_mm_cache(self):
         # NOTE: Since this is mainly for debugging, we don't attempt to
         # re-sync the internal caches (P0 processor, P0 mirror, P1 mirror)
-        if self.scheduler.get_num_unfinished_requests():
+        if self.scheduler.has_unfinished_requests():
             logger.warning("Resetting the multi-modal cache when requests are "
                            "in progress may lead to desynced internal caches.")
 
-- 
GitLab


From 009d9e759070422b3f3bbc1cd7d77b5882f905ad Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 13 May 2025 14:43:29 +0100
Subject: [PATCH 335/461] Convert `benchmarks` to `ruff format` (#18068)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .buildkite/pyproject.toml                     |   4 -
 .pre-commit-config.yaml                       |   4 +-
 benchmarks/backend_request_func.py            | 189 +++--
 benchmarks/benchmark_dataset.py               | 355 +++++-----
 benchmarks/benchmark_latency.py               |  75 +-
 .../benchmark_long_document_qa_throughput.py  |  91 +--
 benchmarks/benchmark_prefix_caching.py        | 116 ++--
 benchmarks/benchmark_prioritization.py        | 122 ++--
 benchmarks/benchmark_serving.py               | 585 +++++++++-------
 .../benchmark_serving_structured_output.py    | 489 +++++++------
 benchmarks/benchmark_throughput.py            | 437 +++++++-----
 benchmarks/benchmark_utils.py                 |  15 +-
 .../cutlass_benchmarks/sparse_benchmarks.py   | 372 ++++++----
 benchmarks/cutlass_benchmarks/utils.py        |  33 +-
 .../cutlass_benchmarks/w8a8_benchmarks.py     | 274 ++++----
 .../cutlass_benchmarks/weight_shapes.py       |   2 +-
 .../disagg_prefill_proxy_server.py            |  27 +-
 .../disagg_benchmarks/round_robin_proxy.py    |  20 +-
 .../visualize_benchmark_results.py            |  44 +-
 .../fused_kernels/layernorm_rms_benchmarks.py | 141 ++--
 benchmarks/kernels/benchmark_aqlm.py          | 196 +++---
 benchmarks/kernels/benchmark_bitblas.py       |  61 +-
 .../kernels/benchmark_cutlass_fp4_moe.py      | 417 ++++++-----
 .../kernels/benchmark_grouped_gemm_cutlass.py | 363 ++++++----
 benchmarks/kernels/benchmark_layernorm.py     |  60 +-
 benchmarks/kernels/benchmark_lora.py          | 653 ++++++++++--------
 benchmarks/kernels/benchmark_machete.py       | 369 +++++-----
 benchmarks/kernels/benchmark_marlin.py        | 190 +++--
 benchmarks/kernels/benchmark_moe.py           | 402 ++++++-----
 .../benchmark_moe_permute_unpermute.py        | 253 ++++---
 .../kernels/benchmark_paged_attention.py      |  97 ++-
 benchmarks/kernels/benchmark_quant.py         |  71 +-
 benchmarks/kernels/benchmark_rmsnorm.py       |  57 +-
 benchmarks/kernels/benchmark_rope.py          |  83 ++-
 .../kernels/benchmark_w8a8_block_fp8.py       | 113 ++-
 .../benchmark_fp8_block_dense_gemm.py         |   4 +-
 benchmarks/kernels/graph_machete_bench.py     |  33 +-
 benchmarks/kernels/utils.py                   |  52 +-
 benchmarks/overheads/benchmark_hashing.py     |  36 +-
 benchmarks/pyproject.toml                     |  54 ++
 pyproject.toml                                |   5 +
 41 files changed, 4003 insertions(+), 2961 deletions(-)
 create mode 100644 benchmarks/pyproject.toml

diff --git a/.buildkite/pyproject.toml b/.buildkite/pyproject.toml
index 6ae0c2a39..083bb795c 100644
--- a/.buildkite/pyproject.toml
+++ b/.buildkite/pyproject.toml
@@ -1,13 +1,9 @@
 # This local pyproject file is part of the migration from yapf to ruff format.
 # It uses the same core rules as the main pyproject.toml file, but with the
 # following differences:
-# - isort profile is set to black
 # - ruff line length is overridden to 88
 # - deprecated typing ignores (UP006, UP035) have been removed
 
-[tool.isort]
-profile = "black"
-
 [tool.ruff]
 line-length = 88
 exclude = [
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
index 23f83db01..f5c0c368d 100644
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -17,7 +17,7 @@ repos:
   - id: ruff
     args: [--output-format, github, --fix]
   - id: ruff-format
-    files: ^(.buildkite).*
+    files: ^(.buildkite|benchmarks)/.*
 - repo: https://github.com/codespell-project/codespell
   rev: v2.4.1
   hooks:
@@ -28,8 +28,6 @@ repos:
   rev: 6.0.1
   hooks:
   - id: isort
-    # necessary during the transition from yapf to ruff format
-    args: [--resolve-all-configs, --config-root, .]
 - repo: https://github.com/pre-commit/mirrors-clang-format
   rev: v20.1.3
   hooks:
diff --git a/benchmarks/backend_request_func.py b/benchmarks/backend_request_func.py
index e6a67fda6..800d426c6 100644
--- a/benchmarks/backend_request_func.py
+++ b/benchmarks/backend_request_func.py
@@ -12,8 +12,7 @@ from typing import Optional, Union
 import aiohttp
 import huggingface_hub.constants
 from tqdm.asyncio import tqdm
-from transformers import (AutoTokenizer, PreTrainedTokenizer,
-                          PreTrainedTokenizerFast)
+from transformers import AutoTokenizer, PreTrainedTokenizer, PreTrainedTokenizerFast
 
 # NOTE(simon): do not import vLLM here so the benchmark script
 # can run without vLLM installed.
@@ -43,8 +42,7 @@ class RequestFuncOutput:
     latency: float = 0.0
     output_tokens: int = 0
     ttft: float = 0.0  # Time to first token
-    itl: list[float] = field(
-        default_factory=list)  # list of inter-token latencies
+    itl: list[float] = field(default_factory=list)  # list of inter-token latencies
     tpot: float = 0.0  # avg next-token latencies
     prompt_len: int = 0
     error: str = ""
@@ -57,8 +55,9 @@ async def async_request_tgi(
     api_url = request_func_input.api_url
     assert api_url.endswith("generate_stream")
 
-    async with aiohttp.ClientSession(trust_env=True,
-                                     timeout=AIOHTTP_TIMEOUT) as session:
+    async with aiohttp.ClientSession(
+        trust_env=True, timeout=AIOHTTP_TIMEOUT
+    ) as session:
         params = {
             "max_new_tokens": request_func_input.output_len,
             "do_sample": True,
@@ -105,8 +104,7 @@ async def async_request_tgi(
 
                         # Decoding phase
                         else:
-                            output.itl.append(timestamp -
-                                              most_recent_timestamp)
+                            output.itl.append(timestamp - most_recent_timestamp)
 
                         most_recent_timestamp = timestamp
 
@@ -133,8 +131,9 @@ async def async_request_trt_llm(
     api_url = request_func_input.api_url
     assert api_url.endswith("generate_stream")
 
-    async with aiohttp.ClientSession(trust_env=True,
-                                     timeout=AIOHTTP_TIMEOUT) as session:
+    async with aiohttp.ClientSession(
+        trust_env=True, timeout=AIOHTTP_TIMEOUT
+    ) as session:
         payload = {
             "accumulate_tokens": True,
             "text_input": request_func_input.prompt,
@@ -159,8 +158,7 @@ async def async_request_trt_llm(
                         if not chunk_bytes:
                             continue
 
-                        chunk = chunk_bytes.decode("utf-8").removeprefix(
-                            "data:")
+                        chunk = chunk_bytes.decode("utf-8").removeprefix("data:")
 
                         data = json.loads(chunk)
                         output.generated_text += data["text_output"]
@@ -172,8 +170,7 @@ async def async_request_trt_llm(
 
                         # Decoding phase
                         else:
-                            output.itl.append(timestamp -
-                                              most_recent_timestamp)
+                            output.itl.append(timestamp - most_recent_timestamp)
 
                         most_recent_timestamp = timestamp
 
@@ -197,9 +194,9 @@ async def async_request_deepspeed_mii(
     request_func_input: RequestFuncInput,
     pbar: Optional[tqdm] = None,
 ) -> RequestFuncOutput:
-    async with aiohttp.ClientSession(trust_env=True,
-                                     timeout=AIOHTTP_TIMEOUT) as session:
-
+    async with aiohttp.ClientSession(
+        trust_env=True, timeout=AIOHTTP_TIMEOUT
+    ) as session:
         payload = {
             "model": request_func_input.model,
             "prompt": request_func_input.prompt,
@@ -217,19 +214,21 @@ async def async_request_deepspeed_mii(
 
         st = time.perf_counter()
         try:
-            async with session.post(url=request_func_input.api_url,
-                                    json=payload) as response:
+            async with session.post(
+                url=request_func_input.api_url, json=payload
+            ) as response:
                 if response.status == 200:
                     parsed_resp = await response.json()
                     output.latency = time.perf_counter() - st
                     if "choices" in parsed_resp:
-                        output.generated_text = parsed_resp["choices"][0][
-                            "text"]
+                        output.generated_text = parsed_resp["choices"][0]["text"]
                     elif "text" in parsed_resp:
                         output.generated_text = parsed_resp["text"][0]
                     else:
-                        output.error = ("Unexpected response format: "
-                                        "neither 'choices' nor 'text' found")
+                        output.error = (
+                            "Unexpected response format: "
+                            "neither 'choices' nor 'text' found"
+                        )
                         output.success = False
                     output.success = True
                 else:
@@ -250,15 +249,17 @@ async def async_request_openai_completions(
     pbar: Optional[tqdm] = None,
 ) -> RequestFuncOutput:
     api_url = request_func_input.api_url
-    assert api_url.endswith(
-        ("completions", "profile")
-    ), "OpenAI Completions API URL must end with 'completions' or 'profile'."
+    assert api_url.endswith(("completions", "profile")), (
+        "OpenAI Completions API URL must end with 'completions' or 'profile'."
+    )
 
-    async with aiohttp.ClientSession(trust_env=True,
-                                     timeout=AIOHTTP_TIMEOUT) as session:
+    async with aiohttp.ClientSession(
+        trust_env=True, timeout=AIOHTTP_TIMEOUT
+    ) as session:
         payload = {
-            "model": request_func_input.model_name \
-                if request_func_input.model_name else request_func_input.model,
+            "model": request_func_input.model_name
+            if request_func_input.model_name
+            else request_func_input.model,
             "prompt": request_func_input.prompt,
             "temperature": 0.0,
             "repetition_penalty": 1.0,
@@ -273,9 +274,7 @@ async def async_request_openai_completions(
             payload["ignore_eos"] = request_func_input.ignore_eos
         if request_func_input.extra_body:
             payload.update(request_func_input.extra_body)
-        headers = {
-            "Authorization": f"Bearer {os.environ.get('OPENAI_API_KEY')}"
-        }
+        headers = {"Authorization": f"Bearer {os.environ.get('OPENAI_API_KEY')}"}
 
         output = RequestFuncOutput()
         output.prompt_len = request_func_input.prompt_len
@@ -284,8 +283,9 @@ async def async_request_openai_completions(
         st = time.perf_counter()
         most_recent_timestamp = st
         try:
-            async with session.post(url=api_url, json=payload,
-                                    headers=headers) as response:
+            async with session.post(
+                url=api_url, json=payload, headers=headers
+            ) as response:
                 if response.status == 200:
                     first_chunk_received = False
                     async for chunk_bytes in response.content:
@@ -293,8 +293,7 @@ async def async_request_openai_completions(
                         if not chunk_bytes:
                             continue
 
-                        chunk = chunk_bytes.decode("utf-8").removeprefix(
-                            "data: ")
+                        chunk = chunk_bytes.decode("utf-8").removeprefix("data: ")
                         if chunk != "[DONE]":
                             data = json.loads(chunk)
 
@@ -314,21 +313,20 @@ async def async_request_openai_completions(
 
                                 # Decoding phase
                                 else:
-                                    output.itl.append(timestamp -
-                                                      most_recent_timestamp)
+                                    output.itl.append(timestamp - most_recent_timestamp)
 
                                 most_recent_timestamp = timestamp
                                 generated_text += text or ""
                             elif usage := data.get("usage"):
-                                output.output_tokens = usage.get(
-                                    "completion_tokens")
+                                output.output_tokens = usage.get("completion_tokens")
                     if first_chunk_received:
                         output.success = True
                     else:
                         output.success = False
                         output.error = (
                             "Never received a valid chunk to calculate TTFT."
-                            "This response will be marked as failed!")
+                            "This response will be marked as failed!"
+                        )
                     output.generated_text = generated_text
                     output.latency = most_recent_timestamp - st
                 else:
@@ -349,23 +347,22 @@ async def async_request_openai_chat_completions(
     pbar: Optional[tqdm] = None,
 ) -> RequestFuncOutput:
     api_url = request_func_input.api_url
-    assert api_url.endswith(
-        ("chat/completions", "profile")
-    ), "OpenAI Chat Completions API URL must end with 'chat/completions'."
+    assert api_url.endswith(("chat/completions", "profile")), (
+        "OpenAI Chat Completions API URL must end with 'chat/completions'."
+    )
 
-    async with aiohttp.ClientSession(trust_env=True,
-                                     timeout=AIOHTTP_TIMEOUT) as session:
+    async with aiohttp.ClientSession(
+        trust_env=True, timeout=AIOHTTP_TIMEOUT
+    ) as session:
         content = [{"type": "text", "text": request_func_input.prompt}]
         if request_func_input.multi_modal_content:
             content.append(request_func_input.multi_modal_content)
         payload = {
-            "model": request_func_input.model_name \
-                if request_func_input.model_name else request_func_input.model,
+            "model": request_func_input.model_name
+            if request_func_input.model_name
+            else request_func_input.model,
             "messages": [
-                {
-                    "role": "user",
-                    "content": content
-                },
+                {"role": "user", "content": content},
             ],
             "temperature": 0.0,
             "max_completion_tokens": request_func_input.output_len,
@@ -391,16 +388,16 @@ async def async_request_openai_chat_completions(
         st = time.perf_counter()
         most_recent_timestamp = st
         try:
-            async with session.post(url=api_url, json=payload,
-                                    headers=headers) as response:
+            async with session.post(
+                url=api_url, json=payload, headers=headers
+            ) as response:
                 if response.status == 200:
                     async for chunk_bytes in response.content:
                         chunk_bytes = chunk_bytes.strip()
                         if not chunk_bytes:
                             continue
 
-                        chunk = chunk_bytes.decode("utf-8").removeprefix(
-                            "data: ")
+                        chunk = chunk_bytes.decode("utf-8").removeprefix("data: ")
                         if chunk != "[DONE]":
                             timestamp = time.perf_counter()
                             data = json.loads(chunk)
@@ -414,13 +411,11 @@ async def async_request_openai_chat_completions(
 
                                 # Decoding phase
                                 else:
-                                    output.itl.append(timestamp -
-                                                      most_recent_timestamp)
+                                    output.itl.append(timestamp - most_recent_timestamp)
 
                                 generated_text += content or ""
                             elif usage := data.get("usage"):
-                                output.output_tokens = usage.get(
-                                    "completion_tokens")
+                                output.output_tokens = usage.get("completion_tokens")
 
                             most_recent_timestamp = timestamp
 
@@ -446,25 +441,28 @@ async def async_request_openai_audio(
 ) -> RequestFuncOutput:
     # Lazy import without PlaceholderModule to avoid vllm dep.
     import soundfile
+
     api_url = request_func_input.api_url
-    assert api_url.endswith(
-        ("transcriptions", "translations"
-         )), "OpenAI Chat Completions API URL must end with 'transcriptions' "
+    assert api_url.endswith(("transcriptions", "translations")), (
+        "OpenAI Chat Completions API URL must end with 'transcriptions' "
+    )
     "or `translations`."
 
-    async with aiohttp.ClientSession(trust_env=True,
-                                     timeout=AIOHTTP_TIMEOUT) as session:
+    async with aiohttp.ClientSession(
+        trust_env=True, timeout=AIOHTTP_TIMEOUT
+    ) as session:
         content = [{"type": "text", "text": request_func_input.prompt}]
         payload = {
-            "model": request_func_input.model_name \
-                if request_func_input.model_name else request_func_input.model,
+            "model": request_func_input.model_name
+            if request_func_input.model_name
+            else request_func_input.model,
             "temperature": 0.0,
             "max_completion_tokens": request_func_input.output_len,
             "stream": True,
             "language": "en",
             # Flattened due to multipart/form-data
             "stream_include_usage": True,
-            "stream_continuous_usage_stats": True
+            "stream_continuous_usage_stats": True,
         }
         if request_func_input.extra_body:
             payload.update(request_func_input.extra_body)
@@ -479,9 +477,9 @@ async def async_request_openai_audio(
             buffer.seek(0)
             return buffer
 
-        with to_bytes(*request_func_input.multi_modal_content['audio']) as f:
+        with to_bytes(*request_func_input.multi_modal_content["audio"]) as f:
             form = aiohttp.FormData()
-            form.add_field('file', f, content_type='audio/wav')
+            form.add_field("file", f, content_type="audio/wav")
             for key, value in payload.items():
                 form.add_field(key, str(value))
 
@@ -493,24 +491,22 @@ async def async_request_openai_audio(
             st = time.perf_counter()
             most_recent_timestamp = st
             try:
-                async with session.post(url=api_url,
-                                        data=form,
-                                        headers=headers) as response:
+                async with session.post(
+                    url=api_url, data=form, headers=headers
+                ) as response:
                     if response.status == 200:
                         async for chunk_bytes in response.content:
                             chunk_bytes = chunk_bytes.strip()
                             if not chunk_bytes:
                                 continue
 
-                            chunk = chunk_bytes.decode("utf-8").removeprefix(
-                                "data: ")
+                            chunk = chunk_bytes.decode("utf-8").removeprefix("data: ")
                             if chunk != "[DONE]":
                                 timestamp = time.perf_counter()
                                 data = json.loads(chunk)
 
                                 if choices := data.get("choices"):
-                                    content = choices[0]["delta"].get(
-                                        "content")
+                                    content = choices[0]["delta"].get("content")
                                     # First token
                                     if ttft == 0.0:
                                         ttft = timestamp - st
@@ -519,12 +515,14 @@ async def async_request_openai_audio(
                                     # Decoding phase
                                     else:
                                         output.itl.append(
-                                            timestamp - most_recent_timestamp)
+                                            timestamp - most_recent_timestamp
+                                        )
 
                                     generated_text += content or ""
                                 elif usage := data.get("usage"):
                                     output.output_tokens = usage.get(
-                                        "completion_tokens")
+                                        "completion_tokens"
+                                    )
 
                                 most_recent_timestamp = timestamp
 
@@ -545,7 +543,7 @@ async def async_request_openai_audio(
 
 
 def get_model(pretrained_model_name_or_path: str) -> str:
-    if os.getenv('VLLM_USE_MODELSCOPE', 'False').lower() == 'true':
+    if os.getenv("VLLM_USE_MODELSCOPE", "False").lower() == "true":
         from modelscope import snapshot_download
 
         from vllm.model_executor.model_loader.weight_utils import get_lock
@@ -556,7 +554,8 @@ def get_model(pretrained_model_name_or_path: str) -> str:
             model_path = snapshot_download(
                 model_id=pretrained_model_name_or_path,
                 local_files_only=huggingface_hub.constants.HF_HUB_OFFLINE,
-                ignore_file_pattern=[".*.pt", ".*.safetensors", ".*.bin"])
+                ignore_file_pattern=[".*.pt", ".*.safetensors", ".*.bin"],
+            )
 
             return model_path
     return pretrained_model_name_or_path
@@ -569,23 +568,23 @@ def get_tokenizer(
     **kwargs,
 ) -> Union[PreTrainedTokenizer, PreTrainedTokenizerFast]:
     if pretrained_model_name_or_path is not None and not os.path.exists(
-            pretrained_model_name_or_path):
-        pretrained_model_name_or_path = get_model(
-            pretrained_model_name_or_path)
+        pretrained_model_name_or_path
+    ):
+        pretrained_model_name_or_path = get_model(pretrained_model_name_or_path)
     if tokenizer_mode == "slow":
         if kwargs.get("use_fast", False):
-            raise ValueError(
-                "Cannot use the fast tokenizer in slow tokenizer mode.")
+            raise ValueError("Cannot use the fast tokenizer in slow tokenizer mode.")
         kwargs["use_fast"] = False
     if tokenizer_mode == "mistral":
         try:
             from vllm.transformers_utils.tokenizer import MistralTokenizer
         except ImportError as e:
-            raise ImportError("MistralTokenizer requires vllm package.\n"
-                              "Please install it with `pip install vllm` "
-                              "to use mistral tokenizer mode.") from e
-        return MistralTokenizer.from_pretrained(
-            str(pretrained_model_name_or_path))
+            raise ImportError(
+                "MistralTokenizer requires vllm package.\n"
+                "Please install it with `pip install vllm` "
+                "to use mistral tokenizer mode."
+            ) from e
+        return MistralTokenizer.from_pretrained(str(pretrained_model_name_or_path))
     else:
         return AutoTokenizer.from_pretrained(
             pretrained_model_name_or_path,
@@ -608,7 +607,7 @@ ASYNC_REQUEST_FUNCS = {
 }
 
 OPENAI_COMPATIBLE_BACKENDS = [
-    k for k, v in ASYNC_REQUEST_FUNCS.items()
-    if v in (async_request_openai_completions,
-             async_request_openai_chat_completions)
+    k
+    for k, v in ASYNC_REQUEST_FUNCS.items()
+    if v in (async_request_openai_completions, async_request_openai_chat_completions)
 ]
diff --git a/benchmarks/benchmark_dataset.py b/benchmarks/benchmark_dataset.py
index 98d3360cd..d8f48644c 100644
--- a/benchmarks/benchmark_dataset.py
+++ b/benchmarks/benchmark_dataset.py
@@ -82,14 +82,12 @@ class BenchmarkDataset(ABC):
         self.dataset_path = dataset_path
         # Set the random seed, ensuring that a None value is replaced with the
         # default seed.
-        self.random_seed = (random_seed
-                            if random_seed is not None else self.DEFAULT_SEED)
+        self.random_seed = random_seed if random_seed is not None else self.DEFAULT_SEED
         self.data = None
 
     def apply_multimodal_chat_transformation(
-            self,
-            prompt: str,
-            mm_content: Optional[MultiModalDataDict] = None) -> list[dict]:
+        self, prompt: str, mm_content: Optional[MultiModalDataDict] = None
+    ) -> list[dict]:
         """
         Transform a prompt and optional multimodal content into a chat format.
         This method is used for chat models that expect a specific conversation
@@ -111,8 +109,7 @@ class BenchmarkDataset(ABC):
             NotImplementedError: If a subclass does not implement this method.
         """
         # TODO (jenniferzhao): add support for downloading data
-        raise NotImplementedError(
-            "load_data must be implemented in subclasses.")
+        raise NotImplementedError("load_data must be implemented in subclasses.")
 
     def get_random_lora_request(
         self,
@@ -158,8 +155,9 @@ class BenchmarkDataset(ABC):
         return lora_request, lora_tokenizer_cache[lora_id] or tokenizer
 
     @abstractmethod
-    def sample(self, tokenizer: PreTrainedTokenizerBase,
-               num_requests: int) -> list[SampleRequest]:
+    def sample(
+        self, tokenizer: PreTrainedTokenizerBase, num_requests: int
+    ) -> list[SampleRequest]:
         """
         Abstract method to generate sample requests from the dataset.
 
@@ -177,8 +175,9 @@ class BenchmarkDataset(ABC):
         """
         raise NotImplementedError("sample must be implemented in subclasses.")
 
-    def maybe_oversample_requests(self, requests: list[SampleRequest],
-                                  num_requests: int) -> None:
+    def maybe_oversample_requests(
+        self, requests: list[SampleRequest], num_requests: int
+    ) -> None:
         """
         Oversamples the list of requests if its size is less than the desired
         number.
@@ -189,11 +188,9 @@ class BenchmarkDataset(ABC):
         """
         if len(requests) < num_requests:
             random.seed(self.random_seed)
-            additional = random.choices(requests,
-                                        k=num_requests - len(requests))
+            additional = random.choices(requests, k=num_requests - len(requests))
             requests.extend(additional)
-            logger.info("Oversampled requests to reach %d total samples.",
-                        num_requests)
+            logger.info("Oversampled requests to reach %d total samples.", num_requests)
 
 
 # -----------------------------------------------------------------------------
@@ -218,14 +215,14 @@ def is_valid_sequence(
     """
     # Check for invalid conditions
     prompt_too_short = prompt_len < min_len
-    output_too_short = (not skip_min_output_len_check) and (output_len
-                                                            < min_len)
+    output_too_short = (not skip_min_output_len_check) and (output_len < min_len)
     prompt_too_long = prompt_len > max_prompt_len
     combined_too_long = (prompt_len + output_len) > max_total_len
 
     # Return True if none of the invalid conditions are met
-    return not (prompt_too_short or output_too_short or prompt_too_long
-                or combined_too_long)
+    return not (
+        prompt_too_short or output_too_short or prompt_too_long or combined_too_long
+    )
 
 
 @cache
@@ -257,28 +254,28 @@ def process_image(image: Any) -> Mapping[str, Any]:
     Raises:
         ValueError: If the input is not a supported type.
     """
-    if isinstance(image, dict) and 'bytes' in image:
-        image = Image.open(BytesIO(image['bytes']))
+    if isinstance(image, dict) and "bytes" in image:
+        image = Image.open(BytesIO(image["bytes"]))
     if isinstance(image, Image.Image):
         image = image.convert("RGB")
         with io.BytesIO() as image_data:
             image.save(image_data, format="JPEG")
-            image_base64 = base64.b64encode(
-                image_data.getvalue()).decode("utf-8")
+            image_base64 = base64.b64encode(image_data.getvalue()).decode("utf-8")
         return {
             "type": "image_url",
-            "image_url": {
-                "url": f"data:image/jpeg;base64,{image_base64}"
-            },
+            "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"},
         }
 
     if isinstance(image, str):
-        image_url = (image if image.startswith(
-            ("http://", "file://")) else f"file://{image}")
+        image_url = (
+            image if image.startswith(("http://", "file://")) else f"file://{image}"
+        )
         return {"type": "image_url", "image_url": {"url": image_url}}
 
-    raise ValueError(f"Invalid image input {image}. Must be a PIL.Image.Image"
-                     " or str or dictionary with raw image bytes.")
+    raise ValueError(
+        f"Invalid image input {image}. Must be a PIL.Image.Image"
+        " or str or dictionary with raw image bytes."
+    )
 
 
 # -----------------------------------------------------------------------------
@@ -318,8 +315,11 @@ class RandomDataset(BenchmarkDataset):
         num_special_tokens = tokenizer.num_special_tokens_to_add()
         real_input_len = input_len - num_special_tokens
 
-        prefix_token_ids = (np.random.randint(
-            0, vocab_size, size=prefix_len).tolist() if prefix_len > 0 else [])
+        prefix_token_ids = (
+            np.random.randint(0, vocab_size, size=prefix_len).tolist()
+            if prefix_len > 0
+            else []
+        )
 
         # New sampling logic: [X * (1 - b), X * (1 + b)]
         input_low = int(real_input_len * (1 - range_ratio))
@@ -329,21 +329,17 @@ class RandomDataset(BenchmarkDataset):
 
         # Add logging for debugging
         logger.info("Sampling input_len from [%s, %s]", input_low, input_high)
-        logger.info("Sampling output_len from [%s, %s]", output_low,
-                    output_high)
-
-        input_lens = np.random.randint(input_low,
-                                       input_high + 1,
-                                       size=num_requests)
-        output_lens = np.random.randint(output_low,
-                                        output_high + 1,
-                                        size=num_requests)
+        logger.info("Sampling output_len from [%s, %s]", output_low, output_high)
+
+        input_lens = np.random.randint(input_low, input_high + 1, size=num_requests)
+        output_lens = np.random.randint(output_low, output_high + 1, size=num_requests)
         offsets = np.random.randint(0, vocab_size, size=num_requests)
 
         requests = []
         for i in range(num_requests):
-            inner_seq = ((offsets[i] + i + np.arange(input_lens[i])) %
-                         vocab_size).tolist()
+            inner_seq = (
+                (offsets[i] + i + np.arange(input_lens[i])) % vocab_size
+            ).tolist()
             token_sequence = prefix_token_ids + inner_seq
             prompt = tokenizer.decode(token_sequence)
             # After decoding the prompt we have to encode and decode it again.
@@ -354,8 +350,9 @@ class RandomDataset(BenchmarkDataset):
             # [1650, 939, 486] -> ['Ġcall', 'sh', 'ere']
             # To avoid uncontrolled change of the prompt length,
             # the encoded sequence is truncated before being decode again.
-            re_encoded_sequence = tokenizer.encode(
-                prompt, add_special_tokens=False)[:input_lens[i]]
+            re_encoded_sequence = tokenizer.encode(prompt, add_special_tokens=False)[
+                : input_lens[i]
+            ]
             prompt = tokenizer.decode(re_encoded_sequence)
             total_input_len = prefix_len + int(input_lens[i])
             requests.append(
@@ -363,7 +360,8 @@ class RandomDataset(BenchmarkDataset):
                     prompt=prompt,
                     prompt_len=total_input_len,
                     expected_output_len=int(output_lens[i]),
-                ))
+                )
+            )
         return requests
 
 
@@ -390,7 +388,8 @@ class ShareGPTDataset(BenchmarkDataset):
             self.data = json.load(f)
         # Filter entries with at least two conversation turns.
         self.data = [
-            entry for entry in self.data
+            entry
+            for entry in self.data
             if "conversations" in entry and len(entry["conversations"]) >= 2
         ]
         random.seed(self.random_seed)
@@ -416,27 +415,28 @@ class ShareGPTDataset(BenchmarkDataset):
             )
 
             lora_request, tokenizer = self.get_random_lora_request(
-                tokenizer=tokenizer, max_loras=max_loras, lora_path=lora_path)
+                tokenizer=tokenizer, max_loras=max_loras, lora_path=lora_path
+            )
             prompt_ids = tokenizer(prompt).input_ids
             completion_ids = tokenizer(completion).input_ids
             prompt_len = len(prompt_ids)
-            new_output_len = (len(completion_ids)
-                              if output_len is None else output_len)
-            if not is_valid_sequence(prompt_len,
-                                     new_output_len,
-                                     skip_min_output_len_check=output_len
-                                     is not None):
+            new_output_len = len(completion_ids) if output_len is None else output_len
+            if not is_valid_sequence(
+                prompt_len,
+                new_output_len,
+                skip_min_output_len_check=output_len is not None,
+            ):
                 continue
             if enable_multimodal_chat:
-                prompt = self.apply_multimodal_chat_transformation(
-                    prompt, None)
+                prompt = self.apply_multimodal_chat_transformation(prompt, None)
             samples.append(
                 SampleRequest(
                     prompt=prompt,
                     prompt_len=prompt_len,
                     expected_output_len=new_output_len,
                     lora_request=lora_request,
-                ))
+                )
+            )
         self.maybe_oversample_requests(samples, num_requests)
         return samples
 
@@ -482,20 +482,20 @@ class SonnetDataset(BenchmarkDataset):
     ) -> list:
         # Calculate average token length for a poem line.
         tokenized_lines = [tokenizer(line).input_ids for line in self.data]
-        avg_len = sum(len(tokens)
-                      for tokens in tokenized_lines) / len(tokenized_lines)
+        avg_len = sum(len(tokens) for tokens in tokenized_lines) / len(tokenized_lines)
 
         # Build the base prompt.
         base_prompt = "Pick as many lines as you can from these poem lines:\n"
         base_msg = [{"role": "user", "content": base_prompt}]
-        base_fmt = tokenizer.apply_chat_template(base_msg,
-                                                 add_generation_prompt=True,
-                                                 tokenize=False)
+        base_fmt = tokenizer.apply_chat_template(
+            base_msg, add_generation_prompt=True, tokenize=False
+        )
         base_offset = len(tokenizer(base_fmt).input_ids)
         if input_len <= base_offset:
             raise ValueError(
                 f"'input_len' must be higher than the base prompt length "
-                f"({base_offset}).")
+                f"({base_offset})."
+            )
 
         # Determine how many poem lines to use.
         num_input_lines = round((input_len - base_offset) / avg_len)
@@ -504,21 +504,23 @@ class SonnetDataset(BenchmarkDataset):
 
         samples = []
         while len(samples) < num_requests:
-            extra_lines = random.choices(self.data,
-                                         k=num_input_lines - num_prefix_lines)
+            extra_lines = random.choices(
+                self.data, k=num_input_lines - num_prefix_lines
+            )
             prompt = f"{base_prompt}{''.join(prefix_lines + extra_lines)}"
             msg = [{"role": "user", "content": prompt}]
             prompt_formatted = tokenizer.apply_chat_template(
-                msg, add_generation_prompt=True, tokenize=False)
+                msg, add_generation_prompt=True, tokenize=False
+            )
             prompt_len = len(tokenizer(prompt_formatted).input_ids)
             if prompt_len <= input_len:
                 samples.append(
                     SampleRequest(
-                        prompt=prompt_formatted
-                        if return_prompt_formatted else prompt,
+                        prompt=prompt_formatted if return_prompt_formatted else prompt,
                         prompt_len=prompt_len,
                         expected_output_len=output_len,
-                    ))
+                    )
+                )
         return samples
 
 
@@ -538,7 +540,9 @@ class BurstGPTDataset(BenchmarkDataset):
         super().__init__(**kwargs)
         self.load_data()
 
-    def load_data(self, ):
+    def load_data(
+        self,
+    ):
         if self.dataset_path is None:
             raise ValueError("dataset_path must be provided for loading data.")
 
@@ -552,8 +556,7 @@ class BurstGPTDataset(BenchmarkDataset):
 
     def _sample_loaded_data(self, num_requests: int) -> list:
         if num_requests <= len(self.data):
-            data = self.data.sample(n=num_requests,
-                                    random_state=self.random_seed)
+            data = self.data.sample(n=num_requests, random_state=self.random_seed)
         else:
             data = self.data.sample(
                 n=num_requests,
@@ -577,7 +580,8 @@ class BurstGPTDataset(BenchmarkDataset):
             input_len = int(data[i][2])
             output_len = int(data[i][3])
             lora_req, tokenizer = self.get_random_lora_request(
-                tokenizer=tokenizer, max_loras=max_loras, lora_path=lora_path)
+                tokenizer=tokenizer, max_loras=max_loras, lora_path=lora_path
+            )
             vocab_size = tokenizer.vocab_size
             # Generate a synthetic prompt: a list of token IDs computed as (i +
             # j) modulo vocab_size.
@@ -589,7 +593,8 @@ class BurstGPTDataset(BenchmarkDataset):
                     prompt_len=input_len,
                     expected_output_len=output_len,
                     lora_request=lora_req,
-                ))
+                )
+            )
         return samples
 
 
@@ -632,20 +637,23 @@ class HuggingFaceDataset(BenchmarkDataset):
 
 class ConversationDataset(HuggingFaceDataset):
     """Dataset for conversation data with multimodal support."""
+
     SUPPORTED_DATASET_PATHS = {
-        'lmms-lab/LLaVA-OneVision-Data', 'Aeala/ShareGPT_Vicuna_unfiltered'
+        "lmms-lab/LLaVA-OneVision-Data",
+        "Aeala/ShareGPT_Vicuna_unfiltered",
     }
     IS_MULTIMODAL = True
 
-    def sample(self,
-               tokenizer: PreTrainedTokenizerBase,
-               num_requests: int,
-               output_len: Optional[int] = None,
-               enable_multimodal_chat: bool = False,
-               **kwargs) -> list:
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        output_len: Optional[int] = None,
+        enable_multimodal_chat: bool = False,
+        **kwargs,
+    ) -> list:
         # Filter examples with at least 2 conversations
-        filtered_data = self.data.filter(
-            lambda x: len(x["conversations"]) >= 2)
+        filtered_data = self.data.filter(lambda x: len(x["conversations"]) >= 2)
         sampled_requests = []
         dynamic_output = output_len is None
 
@@ -661,24 +669,22 @@ class ConversationDataset(HuggingFaceDataset):
             completion_len = len(completion_ids)
             output_len = completion_len if dynamic_output else output_len
             assert isinstance(output_len, int) and output_len > 0
-            if dynamic_output and not is_valid_sequence(
-                    prompt_len, completion_len):
+            if dynamic_output and not is_valid_sequence(prompt_len, completion_len):
                 continue
-            mm_content = process_image(
-                item["image"]) if "image" in item else None
+            mm_content = process_image(item["image"]) if "image" in item else None
             if enable_multimodal_chat:
                 # Note: when chat is enabled the request prompt_len is no longer
                 # accurate and we will be using request output to count the
                 # actual prompt len and output len
-                prompt = self.apply_multimodal_chat_transformation(
-                    prompt, mm_content)
+                prompt = self.apply_multimodal_chat_transformation(prompt, mm_content)
             sampled_requests.append(
                 SampleRequest(
                     prompt=prompt,
                     prompt_len=prompt_len,
                     expected_output_len=output_len,
                     multi_modal_data=mm_content,
-                ))
+                )
+            )
         self.maybe_oversample_requests(sampled_requests, num_requests)
         return sampled_requests
 
@@ -695,10 +701,8 @@ class VisionArenaDataset(HuggingFaceDataset):
 
     DEFAULT_OUTPUT_LEN = 128
     SUPPORTED_DATASET_PATHS = {
-        "lmarena-ai/VisionArena-Chat":
-        lambda x: x["conversation"][0][0]["content"],
-        "lmarena-ai/vision-arena-bench-v0.1":
-        lambda x: x["turns"][0][0]["content"]
+        "lmarena-ai/VisionArena-Chat": lambda x: x["conversation"][0][0]["content"],
+        "lmarena-ai/vision-arena-bench-v0.1": lambda x: x["turns"][0][0]["content"],
     }
     IS_MULTIMODAL = True
 
@@ -710,16 +714,14 @@ class VisionArenaDataset(HuggingFaceDataset):
         enable_multimodal_chat: bool = False,
         **kwargs,
     ) -> list:
-        output_len = (output_len
-                      if output_len is not None else self.DEFAULT_OUTPUT_LEN)
+        output_len = output_len if output_len is not None else self.DEFAULT_OUTPUT_LEN
         sampled_requests = []
         for item in self.data:
             if len(sampled_requests) >= num_requests:
                 break
             parser_fn = self.SUPPORTED_DATASET_PATHS.get(self.dataset_path)
             if parser_fn is None:
-                raise ValueError(
-                    f"Unsupported dataset path: {self.dataset_path}")
+                raise ValueError(f"Unsupported dataset path: {self.dataset_path}")
             prompt = parser_fn(item)
             mm_content = process_image(item["images"][0])
             prompt_len = len(tokenizer(prompt).input_ids)
@@ -727,15 +729,15 @@ class VisionArenaDataset(HuggingFaceDataset):
                 # Note: when chat is enabled the request prompt_len is no longer
                 # accurate and we will be using request output to count the
                 # actual prompt len
-                prompt = self.apply_multimodal_chat_transformation(
-                    prompt, mm_content)
+                prompt = self.apply_multimodal_chat_transformation(prompt, mm_content)
             sampled_requests.append(
                 SampleRequest(
                     prompt=prompt,
                     prompt_len=prompt_len,
                     expected_output_len=output_len,
                     multi_modal_data=mm_content,
-                ))
+                )
+            )
         self.maybe_oversample_requests(sampled_requests, num_requests)
         return sampled_requests
 
@@ -760,14 +762,15 @@ class InstructCoderDataset(HuggingFaceDataset):
         "likaixin/InstructCoder",
     }
 
-    def sample(self,
-               tokenizer: PreTrainedTokenizerBase,
-               num_requests: int,
-               output_len: Optional[int] = None,
-               enable_multimodal_chat: bool = False,
-               **kwargs) -> list:
-        output_len = (output_len
-                      if output_len is not None else self.DEFAULT_OUTPUT_LEN)
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        output_len: Optional[int] = None,
+        enable_multimodal_chat: bool = False,
+        **kwargs,
+    ) -> list:
+        output_len = output_len if output_len is not None else self.DEFAULT_OUTPUT_LEN
         sampled_requests = []
         for item in self.data:
             if len(sampled_requests) >= num_requests:
@@ -779,7 +782,8 @@ class InstructCoderDataset(HuggingFaceDataset):
                     prompt=prompt,
                     prompt_len=prompt_len,
                     expected_output_len=output_len,
-                ))
+                )
+            )
         self.maybe_oversample_requests(sampled_requests, num_requests)
         return sampled_requests
 
@@ -794,38 +798,38 @@ class MTBenchDataset(HuggingFaceDataset):
     MT-Bench Dataset.
     https://huggingface.co/datasets/philschmid/mt-bench
 
-    We create a single turn dataset for MT-Bench. 
+    We create a single turn dataset for MT-Bench.
     This is similar to Spec decoding benchmark setup in vLLM
     https://github.com/vllm-project/vllm/blob/9d98ab5ec/examples/offline_inference/eagle.py#L14-L18
-    """ # noqa: E501
+    """  # noqa: E501
 
     DEFAULT_OUTPUT_LEN = 256  # avg len used in SD bench in vLLM
     SUPPORTED_DATASET_PATHS = {
         "philschmid/mt-bench",
     }
 
-    def sample(self,
-               tokenizer: PreTrainedTokenizerBase,
-               num_requests: int,
-               output_len: Optional[int] = None,
-               enable_multimodal_chat: bool = False,
-               **kwargs) -> list:
-        output_len = (output_len
-                      if output_len is not None else self.DEFAULT_OUTPUT_LEN)
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        output_len: Optional[int] = None,
+        enable_multimodal_chat: bool = False,
+        **kwargs,
+    ) -> list:
+        output_len = output_len if output_len is not None else self.DEFAULT_OUTPUT_LEN
         sampled_requests = []
 
         for item in self.data:
             if len(sampled_requests) >= num_requests:
                 break
-            prompt = item['turns'][0]
+            prompt = item["turns"][0]
 
             # apply template
-            prompt = tokenizer.apply_chat_template([{
-                "role": "user",
-                "content": prompt
-            }],
-                                                   add_generation_prompt=True,
-                                                   tokenize=False)
+            prompt = tokenizer.apply_chat_template(
+                [{"role": "user", "content": prompt}],
+                add_generation_prompt=True,
+                tokenize=False,
+            )
 
             prompt_len = len(tokenizer(prompt).input_ids)
             sampled_requests.append(
@@ -833,7 +837,8 @@ class MTBenchDataset(HuggingFaceDataset):
                     prompt=prompt,
                     prompt_len=prompt_len,
                     expected_output_len=output_len,
-                ))
+                )
+            )
         self.maybe_oversample_requests(sampled_requests, num_requests)
         return sampled_requests
 
@@ -847,23 +852,27 @@ class AIMODataset(HuggingFaceDataset):
     """
     Dataset class for processing a AIMO dataset with reasoning questions.
     """
+
     SUPPORTED_DATASET_PATHS = {
-        "AI-MO/aimo-validation-aime", "AI-MO/NuminaMath-1.5",
-        "AI-MO/NuminaMath-CoT"
+        "AI-MO/aimo-validation-aime",
+        "AI-MO/NuminaMath-1.5",
+        "AI-MO/NuminaMath-CoT",
     }
 
-    def sample(self,
-               tokenizer: PreTrainedTokenizerBase,
-               num_requests: int,
-               output_len: Optional[int] = None,
-               **kwargs) -> list:
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        output_len: Optional[int] = None,
+        **kwargs,
+    ) -> list:
         sampled_requests = []
         dynamic_output = output_len is None
 
         for item in self.data:
             if len(sampled_requests) >= num_requests:
                 break
-            prompt, completion = item['problem'], item["solution"]
+            prompt, completion = item["problem"], item["solution"]
 
             prompt_ids = tokenizer(prompt).input_ids
             completion_ids = tokenizer(completion).input_ids
@@ -871,10 +880,9 @@ class AIMODataset(HuggingFaceDataset):
             completion_len = len(completion_ids)
             output_len = completion_len if dynamic_output else output_len
             assert isinstance(output_len, int) and output_len > 0
-            if dynamic_output and not is_valid_sequence(prompt_len,
-                                                        completion_len,
-                                                        max_prompt_len=2048,
-                                                        max_total_len=32000):
+            if dynamic_output and not is_valid_sequence(
+                prompt_len, completion_len, max_prompt_len=2048, max_total_len=32000
+            ):
                 continue
             sampled_requests.append(
                 SampleRequest(
@@ -882,7 +890,8 @@ class AIMODataset(HuggingFaceDataset):
                     prompt_len=prompt_len,
                     expected_output_len=output_len,
                     multi_modal_data=None,
-                ))
+                )
+            )
         self.maybe_oversample_requests(sampled_requests, num_requests)
         return sampled_requests
 
@@ -905,25 +914,25 @@ You are a code completion assistant and your task is to analyze user edits and t
 
 ### Response:
 
-""" # noqa: E501
+"""  # noqa: E501
 
 
 def _format_zeta_prompt(
-        sample: dict,
-        original_start_marker: str = "<|editable_region_start|>") -> dict:
+    sample: dict, original_start_marker: str = "<|editable_region_start|>"
+) -> dict:
     """Format the zeta prompt for the Next Edit Prediction (NEP) dataset.
-    
-    This function formats examples from the NEP dataset 
-    into prompts and expected outputs. It could be 
+
+    This function formats examples from the NEP dataset
+    into prompts and expected outputs. It could be
     further extended to support more NEP datasets.
-    
+
     Args:
-        sample: The dataset sample containing events, 
+        sample: The dataset sample containing events,
             inputs, and outputs.
-        original_start_marker: The marker indicating the 
-            start of the editable region. Defaults to 
+        original_start_marker: The marker indicating the
+            start of the editable region. Defaults to
             "<|editable_region_start|>".
-            
+
     Returns:
         A dictionary with the formatted prompts and expected outputs.
     """
@@ -953,10 +962,8 @@ class NextEditPredictionDataset(HuggingFaceDataset):
         "zed-industries/zeta": _format_zeta_prompt,
     }
 
-    def sample(self, tokenizer: PreTrainedTokenizerBase, num_requests: int,
-               **kwargs):
-        formatting_prompt_func = self.MAPPING_PROMPT_FUNCS.get(
-            self.dataset_path)
+    def sample(self, tokenizer: PreTrainedTokenizerBase, num_requests: int, **kwargs):
+        formatting_prompt_func = self.MAPPING_PROMPT_FUNCS.get(self.dataset_path)
         if formatting_prompt_func is None:
             raise ValueError(f"Unsupported dataset path: {self.dataset_path}")
         samples = []
@@ -967,8 +974,10 @@ class NextEditPredictionDataset(HuggingFaceDataset):
                     prompt=sample["prompt"],
                     prompt_len=len(tokenizer(sample["prompt"]).input_ids),
                     expected_output_len=len(
-                        tokenizer(sample["expected_output"]).input_ids),
-                ))
+                        tokenizer(sample["expected_output"]).input_ids
+                    ),
+                )
+            )
             if len(samples) >= num_requests:
                 break
         self.maybe_oversample_requests(samples, num_requests)
@@ -997,18 +1006,22 @@ class ASRDataset(HuggingFaceDataset):
     | AMI            | Meetings                               | Spontaneous              | ihm, sdm                    |
     +----------------+----------------------------------------+--------------------------+-----------------------------+
 
-    """ # noqa: E501
+    """  # noqa: E501
+
     SUPPORTED_DATASET_PATHS = {
-        "openslr/librispeech_asr", "facebook/voxpopuli", "LIUM/tedlium",
-        "edinburghcstr/ami", "speechcolab/gigaspeech", "kensho/spgispeech"
+        "openslr/librispeech_asr",
+        "facebook/voxpopuli",
+        "LIUM/tedlium",
+        "edinburghcstr/ami",
+        "speechcolab/gigaspeech",
+        "kensho/spgispeech",
     }
 
     DEFAULT_OUTPUT_LEN = 128
     IS_MULTIMODAL = True
 
     # TODO Whisper-specific. Abstract interface when more models are supported.
-    TRANSCRIPTION_PREAMBLE = "<|startoftranscript|><|en|><|transcribe|>"\
-                              "<|notimestamps|>"
+    TRANSCRIPTION_PREAMBLE = "<|startoftranscript|><|en|><|transcribe|><|notimestamps|>"
     skip_long_audios: bool = True
 
     def sample(
@@ -1019,8 +1032,8 @@ class ASRDataset(HuggingFaceDataset):
         **kwargs,
     ) -> list:
         import librosa
-        output_len = (output_len
-                      if output_len is not None else self.DEFAULT_OUTPUT_LEN)
+
+        output_len = output_len if output_len is not None else self.DEFAULT_OUTPUT_LEN
         prompt = ASRDataset.TRANSCRIPTION_PREAMBLE
         prompt_len = len(tokenizer(prompt).input_ids)
         sampled_requests = []
@@ -1043,10 +1056,14 @@ class ASRDataset(HuggingFaceDataset):
                     prompt_len=prompt_len,
                     expected_output_len=output_len,
                     multi_modal_data=mm_content,
-                ))
+                )
+            )
         if skipped:
-            logger.warning("%d samples discarded from dataset due to" \
-                           " their length being greater than" \
-                           " what Whisper supports.", skipped)
+            logger.warning(
+                "%d samples discarded from dataset due to"
+                " their length being greater than"
+                " what Whisper supports.",
+                skipped,
+            )
         self.maybe_oversample_requests(sampled_requests, num_requests)
         return sampled_requests
diff --git a/benchmarks/benchmark_latency.py b/benchmarks/benchmark_latency.py
index dfd9bb1e6..d5aaceeb8 100644
--- a/benchmarks/benchmark_latency.py
+++ b/benchmarks/benchmark_latency.py
@@ -11,9 +11,9 @@ from typing import Any, Optional
 
 import numpy as np
 import torch
-from benchmark_utils import convert_to_pytorch_benchmark_format, write_to_json
 from tqdm import tqdm
 
+from benchmark_utils import convert_to_pytorch_benchmark_format, write_to_json
 from vllm import LLM, SamplingParams
 from vllm.engine.arg_utils import EngineArgs
 from vllm.inputs import PromptType
@@ -21,13 +21,14 @@ from vllm.sampling_params import BeamSearchParams
 from vllm.utils import FlexibleArgumentParser
 
 
-def save_to_pytorch_benchmark_format(args: argparse.Namespace,
-                                     results: dict[str, Any]) -> None:
+def save_to_pytorch_benchmark_format(
+    args: argparse.Namespace, results: dict[str, Any]
+) -> None:
     pt_records = convert_to_pytorch_benchmark_format(
         args=args,
         metrics={"latency": results["latencies"]},
-        extra_info={k: results[k]
-                    for k in ["avg_latency", "percentiles"]})
+        extra_info={k: results[k] for k in ["avg_latency", "percentiles"]},
+    )
     if pt_records:
         pt_file = f"{os.path.splitext(args.output_json)[0]}.pytorch.json"
         write_to_json(pt_file, pt_records)
@@ -42,9 +43,11 @@ def main(args: argparse.Namespace):
     # the engine will automatically process the request in multiple batches.
     llm = LLM(**dataclasses.asdict(engine_args))
     assert llm.llm_engine.model_config.max_model_len >= (
-        args.input_len +
-        args.output_len), ("Please ensure that max_model_len is greater than"
-                           " the sum of input_len and output_len.")
+        args.input_len + args.output_len
+    ), (
+        "Please ensure that max_model_len is greater than"
+        " the sum of input_len and output_len."
+    )
 
     sampling_params = SamplingParams(
         n=args.n,
@@ -55,18 +58,16 @@ def main(args: argparse.Namespace):
         detokenize=not args.disable_detokenize,
     )
     print(sampling_params)
-    dummy_prompt_token_ids = np.random.randint(10000,
-                                               size=(args.batch_size,
-                                                     args.input_len))
-    dummy_prompts: list[PromptType] = [{
-        "prompt_token_ids": batch
-    } for batch in dummy_prompt_token_ids.tolist()]
+    dummy_prompt_token_ids = np.random.randint(
+        10000, size=(args.batch_size, args.input_len)
+    )
+    dummy_prompts: list[PromptType] = [
+        {"prompt_token_ids": batch} for batch in dummy_prompt_token_ids.tolist()
+    ]
 
     def llm_generate():
         if not args.use_beam_search:
-            llm.generate(dummy_prompts,
-                         sampling_params=sampling_params,
-                         use_tqdm=False)
+            llm.generate(dummy_prompts, sampling_params=sampling_params, use_tqdm=False)
         else:
             llm.beam_search(
                 dummy_prompts,
@@ -80,12 +81,13 @@ def main(args: argparse.Namespace):
     def run_to_completion(profile_dir: Optional[str] = None):
         if profile_dir:
             with torch.profiler.profile(
-                    activities=[
-                        torch.profiler.ProfilerActivity.CPU,
-                        torch.profiler.ProfilerActivity.CUDA,
-                    ],
-                    on_trace_ready=torch.profiler.tensorboard_trace_handler(
-                        str(profile_dir)),
+                activities=[
+                    torch.profiler.ProfilerActivity.CPU,
+                    torch.profiler.ProfilerActivity.CUDA,
+                ],
+                on_trace_ready=torch.profiler.tensorboard_trace_handler(
+                    str(profile_dir)
+                ),
             ) as p:
                 llm_generate()
             print(p.key_averages().table(sort_by="self_cuda_time_total"))
@@ -103,8 +105,9 @@ def main(args: argparse.Namespace):
     if args.profile:
         profile_dir = args.profile_result_dir
         if not profile_dir:
-            profile_dir = (Path(".") / "vllm_benchmark_result" /
-                           f"latency_result_{time.time()}")
+            profile_dir = (
+                Path(".") / "vllm_benchmark_result" / f"latency_result_{time.time()}"
+            )
         print(f"Profiling (results will be saved to '{profile_dir}')...")
         run_to_completion(profile_dir=profile_dir)
         return
@@ -135,7 +138,8 @@ def main(args: argparse.Namespace):
 if __name__ == "__main__":
     parser = FlexibleArgumentParser(
         description="Benchmark the latency of processing a single batch of "
-        "requests till completion.")
+        "requests till completion."
+    )
     parser.add_argument("--input-len", type=int, default=32)
     parser.add_argument("--output-len", type=int, default=128)
     parser.add_argument("--batch-size", type=int, default=8)
@@ -152,10 +156,9 @@ if __name__ == "__main__":
         default=10,
         help="Number of iterations to run for warmup.",
     )
-    parser.add_argument("--num-iters",
-                        type=int,
-                        default=30,
-                        help="Number of iterations to run.")
+    parser.add_argument(
+        "--num-iters", type=int, default=30, help="Number of iterations to run."
+    )
     parser.add_argument(
         "--profile",
         action="store_true",
@@ -165,8 +168,10 @@ if __name__ == "__main__":
         "--profile-result-dir",
         type=str,
         default=None,
-        help=("path to save the pytorch profiler output. Can be visualized "
-              "with ui.perfetto.dev or Tensorboard."),
+        help=(
+            "path to save the pytorch profiler output. Can be visualized "
+            "with ui.perfetto.dev or Tensorboard."
+        ),
     )
     parser.add_argument(
         "--output-json",
@@ -177,8 +182,10 @@ if __name__ == "__main__":
     parser.add_argument(
         "--disable-detokenize",
         action="store_true",
-        help=("Do not detokenize responses (i.e. do not include "
-              "detokenization time in the latency measurement)"),
+        help=(
+            "Do not detokenize responses (i.e. do not include "
+            "detokenization time in the latency measurement)"
+        ),
     )
 
     parser = EngineArgs.add_cli_args(parser)
diff --git a/benchmarks/benchmark_long_document_qa_throughput.py b/benchmarks/benchmark_long_document_qa_throughput.py
index 21480578e..109624c87 100644
--- a/benchmarks/benchmark_long_document_qa_throughput.py
+++ b/benchmarks/benchmark_long_document_qa_throughput.py
@@ -76,7 +76,7 @@ def repeat_prompts(prompts, repeat_count, mode: str):
             - 'random': Shuffle the prompts randomly after repetition.
             - 'tile': Repeat the entire prompt list in sequence.
               Example: [1, 2, 3] -> [1, 2, 3, 1, 2, 3].
-            - 'interleave': Repeat each prompt consecutively before moving to 
+            - 'interleave': Repeat each prompt consecutively before moving to
               the next. Example: [1, 2, 3] -> [1, 1, 2, 2, 3, 3].
 
     Returns:
@@ -86,20 +86,21 @@ def repeat_prompts(prompts, repeat_count, mode: str):
         ValueError: If an invalid mode is provided.
     """
     print("Repeat mode: ", mode)
-    if mode == 'random':
+    if mode == "random":
         repeated_prompts = prompts * repeat_count
         random.shuffle(repeated_prompts)
         return repeated_prompts
-    elif mode == 'tile':
+    elif mode == "tile":
         return prompts * repeat_count
-    elif mode == 'interleave':
+    elif mode == "interleave":
         repeated_prompts = []
         for prompt in prompts:
             repeated_prompts.extend([prompt] * repeat_count)
         return repeated_prompts
     else:
-        raise ValueError(f"Invalid mode: {mode}, only support "
-                         "'random', 'tile', 'interleave'")
+        raise ValueError(
+            f"Invalid mode: {mode}, only support 'random', 'tile', 'interleave'"
+        )
 
 
 def main(args):
@@ -109,16 +110,16 @@ def main(args):
     # we append the document id at the beginning to avoid any of the document
     # being the prefix of other documents
     prompts = [
-        str(i) + ' '.join(['hi'] * args.document_length)
+        str(i) + " ".join(["hi"] * args.document_length)
         for i in range(args.num_documents)
     ]
 
     prompts = repeat_prompts(prompts, args.repeat_count, mode=args.repeat_mode)
 
     warmup_prompts = [
-        "This is warm up request " + str(i) + \
-                ' '.join(['hi'] * args.document_length)
-        for i in range(args.num_documents)]
+        "This is warm up request " + str(i) + " ".join(["hi"] * args.document_length)
+        for i in range(args.num_documents)
+    ]
 
     # Create the LLM engine
     engine_args = EngineArgs.from_cli_args(args)
@@ -142,42 +143,52 @@ def main(args):
 
 if __name__ == "__main__":
     parser = FlexibleArgumentParser(
-        description=
-        'Benchmark the performance with or without automatic prefix caching.')
+        description="Benchmark the performance with or "
+        "without automatic prefix caching."
+    )
 
     parser.add_argument(
-        '--document-length',
+        "--document-length",
         type=int,
         # Roughly the number of tokens for a system paper,
         # excluding images
         default=20000,
-        help='Range of input lengths for sampling prompts,'
-        'specified as "min:max" (e.g., "128:256").')
-
-    parser.add_argument('--num-documents',
-                        type=int,
-                        default=8,
-                        help='Range of input lengths for sampling prompts,'
-                        'specified as "min:max" (e.g., "128:256").')
-
-    parser.add_argument('--output-len', type=int, default=10)
-
-    parser.add_argument('--repeat-count',
-                        type=int,
-                        default=2,
-                        help='Number of times to repeat each prompt')
-
-    parser.add_argument("--repeat-mode",
-                        type=str,
-                        default='random',
-                        help='The mode to repeat prompts. The supported '
-                        'modes are "random", "tile", and "interleave". '
-                        'See repeat_prompts() in the source code for details.')
-
-    parser.add_argument("--shuffle-seed",
-                        type=int,
-                        default=0,
-                        help='Random seed when the repeat mode is "random"')
+        help="Range of input lengths for sampling prompts, "
+        'specified as "min:max" (e.g., "128:256").',
+    )
+
+    parser.add_argument(
+        "--num-documents",
+        type=int,
+        default=8,
+        help="Range of input lengths for sampling prompts, "
+        'specified as "min:max" (e.g., "128:256").',
+    )
+
+    parser.add_argument("--output-len", type=int, default=10)
+
+    parser.add_argument(
+        "--repeat-count",
+        type=int,
+        default=2,
+        help="Number of times to repeat each prompt",
+    )
+
+    parser.add_argument(
+        "--repeat-mode",
+        type=str,
+        default="random",
+        help="The mode to repeat prompts. The supported "
+        'modes are "random", "tile", and "interleave". '
+        "See repeat_prompts() in the source code for details.",
+    )
+
+    parser.add_argument(
+        "--shuffle-seed",
+        type=int,
+        default=0,
+        help='Random seed when the repeat mode is "random"',
+    )
 
     parser = EngineArgs.add_cli_args(parser)
     args = parser.parse_args()
diff --git a/benchmarks/benchmark_prefix_caching.py b/benchmarks/benchmark_prefix_caching.py
index f44da95d3..ffaa80357 100644
--- a/benchmarks/benchmark_prefix_caching.py
+++ b/benchmarks/benchmark_prefix_caching.py
@@ -63,8 +63,7 @@ class Request:
     output_len: int
 
 
-def sample_tokens(tokenizer: PreTrainedTokenizerBase,
-                  length: int) -> list[int]:
+def sample_tokens(tokenizer: PreTrainedTokenizerBase, length: int) -> list[int]:
     vocab = tokenizer.get_vocab()
     all_special_ids = set(tokenizer.all_special_ids)
 
@@ -91,8 +90,10 @@ def sample_requests_from_dataset(
     # Filter out the conversations with less than 2 turns.
     dataset = [data for data in dataset if len(data["conversations"]) >= 2]
     # Only keep the first two turns of each conversation.
-    dataset = [(data["conversations"][0]["value"],
-                data["conversations"][1]["value"]) for data in dataset]
+    dataset = [
+        (data["conversations"][0]["value"], data["conversations"][1]["value"])
+        for data in dataset
+    ]
 
     # Shuffle the dataset.
     random.shuffle(dataset)
@@ -113,8 +114,9 @@ def sample_requests_from_dataset(
         completion = dataset[i][1]
         completion_token_ids = tokenizer(completion).input_ids
         prompt_len = len(prompt_token_ids)
-        output_len = (len(completion_token_ids)
-                      if fixed_output_len is None else fixed_output_len)
+        output_len = (
+            len(completion_token_ids) if fixed_output_len is None else fixed_output_len
+        )
         if min_len <= prompt_len <= max_len:
             filtered_requests.append(Request(prompt, prompt_len, output_len))
 
@@ -128,27 +130,27 @@ def sample_requests_from_random(
     fixed_output_len: Optional[int],
     prefix_len: int,
 ) -> list[Request]:
-
     requests = []
     prefix_token_ids = sample_tokens(tokenizer, prefix_len)
     min_len, max_len = input_length_range
 
     for i in range(num_requests):
         unique_part_token_ids = sample_tokens(
-            tokenizer,
-            random.randint(min_len - prefix_len, max_len - prefix_len))
+            tokenizer, random.randint(min_len - prefix_len, max_len - prefix_len)
+        )
         prompt_token_ids = prefix_token_ids + unique_part_token_ids
         prompt = tokenizer.decode(prompt_token_ids)
         prompt_len = len(prompt_token_ids)
-        assert (min_len <= prompt_len <= max_len
-                ), f"prompt_len {prompt_len} out of range {min_len}:{max_len}"
+        assert min_len <= prompt_len <= max_len, (
+            f"prompt_len {prompt_len} out of range {min_len}:{max_len}"
+        )
         requests.append(Request(prompt, prompt_len, fixed_output_len))
     return requests
 
 
-def repeat_and_sort_requests(requests: list[Request],
-                             repeat_count: int,
-                             sort: bool = False) -> list[str]:
+def repeat_and_sort_requests(
+    requests: list[Request], repeat_count: int, sort: bool = False
+) -> list[str]:
     repeated_requests = requests * repeat_count
     if sort:
         repeated_requests.sort(key=lambda x: x[1])
@@ -159,14 +161,14 @@ def repeat_and_sort_requests(requests: list[Request],
 
 def main(args):
     tokenizer = get_tokenizer(args.model, trust_remote_code=True)
-    input_length_range = tuple(map(int, args.input_length_range.split(':')))
+    input_length_range = tuple(map(int, args.input_length_range.split(":")))
     random.seed(args.seed)
     if args.dataset_path is not None:
         if args.prefix_len > 0:
-            raise ValueError("prefix-len is not supported when "
-                             "dataset-path is provided.")
-        print(f"Start to sample {args.num_prompts} prompts "
-              f"from {args.dataset_path}")
+            raise ValueError(
+                "prefix-len is not supported when dataset-path is provided."
+            )
+        print(f"Start to sample {args.num_prompts} prompts from {args.dataset_path}")
         filtered_requests = sample_requests_from_dataset(
             dataset_path=args.dataset_path,
             num_requests=args.num_prompts,
@@ -196,14 +198,16 @@ def main(args):
 
     llm = LLM(**dataclasses.asdict(engine_args))
 
-    sampling_params = SamplingParams(temperature=0,
-                                     max_tokens=args.output_len,
-                                     detokenize=not args.disable_detokenize)
+    sampling_params = SamplingParams(
+        temperature=0,
+        max_tokens=args.output_len,
+        detokenize=not args.disable_detokenize,
+    )
 
     print("Testing filtered requests")
-    prompts = repeat_and_sort_requests(filtered_requests,
-                                       repeat_count=args.repeat_count,
-                                       sort=args.sort)
+    prompts = repeat_and_sort_requests(
+        filtered_requests, repeat_count=args.repeat_count, sort=args.sort
+    )
 
     print("------start generating------")
     test_prefix(
@@ -215,29 +219,35 @@ def main(args):
 
 if __name__ == "__main__":
     parser = FlexibleArgumentParser(
-        description=
-        'Benchmark the performance with or without automatic prefix caching.')
-    parser.add_argument("--dataset-path",
-                        type=str,
-                        default=None,
-                        help="Path to the dataset.")
-    parser.add_argument('--output-len', type=int, default=10)
-    parser.add_argument('--num-prompts',
-                        type=int,
-                        required=True,
-                        help="Number of the prompts sampled from dataset")
-    parser.add_argument('--repeat-count',
-                        type=int,
-                        default=1,
-                        help='Number of times to repeat each prompt')
-    parser.add_argument('--sort',
-                        action='store_true',
-                        help='Sort prompts by input length')
-    parser.add_argument('--input-length-range',
-                        type=str,
-                        required=True,
-                        help='Range of input lengths for sampling prompts,'
-                        'specified as "min:max" (e.g., "128:256").')
+        description="Benchmark the performance with or without "
+        "automatic prefix caching."
+    )
+    parser.add_argument(
+        "--dataset-path", type=str, default=None, help="Path to the dataset."
+    )
+    parser.add_argument("--output-len", type=int, default=10)
+    parser.add_argument(
+        "--num-prompts",
+        type=int,
+        required=True,
+        help="Number of the prompts sampled from dataset",
+    )
+    parser.add_argument(
+        "--repeat-count",
+        type=int,
+        default=1,
+        help="Number of times to repeat each prompt",
+    )
+    parser.add_argument(
+        "--sort", action="store_true", help="Sort prompts by input length"
+    )
+    parser.add_argument(
+        "--input-length-range",
+        type=str,
+        required=True,
+        help="Range of input lengths for sampling prompts,"
+        'specified as "min:max" (e.g., "128:256").',
+    )
     parser.add_argument(
         "--prefix-len",
         type=int,
@@ -248,10 +258,12 @@ if __name__ == "__main__":
         "when dataset-path is not provided.",
     )
     parser.add_argument(
-        '--disable-detokenize',
-        action='store_true',
-        help=("Do not detokenize responses (i.e. do not include "
-              "detokenization time in the latency measurement)"),
+        "--disable-detokenize",
+        action="store_true",
+        help=(
+            "Do not detokenize responses (i.e. do not include "
+            "detokenization time in the latency measurement)"
+        ),
     )
 
     parser = EngineArgs.add_cli_args(parser)
diff --git a/benchmarks/benchmark_prioritization.py b/benchmarks/benchmark_prioritization.py
index 76fe00ede..a05dd24de 100644
--- a/benchmarks/benchmark_prioritization.py
+++ b/benchmarks/benchmark_prioritization.py
@@ -1,5 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 """Benchmark offline prioritization."""
+
 import argparse
 import dataclasses
 import json
@@ -13,7 +14,7 @@ from vllm.engine.arg_utils import EngineArgs
 from vllm.utils import FlexibleArgumentParser
 
 
-#Select a equi-probable random priority
+# Select a equi-probable random priority
 def get_random_flag():
     return 0 if random.random() < 0.5 else 1
 
@@ -33,8 +34,10 @@ def sample_requests(
     # Filter out the conversations with less than 2 turns.
     dataset = [data for data in dataset if len(data["conversations"]) >= 2]
     # Only keep the first two turns of each conversation.
-    dataset = [(data["conversations"][0]["value"],
-                data["conversations"][1]["value"]) for data in dataset]
+    dataset = [
+        (data["conversations"][0]["value"], data["conversations"][1]["value"])
+        for data in dataset
+    ]
 
     # Shuffle the dataset.
     random.shuffle(dataset)
@@ -51,8 +54,9 @@ def sample_requests(
         completion = dataset[i][1]
         completion_token_ids = tokenizer(completion).input_ids
         prompt_len = len(prompt_token_ids)
-        output_len = len(completion_token_ids
-                         ) if fixed_output_len is None else fixed_output_len
+        output_len = (
+            len(completion_token_ids) if fixed_output_len is None else fixed_output_len
+        )
         if prompt_len < 4 or output_len < 4:
             # Prune too short sequences.
             continue
@@ -74,13 +78,16 @@ def run_vllm(
     disable_detokenize: bool = False,
 ) -> float:
     from vllm import LLM, SamplingParams
+
     llm = LLM(**dataclasses.asdict(engine_args))
 
     assert all(
         llm.llm_engine.model_config.max_model_len >= (request[1] + request[2])
-        for request in requests), (
-            "Please ensure that max_model_len is greater than the sum of"
-            " input_len and output_len for all requests.")
+        for request in requests
+    ), (
+        "Please ensure that max_model_len is greater than the sum of"
+        " input_len and output_len for all requests."
+    )
 
     # Add the requests to the engine.
     prompts = []
@@ -97,7 +104,8 @@ def run_vllm(
                 ignore_eos=True,
                 max_tokens=output_len,
                 detokenize=not disable_detokenize,
-            ))
+            )
+        )
 
     start = time.perf_counter()
     llm.generate(prompts, sampling_params, priority=priority, use_tqdm=True)
@@ -111,26 +119,33 @@ def main(args: argparse.Namespace):
 
     # Sample the requests.
     tokenizer = AutoTokenizer.from_pretrained(
-        args.tokenizer, trust_remote_code=args.trust_remote_code)
+        args.tokenizer, trust_remote_code=args.trust_remote_code
+    )
     if args.dataset is None:
         # Synthesize a prompt with the given input length.
         prompt = "hi" * (args.input_len - 1)
-        requests = [(prompt, args.input_len, args.output_len,
-                     get_random_flag()) for _ in range(args.num_prompts)]
+        requests = [
+            (prompt, args.input_len, args.output_len, get_random_flag())
+            for _ in range(args.num_prompts)
+        ]
     else:
-        requests = sample_requests(args.dataset, args.num_prompts, tokenizer,
-                                   args.output_len)
+        requests = sample_requests(
+            args.dataset, args.num_prompts, tokenizer, args.output_len
+        )
 
     if args.backend == "vllm":
-        elapsed_time = run_vllm(requests, args.n,
-                                EngineArgs.from_cli_args(args),
-                                args.disable_detokenize)
+        elapsed_time = run_vllm(
+            requests, args.n, EngineArgs.from_cli_args(args), args.disable_detokenize
+        )
     else:
         raise ValueError(f"Unknown backend: {args.backend}")
-    total_num_tokens = sum(prompt_len + output_len
-                           for _, prompt_len, output_len, priority in requests)
-    print(f"Throughput: {len(requests) / elapsed_time:.2f} requests/s, "
-          f"{total_num_tokens / elapsed_time:.2f} tokens/s")
+    total_num_tokens = sum(
+        prompt_len + output_len for _, prompt_len, output_len, priority in requests
+    )
+    print(
+        f"Throughput: {len(requests) / elapsed_time:.2f} requests/s, "
+        f"{total_num_tokens / elapsed_time:.2f} tokens/s"
+    )
 
     # Output JSON results if specified
     if args.output_json:
@@ -147,41 +162,44 @@ def main(args: argparse.Namespace):
 
 if __name__ == "__main__":
     parser = FlexibleArgumentParser(description="Benchmark the throughput.")
-    parser.add_argument("--backend",
-                        type=str,
-                        choices=["vllm", "hf", "mii"],
-                        default="vllm")
-    parser.add_argument("--dataset",
-                        type=str,
-                        default=None,
-                        help="Path to the dataset.")
-    parser.add_argument("--input-len",
-                        type=int,
-                        default=None,
-                        help="Input prompt length for each request")
-    parser.add_argument("--output-len",
-                        type=int,
-                        default=None,
-                        help="Output length for each request. Overrides the "
-                        "output length from the dataset.")
-    parser.add_argument("--n",
-                        type=int,
-                        default=1,
-                        help="Number of generated sequences per prompt.")
-    parser.add_argument("--num-prompts",
-                        type=int,
-                        default=200,
-                        help="Number of prompts to process.")
     parser.add_argument(
-        '--output-json',
+        "--backend", type=str, choices=["vllm", "hf", "mii"], default="vllm"
+    )
+    parser.add_argument(
+        "--dataset", type=str, default=None, help="Path to the dataset."
+    )
+    parser.add_argument(
+        "--input-len",
+        type=int,
+        default=None,
+        help="Input prompt length for each request",
+    )
+    parser.add_argument(
+        "--output-len",
+        type=int,
+        default=None,
+        help="Output length for each request. Overrides the "
+        "output length from the dataset.",
+    )
+    parser.add_argument(
+        "--n", type=int, default=1, help="Number of generated sequences per prompt."
+    )
+    parser.add_argument(
+        "--num-prompts", type=int, default=200, help="Number of prompts to process."
+    )
+    parser.add_argument(
+        "--output-json",
         type=str,
         default=None,
-        help='Path to save the throughput results in JSON format.')
+        help="Path to save the throughput results in JSON format.",
+    )
     parser.add_argument(
-        '--disable-detokenize',
-        action='store_true',
-        help=("Do not detokenize responses (i.e. do not include "
-              "detokenization time in the latency measurement)"),
+        "--disable-detokenize",
+        action="store_true",
+        help=(
+            "Do not detokenize responses (i.e. do not include "
+            "detokenization time in the latency measurement)"
+        ),
     )
 
     parser = EngineArgs.add_cli_args(parser)
diff --git a/benchmarks/benchmark_serving.py b/benchmarks/benchmark_serving.py
index 89fb0e1df..a887e7150 100644
--- a/benchmarks/benchmark_serving.py
+++ b/benchmarks/benchmark_serving.py
@@ -20,6 +20,7 @@ On the client side, run:
         --endpoint /generate_stream
     to the end of the command above.
 """
+
 import argparse
 import asyncio
 import gc
@@ -34,12 +35,16 @@ from datetime import datetime
 from typing import Any, Optional
 
 import numpy as np
-from backend_request_func import (ASYNC_REQUEST_FUNCS,
-                                  OPENAI_COMPATIBLE_BACKENDS, RequestFuncInput,
-                                  RequestFuncOutput)
 from tqdm.asyncio import tqdm
 from transformers import PreTrainedTokenizerBase
 
+from backend_request_func import (
+    ASYNC_REQUEST_FUNCS,
+    OPENAI_COMPATIBLE_BACKENDS,
+    RequestFuncInput,
+    RequestFuncOutput,
+)
+
 try:
     from vllm.transformers_utils.tokenizer import get_tokenizer
 except ImportError:
@@ -50,12 +55,21 @@ try:
 except ImportError:
     from argparse import ArgumentParser as FlexibleArgumentParser
 
-from benchmark_dataset import (AIMODataset, ASRDataset, BurstGPTDataset,
-                               ConversationDataset, HuggingFaceDataset,
-                               InstructCoderDataset, MTBenchDataset,
-                               NextEditPredictionDataset, RandomDataset,
-                               SampleRequest, ShareGPTDataset, SonnetDataset,
-                               VisionArenaDataset)
+from benchmark_dataset import (
+    AIMODataset,
+    ASRDataset,
+    BurstGPTDataset,
+    ConversationDataset,
+    HuggingFaceDataset,
+    InstructCoderDataset,
+    MTBenchDataset,
+    NextEditPredictionDataset,
+    RandomDataset,
+    SampleRequest,
+    ShareGPTDataset,
+    SonnetDataset,
+    VisionArenaDataset,
+)
 from benchmark_utils import convert_to_pytorch_benchmark_format, write_to_json
 
 MILLISECONDS_TO_SECONDS_CONVERSION = 1000
@@ -118,7 +132,8 @@ async def get_request(
 
     # Calculate scale parameter theta to maintain the desired request_rate.
     assert burstiness > 0, (
-        f"A positive burstiness factor is expected, but given {burstiness}.")
+        f"A positive burstiness factor is expected, but given {burstiness}."
+    )
     theta = 1.0 / (request_rate * burstiness)
 
     for request in input_requests:
@@ -164,8 +179,10 @@ def calculate_metrics(
                 # bundled together
                 # Note : this may inflate the output token count slightly
                 output_len = len(
-                    tokenizer(outputs[i].generated_text,
-                              add_special_tokens=False).input_ids)
+                    tokenizer(
+                        outputs[i].generated_text, add_special_tokens=False
+                    ).input_ids
+                )
             actual_output_lens.append(output_len)
             total_input += input_requests[i].prompt_len
             tpot = 0
@@ -188,16 +205,19 @@ def calculate_metrics(
 
         if "ttft" in goodput_config_dict:
             valid_metrics.append(ttfts)
-            slo_values.append(goodput_config_dict["ttft"] /
-                              MILLISECONDS_TO_SECONDS_CONVERSION)
+            slo_values.append(
+                goodput_config_dict["ttft"] / MILLISECONDS_TO_SECONDS_CONVERSION
+            )
         if "tpot" in goodput_config_dict:
             valid_metrics.append(all_tpots)
-            slo_values.append(goodput_config_dict["tpot"] /
-                              MILLISECONDS_TO_SECONDS_CONVERSION)
+            slo_values.append(
+                goodput_config_dict["tpot"] / MILLISECONDS_TO_SECONDS_CONVERSION
+            )
         if "e2el" in goodput_config_dict:
             valid_metrics.append(e2els)
-            slo_values.append(goodput_config_dict["e2el"] /
-                              MILLISECONDS_TO_SECONDS_CONVERSION)
+            slo_values.append(
+                goodput_config_dict["e2el"] / MILLISECONDS_TO_SECONDS_CONVERSION
+            )
 
         for req_metric in zip(*valid_metrics):
             is_good_req = all([s >= r for s, r in zip(slo_values, req_metric)])
@@ -208,7 +228,8 @@ def calculate_metrics(
         warnings.warn(
             "All requests failed. This is likely due to a misconfiguration "
             "on the benchmark arguments.",
-            stacklevel=2)
+            stacklevel=2,
+        )
     metrics = BenchmarkMetrics(
         completed=completed,
         total_input=total_input,
@@ -217,27 +238,31 @@ def calculate_metrics(
         request_goodput=good_completed / dur_s,
         output_throughput=sum(actual_output_lens) / dur_s,
         total_token_throughput=(total_input + sum(actual_output_lens)) / dur_s,
-        mean_ttft_ms=np.mean(ttfts or 0) *
-        1000,  # ttfts is empty if streaming is not supported by backend
+        mean_ttft_ms=np.mean(ttfts or 0)
+        * 1000,  # ttfts is empty if streaming is not supported by backend
         std_ttft_ms=np.std(ttfts or 0) * 1000,
         median_ttft_ms=np.median(ttfts or 0) * 1000,
-        percentiles_ttft_ms=[(p, np.percentile(ttfts or 0, p) * 1000)
-                             for p in selected_percentiles],
+        percentiles_ttft_ms=[
+            (p, np.percentile(ttfts or 0, p) * 1000) for p in selected_percentiles
+        ],
         mean_tpot_ms=np.mean(tpots or 0) * 1000,
         std_tpot_ms=np.std(tpots or 0) * 1000,
         median_tpot_ms=np.median(tpots or 0) * 1000,
-        percentiles_tpot_ms=[(p, np.percentile(tpots or 0, p) * 1000)
-                             for p in selected_percentiles],
+        percentiles_tpot_ms=[
+            (p, np.percentile(tpots or 0, p) * 1000) for p in selected_percentiles
+        ],
         mean_itl_ms=np.mean(itls or 0) * 1000,
         std_itl_ms=np.std(itls or 0) * 1000,
         median_itl_ms=np.median(itls or 0) * 1000,
-        percentiles_itl_ms=[(p, np.percentile(itls or 0, p) * 1000)
-                            for p in selected_percentiles],
+        percentiles_itl_ms=[
+            (p, np.percentile(itls or 0, p) * 1000) for p in selected_percentiles
+        ],
         mean_e2el_ms=np.mean(e2els or 0) * 1000,
         std_e2el_ms=np.std(e2els or 0) * 1000,
         median_e2el_ms=np.median(e2els or 0) * 1000,
-        percentiles_e2el_ms=[(p, np.percentile(e2els or 0, p) * 1000)
-                             for p in selected_percentiles],
+        percentiles_e2el_ms=[
+            (p, np.percentile(e2els or 0, p) * 1000) for p in selected_percentiles
+        ],
     )
 
     return metrics, actual_output_lens
@@ -270,10 +295,12 @@ async def benchmark(
         raise ValueError(f"Unknown backend: {backend}")
 
     print("Starting initial single prompt test run...")
-    test_prompt, test_prompt_len, test_output_len, test_mm_content = \
-        input_requests[0].prompt, input_requests[0].prompt_len, \
-        input_requests[0].expected_output_len, \
-            input_requests[0].multi_modal_data
+    test_prompt, test_prompt_len, test_output_len, test_mm_content = (
+        input_requests[0].prompt,
+        input_requests[0].prompt_len,
+        input_requests[0].expected_output_len,
+        input_requests[0].multi_modal_data,
+    )
 
     assert test_mm_content is None or isinstance(test_mm_content, dict)
     test_input = RequestFuncInput(
@@ -293,36 +320,36 @@ async def benchmark(
     if not test_output.success:
         raise ValueError(
             "Initial test run failed - Please make sure benchmark arguments "
-            f"are correctly specified. Error: {test_output.error}")
+            f"are correctly specified. Error: {test_output.error}"
+        )
     else:
         print("Initial test run completed. Starting main benchmark run...")
 
     if lora_modules:
         # For each input request, choose a LoRA module at random.
         lora_modules = iter(
-            [random.choice(lora_modules) \
-                for _ in range(len(input_requests))])
+            [random.choice(lora_modules) for _ in range(len(input_requests))]
+        )
 
     if profile:
         print("Starting profiler...")
-        profile_input = RequestFuncInput(model=model_id,
-                                         model_name=model_name,
-                                         prompt=test_prompt,
-                                         api_url=base_url + "/start_profile",
-                                         prompt_len=test_prompt_len,
-                                         output_len=test_output_len,
-                                         logprobs=logprobs,
-                                         multi_modal_content=test_mm_content,
-                                         ignore_eos=ignore_eos,
-                                         extra_body=extra_body)
+        profile_input = RequestFuncInput(
+            model=model_id,
+            model_name=model_name,
+            prompt=test_prompt,
+            api_url=base_url + "/start_profile",
+            prompt_len=test_prompt_len,
+            output_len=test_output_len,
+            logprobs=logprobs,
+            multi_modal_content=test_mm_content,
+            ignore_eos=ignore_eos,
+            extra_body=extra_body,
+        )
         profile_output = await request_func(request_func_input=profile_input)
         if profile_output.success:
             print("Profiler started")
 
-    if burstiness == 1.0:
-        distribution = "Poisson process"
-    else:
-        distribution = "Gamma distribution"
+    distribution = "Poisson process" if burstiness == 1.0 else "Gamma distribution"
 
     print(f"Traffic request rate: {request_rate}")
     print(f"Burstiness factor: {burstiness} ({distribution})")
@@ -334,42 +361,45 @@ async def benchmark(
     # and it will simplify the code in limited_request_func.
     #    semaphore = (asyncio.Semaphore(max_concurrency)
     #                 if max_concurrency else contextlib.nullcontext())
-    semaphore = (asyncio.Semaphore(max_concurrency)
-                 if max_concurrency else None)
+    semaphore = asyncio.Semaphore(max_concurrency) if max_concurrency else None
 
     async def limited_request_func(request_func_input, pbar):
         if semaphore is None:
-            return await request_func(request_func_input=request_func_input,
-                                      pbar=pbar)
+            return await request_func(request_func_input=request_func_input, pbar=pbar)
         async with semaphore:
-            return await request_func(request_func_input=request_func_input,
-                                      pbar=pbar)
+            return await request_func(request_func_input=request_func_input, pbar=pbar)
 
     benchmark_start_time = time.perf_counter()
     tasks: list[asyncio.Task] = []
     async for request in get_request(input_requests, request_rate, burstiness):
-        prompt, prompt_len, output_len, mm_content = request.prompt, \
-            request.prompt_len, request.expected_output_len, \
-                request.multi_modal_data
+        prompt, prompt_len, output_len, mm_content = (
+            request.prompt,
+            request.prompt_len,
+            request.expected_output_len,
+            request.multi_modal_data,
+        )
         req_model_id, req_model_name = model_id, model_name
         if lora_modules:
             req_lora_module = next(lora_modules)
             req_model_id, req_model_name = req_lora_module, req_lora_module
 
-        request_func_input = RequestFuncInput(model=req_model_id,
-                                              model_name=req_model_name,
-                                              prompt=prompt,
-                                              api_url=api_url,
-                                              prompt_len=prompt_len,
-                                              output_len=output_len,
-                                              logprobs=logprobs,
-                                              multi_modal_content=mm_content,
-                                              ignore_eos=ignore_eos,
-                                              extra_body=extra_body)
+        request_func_input = RequestFuncInput(
+            model=req_model_id,
+            model_name=req_model_name,
+            prompt=prompt,
+            api_url=api_url,
+            prompt_len=prompt_len,
+            output_len=output_len,
+            logprobs=logprobs,
+            multi_modal_content=mm_content,
+            ignore_eos=ignore_eos,
+            extra_body=extra_body,
+        )
         tasks.append(
             asyncio.create_task(
-                limited_request_func(request_func_input=request_func_input,
-                                     pbar=pbar)))
+                limited_request_func(request_func_input=request_func_input, pbar=pbar)
+            )
+        )
     outputs: list[RequestFuncOutput] = await asyncio.gather(*tasks)
 
     if profile:
@@ -401,22 +431,32 @@ async def benchmark(
         goodput_config_dict=goodput_config_dict,
     )
 
-    print("{s:{c}^{n}}".format(s=' Serving Benchmark Result ', n=50, c='='))
+    print("{s:{c}^{n}}".format(s=" Serving Benchmark Result ", n=50, c="="))
     print("{:<40} {:<10}".format("Successful requests:", metrics.completed))
-    print("{:<40} {:<10.2f}".format("Benchmark duration (s):",
-                                    benchmark_duration))
+    print("{:<40} {:<10.2f}".format("Benchmark duration (s):", benchmark_duration))
     print("{:<40} {:<10}".format("Total input tokens:", metrics.total_input))
-    print("{:<40} {:<10}".format("Total generated tokens:",
-                                 metrics.total_output))
-    print("{:<40} {:<10.2f}".format("Request throughput (req/s):",
-                                    metrics.request_throughput))
+    print("{:<40} {:<10}".format("Total generated tokens:", metrics.total_output))
+    print(
+        "{:<40} {:<10.2f}".format(
+            "Request throughput (req/s):", metrics.request_throughput
+        )
+    )
     if goodput_config_dict:
-        print("{:<40} {:<10.2f}".format("Request goodput (req/s):",
-                                        metrics.request_goodput))
-    print("{:<40} {:<10.2f}".format("Output token throughput (tok/s):",
-                                    metrics.output_throughput))
-    print("{:<40} {:<10.2f}".format("Total Token throughput (tok/s):",
-                                    metrics.total_token_throughput))
+        print(
+            "{:<40} {:<10.2f}".format(
+                "Request goodput (req/s):", metrics.request_goodput
+            )
+        )
+    print(
+        "{:<40} {:<10.2f}".format(
+            "Output token throughput (tok/s):", metrics.output_throughput
+        )
+    )
+    print(
+        "{:<40} {:<10.2f}".format(
+            "Total Token throughput (tok/s):", metrics.total_token_throughput
+        )
+    )
 
     result = {
         "duration": benchmark_duration,
@@ -424,8 +464,7 @@ async def benchmark(
         "total_input_tokens": metrics.total_input,
         "total_output_tokens": metrics.total_output,
         "request_throughput": metrics.request_throughput,
-        "request_goodput:":
-        metrics.request_goodput if goodput_config_dict else None,
+        "request_goodput:": metrics.request_goodput if goodput_config_dict else None,
         "output_throughput": metrics.output_throughput,
         "total_token_throughput": metrics.total_token_throughput,
         "input_lens": [output.prompt_len for output in outputs],
@@ -448,29 +487,35 @@ async def benchmark(
         # metric.
         if metric_attribute_name not in selected_percentile_metrics:
             return
-        print("{s:{c}^{n}}".format(s=metric_header, n=50, c='-'))
-        print("{:<40} {:<10.2f}".format(
-            f"Mean {metric_name} (ms):",
-            getattr(metrics, f"mean_{metric_attribute_name}_ms")))
-        print("{:<40} {:<10.2f}".format(
-            f"Median {metric_name} (ms):",
-            getattr(metrics, f"median_{metric_attribute_name}_ms")))
+        print("{s:{c}^{n}}".format(s=metric_header, n=50, c="-"))
+        print(
+            "{:<40} {:<10.2f}".format(
+                f"Mean {metric_name} (ms):",
+                getattr(metrics, f"mean_{metric_attribute_name}_ms"),
+            )
+        )
+        print(
+            "{:<40} {:<10.2f}".format(
+                f"Median {metric_name} (ms):",
+                getattr(metrics, f"median_{metric_attribute_name}_ms"),
+            )
+        )
         result[f"mean_{metric_attribute_name}_ms"] = getattr(
-            metrics, f"mean_{metric_attribute_name}_ms")
+            metrics, f"mean_{metric_attribute_name}_ms"
+        )
         result[f"median_{metric_attribute_name}_ms"] = getattr(
-            metrics, f"median_{metric_attribute_name}_ms")
+            metrics, f"median_{metric_attribute_name}_ms"
+        )
         result[f"std_{metric_attribute_name}_ms"] = getattr(
-            metrics, f"std_{metric_attribute_name}_ms")
-        for p, value in getattr(metrics,
-                                f"percentiles_{metric_attribute_name}_ms"):
+            metrics, f"std_{metric_attribute_name}_ms"
+        )
+        for p, value in getattr(metrics, f"percentiles_{metric_attribute_name}_ms"):
             p_word = str(int(p)) if int(p) == p else str(p)
-            print("{:<40} {:<10.2f}".format(f"P{p_word} {metric_name} (ms):",
-                                            value))
+            print("{:<40} {:<10.2f}".format(f"P{p_word} {metric_name} (ms):", value))
             result[f"p{p_word}_{metric_attribute_name}_ms"] = value
 
     process_one_metric("ttft", "TTFT", "Time to First Token")
-    process_one_metric("tpot", "TPOT",
-                       "Time per Output Token (excl. 1st token)")
+    process_one_metric("tpot", "TPOT", "Time per Output Token (excl. 1st token)")
     process_one_metric("itl", "ITL", "Inter-token Latency")
     process_one_metric("e2el", "E2EL", "End-to-end Latency")
 
@@ -490,12 +535,14 @@ def check_goodput_args(args):
                 raise ValueError(
                     f"Invalid metric name found, {slo_name}: {slo_val}. "
                     "The service level objective name should be one of "
-                    f"{str(VALID_NAMES)}. ")
+                    f"{str(VALID_NAMES)}. "
+                )
             if slo_val < 0:
                 raise ValueError(
                     f"Invalid value found, {slo_name}: {slo_val}. "
                     "The service level objective value should be "
-                    "non-negative.")
+                    "non-negative."
+                )
     return goodput_config_dict
 
 
@@ -508,31 +555,42 @@ def parse_goodput(slo_pairs):
     except ValueError as err:
         raise argparse.ArgumentTypeError(
             "Invalid format found for service level objectives. "
-            "Specify service level objectives for goodput as \"KEY:VALUE\" "
+            'Specify service level objectives for goodput as "KEY:VALUE" '
             "pairs, where the key is a metric name, and the value is a "
-            "number in milliseconds.") from err
+            "number in milliseconds."
+        ) from err
     return goodput_config_dict
 
 
-def save_to_pytorch_benchmark_format(args: argparse.Namespace,
-                                     results: dict[str, Any],
-                                     file_name: str) -> None:
+def save_to_pytorch_benchmark_format(
+    args: argparse.Namespace, results: dict[str, Any], file_name: str
+) -> None:
     metrics = [
-        "median_ttft_ms", "mean_ttft_ms", "std_ttft_ms", "p99_ttft_ms",
-        "mean_tpot_ms", "median_tpot_ms", "std_tpot_ms", "p99_tpot_ms",
-        "median_itl_ms", "mean_itl_ms", "std_itl_ms", "p99_itl_ms"
+        "median_ttft_ms",
+        "mean_ttft_ms",
+        "std_ttft_ms",
+        "p99_ttft_ms",
+        "mean_tpot_ms",
+        "median_tpot_ms",
+        "std_tpot_ms",
+        "p99_tpot_ms",
+        "median_itl_ms",
+        "mean_itl_ms",
+        "std_itl_ms",
+        "p99_itl_ms",
     ]
     # These raw data might be useful, but they are rather big. They can be added
     # later if needed
     ignored_metrics = ["ttfts", "itls", "generated_texts", "errors"]
     pt_records = convert_to_pytorch_benchmark_format(
         args=args,
-        metrics={k: [results[k]]
-                 for k in metrics},
+        metrics={k: [results[k]] for k in metrics},
         extra_info={
             k: results[k]
-            for k in results if k not in metrics and k not in ignored_metrics
-        })
+            for k in results
+            if k not in metrics and k not in ignored_metrics
+        },
+    )
     if pt_records:
         # Don't use json suffix here as we don't want CI to pick it up
         pt_file = f"{os.path.splitext(file_name)[0]}.pytorch.json"
@@ -557,34 +615,42 @@ def main(args: argparse.Namespace):
         api_url = f"http://{args.host}:{args.port}{args.endpoint}"
         base_url = f"http://{args.host}:{args.port}"
 
-    tokenizer = get_tokenizer(tokenizer_id,
-                              tokenizer_mode=tokenizer_mode,
-                              trust_remote_code=args.trust_remote_code)
+    tokenizer = get_tokenizer(
+        tokenizer_id,
+        tokenizer_mode=tokenizer_mode,
+        trust_remote_code=args.trust_remote_code,
+    )
 
     if args.dataset_name is None:
         raise ValueError(
             "Please specify '--dataset-name' and the corresponding "
-            "'--dataset-path' if required.")
+            "'--dataset-path' if required."
+        )
 
     if args.dataset_name == "sonnet":
         dataset = SonnetDataset(dataset_path=args.dataset_path)
         # For the "sonnet" dataset, formatting depends on the backend.
         if args.backend == "openai-chat":
-            input_requests = dataset.sample(num_requests=args.num_prompts,
-                                            input_len=args.sonnet_input_len,
-                                            output_len=args.sonnet_output_len,
-                                            prefix_len=args.sonnet_prefix_len,
-                                            tokenizer=tokenizer,
-                                            return_prompt_formatted=False)
+            input_requests = dataset.sample(
+                num_requests=args.num_prompts,
+                input_len=args.sonnet_input_len,
+                output_len=args.sonnet_output_len,
+                prefix_len=args.sonnet_prefix_len,
+                tokenizer=tokenizer,
+                return_prompt_formatted=False,
+            )
         else:
             assert tokenizer.chat_template or tokenizer.default_chat_template, (
-                "Tokenizer/model must have chat template for sonnet dataset.")
-            input_requests = dataset.sample(num_requests=args.num_prompts,
-                                            input_len=args.sonnet_input_len,
-                                            output_len=args.sonnet_output_len,
-                                            prefix_len=args.sonnet_prefix_len,
-                                            tokenizer=tokenizer,
-                                            return_prompt_formatted=True)
+                "Tokenizer/model must have chat template for sonnet dataset."
+            )
+            input_requests = dataset.sample(
+                num_requests=args.num_prompts,
+                input_len=args.sonnet_input_len,
+                output_len=args.sonnet_output_len,
+                prefix_len=args.sonnet_prefix_len,
+                tokenizer=tokenizer,
+                return_prompt_formatted=True,
+            )
 
     elif args.dataset_name == "hf":
         # all following datasets are implemented from the
@@ -611,23 +677,30 @@ def main(args: argparse.Namespace):
             dataset_class = ASRDataset
             args.hf_split = "train"
         else:
-            supported_datasets = set([
-                dataset_name for cls in HuggingFaceDataset.__subclasses__()
-                for dataset_name in cls.SUPPORTED_DATASET_PATHS
-            ])
+            supported_datasets = set(
+                [
+                    dataset_name
+                    for cls in HuggingFaceDataset.__subclasses__()
+                    for dataset_name in cls.SUPPORTED_DATASET_PATHS
+                ]
+            )
             raise ValueError(
                 f"Unsupported dataset path: {args.dataset_path}. "
                 "Huggingface dataset only supports dataset_path"
                 f" from one of following: {supported_datasets}. "
                 "Please consider contributing if you would "
-                "like to add support for additional dataset formats.")
+                "like to add support for additional dataset formats."
+            )
 
-        if (dataset_class.IS_MULTIMODAL and backend not in \
-            ["openai-chat", "openai-audio"]):
+        if dataset_class.IS_MULTIMODAL and backend not in [
+            "openai-chat",
+            "openai-audio",
+        ]:
             # multi-modal benchmark is only available on OpenAI Chat backend.
             raise ValueError(
-                "Multi-modal content is only supported on 'openai-chat' and " \
-                "'openai-audio' backend.")
+                "Multi-modal content is only supported on 'openai-chat' and "
+                "'openai-audio' backend."
+            )
         input_requests = dataset_class(
             dataset_path=args.dataset_path,
             dataset_subset=args.hf_subset,
@@ -642,26 +715,24 @@ def main(args: argparse.Namespace):
     else:
         # For datasets that follow a similar structure, use a mapping.
         dataset_mapping = {
-            "sharegpt":
-            lambda: ShareGPTDataset(random_seed=args.seed,
-                                    dataset_path=args.dataset_path).sample(
-                                        tokenizer=tokenizer,
-                                        num_requests=args.num_prompts,
-                                        output_len=args.sharegpt_output_len,
-                                    ),
-            "burstgpt":
-            lambda: BurstGPTDataset(random_seed=args.seed,
-                                    dataset_path=args.dataset_path).
-            sample(tokenizer=tokenizer, num_requests=args.num_prompts),
-            "random":
-            lambda: RandomDataset(dataset_path=args.dataset_path).sample(
+            "sharegpt": lambda: ShareGPTDataset(
+                random_seed=args.seed, dataset_path=args.dataset_path
+            ).sample(
+                tokenizer=tokenizer,
+                num_requests=args.num_prompts,
+                output_len=args.sharegpt_output_len,
+            ),
+            "burstgpt": lambda: BurstGPTDataset(
+                random_seed=args.seed, dataset_path=args.dataset_path
+            ).sample(tokenizer=tokenizer, num_requests=args.num_prompts),
+            "random": lambda: RandomDataset(dataset_path=args.dataset_path).sample(
                 tokenizer=tokenizer,
                 num_requests=args.num_prompts,
                 prefix_len=args.random_prefix_len,
                 input_len=args.random_input_len,
                 output_len=args.random_output_len,
                 range_ratio=args.random_range_ratio,
-            )
+            ),
         }
 
         try:
@@ -677,15 +748,16 @@ def main(args: argparse.Namespace):
             "top_p": args.top_p,
             "top_k": args.top_k,
             "min_p": args.min_p,
-            "temperature": args.temperature
-        }.items() if v is not None
+            "temperature": args.temperature,
+        }.items()
+        if v is not None
     }
 
     # Sampling parameters are only supported by openai-compatible backend.
     if sampling_params and args.backend not in OPENAI_COMPATIBLE_BACKENDS:
         raise ValueError(
-            "Sampling parameters are only supported by openai-compatible "
-            "backends.")
+            "Sampling parameters are only supported by openai-compatible backends."
+        )
 
     if "temperature" not in sampling_params:
         sampling_params["temperature"] = 0.0  # Default to greedy decoding.
@@ -709,15 +781,14 @@ def main(args: argparse.Namespace):
             disable_tqdm=args.disable_tqdm,
             profile=args.profile,
             selected_percentile_metrics=args.percentile_metrics.split(","),
-            selected_percentiles=[
-                float(p) for p in args.metric_percentiles.split(",")
-            ],
+            selected_percentiles=[float(p) for p in args.metric_percentiles.split(",")],
             ignore_eos=args.ignore_eos,
             goodput_config_dict=goodput_config_dict,
             max_concurrency=args.max_concurrency,
             lora_modules=args.lora_modules,
             extra_body=sampling_params,
-        ))
+        )
+    )
 
     # Save config and results to json
     if args.save_result or args.append_result:
@@ -742,8 +813,9 @@ def main(args: argparse.Namespace):
                         "Invalid metadata format. Please use KEY=VALUE format."
                     )
         # Traffic
-        result_json["request_rate"] = (args.request_rate if args.request_rate
-                                       < float("inf") else "inf")
+        result_json["request_rate"] = (
+            args.request_rate if args.request_rate < float("inf") else "inf"
+        )
         result_json["burstiness"] = args.burstiness
         result_json["max_concurrency"] = args.max_concurrency
 
@@ -753,24 +825,31 @@ def main(args: argparse.Namespace):
         if not args.save_detailed:
             # Remove fields with too many data points
             for field in [
-                    "input_lens", "output_lens", "ttfts", "itls",
-                    "generated_texts", "errors"
+                "input_lens",
+                "output_lens",
+                "ttfts",
+                "itls",
+                "generated_texts",
+                "errors",
             ]:
                 if field in result_json:
                     del result_json[field]
 
         # Save to file
         base_model_id = model_id.split("/")[-1]
-        max_concurrency_str = (f"-concurrency{args.max_concurrency}"
-                               if args.max_concurrency is not None else "")
-        file_name = f"{backend}-{args.request_rate}qps{max_concurrency_str}-{base_model_id}-{current_dt}.json"  #noqa
+        max_concurrency_str = (
+            f"-concurrency{args.max_concurrency}"
+            if args.max_concurrency is not None
+            else ""
+        )
+        file_name = f"{backend}-{args.request_rate}qps{max_concurrency_str}-{base_model_id}-{current_dt}.json"  # noqa
         if args.result_filename:
             file_name = args.result_filename
         if args.result_dir:
             file_name = os.path.join(args.result_dir, file_name)
-        with open(file_name,
-                  mode="a+" if args.append_result else "w",
-                  encoding='utf-8') as outfile:
+        with open(
+            file_name, mode="a+" if args.append_result else "w", encoding="utf-8"
+        ) as outfile:
             # Append a newline.
             if args.append_result and outfile.tell() != 0:
                 outfile.write("\n")
@@ -780,7 +859,8 @@ def main(args: argparse.Namespace):
 
 if __name__ == "__main__":
     parser = FlexibleArgumentParser(
-        description="Benchmark the online serving throughput.")
+        description="Benchmark the online serving throughput."
+    )
     parser.add_argument(
         "--backend",
         type=str,
@@ -809,11 +889,13 @@ if __name__ == "__main__":
         choices=["sharegpt", "burstgpt", "sonnet", "random", "hf"],
         help="Name of the dataset to benchmark on.",
     )
-    parser.add_argument("--dataset-path",
-                        type=str,
-                        default=None,
-                        help="Path to the sharegpt/sonnet dataset. "
-                        "Or the huggingface dataset ID if using HF dataset.")
+    parser.add_argument(
+        "--dataset-path",
+        type=str,
+        default=None,
+        help="Path to the sharegpt/sonnet dataset. "
+        "Or the huggingface dataset ID if using HF dataset.",
+    )
     parser.add_argument(
         "--max-concurrency",
         type=int,
@@ -825,7 +907,8 @@ if __name__ == "__main__":
         "initiated, this argument will control how many are actually allowed "
         "to execute at a time. This means that when used in combination, the "
         "actual request rate may be lower than specified with --request-rate, "
-        "if the server is not processing requests fast enough to keep up.")
+        "if the server is not processing requests fast enough to keep up.",
+    )
 
     parser.add_argument(
         "--model",
@@ -836,8 +919,7 @@ if __name__ == "__main__":
     parser.add_argument(
         "--tokenizer",
         type=str,
-        help=
-        "Name or path of the tokenizer, if not using the default tokenizer.",  # noqa: E501
+        help="Name or path of the tokenizer, if not using the default tokenizer.",  # noqa: E501
     )
     parser.add_argument("--use-beam-search", action="store_true")
     parser.add_argument(
@@ -850,11 +932,13 @@ if __name__ == "__main__":
         "--logprobs",
         type=int,
         default=None,
-        help=("Number of logprobs-per-token to compute & return as part of "
-              "the request. If unspecified, then either (1) if beam search "
-              "is disabled, no logprobs are computed & a single dummy "
-              "logprob is returned for each token; or (2) if beam search "
-              "is enabled 1 logprob per token is computed"),
+        help=(
+            "Number of logprobs-per-token to compute & return as part of "
+            "the request. If unspecified, then either (1) if beam search "
+            "is disabled, no logprobs are computed & a single dummy "
+            "logprob is returned for each token; or (2) if beam search "
+            "is enabled 1 logprob per token is computed"
+        ),
     )
     parser.add_argument(
         "--request-rate",
@@ -938,35 +1022,38 @@ if __name__ == "__main__":
         "--ignore-eos",
         action="store_true",
         help="Set ignore_eos flag when sending the benchmark request."
-        "Warning: ignore_eos is not supported in deepspeed_mii and tgi.")
+        "Warning: ignore_eos is not supported in deepspeed_mii and tgi.",
+    )
     parser.add_argument(
         "--percentile-metrics",
         type=str,
         default="ttft,tpot,itl",
         help="Comma-separated list of selected metrics to report percentils. "
         "This argument specifies the metrics to report percentiles. "
-        "Allowed metric names are \"ttft\", \"tpot\", \"itl\", \"e2el\". "
-        "Default value is \"ttft,tpot,itl\".")
+        'Allowed metric names are "ttft", "tpot", "itl", "e2el". '
+        'Default value is "ttft,tpot,itl".',
+    )
     parser.add_argument(
         "--metric-percentiles",
         type=str,
         default="99",
         help="Comma-separated list of percentiles for selected metrics. "
-        "To report 25-th, 50-th, and 75-th percentiles, use \"25,50,75\". "
-        "Default value is \"99\". "
-        "Use \"--percentile-metrics\" to select metrics.",
+        'To report 25-th, 50-th, and 75-th percentiles, use "25,50,75". '
+        'Default value is "99". '
+        'Use "--percentile-metrics" to select metrics.',
     )
     parser.add_argument(
         "--goodput",
         nargs="+",
         required=False,
-        help="Specify service level objectives for goodput as \"KEY:VALUE\" "
+        help='Specify service level objectives for goodput as "KEY:VALUE" '
         "pairs, where the key is a metric name, and the value is in "
-        "milliseconds. Multiple \"KEY:VALUE\" pairs can be provided, "
+        'milliseconds. Multiple "KEY:VALUE" pairs can be provided, '
         "separated by spaces. Allowed request level metric names are "
-        "\"ttft\", \"tpot\", \"e2el\". For more context on the definition of "
+        '"ttft", "tpot", "e2el". For more context on the definition of '
         "goodput, refer to DistServe paper: https://arxiv.org/pdf/2401.09670 "
-        "and the blog: https://hao-ai-lab.github.io/blogs/distserve")
+        "and the blog: https://hao-ai-lab.github.io/blogs/distserve",
+    )
 
     # group for dataset specific arguments
     sonnet_group = parser.add_argument_group("sonnet dataset options")
@@ -974,22 +1061,19 @@ if __name__ == "__main__":
         "--sonnet-input-len",
         type=int,
         default=550,
-        help=
-        "Number of input tokens per request, used only for sonnet dataset.",
+        help="Number of input tokens per request, used only for sonnet dataset.",
     )
     sonnet_group.add_argument(
         "--sonnet-output-len",
         type=int,
         default=150,
-        help=
-        "Number of output tokens per request, used only for sonnet dataset.",
+        help="Number of output tokens per request, used only for sonnet dataset.",
     )
     sonnet_group.add_argument(
         "--sonnet-prefix-len",
         type=int,
         default=200,
-        help=
-        "Number of prefix tokens per request, used only for sonnet dataset.",
+        help="Number of prefix tokens per request, used only for sonnet dataset.",
     )
 
     sharegpt_group = parser.add_argument_group("sharegpt dataset options")
@@ -998,22 +1082,21 @@ if __name__ == "__main__":
         type=int,
         default=None,
         help="Output length for each request. Overrides the output length "
-        "from the ShareGPT dataset.")
+        "from the ShareGPT dataset.",
+    )
 
     random_group = parser.add_argument_group("random dataset options")
     random_group.add_argument(
         "--random-input-len",
         type=int,
         default=1024,
-        help=
-        "Number of input tokens per request, used only for random sampling.",
+        help="Number of input tokens per request, used only for random sampling.",
     )
     random_group.add_argument(
         "--random-output-len",
         type=int,
         default=128,
-        help=
-        "Number of output tokens per request, used only for random sampling.",
+        help="Number of output tokens per request, used only for random sampling.",
     )
     random_group.add_argument(
         "--random-range-ratio",
@@ -1028,23 +1111,23 @@ if __name__ == "__main__":
         "--random-prefix-len",
         type=int,
         default=0,
-        help=("Number of fixed prefix tokens before the random context "
-              "in a request. "
-              "The total input length is the sum of `random-prefix-len` and "
-              "a random "
-              "context length sampled from [input_len * (1 - range_ratio), "
-              "input_len * (1 + range_ratio)]."),
+        help=(
+            "Number of fixed prefix tokens before the random context "
+            "in a request. "
+            "The total input length is the sum of `random-prefix-len` and "
+            "a random "
+            "context length sampled from [input_len * (1 - range_ratio), "
+            "input_len * (1 + range_ratio)]."
+        ),
     )
 
     hf_group = parser.add_argument_group("hf dataset options")
-    hf_group.add_argument("--hf-subset",
-                          type=str,
-                          default=None,
-                          help="Subset of the HF dataset.")
-    hf_group.add_argument("--hf-split",
-                          type=str,
-                          default=None,
-                          help="Split of the HF dataset.")
+    hf_group.add_argument(
+        "--hf-subset", type=str, default=None, help="Subset of the HF dataset."
+    )
+    hf_group.add_argument(
+        "--hf-split", type=str, default=None, help="Split of the HF dataset."
+    )
     hf_group.add_argument(
         "--hf-output-len",
         type=int,
@@ -1058,52 +1141,58 @@ if __name__ == "__main__":
         "--top-p",
         type=float,
         default=None,
-        help="Top-p sampling parameter. Only has effect on openai-compatible "
-        "backends.")
+        help="Top-p sampling parameter. Only has effect on openai-compatible backends.",
+    )
     sampling_group.add_argument(
         "--top-k",
         type=int,
         default=None,
-        help="Top-k sampling parameter. Only has effect on openai-compatible "
-        "backends.")
+        help="Top-k sampling parameter. Only has effect on openai-compatible backends.",
+    )
     sampling_group.add_argument(
         "--min-p",
         type=float,
         default=None,
-        help="Min-p sampling parameter. Only has effect on openai-compatible "
-        "backends.")
+        help="Min-p sampling parameter. Only has effect on openai-compatible backends.",
+    )
     sampling_group.add_argument(
         "--temperature",
         type=float,
         default=None,
         help="Temperature sampling parameter. Only has effect on "
         "openai-compatible backends. If not specified, default to greedy "
-        "decoding (i.e. temperature==0.0).")
+        "decoding (i.e. temperature==0.0).",
+    )
 
     parser.add_argument(
-        '--tokenizer-mode',
+        "--tokenizer-mode",
         type=str,
         default="auto",
-        choices=['auto', 'slow', 'mistral', 'custom'],
+        choices=["auto", "slow", "mistral", "custom"],
         help='The tokenizer mode.\n\n* "auto" will use the '
         'fast tokenizer if available.\n* "slow" will '
-        'always use the slow tokenizer. \n* '
+        "always use the slow tokenizer. \n* "
         '"mistral" will always use the `mistral_common` tokenizer. \n*'
-        '"custom" will use --tokenizer to select the preregistered tokenizer.')
-
-    parser.add_argument("--served-model-name",
-                        type=str,
-                        default=None,
-                        help="The model name used in the API. "
-                        "If not specified, the model name will be the "
-                        "same as the ``--model`` argument. ")
-
-    parser.add_argument("--lora-modules",
-                        nargs='+',
-                        default=None,
-                        help="A subset of LoRA module names passed in when "
-                        "launching the server. For each request, the "
-                        "script chooses a LoRA module at random.")
+        '"custom" will use --tokenizer to select the preregistered tokenizer.',
+    )
+
+    parser.add_argument(
+        "--served-model-name",
+        type=str,
+        default=None,
+        help="The model name used in the API. "
+        "If not specified, the model name will be the "
+        "same as the ``--model`` argument. ",
+    )
+
+    parser.add_argument(
+        "--lora-modules",
+        nargs="+",
+        default=None,
+        help="A subset of LoRA module names passed in when "
+        "launching the server. For each request, the "
+        "script chooses a LoRA module at random.",
+    )
 
     args = parser.parse_args()
 
diff --git a/benchmarks/benchmark_serving_structured_output.py b/benchmarks/benchmark_serving_structured_output.py
index 9084255d2..5088c805f 100644
--- a/benchmarks/benchmark_serving_structured_output.py
+++ b/benchmarks/benchmark_serving_structured_output.py
@@ -19,6 +19,7 @@ On the client side, run:
         --endpoint /generate_stream
     to the end of the command above.
 """
+
 import argparse
 import asyncio
 import copy
@@ -36,11 +37,15 @@ from typing import Optional
 import datasets
 import numpy as np
 import pandas as pd
-from backend_request_func import (ASYNC_REQUEST_FUNCS, RequestFuncInput,
-                                  RequestFuncOutput)
 from tqdm.asyncio import tqdm
 from transformers import PreTrainedTokenizerBase
 
+from backend_request_func import (
+    ASYNC_REQUEST_FUNCS,
+    RequestFuncInput,
+    RequestFuncOutput,
+)
+
 try:
     from vllm.transformers_utils.tokenizer import get_tokenizer
 except ImportError:
@@ -52,7 +57,8 @@ except ImportError:
     from argparse import ArgumentParser as FlexibleArgumentParser
 
 from vllm.v1.structured_output.backend_xgrammar import (
-    has_xgrammar_unsupported_json_features)
+    has_xgrammar_unsupported_json_features,
+)
 
 MILLISECONDS_TO_SECONDS_CONVERSION = 1000
 
@@ -98,6 +104,7 @@ class SampleRequest:
         prompt_len: The length of the prompt in tokens.
         expected_output_len: The expected length of the output in tokens.
     """
+
     prompt: str
     prompt_len: int
     expected_output_len: int
@@ -106,32 +113,28 @@ class SampleRequest:
     completion: str = None
 
 
-def sample_requests(tokenizer: PreTrainedTokenizerBase,
-                    args: argparse.Namespace) -> list[SampleRequest]:
-    if args.dataset == 'json' or args.dataset == 'json-unique':
+def sample_requests(
+    tokenizer: PreTrainedTokenizerBase, args: argparse.Namespace
+) -> list[SampleRequest]:
+    if args.dataset == "json" or args.dataset == "json-unique":
         if args.json_schema_path is None:
             dir_path = os.path.dirname(os.path.realpath(__file__))
-            args.json_schema_path = os.path.join(dir_path,
-                                                 "structured_schemas",
-                                                 "structured_schema_1.json")
+            args.json_schema_path = os.path.join(
+                dir_path, "structured_schemas", "structured_schema_1.json"
+            )
         json_schemas = []
         with open(args.json_schema_path) as f:
             schema = json.load(f)
 
-        if args.dataset == 'json-unique':
-            json_schemas = [
-                copy.deepcopy(schema) for _ in range(args.num_prompts)
-            ]
+        if args.dataset == "json-unique":
+            json_schemas = [copy.deepcopy(schema) for _ in range(args.num_prompts)]
             for i in range(len(json_schemas)):
                 if "properties" not in json_schemas[i]:
                     json_schemas[i]["properties"] = {}
-                json_schemas[i]["properties"][
-                    f"__optional_field_{uuid.uuid4()}"] = {
-                        "type":
-                        "string",
-                        "description":
-                        "An unique optional field to avoid cached schemas"
-                    }
+                json_schemas[i]["properties"][f"__optional_field_{uuid.uuid4()}"] = {
+                    "type": "string",
+                    "description": "An unique optional field to avoid cached schemas",
+                }
         else:
             json_schemas = [schema] * args.num_prompts
 
@@ -142,11 +145,13 @@ def sample_requests(tokenizer: PreTrainedTokenizerBase,
             return json_schemas[index % len(json_schemas)]
 
         requests = [
-            SampleRequest(prompt=gen_prompt(i),
-                          prompt_len=len(tokenizer(gen_prompt(i)).input_ids),
-                          expected_output_len=args.output_len,
-                          schema=get_schema(i),
-                          structure_type=args.structure_type)
+            SampleRequest(
+                prompt=gen_prompt(i),
+                prompt_len=len(tokenizer(gen_prompt(i)).input_ids),
+                expected_output_len=args.output_len,
+                schema=get_schema(i),
+                structure_type=args.structure_type,
+            )
             for i in range(args.num_prompts)
         ]
 
@@ -170,11 +175,13 @@ def sample_requests(tokenizer: PreTrainedTokenizerBase,
         input_len = len(tokenizer(prompt).input_ids)
         print(f"Input length of the prompt: {input_len} tokens")
         requests = [
-            SampleRequest(prompt=prompt,
-                          prompt_len=input_len,
-                          expected_output_len=args.output_len,
-                          schema=schema,
-                          structure_type=args.structure_type)
+            SampleRequest(
+                prompt=prompt,
+                prompt_len=input_len,
+                expected_output_len=args.output_len,
+                schema=schema,
+                structure_type=args.structure_type,
+            )
             for _ in range(args.num_prompts)
         ]
 
@@ -188,11 +195,13 @@ def sample_requests(tokenizer: PreTrainedTokenizerBase,
         input_len = len(tokenizer(prompt).input_ids)
         print(f"Input length of the prompt: {input_len} tokens")
         requests = [
-            SampleRequest(prompt=prompt,
-                          prompt_len=input_len,
-                          expected_output_len=args.output_len,
-                          schema=regex,
-                          structure_type=args.structure_type)
+            SampleRequest(
+                prompt=prompt,
+                prompt_len=input_len,
+                expected_output_len=args.output_len,
+                schema=regex,
+                structure_type=args.structure_type,
+            )
             for _ in range(args.num_prompts)
         ]
 
@@ -203,48 +212,55 @@ def sample_requests(tokenizer: PreTrainedTokenizerBase,
         input_len = len(tokenizer(prompt).input_ids)
         print(f"Input length of the prompt: {input_len} tokens")
         requests = [
-            SampleRequest(prompt=prompt,
-                          prompt_len=input_len,
-                          expected_output_len=args.output_len,
-                          schema=choice,
-                          structure_type=args.structure_type)
+            SampleRequest(
+                prompt=prompt,
+                prompt_len=input_len,
+                expected_output_len=args.output_len,
+                schema=choice,
+                structure_type=args.structure_type,
+            )
             for _ in range(args.num_prompts)
         ]
 
     elif args.dataset == "xgrammar_bench":
         requests: list[SampleRequest] = []
-        dataset = datasets.load_dataset("NousResearch/json-mode-eval",
-                                        split="train")
+        dataset = datasets.load_dataset("NousResearch/json-mode-eval", split="train")
         full_dataset_len = len(dataset)
 
         def _filter_func(item):
             import json
+
             schema = json.loads(item["schema"])
             return not has_xgrammar_unsupported_json_features(schema)
 
         dataset = dataset.filter(_filter_func)
         num_filtered_out = full_dataset_len - len(dataset)
-        print(f"dataset has {len(dataset)} entries after filtering "
-              f"out {num_filtered_out} entries with unsupported features")
+        print(
+            f"dataset has {len(dataset)} entries after filtering "
+            f"out {num_filtered_out} entries with unsupported features"
+        )
         len_dataset = len(dataset)
         for data_point_idx in range(args.num_prompts):
             idx = data_point_idx
             while idx >= len_dataset:
                 idx -= len_dataset
             schema = dataset["schema"][idx]
-            prompt = tokenizer.apply_chat_template(dataset["prompt"][idx],
-                                                   tokenize=False,
-                                                   add_generation_prompt=True)
+            prompt = tokenizer.apply_chat_template(
+                dataset["prompt"][idx], tokenize=False, add_generation_prompt=True
+            )
             input_len = len(tokenizer(prompt).input_ids)
             completion = dataset["completion"][idx]
 
             requests.append(
-                SampleRequest(prompt=prompt,
-                              prompt_len=input_len,
-                              expected_output_len=args.output_len,
-                              schema=schema,
-                              structure_type=args.structure_type,
-                              completion=completion))
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=input_len,
+                    expected_output_len=args.output_len,
+                    schema=schema,
+                    structure_type=args.structure_type,
+                    completion=completion,
+                )
+            )
 
     return requests
 
@@ -276,7 +292,8 @@ async def get_request(
 
     # Calculate scale parameter theta to maintain the desired request_rate.
     assert burstiness > 0, (
-        f"A positive burstiness factor is expected, but given {burstiness}.")
+        f"A positive burstiness factor is expected, but given {burstiness}."
+    )
     theta = 1.0 / (request_rate * burstiness)
 
     for i, request in enumerate(input_requests):
@@ -318,8 +335,8 @@ def calculate_metrics(
             # multiple output tokens may be bundled together
             # Note : this may inflate the output token count slightly
             output_len = len(
-                tokenizer(outputs[i].generated_text,
-                          add_special_tokens=False).input_ids)
+                tokenizer(outputs[i].generated_text, add_special_tokens=False).input_ids
+            )
             actual_output_lens.append(output_len)
             total_input += input_requests[i].prompt_len
             tpot = 0
@@ -343,16 +360,19 @@ def calculate_metrics(
 
         if "ttft" in goodput_config_dict:
             valid_metrics.append(ttfts)
-            slo_values.append(goodput_config_dict["ttft"] /
-                              MILLISECONDS_TO_SECONDS_CONVERSION)
+            slo_values.append(
+                goodput_config_dict["ttft"] / MILLISECONDS_TO_SECONDS_CONVERSION
+            )
         if "tpot" in goodput_config_dict:
             valid_metrics.append(all_tpots)
-            slo_values.append(goodput_config_dict["tpot"] /
-                              MILLISECONDS_TO_SECONDS_CONVERSION)
+            slo_values.append(
+                goodput_config_dict["tpot"] / MILLISECONDS_TO_SECONDS_CONVERSION
+            )
         if "e2el" in goodput_config_dict:
             valid_metrics.append(e2els)
-            slo_values.append(goodput_config_dict["e2el"] /
-                              MILLISECONDS_TO_SECONDS_CONVERSION)
+            slo_values.append(
+                goodput_config_dict["e2el"] / MILLISECONDS_TO_SECONDS_CONVERSION
+            )
 
         for req_metric in zip(*valid_metrics):
             is_good_req = all([s >= r for s, r in zip(slo_values, req_metric)])
@@ -363,7 +383,8 @@ def calculate_metrics(
         warnings.warn(
             "All requests failed. This is likely due to a misconfiguration "
             "on the benchmark arguments.",
-            stacklevel=2)
+            stacklevel=2,
+        )
     metrics = BenchmarkMetrics(
         completed=completed,
         total_input=total_input,
@@ -372,27 +393,31 @@ def calculate_metrics(
         request_goodput=good_completed / dur_s,
         output_throughput=sum(actual_output_lens) / dur_s,
         total_token_throughput=(total_input + sum(actual_output_lens)) / dur_s,
-        mean_ttft_ms=np.mean(ttfts or 0) *
-        1000,  # ttfts is empty if streaming is not supported by backend
+        mean_ttft_ms=np.mean(ttfts or 0)
+        * 1000,  # ttfts is empty if streaming is not supported by backend
         std_ttft_ms=np.std(ttfts or 0) * 1000,
         median_ttft_ms=np.median(ttfts or 0) * 1000,
-        percentiles_ttft_ms=[(p, np.percentile(ttfts or 0, p) * 1000)
-                             for p in selected_percentiles],
+        percentiles_ttft_ms=[
+            (p, np.percentile(ttfts or 0, p) * 1000) for p in selected_percentiles
+        ],
         mean_tpot_ms=np.mean(tpots or 0) * 1000,
         std_tpot_ms=np.std(tpots or 0) * 1000,
         median_tpot_ms=np.median(tpots or 0) * 1000,
-        percentiles_tpot_ms=[(p, np.percentile(tpots or 0, p) * 1000)
-                             for p in selected_percentiles],
+        percentiles_tpot_ms=[
+            (p, np.percentile(tpots or 0, p) * 1000) for p in selected_percentiles
+        ],
         mean_itl_ms=np.mean(itls or 0) * 1000,
         std_itl_ms=np.std(itls or 0) * 1000,
         median_itl_ms=np.median(itls or 0) * 1000,
-        percentiles_itl_ms=[(p, np.percentile(itls or 0, p) * 1000)
-                            for p in selected_percentiles],
+        percentiles_itl_ms=[
+            (p, np.percentile(itls or 0, p) * 1000) for p in selected_percentiles
+        ],
         mean_e2el_ms=np.mean(e2els or 0) * 1000,
         std_e2el_ms=np.std(e2els or 0) * 1000,
         median_e2el_ms=np.median(e2els or 0) * 1000,
-        percentiles_e2el_ms=[(p, np.percentile(e2els or 0, p) * 1000)
-                             for p in selected_percentiles],
+        percentiles_e2el_ms=[
+            (p, np.percentile(e2els or 0, p) * 1000) for p in selected_percentiles
+        ],
     )
 
     return metrics, actual_output_lens
@@ -429,12 +454,13 @@ async def benchmark(
 
     print("Starting initial single prompt test run...")
     structured_output_req_idx = random.sample(
-        range(len(input_requests)),
-        int(len(input_requests) * structured_output_ratio))
+        range(len(input_requests)), int(len(input_requests) * structured_output_ratio)
+    )
 
     test_request = input_requests[0]
-    test_req_extra_body = (prepare_extra_body(test_request)
-                           if 0 in structured_output_req_idx else None)
+    test_req_extra_body = (
+        prepare_extra_body(test_request) if 0 in structured_output_req_idx else None
+    )
     test_input = RequestFuncInput(
         model=model_id,
         prompt=test_request.prompt,
@@ -448,7 +474,8 @@ async def benchmark(
     if not test_output.success:
         raise ValueError(
             "Initial test run failed - Please make sure benchmark arguments "
-            f"are correctly specified. Error: {test_output.error}")
+            f"are correctly specified. Error: {test_output.error}"
+        )
     else:
         print("Initial test run completed. Starting main benchmark run...")
 
@@ -467,10 +494,7 @@ async def benchmark(
         if profile_output.success:
             print("Profiler started")
 
-    if burstiness == 1.0:
-        distribution = "Poisson process"
-    else:
-        distribution = "Gamma distribution"
+    distribution = "Poisson process" if burstiness == 1.0 else "Gamma distribution"
 
     print(f"Traffic request rate: {request_rate}")
     print(f"Burstiness factor: {burstiness} ({distribution})")
@@ -482,24 +506,21 @@ async def benchmark(
     # and it will simplify the code in limited_request_func.
     #    semaphore = (asyncio.Semaphore(max_concurrency)
     #                 if max_concurrency else contextlib.nullcontext())
-    semaphore = (asyncio.Semaphore(max_concurrency)
-                 if max_concurrency else None)
+    semaphore = asyncio.Semaphore(max_concurrency) if max_concurrency else None
 
     async def limited_request_func(request_func_input, pbar):
         if semaphore is None:
-            return await request_func(request_func_input=request_func_input,
-                                      pbar=pbar)
+            return await request_func(request_func_input=request_func_input, pbar=pbar)
         async with semaphore:
-            return await request_func(request_func_input=request_func_input,
-                                      pbar=pbar)
+            return await request_func(request_func_input=request_func_input, pbar=pbar)
 
     benchmark_start_time = time.perf_counter()
     tasks: list[asyncio.Task] = []
     expected: list[str] = []
-    async for i, request in get_request(input_requests, request_rate,
-                                        burstiness):
-        extra_body = prepare_extra_body(
-            request) if i in structured_output_req_idx else None
+    async for i, request in get_request(input_requests, request_rate, burstiness):
+        extra_body = (
+            prepare_extra_body(request) if i in structured_output_req_idx else None
+        )
         request_func_input = RequestFuncInput(
             model=model_id,
             prompt=request.prompt,
@@ -512,8 +533,9 @@ async def benchmark(
         expected.append(request.completion)
         tasks.append(
             asyncio.create_task(
-                limited_request_func(request_func_input=request_func_input,
-                                     pbar=pbar)))
+                limited_request_func(request_func_input=request_func_input, pbar=pbar)
+            )
+        )
     outputs: list[RequestFuncOutput] = await asyncio.gather(*tasks)
 
     if profile:
@@ -545,54 +567,58 @@ async def benchmark(
         goodput_config_dict=goodput_config_dict,
     )
 
-    print("{s:{c}^{n}}".format(s=' Serving Benchmark Result ', n=50, c='='))
+    print("{s:{c}^{n}}".format(s=" Serving Benchmark Result ", n=50, c="="))
     print("{:<40} {:<10}".format("Successful requests:", metrics.completed))
-    print("{:<40} {:<10.2f}".format("Benchmark duration (s):",
-                                    benchmark_duration))
+    print("{:<40} {:<10.2f}".format("Benchmark duration (s):", benchmark_duration))
     print("{:<40} {:<10}".format("Total input tokens:", metrics.total_input))
-    print("{:<40} {:<10}".format("Total generated tokens:",
-                                 metrics.total_output))
-    print("{:<40} {:<10.2f}".format("Request throughput (req/s):",
-                                    metrics.request_throughput))
+    print("{:<40} {:<10}".format("Total generated tokens:", metrics.total_output))
+    print(
+        "{:<40} {:<10.2f}".format(
+            "Request throughput (req/s):", metrics.request_throughput
+        )
+    )
     if goodput_config_dict:
-        print("{:<40} {:<10.2f}".format("Request goodput (req/s):",
-                                        metrics.request_goodput))
-    print("{:<40} {:<10.2f}".format("Output token throughput (tok/s):",
-                                    metrics.output_throughput))
-    print("{:<40} {:<10.2f}".format("Total Token throughput (tok/s):",
-                                    metrics.total_token_throughput))
+        print(
+            "{:<40} {:<10.2f}".format(
+                "Request goodput (req/s):", metrics.request_goodput
+            )
+        )
+    print(
+        "{:<40} {:<10.2f}".format(
+            "Output token throughput (tok/s):", metrics.output_throughput
+        )
+    )
+    print(
+        "{:<40} {:<10.2f}".format(
+            "Total Token throughput (tok/s):", metrics.total_token_throughput
+        )
+    )
 
     result = {
-        "duration":
-        benchmark_duration,
-        "completed":
-        metrics.completed,
-        "total_input_tokens":
-        metrics.total_input,
-        "total_output_tokens":
-        metrics.total_output,
-        "request_throughput":
-        metrics.request_throughput,
-        "output_throughput":
-        metrics.output_throughput,
-        "total_token_throughput":
-        metrics.total_token_throughput,
-        "ttft_description":
-        pd.Series([output.ttft for output in outputs]).describe().to_dict(),
-        "tpot_description":
-        pd.Series([output.tpot for output in outputs]).describe().to_dict(),
+        "duration": benchmark_duration,
+        "completed": metrics.completed,
+        "total_input_tokens": metrics.total_input,
+        "total_output_tokens": metrics.total_output,
+        "request_throughput": metrics.request_throughput,
+        "output_throughput": metrics.output_throughput,
+        "total_token_throughput": metrics.total_token_throughput,
+        "ttft_description": pd.Series([output.ttft for output in outputs])
+        .describe()
+        .to_dict(),
+        "tpot_description": pd.Series([output.tpot for output in outputs])
+        .describe()
+        .to_dict(),
         "input_lens": [output.prompt_len for output in outputs],
-        "output_lens":
-        actual_output_lens,
+        "output_lens": actual_output_lens,
         "ttfts": [output.ttft for output in outputs],
         "itls": [output.itl for output in outputs],
         "errors": [output.error for output in outputs],
     }
 
-    ret = [{
-        'generated': output.generated_text,
-        'expected': gt
-    } for output, gt in zip(outputs, expected)]
+    ret = [
+        {"generated": output.generated_text, "expected": gt}
+        for output, gt in zip(outputs, expected)
+    ]
 
     def process_one_metric(
         # E.g., "ttft"
@@ -606,29 +632,35 @@ async def benchmark(
         # metric.
         if metric_attribute_name not in selected_percentile_metrics:
             return
-        print("{s:{c}^{n}}".format(s=metric_header, n=50, c='-'))
-        print("{:<40} {:<10.2f}".format(
-            f"Mean {metric_name} (ms):",
-            getattr(metrics, f"mean_{metric_attribute_name}_ms")))
-        print("{:<40} {:<10.2f}".format(
-            f"Median {metric_name} (ms):",
-            getattr(metrics, f"median_{metric_attribute_name}_ms")))
+        print("{s:{c}^{n}}".format(s=metric_header, n=50, c="-"))
+        print(
+            "{:<40} {:<10.2f}".format(
+                f"Mean {metric_name} (ms):",
+                getattr(metrics, f"mean_{metric_attribute_name}_ms"),
+            )
+        )
+        print(
+            "{:<40} {:<10.2f}".format(
+                f"Median {metric_name} (ms):",
+                getattr(metrics, f"median_{metric_attribute_name}_ms"),
+            )
+        )
         result[f"mean_{metric_attribute_name}_ms"] = getattr(
-            metrics, f"mean_{metric_attribute_name}_ms")
+            metrics, f"mean_{metric_attribute_name}_ms"
+        )
         result[f"median_{metric_attribute_name}_ms"] = getattr(
-            metrics, f"median_{metric_attribute_name}_ms")
+            metrics, f"median_{metric_attribute_name}_ms"
+        )
         result[f"std_{metric_attribute_name}_ms"] = getattr(
-            metrics, f"std_{metric_attribute_name}_ms")
-        for p, value in getattr(metrics,
-                                f"percentiles_{metric_attribute_name}_ms"):
+            metrics, f"std_{metric_attribute_name}_ms"
+        )
+        for p, value in getattr(metrics, f"percentiles_{metric_attribute_name}_ms"):
             p_word = str(int(p)) if int(p) == p else str(p)
-            print("{:<40} {:<10.2f}".format(f"P{p_word} {metric_name} (ms):",
-                                            value))
+            print("{:<40} {:<10.2f}".format(f"P{p_word} {metric_name} (ms):", value))
             result[f"p{p_word}_{metric_attribute_name}_ms"] = value
 
     process_one_metric("ttft", "TTFT", "Time to First Token")
-    process_one_metric("tpot", "TPOT",
-                       "Time per Output Token (excl. 1st token)")
+    process_one_metric("tpot", "TPOT", "Time per Output Token (excl. 1st token)")
     process_one_metric("itl", "ITL", "Inter-token Latency")
     process_one_metric("e2el", "E2EL", "End-to-end Latency")
 
@@ -638,13 +670,13 @@ async def benchmark(
 
 
 def evaluate(ret, args):
-
     def _eval_correctness_json(expected, actual):
         # extract json string from string using regex
         import re
-        actual = actual.replace('\n', '').replace(' ', '').strip()
+
+        actual = actual.replace("\n", "").replace(" ", "").strip()
         try:
-            actual = re.search(r'\{.*\}', actual).group()
+            actual = re.search(r"\{.*\}", actual).group()
             actual = json.loads(actual)
         except Exception:
             return False
@@ -656,28 +688,32 @@ def evaluate(ret, args):
 
     def _eval_correctness_regex(expected, actual):
         import re
+
         return re.match(args.regex, actual) is not None
 
     def _eval_correctness(expected, actual):
-        if args.structure_type == 'guided_json':
+        if args.structure_type == "guided_json":
             return _eval_correctness_json(expected, actual)
-        elif args.structure_type == 'guided_regex':
+        elif args.structure_type == "guided_regex":
             return _eval_correctness_regex(expected, actual)
-        elif args.structure_type == 'guided_choice':
+        elif args.structure_type == "guided_choice":
             return _eval_correctness_choice(expected, actual)
         else:
             return None
 
     scores = []
     for res in ret:
-        score = _eval_correctness(res['expected'], res['generated'])
-        res['correctness'] = score
+        score = _eval_correctness(res["expected"], res["generated"])
+        res["correctness"] = score
         scores.append(score)
 
     not_none_scores = [score for score in scores if score is not None]
 
-    return (sum(not_none_scores) / len(not_none_scores) *
-            100) if len(not_none_scores) > 0 else None
+    return (
+        (sum(not_none_scores) / len(not_none_scores) * 100)
+        if len(not_none_scores) > 0
+        else None
+    )
 
 
 def parse_goodput(slo_pairs):
@@ -689,9 +725,10 @@ def parse_goodput(slo_pairs):
     except ValueError as err:
         raise argparse.ArgumentTypeError(
             "Invalid format found for service level objectives. "
-            "Specify service level objectives for goodput as \"KEY:VALUE\" "
+            'Specify service level objectives for goodput as "KEY:VALUE" '
             "pairs, where the key is a metric name, and the value is a "
-            "number in milliseconds.") from err
+            "number in milliseconds."
+        ) from err
     return goodput_config_dict
 
 
@@ -705,12 +742,14 @@ def check_goodput_args(args):
                 raise ValueError(
                     f"Invalid metric name found, {slo_name}: {slo_val}. "
                     "The service level objective name should be one of "
-                    f"{str(VALID_NAMES)}. ")
+                    f"{str(VALID_NAMES)}. "
+                )
             if slo_val < 0:
                 raise ValueError(
                     f"Invalid value found, {slo_name}: {slo_val}. "
                     "The service level objective value should be "
-                    "non-negative.")
+                    "non-negative."
+                )
     return goodput_config_dict
 
 
@@ -736,19 +775,19 @@ def main(args: argparse.Namespace):
         tokenizer_mode=args.tokenizer_mode,
     )
 
-    if args.dataset == 'grammar':
-        args.structure_type = 'guided_grammar'
-    elif args.dataset == 'regex':
-        args.structure_type = 'guided_regex'
-    elif args.dataset == 'choice':
-        args.structure_type = 'guided_choice'
+    if args.dataset == "grammar":
+        args.structure_type = "guided_grammar"
+    elif args.dataset == "regex":
+        args.structure_type = "guided_regex"
+    elif args.dataset == "choice":
+        args.structure_type = "guided_choice"
     else:
-        args.structure_type = 'guided_json'
+        args.structure_type = "guided_json"
 
     if args.no_structured_output:
         args.structured_output_ratio = 0
     if args.save_results:
-        result_file_name = f'{args.structured_output_ratio}guided'
+        result_file_name = f"{args.structured_output_ratio}guided"
         result_file_name += f"_{backend}"
         result_file_name += f"_{args.request_rate}qps"
         result_file_name += f"_{args.model.split('/')[-1]}"
@@ -776,36 +815,29 @@ def main(args: argparse.Namespace):
             disable_tqdm=args.disable_tqdm,
             profile=args.profile,
             selected_percentile_metrics=args.percentile_metrics.split(","),
-            selected_percentiles=[
-                float(p) for p in args.metric_percentiles.split(",")
-            ],
+            selected_percentiles=[float(p) for p in args.metric_percentiles.split(",")],
             ignore_eos=args.ignore_eos,
             max_concurrency=args.max_concurrency,
             structured_output_ratio=args.structured_output_ratio,
             goodput_config_dict=goodput_config_dict,
-        ))
+        )
+    )
 
     # Save config and results to json
     score = evaluate(ret, args)
-    print("correct_rate(%)", score, '\n')
+    print("correct_rate(%)", score, "\n")
     if args.save_results:
         results = {
-            "backend":
-            backend,
-            "model_id":
-            model_id,
-            "tokenizer_id":
-            tokenizer_id,
-            "num_prompts":
-            args.num_prompts,
-            "request_rate":
-            args.request_rate if args.request_rate < float("inf") else "inf",
-            "burstiness":
-            args.burstiness,
-            "max_concurrency":
-            args.max_concurrency,
-            "correct_rate(%)":
-            score
+            "backend": backend,
+            "model_id": model_id,
+            "tokenizer_id": tokenizer_id,
+            "num_prompts": args.num_prompts,
+            "request_rate": args.request_rate
+            if args.request_rate < float("inf")
+            else "inf",
+            "burstiness": args.burstiness,
+            "max_concurrency": args.max_concurrency,
+            "correct_rate(%)": score,
         }
         results = {"outputs": ret, **results, **benchmark_result}
 
@@ -814,13 +846,14 @@ def main(args: argparse.Namespace):
             result_file_name = args.result_filename
         if args.result_dir:
             result_file_name = os.path.join(args.result_dir, result_file_name)
-        with open(result_file_name, "w", encoding='utf-8') as outfile:
+        with open(result_file_name, "w", encoding="utf-8") as outfile:
             json.dump(results, outfile, indent=4)
 
 
 if __name__ == "__main__":
     parser = FlexibleArgumentParser(
-        description="Benchmark the online serving throughput.")
+        description="Benchmark the online serving throughput."
+    )
     parser.add_argument(
         "--backend",
         type=str,
@@ -842,16 +875,14 @@ if __name__ == "__main__":
         default="/v1/completions",
         help="API endpoint.",
     )
-    parser.add_argument("--dataset",
-                        default='json',
-                        choices=[
-                            'json', 'json-unique', 'grammar', 'regex',
-                            'choice', 'xgrammar_bench'
-                        ])
-    parser.add_argument("--json-schema-path",
-                        type=str,
-                        default=None,
-                        help="Path to json schema.")
+    parser.add_argument(
+        "--dataset",
+        default="json",
+        choices=["json", "json-unique", "grammar", "regex", "choice", "xgrammar_bench"],
+    )
+    parser.add_argument(
+        "--json-schema-path", type=str, default=None, help="Path to json schema."
+    )
     parser.add_argument(
         "--max-concurrency",
         type=int,
@@ -863,7 +894,8 @@ if __name__ == "__main__":
         "initiated, this argument will control how many are actually allowed "
         "to execute at a time. This means that when used in combination, the "
         "actual request rate may be lower than specified with --request-rate, "
-        "if the server is not processing requests fast enough to keep up.")
+        "if the server is not processing requests fast enough to keep up.",
+    )
     parser.add_argument(
         "--model",
         type=str,
@@ -873,15 +905,13 @@ if __name__ == "__main__":
     parser.add_argument(
         "--tokenizer",
         type=str,
-        help=
-        "Name or path of the tokenizer, if not using the default tokenizer.",  # noqa: E501
+        help="Name or path of the tokenizer, if not using the default tokenizer.",  # noqa: E501
     )
     parser.add_argument(
         "--tokenizer-mode",
         type=str,
         default="auto",
-        help=
-        "Name or path of the tokenizer, if not using the default tokenizer.",  # noqa: E501
+        help="Name or path of the tokenizer, if not using the default tokenizer.",  # noqa: E501
     )
     parser.add_argument(
         "--num-prompts",
@@ -958,44 +988,51 @@ if __name__ == "__main__":
         "--ignore-eos",
         action="store_true",
         help="Set ignore_eos flag when sending the benchmark request."
-        "Warning: ignore_eos is not supported in deepspeed_mii and tgi.")
+        "Warning: ignore_eos is not supported in deepspeed_mii and tgi.",
+    )
     parser.add_argument(
         "--percentile-metrics",
         type=str,
         default="ttft,tpot,itl",
         help="Comma-separated list of selected metrics to report percentils. "
         "This argument specifies the metrics to report percentiles. "
-        "Allowed metric names are \"ttft\", \"tpot\", \"itl\", \"e2el\". "
-        "Default value is \"ttft,tpot,itl\".")
+        'Allowed metric names are "ttft", "tpot", "itl", "e2el". '
+        'Default value is "ttft,tpot,itl".',
+    )
     parser.add_argument(
         "--metric-percentiles",
         type=str,
         default="99",
         help="Comma-separated list of percentiles for selected metrics. "
-        "To report 25-th, 50-th, and 75-th percentiles, use \"25,50,75\". "
-        "Default value is \"99\". "
-        "Use \"--percentile-metrics\" to select metrics.",
+        'To report 25-th, 50-th, and 75-th percentiles, use "25,50,75". '
+        'Default value is "99". '
+        'Use "--percentile-metrics" to select metrics.',
     )
     parser.add_argument(
         "--goodput",
         nargs="+",
         required=False,
-        help="Specify service level objectives for goodput as \"KEY:VALUE\" "
+        help='Specify service level objectives for goodput as "KEY:VALUE" '
         "pairs, where the key is a metric name, and the value is in "
-        "milliseconds. Multiple \"KEY:VALUE\" pairs can be provided, "
+        'milliseconds. Multiple "KEY:VALUE" pairs can be provided, '
         "separated by spaces. Allowed request level metric names are "
-        "\"ttft\", \"tpot\", \"e2el\". For more context on the definition of "
+        '"ttft", "tpot", "e2el". For more context on the definition of '
         "goodput, refer to DistServe paper: https://arxiv.org/pdf/2401.09670 "
-        "and the blog: https://hao-ai-lab.github.io/blogs/distserve")
-
-    parser.add_argument("--no-structured-output",
-                        action='store_true',
-                        default=False,
-                        help="Whether to disable JSON decoding or not.")
-    parser.add_argument("--structured-output-ratio",
-                        type=float,
-                        default=1.0,
-                        help="Ratio of Structured Outputs requests")
+        "and the blog: https://hao-ai-lab.github.io/blogs/distserve",
+    )
+
+    parser.add_argument(
+        "--no-structured-output",
+        action="store_true",
+        default=False,
+        help="Whether to disable JSON decoding or not.",
+    )
+    parser.add_argument(
+        "--structured-output-ratio",
+        type=float,
+        default=1.0,
+        help="Ratio of Structured Outputs requests",
+    )
 
     args = parser.parse_args()
     main(args)
diff --git a/benchmarks/benchmark_throughput.py b/benchmarks/benchmark_throughput.py
index cd6c76ad6..7a13babda 100644
--- a/benchmarks/benchmark_throughput.py
+++ b/benchmarks/benchmark_throughput.py
@@ -1,5 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 """Benchmark offline inference throughput."""
+
 import argparse
 import dataclasses
 import json
@@ -11,18 +12,25 @@ from typing import Any, Optional, Union
 
 import torch
 import uvloop
-from benchmark_dataset import (AIMODataset, BurstGPTDataset,
-                               ConversationDataset, InstructCoderDataset,
-                               RandomDataset, SampleRequest, ShareGPTDataset,
-                               SonnetDataset, VisionArenaDataset)
-from benchmark_utils import convert_to_pytorch_benchmark_format, write_to_json
 from tqdm import tqdm
-from transformers import (AutoModelForCausalLM, AutoTokenizer,
-                          PreTrainedTokenizerBase)
-
+from transformers import AutoModelForCausalLM, AutoTokenizer, PreTrainedTokenizerBase
+
+from benchmark_dataset import (
+    AIMODataset,
+    BurstGPTDataset,
+    ConversationDataset,
+    InstructCoderDataset,
+    RandomDataset,
+    SampleRequest,
+    ShareGPTDataset,
+    SonnetDataset,
+    VisionArenaDataset,
+)
+from benchmark_utils import convert_to_pytorch_benchmark_format, write_to_json
 from vllm.engine.arg_utils import AsyncEngineArgs, EngineArgs
 from vllm.entrypoints.openai.api_server import (
-    build_async_engine_client_from_engine_args)
+    build_async_engine_client_from_engine_args,
+)
 from vllm.inputs import TextPrompt, TokensPrompt
 from vllm.lora.request import LoRARequest
 from vllm.outputs import RequestOutput
@@ -37,23 +45,30 @@ def run_vllm(
     disable_detokenize: bool = False,
 ) -> tuple[float, Optional[list[RequestOutput]]]:
     from vllm import LLM, SamplingParams
+
     llm = LLM(**dataclasses.asdict(engine_args))
     assert all(
-        llm.llm_engine.model_config.max_model_len >= (
-            request.prompt_len + request.expected_output_len)
-        for request in requests), (
-            "Please ensure that max_model_len is greater than the sum of"
-            " prompt_len and expected_output_len for all requests.")
+        llm.llm_engine.model_config.max_model_len
+        >= (request.prompt_len + request.expected_output_len)
+        for request in requests
+    ), (
+        "Please ensure that max_model_len is greater than the sum of"
+        " prompt_len and expected_output_len for all requests."
+    )
     # Add the requests to the engine.
     prompts: list[Union[TextPrompt, TokensPrompt]] = []
     sampling_params: list[SamplingParams] = []
     for request in requests:
         prompts.append(
-            TokensPrompt(prompt_token_ids=request.prompt["prompt_token_ids"],
-                       multi_modal_data=request.multi_modal_data)
-            if "prompt_token_ids" in request.prompt else \
-            TextPrompt(prompt=request.prompt,
-                       multi_modal_data=request.multi_modal_data))
+            TokensPrompt(
+                prompt_token_ids=request.prompt["prompt_token_ids"],
+                multi_modal_data=request.multi_modal_data,
+            )
+            if "prompt_token_ids" in request.prompt
+            else TextPrompt(
+                prompt=request.prompt, multi_modal_data=request.multi_modal_data
+            )
+        )
         sampling_params.append(
             SamplingParams(
                 n=n,
@@ -62,7 +77,8 @@ def run_vllm(
                 ignore_eos=True,
                 max_tokens=request.expected_output_len,
                 detokenize=not disable_detokenize,
-            ))
+            )
+        )
     lora_requests: Optional[list[LoRARequest]] = None
     if engine_args.enable_lora:
         lora_requests = [request.lora_request for request in requests]
@@ -72,10 +88,9 @@ def run_vllm(
     outputs = None
     if not use_beam_search:
         start = time.perf_counter()
-        outputs = llm.generate(prompts,
-                               sampling_params,
-                               lora_request=lora_requests,
-                               use_tqdm=True)
+        outputs = llm.generate(
+            prompts, sampling_params, lora_request=lora_requests, use_tqdm=True
+        )
         end = time.perf_counter()
     else:
         assert lora_requests is None, "BeamSearch API does not support LoRA"
@@ -91,30 +106,35 @@ def run_vllm(
                 beam_width=n,
                 max_tokens=output_len,
                 ignore_eos=True,
-            ))
+            ),
+        )
         end = time.perf_counter()
     return end - start, outputs
 
 
 def run_vllm_chat(
-        requests: list[SampleRequest],
-        n: int,
-        engine_args: EngineArgs,
-        disable_detokenize: bool = False) -> tuple[float, list[RequestOutput]]:
+    requests: list[SampleRequest],
+    n: int,
+    engine_args: EngineArgs,
+    disable_detokenize: bool = False,
+) -> tuple[float, list[RequestOutput]]:
     """
     Run vLLM chat benchmark. This function is recommended ONLY for benchmarking
     multimodal models as it properly handles multimodal inputs and chat
     formatting. For non-multimodal models, use run_vllm() instead.
     """
     from vllm import LLM, SamplingParams
+
     llm = LLM(**dataclasses.asdict(engine_args))
 
     assert all(
-        llm.llm_engine.model_config.max_model_len >= (
-            request.prompt_len + request.expected_output_len)
-        for request in requests), (
-            "Please ensure that max_model_len is greater than the sum of "
-            "prompt_len and expected_output_len for all requests.")
+        llm.llm_engine.model_config.max_model_len
+        >= (request.prompt_len + request.expected_output_len)
+        for request in requests
+    ), (
+        "Please ensure that max_model_len is greater than the sum of "
+        "prompt_len and expected_output_len for all requests."
+    )
 
     prompts = []
     sampling_params: list[SamplingParams] = []
@@ -128,7 +148,8 @@ def run_vllm_chat(
                 ignore_eos=True,
                 max_tokens=request.expected_output_len,
                 detokenize=not disable_detokenize,
-            ))
+            )
+        )
     start = time.perf_counter()
     outputs = llm.chat(prompts, sampling_params, use_tqdm=True)
     end = time.perf_counter()
@@ -145,14 +166,17 @@ async def run_vllm_async(
     from vllm import SamplingParams
 
     async with build_async_engine_client_from_engine_args(
-            engine_args, disable_frontend_multiprocessing) as llm:
+        engine_args, disable_frontend_multiprocessing
+    ) as llm:
         model_config = await llm.get_model_config()
         assert all(
-            model_config.max_model_len >= (request.prompt_len +
-                                           request.expected_output_len)
-            for request in requests), (
-                "Please ensure that max_model_len is greater than the sum of"
-                " prompt_len and expected_output_len for all requests.")
+            model_config.max_model_len
+            >= (request.prompt_len + request.expected_output_len)
+            for request in requests
+        ), (
+            "Please ensure that max_model_len is greater than the sum of"
+            " prompt_len and expected_output_len for all requests."
+        )
 
         # Add the requests to the engine.
         prompts: list[Union[TextPrompt, TokensPrompt]] = []
@@ -160,11 +184,15 @@ async def run_vllm_async(
         lora_requests: list[Optional[LoRARequest]] = []
         for request in requests:
             prompts.append(
-                TokensPrompt(prompt_token_ids=request.prompt["prompt_token_ids"],
-                        multi_modal_data=request.multi_modal_data)
-                if "prompt_token_ids" in request.prompt else \
-                TextPrompt(prompt=request.prompt,
-                           multi_modal_data=request.multi_modal_data))
+                TokensPrompt(
+                    prompt_token_ids=request.prompt["prompt_token_ids"],
+                    multi_modal_data=request.multi_modal_data,
+                )
+                if "prompt_token_ids" in request.prompt
+                else TextPrompt(
+                    prompt=request.prompt, multi_modal_data=request.multi_modal_data
+                )
+            )
             sampling_params.append(
                 SamplingParams(
                     n=n,
@@ -173,17 +201,16 @@ async def run_vllm_async(
                     ignore_eos=True,
                     max_tokens=request.expected_output_len,
                     detokenize=not disable_detokenize,
-                ))
+                )
+            )
             lora_requests.append(request.lora_request)
 
         generators = []
         start = time.perf_counter()
-        for i, (prompt, sp,
-                lr) in enumerate(zip(prompts, sampling_params, lora_requests)):
-            generator = llm.generate(prompt,
-                                     sp,
-                                     lora_request=lr,
-                                     request_id=f"test{i}")
+        for i, (prompt, sp, lr) in enumerate(
+            zip(prompts, sampling_params, lora_requests)
+        ):
+            generator = llm.generate(prompt, sp, lora_request=lr, request_id=f"test{i}")
             generators.append(generator)
         all_gens = merge_async_iterators(*generators)
         async for i, res in all_gens:
@@ -202,7 +229,8 @@ def run_hf(
     disable_detokenize: bool = False,
 ) -> float:
     llm = AutoModelForCausalLM.from_pretrained(
-        model, torch_dtype=torch.float16, trust_remote_code=trust_remote_code)
+        model, torch_dtype=torch.float16, trust_remote_code=trust_remote_code
+    )
     if llm.config.model_type == "llama":
         # To enable padding in the HF backend.
         tokenizer.pad_token = tokenizer.eos_token
@@ -225,14 +253,15 @@ def run_hf(
             # Check if we can add more requests to the batch.
             next_prompt_len = requests[i + 1].prompt_len
             next_output_len = requests[i + 1].expected_output_len
-            if (max(max_prompt_len, next_prompt_len) +
-                    max(max_output_len, next_output_len)) <= 2048:
+            if (
+                max(max_prompt_len, next_prompt_len)
+                + max(max_output_len, next_output_len)
+            ) <= 2048:
                 # We can add more requests to the batch.
                 continue
 
         # Generate the sequences.
-        input_ids = tokenizer(batch, return_tensors="pt",
-                              padding=True).input_ids
+        input_ids = tokenizer(batch, return_tensors="pt", padding=True).input_ids
         llm_outputs = llm.generate(
             input_ids=input_ids.cuda(),
             do_sample=True,
@@ -262,6 +291,7 @@ def run_mii(
     output_len: int,
 ) -> float:
     from mii import client, serve
+
     llm = serve(model, tensor_parallel=tensor_parallel_size)
     prompts = [request.prompt for request in requests]
 
@@ -273,8 +303,9 @@ def run_mii(
     return end - start
 
 
-def save_to_pytorch_benchmark_format(args: argparse.Namespace,
-                                     results: dict[str, Any]) -> None:
+def save_to_pytorch_benchmark_format(
+    args: argparse.Namespace, results: dict[str, Any]
+) -> None:
     pt_records = convert_to_pytorch_benchmark_format(
         args=args,
         metrics={
@@ -282,9 +313,9 @@ def save_to_pytorch_benchmark_format(args: argparse.Namespace,
             "tokens_per_second": [results["tokens_per_second"]],
         },
         extra_info={
-            k: results[k]
-            for k in ["elapsed_time", "num_requests", "total_num_tokens"]
-        })
+            k: results[k] for k in ["elapsed_time", "num_requests", "total_num_tokens"]
+        },
+    )
     if pt_records:
         # Don't use json suffix here as we don't want CI to pick it up
         pt_file = f"{os.path.splitext(args.output_json)[0]}.pytorch.json"
@@ -316,7 +347,8 @@ def get_requests(args, tokenizer):
             sample_kwargs["enable_multimodal_chat"] = True
     elif args.dataset_name == "sonnet":
         assert tokenizer.chat_template or tokenizer.default_chat_template, (
-            "Tokenizer/model must have chat template for sonnet dataset.")
+            "Tokenizer/model must have chat template for sonnet dataset."
+        )
         dataset_cls = SonnetDataset
         sample_kwargs["prefix_len"] = args.prefix_len
         sample_kwargs["return_prompt_formatted"] = True
@@ -325,21 +357,21 @@ def get_requests(args, tokenizer):
     elif args.dataset_name == "hf":
         if args.dataset_path in VisionArenaDataset.SUPPORTED_DATASET_PATHS:
             dataset_cls = VisionArenaDataset
-            common_kwargs['dataset_subset'] = None
-            common_kwargs['dataset_split'] = "train"
+            common_kwargs["dataset_subset"] = None
+            common_kwargs["dataset_split"] = "train"
             sample_kwargs["enable_multimodal_chat"] = True
         elif args.dataset_path in InstructCoderDataset.SUPPORTED_DATASET_PATHS:
             dataset_cls = InstructCoderDataset
-            common_kwargs['dataset_split'] = "train"
+            common_kwargs["dataset_split"] = "train"
         elif args.dataset_path in ConversationDataset.SUPPORTED_DATASET_PATHS:
             dataset_cls = ConversationDataset
-            common_kwargs['dataset_subset'] = args.hf_subset
-            common_kwargs['dataset_split'] = args.hf_split
+            common_kwargs["dataset_subset"] = args.hf_subset
+            common_kwargs["dataset_split"] = args.hf_split
             sample_kwargs["enable_multimodal_chat"] = True
         elif args.dataset_path in AIMODataset.SUPPORTED_DATASET_PATHS:
             dataset_cls = AIMODataset
-            common_kwargs['dataset_subset'] = None
-            common_kwargs['dataset_split'] = "train"
+            common_kwargs["dataset_subset"] = None
+            common_kwargs["dataset_split"] = "train"
     else:
         raise ValueError(f"Unknown dataset name: {args.dataset_name}")
     # Remove None values
@@ -354,10 +386,10 @@ def main(args: argparse.Namespace):
     random.seed(args.seed)
     # Sample the requests.
     tokenizer = AutoTokenizer.from_pretrained(
-        args.tokenizer, trust_remote_code=args.trust_remote_code)
+        args.tokenizer, trust_remote_code=args.trust_remote_code
+    )
     requests = get_requests(args, tokenizer)
-    is_multi_modal = any(request.multi_modal_data is not None
-                         for request in requests)
+    is_multi_modal = any(request.multi_modal_data is not None for request in requests)
     request_outputs: Optional[list[RequestOutput]] = None
     if args.backend == "vllm":
         if args.async_engine:
@@ -368,23 +400,34 @@ def main(args: argparse.Namespace):
                     AsyncEngineArgs.from_cli_args(args),
                     args.disable_frontend_multiprocessing,
                     args.disable_detokenize,
-                ))
+                )
+            )
         else:
             elapsed_time, request_outputs = run_vllm(
-                requests, args.n, EngineArgs.from_cli_args(args),
-                args.disable_detokenize)
+                requests,
+                args.n,
+                EngineArgs.from_cli_args(args),
+                args.disable_detokenize,
+            )
     elif args.backend == "hf":
         assert args.tensor_parallel_size == 1
-        elapsed_time = run_hf(requests, args.model, tokenizer, args.n,
-                              args.hf_max_batch_size, args.trust_remote_code,
-                              args.disable_detokenize)
+        elapsed_time = run_hf(
+            requests,
+            args.model,
+            tokenizer,
+            args.n,
+            args.hf_max_batch_size,
+            args.trust_remote_code,
+            args.disable_detokenize,
+        )
     elif args.backend == "mii":
-        elapsed_time = run_mii(requests, args.model, args.tensor_parallel_size,
-                               args.output_len)
+        elapsed_time = run_mii(
+            requests, args.model, args.tensor_parallel_size, args.output_len
+        )
     elif args.backend == "vllm-chat":
         elapsed_time, request_outputs = run_vllm_chat(
-            requests, args.n, EngineArgs.from_cli_args(args),
-            args.disable_detokenize)
+            requests, args.n, EngineArgs.from_cli_args(args), args.disable_detokenize
+        )
     else:
         raise ValueError(f"Unknown backend: {args.backend}")
 
@@ -396,28 +439,31 @@ def main(args: argparse.Namespace):
         for ro in request_outputs:
             if not isinstance(ro, RequestOutput):
                 continue
-            total_prompt_tokens += len(
-                ro.prompt_token_ids) if ro.prompt_token_ids else 0
-            total_output_tokens += sum(
-                len(o.token_ids) for o in ro.outputs if o)
+            total_prompt_tokens += (
+                len(ro.prompt_token_ids) if ro.prompt_token_ids else 0
+            )
+            total_output_tokens += sum(len(o.token_ids) for o in ro.outputs if o)
         total_num_tokens = total_prompt_tokens + total_output_tokens
     else:
-        total_num_tokens = sum(r.prompt_len + r.expected_output_len
-                               for r in requests)
+        total_num_tokens = sum(r.prompt_len + r.expected_output_len for r in requests)
         total_output_tokens = sum(r.expected_output_len for r in requests)
         total_prompt_tokens = total_num_tokens - total_output_tokens
 
     if is_multi_modal and args.backend != "vllm-chat":
-        print("\033[91mWARNING\033[0m: Multi-modal request with "
-              f"{args.backend} backend detected. The "
-              "following metrics are not accurate because image tokens are not"
-              " counted. See vllm-project/vllm/issues/9778 for details.")
+        print(
+            "\033[91mWARNING\033[0m: Multi-modal request with "
+            f"{args.backend} backend detected. The "
+            "following metrics are not accurate because image tokens are not"
+            " counted. See vllm-project/vllm/issues/9778 for details."
+        )
         # TODO(vllm-project/vllm/issues/9778): Count multi-modal token length.
         # vllm-chat backend counts the image tokens now
 
-    print(f"Throughput: {len(requests) / elapsed_time:.2f} requests/s, "
-          f"{total_num_tokens / elapsed_time:.2f} total tokens/s, "
-          f"{total_output_tokens / elapsed_time:.2f} output tokens/s")
+    print(
+        f"Throughput: {len(requests) / elapsed_time:.2f} requests/s, "
+        f"{total_num_tokens / elapsed_time:.2f} total tokens/s, "
+        f"{total_output_tokens / elapsed_time:.2f} output tokens/s"
+    )
     print(f"Total num prompt tokens:  {total_prompt_tokens}")
     print(f"Total num output tokens:  {total_output_tokens}")
 
@@ -445,7 +491,8 @@ def validate_args(args):
         warnings.warn(
             "The '--dataset' argument will be deprecated in the next release. "
             "Please use '--dataset-name' and '--dataset-path' instead.",
-            stacklevel=2)
+            stacklevel=2,
+        )
         args.dataset_path = args.dataset
 
     if not getattr(args, "tokenizer", None):
@@ -458,9 +505,8 @@ def validate_args(args):
 
     # === Dataset Configuration ===
     if not args.dataset and not args.dataset_path:
-        print(
-            "When dataset path is not set, it will default to random dataset")
-        args.dataset_name = 'random'
+        print("When dataset path is not set, it will default to random dataset")
+        args.dataset_name = "random"
         if args.input_len is None:
             raise ValueError("input_len must be provided for a random dataset")
 
@@ -468,41 +514,55 @@ def validate_args(args):
     # --hf-subset and --hf-split: only used
     # when dataset_name is 'hf'
     if args.dataset_name != "hf" and (
-            getattr(args, "hf_subset", None) is not None
-            or getattr(args, "hf_split", None) is not None):
-        warnings.warn("--hf-subset and --hf-split will be ignored \
+        getattr(args, "hf_subset", None) is not None
+        or getattr(args, "hf_split", None) is not None
+    ):
+        warnings.warn(
+            "--hf-subset and --hf-split will be ignored \
                 since --dataset-name is not 'hf'.",
-                      stacklevel=2)
+            stacklevel=2,
+        )
     elif args.dataset_name == "hf":
         if args.dataset_path in (
-                VisionArenaDataset.SUPPORTED_DATASET_PATHS.keys()
-                | ConversationDataset.SUPPORTED_DATASET_PATHS):
-            assert args.backend == "vllm-chat", f"{args.dataset_path} needs to use vllm-chat as the backend."  #noqa: E501
-        elif args.dataset_path in (InstructCoderDataset.SUPPORTED_DATASET_PATHS
-                                   | AIMODataset.SUPPORTED_DATASET_PATHS):
-            assert args.backend == "vllm", f"{args.dataset_path} needs to use vllm as the backend."  #noqa: E501
+            VisionArenaDataset.SUPPORTED_DATASET_PATHS.keys()
+            | ConversationDataset.SUPPORTED_DATASET_PATHS
+        ):
+            assert args.backend == "vllm-chat", (
+                f"{args.dataset_path} needs to use vllm-chat as the backend."
+            )  # noqa: E501
+        elif args.dataset_path in (
+            InstructCoderDataset.SUPPORTED_DATASET_PATHS
+            | AIMODataset.SUPPORTED_DATASET_PATHS
+        ):
+            assert args.backend == "vllm", (
+                f"{args.dataset_path} needs to use vllm as the backend."
+            )  # noqa: E501
         else:
-            raise ValueError(
-                f"{args.dataset_path} is not supported by hf dataset.")
+            raise ValueError(f"{args.dataset_path} is not supported by hf dataset.")
 
     # --random-range-ratio: only used when dataset_name is 'random'
-    if args.dataset_name != 'random' and args.random_range_ratio is not None:
-        warnings.warn("--random-range-ratio will be ignored since \
+    if args.dataset_name != "random" and args.random_range_ratio is not None:
+        warnings.warn(
+            "--random-range-ratio will be ignored since \
                 --dataset-name is not 'random'.",
-                      stacklevel=2)
+            stacklevel=2,
+        )
 
     # --prefix-len: only used when dataset_name is 'random', 'sonnet', or not
     # set.
-    if args.dataset_name not in {"random", "sonnet", None
-                                 } and args.prefix_len is not None:
-        warnings.warn("--prefix-len will be ignored since --dataset-name\
+    if (
+        args.dataset_name not in {"random", "sonnet", None}
+        and args.prefix_len is not None
+    ):
+        warnings.warn(
+            "--prefix-len will be ignored since --dataset-name\
                  is not 'random', 'sonnet', or not set.",
-                      stacklevel=2)
+            stacklevel=2,
+        )
 
     # === LoRA Settings ===
     if getattr(args, "enable_lora", False) and args.backend != "vllm":
-        raise ValueError(
-            "LoRA benchmarking is only supported for vLLM backend")
+        raise ValueError("LoRA benchmarking is only supported for vLLM backend")
     if getattr(args, "enable_lora", False) and args.lora_path is None:
         raise ValueError("LoRA path must be provided when enable_lora is True")
 
@@ -512,8 +572,10 @@ def validate_args(args):
     if args.backend != "hf" and args.hf_max_batch_size is not None:
         raise ValueError("HF max batch size is only for HF backend.")
 
-    if args.backend in {"hf", "mii"} and getattr(args, "quantization",
-                                                 None) is not None:
+    if (
+        args.backend in {"hf", "mii"}
+        and getattr(args, "quantization", None) is not None
+    ):
         raise ValueError("Quantization is only for vLLM backend.")
 
     if args.backend == "mii" and args.dtype != "auto":
@@ -521,29 +583,32 @@ def validate_args(args):
     if args.backend == "mii" and args.n != 1:
         raise ValueError("n must be 1 for MII backend.")
     if args.backend == "mii" and args.tokenizer != args.model:
-        raise ValueError(
-            "Tokenizer must be the same as the model for MII backend.")
+        raise ValueError("Tokenizer must be the same as the model for MII backend.")
 
     # --data-parallel is not supported currently.
     # https://github.com/vllm-project/vllm/issues/16222
     if args.data_parallel_size > 1:
         raise ValueError(
             "Data parallel is not supported in offline benchmark, \
-            please use benchmark serving instead")
+            please use benchmark serving instead"
+        )
 
 
 if __name__ == "__main__":
     parser = FlexibleArgumentParser(description="Benchmark the throughput.")
-    parser.add_argument("--backend",
-                        type=str,
-                        choices=["vllm", "hf", "mii", "vllm-chat"],
-                        default="vllm")
+    parser.add_argument(
+        "--backend",
+        type=str,
+        choices=["vllm", "hf", "mii", "vllm-chat"],
+        default="vllm",
+    )
     parser.add_argument(
         "--dataset-name",
         type=str,
         choices=["sharegpt", "random", "sonnet", "burstgpt", "hf"],
         help="Name of the dataset to benchmark on.",
-        default="sharegpt")
+        default="sharegpt",
+    )
     parser.add_argument(
         "--dataset",
         type=str,
@@ -551,57 +616,70 @@ if __name__ == "__main__":
         help="Path to the ShareGPT dataset, will be deprecated in\
             the next release. The dataset is expected to "
         "be a json in form of list[dict[..., conversations: "
-        "list[dict[..., value: <prompt_or_response>]]]]")
-    parser.add_argument("--dataset-path",
-                        type=str,
-                        default=None,
-                        help="Path to the dataset")
-    parser.add_argument("--input-len",
-                        type=int,
-                        default=None,
-                        help="Input prompt length for each request")
-    parser.add_argument("--output-len",
-                        type=int,
-                        default=None,
-                        help="Output length for each request. Overrides the "
-                        "output length from the dataset.")
-    parser.add_argument("--n",
-                        type=int,
-                        default=1,
-                        help="Number of generated sequences per prompt.")
-    parser.add_argument("--num-prompts",
-                        type=int,
-                        default=1000,
-                        help="Number of prompts to process.")
-    parser.add_argument("--hf-max-batch-size",
-                        type=int,
-                        default=None,
-                        help="Maximum batch size for HF backend.")
+        "list[dict[..., value: <prompt_or_response>]]]]",
+    )
+    parser.add_argument(
+        "--dataset-path", type=str, default=None, help="Path to the dataset"
+    )
+    parser.add_argument(
+        "--input-len",
+        type=int,
+        default=None,
+        help="Input prompt length for each request",
+    )
+    parser.add_argument(
+        "--output-len",
+        type=int,
+        default=None,
+        help="Output length for each request. Overrides the "
+        "output length from the dataset.",
+    )
+    parser.add_argument(
+        "--n", type=int, default=1, help="Number of generated sequences per prompt."
+    )
     parser.add_argument(
-        '--output-json',
+        "--num-prompts", type=int, default=1000, help="Number of prompts to process."
+    )
+    parser.add_argument(
+        "--hf-max-batch-size",
+        type=int,
+        default=None,
+        help="Maximum batch size for HF backend.",
+    )
+    parser.add_argument(
+        "--output-json",
         type=str,
         default=None,
-        help='Path to save the throughput results in JSON format.')
-    parser.add_argument("--async-engine",
-                        action='store_true',
-                        default=False,
-                        help="Use vLLM async engine rather than LLM class.")
-    parser.add_argument("--disable-frontend-multiprocessing",
-                        action='store_true',
-                        default=False,
-                        help="Disable decoupled async engine frontend.")
+        help="Path to save the throughput results in JSON format.",
+    )
+    parser.add_argument(
+        "--async-engine",
+        action="store_true",
+        default=False,
+        help="Use vLLM async engine rather than LLM class.",
+    )
+    parser.add_argument(
+        "--disable-frontend-multiprocessing",
+        action="store_true",
+        default=False,
+        help="Disable decoupled async engine frontend.",
+    )
     parser.add_argument(
         "--disable-detokenize",
         action="store_true",
-        help=("Do not detokenize the response (i.e. do not include "
-              "detokenization time in the measurement)"))
+        help=(
+            "Do not detokenize the response (i.e. do not include "
+            "detokenization time in the measurement)"
+        ),
+    )
     # LoRA
     parser.add_argument(
         "--lora-path",
         type=str,
         default=None,
         help="Path to the LoRA adapters to use. This can be an absolute path, "
-        "a relative path, or a Hugging Face model identifier.")
+        "a relative path, or a Hugging Face model identifier.",
+    )
     parser.add_argument(
         "--prefix-len",
         type=int,
@@ -615,7 +693,8 @@ if __name__ == "__main__":
         f"prefix_len (default: {SonnetDataset.DEFAULT_PREFIX_LEN}) "
         "controls how much of the input is fixed lines versus "
         "random lines, but the total input length remains approximately "
-        "input_len tokens.")
+        "input_len tokens.",
+    )
     # random dataset
     parser.add_argument(
         "--random-range-ratio",
@@ -629,14 +708,12 @@ if __name__ == "__main__":
     )
 
     # hf dtaset
-    parser.add_argument("--hf-subset",
-                        type=str,
-                        default=None,
-                        help="Subset of the HF dataset.")
-    parser.add_argument("--hf-split",
-                        type=str,
-                        default=None,
-                        help="Split of the HF dataset.")
+    parser.add_argument(
+        "--hf-subset", type=str, default=None, help="Subset of the HF dataset."
+    )
+    parser.add_argument(
+        "--hf-split", type=str, default=None, help="Split of the HF dataset."
+    )
 
     parser = AsyncEngineArgs.add_cli_args(parser)
     args = parser.parse_args()
diff --git a/benchmarks/benchmark_utils.py b/benchmarks/benchmark_utils.py
index 45a0ddbd5..b0c4fca92 100644
--- a/benchmarks/benchmark_utils.py
+++ b/benchmarks/benchmark_utils.py
@@ -7,9 +7,9 @@ import os
 from typing import Any
 
 
-def convert_to_pytorch_benchmark_format(args: argparse.Namespace,
-                                        metrics: dict[str, list],
-                                        extra_info: dict[str, Any]) -> list:
+def convert_to_pytorch_benchmark_format(
+    args: argparse.Namespace, metrics: dict[str, list], extra_info: dict[str, Any]
+) -> list:
     """
     Save the benchmark results in the format used by PyTorch OSS benchmark with
     on metric per record
@@ -37,12 +37,12 @@ def convert_to_pytorch_benchmark_format(args: argparse.Namespace,
             },
         }
 
-        tp = record["benchmark"]["extra_info"]["args"].get(
-            "tensor_parallel_size")
+        tp = record["benchmark"]["extra_info"]["args"].get("tensor_parallel_size")
         # Save tensor_parallel_size parameter if it's part of the metadata
         if not tp and "tensor_parallel_size" in extra_info:
-            record["benchmark"]["extra_info"]["args"][
-                "tensor_parallel_size"] = extra_info["tensor_parallel_size"]
+            record["benchmark"]["extra_info"]["args"]["tensor_parallel_size"] = (
+                extra_info["tensor_parallel_size"]
+            )
 
         records.append(record)
 
@@ -50,7 +50,6 @@ def convert_to_pytorch_benchmark_format(args: argparse.Namespace,
 
 
 class InfEncoder(json.JSONEncoder):
-
     def clear_inf(self, o: Any):
         if isinstance(o, dict):
             return {k: self.clear_inf(v) for k, v in o.items()}
diff --git a/benchmarks/cutlass_benchmarks/sparse_benchmarks.py b/benchmarks/cutlass_benchmarks/sparse_benchmarks.py
index 9e36b0a9d..da258f98e 100644
--- a/benchmarks/cutlass_benchmarks/sparse_benchmarks.py
+++ b/benchmarks/cutlass_benchmarks/sparse_benchmarks.py
@@ -23,8 +23,9 @@ DEFAULT_TP_SIZES = [1]
 
 
 # bench
-def bench_fn(label: str, sub_label: str, description: str, fn: Callable, *args,
-             **kwargs) -> TMeasurement:
+def bench_fn(
+    label: str, sub_label: str, description: str, fn: Callable, *args, **kwargs
+) -> TMeasurement:
     min_run_time = 1
 
     globals = {
@@ -41,16 +42,18 @@ def bench_fn(label: str, sub_label: str, description: str, fn: Callable, *args,
     ).blocked_autorange(min_run_time=min_run_time)
 
 
-def bench_int8(dtype: torch.dtype, m: int, k: int, n: int, label: str,
-               sub_label: str) -> Iterable[TMeasurement]:
+def bench_int8(
+    dtype: torch.dtype, m: int, k: int, n: int, label: str, sub_label: str
+) -> Iterable[TMeasurement]:
     assert dtype == torch.int8
     b_compressed, e, a, b = make_rand_sparse_tensors(torch.int8, m, n, k)
     scale_a = torch.tensor(1.0, device="cuda", dtype=torch.float32)
     scale_b = torch.tensor(1.0, device="cuda", dtype=torch.float32)
-    bias = torch.zeros((n, ), device="cuda", dtype=torch.bfloat16)
+    bias = torch.zeros((n,), device="cuda", dtype=torch.bfloat16)
 
-    out = ops.cutlass_scaled_sparse_mm(a, b_compressed, e, scale_a, scale_b,
-                                       torch.bfloat16)
+    out = ops.cutlass_scaled_sparse_mm(
+        a, b_compressed, e, scale_a, scale_b, torch.bfloat16
+    )
     out_ref = ops.cutlass_scaled_mm(a, b, scale_a, scale_b, torch.bfloat16)
 
     if not torch.allclose(out, out_ref):
@@ -63,54 +66,107 @@ def bench_int8(dtype: torch.dtype, m: int, k: int, n: int, label: str,
     timers = []
     # pytorch impl - bfloat16
     timers.append(
-        bench_fn(label, sub_label, "pytorch_bf16_bf16_bf16_matmul-no-scales",
-                 torch.mm, a.to(dtype=torch.bfloat16),
-                 b.to(dtype=torch.bfloat16)))
+        bench_fn(
+            label,
+            sub_label,
+            "pytorch_bf16_bf16_bf16_matmul-no-scales",
+            torch.mm,
+            a.to(dtype=torch.bfloat16),
+            b.to(dtype=torch.bfloat16),
+        )
+    )
 
     # pytorch impl - float16
     timers.append(
-        bench_fn(label, sub_label,
-                 "pytorch_fp16_fp16_fp16_matmul-no-scales", torch.mm,
-                 a.to(dtype=torch.float16), b.to(dtype=torch.float16)))
+        bench_fn(
+            label,
+            sub_label,
+            "pytorch_fp16_fp16_fp16_matmul-no-scales",
+            torch.mm,
+            a.to(dtype=torch.float16),
+            b.to(dtype=torch.float16),
+        )
+    )
 
     # cutlass impl
     timers.append(
-        bench_fn(label, sub_label, "cutlass_i8_i8_bf16_scaled_mm",
-                 ops.cutlass_scaled_mm, a, b, scale_a, scale_b,
-                 torch.bfloat16))
+        bench_fn(
+            label,
+            sub_label,
+            "cutlass_i8_i8_bf16_scaled_mm",
+            ops.cutlass_scaled_mm,
+            a,
+            b,
+            scale_a,
+            scale_b,
+            torch.bfloat16,
+        )
+    )
 
     # cutlass with bias
     timers.append(
-        bench_fn(label, sub_label, "cutlass_i8_i8_bf16_scaled_mm_bias",
-                 ops.cutlass_scaled_mm, a, b, scale_a, scale_b, torch.bfloat16,
-                 bias))
+        bench_fn(
+            label,
+            sub_label,
+            "cutlass_i8_i8_bf16_scaled_mm_bias",
+            ops.cutlass_scaled_mm,
+            a,
+            b,
+            scale_a,
+            scale_b,
+            torch.bfloat16,
+            bias,
+        )
+    )
 
     # cutlass sparse impl
     timers.append(
-        bench_fn(label, sub_label, "cutlass_i8_i8_bf16_scaled_sparse_mm",
-                 ops.cutlass_scaled_sparse_mm, a, b_compressed, e, scale_a,
-                 scale_b, torch.bfloat16))
+        bench_fn(
+            label,
+            sub_label,
+            "cutlass_i8_i8_bf16_scaled_sparse_mm",
+            ops.cutlass_scaled_sparse_mm,
+            a,
+            b_compressed,
+            e,
+            scale_a,
+            scale_b,
+            torch.bfloat16,
+        )
+    )
 
     # cutlass sparse with bias
     timers.append(
-        bench_fn(label, sub_label, "cutlass_i8_i8_bf16_scaled_sparse_mm_bias",
-                 ops.cutlass_scaled_sparse_mm, a, b_compressed, e, scale_a,
-                 scale_b, torch.bfloat16, bias))
+        bench_fn(
+            label,
+            sub_label,
+            "cutlass_i8_i8_bf16_scaled_sparse_mm_bias",
+            ops.cutlass_scaled_sparse_mm,
+            a,
+            b_compressed,
+            e,
+            scale_a,
+            scale_b,
+            torch.bfloat16,
+            bias,
+        )
+    )
 
     return timers
 
 
-def bench_fp8(dtype: torch.dtype, m: int, k: int, n: int, label: str,
-              sub_label: str) -> Iterable[TMeasurement]:
+def bench_fp8(
+    dtype: torch.dtype, m: int, k: int, n: int, label: str, sub_label: str
+) -> Iterable[TMeasurement]:
     assert dtype == torch.float8_e4m3fn
-    b_compressed, e, a, b = make_rand_sparse_tensors(torch.float8_e4m3fn, m, n,
-                                                     k)
+    b_compressed, e, a, b = make_rand_sparse_tensors(torch.float8_e4m3fn, m, n, k)
     scale_a = torch.tensor(1.0, device="cuda", dtype=torch.float32)
     scale_b = torch.tensor(1.0, device="cuda", dtype=torch.float32)
-    bias = torch.zeros((n, ), device="cuda", dtype=torch.bfloat16)
+    bias = torch.zeros((n,), device="cuda", dtype=torch.bfloat16)
 
-    out = ops.cutlass_scaled_sparse_mm(a, b_compressed, e, scale_a, scale_b,
-                                       torch.bfloat16)
+    out = ops.cutlass_scaled_sparse_mm(
+        a, b_compressed, e, scale_a, scale_b, torch.bfloat16
+    )
     out_ref = ops.cutlass_scaled_mm(a, b, scale_a, scale_b, torch.bfloat16)
 
     if not torch.allclose(out, out_ref):
@@ -124,97 +180,165 @@ def bench_fp8(dtype: torch.dtype, m: int, k: int, n: int, label: str,
 
     # pytorch impl w. bf16
     timers.append(
-        bench_fn(label, sub_label, "pytorch_bf16_bf16_bf16_matmul-no-scales",
-                 torch.mm, a.to(dtype=torch.bfloat16, device="cuda"),
-                 b.to(dtype=torch.bfloat16, device="cuda")))
+        bench_fn(
+            label,
+            sub_label,
+            "pytorch_bf16_bf16_bf16_matmul-no-scales",
+            torch.mm,
+            a.to(dtype=torch.bfloat16, device="cuda"),
+            b.to(dtype=torch.bfloat16, device="cuda"),
+        )
+    )
 
     # pytorch impl: bf16 output, without fp8 fast accum
     timers.append(
-        bench_fn(label,
-                 sub_label,
-                 "pytorch_fp8_fp8_bf16_scaled_mm",
-                 torch._scaled_mm,
-                 a,
-                 b,
-                 scale_a=scale_a,
-                 scale_b=scale_b,
-                 out_dtype=torch.bfloat16))
+        bench_fn(
+            label,
+            sub_label,
+            "pytorch_fp8_fp8_bf16_scaled_mm",
+            torch._scaled_mm,
+            a,
+            b,
+            scale_a=scale_a,
+            scale_b=scale_b,
+            out_dtype=torch.bfloat16,
+        )
+    )
 
     # pytorch impl: bf16 output, with fp8 fast accum
     timers.append(
-        bench_fn(label,
-                 sub_label,
-                 "pytorch_fp8_fp8_bf16_scaled_mm_fast_accum",
-                 torch._scaled_mm,
-                 a,
-                 b,
-                 scale_a=scale_a,
-                 scale_b=scale_b,
-                 out_dtype=torch.bfloat16,
-                 use_fast_accum=True))
+        bench_fn(
+            label,
+            sub_label,
+            "pytorch_fp8_fp8_bf16_scaled_mm_fast_accum",
+            torch._scaled_mm,
+            a,
+            b,
+            scale_a=scale_a,
+            scale_b=scale_b,
+            out_dtype=torch.bfloat16,
+            use_fast_accum=True,
+        )
+    )
 
     # pytorch impl: fp16 output, without fp8 fast accum
     timers.append(
-        bench_fn(label,
-                 sub_label,
-                 "pytorch_fp8_fp8_fp16_scaled_mm",
-                 torch._scaled_mm,
-                 a,
-                 b,
-                 scale_a=scale_a,
-                 scale_b=scale_b,
-                 out_dtype=torch.float16))
+        bench_fn(
+            label,
+            sub_label,
+            "pytorch_fp8_fp8_fp16_scaled_mm",
+            torch._scaled_mm,
+            a,
+            b,
+            scale_a=scale_a,
+            scale_b=scale_b,
+            out_dtype=torch.float16,
+        )
+    )
 
     # pytorch impl: fp16 output, with fp8 fast accum
     timers.append(
-        bench_fn(label,
-                 sub_label,
-                 "pytorch_fp8_fp8_fp16_scaled_mm_fast_accum",
-                 torch._scaled_mm,
-                 a,
-                 b,
-                 scale_a=scale_a,
-                 scale_b=scale_b,
-                 out_dtype=torch.float16,
-                 use_fast_accum=True))
+        bench_fn(
+            label,
+            sub_label,
+            "pytorch_fp8_fp8_fp16_scaled_mm_fast_accum",
+            torch._scaled_mm,
+            a,
+            b,
+            scale_a=scale_a,
+            scale_b=scale_b,
+            out_dtype=torch.float16,
+            use_fast_accum=True,
+        )
+    )
 
     # cutlass impl: bf16 output
     timers.append(
-        bench_fn(label, sub_label, "cutlass_fp8_fp8_bf16_scaled_mm",
-                 ops.cutlass_scaled_mm, a, b, scale_a, scale_b,
-                 torch.bfloat16))
+        bench_fn(
+            label,
+            sub_label,
+            "cutlass_fp8_fp8_bf16_scaled_mm",
+            ops.cutlass_scaled_mm,
+            a,
+            b,
+            scale_a,
+            scale_b,
+            torch.bfloat16,
+        )
+    )
 
     # cutlass impl: bf16 output
     timers.append(
-        bench_fn(label, sub_label, "cutlass_fp8_fp8_bf16_scaled_sparse_mm",
-                 ops.cutlass_scaled_sparse_mm, a, b_compressed, e, scale_a,
-                 scale_b, torch.bfloat16))
+        bench_fn(
+            label,
+            sub_label,
+            "cutlass_fp8_fp8_bf16_scaled_sparse_mm",
+            ops.cutlass_scaled_sparse_mm,
+            a,
+            b_compressed,
+            e,
+            scale_a,
+            scale_b,
+            torch.bfloat16,
+        )
+    )
 
     # cutlass impl: fp16 output
     timers.append(
-        bench_fn(label, sub_label, "cutlass_fp8_fp8_fp16_scaled_sparse_mm",
-                 ops.cutlass_scaled_sparse_mm, a, b_compressed, e, scale_a,
-                 scale_b, torch.float16))
+        bench_fn(
+            label,
+            sub_label,
+            "cutlass_fp8_fp8_fp16_scaled_sparse_mm",
+            ops.cutlass_scaled_sparse_mm,
+            a,
+            b_compressed,
+            e,
+            scale_a,
+            scale_b,
+            torch.float16,
+        )
+    )
 
     # cutlass impl: bf16 output, with bias
     timers.append(
-        bench_fn(label, sub_label,
-                 "cutlass_fp8_fp8_bf16_scaled_sparse_mm_bias",
-                 ops.cutlass_scaled_sparse_mm, a, b_compressed, e, scale_a,
-                 scale_b, torch.bfloat16, bias))
+        bench_fn(
+            label,
+            sub_label,
+            "cutlass_fp8_fp8_bf16_scaled_sparse_mm_bias",
+            ops.cutlass_scaled_sparse_mm,
+            a,
+            b_compressed,
+            e,
+            scale_a,
+            scale_b,
+            torch.bfloat16,
+            bias,
+        )
+    )
 
     # cutlass impl: fp16 output, with bias
     timers.append(
-        bench_fn(label, sub_label,
-                 "cutlass_fp8_fp8_fp16_scaled_sparse_mm_bias",
-                 ops.cutlass_scaled_sparse_mm, a, b_compressed, e, scale_a,
-                 scale_b, torch.float16, bias.to(dtype=torch.float16)))
+        bench_fn(
+            label,
+            sub_label,
+            "cutlass_fp8_fp8_fp16_scaled_sparse_mm_bias",
+            ops.cutlass_scaled_sparse_mm,
+            a,
+            b_compressed,
+            e,
+            scale_a,
+            scale_b,
+            torch.float16,
+            bias.to(dtype=torch.float16),
+        )
+    )
 
     return timers
 
 
-def bench(dtype: torch.dtype, m: int, k: int, n: int, label: str,
-          sub_label: str) -> Iterable[TMeasurement]:
+def bench(
+    dtype: torch.dtype, m: int, k: int, n: int, label: str, sub_label: str
+) -> Iterable[TMeasurement]:
     if dtype == torch.int8:
         return bench_int8(dtype, m, k, n, label, sub_label)
     if dtype == torch.float8_e4m3fn:
@@ -228,12 +352,12 @@ def print_timers(timers: Iterable[TMeasurement]):
     compare.print()
 
 
-def run(dtype: torch.dtype,
-        MKNs: Iterable[tuple[int, int, int]]) -> Iterable[TMeasurement]:
+def run(
+    dtype: torch.dtype, MKNs: Iterable[tuple[int, int, int]]
+) -> Iterable[TMeasurement]:
     results = []
     for m, k, n in MKNs:
-        timers = bench(dtype, m, k, n, f"scaled-{dtype}-gemm",
-                       f"MKN=({m}x{k}x{n})")
+        timers = bench(dtype, m, k, n, f"scaled-{dtype}-gemm", f"MKN=({m}x{k}x{n})")
         print_timers(timers)
         results.extend(timers)
 
@@ -241,10 +365,12 @@ def run(dtype: torch.dtype,
 
 
 # output makers
-def make_output(data: Iterable[TMeasurement],
-                MKNs: Iterable[tuple[int, int, int]],
-                base_description: str,
-                timestamp=None):
+def make_output(
+    data: Iterable[TMeasurement],
+    MKNs: Iterable[tuple[int, int, int]],
+    base_description: str,
+    timestamp=None,
+):
     print(f"== All Results {base_description} ====")
     print_timers(data)
 
@@ -258,8 +384,7 @@ def make_output(data: Iterable[TMeasurement],
 
 
 def run_square_bench(args):
-    dim_sizes = list(
-        range(args.dim_start, args.dim_end + 1, args.dim_increment))
+    dim_sizes = list(range(args.dim_start, args.dim_end + 1, args.dim_increment))
     MKNs = list(zip(dim_sizes, dim_sizes, dim_sizes))
     data = run(args.dtype, MKNs)
 
@@ -319,7 +444,7 @@ def run_model_bench(args):
         pkl.dump(all_data, f)
 
 
-if __name__ == '__main__':
+if __name__ == "__main__":
 
     def to_torch_dtype(dt):
         if dt == "int8":
@@ -344,12 +469,15 @@ Benchmark Cutlass GEMM.
     Output:
         - a .pkl file, that is a list of raw torch.benchmark.utils.Measurements for the pytorch and cutlass implementations for the various GEMMs.
             """,  # noqa: E501
-        formatter_class=argparse.RawTextHelpFormatter)
-
-    parser.add_argument("--dtype",
-                        type=to_torch_dtype,
-                        required=True,
-                        help="Available options are ['int8', 'fp8']")
+        formatter_class=argparse.RawTextHelpFormatter,
+    )
+
+    parser.add_argument(
+        "--dtype",
+        type=to_torch_dtype,
+        required=True,
+        help="Available options are ['int8', 'fp8']",
+    )
     subparsers = parser.add_subparsers(dest="cmd")
 
     square_parser = subparsers.add_parser("square_bench")
@@ -368,19 +496,19 @@ Benchmark Cutlass GEMM.
     range_parser.set_defaults(func=run_range_bench)
 
     model_parser = subparsers.add_parser("model_bench")
-    model_parser.add_argument("--models",
-                              nargs="+",
-                              type=str,
-                              default=DEFAULT_MODELS,
-                              choices=WEIGHT_SHAPES.keys())
-    model_parser.add_argument("--tp-sizes",
-                              nargs="+",
-                              type=int,
-                              default=DEFAULT_TP_SIZES)
-    model_parser.add_argument("--batch-sizes",
-                              nargs="+",
-                              type=int,
-                              default=DEFAULT_BATCH_SIZES)
+    model_parser.add_argument(
+        "--models",
+        nargs="+",
+        type=str,
+        default=DEFAULT_MODELS,
+        choices=WEIGHT_SHAPES.keys(),
+    )
+    model_parser.add_argument(
+        "--tp-sizes", nargs="+", type=int, default=DEFAULT_TP_SIZES
+    )
+    model_parser.add_argument(
+        "--batch-sizes", nargs="+", type=int, default=DEFAULT_BATCH_SIZES
+    )
     model_parser.set_defaults(func=run_model_bench)
 
     args = parser.parse_args()
diff --git a/benchmarks/cutlass_benchmarks/utils.py b/benchmarks/cutlass_benchmarks/utils.py
index fe4d8fdfc..7e9f5a7fc 100644
--- a/benchmarks/cutlass_benchmarks/utils.py
+++ b/benchmarks/cutlass_benchmarks/utils.py
@@ -10,8 +10,9 @@ import vllm._custom_ops as ops
 
 def to_fp8(tensor: torch.Tensor) -> torch.Tensor:
     finfo = torch.finfo(torch.float8_e4m3fn)
-    return torch.round(tensor.clamp(
-        min=finfo.min, max=finfo.max)).to(dtype=torch.float8_e4m3fn)
+    return torch.round(tensor.clamp(min=finfo.min, max=finfo.max)).to(
+        dtype=torch.float8_e4m3fn
+    )
 
 
 def to_int8(tensor: torch.Tensor) -> torch.Tensor:
@@ -26,10 +27,11 @@ def to_fp16(tensor: torch.Tensor) -> torch.Tensor:
     return tensor.to(dtype=torch.float16)
 
 
-def make_rand_tensors(dtype: torch.dtype, m: int, n: int,
-                      k: int) -> tuple[torch.Tensor, torch.Tensor]:
-    a = torch.randn((m, k), device='cuda') * 5
-    b = torch.randn((n, k), device='cuda').t() * 5
+def make_rand_tensors(
+    dtype: torch.dtype, m: int, n: int, k: int
+) -> tuple[torch.Tensor, torch.Tensor]:
+    a = torch.randn((m, k), device="cuda") * 5
+    b = torch.randn((n, k), device="cuda").t() * 5
 
     if dtype == torch.int8:
         return to_int8(a), to_int8(b)
@@ -49,9 +51,7 @@ def prune_to_2_4(tensor):
 
     # Create binary mask
     mask = torch.zeros_like(reshaped)
-    mask.scatter_(dim=1,
-                  index=indices,
-                  src=torch.ones_like(indices, dtype=mask.dtype))
+    mask.scatter_(dim=1, index=indices, src=torch.ones_like(indices, dtype=mask.dtype))
 
     # Apply mask and reshape back
     pruned = reshaped * mask
@@ -62,10 +62,11 @@ def prune_to_2_4(tensor):
     return pruned.reshape(original_shape)
 
 
-def make_rand_sparse_tensors(dtype: torch.dtype, m: int, n: int,
-                             k: int) -> tuple[torch.Tensor, torch.Tensor]:
-    a = torch.randn((m, k), device='cuda') * 5
-    b = torch.randn((n, k), device='cuda').t() * 5
+def make_rand_sparse_tensors(
+    dtype: torch.dtype, m: int, n: int, k: int
+) -> tuple[torch.Tensor, torch.Tensor]:
+    a = torch.randn((m, k), device="cuda") * 5
+    b = torch.randn((n, k), device="cuda").t() * 5
 
     b = prune_to_2_4(b.t()).t()
 
@@ -86,9 +87,9 @@ def make_rand_sparse_tensors(dtype: torch.dtype, m: int, n: int,
     return b_compressed, e, a, b
 
 
-def make_n_rand_sparse_tensors(num_tensors: int, dtype: torch.dtype,
-                        m: int, n: int, k: int) -> \
-                        tuple[Iterable[torch.Tensor], Iterable[torch.Tensor]]:
+def make_n_rand_sparse_tensors(
+    num_tensors: int, dtype: torch.dtype, m: int, n: int, k: int
+) -> tuple[Iterable[torch.Tensor], Iterable[torch.Tensor]]:
     ABs = []
     for _ in range(num_tensors):
         b_comp, e, a, b = make_rand_sparse_tensors(dtype, m, n, k)
diff --git a/benchmarks/cutlass_benchmarks/w8a8_benchmarks.py b/benchmarks/cutlass_benchmarks/w8a8_benchmarks.py
index e7b742d8b..504c5f581 100644
--- a/benchmarks/cutlass_benchmarks/w8a8_benchmarks.py
+++ b/benchmarks/cutlass_benchmarks/w8a8_benchmarks.py
@@ -16,7 +16,8 @@ from weight_shapes import WEIGHT_SHAPES
 
 from vllm import _custom_ops as ops
 from vllm.model_executor.layers.quantization.utils.fp8_utils import (
-    w8a8_block_fp8_matmul)
+    w8a8_block_fp8_matmul,
+)
 from vllm.utils import FlexibleArgumentParser
 
 DEFAULT_MODELS = list(WEIGHT_SHAPES.keys())
@@ -25,8 +26,9 @@ DEFAULT_TP_SIZES = [1]
 
 
 # bench
-def bench_fn(label: str, sub_label: str, description: str, fn: Callable, *args,
-             **kwargs) -> TMeasurement:
+def bench_fn(
+    label: str, sub_label: str, description: str, fn: Callable, *args, **kwargs
+) -> TMeasurement:
     min_run_time = 1
 
     globals = {
@@ -44,45 +46,48 @@ def bench_fn(label: str, sub_label: str, description: str, fn: Callable, *args,
 
 
 def bench_int8(
-        dtype: torch.dtype,
-        m: int,
-        k: int,
-        n: int,
-        label: str,
-        sub_label: str,
-        bench_kernels: Optional[list[str]] = None) -> Iterable[TMeasurement]:
+    dtype: torch.dtype,
+    m: int,
+    k: int,
+    n: int,
+    label: str,
+    sub_label: str,
+    bench_kernels: Optional[list[str]] = None,
+) -> Iterable[TMeasurement]:
     """Benchmark INT8-based kernels."""
     assert dtype == torch.int8
     a, b = make_rand_tensors(torch.int8, m, n, k)
     scale_a = torch.tensor(1.0, device="cuda", dtype=torch.float32)
     scale_b = torch.tensor(1.0, device="cuda", dtype=torch.float32)
-    bias = torch.zeros((n, ), device="cuda", dtype=torch.bfloat16)
-    azp = torch.zeros((m, ), device="cuda", dtype=torch.int32)
-    azp_adj = torch.zeros((n, ), device="cuda", dtype=torch.int32)
+    bias = torch.zeros((n,), device="cuda", dtype=torch.bfloat16)
+    azp = torch.zeros((m,), device="cuda", dtype=torch.int32)
+    azp_adj = torch.zeros((n,), device="cuda", dtype=torch.int32)
 
     bench_fns = {
-        "pytorch_bf16_bf16_bf16_matmul-no-scales":
-        lambda: torch.mm(a.to(dtype=torch.bfloat16), b.to(dtype=torch.bfloat16)
-                         ),
-        "pytorch_fp16_fp16_fp16_matmul-no-scales":
-        lambda: torch.mm(a.to(dtype=torch.float16), b.to(dtype=torch.float16)),
-        "cutlass_i8_i8_bf16_scaled_mm":
-        lambda: ops.cutlass_scaled_mm(a, b, scale_a, scale_b, torch.bfloat16),
-        "cutlass_i8_i8_bf16_scaled_mm_bias":
-        lambda: ops.cutlass_scaled_mm(a, b, scale_a, scale_b, torch.bfloat16,
-                                      bias),
-        "cutlass_i8_i8_bf16_scaled_mm_azp":
-        lambda: ops.cutlass_scaled_mm_azp(a, b, scale_a, scale_b, torch.
-                                          bfloat16, azp_adj),
-        "cutlass_i8_i8_bf16_scaled_mm_azp_bias":
-        lambda: ops.cutlass_scaled_mm_azp(a, b, scale_a, scale_b, torch.
-                                          bfloat16, azp_adj, None, bias),
-        "cutlass_i8_i8_bf16_scaled_mm_azp_pt":
-        lambda: ops.cutlass_scaled_mm_azp(a, b, scale_a, scale_b, torch.
-                                          bfloat16, azp_adj, azp),
-        "cutlass_i8_i8_bf16_scaled_mm_azp_pt_bias":
-        lambda: ops.cutlass_scaled_mm_azp(a, b, scale_a, scale_b, torch.
-                                          bfloat16, azp_adj, azp, bias),
+        "pytorch_bf16_bf16_bf16_matmul-no-scales": lambda: torch.mm(
+            a.to(dtype=torch.bfloat16), b.to(dtype=torch.bfloat16)
+        ),
+        "pytorch_fp16_fp16_fp16_matmul-no-scales": lambda: torch.mm(
+            a.to(dtype=torch.float16), b.to(dtype=torch.float16)
+        ),
+        "cutlass_i8_i8_bf16_scaled_mm": lambda: ops.cutlass_scaled_mm(
+            a, b, scale_a, scale_b, torch.bfloat16
+        ),
+        "cutlass_i8_i8_bf16_scaled_mm_bias": lambda: ops.cutlass_scaled_mm(
+            a, b, scale_a, scale_b, torch.bfloat16, bias
+        ),
+        "cutlass_i8_i8_bf16_scaled_mm_azp": lambda: ops.cutlass_scaled_mm_azp(
+            a, b, scale_a, scale_b, torch.bfloat16, azp_adj
+        ),
+        "cutlass_i8_i8_bf16_scaled_mm_azp_bias": lambda: ops.cutlass_scaled_mm_azp(
+            a, b, scale_a, scale_b, torch.bfloat16, azp_adj, None, bias
+        ),
+        "cutlass_i8_i8_bf16_scaled_mm_azp_pt": lambda: ops.cutlass_scaled_mm_azp(
+            a, b, scale_a, scale_b, torch.bfloat16, azp_adj, azp
+        ),
+        "cutlass_i8_i8_bf16_scaled_mm_azp_pt_bias": lambda: ops.cutlass_scaled_mm_azp(
+            a, b, scale_a, scale_b, torch.bfloat16, azp_adj, azp, bias
+        ),
     }
 
     timers = []
@@ -96,73 +101,65 @@ def bench_int8(
 
 
 def bench_fp8(
-        dtype: torch.dtype,
-        m: int,
-        k: int,
-        n: int,
-        label: str,
-        sub_label: str,
-        bench_kernels: Optional[list[str]] = None) -> Iterable[TMeasurement]:
+    dtype: torch.dtype,
+    m: int,
+    k: int,
+    n: int,
+    label: str,
+    sub_label: str,
+    bench_kernels: Optional[list[str]] = None,
+) -> Iterable[TMeasurement]:
     """Benchmark FP8-based kernels."""
     assert dtype == torch.float8_e4m3fn
     a, b = make_rand_tensors(torch.float8_e4m3fn, m, n, k)
     a_cont = a.contiguous()
     scale_a = torch.tensor(1.0, device="cuda", dtype=torch.float32)
     scale_b = torch.tensor(1.0, device="cuda", dtype=torch.float32)
-    block_scale_a = torch.rand((m, k // 128),
-                               device="cuda",
-                               dtype=torch.float32)
-    block_scale_b = torch.rand((k // 128, n // 128),
-                               device="cuda",
-                               dtype=torch.float32)
+    block_scale_a = torch.rand((m, k // 128), device="cuda", dtype=torch.float32)
+    block_scale_b = torch.rand((k // 128, n // 128), device="cuda", dtype=torch.float32)
     block_scale_a_M_major = block_scale_a.t().contiguous().t()
     block_scale_b_K_major = block_scale_b.t().contiguous().t()
-    bias = torch.zeros((n, ), device="cuda", dtype=torch.bfloat16)
+    bias = torch.zeros((n,), device="cuda", dtype=torch.bfloat16)
 
     print(m, k, n)
 
     bench_fns = {
-        "pytorch_bf16_bf16_bf16_matmul-no-scales":
-        lambda: torch.mm(a.to(dtype=torch.bfloat16), b.to(dtype=torch.bfloat16)
-                         ),
-        "pytorch_fp16_fp16_fp16_matmul-no-scales":
-        lambda: torch.mm(a.to(dtype=torch.float16), b.to(dtype=torch.float16)),
-        "pytorch_fp8_fp8_fp16_scaled_mm":
-        lambda: torch._scaled_mm(
-            a, b, scale_a, scale_b, out_dtype=torch.float16),
-        "pytorch_fp8_fp8_fp16_scaled_mm_fast_accum":
-        lambda: torch._scaled_mm(a,
-                                 b,
-                                 scale_a,
-                                 scale_b,
-                                 out_dtype=torch.float16,
-                                 use_fast_accum=True),
-        "pytorch_fp8_fp8_bf16_scaled_mm":
-        lambda: torch._scaled_mm(
-            a, b, scale_a, scale_b, out_dtype=torch.bfloat16),
-        "pytorch_fp8_fp8_bf16_scaled_mm_fast_accum":
-        lambda: torch._scaled_mm(a,
-                                 b,
-                                 scale_a,
-                                 scale_b,
-                                 out_dtype=torch.bfloat16,
-                                 use_fast_accum=True),
-        "cutlass_fp8_fp8_bf16_scaled_mm":
-        lambda: ops.cutlass_scaled_mm(a, b, scale_a, scale_b, torch.bfloat16),
-        "cutlass_fp8_fp8_fp16_scaled_mm":
-        lambda: ops.cutlass_scaled_mm(a, b, scale_a, scale_b, torch.float16),
-        "cutlass_fp8_fp8_bf16_scaled_mm_bias":
-        lambda: ops.cutlass_scaled_mm(a, b, scale_a, scale_b, torch.bfloat16,
-                                      bias),
-        "cutlass_fp8_fp8_fp16_scaled_mm_bias":
-        lambda: ops.cutlass_scaled_mm(a, b, scale_a, scale_b, torch.float16,
-                                      bias.to(dtype=torch.float16)),
-        "triton_fp8_fp8_fp16_scaled_mm_blockwise":
-        lambda: w8a8_block_fp8_matmul(a_cont, b.t(), block_scale_a,
-                                      block_scale_b.t(), (128, 128)),
-        "cutlass_fp8_fp8_fp16_scaled_mm_blockwise":
-        lambda: ops.cutlass_scaled_mm(a, b, block_scale_a_M_major,
-                                      block_scale_b_K_major, torch.float16),
+        "pytorch_bf16_bf16_bf16_matmul-no-scales": lambda: torch.mm(
+            a.to(dtype=torch.bfloat16), b.to(dtype=torch.bfloat16)
+        ),
+        "pytorch_fp16_fp16_fp16_matmul-no-scales": lambda: torch.mm(
+            a.to(dtype=torch.float16), b.to(dtype=torch.float16)
+        ),
+        "pytorch_fp8_fp8_fp16_scaled_mm": lambda: torch._scaled_mm(
+            a, b, scale_a, scale_b, out_dtype=torch.float16
+        ),
+        "pytorch_fp8_fp8_fp16_scaled_mm_fast_accum": lambda: torch._scaled_mm(
+            a, b, scale_a, scale_b, out_dtype=torch.float16, use_fast_accum=True
+        ),
+        "pytorch_fp8_fp8_bf16_scaled_mm": lambda: torch._scaled_mm(
+            a, b, scale_a, scale_b, out_dtype=torch.bfloat16
+        ),
+        "pytorch_fp8_fp8_bf16_scaled_mm_fast_accum": lambda: torch._scaled_mm(
+            a, b, scale_a, scale_b, out_dtype=torch.bfloat16, use_fast_accum=True
+        ),
+        "cutlass_fp8_fp8_bf16_scaled_mm": lambda: ops.cutlass_scaled_mm(
+            a, b, scale_a, scale_b, torch.bfloat16
+        ),
+        "cutlass_fp8_fp8_fp16_scaled_mm": lambda: ops.cutlass_scaled_mm(
+            a, b, scale_a, scale_b, torch.float16
+        ),
+        "cutlass_fp8_fp8_bf16_scaled_mm_bias": lambda: ops.cutlass_scaled_mm(
+            a, b, scale_a, scale_b, torch.bfloat16, bias
+        ),
+        "cutlass_fp8_fp8_fp16_scaled_mm_bias": lambda: ops.cutlass_scaled_mm(
+            a, b, scale_a, scale_b, torch.float16, bias.to(dtype=torch.float16)
+        ),
+        "triton_fp8_fp8_fp16_scaled_mm_blockwise": lambda: w8a8_block_fp8_matmul(
+            a_cont, b.t(), block_scale_a, block_scale_b.t(), (128, 128)
+        ),
+        "cutlass_fp8_fp8_fp16_scaled_mm_blockwise": lambda: ops.cutlass_scaled_mm(
+            a, b, block_scale_a_M_major, block_scale_b_K_major, torch.float16
+        ),
     }
 
     timers = []
@@ -175,13 +172,15 @@ def bench_fp8(
     return timers
 
 
-def bench(dtype: torch.dtype,
-          m: int,
-          k: int,
-          n: int,
-          label: str,
-          sub_label: str,
-          bench_kernels: Optional[list[str]] = None) -> Iterable[TMeasurement]:
+def bench(
+    dtype: torch.dtype,
+    m: int,
+    k: int,
+    n: int,
+    label: str,
+    sub_label: str,
+    bench_kernels: Optional[list[str]] = None,
+) -> Iterable[TMeasurement]:
     if dtype == torch.int8:
         return bench_int8(dtype, m, k, n, label, sub_label, bench_kernels)
     if dtype == torch.float8_e4m3fn:
@@ -195,27 +194,33 @@ def print_timers(timers: Iterable[TMeasurement]):
     compare.print()
 
 
-def run(dtype: torch.dtype,
-        MKNs: Iterable[tuple[int, int, int]],
-        bench_kernels: Optional[list[str]] = None) -> Iterable[TMeasurement]:
+def run(
+    dtype: torch.dtype,
+    MKNs: Iterable[tuple[int, int, int]],
+    bench_kernels: Optional[list[str]] = None,
+) -> Iterable[TMeasurement]:
     results = []
     for m, k, n in MKNs:
-        timers = bench(dtype,
-                       m,
-                       k,
-                       n,
-                       f"scaled-{dtype}-gemm",
-                       f"MKN=({m}x{k}x{n})",
-                       bench_kernels=bench_kernels)
+        timers = bench(
+            dtype,
+            m,
+            k,
+            n,
+            f"scaled-{dtype}-gemm",
+            f"MKN=({m}x{k}x{n})",
+            bench_kernels=bench_kernels,
+        )
         print_timers(timers)
         results.extend(timers)
     return results
 
 
-def make_output(data: Iterable[TMeasurement],
-                MKNs: Iterable[tuple[int, int, int]],
-                base_description: str,
-                timestamp=None):
+def make_output(
+    data: Iterable[TMeasurement],
+    MKNs: Iterable[tuple[int, int, int]],
+    base_description: str,
+    timestamp=None,
+):
     print(f"== All Results {base_description} ====")
     print_timers(data)
 
@@ -226,8 +231,7 @@ def make_output(data: Iterable[TMeasurement],
 
 
 def run_square_bench(args):
-    dim_sizes = list(
-        range(args.dim_start, args.dim_end + 1, args.dim_increment))
+    dim_sizes = list(range(args.dim_start, args.dim_end + 1, args.dim_increment))
     MKNs = list(zip(dim_sizes, dim_sizes, dim_sizes))
     data = run(args.dtype, MKNs, bench_kernels=args.kernels)
     make_output(data, MKNs, f"square_bench-{args.dtype}")
@@ -285,7 +289,7 @@ def run_model_bench(args):
         pkl.dump(all_data, f)
 
 
-if __name__ == '__main__':
+if __name__ == "__main__":
 
     def to_torch_dtype(dt):
         if dt == "int8":
@@ -310,19 +314,21 @@ Benchmark Cutlass GEMM.
     Output:
         - a .pkl file, that is a list of raw torch.benchmark.utils.Measurements for the pytorch and cutlass implementations for the various GEMMs.
             """,  # noqa: E501
-        formatter_class=argparse.RawTextHelpFormatter)
+        formatter_class=argparse.RawTextHelpFormatter,
+    )
 
-    parser.add_argument("--dtype",
-                        type=to_torch_dtype,
-                        required=True,
-                        help="Available options are ['int8', 'fp8']")
+    parser.add_argument(
+        "--dtype",
+        type=to_torch_dtype,
+        required=True,
+        help="Available options are ['int8', 'fp8']",
+    )
     parser.add_argument(
         "--kernels",
         nargs="+",
         type=str,
         default=None,
-        help=
-        "Exact names of the kernels to benchmark. If not set, runs all kernels."
+        help="Exact names of the kernels to benchmark. If not set, runs all kernels.",
     )
 
     subparsers = parser.add_subparsers(dest="cmd")
@@ -343,19 +349,19 @@ Benchmark Cutlass GEMM.
     range_parser.set_defaults(func=run_range_bench)
 
     model_parser = subparsers.add_parser("model_bench")
-    model_parser.add_argument("--models",
-                              nargs="+",
-                              type=str,
-                              default=DEFAULT_MODELS,
-                              choices=WEIGHT_SHAPES.keys())
-    model_parser.add_argument("--tp-sizes",
-                              nargs="+",
-                              type=int,
-                              default=DEFAULT_TP_SIZES)
-    model_parser.add_argument("--batch-sizes",
-                              nargs="+",
-                              type=int,
-                              default=DEFAULT_BATCH_SIZES)
+    model_parser.add_argument(
+        "--models",
+        nargs="+",
+        type=str,
+        default=DEFAULT_MODELS,
+        choices=WEIGHT_SHAPES.keys(),
+    )
+    model_parser.add_argument(
+        "--tp-sizes", nargs="+", type=int, default=DEFAULT_TP_SIZES
+    )
+    model_parser.add_argument(
+        "--batch-sizes", nargs="+", type=int, default=DEFAULT_BATCH_SIZES
+    )
     model_parser.set_defaults(func=run_model_bench)
 
     args = parser.parse_args()
diff --git a/benchmarks/cutlass_benchmarks/weight_shapes.py b/benchmarks/cutlass_benchmarks/weight_shapes.py
index 3d1121df4..d31b623a1 100644
--- a/benchmarks/cutlass_benchmarks/weight_shapes.py
+++ b/benchmarks/cutlass_benchmarks/weight_shapes.py
@@ -42,4 +42,4 @@ WEIGHT_SHAPES = {
         ([8192, 57344], 1),
         ([28672, 8192], 0),
     ],
-}
\ No newline at end of file
+}
diff --git a/benchmarks/disagg_benchmarks/disagg_prefill_proxy_server.py b/benchmarks/disagg_benchmarks/disagg_prefill_proxy_server.py
index 980e68668..fce156e1c 100644
--- a/benchmarks/disagg_benchmarks/disagg_prefill_proxy_server.py
+++ b/benchmarks/disagg_benchmarks/disagg_prefill_proxy_server.py
@@ -12,39 +12,37 @@ app = Quart(__name__)
 
 async def forward_request(url, data):
     async with aiohttp.ClientSession(timeout=AIOHTTP_TIMEOUT) as session:
-        headers = {
-            "Authorization": f"Bearer {os.environ.get('OPENAI_API_KEY')}"
-        }
-        async with session.post(url=url, json=data,
-                                headers=headers) as response:
+        headers = {"Authorization": f"Bearer {os.environ.get('OPENAI_API_KEY')}"}
+        async with session.post(url=url, json=data, headers=headers) as response:
             if response.status == 200:
                 # if response.headers.get('Transfer-Encoding') == 'chunked':
                 if True:
-                    async for chunk_bytes in response.content.iter_chunked(
-                            1024):
+                    async for chunk_bytes in response.content.iter_chunked(1024):
                         yield chunk_bytes
                 else:
                     content = await response.read()
                     yield content
 
 
-@app.route('/v1/completions', methods=['POST'])
+@app.route("/v1/completions", methods=["POST"])
 async def handle_request():
     try:
         original_request_data = await request.get_json()
 
         prefill_request = original_request_data.copy()
         # change max_tokens = 1 to let it only do prefill
-        prefill_request['max_tokens'] = 1
+        prefill_request["max_tokens"] = 1
 
         # finish prefill
-        async for _ in forward_request('http://localhost:8100/v1/completions',
-                                       prefill_request):
+        async for _ in forward_request(
+            "http://localhost:8100/v1/completions", prefill_request
+        ):
             continue
 
         # return decode
-        generator = forward_request('http://localhost:8200/v1/completions',
-                                    original_request_data)
+        generator = forward_request(
+            "http://localhost:8200/v1/completions", original_request_data
+        )
         response = await make_response(generator)
         response.timeout = None
 
@@ -53,11 +51,12 @@ async def handle_request():
     except Exception as e:
         import sys
         import traceback
+
         exc_info = sys.exc_info()
         print("Error occurred in disagg prefill proxy server")
         print(e)
         print("".join(traceback.format_exception(*exc_info)))
 
 
-if __name__ == '__main__':
+if __name__ == "__main__":
     app.run(port=8000)
diff --git a/benchmarks/disagg_benchmarks/round_robin_proxy.py b/benchmarks/disagg_benchmarks/round_robin_proxy.py
index c2ad4916b..fd19b40bf 100644
--- a/benchmarks/disagg_benchmarks/round_robin_proxy.py
+++ b/benchmarks/disagg_benchmarks/round_robin_proxy.py
@@ -8,7 +8,6 @@ from aiohttp import web
 
 
 class RoundRobinProxy:
-
     def __init__(self, target_ports):
         self.target_ports = target_ports
         self.port_cycle = itertools.cycle(self.target_ports)
@@ -21,14 +20,15 @@ class RoundRobinProxy:
             try:
                 # Forward the request
                 async with session.request(
-                        method=request.method,
-                        url=target_url,
-                        headers=request.headers,
-                        data=request.content,
+                    method=request.method,
+                    url=target_url,
+                    headers=request.headers,
+                    data=request.content,
                 ) as response:
                     # Start sending the response
-                    resp = web.StreamResponse(status=response.status,
-                                              headers=response.headers)
+                    resp = web.StreamResponse(
+                        status=response.status, headers=response.headers
+                    )
                     await resp.prepare(request)
 
                     # Stream the response content
@@ -45,11 +45,11 @@ class RoundRobinProxy:
 async def main():
     proxy = RoundRobinProxy([8100, 8200])
     app = web.Application()
-    app.router.add_route('*', '/{path:.*}', proxy.handle_request)
+    app.router.add_route("*", "/{path:.*}", proxy.handle_request)
 
     runner = web.AppRunner(app)
     await runner.setup()
-    site = web.TCPSite(runner, 'localhost', 8000)
+    site = web.TCPSite(runner, "localhost", 8000)
     await site.start()
 
     print("Proxy server started on http://localhost:8000")
@@ -58,5 +58,5 @@ async def main():
     await asyncio.Event().wait()
 
 
-if __name__ == '__main__':
+if __name__ == "__main__":
     asyncio.run(main())
diff --git a/benchmarks/disagg_benchmarks/visualize_benchmark_results.py b/benchmarks/disagg_benchmarks/visualize_benchmark_results.py
index a7b4b9e8b..484d0cb3c 100644
--- a/benchmarks/disagg_benchmarks/visualize_benchmark_results.py
+++ b/benchmarks/disagg_benchmarks/visualize_benchmark_results.py
@@ -6,43 +6,41 @@ import matplotlib.pyplot as plt
 import pandas as pd
 
 if __name__ == "__main__":
-
     data = []
-    for name in ['disagg_prefill', 'chunked_prefill']:
+    for name in ["disagg_prefill", "chunked_prefill"]:
         for qps in [2, 4, 6, 8]:
             with open(f"results/{name}-qps-{qps}.json") as f:
                 x = json.load(f)
-                x['name'] = name
-                x['qps'] = qps
+                x["name"] = name
+                x["qps"] = qps
                 data.append(x)
 
     df = pd.DataFrame.from_dict(data)
-    dis_df = df[df['name'] == 'disagg_prefill']
-    chu_df = df[df['name'] == 'chunked_prefill']
+    dis_df = df[df["name"] == "disagg_prefill"]
+    chu_df = df[df["name"] == "chunked_prefill"]
 
-    plt.style.use('bmh')
-    plt.rcParams['font.size'] = 20
+    plt.style.use("bmh")
+    plt.rcParams["font.size"] = 20
 
     for key in [
-            'mean_ttft_ms', 'median_ttft_ms', 'p99_ttft_ms', 'mean_itl_ms',
-            'median_itl_ms', 'p99_itl_ms'
+        "mean_ttft_ms",
+        "median_ttft_ms",
+        "p99_ttft_ms",
+        "mean_itl_ms",
+        "median_itl_ms",
+        "p99_itl_ms",
     ]:
-
         fig, ax = plt.subplots(figsize=(11, 7))
-        plt.plot(dis_df['qps'],
-                 dis_df[key],
-                 label='disagg_prefill',
-                 marker='o',
-                 linewidth=4)
-        plt.plot(chu_df['qps'],
-                 chu_df[key],
-                 label='chunked_prefill',
-                 marker='o',
-                 linewidth=4)
+        plt.plot(
+            dis_df["qps"], dis_df[key], label="disagg_prefill", marker="o", linewidth=4
+        )
+        plt.plot(
+            chu_df["qps"], chu_df[key], label="chunked_prefill", marker="o", linewidth=4
+        )
         ax.legend()
 
-        ax.set_xlabel('QPS')
+        ax.set_xlabel("QPS")
         ax.set_ylabel(key)
         ax.set_ylim(bottom=0)
-        fig.savefig(f'results/{key}.png')
+        fig.savefig(f"results/{key}.png")
         plt.close(fig)
diff --git a/benchmarks/fused_kernels/layernorm_rms_benchmarks.py b/benchmarks/fused_kernels/layernorm_rms_benchmarks.py
index 3da583a33..37a9173a1 100644
--- a/benchmarks/fused_kernels/layernorm_rms_benchmarks.py
+++ b/benchmarks/fused_kernels/layernorm_rms_benchmarks.py
@@ -24,10 +24,12 @@ class bench_params_t:
     dtype: torch.dtype
 
     def description(self):
-        return (f'N {self.num_tokens} '
-                f'x D {self.hidden_size} '
-                f'x R {self.add_residual} '
-                f'x DT {self.dtype}')
+        return (
+            f"N {self.num_tokens} "
+            f"x D {self.hidden_size} "
+            f"x R {self.add_residual} "
+            f"x DT {self.dtype}"
+        )
 
 
 def get_bench_params() -> list[bench_params_t]:
@@ -38,15 +40,19 @@ def get_bench_params() -> list[bench_params_t]:
     DTYPES = [torch.bfloat16, torch.float]
 
     combinations = product(NUM_TOKENS, HIDDEN_SIZES, ADD_RESIDUAL, DTYPES)
-    bench_params = list(map(lambda x: \
-        bench_params_t(x[0], x[1], x[2], x[3]), combinations))
+    bench_params = list(
+        map(lambda x: bench_params_t(x[0], x[1], x[2], x[3]), combinations)
+    )
     return bench_params
 
 
 # Reference impls
-def unfused_int8_impl(rms_norm_layer: RMSNorm, x: torch.Tensor,
-                      residual: Optional[torch.Tensor],
-                      quant_dtype: torch.dtype):
+def unfused_int8_impl(
+    rms_norm_layer: RMSNorm,
+    x: torch.Tensor,
+    residual: Optional[torch.Tensor],
+    quant_dtype: torch.dtype,
+):
     # Norm
     torch_out = None
     if residual is None:
@@ -58,9 +64,12 @@ def unfused_int8_impl(rms_norm_layer: RMSNorm, x: torch.Tensor,
     torch_out, _, _ = ops.scaled_int8_quant(torch_out)
 
 
-def unfused_fp8_impl(rms_norm_layer: RMSNorm, x: torch.Tensor,
-                     residual: Optional[torch.Tensor],
-                     quant_dtype: torch.dtype):
+def unfused_fp8_impl(
+    rms_norm_layer: RMSNorm,
+    x: torch.Tensor,
+    residual: Optional[torch.Tensor],
+    quant_dtype: torch.dtype,
+):
     # Norm
     torch_out = None
     if residual is None:
@@ -73,22 +82,27 @@ def unfused_fp8_impl(rms_norm_layer: RMSNorm, x: torch.Tensor,
 
 
 def fused_impl(
-        rms_norm_layer: RMSNorm,  # this stores the weights
-        x: torch.Tensor,
-        residual: Optional[torch.Tensor],
-        quant_dtype: torch.dtype):
-    out, _ = ops.rms_norm_dynamic_per_token_quant(x,
-                                                  rms_norm_layer.weight,
-                                                  1e-6,
-                                                  quant_dtype,
-                                                  residual=residual)
+    rms_norm_layer: RMSNorm,  # this stores the weights
+    x: torch.Tensor,
+    residual: Optional[torch.Tensor],
+    quant_dtype: torch.dtype,
+):
+    out, _ = ops.rms_norm_dynamic_per_token_quant(
+        x, rms_norm_layer.weight, 1e-6, quant_dtype, residual=residual
+    )
 
 
 # Bench functions
-def bench_fn(rms_norm_layer: RMSNorm, x: torch.Tensor, residual: torch.Tensor,
-             quant_dtype: torch.dtype, label: str, sub_label: str,
-             fn: Callable, description: str) -> TMeasurement:
-
+def bench_fn(
+    rms_norm_layer: RMSNorm,
+    x: torch.Tensor,
+    residual: torch.Tensor,
+    quant_dtype: torch.dtype,
+    label: str,
+    sub_label: str,
+    fn: Callable,
+    description: str,
+) -> TMeasurement:
     min_run_time = 1
 
     globals = {
@@ -106,43 +120,81 @@ def bench_fn(rms_norm_layer: RMSNorm, x: torch.Tensor, residual: torch.Tensor,
         description=description,
     ).blocked_autorange(min_run_time=min_run_time)
 
-def bench(params: bench_params_t, label: str, sub_label: str) \
-        -> Iterable[TMeasurement]:
 
+def bench(params: bench_params_t, label: str, sub_label: str) -> Iterable[TMeasurement]:
     # Make inputs
     layer = RMSNorm(params.hidden_size, 1e-6).to(dtype=params.dtype)
     # Make weights
     layer.weight.data.normal_(mean=1.0, std=0.1)
     # Make inputs
     scale = 1 / params.hidden_size
-    x = torch.randn(params.num_tokens,
-                    params.hidden_size,
-                    dtype=params.dtype,
-                    device='cuda') * scale
-    residual = (torch.randn_like(x) * scale).to(device='cuda') \
-            if params.add_residual else None
+    x = (
+        torch.randn(
+            params.num_tokens, params.hidden_size, dtype=params.dtype, device="cuda"
+        )
+        * scale
+    )
+    residual = (
+        (torch.randn_like(x) * scale).to(device="cuda") if params.add_residual else None
+    )
 
     timers = []
 
     # unfused int8 impl.
     timers.append(
-        bench_fn(layer, x, residual, torch.int8, label, sub_label,
-                 unfused_int8_impl, "unfused_int8_impl"))
+        bench_fn(
+            layer,
+            x,
+            residual,
+            torch.int8,
+            label,
+            sub_label,
+            unfused_int8_impl,
+            "unfused_int8_impl",
+        )
+    )
 
     # unfused fp8 impl.
     timers.append(
-        bench_fn(layer, x, residual, torch.float8_e4m3fn, label, sub_label,
-                 unfused_fp8_impl, "unfused_fp8_impl"))
+        bench_fn(
+            layer,
+            x,
+            residual,
+            torch.float8_e4m3fn,
+            label,
+            sub_label,
+            unfused_fp8_impl,
+            "unfused_fp8_impl",
+        )
+    )
 
     # fused int8 impl.
     timers.append(
-        bench_fn(layer, x, residual, torch.int8, label, sub_label, fused_impl,
-                 "fused_int8_impl"))
+        bench_fn(
+            layer,
+            x,
+            residual,
+            torch.int8,
+            label,
+            sub_label,
+            fused_impl,
+            "fused_int8_impl",
+        )
+    )
 
     # fused fp8 impl.
     timers.append(
-        bench_fn(layer, x, residual, torch.float8_e4m3fn, label, sub_label,
-                 fused_impl, "fused_fp8_impl"))
+        bench_fn(
+            layer,
+            x,
+            residual,
+            torch.float8_e4m3fn,
+            label,
+            sub_label,
+            fused_impl,
+            "fused_fp8_impl",
+        )
+    )
 
     print_timers(timers)
 
@@ -157,13 +209,12 @@ def print_timers(timers: Iterable[TMeasurement]):
 
 
 def main():
-    torch.set_default_device('cuda')
+    torch.set_default_device("cuda")
     bench_params = get_bench_params()
 
     timers = []
     for bp in tqdm(bench_params):
-        timers.extend(
-            bench(bp, "rms-norm-dynamic-per-token-quant", bp.description()))
+        timers.extend(bench(bp, "rms-norm-dynamic-per-token-quant", bp.description()))
     print_timers(timers)
 
     # pickle all the results
@@ -172,5 +223,5 @@ def main():
         pkl.dump(timers, f)
 
 
-if __name__ == '__main__':
+if __name__ == "__main__":
     main()
diff --git a/benchmarks/kernels/benchmark_aqlm.py b/benchmarks/kernels/benchmark_aqlm.py
index 8d20b9156..e9934aa47 100644
--- a/benchmarks/kernels/benchmark_aqlm.py
+++ b/benchmarks/kernels/benchmark_aqlm.py
@@ -9,32 +9,39 @@ import torch.nn.functional as F
 
 from vllm import _custom_ops as ops
 from vllm.model_executor.layers.quantization.aqlm import (
-    dequantize_weight, generic_dequantize_gemm, get_int_dtype,
-    optimized_dequantize_gemm)
+    dequantize_weight,
+    generic_dequantize_gemm,
+    get_int_dtype,
+    optimized_dequantize_gemm,
+)
 from vllm.utils import FlexibleArgumentParser
 
-os.environ['CUDA_VISIBLE_DEVICES'] = '0'
+os.environ["CUDA_VISIBLE_DEVICES"] = "0"
 
 
 def torch_mult(
-        input: torch.Tensor,  #  [..., in_features]
-        weights: torch.Tensor,
-        scales: torch.Tensor,  #  [num_out_groups, 1, 1, 1]
+    # [..., in_features]
+    input: torch.Tensor,
+    weights: torch.Tensor,
+    # [num_out_groups, 1, 1, 1]
+    scales: torch.Tensor,
 ) -> torch.Tensor:
     output = F.linear(input, weights)
     return output
 
 
 def dequant_out_scale(
-    input: torch.Tensor,  #  [..., in_features]
-    codes: torch.IntTensor,  #  [num_out_groups, num_in_groups, num_codebooks]
-    codebooks: torch.
-    Tensor,  #  [num_codebooks, codebook_size, out_group_size, in_group_size]
-    scales: torch.Tensor,  #  [num_out_groups, 1, 1, 1]
+    # [..., in_features]
+    input: torch.Tensor,
+    # [num_out_groups, num_in_groups, num_codebooks]
+    codes: torch.IntTensor,
+    # [num_codebooks, codebook_size, out_group_size, in_group_size]
+    codebooks: torch.Tensor,
+    # [num_out_groups, 1, 1, 1]
+    scales: torch.Tensor,
     output_partition_sizes: torch.IntTensor,
     bias: Optional[torch.Tensor],
 ) -> torch.Tensor:
-
     weights = ops.aqlm_dequant(codes, codebooks, output_partition_sizes)
 
     if bias is None:
@@ -46,40 +53,42 @@ def dequant_out_scale(
         flattened_output *= b_scales
         return flattened_output.view(orig_shape)
     else:
-        b_scales = scales.view(scales.shape[:-3] + (-1, )).expand(
-            -1, weights.shape[1])
+        b_scales = scales.view(scales.shape[:-3] + (-1,)).expand(-1, weights.shape[1])
         weights *= b_scales
         return F.linear(input, weights, bias)
 
 
 def dequant_weight_scale(
-    input: torch.Tensor,  #  [..., in_features]
-    codes: torch.IntTensor,  #  [num_out_groups, num_in_groups, num_codebooks]
-    codebooks: torch.
-    Tensor,  #  [num_codebooks, codebook_size, out_group_size, in_group_size]
-    scales: torch.Tensor,  #  [num_out_groups, 1, 1, 1]
+    # [..., in_features]
+    input: torch.Tensor,
+    # [num_out_groups, num_in_groups, num_codebooks]
+    codes: torch.IntTensor,
+    # [num_codebooks, codebook_size, out_group_size, in_group_size]
+    codebooks: torch.Tensor,
+    # [num_out_groups, 1, 1, 1]
+    scales: torch.Tensor,
     output_partition_sizes: torch.IntTensor,
     bias: Optional[torch.Tensor],
 ) -> torch.Tensor:
-
     weights = ops.aqlm_dequant(codes, codebooks, output_partition_sizes)
 
-    b_scales = scales.view(scales.shape[:-3] + (-1, )).expand(
-        -1, weights.shape[1])
+    b_scales = scales.view(scales.shape[:-3] + (-1,)).expand(-1, weights.shape[1])
     weights *= b_scales
     return F.linear(input, weights, bias)
 
 
 def dequant_no_scale(
-    input: torch.Tensor,  #  [..., in_features]
-    codes: torch.IntTensor,  #  [num_out_groups, num_in_groups, num_codebooks]
-    codebooks: torch.
-    Tensor,  #  [num_codebooks, codebook_size, out_group_size, in_group_size]
-    scales: torch.Tensor,  #  [num_out_groups, 1, 1, 1]
+    # [..., in_features]
+    input: torch.Tensor,
+    # [num_out_groups, num_in_groups, num_codebooks]
+    codes: torch.IntTensor,
+    # [num_codebooks, codebook_size, out_group_size, in_group_size]
+    codebooks: torch.Tensor,
+    # [num_out_groups, 1, 1, 1]
+    scales: torch.Tensor,
     output_partition_sizes: torch.IntTensor,
     bias: Optional[torch.Tensor],
 ) -> torch.Tensor:
-
     weights = ops.aqlm_dequant(codes, codebooks, output_partition_sizes)
 
     return F.linear(input, weights, bias)
@@ -89,23 +98,26 @@ def dequant_no_scale(
 # the generic pytorch version.
 # Just visual comparison.
 def dequant_test(k: int, parts: torch.Tensor, nbooks: int, bits: int) -> None:
-
     n = int(parts.sum().item())
 
-    device = torch.device('cuda:0')
+    device = torch.device("cuda:0")
 
     code_range = (1 << bits) // 2
     ingroups = 8
 
-    codes = torch.randint(-code_range,
-                          code_range,
-                          size=(n, k // ingroups, nbooks),
-                          dtype=get_int_dtype(bits),
-                          device=device)
+    codes = torch.randint(
+        -code_range,
+        code_range,
+        size=(n, k // ingroups, nbooks),
+        dtype=get_int_dtype(bits),
+        device=device,
+    )
 
-    codebooks = torch.randn(size=(parts.shape[0] * nbooks, 1 << bits, 1, 8),
-                            dtype=torch.float16,
-                            device=device)
+    codebooks = torch.randn(
+        size=(parts.shape[0] * nbooks, 1 << bits, 1, 8),
+        dtype=torch.float16,
+        device=device,
+    )
 
     count = 0
     for index in range(16):
@@ -138,24 +150,25 @@ def dequant_test(k: int, parts: torch.Tensor, nbooks: int, bits: int) -> None:
 
 
 def main():
-
     parser = FlexibleArgumentParser(description="Benchmark aqlm performance.")
 
     # Add arguments
-    parser.add_argument("--nbooks",
-                        type=int,
-                        default=1,
-                        help="Number of codebooks (default: 1)")
-    parser.add_argument("--bits",
-                        type=int,
-                        default=16,
-                        help="Number of bits per code element (default: 16)")
+    parser.add_argument(
+        "--nbooks", type=int, default=1, help="Number of codebooks (default: 1)"
+    )
+    parser.add_argument(
+        "--bits",
+        type=int,
+        default=16,
+        help="Number of bits per code element (default: 16)",
+    )
     parser.add_argument(
         "--test",
         type=bool,
         default=False,
         help="Run the decompression/dequant tester rather than benchmarking "
-        "(default: False)")
+        "(default: False)",
+    )
 
     # Parse the arguments
     args = parser.parse_args()
@@ -165,7 +178,7 @@ def main():
     bits = args.bits
 
     if args.test:
-        dequant_test(4096, torch.tensor((4096, )), nbooks, bits)
+        dequant_test(4096, torch.tensor((4096,)), nbooks, bits)
         return
 
     # Otherwise, benchmark.
@@ -184,31 +197,54 @@ def main():
     with open(filename, "w") as f:
         sys.stdout = f
 
-        print('m | k | n | n parts', end='')
+        print("m | k | n | n parts", end="")
         for method in methods:
-            print(f" | {method.__name__.replace('_', ' ')} (µs)", end='')
-        print('')
+            print(f" | {method.__name__.replace('_', ' ')} (µs)", end="")
+        print("")
 
         # These are reasonable prefill sizes.
-        ksandpartions = ((4096, (4096, 4096, 4096)), (4096, (4096, )),
-                         (4096, (11008, 11008)), (11008, (4096, )))
+        ksandpartions = (
+            (4096, (4096, 4096, 4096)),
+            (4096, (4096,)),
+            (4096, (11008, 11008)),
+            (11008, (4096,)),
+        )
 
         # reasonable ranges for m.
         for m in [
-                1, 2, 4, 8, 10, 12, 14, 16, 24, 32, 48, 52, 56, 64, 96, 112,
-                128, 256, 512, 1024, 1536, 2048, 3072, 4096
+            1,
+            2,
+            4,
+            8,
+            10,
+            12,
+            14,
+            16,
+            24,
+            32,
+            48,
+            52,
+            56,
+            64,
+            96,
+            112,
+            128,
+            256,
+            512,
+            1024,
+            1536,
+            2048,
+            3072,
+            4096,
         ]:
-            print(f'{m}', file=sys.__stdout__)
+            print(f"{m}", file=sys.__stdout__)
             for ksp in ksandpartions:
-                run_grid(m, ksp[0], torch.tensor(ksp[1]), nbooks, bits,
-                         methods)
+                run_grid(m, ksp[0], torch.tensor(ksp[1]), nbooks, bits, methods)
 
         sys.stdout = sys.__stdout__
 
 
-def run_grid(m: int, k: int, parts: torch.Tensor, nbooks: int, bits: int,
-             methods):
-
+def run_grid(m: int, k: int, parts: torch.Tensor, nbooks: int, bits: int, methods):
     # I didn't see visible improvements from increasing these, but feel free :)
     num_warmup_trials = 1
     num_trials = 1
@@ -229,7 +265,7 @@ def run_grid(m: int, k: int, parts: torch.Tensor, nbooks: int, bits: int,
             )
 
     n = parts.sum().item()
-    print(f'{m} | {k} | {n} | {parts.tolist()}', end='')
+    print(f"{m} | {k} | {n} | {parts.tolist()}", end="")
 
     for method in methods:
         best_time_us = 1e20
@@ -249,32 +285,36 @@ def run_grid(m: int, k: int, parts: torch.Tensor, nbooks: int, bits: int,
             if kernel_dur_us < best_time_us:
                 best_time_us = kernel_dur_us
 
-        print(f' | {kernel_dur_us:.0f}', end='')
+        print(f" | {kernel_dur_us:.0f}", end="")
 
-    print('')
+    print("")
 
 
-def run_timing(num_calls: int, m: int, k: int, parts: torch.Tensor,
-               nbooks: int, bits: int, method) -> float:
-
+def run_timing(
+    num_calls: int, m: int, k: int, parts: torch.Tensor, nbooks: int, bits: int, method
+) -> float:
     n = int(parts.sum().item())
 
-    device = torch.device('cuda:0')
+    device = torch.device("cuda:0")
 
     input = torch.randn((1, m, k), dtype=torch.float16, device=device)
 
     code_range = (1 << bits) // 2
     ingroups = 8
 
-    codes = torch.randint(-code_range,
-                          code_range,
-                          size=(n, k // ingroups, nbooks),
-                          dtype=get_int_dtype(bits),
-                          device=device)
-
-    codebooks = torch.randn(size=(parts.shape[0] * nbooks, 1 << bits, 1, 8),
-                            dtype=torch.float16,
-                            device=device)
+    codes = torch.randint(
+        -code_range,
+        code_range,
+        size=(n, k // ingroups, nbooks),
+        dtype=get_int_dtype(bits),
+        device=device,
+    )
+
+    codebooks = torch.randn(
+        size=(parts.shape[0] * nbooks, 1 << bits, 1, 8),
+        dtype=torch.float16,
+        device=device,
+    )
 
     scales = torch.randn(size=(n, 1, 1, 1), dtype=torch.float16, device=device)
 
diff --git a/benchmarks/kernels/benchmark_bitblas.py b/benchmarks/kernels/benchmark_bitblas.py
index b23b4f3ea..d40ab70ec 100644
--- a/benchmarks/kernels/benchmark_bitblas.py
+++ b/benchmarks/kernels/benchmark_bitblas.py
@@ -3,27 +3,33 @@
 # Licensed under the MIT License.
 
 from vllm.model_executor.layers.quantization.utils.bitblas_utils import (
-    MINIMUM_BITBLAS_VERSION)
+    MINIMUM_BITBLAS_VERSION,
+)
 
 try:
     import bitblas
+
     if bitblas.__version__ < MINIMUM_BITBLAS_VERSION:
-        raise ImportError("bitblas version is wrong. Please "
-                          f"install bitblas>={MINIMUM_BITBLAS_VERSION}")
+        raise ImportError(
+            "bitblas version is wrong. Please "
+            f"install bitblas>={MINIMUM_BITBLAS_VERSION}"
+        )
 except ImportError as e:
     bitblas_import_exception = e
-    raise ValueError("Trying to use the bitblas backend, but could not import"
-                     f"with the following error: {bitblas_import_exception}. "
-                     "Please install bitblas through the following command: "
-                     f"`pip install bitblas>={MINIMUM_BITBLAS_VERSION}`"
-                     ) from bitblas_import_exception
+    raise ValueError(
+        "Trying to use the bitblas backend, but could not import"
+        f"with the following error: {bitblas_import_exception}. "
+        "Please install bitblas through the following command: "
+        f"`pip install bitblas>={MINIMUM_BITBLAS_VERSION}`"
+    ) from bitblas_import_exception
 
 from bitblas import Matmul, MatmulConfig, auto_detect_nvidia_target
 
 from vllm.utils import FlexibleArgumentParser
 
 parser = FlexibleArgumentParser(
-    description="Benchmark BitBLAS int4 on a specific target.")
+    description="Benchmark BitBLAS int4 on a specific target."
+)
 
 # Add arguments to the parser
 parser.add_argument(
@@ -32,10 +38,9 @@ parser.add_argument(
     default=auto_detect_nvidia_target(),
     help="Specify the target device for benchmarking.",
 )
-parser.add_argument("--group_size",
-                    type=int,
-                    default=None,
-                    help="Group size for grouped quantization.")
+parser.add_argument(
+    "--group_size", type=int, default=None, help="Group size for grouped quantization."
+)
 parser.add_argument(
     "--A_dtype",
     type=str,
@@ -82,17 +87,17 @@ parser.add_argument(
     choices=["nt", "nn"],
     help="Matrix layout, 'nt' for non-transpose A and transpose W.",
 )
-parser.add_argument("--with_bias",
-                    action="store_true",
-                    help="Include bias in the benchmark.")
+parser.add_argument(
+    "--with_bias", action="store_true", help="Include bias in the benchmark."
+)
 parser.add_argument(
     "--with_scaling",
     action="store_true",
     help="Include scaling factor in the quantization.",
 )
-parser.add_argument("--with_zeros",
-                    action="store_true",
-                    help="Include zeros in the quantization.")
+parser.add_argument(
+    "--with_zeros", action="store_true", help="Include zeros in the quantization."
+)
 parser.add_argument(
     "--zeros_mode",
     type=str,
@@ -170,8 +175,7 @@ shapes = [
 ]
 
 # Build test shapes with all the shared arguments
-test_shapes = [(MatmulConfig, Matmul, (*shape, *shared_args))
-               for shape in shapes]
+test_shapes = [(MatmulConfig, Matmul, (*shape, *shared_args)) for shape in shapes]
 
 benchmark_sets = []
 benchmark_sets.extend(test_shapes)
@@ -206,12 +210,12 @@ for config_key, values in benchmark_results.items():
     func_name = args_split[0]
     input_args_str = "-".join(args_split[1:])
     col_widths[0] = max(col_widths[0], len(func_name) + 2, len(headers[0]) + 2)
-    col_widths[1] = max(col_widths[1],
-                        len(input_args_str) + 2,
-                        len(headers[1]) + 2)
-    col_widths[2] = max(col_widths[2],
-                        len(f"{values['BitBLAS_top20_latency']:.3f} ms") + 2,
-                        len(headers[2]) + 2)
+    col_widths[1] = max(col_widths[1], len(input_args_str) + 2, len(headers[1]) + 2)
+    col_widths[2] = max(
+        col_widths[2],
+        len(f"{values['BitBLAS_top20_latency']:.3f} ms") + 2,
+        len(headers[2]) + 2,
+    )
     # break only if you want to measure widths from a single example;
     # otherwise, let it loop over all items.
 
@@ -232,5 +236,6 @@ for config_key, values in benchmark_results.items():
         f"{values['BitBLAS_top20_latency']:.3f} ms",
     ]
     row_str = "".join(
-        [str(cell).ljust(col_widths[idx]) for idx, cell in enumerate(row)])
+        [str(cell).ljust(col_widths[idx]) for idx, cell in enumerate(row)]
+    )
     print(row_str)
diff --git a/benchmarks/kernels/benchmark_cutlass_fp4_moe.py b/benchmarks/kernels/benchmark_cutlass_fp4_moe.py
index 0d091b47c..d39d8a6e3 100644
--- a/benchmarks/kernels/benchmark_cutlass_fp4_moe.py
+++ b/benchmarks/kernels/benchmark_cutlass_fp4_moe.py
@@ -5,6 +5,7 @@ kernel. The cutlass_moe_fp4 kernel takes in fp4 quantized weights and 16-bit
 activations. The triton_moe kernel takes in fp8 weights(tensor scaled to fp8)
 and 16-bit activations.
 """
+
 import nvtx
 import torch
 import torch.utils.benchmark as benchmark
@@ -12,8 +13,7 @@ import torch.utils.benchmark as benchmark
 from vllm import _custom_ops as ops
 from vllm.config import ParallelConfig, VllmConfig, set_current_vllm_config
 from vllm.model_executor.layers.fused_moe.cutlass_moe import cutlass_moe_fp4
-from vllm.model_executor.layers.fused_moe.fused_moe import (fused_experts,
-                                                            fused_topk)
+from vllm.model_executor.layers.fused_moe.fused_moe import fused_experts, fused_topk
 from vllm.scalar_type import scalar_types
 from vllm.utils import FlexibleArgumentParser
 
@@ -38,19 +38,27 @@ FLOAT8_E4M3_MAX = torch.finfo(torch.float8_e4m3fn).max
 
 def to_fp8(tensor: torch.Tensor):
     finfo = torch.finfo(torch.float8_e4m3fn)
-    return torch.round(tensor.clamp(
-        min=finfo.min, max=finfo.max)).to(dtype=torch.float8_e4m3fn)
+    return torch.round(tensor.clamp(min=finfo.min, max=finfo.max)).to(
+        dtype=torch.float8_e4m3fn
+    )
 
 
-def bench_run(results: list[benchmark.Measurement], model: str,
-              num_experts: int, topk: int, per_act_token: bool,
-              per_out_ch: bool, mkn: tuple[int, int, int]):
+def bench_run(
+    results: list[benchmark.Measurement],
+    model: str,
+    num_experts: int,
+    topk: int,
+    per_act_token: bool,
+    per_out_ch: bool,
+    mkn: tuple[int, int, int],
+):
     label = "NVFP4 Blockscaled CUTLASS MOE vs FP8 Tensor Scaled Triton"
 
     sub_label = (
-        "{}, num_experts={}, topk={}, per_act_token={} per_out_ch={}, "
-        "MKN=({})".format(model, num_experts, topk, per_act_token, per_out_ch,
-                          mkn))
+        "{}, num_experts={}, topk={}, per_act_token={} per_out_ch={}, MKN=({})".format(
+            model, num_experts, topk, per_act_token, per_out_ch, mkn
+        )
+    )
 
     print(f"Testing: {sub_label}")
 
@@ -64,18 +72,12 @@ def bench_run(results: list[benchmark.Measurement], model: str,
 
     _, a_fp8_scale = ops.scaled_fp8_quant(a)
 
-    w1_fp8q = torch.empty((num_experts, 2 * n, k),
-                          device=device,
-                          dtype=torch.float8_e4m3fn)
-    w2_fp8q = torch.empty((num_experts, k, n),
-                          device=device,
-                          dtype=torch.float8_e4m3fn)
-    w1_fp8scale = torch.empty((num_experts, 1, 1),
-                              device=device,
-                              dtype=torch.float32)
-    w2_fp8scale = torch.empty((num_experts, 1, 1),
-                              device=device,
-                              dtype=torch.float32)
+    w1_fp8q = torch.empty(
+        (num_experts, 2 * n, k), device=device, dtype=torch.float8_e4m3fn
+    )
+    w2_fp8q = torch.empty((num_experts, k, n), device=device, dtype=torch.float8_e4m3fn)
+    w1_fp8scale = torch.empty((num_experts, 1, 1), device=device, dtype=torch.float32)
+    w2_fp8scale = torch.empty((num_experts, 1, 1), device=device, dtype=torch.float32)
 
     for expert in range(num_experts):
         w1_fp8q[expert], w1_fp8scale[expert] = ops.scaled_fp8_quant(w1[expert])
@@ -91,26 +93,24 @@ def bench_run(results: list[benchmark.Measurement], model: str,
     topk_weights, topk_ids = fused_topk(a, score, topk, renormalize=False)
 
     quant_blocksize = 16
-    w1_blockscale = torch.empty((num_experts, 2 * n, k // quant_blocksize),
-                                device=device,
-                                dtype=torch.float8_e4m3fn)
-    w2_blockscale = torch.empty((num_experts, k, n // quant_blocksize),
-                                device=device,
-                                dtype=torch.float8_e4m3fn)
+    w1_blockscale = torch.empty(
+        (num_experts, 2 * n, k // quant_blocksize),
+        device=device,
+        dtype=torch.float8_e4m3fn,
+    )
+    w2_blockscale = torch.empty(
+        (num_experts, k, n // quant_blocksize), device=device, dtype=torch.float8_e4m3fn
+    )
 
     # n_b_scales = 2 * n if per_out_ch else 1
     # k_b_scales = k if per_out_ch else 1
-    w1_fp4 = torch.empty((num_experts, 2 * n, k // 2),
-                         device=device,
-                         dtype=torch.uint8)
-    w2_fp4 = torch.empty((num_experts, k, n // 2),
-                         device=device,
-                         dtype=torch.uint8)
-
-    w1_gs = torch.empty((num_experts, ), device=device, dtype=torch.float32)
-    w2_gs = torch.empty((num_experts, ), device=device, dtype=torch.float32)
-    a1_gs = torch.ones((num_experts, ), device=device, dtype=torch.float32)
-    a2_gs = torch.ones((num_experts, ), device=device, dtype=torch.float32)
+    w1_fp4 = torch.empty((num_experts, 2 * n, k // 2), device=device, dtype=torch.uint8)
+    w2_fp4 = torch.empty((num_experts, k, n // 2), device=device, dtype=torch.uint8)
+
+    w1_gs = torch.empty((num_experts,), device=device, dtype=torch.float32)
+    w2_gs = torch.empty((num_experts,), device=device, dtype=torch.float32)
+    a1_gs = torch.ones((num_experts,), device=device, dtype=torch.float32)
+    a2_gs = torch.ones((num_experts,), device=device, dtype=torch.float32)
 
     for expert in range(num_experts):
         w1_e = w1[expert]
@@ -121,96 +121,141 @@ def bench_run(results: list[benchmark.Measurement], model: str,
         w2_gs[expert] = FLOAT8_E4M3_MAX * FLOAT4_E2M1_MAX / w2_amax
 
         w1_fp4[expert], w1_blockscale[expert] = ops.scaled_fp4_quant(
-            w1_e, w1_gs[expert])
+            w1_e, w1_gs[expert]
+        )
 
         w2_fp4[expert], w2_blockscale[expert] = ops.scaled_fp4_quant(
-            w2_e, w2_gs[expert])
-
-    def run_triton_moe(a: torch.Tensor, w1: torch.Tensor, w2: torch.Tensor,
-                       topk_weights: torch.Tensor, topk_ids: torch.Tensor,
-                       w1_scale: torch.Tensor, w2_scale: torch.Tensor,
-                       a_fp8_scale: torch.Tensor, num_repeats: int):
+            w2_e, w2_gs[expert]
+        )
+
+    def run_triton_moe(
+        a: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        w1_scale: torch.Tensor,
+        w2_scale: torch.Tensor,
+        a_fp8_scale: torch.Tensor,
+        num_repeats: int,
+    ):
         for _ in range(num_repeats):
-            fused_experts(a,
-                          w1,
-                          w2,
-                          topk_weights,
-                          topk_ids,
-                          use_fp8_w8a8=True,
-                          w1_scale=w1_scale,
-                          w2_scale=w2_scale,
-                          a1_scale=a_fp8_scale)
-
-    def run_cutlass_moe_fp4(a: torch.Tensor, w1_fp4: torch.Tensor,
-                            w2_fp4: torch.Tensor, w1_blockscale: torch.Tensor,
-                            w2_blockscale: torch.Tensor, w1_gs: torch.Tensor,
-                            w2_gs: torch.Tensor, a1_gs: torch.Tensor,
-                            a2_gs: torch.Tensor, topk_weights: torch.Tensor,
-                            topk_ids: torch.Tensor, m: int, n: int, k: int,
-                            e: int, device: torch.device, num_repeats: int):
+            fused_experts(
+                a,
+                w1,
+                w2,
+                topk_weights,
+                topk_ids,
+                use_fp8_w8a8=True,
+                w1_scale=w1_scale,
+                w2_scale=w2_scale,
+                a1_scale=a_fp8_scale,
+            )
+
+    def run_cutlass_moe_fp4(
+        a: torch.Tensor,
+        w1_fp4: torch.Tensor,
+        w2_fp4: torch.Tensor,
+        w1_blockscale: torch.Tensor,
+        w2_blockscale: torch.Tensor,
+        w1_gs: torch.Tensor,
+        w2_gs: torch.Tensor,
+        a1_gs: torch.Tensor,
+        a2_gs: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        m: int,
+        n: int,
+        k: int,
+        e: int,
+        device: torch.device,
+        num_repeats: int,
+    ):
         for _ in range(num_repeats):
             with nvtx.annotate("cutlass_moe_fp4", color="green"):
-                cutlass_moe_fp4(a=a,
-                                a1_gscale=a1_gs,
-                                a2_gscale=a2_gs,
-                                w1_fp4=w1_fp4,
-                                w1_blockscale=w1_blockscale,
-                                w1_alphas=w1_gs,
-                                w2_fp4=w2_fp4,
-                                w2_blockscale=w2_blockscale,
-                                w2_alphas=w2_gs,
-                                topk_weights=topk_weights,
-                                topk_ids=topk_ids,
-                                m=m,
-                                n=n,
-                                k=k,
-                                e=num_experts,
-                                device=device)
+                cutlass_moe_fp4(
+                    a=a,
+                    a1_gscale=a1_gs,
+                    a2_gscale=a2_gs,
+                    w1_fp4=w1_fp4,
+                    w1_blockscale=w1_blockscale,
+                    w1_alphas=w1_gs,
+                    w2_fp4=w2_fp4,
+                    w2_blockscale=w2_blockscale,
+                    w2_alphas=w2_gs,
+                    topk_weights=topk_weights,
+                    topk_ids=topk_ids,
+                    m=m,
+                    n=n,
+                    k=k,
+                    e=num_experts,
+                    device=device,
+                )
 
     def run_cutlass_from_graph(
-            a: torch.Tensor, a1_gscale: torch.Tensor, w1_fp4: torch.Tensor,
-            w1_blockscale: torch.Tensor, w1_alphas: torch.Tensor,
-            a2_gscale: torch.Tensor, w2_fp4: torch.Tensor,
-            w2_blockscale: torch.Tensor, w2_alphas: torch.Tensor,
-            topk_weights: torch.Tensor, topk_ids: torch.Tensor, m: int, n: int,
-            k: int, e: int, device: torch.device):
+        a: torch.Tensor,
+        a1_gscale: torch.Tensor,
+        w1_fp4: torch.Tensor,
+        w1_blockscale: torch.Tensor,
+        w1_alphas: torch.Tensor,
+        a2_gscale: torch.Tensor,
+        w2_fp4: torch.Tensor,
+        w2_blockscale: torch.Tensor,
+        w2_alphas: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        m: int,
+        n: int,
+        k: int,
+        e: int,
+        device: torch.device,
+    ):
         with set_current_vllm_config(
-                VllmConfig(parallel_config=ParallelConfig(
-                    pipeline_parallel_size=1))):
-            return cutlass_moe_fp4(a=a,
-                                   a1_gscale=a1_gs,
-                                   w1_fp4=w1_fp4,
-                                   w1_blockscale=w1_blockscale,
-                                   w1_alphas=w1_alphas,
-                                   a2_gscale=a2_gs,
-                                   w2_fp4=w2_fp4,
-                                   w2_blockscale=w2_blockscale,
-                                   w2_alphas=w2_alphas,
-                                   topk_weights=topk_weights,
-                                   topk_ids=topk_ids,
-                                   m=m,
-                                   n=n,
-                                   k=k,
-                                   e=num_experts,
-                                   device=device)
-
-    def run_triton_from_graph(a: torch.Tensor, w1: torch.Tensor,
-                              w2: torch.Tensor, topk_weights: torch.Tensor,
-                              topk_ids: torch.Tensor, w1_scale: torch.Tensor,
-                              w2_scale: torch.Tensor,
-                              a_fp8_scale: torch.Tensor):
+            VllmConfig(parallel_config=ParallelConfig(pipeline_parallel_size=1))
+        ):
+            return cutlass_moe_fp4(
+                a=a,
+                a1_gscale=a1_gs,
+                w1_fp4=w1_fp4,
+                w1_blockscale=w1_blockscale,
+                w1_alphas=w1_alphas,
+                a2_gscale=a2_gs,
+                w2_fp4=w2_fp4,
+                w2_blockscale=w2_blockscale,
+                w2_alphas=w2_alphas,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                m=m,
+                n=n,
+                k=k,
+                e=num_experts,
+                device=device,
+            )
+
+    def run_triton_from_graph(
+        a: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        w1_scale: torch.Tensor,
+        w2_scale: torch.Tensor,
+        a_fp8_scale: torch.Tensor,
+    ):
         with set_current_vllm_config(
-                VllmConfig(parallel_config=ParallelConfig(
-                    pipeline_parallel_size=1))):
-            return fused_experts(a,
-                                 w1,
-                                 w2,
-                                 topk_weights,
-                                 topk_ids,
-                                 use_fp8_w8a8=True,
-                                 w1_scale=w1_scale,
-                                 w2_scale=w2_scale,
-                                 a1_scale=a_fp8_scale)
+            VllmConfig(parallel_config=ParallelConfig(pipeline_parallel_size=1))
+        ):
+            return fused_experts(
+                a,
+                w1,
+                w2,
+                topk_weights,
+                topk_ids,
+                use_fp8_w8a8=True,
+                w1_scale=w1_scale,
+                w2_scale=w2_scale,
+                a1_scale=a_fp8_scale,
+            )
 
     def replay_graph(graph, num_repeats):
         for _ in range(num_repeats):
@@ -220,30 +265,39 @@ def bench_run(results: list[benchmark.Measurement], model: str,
     cutlass_stream = torch.cuda.Stream()
     cutlass_graph = torch.cuda.CUDAGraph()
     with torch.cuda.graph(cutlass_graph, stream=cutlass_stream):
-        run_cutlass_from_graph(a=a,
-                               a1_gscale=a1_gs,
-                               w1_fp4=w1_fp4,
-                               w1_blockscale=w1_blockscale,
-                               w1_alphas=w1_gs,
-                               a2_gscale=a2_gs,
-                               w2_fp4=w2_fp4,
-                               w2_blockscale=w2_blockscale,
-                               w2_alphas=w2_gs,
-                               topk_weights=topk_weights,
-                               topk_ids=topk_ids,
-                               m=m,
-                               n=n,
-                               k=k,
-                               e=num_experts,
-                               device=device)
+        run_cutlass_from_graph(
+            a=a,
+            a1_gscale=a1_gs,
+            w1_fp4=w1_fp4,
+            w1_blockscale=w1_blockscale,
+            w1_alphas=w1_gs,
+            a2_gscale=a2_gs,
+            w2_fp4=w2_fp4,
+            w2_blockscale=w2_blockscale,
+            w2_alphas=w2_gs,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            m=m,
+            n=n,
+            k=k,
+            e=num_experts,
+            device=device,
+        )
     torch.cuda.synchronize()
 
     triton_stream = torch.cuda.Stream()
     triton_graph = torch.cuda.CUDAGraph()
     with torch.cuda.graph(triton_graph, stream=triton_stream):
-        run_triton_from_graph(a, w1_fp8q_notransp, w2_fp8q_notransp,
-                              topk_weights, topk_ids, w1_fp8scale, w2_fp8scale,
-                              a_fp8_scale)
+        run_triton_from_graph(
+            a,
+            w1_fp8q_notransp,
+            w2_fp8q_notransp,
+            topk_weights,
+            topk_ids,
+            w1_fp8scale,
+            w2_fp8scale,
+            a_fp8_scale,
+        )
     torch.cuda.synchronize()
 
     min_run_time = 5
@@ -290,18 +344,27 @@ def bench_run(results: list[benchmark.Measurement], model: str,
     }
 
     # Warmup
-    run_triton_moe(a, w1_fp8q_notransp, w2_fp8q_notransp, topk_weights,
-                   topk_ids, w1_fp8scale, w2_fp8scale, a_fp8_scale, num_warmup)
+    run_triton_moe(
+        a,
+        w1_fp8q_notransp,
+        w2_fp8q_notransp,
+        topk_weights,
+        topk_ids,
+        w1_fp8scale,
+        w2_fp8scale,
+        a_fp8_scale,
+        num_warmup,
+    )
 
     results.append(
         benchmark.Timer(
-            stmt=
-            "run_triton_moe(a, w1_fp8q_notransp, w2_fp8q_notransp, topk_weights, topk_ids, w1_fp8scale, w2_fp8scale, a_fp8_scale, num_runs)",  # noqa: E501
+            stmt="run_triton_moe(a, w1_fp8q_notransp, w2_fp8q_notransp, topk_weights, topk_ids, w1_fp8scale, w2_fp8scale, a_fp8_scale, num_runs)",  # noqa: E501
             globals=globals,
             label=label,
             sub_label=sub_label,
             description="triton_moe",
-        ).blocked_autorange(min_run_time=min_run_time))
+        ).blocked_autorange(min_run_time=min_run_time)
+    )
 
     # Warmup
     replay_graph(triton_graph, num_warmup)
@@ -313,23 +376,40 @@ def bench_run(results: list[benchmark.Measurement], model: str,
             label=label,
             sub_label=sub_label,
             description="triton_moe_cuda_graphs",
-        ).blocked_autorange(min_run_time=min_run_time))
+        ).blocked_autorange(min_run_time=min_run_time)
+    )
 
     # Warmup
 
-    run_cutlass_moe_fp4(a, w1_fp4, w2_fp4, w1_blockscale, w2_blockscale, w1_gs,
-                        w2_gs, a1_gs, a2_gs, topk_weights, topk_ids, m, n, k,
-                        num_experts, device, num_warmup)
+    run_cutlass_moe_fp4(
+        a,
+        w1_fp4,
+        w2_fp4,
+        w1_blockscale,
+        w2_blockscale,
+        w1_gs,
+        w2_gs,
+        a1_gs,
+        a2_gs,
+        topk_weights,
+        topk_ids,
+        m,
+        n,
+        k,
+        num_experts,
+        device,
+        num_warmup,
+    )
 
     results.append(
         benchmark.Timer(
-            stmt=
-            "run_cutlass_moe_fp4(a, w1_fp4, w2_fp4, w1_blockscale, w2_blockscale, w1_alphas, w2_alphas, a1_gscale, a2_gscale, topk_weights, topk_ids, m, n, k, e, device, num_runs)",  # noqa: E501
+            stmt="run_cutlass_moe_fp4(a, w1_fp4, w2_fp4, w1_blockscale, w2_blockscale, w1_alphas, w2_alphas, a1_gscale, a2_gscale, topk_weights, topk_ids, m, n, k, e, device, num_runs)",  # noqa: E501
             globals=globals,
             label=label,
             sub_label=sub_label,
             description="cutlass_moe_fp4",
-        ).blocked_autorange(min_run_time=min_run_time))
+        ).blocked_autorange(min_run_time=min_run_time)
+    )
 
     # Warmup
     replay_graph(cutlass_graph, num_warmup)
@@ -341,7 +421,8 @@ def bench_run(results: list[benchmark.Measurement], model: str,
             label=label,
             sub_label=sub_label,
             description="cutlass_moe_fp4_cuda_graphs",
-        ).blocked_autorange(min_run_time=min_run_time))
+        ).blocked_autorange(min_run_time=min_run_time)
+    )
 
 
 def main(args):
@@ -369,8 +450,15 @@ def main(args):
                     for per_out_ch in PER_OUT_CH_OPTS:
                         for size_m in args.batch_sizes:
                             mkn = (size_m, size_k, size_n)
-                            bench_run(results, model, num_experts, topk,
-                                      per_act_token, per_out_ch, mkn)
+                            bench_run(
+                                results,
+                                model,
+                                num_experts,
+                                topk,
+                                per_act_token,
+                                per_out_ch,
+                                mkn,
+                            )
 
     compare = benchmark.Compare(results)
     compare.print()
@@ -378,8 +466,8 @@ def main(args):
 
 if __name__ == "__main__":
     parser = FlexibleArgumentParser(
-        description="Benchmark NVFP4 CUTLASS MOE across specified "
-        "models/shapes/batches")
+        description="Benchmark NVFP4 CUTLASS MOE across specified models/shapes/batches"
+    )
     parser.add_argument(
         "--models",
         nargs="+",
@@ -387,21 +475,14 @@ if __name__ == "__main__":
         default=DEFAULT_MODELS,
         choices=WEIGHT_SHAPES_MOE.keys(),
     )
-    parser.add_argument("--tp-sizes",
-                        nargs="+",
-                        type=int,
-                        default=DEFAULT_TP_SIZES)
-    parser.add_argument("--batch-sizes",
-                        nargs="+",
-                        type=int,
-                        default=DEFAULT_BATCH_SIZES)
+    parser.add_argument("--tp-sizes", nargs="+", type=int, default=DEFAULT_TP_SIZES)
+    parser.add_argument(
+        "--batch-sizes", nargs="+", type=int, default=DEFAULT_BATCH_SIZES
+    )
     parser.add_argument("--limit-k", nargs="+", type=int, default=[])
     parser.add_argument("--limit-n", nargs="+", type=int, default=[])
     parser.add_argument("--limit-num-groups", nargs="+", type=int, default=[])
-    parser.add_argument("--limit-per-act-token",
-                        nargs="+",
-                        type=int,
-                        default=[])
+    parser.add_argument("--limit-per-act-token", nargs="+", type=int, default=[])
     parser.add_argument("--limit-per-out-ch", nargs="+", type=int, default=[])
 
     args = parser.parse_args()
diff --git a/benchmarks/kernels/benchmark_grouped_gemm_cutlass.py b/benchmarks/kernels/benchmark_grouped_gemm_cutlass.py
index c92ea43e8..2197bceab 100644
--- a/benchmarks/kernels/benchmark_grouped_gemm_cutlass.py
+++ b/benchmarks/kernels/benchmark_grouped_gemm_cutlass.py
@@ -6,14 +6,18 @@ from benchmark_shapes import WEIGHT_SHAPES_MOE
 
 from vllm import _custom_ops as ops
 from vllm.config import ParallelConfig, VllmConfig, set_current_vllm_config
-from vllm.model_executor.layers.fused_moe.fused_moe import (cutlass_moe_fp8,
-                                                            fused_experts,
-                                                            fused_topk)
+from vllm.model_executor.layers.fused_moe.fused_moe import (
+    cutlass_moe_fp8,
+    fused_experts,
+    fused_topk,
+)
 from vllm.utils import FlexibleArgumentParser
 
 DEFAULT_MODELS = [
-    "nm-testing/Mixtral-8x7B-Instruct-v0.1", "nm-testing/deepseekv2-lite",
-    "ibm-granite/granite-3.0-1b-a400m", "ibm-granite/granite-3.0-3b-a800m"
+    "nm-testing/Mixtral-8x7B-Instruct-v0.1",
+    "nm-testing/deepseekv2-lite",
+    "ibm-granite/granite-3.0-1b-a400m",
+    "ibm-granite/granite-3.0-3b-a800m",
 ]
 DEFAULT_BATCH_SIZES = [1, 4, 8, 16, 32, 64, 128, 256, 512]
 DEFAULT_TP_SIZES = [1]
@@ -24,19 +28,27 @@ PER_OUT_CH_OPTS = [False]
 
 def to_fp8(tensor: torch.Tensor):
     finfo = torch.finfo(torch.float8_e4m3fn)
-    return torch.round(tensor.clamp(
-        min=finfo.min, max=finfo.max)).to(dtype=torch.float8_e4m3fn)
+    return torch.round(tensor.clamp(min=finfo.min, max=finfo.max)).to(
+        dtype=torch.float8_e4m3fn
+    )
 
 
-def bench_run(results: list[benchmark.Measurement], model: str,
-              num_experts: int, topk: int, per_act_token: bool,
-              per_out_ch: bool, mkn: tuple[int, int, int]):
+def bench_run(
+    results: list[benchmark.Measurement],
+    model: str,
+    num_experts: int,
+    topk: int,
+    per_act_token: bool,
+    per_out_ch: bool,
+    mkn: tuple[int, int, int],
+):
     label = "Quant Matmul"
 
     sub_label = (
-        "{}, num_experts={}, topk={}, per_act_token={} per_out_ch={}, "
-        "MKN=({})".format(model, num_experts, topk, per_act_token, per_out_ch,
-                          mkn))
+        "{}, num_experts={}, topk={}, per_act_token={} per_out_ch={}, MKN=({})".format(
+            model, num_experts, topk, per_act_token, per_out_ch, mkn
+        )
+    )
 
     print(f"Testing: {sub_label}")
 
@@ -50,35 +62,17 @@ def bench_run(results: list[benchmark.Measurement], model: str,
 
     _, a_scale = ops.scaled_fp8_quant(a)
 
-    w1_q = torch.empty((num_experts, 2 * n, k),
-                       device="cuda",
-                       dtype=torch.float8_e4m3fn)
-    w2_q = torch.empty((num_experts, k, n),
-                       device="cuda",
-                       dtype=torch.float8_e4m3fn)
-    w1_scale = torch.empty((num_experts, 1, 1),
-                           device="cuda",
-                           dtype=torch.float32)
-    w2_scale = torch.empty((num_experts, 1, 1),
-                           device="cuda",
-                           dtype=torch.float32)
-
-    ab_strides1 = torch.full((num_experts, ),
-                             k,
-                             device="cuda",
-                             dtype=torch.int64)
-    c_strides1 = torch.full((num_experts, ),
-                            2 * n,
-                            device="cuda",
-                            dtype=torch.int64)
-    ab_strides2 = torch.full((num_experts, ),
-                             n,
-                             device="cuda",
-                             dtype=torch.int64)
-    c_strides2 = torch.full((num_experts, ),
-                            k,
-                            device="cuda",
-                            dtype=torch.int64)
+    w1_q = torch.empty(
+        (num_experts, 2 * n, k), device="cuda", dtype=torch.float8_e4m3fn
+    )
+    w2_q = torch.empty((num_experts, k, n), device="cuda", dtype=torch.float8_e4m3fn)
+    w1_scale = torch.empty((num_experts, 1, 1), device="cuda", dtype=torch.float32)
+    w2_scale = torch.empty((num_experts, 1, 1), device="cuda", dtype=torch.float32)
+
+    ab_strides1 = torch.full((num_experts,), k, device="cuda", dtype=torch.int64)
+    c_strides1 = torch.full((num_experts,), 2 * n, device="cuda", dtype=torch.int64)
+    ab_strides2 = torch.full((num_experts,), n, device="cuda", dtype=torch.int64)
+    c_strides2 = torch.full((num_experts,), k, device="cuda", dtype=torch.int64)
 
     for expert in range(num_experts):
         w1_q[expert], w1_scale[expert] = ops.scaled_fp8_quant(w1[expert])
@@ -91,82 +85,120 @@ def bench_run(results: list[benchmark.Measurement], model: str,
     score = torch.randn((m, num_experts), device="cuda", dtype=dtype)
 
     topk_weights, topk_ids, token_expert_indices = fused_topk(
-        a, score, topk, renormalize=False)
+        a, score, topk, renormalize=False
+    )
 
-    def run_triton_moe(a: torch.Tensor, w1: torch.Tensor, w2: torch.Tensor,
-                       topk_weights: torch.Tensor, topk_ids: torch.Tensor,
-                       w1_scale: torch.Tensor, w2_scale: torch.Tensor,
-                       a_scale: torch.Tensor, num_repeats: int):
+    def run_triton_moe(
+        a: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        w1_scale: torch.Tensor,
+        w2_scale: torch.Tensor,
+        a_scale: torch.Tensor,
+        num_repeats: int,
+    ):
         for _ in range(num_repeats):
-            fused_experts(a,
-                          w1,
-                          w2,
-                          topk_weights,
-                          topk_ids,
-                          use_fp8_w8a8=True,
-                          w1_scale=w1_scale,
-                          w2_scale=w2_scale,
-                          a1_scale=a_scale)
-
-    def run_cutlass_moe(a: torch.Tensor, a_scale: torch.Tensor,
-                        w1: torch.Tensor, w2: torch.Tensor,
-                        w1_scale: torch.Tensor, w2_scale: torch.Tensor,
-                        topk_weights: torch.Tensor, topk_ids: torch.Tensor,
-                        ab_strides1: torch.Tensor, c_strides1: torch.Tensor,
-                        ab_strides2: torch.Tensor, c_strides2: torch.Tensor,
-                        num_repeats: int):
+            fused_experts(
+                a,
+                w1,
+                w2,
+                topk_weights,
+                topk_ids,
+                use_fp8_w8a8=True,
+                w1_scale=w1_scale,
+                w2_scale=w2_scale,
+                a1_scale=a_scale,
+            )
+
+    def run_cutlass_moe(
+        a: torch.Tensor,
+        a_scale: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        w1_scale: torch.Tensor,
+        w2_scale: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        ab_strides1: torch.Tensor,
+        c_strides1: torch.Tensor,
+        ab_strides2: torch.Tensor,
+        c_strides2: torch.Tensor,
+        num_repeats: int,
+    ):
         for _ in range(num_repeats):
-            cutlass_moe_fp8(a,
-                            w1,
-                            w2,
-                            w1_scale,
-                            w2_scale,
-                            topk_weights,
-                            topk_ids,
-                            ab_strides1,
-                            c_strides1,
-                            ab_strides2,
-                            c_strides2,
-                            a1_scale=a_scale)
+            cutlass_moe_fp8(
+                a,
+                w1,
+                w2,
+                w1_scale,
+                w2_scale,
+                topk_weights,
+                topk_ids,
+                ab_strides1,
+                c_strides1,
+                ab_strides2,
+                c_strides2,
+                a1_scale=a_scale,
+            )
 
     def run_cutlass_from_graph(
-            a: torch.Tensor, a_scale: torch.Tensor, w1_q: torch.Tensor,
-            w2_q: torch.Tensor, w1_scale: torch.Tensor, w2_scale: torch.Tensor,
-            topk_weights: torch.Tensor, topk_ids: torch.Tensor,
-            ab_strides1: torch.Tensor, c_strides1: torch.Tensor,
-            ab_strides2: torch.Tensor, c_strides2: torch.Tensor):
+        a: torch.Tensor,
+        a_scale: torch.Tensor,
+        w1_q: torch.Tensor,
+        w2_q: torch.Tensor,
+        w1_scale: torch.Tensor,
+        w2_scale: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        ab_strides1: torch.Tensor,
+        c_strides1: torch.Tensor,
+        ab_strides2: torch.Tensor,
+        c_strides2: torch.Tensor,
+    ):
         with set_current_vllm_config(
-                VllmConfig(parallel_config=ParallelConfig(
-                    pipeline_parallel_size=1))):
-            return cutlass_moe_fp8(a,
-                                   w1_q,
-                                   w2_q,
-                                   w1_scale,
-                                   w2_scale,
-                                   topk_weights,
-                                   topk_ids,
-                                   ab_strides1,
-                                   c_strides1,
-                                   ab_strides2,
-                                   c_strides2,
-                                   a1_scale=a_scale)
-
-    def run_triton_from_graph(a: torch.Tensor, w1: torch.Tensor,
-                              w2: torch.Tensor, topk_weights: torch.Tensor,
-                              topk_ids: torch.Tensor, w1_scale: torch.Tensor,
-                              w2_scale: torch.Tensor, a_scale: torch.Tensor):
+            VllmConfig(parallel_config=ParallelConfig(pipeline_parallel_size=1))
+        ):
+            return cutlass_moe_fp8(
+                a,
+                w1_q,
+                w2_q,
+                w1_scale,
+                w2_scale,
+                topk_weights,
+                topk_ids,
+                ab_strides1,
+                c_strides1,
+                ab_strides2,
+                c_strides2,
+                a1_scale=a_scale,
+            )
+
+    def run_triton_from_graph(
+        a: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        w1_scale: torch.Tensor,
+        w2_scale: torch.Tensor,
+        a_scale: torch.Tensor,
+    ):
         with set_current_vllm_config(
-                VllmConfig(parallel_config=ParallelConfig(
-                    pipeline_parallel_size=1))):
-            return fused_experts(a,
-                                 w1,
-                                 w2,
-                                 topk_weights,
-                                 topk_ids,
-                                 use_fp8_w8a8=True,
-                                 w1_scale=w1_scale,
-                                 w2_scale=w2_scale,
-                                 a1_scale=a_scale)
+            VllmConfig(parallel_config=ParallelConfig(pipeline_parallel_size=1))
+        ):
+            return fused_experts(
+                a,
+                w1,
+                w2,
+                topk_weights,
+                topk_ids,
+                use_fp8_w8a8=True,
+                w1_scale=w1_scale,
+                w2_scale=w2_scale,
+                a1_scale=a_scale,
+            )
 
     def replay_graph(graph, num_repeats):
         for _ in range(num_repeats):
@@ -176,16 +208,35 @@ def bench_run(results: list[benchmark.Measurement], model: str,
     cutlass_stream = torch.cuda.Stream()
     cutlass_graph = torch.cuda.CUDAGraph()
     with torch.cuda.graph(cutlass_graph, stream=cutlass_stream):
-        run_cutlass_from_graph(a, a_scale, w1_q, w2_q, w1_scale, w2_scale,
-                               topk_weights, topk_ids, ab_strides1, c_strides1,
-                               ab_strides2, c_strides2)
+        run_cutlass_from_graph(
+            a,
+            a_scale,
+            w1_q,
+            w2_q,
+            w1_scale,
+            w2_scale,
+            topk_weights,
+            topk_ids,
+            ab_strides1,
+            c_strides1,
+            ab_strides2,
+            c_strides2,
+        )
     torch.cuda.synchronize()
 
     triton_stream = torch.cuda.Stream()
     triton_graph = torch.cuda.CUDAGraph()
     with torch.cuda.graph(triton_graph, stream=triton_stream):
-        run_triton_from_graph(a, w1_q_notransp, w2_q_notransp, topk_weights,
-                              topk_ids, w1_scale, w2_scale, a_scale)
+        run_triton_from_graph(
+            a,
+            w1_q_notransp,
+            w2_q_notransp,
+            topk_weights,
+            topk_ids,
+            w1_scale,
+            w2_scale,
+            a_scale,
+        )
     torch.cuda.synchronize()
 
     min_run_time = 5
@@ -225,18 +276,27 @@ def bench_run(results: list[benchmark.Measurement], model: str,
     }
 
     # Warmup
-    run_triton_moe(a, w1_q_notransp, w2_q_notransp, topk_weights, topk_ids,
-                   w1_scale, w2_scale, a_scale, num_warmup)
+    run_triton_moe(
+        a,
+        w1_q_notransp,
+        w2_q_notransp,
+        topk_weights,
+        topk_ids,
+        w1_scale,
+        w2_scale,
+        a_scale,
+        num_warmup,
+    )
 
     results.append(
         benchmark.Timer(
-            stmt=
-            "run_triton_moe(a, w1_q_notransp, w2_q_notransp, topk_weights, topk_ids, w1_scale, w2_scale, a_scale, num_runs)",  # noqa: E501
+            stmt="run_triton_moe(a, w1_q_notransp, w2_q_notransp, topk_weights, topk_ids, w1_scale, w2_scale, a_scale, num_runs)",  # noqa: E501
             globals=globals,
             label=label,
             sub_label=sub_label,
             description="triton_moe",
-        ).blocked_autorange(min_run_time=min_run_time))
+        ).blocked_autorange(min_run_time=min_run_time)
+    )
 
     # Warmup
     replay_graph(triton_graph, num_warmup)
@@ -248,22 +308,35 @@ def bench_run(results: list[benchmark.Measurement], model: str,
             label=label,
             sub_label=sub_label,
             description="triton_moe_cuda_graphs",
-        ).blocked_autorange(min_run_time=min_run_time))
+        ).blocked_autorange(min_run_time=min_run_time)
+    )
 
     # Warmup
-    run_cutlass_moe(a, a_scale, w1_q, w2_q, w1_scale, w2_scale, topk_weights,
-                    topk_ids, ab_strides1, c_strides1, ab_strides2, c_strides2,
-                    num_warmup)
+    run_cutlass_moe(
+        a,
+        a_scale,
+        w1_q,
+        w2_q,
+        w1_scale,
+        w2_scale,
+        topk_weights,
+        topk_ids,
+        ab_strides1,
+        c_strides1,
+        ab_strides2,
+        c_strides2,
+        num_warmup,
+    )
 
     results.append(
         benchmark.Timer(
-            stmt=
-            "run_cutlass_moe(a, a_scale, w1_q, w2_q, w1_scale, w2_scale, topk_weights, topk_ids, ab_strides1, c_strides1, ab_strides2, c_strides2, num_runs)",  # noqa: E501
+            stmt="run_cutlass_moe(a, a_scale, w1_q, w2_q, w1_scale, w2_scale, topk_weights, topk_ids, ab_strides1, c_strides1, ab_strides2, c_strides2, num_runs)",  # noqa: E501
             globals=globals,
             label=label,
             sub_label=sub_label,
             description="grouped_gemm_moe",
-        ).blocked_autorange(min_run_time=min_run_time))
+        ).blocked_autorange(min_run_time=min_run_time)
+    )
 
     # Warmup
     replay_graph(cutlass_graph, num_warmup)
@@ -275,7 +348,8 @@ def bench_run(results: list[benchmark.Measurement], model: str,
             label=label,
             sub_label=sub_label,
             description="grouped_gemm_moe_cuda_graphs",
-        ).blocked_autorange(min_run_time=min_run_time))
+        ).blocked_autorange(min_run_time=min_run_time)
+    )
 
 
 def main(args):
@@ -303,8 +377,15 @@ def main(args):
                     for per_out_ch in PER_OUT_CH_OPTS:
                         for size_m in DEFAULT_BATCH_SIZES:
                             mkn = (size_m, size_k, size_n)
-                            bench_run(results, model, num_experts, topk,
-                                      per_act_token, per_out_ch, mkn)
+                            bench_run(
+                                results,
+                                model,
+                                num_experts,
+                                topk,
+                                per_act_token,
+                                per_out_ch,
+                                mkn,
+                            )
 
     compare = benchmark.Compare(results)
     compare.print()
@@ -312,7 +393,8 @@ def main(args):
 
 if __name__ == "__main__":
     parser = FlexibleArgumentParser(
-        description="Benchmark Marlin across specified models/shapes/batches")
+        description="Benchmark Marlin across specified models/shapes/batches"
+    )
     parser.add_argument(
         "--models",
         nargs="+",
@@ -320,21 +402,14 @@ if __name__ == "__main__":
         default=DEFAULT_MODELS,
         choices=WEIGHT_SHAPES_MOE.keys(),
     )
-    parser.add_argument("--tp-sizes",
-                        nargs="+",
-                        type=int,
-                        default=DEFAULT_TP_SIZES)
-    parser.add_argument("--batch-sizes",
-                        nargs="+",
-                        type=int,
-                        default=DEFAULT_BATCH_SIZES)
+    parser.add_argument("--tp-sizes", nargs="+", type=int, default=DEFAULT_TP_SIZES)
+    parser.add_argument(
+        "--batch-sizes", nargs="+", type=int, default=DEFAULT_BATCH_SIZES
+    )
     parser.add_argument("--limit-k", nargs="+", type=int, default=[])
     parser.add_argument("--limit-n", nargs="+", type=int, default=[])
     parser.add_argument("--limit-num-groups", nargs="+", type=int, default=[])
-    parser.add_argument("--limit-per-act-token",
-                        nargs="+",
-                        type=int,
-                        default=[])
+    parser.add_argument("--limit-per-act-token", nargs="+", type=int, default=[])
     parser.add_argument("--limit-per-out-ch", nargs="+", type=int, default=[])
 
     args = parser.parse_args()
diff --git a/benchmarks/kernels/benchmark_layernorm.py b/benchmarks/kernels/benchmark_layernorm.py
index e12d74c01..f21ca97ee 100644
--- a/benchmarks/kernels/benchmark_layernorm.py
+++ b/benchmarks/kernels/benchmark_layernorm.py
@@ -10,14 +10,16 @@ from vllm.utils import STR_DTYPE_TO_TORCH_DTYPE, FlexibleArgumentParser
 
 
 @torch.inference_mode()
-def main(num_tokens: int,
-         hidden_size: int,
-         add_residual: bool,
-         dtype: torch.dtype,
-         seed: int = 0,
-         do_profile: bool = False,
-         num_warmup_iters: int = 5,
-         num_iters: int = 100) -> None:
+def main(
+    num_tokens: int,
+    hidden_size: int,
+    add_residual: bool,
+    dtype: torch.dtype,
+    seed: int = 0,
+    do_profile: bool = False,
+    num_warmup_iters: int = 5,
+    num_iters: int = 100,
+) -> None:
     current_platform.seed_everything(seed)
     torch.set_default_device("cuda")
 
@@ -56,33 +58,35 @@ def main(num_tokens: int,
     print(f"Kernel running time: {latency * 1000000:.3f} us")
 
 
-if __name__ == '__main__':
-    parser = FlexibleArgumentParser(
-        description="Benchmark the layernorm kernel.")
+if __name__ == "__main__":
+    parser = FlexibleArgumentParser(description="Benchmark the layernorm kernel.")
     parser.add_argument("--num-tokens", type=int, default=4096)
     parser.add_argument("--hidden-size", type=int, default=8192)
     parser.add_argument("--add-residual", action="store_true")
-    parser.add_argument("--dtype",
-                        type=str,
-                        choices=["half", "bfloat16", "float"],
-                        default="half")
+    parser.add_argument(
+        "--dtype", type=str, choices=["half", "bfloat16", "float"], default="half"
+    )
     parser.add_argument("--seed", type=int, default=0)
     parser.add_argument("--profile", action="store_true")
     parser.add_argument("--num-warmup-iters", type=int, default=5)
-    parser.add_argument("--num-iters",
-                        type=int,
-                        default=100,
-                        help="Number of benchmark iterations. "
-                        "If --profile is set, this number is ignored")
+    parser.add_argument(
+        "--num-iters",
+        type=int,
+        default=100,
+        help="Number of benchmark iterations. "
+        "If --profile is set, this number is ignored",
+    )
 
     args = parser.parse_args()
     print(args)
 
-    main(num_tokens=args.num_tokens,
-         hidden_size=args.hidden_size,
-         add_residual=args.add_residual,
-         dtype=STR_DTYPE_TO_TORCH_DTYPE[args.dtype],
-         seed=args.seed,
-         do_profile=args.profile,
-         num_warmup_iters=args.num_warmup_iters,
-         num_iters=args.num_iters)
+    main(
+        num_tokens=args.num_tokens,
+        hidden_size=args.hidden_size,
+        add_residual=args.add_residual,
+        dtype=STR_DTYPE_TO_TORCH_DTYPE[args.dtype],
+        seed=args.seed,
+        do_profile=args.profile,
+        num_warmup_iters=args.num_warmup_iters,
+        num_iters=args.num_iters,
+    )
diff --git a/benchmarks/kernels/benchmark_lora.py b/benchmarks/kernels/benchmark_lora.py
index d382ede10..6c1284930 100644
--- a/benchmarks/kernels/benchmark_lora.py
+++ b/benchmarks/kernels/benchmark_lora.py
@@ -20,18 +20,36 @@ from weight_shapes import WEIGHT_SHAPES
 from vllm.triton_utils import HAS_TRITON
 
 if HAS_TRITON:
-    from vllm.lora.ops.triton_ops import (LoRAKernelMeta, lora_expand,
-                                          lora_shrink)
-    from vllm.lora.ops.triton_ops.utils import (_LORA_A_PTR_DICT,
-                                                _LORA_B_PTR_DICT)
+    from vllm.lora.ops.triton_ops import LoRAKernelMeta, lora_expand, lora_shrink
+    from vllm.lora.ops.triton_ops.utils import _LORA_A_PTR_DICT, _LORA_B_PTR_DICT
 
 from vllm.utils import FlexibleArgumentParser
 
 DEFAULT_MODELS = list(WEIGHT_SHAPES.keys())
 DEFAULT_TP_SIZES = [1]
 DEFAULT_BATCH_SIZES = [
-    1, 16, 32, 64, 128, 192, 256, 320, 384, 448, 512, 640, 768, 896, 1024,
-    2048, 3072, 4096, 5120, 6144, 7168, 8192
+    1,
+    16,
+    32,
+    64,
+    128,
+    192,
+    256,
+    320,
+    384,
+    448,
+    512,
+    640,
+    768,
+    896,
+    1024,
+    2048,
+    3072,
+    4096,
+    5120,
+    6144,
+    7168,
+    8192,
 ]
 DEFAULT_HIDDEN_SIZES = [1024, 2048, 4096, 8192, 16384]
 DEFAULT_LORA_RANKS = [16]
@@ -52,12 +70,9 @@ def dtype_to_str(dtype: torch.dtype):
     raise ValueError(f"Unsupported dtype {dtype}")
 
 
-def make_rand_lora_weight_tensor(k: int,
-                                 n: int,
-                                 num_loras: int,
-                                 dtype: torch.dtype,
-                                 device: str = "cuda") -> torch.Tensor:
-
+def make_rand_lora_weight_tensor(
+    k: int, n: int, num_loras: int, dtype: torch.dtype, device: str = "cuda"
+) -> torch.Tensor:
     # LoRA weights column major
     return torch.rand((num_loras, n, k), dtype=dtype).to(device)
 
@@ -78,18 +93,15 @@ def make_rand_tensors(
     A = torch.rand(a_shape, dtype=a_dtype).to(device)
 
     # LoRA weights column major
-    Bs = [
-        torch.rand(b_shape, dtype=b_dtype).to(device)
-        for _ in range(num_slices)
-    ]
+    Bs = [torch.rand(b_shape, dtype=b_dtype).to(device) for _ in range(num_slices)]
 
     C = torch.zeros(c_shape, dtype=c_dtype).to(device)
     return A, Bs, C
 
 
-def make_prompt_lora_mapping(num_prompts: int, num_active_loras: int,
-                             sort_by_lora_id: bool,
-                             device: str) -> torch.Tensor:
+def make_prompt_lora_mapping(
+    num_prompts: int, num_active_loras: int, sort_by_lora_id: bool, device: str
+) -> torch.Tensor:
     """
     All prompts are mapped to a LoRA ID in range [0, num_active_loras).
     where 0 refers to first lora, 1 refers to second lora and so on.
@@ -97,9 +109,7 @@ def make_prompt_lora_mapping(num_prompts: int, num_active_loras: int,
     assert num_active_loras > 0
 
     if not sort_by_lora_id:
-        return torch.randint(0,
-                             num_active_loras, (num_prompts, ),
-                             dtype=torch.long)
+        return torch.randint(0, num_active_loras, (num_prompts,), dtype=torch.long)
 
     # Divide LoRAs equally and in order.
     part_size = num_prompts // num_active_loras
@@ -110,14 +120,18 @@ def make_prompt_lora_mapping(num_prompts: int, num_active_loras: int,
     while len(prompt_lora_mapping) < num_prompts:
         prompt_lora_mapping.extend([lora_id] * part_size)
         lora_id = lora_id + 1 if lora_id + 1 < num_active_loras else lora_id
-    return torch.tensor(prompt_lora_mapping[:num_prompts],
-                        dtype=torch.long,
-                        device=device)
-
-
-def make_token_lora_mapping(num_tokens: int, num_prompts: int,
-                            prompt_lora_mapping: torch.Tensor,
-                            seq_len_tensor: torch.Tensor, device: str):
+    return torch.tensor(
+        prompt_lora_mapping[:num_prompts], dtype=torch.long, device=device
+    )
+
+
+def make_token_lora_mapping(
+    num_tokens: int,
+    num_prompts: int,
+    prompt_lora_mapping: torch.Tensor,
+    seq_len_tensor: torch.Tensor,
+    device: str,
+):
     """
     Make token_lora_mapping from prompt_lora_mapping and seq_lens_tensor
     """
@@ -136,11 +150,15 @@ def make_token_lora_mapping(num_tokens: int, num_prompts: int,
     return torch.tensor(token_lora_mapping, dtype=torch.long, device=device)
 
 
-def ref_group_gemm(ref_out: torch.Tensor, input: torch.Tensor,
-                   lora_weights: list[torch.Tensor],
-                   seq_lens_cpu: torch.Tensor,
-                   prompt_lora_mapping_cpu: torch.Tensor, scaling: float,
-                   add_inputs: Optional[bool]):
+def ref_group_gemm(
+    ref_out: torch.Tensor,
+    input: torch.Tensor,
+    lora_weights: list[torch.Tensor],
+    seq_lens_cpu: torch.Tensor,
+    prompt_lora_mapping_cpu: torch.Tensor,
+    scaling: float,
+    add_inputs: Optional[bool],
+):
     """
     Torch group gemm reference implementation to test correctness of
     benchmarking operations.
@@ -149,7 +167,7 @@ def ref_group_gemm(ref_out: torch.Tensor, input: torch.Tensor,
     out_list = []
     current_offset = 0
     for lora_index, b_length in zip(range(batches), seq_lens_cpu):
-        x = input[current_offset:b_length + current_offset, :]
+        x = input[current_offset : b_length + current_offset, :]
         current_offset += b_length
         w = lora_weights[prompt_lora_mapping_cpu[lora_index]]
         result = torch.nn.functional.linear(x, w)
@@ -168,6 +186,7 @@ class OpType(Enum):
     """
     LoRA Ops to benchmark and its properties.
     """
+
     LORA_SHRINK = auto()
     LORA_EXPAND = auto()
 
@@ -188,8 +207,9 @@ class OpType(Enum):
     def num_slices(self) -> list[int]:
         return [1, 2, 3]
 
-    def mkn(self, batch_size: int, seq_length: int, hidden_size: int,
-            lora_rank: int) -> tuple[int, int, int]:
+    def mkn(
+        self, batch_size: int, seq_length: int, hidden_size: int, lora_rank: int
+    ) -> tuple[int, int, int]:
         num_tokens = batch_size * seq_length
         if self.is_shrink_fn():
             m = num_tokens
@@ -203,7 +223,7 @@ class OpType(Enum):
         return m, k, n
 
     def matmul_dtypes(
-            self, op_dtype: torch.dtype
+        self, op_dtype: torch.dtype
     ) -> tuple[torch.dtype, torch.dtype, torch.dtype]:
         """
         return a type, b type and c type for A x B = C
@@ -215,9 +235,14 @@ class OpType(Enum):
             return torch.float32, op_dtype, op_dtype
 
     def matmul_shapes(
-            self, batch_size: int, seq_length: int, hidden_size: int,
-            lora_rank: int, num_loras: int,
-            num_slices: int) -> tuple[tuple[int], tuple[int], tuple[int]]:
+        self,
+        batch_size: int,
+        seq_length: int,
+        hidden_size: int,
+        lora_rank: int,
+        num_loras: int,
+        num_slices: int,
+    ) -> tuple[tuple[int], tuple[int], tuple[int]]:
         """
         Given num_slices, return the shapes of the A, B, and C matrices
         in A x B = C, for the op_type
@@ -241,31 +266,38 @@ class OpType(Enum):
 
         raise ValueError(f"Unrecognized optype {self}")
 
-    def run_ref_group_gemm(self, output: torch.Tensor, input: torch.Tensor,
-                           lora_weights: list[torch.Tensor],
-                           **kwargs) -> Callable:
+    def run_ref_group_gemm(
+        self,
+        output: torch.Tensor,
+        input: torch.Tensor,
+        lora_weights: list[torch.Tensor],
+        **kwargs,
+    ) -> Callable:
         """Each benchmark operation expects the input, lora_weights and outputs
-           in a slightly different format. Refer to self.matmul_shapes().
-           run_ref_group_gemm accounts for those differences in executing a
-           reference group gemm for correctness testing.
+        in a slightly different format. Refer to self.matmul_shapes().
+        run_ref_group_gemm accounts for those differences in executing a
+        reference group gemm for correctness testing.
         """
         w_dtype = lora_weights[0].dtype
         num_slices = len(lora_weights)
         if self in [OpType.LORA_SHRINK]:
             for slice_idx in range(num_slices):
-                ref_group_gemm(ref_out=output[slice_idx, :],
-                               input=input,
-                               lora_weights=lora_weights[slice_idx],
-                               **kwargs)
+                ref_group_gemm(
+                    ref_out=output[slice_idx, :],
+                    input=input,
+                    lora_weights=lora_weights[slice_idx],
+                    **kwargs,
+                )
         elif self in [OpType.LORA_EXPAND]:
             hidden_size = lora_weights[0].shape[1]
             for slice_idx in range(num_slices):
                 slice_offset = slice_idx * hidden_size
                 ref_group_gemm(
-                    ref_out=output[:, slice_offset:slice_offset + hidden_size],
+                    ref_out=output[:, slice_offset : slice_offset + hidden_size],
                     input=input[slice_idx].clone().to(dtype=w_dtype),
                     lora_weights=lora_weights[slice_idx],
-                    **kwargs)
+                    **kwargs,
+                )
         else:
             raise ValueError(f"Unrecognized optype {self}")
 
@@ -275,6 +307,7 @@ class BenchmarkContext:
     """
     LoRA benchmark context
     """
+
     batch_size: int
     hidden_size: int
     num_loras: int
@@ -299,17 +332,18 @@ class BenchmarkContext:
         return f"lora-{self.dtype}"
 
     def bench_sublabel(self, op_type: OpType) -> str:
-        m, k, n = op_type.mkn(self.batch_size, self.seq_length,
-                              self.hidden_size, self.lora_rank)
+        m, k, n = op_type.mkn(
+            self.batch_size, self.seq_length, self.hidden_size, self.lora_rank
+        )
         desc = {
-            'bs': self.batch_size,
-            'sl': self.seq_length,
-            'm': m,
-            'k': k,
-            'n': n,
-            'num_loras': self.num_loras,
-            'sort_by_lora': self.sort_by_lora_id,
-            'num_slices': self.num_slices,
+            "bs": self.batch_size,
+            "sl": self.seq_length,
+            "m": m,
+            "k": k,
+            "n": n,
+            "num_loras": self.num_loras,
+            "sort_by_lora": self.sort_by_lora_id,
+            "num_slices": self.num_slices,
         }
         return json.dumps(desc)
 
@@ -319,6 +353,7 @@ class BenchmarkTensors:
     """
     Input/Output tensors used for benchmarks
     """
+
     # matmul tensors
     input: torch.Tensor
     lora_weights_lst: list[torch.Tensor]
@@ -330,23 +365,29 @@ class BenchmarkTensors:
     prompt_lora_mapping: torch.Tensor
 
     def io_types(self) -> str:
-        return (f"{dtype_to_str(self.input.dtype)}x"
-                f"{dtype_to_str(self.lora_weights_lst[0].dtype)}=>"
-                f"{dtype_to_str(self.output.dtype)}")
+        return (
+            f"{dtype_to_str(self.input.dtype)}x"
+            f"{dtype_to_str(self.lora_weights_lst[0].dtype)}=>"
+            f"{dtype_to_str(self.output.dtype)}"
+        )
 
     @staticmethod
-    def make(ctx: BenchmarkContext,
-             op_type: OpType,
-             device: str = "cuda") -> "BenchmarkTensors":
-
+    def make(
+        ctx: BenchmarkContext, op_type: OpType, device: str = "cuda"
+    ) -> "BenchmarkTensors":
         # Make input / output matmul tensors.
         a_shape, b_shape, c_shape = op_type.matmul_shapes(
-            ctx.batch_size, ctx.seq_length, ctx.hidden_size, ctx.lora_rank,
-            ctx.num_loras, ctx.num_slices)
+            ctx.batch_size,
+            ctx.seq_length,
+            ctx.hidden_size,
+            ctx.lora_rank,
+            ctx.num_loras,
+            ctx.num_slices,
+        )
         a_type, b_type, c_type = op_type.matmul_dtypes(ctx.dtype)
-        input_tensor, lora_weights, output_tensor = \
-            make_rand_tensors(a_shape, b_shape, c_shape, a_type, b_type, c_type,
-                              num_slices = ctx.num_slices)
+        input_tensor, lora_weights, output_tensor = make_rand_tensors(
+            a_shape, b_shape, c_shape, a_type, b_type, c_type, num_slices=ctx.num_slices
+        )
 
         # Make metadata tensors.
         # Keep the metadata tensors in the CPU for further processing if needed.
@@ -356,27 +397,38 @@ class BenchmarkTensors:
 
         # Make metadata tensors involved in correctness testing.
         # Prepare seq lens tensor
-        seq_len_tensor = torch.randint(ctx.seq_length, ctx.seq_length + 1,
-                                       (ctx.batch_size, ))
+        seq_len_tensor = torch.randint(
+            ctx.seq_length, ctx.seq_length + 1, (ctx.batch_size,)
+        )
         assert total_tokens == seq_len_tensor.sum()
         # Prepare prompt lora indices tensor
         prompt_lora_indices_tensor = make_prompt_lora_mapping(
-            ctx.batch_size, ctx.num_active_loras, ctx.sort_by_lora_id, "cpu")
+            ctx.batch_size, ctx.num_active_loras, ctx.sort_by_lora_id, "cpu"
+        )
 
         # Make LoRAKernelMeta
         token_lora_indices_tensor = make_token_lora_mapping(
-            total_tokens, ctx.batch_size, prompt_lora_indices_tensor,
-            seq_len_tensor, "cpu")
+            total_tokens,
+            ctx.batch_size,
+            prompt_lora_indices_tensor,
+            seq_len_tensor,
+            "cpu",
+        )
         lora_kernel_meta = LoRAKernelMeta.make(
             max_loras=ctx.num_loras,
             max_num_tokens=token_lora_indices_tensor.size(0),
-            device="cpu")
-        lora_kernel_meta.prepare_tensors(
-            token_lora_mapping=token_lora_indices_tensor)
-
-        return BenchmarkTensors(input_tensor, lora_weights, output_tensor,
-                                lora_kernel_meta, seq_len_tensor,
-                                prompt_lora_indices_tensor)
+            device="cpu",
+        )
+        lora_kernel_meta.prepare_tensors(token_lora_mapping=token_lora_indices_tensor)
+
+        return BenchmarkTensors(
+            input_tensor,
+            lora_weights,
+            output_tensor,
+            lora_kernel_meta,
+            seq_len_tensor,
+            prompt_lora_indices_tensor,
+        )
 
     def sanity_check(self) -> None:
         """
@@ -386,7 +438,7 @@ class BenchmarkTensors:
         # check metadata tensors
         assert torch.sum(self.seq_lens) == num_tokens
         num_seqs = self.seq_lens.shape[0]
-        #assert self.seq_start_loc.shape[0] == num_seqs
+        # assert self.seq_start_loc.shape[0] == num_seqs
         assert self.prompt_lora_mapping.shape[0] == num_seqs
         assert self.lora_kernel_meta.token_lora_mapping.shape[0] == num_tokens
 
@@ -430,8 +482,11 @@ class BenchmarkTensors:
         _, num_tokens, _, num_slices = self.metadata()
 
         # Sanity check matrix shapes.
-        i_shape, lw_shape, o_shape = self.input.shape, self.lora_weights_lst[
-            0].shape, self.output.shape
+        i_shape, lw_shape, o_shape = (
+            self.input.shape,
+            self.lora_weights_lst[0].shape,
+            self.output.shape,
+        )
         # Expected input shape [num_tokens, hidden_size]
         assert len(i_shape) == 2
         assert i_shape[0] == num_tokens
@@ -445,16 +500,17 @@ class BenchmarkTensors:
         assert o_shape == (num_slices, num_tokens, lora_rank)
 
         return {
-            'inputs': self.input,
-            'lora_a_weights': self.lora_weights_lst,
-            'output_tensor': self.output,
-            'token_lora_mapping': self.lora_kernel_meta.token_lora_mapping,
-            'token_indices_sorted_by_lora_ids':
-            self.lora_kernel_meta.token_indices_sorted_by_lora_ids,
-            'num_tokens_per_lora': self.lora_kernel_meta.num_tokens_per_lora,
-            'lora_token_start_loc': self.lora_kernel_meta.lora_token_start_loc,
-            'lora_ids': self.lora_kernel_meta.active_lora_ids,
-            'scaling': 1.0,
+            "inputs": self.input,
+            "lora_a_weights": self.lora_weights_lst,
+            "output_tensor": self.output,
+            "token_lora_mapping": self.lora_kernel_meta.token_lora_mapping,
+            "token_indices_sorted_by_lora_ids": (
+                self.lora_kernel_meta.token_indices_sorted_by_lora_ids
+            ),
+            "num_tokens_per_lora": self.lora_kernel_meta.num_tokens_per_lora,
+            "lora_token_start_loc": self.lora_kernel_meta.lora_token_start_loc,
+            "lora_ids": self.lora_kernel_meta.active_lora_ids,
+            "scaling": 1.0,
         }
 
     def as_lora_expand_kwargs(self, add_inputs: bool) -> dict[str, Any]:
@@ -464,8 +520,11 @@ class BenchmarkTensors:
         _, num_tokens, _, num_slices = self.metadata()
 
         # Sanity check matrix shapes.
-        i_shape, lw_shape, o_shape = self.input.shape, self.lora_weights_lst[
-            0].shape, self.output.shape
+        i_shape, lw_shape, o_shape = (
+            self.input.shape,
+            self.lora_weights_lst[0].shape,
+            self.output.shape,
+        )
         # Expected input shape : [num_slices, num_tokens, lora_rank]
         assert len(i_shape) == 3
         assert i_shape[0] == num_slices
@@ -480,22 +539,23 @@ class BenchmarkTensors:
         assert o_shape == (num_tokens, hidden_size * num_slices)
 
         return {
-            'inputs': self.input,
-            'lora_b_weights': self.lora_weights_lst,
-            'output_tensor': self.output,
-            'token_lora_mapping': self.lora_kernel_meta.token_lora_mapping,
-            'token_indices_sorted_by_lora_ids':
-            self.lora_kernel_meta.token_indices_sorted_by_lora_ids,
-            'num_tokens_per_lora': self.lora_kernel_meta.num_tokens_per_lora,
-            'lora_token_start_loc': self.lora_kernel_meta.lora_token_start_loc,
-            'lora_ids': self.lora_kernel_meta.active_lora_ids,
-            'offset_start': 0,
-            'add_inputs': add_inputs,
+            "inputs": self.input,
+            "lora_b_weights": self.lora_weights_lst,
+            "output_tensor": self.output,
+            "token_lora_mapping": self.lora_kernel_meta.token_lora_mapping,
+            "token_indices_sorted_by_lora_ids": (
+                self.lora_kernel_meta.token_indices_sorted_by_lora_ids
+            ),
+            "num_tokens_per_lora": self.lora_kernel_meta.num_tokens_per_lora,
+            "lora_token_start_loc": self.lora_kernel_meta.lora_token_start_loc,
+            "lora_ids": self.lora_kernel_meta.active_lora_ids,
+            "offset_start": 0,
+            "add_inputs": add_inputs,
         }
 
-    def bench_fn_kwargs(self,
-                        op_type: OpType,
-                        add_inputs: Optional[bool] = None) -> dict[str, Any]:
+    def bench_fn_kwargs(
+        self, op_type: OpType, add_inputs: Optional[bool] = None
+    ) -> dict[str, Any]:
         if op_type.is_shrink_fn():
             assert add_inputs is None
         else:
@@ -507,8 +567,9 @@ class BenchmarkTensors:
             return self.as_lora_expand_kwargs(add_inputs)
         raise ValueError(f"Unrecognized optype {self}")
 
-    def test_correctness(self, op_type: OpType,
-                         expand_fn_add_inputs: Optional[bool]) -> bool:
+    def test_correctness(
+        self, op_type: OpType, expand_fn_add_inputs: Optional[bool]
+    ) -> bool:
         """
         Test correctness of op_type implementation against a grouped gemm
         reference implementation.
@@ -518,8 +579,7 @@ class BenchmarkTensors:
         ref_output = self.output.clone()
 
         self.output.zero_()
-        op_type.bench_fn()(
-            **self.bench_fn_kwargs(op_type, expand_fn_add_inputs))
+        op_type.bench_fn()(**self.bench_fn_kwargs(op_type, expand_fn_add_inputs))
 
         op_type.run_ref_group_gemm(
             ref_output,
@@ -528,7 +588,8 @@ class BenchmarkTensors:
             seq_lens_cpu=seq_lens_cpu,
             prompt_lora_mapping_cpu=prompt_lora_mapping_cpu,
             scaling=1.0,
-            add_inputs=expand_fn_add_inputs)
+            add_inputs=expand_fn_add_inputs,
+        )
 
         rtol, atol = {
             torch.float16: (6e-2, 6e-2),
@@ -539,13 +600,14 @@ class BenchmarkTensors:
         return torch.allclose(ref_output, self.output, rtol=rtol, atol=atol)
 
 
-def bench_optype(ctx: BenchmarkContext,
-                 arg_pool_size: int,
-                 op_type: OpType,
-                 cuda_graph_nops: Optional[int] = None,
-                 expand_fn_add_inputs: Optional[bool] = None,
-                 test_correctness: bool = False) -> TMeasurement:
-
+def bench_optype(
+    ctx: BenchmarkContext,
+    arg_pool_size: int,
+    op_type: OpType,
+    cuda_graph_nops: Optional[int] = None,
+    expand_fn_add_inputs: Optional[bool] = None,
+    test_correctness: bool = False,
+) -> TMeasurement:
     assert arg_pool_size >= 1
     if op_type.is_shrink_fn():
         assert expand_fn_add_inputs is None
@@ -553,17 +615,17 @@ def bench_optype(ctx: BenchmarkContext,
         assert expand_fn_add_inputs is not None
 
     # BenchmarkContext -> BenchmarkTensors
-    bench_tensors : list[BenchmarkTensors] = \
-        [BenchmarkTensors.make(ctx, op_type) for _ in range(arg_pool_size)]
+    bench_tensors: list[BenchmarkTensors] = [
+        BenchmarkTensors.make(ctx, op_type) for _ in range(arg_pool_size)
+    ]
     for bt in bench_tensors:
         bt.sanity_check()
 
     # Test correctness of our implementation.
     if test_correctness:
-        assert all([
-            bt.test_correctness(op_type, expand_fn_add_inputs)
-            for bt in bench_tensors
-        ])
+        assert all(
+            [bt.test_correctness(op_type, expand_fn_add_inputs) for bt in bench_tensors]
+        )
 
     # BenchmarkTensors -> dict (kwargs)
     kwargs_list = [
@@ -585,40 +647,49 @@ def bench_optype(ctx: BenchmarkContext,
         for k, v in _kwargs.items():
             kwargs[k].values.append(v)
 
-    describe_args = (f"add_inputs={expand_fn_add_inputs}"
-                     if expand_fn_add_inputs is not None else "")
-    description = (
-        f"{op_type.name}({describe_args}) ({bench_tensors[0].io_types()})")
+    describe_args = (
+        f"add_inputs={expand_fn_add_inputs}" if expand_fn_add_inputs is not None else ""
+    )
+    description = f"{op_type.name}({describe_args}) ({bench_tensors[0].io_types()})"
 
     cuda_graph_params = None
     if cuda_graph_nops:
         cuda_graph_params = CudaGraphBenchParams(cuda_graph_nops)
     timer = None
-    with Bench(cuda_graph_params,
-               ctx.bench_label(), ctx.bench_sublabel(op_type), description,
-               op_type.bench_fn(), **kwargs) as bench:
+    with Bench(
+        cuda_graph_params,
+        ctx.bench_label(),
+        ctx.bench_sublabel(op_type),
+        description,
+        op_type.bench_fn(),
+        **kwargs,
+    ) as bench:
         timer = bench.run()
     return timer
 
 
-def bench_torch_mm(ctx: BenchmarkContext,
-                   arg_pool_size: int,
-                   op_type: OpType,
-                   cuda_graph_nops: Optional[int] = None) -> TMeasurement:
+def bench_torch_mm(
+    ctx: BenchmarkContext,
+    arg_pool_size: int,
+    op_type: OpType,
+    cuda_graph_nops: Optional[int] = None,
+) -> TMeasurement:
     """
     Benchmark basic torch.mm as a roofline.
 
     When all the input tokens have the same LoRA ID, the LoRA kernels are just
-    a matmul. This torch.mm benchmark serves as a roofline for that case. 
+    a matmul. This torch.mm benchmark serves as a roofline for that case.
 
     input op_type is used in determining the m, k, n dimensions for the matmul.
     """
 
-    batch_size, hidden_size, lora_rank, seq_length, dtype = (ctx.batch_size,
-                                                             ctx.hidden_size,
-                                                             ctx.lora_rank,
-                                                             ctx.seq_length,
-                                                             ctx.dtype)
+    batch_size, hidden_size, lora_rank, seq_length, dtype = (
+        ctx.batch_size,
+        ctx.hidden_size,
+        ctx.lora_rank,
+        ctx.seq_length,
+        ctx.dtype,
+    )
 
     m, k, n = op_type.mkn(batch_size, seq_length, hidden_size, lora_rank)
     # For a fairer comparison.
@@ -632,18 +703,24 @@ def bench_torch_mm(ctx: BenchmarkContext,
         Cs.append(torch.rand((m, n), dtype=dtype).to("cuda"))
 
     # Make torch.mm kwargs
-    mm_kwargs = {'input': ArgPool(As), 'mat2': ArgPool(Bs), 'out': ArgPool(Cs)}
+    mm_kwargs = {"input": ArgPool(As), "mat2": ArgPool(Bs), "out": ArgPool(Cs)}
 
     description = (
         f"single-lora roofline using torch.mm ({dtype_to_str(dtype)}"
         f"x{dtype_to_str(dtype)}"
-        f"=>{dtype_to_str(dtype)})")
+        f"=>{dtype_to_str(dtype)})"
+    )
     cuda_graph_params = None
     if cuda_graph_nops:
         cuda_graph_params = CudaGraphBenchParams(cuda_graph_nops)
-    with Bench(cuda_graph_params, ctx.bench_label(),
-               ctx.bench_sublabel(op_type), description, torch.mm,
-               **mm_kwargs) as bench:
+    with Bench(
+        cuda_graph_params,
+        ctx.bench_label(),
+        ctx.bench_sublabel(op_type),
+        description,
+        torch.mm,
+        **mm_kwargs,
+    ) as bench:
         return bench.run()
 
 
@@ -660,8 +737,7 @@ def use_cuda_graph_recommendation() -> str:
             """
 
 
-def print_timers(timers: list[TMeasurement],
-                 args: Optional[argparse.Namespace] = None):
+def print_timers(timers: list[TMeasurement], args: Optional[argparse.Namespace] = None):
     compare = TBenchmark.Compare(timers)
     compare.print()
 
@@ -670,22 +746,23 @@ def print_timers(timers: list[TMeasurement],
             f"Note : The timings reported above is for {args.cuda_graph_nops} "
             "consecutive invocations of the benchmarking functions. "
             f"Please divide by {args.cuda_graph_nops} for single invocation "
-            "timings.")
+            "timings."
+        )
 
-    print("Note on Comparison with torch.mm : The torch.mm numbers are "
-          "benchmark numbers of a simple matmul emulating the single lora "
-          "case. It is provided as a roofline for comparing our LoRA Kernel "
-          "implementations. It is expected that the LoRA kernels will be "
-          "slower than torch.mm in cases where num_loras is big. But for "
-          "small num_loras the goal should be to match the torch.mm numbers.")
+    print(
+        "Note on Comparison with torch.mm : The torch.mm numbers are "
+        "benchmark numbers of a simple matmul emulating the single lora "
+        "case. It is provided as a roofline for comparing our LoRA Kernel "
+        "implementations. It is expected that the LoRA kernels will be "
+        "slower than torch.mm in cases where num_loras is big. But for "
+        "small num_loras the goal should be to match the torch.mm numbers."
+    )
 
 
 def run(args: argparse.Namespace, bench_ctxs: list[BenchmarkContext]):
-
     if args.cuda_graph_nops is not None:
         assert args.cuda_graph_nops > 0
-        print(f"Benchmarking {args.cuda_graph_nops} invocations inside a CUDA "
-              "Graph")
+        print(f"Benchmarking {args.cuda_graph_nops} invocations inside a CUDA Graph")
     else:
         print(f"CUDA Graphs not enabled.\n{use_cuda_graph_recommendation()}")
 
@@ -697,21 +774,30 @@ def run(args: argparse.Namespace, bench_ctxs: list[BenchmarkContext]):
             for bench_op in bench_ops:
                 for num_slices in bench_op.num_slices():
                     _ctx = bench_ctx.with_seq_length(seq_len).with_num_slices(
-                        num_slices)
+                        num_slices
+                    )
                     # Benchmark torch.mm as a roofline
                     seq_len_timers.append(
-                        bench_torch_mm(_ctx, args.arg_pool_size, bench_op,
-                                       args.cuda_graph_nops))
+                        bench_torch_mm(
+                            _ctx, args.arg_pool_size, bench_op, args.cuda_graph_nops
+                        )
+                    )
 
                     # Benchmark bench_op
-                    expand_fn_add_inputs = [
-                        None
-                    ] if bench_op.is_shrink_fn() else args.expand_fn_add_inputs
+                    expand_fn_add_inputs = (
+                        [None] if bench_op.is_shrink_fn() else args.expand_fn_add_inputs
+                    )
                     for add_input_arg in expand_fn_add_inputs:
                         seq_len_timers.append(
-                            bench_optype(_ctx, args.arg_pool_size, bench_op,
-                                         args.cuda_graph_nops, add_input_arg,
-                                         args.test_correctness))
+                            bench_optype(
+                                _ctx,
+                                args.arg_pool_size,
+                                bench_op,
+                                args.cuda_graph_nops,
+                                add_input_arg,
+                                args.test_correctness,
+                            )
+                        )
 
             print_timers(seq_len_timers)
             timers.extend(seq_len_timers)
@@ -733,13 +819,17 @@ def run(args: argparse.Namespace, bench_ctxs: list[BenchmarkContext]):
             pickle.dump(timers, f)
 
 
-def as_benchmark_contexts(hidden_sizes: list[int], lora_ranks: list[int],
-                          args: argparse.Namespace) -> list[BenchmarkContext]:
-
+def as_benchmark_contexts(
+    hidden_sizes: list[int], lora_ranks: list[int], args: argparse.Namespace
+) -> list[BenchmarkContext]:
     ctxs: list[BenchmarkContext] = []
     for batch_size, hidden_size, lora_rank, num_loras, sort_by_lora_id in product(  # noqa
-            args.batch_sizes, list(hidden_sizes), lora_ranks, args.num_loras,
-            args.sort_by_lora_id):
+        args.batch_sizes,
+        list(hidden_sizes),
+        lora_ranks,
+        args.num_loras,
+        args.sort_by_lora_id,
+    ):
         ctxs.append(
             BenchmarkContext(
                 batch_size=batch_size,
@@ -747,13 +837,16 @@ def as_benchmark_contexts(hidden_sizes: list[int], lora_ranks: list[int],
                 lora_rank=lora_rank,
                 num_loras=num_loras,
                 num_active_loras=args.num_active_loras
-                if args.num_active_loras else num_loras,
+                if args.num_active_loras
+                else num_loras,
                 # To be filled based on the OpType to benchmark
                 seq_length=None,
                 sort_by_lora_id=sort_by_lora_id,
                 dtype=args.dtype,
                 # To be filled based on the OpType to benchmark
-                num_slices=None))
+                num_slices=None,
+            )
+        )
 
     return ctxs
 
@@ -761,13 +854,16 @@ def as_benchmark_contexts(hidden_sizes: list[int], lora_ranks: list[int],
 def run_list_bench(args: argparse.Namespace):
     print(args)
 
-    print("List bench :\n"
-          f"  Hidden Sizes {args.hidden_sizes}"
-          f"  LoRA Ranks {args.lora_ranks}")
+    print(
+        "List bench :\n"
+        f"  Hidden Sizes {args.hidden_sizes}"
+        f"  LoRA Ranks {args.lora_ranks}"
+    )
 
     # Get all benchmarking contexts
     bench_contexts: list[BenchmarkContext] = as_benchmark_contexts(
-        hidden_sizes=args.hidden_sizes, lora_ranks=args.lora_ranks, args=args)
+        hidden_sizes=args.hidden_sizes, lora_ranks=args.lora_ranks, args=args
+    )
 
     run(args, bench_contexts)
 
@@ -776,19 +872,22 @@ def run_range_bench(args: argparse.Namespace):
     print(args)
 
     hidden_sizes = list(
-        range(args.hidden_sizes_start, args.hidden_sizes_end + 1,
-              args.hidden_sizes_increment))
+        range(
+            args.hidden_sizes_start,
+            args.hidden_sizes_end + 1,
+            args.hidden_sizes_increment,
+        )
+    )
     lora_ranks = list(
-        range(args.lora_ranks_start, args.lora_ranks_end + 1,
-              args.lora_ranks_increment))
+        range(args.lora_ranks_start, args.lora_ranks_end + 1, args.lora_ranks_increment)
+    )
 
-    print("Range bench :\n"
-          f" Hidden Sizes {hidden_sizes}"
-          f" LoRA Ranks {lora_ranks}")
+    print(f"Range bench :\n Hidden Sizes {hidden_sizes} LoRA Ranks {lora_ranks}")
 
     # Get all benchmarking contexts
     bench_contexts: list[BenchmarkContext] = as_benchmark_contexts(
-        hidden_sizes=hidden_sizes, lora_ranks=lora_ranks, args=args)
+        hidden_sizes=hidden_sizes, lora_ranks=lora_ranks, args=args
+    )
 
     run(args, bench_contexts)
 
@@ -806,21 +905,19 @@ def run_model_bench(args: argparse.Namespace):
     # Get all hidden sizes
     hidden_sizes: set[int] = set()
     for model_name, tp_size in product(args.models, args.tp_sizes):
-        hidden_sizes = hidden_sizes.union(
-            hidden_sizes_from_model(model_name, tp_size))
+        hidden_sizes = hidden_sizes.union(hidden_sizes_from_model(model_name, tp_size))
 
-    print("Model bench :\n"
-          f" Hidden Sizes {hidden_sizes}"
-          f" LoRA Ranks {args.lora_ranks}")
+    print(f"Model bench :\n Hidden Sizes {hidden_sizes} LoRA Ranks {args.lora_ranks}")
 
     # Get all benchmarking contexts
     bench_contexts: list[BenchmarkContext] = as_benchmark_contexts(
-        hidden_sizes=hidden_sizes, lora_ranks=args.lora_ranks, args=args)
+        hidden_sizes=hidden_sizes, lora_ranks=args.lora_ranks, args=args
+    )
 
     run(args, bench_contexts)
 
 
-if __name__ == '__main__':
+if __name__ == "__main__":
 
     def to_torch_dtype(dt):
         if dt == "torch.float16":
@@ -830,14 +927,15 @@ if __name__ == '__main__':
         raise ValueError("unsupported dtype")
 
     def get_bool(s: str) -> bool:
-        return s.lower() in ['true', '1']
+        return s.lower() in ["true", "1"]
 
     def add_common_command_args(p: argparse.ArgumentParser):
         p.add_argument(
             "--dtype",
             type=to_torch_dtype,
             required=True,
-            help="Available options are ['torch.float16', 'torch.bfloat16']")
+            help="Available options are ['torch.float16', 'torch.bfloat16']",
+        )
 
         p.add_argument(
             "--arg-pool-size",
@@ -845,56 +943,66 @@ if __name__ == '__main__':
             default=32,
             help="Run profiles with a pool of input/output/meta tensors instead"
             "of simply reusing the same tensors for all runs. A bigger arg-pool"
-            "mitigates hardware caching effects during benchmarking.")
+            "mitigates hardware caching effects during benchmarking.",
+        )
 
         p.add_argument(
             "--cuda-graph-nops",
             type=int,
-            help=("when set profiling is done using cudagraph, "
-                  "with the given number of operations in a graph."
-                  "Note that the measurement returned is the time "
-                  "taken for N consecutive executions of the benchmarking "
-                  "functions, where N is the value of this argument."))
-        p.add_argument("--num-loras",
-                       nargs="+",
-                       type=int,
-                       default=DEFAULT_NUM_LORAS)
-        p.add_argument("--num-active-loras",
-                       type=int,
-                       default=None,
-                       help="Active LoRAs. When None, all LoRAs are active")
-        p.add_argument("--sort-by-lora-id",
-                       nargs="+",
-                       type=get_bool,
-                       default=DEFAULT_SORT_BY_LORA_IDS)
-        p.add_argument("--op-types",
-                       nargs="+",
-                       type=OpType.from_str,
-                       default=list(OpType))
-        p.add_argument('--seq-lengths',
-                       nargs="+",
-                       type=int,
-                       default=DEFAULT_SEQ_LENGTHS)
-        p.add_argument("--batch-sizes",
-                       nargs="+",
-                       type=int,
-                       default=DEFAULT_BATCH_SIZES)
-        p.add_argument("--expand-fn-add-inputs",
-                       nargs="+",
-                       type=get_bool,
-                       default=DEFAULT_EXPAND_FN_ADD_INPUTS)
+            help=(
+                "when set profiling is done using cudagraph, "
+                "with the given number of operations in a graph."
+                "Note that the measurement returned is the time "
+                "taken for N consecutive executions of the benchmarking "
+                "functions, where N is the value of this argument."
+            ),
+        )
+        p.add_argument("--num-loras", nargs="+", type=int, default=DEFAULT_NUM_LORAS)
+        p.add_argument(
+            "--num-active-loras",
+            type=int,
+            default=None,
+            help="Active LoRAs. When None, all LoRAs are active",
+        )
+        p.add_argument(
+            "--sort-by-lora-id",
+            nargs="+",
+            type=get_bool,
+            default=DEFAULT_SORT_BY_LORA_IDS,
+        )
+        p.add_argument(
+            "--op-types", nargs="+", type=OpType.from_str, default=list(OpType)
+        )
+        p.add_argument(
+            "--seq-lengths", nargs="+", type=int, default=DEFAULT_SEQ_LENGTHS
+        )
+        p.add_argument(
+            "--batch-sizes", nargs="+", type=int, default=DEFAULT_BATCH_SIZES
+        )
+        p.add_argument(
+            "--expand-fn-add-inputs",
+            nargs="+",
+            type=get_bool,
+            default=DEFAULT_EXPAND_FN_ADD_INPUTS,
+        )
         p.add_argument(
-            '-o',
-            '--output-directory',
+            "-o",
+            "--output-directory",
             type=str,
-            help=("Output directory to store a the list of benchmarking"
-                  "TMeasurement objects as a pickle file"))
+            help=(
+                "Output directory to store a the list of benchmarking"
+                "TMeasurement objects as a pickle file"
+            ),
+        )
 
         p.add_argument(
             "--test-correctness",
-            action='store_true',
-            help=("When enabled, the benchmarking functions are tested"
-                  "for correctness before the actual benchmarking"))
+            action="store_true",
+            help=(
+                "When enabled, the benchmarking functions are tested"
+                "for correctness before the actual benchmarking"
+            ),
+        )
 
     parser = FlexibleArgumentParser(
         description=f"""
@@ -910,50 +1018,45 @@ Benchmark LoRA kernels:
     range_bench example:
         python3 benchmarks/kernels/benchmark_lora.py range_bench  --arg-pool-size 32 --batch-sizes 1 16 32 --dtype torch.float16   --num-loras 1 4 --op-types lora_shrink lora_expand --seq-lengths 1 16 --sort-by-lora-id 1 --cuda-graph-nops 32 --hidden-sizes-start 1024 --hidden-sizes-end 4096 --hidden-sizes-increment 1024 --lora-ranks-start 8 --lora-ranks-end 24 --lora-ranks-increment 8 
             """,  # noqa: E501
-        formatter_class=argparse.RawTextHelpFormatter)
+        formatter_class=argparse.RawTextHelpFormatter,
+    )
 
     subparsers = parser.add_subparsers(dest="cmd", required=True)
 
     list_parser = subparsers.add_parser("list_bench")
-    list_parser.add_argument("--hidden-sizes",
-                             nargs="+",
-                             type=int,
-                             default=DEFAULT_HIDDEN_SIZES)
-    list_parser.add_argument("--lora-ranks",
-                             nargs="+",
-                             type=int,
-                             default=DEFAULT_LORA_RANKS)
+    list_parser.add_argument(
+        "--hidden-sizes", nargs="+", type=int, default=DEFAULT_HIDDEN_SIZES
+    )
+    list_parser.add_argument(
+        "--lora-ranks", nargs="+", type=int, default=DEFAULT_LORA_RANKS
+    )
     add_common_command_args(list_parser)
     list_parser.set_defaults(func=run_list_bench)
 
     range_parser = subparsers.add_parser("range_bench")
     range_parser.add_argument("--hidden-sizes-start", type=int, required=True)
     range_parser.add_argument("--hidden-sizes-end", type=int, required=True)
-    range_parser.add_argument("--hidden-sizes-increment",
-                              type=int,
-                              required=True)
+    range_parser.add_argument("--hidden-sizes-increment", type=int, required=True)
     range_parser.add_argument("--lora-ranks-start", type=int, required=True)
     range_parser.add_argument("--lora-ranks-end", type=int, required=True)
-    range_parser.add_argument("--lora-ranks-increment",
-                              type=int,
-                              required=True)
+    range_parser.add_argument("--lora-ranks-increment", type=int, required=True)
     add_common_command_args(range_parser)
     range_parser.set_defaults(func=run_range_bench)
 
     model_parser = subparsers.add_parser("model_bench")
-    model_parser.add_argument("--models",
-                              nargs="+",
-                              type=str,
-                              default=DEFAULT_MODELS,
-                              choices=WEIGHT_SHAPES.keys())
-    model_parser.add_argument("--tp-sizes",
-                              nargs="+",
-                              type=int,
-                              default=DEFAULT_TP_SIZES)
-    model_parser.add_argument("--lora-ranks",
-                              nargs="+",
-                              type=int,
-                              default=DEFAULT_LORA_RANKS)
+    model_parser.add_argument(
+        "--models",
+        nargs="+",
+        type=str,
+        default=DEFAULT_MODELS,
+        choices=WEIGHT_SHAPES.keys(),
+    )
+    model_parser.add_argument(
+        "--tp-sizes", nargs="+", type=int, default=DEFAULT_TP_SIZES
+    )
+    model_parser.add_argument(
+        "--lora-ranks", nargs="+", type=int, default=DEFAULT_LORA_RANKS
+    )
     add_common_command_args(model_parser)
     model_parser.set_defaults(func=run_model_bench)
 
diff --git a/benchmarks/kernels/benchmark_machete.py b/benchmarks/kernels/benchmark_machete.py
index a661ea9d7..f8f1db047 100644
--- a/benchmarks/kernels/benchmark_machete.py
+++ b/benchmarks/kernels/benchmark_machete.py
@@ -20,12 +20,18 @@ from weight_shapes import WEIGHT_SHAPES
 
 from vllm import _custom_ops as ops
 from vllm.model_executor.layers.quantization.utils.marlin_utils import (
-    GPTQ_MARLIN_MAX_PARALLEL, GPTQ_MARLIN_MIN_THREAD_N, marlin_permute_scales,
-    marlin_zero_points)
+    GPTQ_MARLIN_MAX_PARALLEL,
+    GPTQ_MARLIN_MIN_THREAD_N,
+    marlin_permute_scales,
+    marlin_zero_points,
+)
 from vllm.model_executor.layers.quantization.utils.marlin_utils_test import (
-    MarlinWorkspace)
+    MarlinWorkspace,
+)
 from vllm.model_executor.layers.quantization.utils.quant_utils import (
-    pack_rows, quantize_weights)
+    pack_rows,
+    quantize_weights,
+)
 from vllm.scalar_type import ScalarType, scalar_types
 from vllm.utils import FlexibleArgumentParser
 
@@ -82,12 +88,14 @@ def rand_data(shape, dtype=torch.float16, scale=1):
         return torch.randint(-15, 15, shape, dtype=dtype, device="cuda")
 
 
-def quantize_and_pack(atype: torch.dtype,
-                      w: torch.Tensor,
-                      wtype: ScalarType,
-                      stype: Optional[torch.dtype],
-                      group_size: Optional[int],
-                      zero_points: bool = False):
+def quantize_and_pack(
+    atype: torch.dtype,
+    w: torch.Tensor,
+    wtype: ScalarType,
+    stype: Optional[torch.dtype],
+    group_size: Optional[int],
+    zero_points: bool = False,
+):
     assert wtype.is_integer(), "TODO: support floating point weights"
 
     w_ref, w_q, w_s, w_zp = quantize_weights(
@@ -96,21 +104,24 @@ def quantize_and_pack(atype: torch.dtype,
         group_size=group_size,
         zero_points=zero_points,
         # to match how the kernel applies zps
-        ref_zero_points_after_scales=True)
+        ref_zero_points_after_scales=True,
+    )
 
     w_q = pack_rows(w_q, wtype.size_bits, *w_q.shape)
     return w_ref, w_q, w_s, w_zp
 
 
-def create_bench_tensors(shape: tuple[int, int, int], types: TypeConfig,
-                         group_size: Optional[int]) -> list[BenchmarkTensors]:
+def create_bench_tensors(
+    shape: tuple[int, int, int], types: TypeConfig, group_size: Optional[int]
+) -> list[BenchmarkTensors]:
     m, n, k = shape
 
     # we want to make sure that weights don't fit into L2 cache between runs so
     #  we construct enough weights to exceed L2 cache, which is 50mb on a H100
     #  so we target total weight size > 2*50mb
-    num_weights = math.ceil(2 * 50 * 1024**2 * 8 /
-                            (k * n * types.weight_type.size_bits))
+    num_weights = math.ceil(
+        2 * 50 * 1024**2 * 8 / (k * n * types.weight_type.size_bits)
+    )
 
     a = rand_data((m, k), types.act_type, scale=5)
 
@@ -124,8 +135,13 @@ def create_bench_tensors(shape: tuple[int, int, int], types: TypeConfig,
             w = w.to(torch.float16)
 
         w_ref, w_q_packed, w_s, w_zp = quantize_and_pack(
-            a.dtype, w, types.weight_type, types.group_scale_type, group_size,
-            types.group_zero_type is not None)
+            a.dtype,
+            w,
+            types.weight_type,
+            types.group_scale_type,
+            group_size,
+            types.group_zero_type is not None,
+        )
 
         if not a.dtype.is_floating_point:
             aiinfo = torch.iinfo(a.dtype)
@@ -133,21 +149,30 @@ def create_bench_tensors(shape: tuple[int, int, int], types: TypeConfig,
 
         w_ref = w_ref.to(torch.float32)
 
-        w_ch_s = None if types.channel_scale_type is None else\
-            rand_data((n,), types.channel_scale_type)
-        w_tok_s = None if types.token_scale_type is None else\
-            rand_data((m,), types.token_scale_type)
+        w_ch_s = (
+            None
+            if types.channel_scale_type is None
+            else rand_data((n,), types.channel_scale_type)
+        )
+        w_tok_s = (
+            None
+            if types.token_scale_type is None
+            else rand_data((m,), types.token_scale_type)
+        )
 
         benchmark_tensors.append(
-            BenchmarkTensors(w_ref=w_ref,
-                             a=a,
-                             w_q=w_q_packed,
-                             wtype=types.weight_type,
-                             w_g_s=w_s,
-                             w_g_zp=w_zp,
-                             group_size=group_size,
-                             w_ch_s=w_ch_s,
-                             w_tok_s=w_tok_s))
+            BenchmarkTensors(
+                w_ref=w_ref,
+                a=a,
+                w_q=w_q_packed,
+                wtype=types.weight_type,
+                w_g_s=w_s,
+                w_g_zp=w_zp,
+                group_size=group_size,
+                w_ch_s=w_ch_s,
+                w_tok_s=w_tok_s,
+            )
+        )
 
     return benchmark_tensors
 
@@ -170,50 +195,57 @@ def cutlass_scaled_mm_create_bench_fn(bt: BenchmarkTensors) -> Callable:
         scale_b = torch.tensor(1.0, dtype=torch.float32, device=bt.a.device)
     w_col_major = bt.w_ref.to(bt.a.dtype).t().contiguous().t()
     return lambda: ops.cutlass_scaled_mm(
-        bt.a, w_col_major, scale_a, scale_b, out_dtype=torch.float16)
+        bt.a, w_col_major, scale_a, scale_b, out_dtype=torch.float16
+    )
 
 
 def marlin_create_bench_fn(bt: BenchmarkTensors) -> Callable:
     device = bt.a.device
 
-    workspace = MarlinWorkspace(bt.w_ref.shape[1], GPTQ_MARLIN_MIN_THREAD_N,
-                                GPTQ_MARLIN_MAX_PARALLEL)
+    workspace = MarlinWorkspace(
+        bt.w_ref.shape[1], GPTQ_MARLIN_MIN_THREAD_N, GPTQ_MARLIN_MAX_PARALLEL
+    )
 
     if bt.w_g_zp is None:
         w_zp = torch.empty(0, dtype=torch.int, device=device)
     else:
-        w_zp = marlin_zero_points(bt.w_g_zp, bt.w_ref.shape[0],
-                                  bt.w_ref.shape[1], bt.wtype.size_bits)
+        w_zp = marlin_zero_points(
+            bt.w_g_zp, bt.w_ref.shape[0], bt.w_ref.shape[1], bt.wtype.size_bits
+        )
 
     if bt.group_size is None:
         w_s = torch.tensor([], device="cuda", dtype=torch.half)
     else:
-        w_s = marlin_permute_scales(bt.w_g_s, bt.w_ref.shape[0],
-                                    bt.w_ref.shape[1], bt.group_size)
+        w_s = marlin_permute_scales(
+            bt.w_g_s, bt.w_ref.shape[0], bt.w_ref.shape[1], bt.group_size
+        )
 
     sort_indices = torch.empty(0, dtype=torch.int, device=device)
     g_idx = torch.empty(0, dtype=torch.int, device=device)
-    w_q = ops.gptq_marlin_repack(bt.w_q, sort_indices, bt.w_ref.shape[0],
-                                 bt.w_ref.shape[1], bt.wtype.size_bits)
+    w_q = ops.gptq_marlin_repack(
+        bt.w_q, sort_indices, bt.w_ref.shape[0], bt.w_ref.shape[1], bt.wtype.size_bits
+    )
 
     if bt.a.dtype.is_floating_point:
         assert bt.w_ch_s is None
         assert bt.w_tok_s is None
         assert bt.group_size is not None
 
-        fn = lambda: ops.gptq_marlin_gemm(a=bt.a,
-                                          b_q_weight=w_q,
-                                          b_scales=w_s,
-                                          b_zeros=w_zp,
-                                          g_idx=g_idx,
-                                          perm=sort_indices,
-                                          workspace=workspace.scratch,
-                                          b_q_type=bt.wtype,
-                                          size_m=bt.a.shape[0],
-                                          size_n=bt.w_ref.shape[1],
-                                          size_k=bt.w_ref.shape[0],
-                                          is_k_full=True,
-                                          is_zp_float=False)
+        fn = lambda: ops.gptq_marlin_gemm(
+            a=bt.a,
+            b_q_weight=w_q,
+            b_scales=w_s,
+            b_zeros=w_zp,
+            g_idx=g_idx,
+            perm=sort_indices,
+            workspace=workspace.scratch,
+            b_q_type=bt.wtype,
+            size_m=bt.a.shape[0],
+            size_n=bt.w_ref.shape[1],
+            size_k=bt.w_ref.shape[0],
+            is_k_full=True,
+            is_zp_float=False,
+        )
     else:
         assert bt.a.dtype == torch.int8
         assert bt.wtype == scalar_types.uint4b8
@@ -221,36 +253,35 @@ def marlin_create_bench_fn(bt: BenchmarkTensors) -> Callable:
         if bt.w_ch_s is not None:
             s_ch = bt.w_ch_s.to(torch.float32)
         else:
-            s_ch = torch.ones(bt.w_ref.shape[1],
-                              dtype=torch.float32,
-                              device=device)
+            s_ch = torch.ones(bt.w_ref.shape[1], dtype=torch.float32, device=device)
 
         if bt.w_tok_s is not None:
             s_tok = bt.w_tok_s.to(torch.float32)
         else:
-            s_tok = torch.ones(bt.a.shape[0],
-                               dtype=torch.float32,
-                               device=device)
-
-        fn = lambda: ops.marlin_qqq_gemm(a=bt.a,
-                                         b_q_weight=w_q,
-                                         s_group=w_s,
-                                         s_tok=s_tok,
-                                         s_ch=s_ch,
-                                         workspace=workspace.scratch,
-                                         size_m=bt.a.shape[0],
-                                         size_n=bt.w_ref.shape[1],
-                                         size_k=bt.w_ref.shape[0])
+            s_tok = torch.ones(bt.a.shape[0], dtype=torch.float32, device=device)
+
+        fn = lambda: ops.marlin_qqq_gemm(
+            a=bt.a,
+            b_q_weight=w_q,
+            s_group=w_s,
+            s_tok=s_tok,
+            s_ch=s_ch,
+            workspace=workspace.scratch,
+            size_m=bt.a.shape[0],
+            size_n=bt.w_ref.shape[1],
+            size_k=bt.w_ref.shape[0],
+        )
 
     return fn
 
 
-def machete_create_bench_fn(bt: BenchmarkTensors,
-                            out_type=torch.dtype,
-                            schedule=None) -> Callable:
+def machete_create_bench_fn(
+    bt: BenchmarkTensors, out_type=torch.dtype, schedule=None
+) -> Callable:
     w_q = bt.w_q.t().contiguous().t()  # make col major
-    w_q = ops.machete_prepack_B(w_q, bt.a.dtype, bt.wtype,
-                                None if bt.w_g_s is None else bt.w_g_s.dtype)
+    w_q = ops.machete_prepack_B(
+        w_q, bt.a.dtype, bt.wtype, None if bt.w_g_s is None else bt.w_g_s.dtype
+    )
 
     w_g_zp = bt.w_g_zp
     if w_g_zp is not None:
@@ -275,26 +306,24 @@ def machete_create_bench_fn(bt: BenchmarkTensors,
 # bench
 
 
-def bench_fns(label: str, sub_label: str, description: str,
-              fns: list[Callable]):
-
+def bench_fns(label: str, sub_label: str, description: str, fns: list[Callable]):
     min_run_time = 1 if not NVTX_PROFILE else 0.1
     res = TBenchmark.Timer(
         stmt="""
         for fn in fns:
             fn()
         """,
-        globals={
-            "fns": fns
-        },
+        globals={"fns": fns},
         label=label,
         sub_label=sub_label,
         description=description,
     ).blocked_autorange(min_run_time=min_run_time)
 
     if NVTX_PROFILE:
-        with nvtx.annotate("mm-bench"), nvtx.annotate(
-                f"{label}|{sub_label}|{description}"):
+        with (
+            nvtx.annotate("mm-bench"),
+            nvtx.annotate(f"{label}|{sub_label}|{description}"),
+        ):
             fns[0]()
 
     return res
@@ -304,19 +333,20 @@ _SWEEP_SCHEDULES_RESULTS: Optional[pd.DataFrame] = None
 _SWEEP_SCHEDULES_RESULTS_CSV: Optional[str] = None
 
 
-def bench(types: TypeConfig,
-          group_size: int,
-          m: int,
-          k: int,
-          n: int,
-          label: str,
-          sub_label: str,
-          sweep_schedules: bool = True) -> list[TMeasurement]:
+def bench(
+    types: TypeConfig,
+    group_size: int,
+    m: int,
+    k: int,
+    n: int,
+    label: str,
+    sub_label: str,
+    sweep_schedules: bool = True,
+) -> list[TMeasurement]:
     benchmark_tensors = create_bench_tensors((m, n, k), types, group_size)
     sub_label += f", L={len(benchmark_tensors)}"
 
-    name_type_string = f"W{types.weight_type}"+\
-                       f"-A{terse_type_name(types.act_type)}"
+    name_type_string = f"W{types.weight_type}" + f"-A{terse_type_name(types.act_type)}"
     if types.group_scale_type is not None:
         name_type_string += f"-GS{terse_type_name(types.group_scale_type)}"
     if types.group_zero_type is not None:
@@ -332,31 +362,45 @@ def bench(types: TypeConfig,
     # pytorch impl
     timers.append(
         bench_fns(
-            label, sub_label, "torch.matmul (fp16)",
-            [torch_matmul_f16_create_bench_fn(bt)
-             for bt in benchmark_tensors]))
+            label,
+            sub_label,
+            "torch.matmul (fp16)",
+            [torch_matmul_f16_create_bench_fn(bt) for bt in benchmark_tensors],
+        )
+    )
 
     if types.act_type == torch.int8 or types.act_type == torch.float8_e4m3fn:
         timers.append(
             bench_fns(
-                label, sub_label,
-                f"cutlass_scaled_mm ({terse_type_name(types.act_type)})", [
-                    cutlass_scaled_mm_create_bench_fn(bt)
-                    for bt in benchmark_tensors
-                ]))
+                label,
+                sub_label,
+                f"cutlass_scaled_mm ({terse_type_name(types.act_type)})",
+                [cutlass_scaled_mm_create_bench_fn(bt) for bt in benchmark_tensors],
+            )
+        )
 
     if types.act_type != torch.float8_e4m3fn:
         timers.append(
-            bench_fns(label, sub_label, f"marlin ({name_type_string})",
-                      [marlin_create_bench_fn(bt)
-                       for bt in benchmark_tensors]))
+            bench_fns(
+                label,
+                sub_label,
+                f"marlin ({name_type_string})",
+                [marlin_create_bench_fn(bt) for bt in benchmark_tensors],
+            )
+        )
 
     # machete
     timers.append(
-        bench_fns(label, sub_label, f"machete ({name_type_string})", [
-            machete_create_bench_fn(bt, out_type=types.output_type)
-            for bt in benchmark_tensors
-        ]))
+        bench_fns(
+            label,
+            sub_label,
+            f"machete ({name_type_string})",
+            [
+                machete_create_bench_fn(bt, out_type=types.output_type)
+                for bt in benchmark_tensors
+            ],
+        )
+    )
 
     if sweep_schedules:
         global _SWEEP_SCHEDULES_RESULTS
@@ -371,7 +415,8 @@ def bench(types: TypeConfig,
             group_zeros_type=types.group_zero_type,
             token_scales_type=types.token_scale_type,
             channel_scales_type=types.channel_scale_type,
-            out_type=types.output_type)
+            out_type=types.output_type,
+        )
 
         if schedules is None or len(schedules) == 0:
             raise ValueError("No schedules found to sweep")
@@ -383,11 +428,17 @@ def bench(types: TypeConfig,
             if schedule_M >= 2 * max(m, 16) or schedule_M < m // 4:
                 continue
 
-            res = bench_fns(label, sub_label, "machete_best", [
-                machete_create_bench_fn(
-                    bt, out_type=types.output_type, schedule=schedule)
-                for bt in benchmark_tensors
-            ])
+            res = bench_fns(
+                label,
+                sub_label,
+                "machete_best",
+                [
+                    machete_create_bench_fn(
+                        bt, out_type=types.output_type, schedule=schedule
+                    )
+                    for bt in benchmark_tensors
+                ],
+            )
 
             results_row = {
                 "M": m,
@@ -398,10 +449,8 @@ def bench(types: TypeConfig,
                 "median": res.median,
             }
             if _SWEEP_SCHEDULES_RESULTS is None:
-                _SWEEP_SCHEDULES_RESULTS = pd.DataFrame(
-                    columns=results_row.keys())
-            _SWEEP_SCHEDULES_RESULTS.\
-                loc[len(_SWEEP_SCHEDULES_RESULTS)] = results_row
+                _SWEEP_SCHEDULES_RESULTS = pd.DataFrame(columns=results_row.keys())
+            _SWEEP_SCHEDULES_RESULTS.loc[len(_SWEEP_SCHEDULES_RESULTS)] = results_row
 
             print(f"  {res.median:5.5} ", schedule)
             if not best or res.median < best.median:
@@ -422,8 +471,9 @@ def print_timers(timers: list[TMeasurement]):
 def run(args, MKNs: Iterable[tuple[int, int, int]]) -> Iterable[TMeasurement]:
     types = TypeConfig(
         act_type=args.act_type,
-        weight_type=scalar_types.uint4b8 if args.group_zero_type is None \
-            else scalar_types.uint4,
+        weight_type=scalar_types.uint4b8
+        if args.group_zero_type is None
+        else scalar_types.uint4,
         output_type=args.out_type,
         group_scale_type=args.group_scale_type,
         group_zero_type=args.group_zero_type,
@@ -433,14 +483,16 @@ def run(args, MKNs: Iterable[tuple[int, int, int]]) -> Iterable[TMeasurement]:
 
     results: list[TMeasurement] = []
     for m, k, n in MKNs:
-        timers = bench(types,
-                       args.group_size,
-                       m,
-                       k,
-                       n,
-                       f"{args.act_type}-gemm",
-                       f"MKN=({m}x{k}x{n})",
-                       sweep_schedules=args.sweep_schedules)
+        timers = bench(
+            types,
+            args.group_size,
+            m,
+            k,
+            n,
+            f"{args.act_type}-gemm",
+            f"MKN=({m}x{k}x{n})",
+            sweep_schedules=args.sweep_schedules,
+        )
         print_timers(timers)
         results.extend(timers)
 
@@ -454,7 +506,6 @@ def make_output(
     base_description: str,
     timestamp=None,
 ):
-
     print(f"== All Results {base_description} ====")
     print_timers(data)
 
@@ -468,8 +519,7 @@ def make_output(
 
 
 def run_square_bench(args):
-    dim_sizes = list(
-        range(args.dim_start, args.dim_end + 1, args.dim_increment))
+    dim_sizes = list(range(args.dim_start, args.dim_end + 1, args.dim_increment))
     MKNs = list(zip(dim_sizes, dim_sizes, dim_sizes))
     data = run(args.dtype, args.sweep_schedules, MKNs)
 
@@ -479,8 +529,9 @@ def run_square_bench(args):
 def run_range_bench(args):
     m_start, k_start, n_start = (int(x) for x in args.dim_start.split(","))
     m_end, k_end, n_end = (int(x) for x in args.dim_end.split(","))
-    m_increment, k_increment, n_increment = \
-        (int(x) for x in args.dim_increment.split(","))
+    m_increment, k_increment, n_increment = (
+        int(x) for x in args.dim_increment.split(",")
+    )
     Ms = list(range(m_start, m_end + 1, m_increment))
     Ks = list(range(k_start, k_end + 1, k_increment))
     Ns = list(range(n_start, n_end + 1, n_increment))
@@ -492,7 +543,6 @@ def run_range_bench(args):
 
 
 def run_model_bench(args):
-
     print("Benchmarking models:")
     for i, model in enumerate(args.models):
         print(f"[{i}]  {model}")
@@ -535,10 +585,13 @@ def run_model_bench(args):
     with open(f"model_bench-{type_string}-{timestr}.pkl", "wb") as f:
         args_dict = vars(args)
         args_dict.pop("func")
-        pkl.dump({
-            "args": args_dict,
-            "results": all_results,
-        }, f)
+        pkl.dump(
+            {
+                "args": args_dict,
+                "results": all_results,
+            },
+            f,
+        )
 
 
 if __name__ == "__main__":
@@ -554,7 +607,6 @@ if __name__ == "__main__":
         }[dt]
 
     class ToTorchDtype(argparse.Action):
-
         def __call__(self, parser, namespace, values, option_string=None):
             setattr(namespace, self.dest, to_torch_dtype(values))
 
@@ -580,32 +632,32 @@ Benchmark Machete GEMM.
         "--act-type",
         action=ToTorchDtype,
         required=True,
-        choices=['bfloat16', 'float16', 'int8', 'float8_e4m3fn'],
+        choices=["bfloat16", "float16", "int8", "float8_e4m3fn"],
     )
     parser.add_argument(
         "--group-scale-type",
         action=ToTorchDtype,
-        choices=['bfloat16', 'float16'],
+        choices=["bfloat16", "float16"],
     )
     parser.add_argument(
         "--group-zero-type",
         type=to_torch_dtype,
-        choices=['bfloat16', 'float16'],
+        choices=["bfloat16", "float16"],
     )
     parser.add_argument(
         "--channel-scale-type",
         action=ToTorchDtype,
-        choices=['float'],
+        choices=["float"],
     )
     parser.add_argument(
         "--token-scale-type",
         action=ToTorchDtype,
-        choices=['float'],
+        choices=["float"],
     )
     parser.add_argument(
         "--out-type",
         action=ToTorchDtype,
-        choices=['bfloat16', 'float16'],
+        choices=["bfloat16", "float16"],
     )
     parser.add_argument(
         "--group-size",
@@ -618,9 +670,11 @@ Benchmark Machete GEMM.
         action="store_true",
         help="Run a sweep over all supported schedules",
     )
-    parser.add_argument("--sweep-csv-out",
-                        help="CSV to store sweep results",
-                        default="sch_sweep_results.csv")
+    parser.add_argument(
+        "--sweep-csv-out",
+        help="CSV to store sweep results",
+        default="sch_sweep_results.csv",
+    )
     subparsers = parser.add_subparsers(dest="cmd", required=True)
 
     square_parser = subparsers.add_parser("square_bench")
@@ -634,17 +688,20 @@ Benchmark Machete GEMM.
         "--dim-start",
         type=str,
         required=True,
-        help="Start value for M,K,N as common separated list")
+        help="Start value for M,K,N as common separated list",
+    )
     range_parser.add_argument(
         "--dim-end",
         type=str,
         required=True,
-        help="End value (inclusive) for M,K,N as common separated list")
+        help="End value (inclusive) for M,K,N as common separated list",
+    )
     range_parser.add_argument(
         "--dim-increment",
         type=str,
         required=True,
-        help="Increment value for M,K,N as common separated list")
+        help="Increment value for M,K,N as common separated list",
+    )
     range_parser.set_defaults(func=run_range_bench)
 
     model_parser = subparsers.add_parser("model_bench")
@@ -655,14 +712,12 @@ Benchmark Machete GEMM.
         default=DEFAULT_MODELS,
         choices=WEIGHT_SHAPES.keys(),
     )
-    model_parser.add_argument("--tp-sizes",
-                              nargs="+",
-                              type=int,
-                              default=DEFAULT_TP_SIZES)
-    model_parser.add_argument("--batch-sizes",
-                              nargs="+",
-                              type=int,
-                              default=DEFAULT_BATCH_SIZES)
+    model_parser.add_argument(
+        "--tp-sizes", nargs="+", type=int, default=DEFAULT_TP_SIZES
+    )
+    model_parser.add_argument(
+        "--batch-sizes", nargs="+", type=int, default=DEFAULT_BATCH_SIZES
+    )
     model_parser.set_defaults(func=run_model_bench)
 
     args = parser.parse_args()
diff --git a/benchmarks/kernels/benchmark_marlin.py b/benchmarks/kernels/benchmark_marlin.py
index 1e785ac8f..b17baff2e 100644
--- a/benchmarks/kernels/benchmark_marlin.py
+++ b/benchmarks/kernels/benchmark_marlin.py
@@ -6,19 +6,34 @@ from benchmark_shapes import WEIGHT_SHAPES
 
 from vllm import _custom_ops as ops
 from vllm.model_executor.layers.quantization.gptq_marlin_24 import (
-    GPTQ_MARLIN_24_MAX_PARALLEL, GPTQ_MARLIN_24_MIN_THREAD_N,
-    GPTQ_MARLIN_24_SUPPORTED_GROUP_SIZES, GPTQ_MARLIN_24_SUPPORTED_QUANT_TYPES)
+    GPTQ_MARLIN_24_MAX_PARALLEL,
+    GPTQ_MARLIN_24_MIN_THREAD_N,
+    GPTQ_MARLIN_24_SUPPORTED_GROUP_SIZES,
+    GPTQ_MARLIN_24_SUPPORTED_QUANT_TYPES,
+)
 from vllm.model_executor.layers.quantization.utils.allspark_utils import (
-    ALLSPARK_AMPERE_M_CUBLAS_THRESHOLD, ALLSPARK_SUPPORTED_QUANT_TYPES)
+    ALLSPARK_AMPERE_M_CUBLAS_THRESHOLD,
+    ALLSPARK_SUPPORTED_QUANT_TYPES,
+)
 from vllm.model_executor.layers.quantization.utils.marlin_utils import (
-    GPTQ_MARLIN_MAX_PARALLEL, GPTQ_MARLIN_MIN_THREAD_N,
-    MARLIN_SUPPORTED_GROUP_SIZES, query_marlin_supported_quant_types)
+    GPTQ_MARLIN_MAX_PARALLEL,
+    GPTQ_MARLIN_MIN_THREAD_N,
+    MARLIN_SUPPORTED_GROUP_SIZES,
+    query_marlin_supported_quant_types,
+)
 from vllm.model_executor.layers.quantization.utils.marlin_utils_test import (
-    MarlinWorkspace, marlin_quantize)
+    MarlinWorkspace,
+    marlin_quantize,
+)
 from vllm.model_executor.layers.quantization.utils.marlin_utils_test_24 import (
-    marlin_24_quantize)
+    marlin_24_quantize,
+)
 from vllm.model_executor.layers.quantization.utils.quant_utils import (
-    gptq_pack, gptq_quantize_weights, quantize_weights, sort_weights)
+    gptq_pack,
+    gptq_quantize_weights,
+    quantize_weights,
+    sort_weights,
+)
 from vllm.scalar_type import ScalarType
 from vllm.utils import FlexibleArgumentParser
 
@@ -29,22 +44,29 @@ ACT_ORDER_OPTS = [False, True]
 K_FULL_OPTS = [False, True]
 
 
-def bench_run(results: list[benchmark.Measurement], model: str,
-              act_order: bool, is_k_full: bool, quant_type: ScalarType,
-              group_size: int, size_m: int, size_k: int, size_n: int):
+def bench_run(
+    results: list[benchmark.Measurement],
+    model: str,
+    act_order: bool,
+    is_k_full: bool,
+    quant_type: ScalarType,
+    group_size: int,
+    size_m: int,
+    size_k: int,
+    size_n: int,
+):
     label = "Quant Matmul"
 
-    sub_label = ("{}, act={} k_full={}, q={}, g={}, "
-                 "MKN=({}x{}x{})".format(model, act_order, is_k_full,
-                                         str(quant_type), group_size, size_m,
-                                         size_k, size_n))
+    sub_label = "{}, act={} k_full={}, q={}, g={}, MKN=({}x{}x{})".format(
+        model, act_order, is_k_full, str(quant_type), group_size, size_m, size_k, size_n
+    )
 
     print(f"Testing: {sub_label}")
 
     a = torch.randn(size_m, size_k).to(torch.half).cuda()
     b = torch.rand(size_k, size_n).to(torch.half).cuda()
 
-    a_tmp = (torch.zeros(size_m, size_k).to(torch.half).cuda())
+    a_tmp = torch.zeros(size_m, size_k).to(torch.half).cuda()
 
     # Marlin quant
     (
@@ -57,14 +79,16 @@ def bench_run(results: list[benchmark.Measurement], model: str,
     ) = marlin_quantize(b, quant_type, group_size, act_order)
 
     # Marlin_24 quant
-    (marlin_24_w_ref, marlin_24_q_w_comp, marlin_24_meta,
-     marlin_24_s) = marlin_24_quantize(b, quant_type, group_size)
+    (marlin_24_w_ref, marlin_24_q_w_comp, marlin_24_meta, marlin_24_s) = (
+        marlin_24_quantize(b, quant_type, group_size)
+    )
 
     marlin_zp = torch.empty(0, dtype=torch.int, device=b.device)
 
     # GPTQ quant
-    (w_ref, q_w, s, g_idx,
-     rand_perm) = gptq_quantize_weights(b, quant_type, group_size, act_order)
+    (w_ref, q_w, s, g_idx, rand_perm) = gptq_quantize_weights(
+        b, quant_type, group_size, act_order
+    )
     q_w_gptq = gptq_pack(q_w, quant_type.size_bits, size_k, size_n)
 
     # For act_order, sort the "weights" and "g_idx"
@@ -74,32 +98,37 @@ def bench_run(results: list[benchmark.Measurement], model: str,
         (q_w, g_idx, repack_sort_indices) = sort_weights(q_w, g_idx)
 
     # Prepare
-    marlin_workspace = MarlinWorkspace(size_n, GPTQ_MARLIN_MIN_THREAD_N,
-                                       GPTQ_MARLIN_MAX_PARALLEL)
+    marlin_workspace = MarlinWorkspace(
+        size_n, GPTQ_MARLIN_MIN_THREAD_N, GPTQ_MARLIN_MAX_PARALLEL
+    )
 
-    marlin_24_workspace = MarlinWorkspace(size_n, GPTQ_MARLIN_24_MIN_THREAD_N,
-                                          GPTQ_MARLIN_24_MAX_PARALLEL)
+    marlin_24_workspace = MarlinWorkspace(
+        size_n, GPTQ_MARLIN_24_MIN_THREAD_N, GPTQ_MARLIN_24_MAX_PARALLEL
+    )
     marlin_zp = torch.zeros_like(marlin_s, dtype=torch.int)
 
     # AllSpark W8A16 quant
-    as_supported_case = (quant_type in ALLSPARK_SUPPORTED_QUANT_TYPES
-                         and group_size == -1 and not act_order and is_k_full)
+    as_supported_case = (
+        quant_type in ALLSPARK_SUPPORTED_QUANT_TYPES
+        and group_size == -1
+        and not act_order
+        and is_k_full
+    )
     if as_supported_case:
         properties = torch.cuda.get_device_properties(b.device.index)
         sm_count = properties.multi_processor_count
         sm_version = properties.major * 10 + properties.minor
 
-        supported_arch = (sm_version >= 80 and sm_version < 90)
+        supported_arch = sm_version >= 80 and sm_version < 90
         as_supported_case = as_supported_case and supported_arch
         if supported_arch:
             has_zp = False
-            w_ref, qw, s, zp = quantize_weights(b, quant_type, group_size,
-                                                has_zp)
+            w_ref, qw, s, zp = quantize_weights(b, quant_type, group_size, has_zp)
             qw = qw.to(torch.uint8)
 
-            qw_reorder, s_reorder, zp_reorder = \
-                ops.allspark_repack_weight(
-                qw, s, zp, has_zp)
+            qw_reorder, s_reorder, zp_reorder = ops.allspark_repack_weight(
+                qw, s, zp, has_zp
+            )
             CUBLAS_M_THRESHOLD = ALLSPARK_AMPERE_M_CUBLAS_THRESHOLD
 
     globals = {
@@ -136,8 +165,7 @@ def bench_run(results: list[benchmark.Measurement], model: str,
         "zp_reorder": zp_reorder if as_supported_case else None,
         "sm_count": sm_count if as_supported_case else None,
         "sm_version": sm_version if as_supported_case else None,
-        "CUBLAS_M_THRESHOLD":
-        CUBLAS_M_THRESHOLD if as_supported_case else None,
+        "CUBLAS_M_THRESHOLD": CUBLAS_M_THRESHOLD if as_supported_case else None,
         # Kernels
         "gptq_marlin_gemm": ops.gptq_marlin_gemm,
         "gptq_marlin_24_gemm": ops.gptq_marlin_24_gemm,
@@ -158,60 +186,63 @@ def bench_run(results: list[benchmark.Measurement], model: str,
             label=label,
             sub_label=sub_label,
             description="pytorch_gemm",
-        ).blocked_autorange(min_run_time=min_run_time))
+        ).blocked_autorange(min_run_time=min_run_time)
+    )
 
     results.append(
         benchmark.Timer(
-            stmt=
-            "output = gptq_marlin_gemm(a, marlin_q_w, marlin_s, marlin_zp, marlin_g_idx, marlin_sort_indices, marlin_workspace.scratch, quant_type, size_m, size_n, size_k, is_k_full, False, False, False)",  # noqa: E501
+            stmt="output = gptq_marlin_gemm(a, marlin_q_w, marlin_s, marlin_zp, marlin_g_idx, marlin_sort_indices, marlin_workspace.scratch, quant_type, size_m, size_n, size_k, is_k_full, False, False, False)",  # noqa: E501
             globals=globals,
             label=label,
             sub_label=sub_label,
             description="gptq_marlin_gemm_fp16",
-        ).blocked_autorange(min_run_time=min_run_time))
+        ).blocked_autorange(min_run_time=min_run_time)
+    )
 
     results.append(
         benchmark.Timer(
-            stmt=
-            "output = gptq_marlin_gemm(a, marlin_q_w, marlin_s, marlin_zp, marlin_g_idx, marlin_sort_indices, marlin_workspace.scratch, quant_type, size_m, size_n, size_k, is_k_full, False, True, False)",  # noqa: E501
+            stmt="output = gptq_marlin_gemm(a, marlin_q_w, marlin_s, marlin_zp, marlin_g_idx, marlin_sort_indices, marlin_workspace.scratch, quant_type, size_m, size_n, size_k, is_k_full, False, True, False)",  # noqa: E501
             globals=globals,
             label=label,
             sub_label=sub_label,
             description="gptq_marlin_gemm_fp32",
-        ).blocked_autorange(min_run_time=min_run_time))
+        ).blocked_autorange(min_run_time=min_run_time)
+    )
 
-    if (quant_type in GPTQ_MARLIN_24_SUPPORTED_QUANT_TYPES
-            and group_size in GPTQ_MARLIN_24_SUPPORTED_GROUP_SIZES):
+    if (
+        quant_type in GPTQ_MARLIN_24_SUPPORTED_QUANT_TYPES
+        and group_size in GPTQ_MARLIN_24_SUPPORTED_GROUP_SIZES
+    ):
         results.append(
             benchmark.Timer(
-                stmt=
-                "output = gptq_marlin_24_gemm(a, marlin_24_q_w_comp, marlin_24_meta, marlin_24_s, marlin_24_workspace.scratch, quant_type, size_m, size_n, size_k)",  # noqa: E501
+                stmt="output = gptq_marlin_24_gemm(a, marlin_24_q_w_comp, marlin_24_meta, marlin_24_s, marlin_24_workspace.scratch, quant_type, size_m, size_n, size_k)",  # noqa: E501
                 globals=globals,
                 label=label,
                 sub_label=sub_label,
                 description="gptq_marlin_24_gemm",
-            ).blocked_autorange(min_run_time=min_run_time))
+            ).blocked_autorange(min_run_time=min_run_time)
+        )
 
     results.append(
         benchmark.Timer(
-            stmt=
-            "q_res = gptq_marlin_repack(q_w_gptq, repack_sort_indices, size_k, size_n, quant_type.size_bits)",  # noqa: E501
+            stmt="q_res = gptq_marlin_repack(q_w_gptq, repack_sort_indices, size_k, size_n, quant_type.size_bits)",  # noqa: E501
             globals=globals,
             label=label,
             sub_label=sub_label,
             description="gptq_marlin_repack",
-        ).blocked_autorange(min_run_time=min_run_time))
+        ).blocked_autorange(min_run_time=min_run_time)
+    )
 
     if as_supported_case:
         results.append(
             benchmark.Timer(
-                stmt=
-                "output = allspark_w8a16_gemm(a, qw_reorder, s_reorder, zp_reorder, size_n, group_size, sm_count, sm_version, CUBLAS_M_THRESHOLD, False, True)",  # noqa: E501
+                stmt="output = allspark_w8a16_gemm(a, qw_reorder, s_reorder, zp_reorder, size_n, group_size, sm_count, sm_version, CUBLAS_M_THRESHOLD, False, True)",  # noqa: E501
                 globals=globals,
                 label=label,
                 sub_label=sub_label,
                 description="allspark_w8a16_gemm_fp32",
-            ).blocked_autorange(min_run_time=min_run_time))
+            ).blocked_autorange(min_run_time=min_run_time)
+        )
 
 
 def main(args):
@@ -233,37 +264,50 @@ def main(args):
                 continue
 
             for act_order in ACT_ORDER_OPTS:
-                if len(args.limit_act_order
-                       ) > 0 and act_order not in args.limit_act_order:
+                if (
+                    len(args.limit_act_order) > 0
+                    and act_order not in args.limit_act_order
+                ):
                     continue
 
                 for is_k_full in K_FULL_OPTS:
-                    if len(args.limit_k_full
-                           ) > 0 and is_k_full not in args.limit_k_full:
+                    if (
+                        len(args.limit_k_full) > 0
+                        and is_k_full not in args.limit_k_full
+                    ):
                         continue
 
-                    for quant_type in query_marlin_supported_quant_types(
-                            False):
-                        if len(args.limit_num_bits) > 0 and \
-                            quant_type.size_bits not in args.limit_num_bits:
+                    for quant_type in query_marlin_supported_quant_types(False):
+                        if (
+                            len(args.limit_num_bits) > 0
+                            and quant_type.size_bits not in args.limit_num_bits
+                        ):
                             continue
 
                         for group_size in MARLIN_SUPPORTED_GROUP_SIZES:
-                            if len(
-                                    args.limit_group_size
-                            ) > 0 and group_size not in args.limit_group_size:
+                            if (
+                                len(args.limit_group_size) > 0
+                                and group_size not in args.limit_group_size
+                            ):
                                 continue
 
                             # For act_order, the group_size must be less than
                             # size_k
-                            if act_order and (group_size == size_k
-                                              or group_size == -1):
+                            if act_order and (group_size == size_k or group_size == -1):
                                 continue
 
                             for size_m in args.batch_sizes:
-                                bench_run(results, model, act_order, is_k_full,
-                                          quant_type, group_size, size_m,
-                                          size_k, size_n)
+                                bench_run(
+                                    results,
+                                    model,
+                                    act_order,
+                                    is_k_full,
+                                    quant_type,
+                                    group_size,
+                                    size_m,
+                                    size_k,
+                                    size_n,
+                                )
 
     compare = benchmark.Compare(results)
     compare.print()
@@ -274,7 +318,8 @@ def main(args):
 #
 if __name__ == "__main__":
     parser = FlexibleArgumentParser(
-        description="Benchmark Marlin across specified models/shapes/batches")
+        description="Benchmark Marlin across specified models/shapes/batches"
+    )
     parser.add_argument(
         "--models",
         nargs="+",
@@ -282,10 +327,9 @@ if __name__ == "__main__":
         default=DEFAULT_MODELS,
         choices=WEIGHT_SHAPES.keys(),
     )
-    parser.add_argument("--batch-sizes",
-                        nargs="+",
-                        type=int,
-                        default=DEFAULT_BATCH_SIZES)
+    parser.add_argument(
+        "--batch-sizes", nargs="+", type=int, default=DEFAULT_BATCH_SIZES
+    )
     parser.add_argument("--limit-k", nargs="+", type=int, default=[])
     parser.add_argument("--limit-n", nargs="+", type=int, default=[])
     parser.add_argument("--limit-group-size", nargs="+", type=int, default=[])
diff --git a/benchmarks/kernels/benchmark_moe.py b/benchmarks/kernels/benchmark_moe.py
index 4e328b4d4..c2f766085 100644
--- a/benchmarks/kernels/benchmark_moe.py
+++ b/benchmarks/kernels/benchmark_moe.py
@@ -31,56 +31,60 @@ class BenchmarkConfig(TypedDict):
     num_stages: int
 
 
-def benchmark_config(config: BenchmarkConfig,
-                     num_tokens: int,
-                     num_experts: int,
-                     shard_intermediate_size: int,
-                     hidden_size: int,
-                     topk: int,
-                     dtype: torch.dtype,
-                     use_fp8_w8a8: bool,
-                     use_int8_w8a16: bool,
-                     num_iters: int = 100,
-                     block_quant_shape: List[int] = None,
-                     use_deep_gemm: bool = False) -> float:
+def benchmark_config(
+    config: BenchmarkConfig,
+    num_tokens: int,
+    num_experts: int,
+    shard_intermediate_size: int,
+    hidden_size: int,
+    topk: int,
+    dtype: torch.dtype,
+    use_fp8_w8a8: bool,
+    use_int8_w8a16: bool,
+    num_iters: int = 100,
+    block_quant_shape: List[int] = None,
+    use_deep_gemm: bool = False,
+) -> float:
     init_dtype = torch.float16 if use_fp8_w8a8 else dtype
     x = torch.randn(num_tokens, hidden_size, dtype=dtype)
     if use_int8_w8a16:
-        w1 = torch.randint(-127,
-                           127, (
-                               num_experts,
-                               shard_intermediate_size,
-                               hidden_size,
-                           ),
-                           dtype=torch.int8)
-        w2 = torch.randint(-127,
-                           127, (
-                               num_experts,
-                               hidden_size,
-                               shard_intermediate_size // 2,
-                           ),
-                           dtype=torch.int8)
+        w1 = torch.randint(
+            -127,
+            127,
+            (
+                num_experts,
+                shard_intermediate_size,
+                hidden_size,
+            ),
+            dtype=torch.int8,
+        )
+        w2 = torch.randint(
+            -127,
+            127,
+            (
+                num_experts,
+                hidden_size,
+                shard_intermediate_size // 2,
+            ),
+            dtype=torch.int8,
+        )
     else:
-        w1 = torch.randn(num_experts,
-                         shard_intermediate_size,
-                         hidden_size,
-                         dtype=init_dtype)
-        w2 = torch.randn(num_experts,
-                         hidden_size,
-                         shard_intermediate_size // 2,
-                         dtype=init_dtype)
-    gating_output = torch.randn(num_iters,
-                                num_tokens,
-                                num_experts,
-                                dtype=torch.float32)
+        w1 = torch.randn(
+            num_experts, shard_intermediate_size, hidden_size, dtype=init_dtype
+        )
+        w2 = torch.randn(
+            num_experts, hidden_size, shard_intermediate_size // 2, dtype=init_dtype
+        )
+    gating_output = torch.randn(num_iters, num_tokens, num_experts, dtype=torch.float32)
 
     w1_scale = None
     w2_scale = None
     a1_scale = None
     a2_scale = None
     if use_int8_w8a16:
-        w1_scale = torch.randn((num_experts, 2 * shard_intermediate_size),
-                               dtype=torch.float32)
+        w1_scale = torch.randn(
+            (num_experts, 2 * shard_intermediate_size), dtype=torch.float32
+        )
         w2_scale = torch.randn((hidden_size, num_experts), dtype=torch.float32)
     if use_fp8_w8a8:
         if block_quant_shape:
@@ -93,10 +97,14 @@ def benchmark_config(config: BenchmarkConfig,
             n_tiles_w2 = (K + block_n - 1) // block_n
             k_tiles_w1 = (K + block_k - 1) // block_k
             k_tiles_w2 = (N + block_k - 1) // block_k
-            w1_scale = torch.rand((E, n_tiles_w1, k_tiles_w1),
-                                  dtype=torch.float32) * factor_for_scale
-            w2_scale = torch.rand((E, n_tiles_w2, k_tiles_w2),
-                                  dtype=torch.float32) * factor_for_scale
+            w1_scale = (
+                torch.rand((E, n_tiles_w1, k_tiles_w1), dtype=torch.float32)
+                * factor_for_scale
+            )
+            w2_scale = (
+                torch.rand((E, n_tiles_w2, k_tiles_w2), dtype=torch.float32)
+                * factor_for_scale
+            )
         else:
             w1_scale = torch.randn(num_experts, dtype=torch.float32)
             w2_scale = torch.randn(num_experts, dtype=torch.float32)
@@ -114,10 +122,12 @@ def benchmark_config(config: BenchmarkConfig,
 
     def run():
         from vllm.model_executor.layers.fused_moe import override_config
+
         with override_config(config):
             if use_deep_gemm:
                 topk_weights, topk_ids, token_expert_indices = fused_topk(
-                    x, input_gating, topk, False)
+                    x, input_gating, topk, False
+                )
                 return fused_experts(
                     x,
                     w1,
@@ -213,8 +223,7 @@ def get_rocm_tuning_space(use_fp16):
     return param_ranges
 
 
-def get_configs_compute_bound(use_fp16,
-                              block_quant_shape) -> list[dict[str, int]]:
+def get_configs_compute_bound(use_fp16, block_quant_shape) -> list[dict[str, int]]:
     configs: list[BenchmarkConfig] = []
 
     if current_platform.is_rocm():
@@ -250,20 +259,25 @@ def get_configs_compute_bound(use_fp16,
     if block_quant_shape is not None and not use_fp16:
         block_n, block_k = block_quant_shape[0], block_quant_shape[1]
         for config in configs[:]:
-            if config["BLOCK_SIZE_K"] % block_k != 0 or config[
-                    "BLOCK_SIZE_N"] % block_n != 0:
+            if (
+                config["BLOCK_SIZE_K"] % block_k != 0
+                or config["BLOCK_SIZE_N"] % block_n != 0
+            ):
                 configs.remove(config)
     return configs
 
 
-def prune_rocm_search_space(num_tokens, shard_intermediate_size, hidden_size,
-                            search_space, is_fp16, topk):
+def prune_rocm_search_space(
+    num_tokens, shard_intermediate_size, hidden_size, search_space, is_fp16, topk
+):
     N1, K1 = shard_intermediate_size, hidden_size
     N2, K2 = hidden_size, shard_intermediate_size // 2
-    pruned_space_1 = prune_rocm_configs(num_tokens * topk, N1, K1,
-                                        search_space, is_fp16)
-    pruned_space_2 = prune_rocm_configs(num_tokens * topk, N2, K2,
-                                        search_space, is_fp16)
+    pruned_space_1 = prune_rocm_configs(
+        num_tokens * topk, N1, K1, search_space, is_fp16
+    )
+    pruned_space_2 = prune_rocm_configs(
+        num_tokens * topk, N2, K2, search_space, is_fp16
+    )
     search_space = merge_unique_dicts(pruned_space_1, pruned_space_2)
     return search_space
 
@@ -301,14 +315,14 @@ def prune_rocm_configs(M, N, K, configs, is_fp16=True):
         SPLIT_K = config.get("SPLIT_K", 1)
         GROUP_M = config.get("GROUP_SIZE_M")
         if is_fp16:
-            if (matrix_instr_nonkdim > BLOCK_SIZE_M
-                    or matrix_instr_nonkdim > BLOCK_SIZE_N):
+            if (
+                matrix_instr_nonkdim > BLOCK_SIZE_M
+                or matrix_instr_nonkdim > BLOCK_SIZE_N
+            ):
                 continue
-            if (matrix_instr_nonkdim >= M
-                    and matrix_instr_nonkdim != BLOCK_SIZE_M):
+            if matrix_instr_nonkdim >= M and matrix_instr_nonkdim != BLOCK_SIZE_M:
                 continue
-            if (matrix_instr_nonkdim >= N
-                    and matrix_instr_nonkdim != BLOCK_SIZE_N):
+            if matrix_instr_nonkdim >= N and matrix_instr_nonkdim != BLOCK_SIZE_N:
                 continue
         # Skip BLOCK_SIZE that is too large compare to M/N
         # unless BLOCK_SIZE is already small enough
@@ -329,8 +343,10 @@ def prune_rocm_configs(M, N, K, configs, is_fp16=True):
             continue
         # out of shared memory resource
         # TODO (zhanglx): This does not consider the LDS usage in the epilogue
-        LDS = (BLOCK_SIZE_K * BLOCK_SIZE_M * elemBytes_a +
-               BLOCK_SIZE_K * BLOCK_SIZE_N * elemBytes_b)
+        LDS = (
+            BLOCK_SIZE_K * BLOCK_SIZE_M * elemBytes_a
+            + BLOCK_SIZE_K * BLOCK_SIZE_N * elemBytes_b
+        )
         if LDS > 65536:
             continue
         # Skip small block sizes and num_warps for large gemm
@@ -364,7 +380,6 @@ def merge_unique_dicts(list1, list2):
 
 @ray.remote(num_gpus=1)
 class BenchmarkWorker:
-
     def __init__(self, seed: int) -> None:
         torch.set_default_device("cuda")
         current_platform.seed_everything(seed)
@@ -388,36 +403,40 @@ class BenchmarkWorker:
         use_deep_gemm: bool = False,
     ) -> tuple[dict[str, int], float]:
         current_platform.seed_everything(self.seed)
-        dtype_str = get_config_dtype_str(dtype,
-                                         use_int8_w8a16=use_int8_w8a16,
-                                         use_fp8_w8a8=use_fp8_w8a8)
+        dtype_str = get_config_dtype_str(
+            dtype, use_int8_w8a16=use_int8_w8a16, use_fp8_w8a8=use_fp8_w8a8
+        )
         # NOTE(woosuk): The current naming convention uses w2.shape[2], which
         # is the intermediate size after silu_and_mul.
-        op_config = get_moe_configs(num_experts, shard_intermediate_size // 2,
-                                    dtype_str)
+        op_config = get_moe_configs(
+            num_experts, shard_intermediate_size // 2, dtype_str
+        )
         if op_config is None:
-            config = get_default_config(num_tokens,
-                                        num_experts,
-                                        shard_intermediate_size,
-                                        hidden_size,
-                                        topk,
-                                        dtype_str,
-                                        is_marlin=False)
+            config = get_default_config(
+                num_tokens,
+                num_experts,
+                shard_intermediate_size,
+                hidden_size,
+                topk,
+                dtype_str,
+                is_marlin=False,
+            )
         else:
-            config = op_config[min(op_config.keys(),
-                                   key=lambda x: abs(x - num_tokens))]
-        kernel_time = benchmark_config(config,
-                                       num_tokens,
-                                       num_experts,
-                                       shard_intermediate_size,
-                                       hidden_size,
-                                       topk,
-                                       dtype,
-                                       use_fp8_w8a8,
-                                       use_int8_w8a16,
-                                       num_iters=100,
-                                       block_quant_shape=block_quant_shape,
-                                       use_deep_gemm=use_deep_gemm)
+            config = op_config[min(op_config.keys(), key=lambda x: abs(x - num_tokens))]
+        kernel_time = benchmark_config(
+            config,
+            num_tokens,
+            num_experts,
+            shard_intermediate_size,
+            hidden_size,
+            topk,
+            dtype,
+            use_fp8_w8a8,
+            use_int8_w8a16,
+            num_iters=100,
+            block_quant_shape=block_quant_shape,
+            use_deep_gemm=use_deep_gemm,
+        )
         return config, kernel_time
 
     def tune(
@@ -438,10 +457,14 @@ class BenchmarkWorker:
         best_time = float("inf")
         if current_platform.is_rocm():
             is_fp16 = not (use_fp8_w8a8 or use_int8_w8a16)
-            search_space = prune_rocm_search_space(num_tokens,
-                                                   shard_intermediate_size,
-                                                   hidden_size, search_space,
-                                                   is_fp16, topk)
+            search_space = prune_rocm_search_space(
+                num_tokens,
+                shard_intermediate_size,
+                hidden_size,
+                search_space,
+                is_fp16,
+                topk,
+            )
 
         need_device_guard = False
         if current_platform.is_rocm():
@@ -449,8 +472,7 @@ class BenchmarkWorker:
             if visible_device != f"{self.device_id}":
                 need_device_guard = True
 
-        with torch.cuda.device(
-                self.device_id) if need_device_guard else nullcontext():
+        with torch.cuda.device(self.device_id) if need_device_guard else nullcontext():
             for config in tqdm(search_space):
                 try:
                     kernel_time = benchmark_config(
@@ -465,7 +487,8 @@ class BenchmarkWorker:
                         use_int8_w8a16,
                         num_iters=20,
                         block_quant_shape=block_quant_shape,
-                        use_deep_gemm=use_deep_gemm)
+                        use_deep_gemm=use_deep_gemm,
+                    )
                 except triton.runtime.autotuner.OutOfResources:
                     # Some configurations may be invalid and fail to compile.
                     continue
@@ -481,42 +504,44 @@ class BenchmarkWorker:
 
 def sort_config(config: BenchmarkConfig) -> BenchmarkConfig:
     return {
-        "BLOCK_SIZE_M":
-        config["BLOCK_SIZE_M"],
-        "BLOCK_SIZE_N":
-        config["BLOCK_SIZE_N"],
-        "BLOCK_SIZE_K":
-        config["BLOCK_SIZE_K"],
-        "GROUP_SIZE_M":
-        config["GROUP_SIZE_M"],
-        "num_warps":
-        config["num_warps"],
-        "num_stages":
-        config["num_stages"],
-        **({
-            "waves_per_eu": config["waves_per_eu"]
-        } if "waves_per_eu" in config else {}),
-        **({
-            "matrix_instr_nonkdim": config["matrix_instr_nonkdim"]
-        } if "matrix_instr_nonkdim" in config else {}),
-        **({
-            "kpack": config["kpack"]
-        } if "kpack" in config else {}),
+        "BLOCK_SIZE_M": config["BLOCK_SIZE_M"],
+        "BLOCK_SIZE_N": config["BLOCK_SIZE_N"],
+        "BLOCK_SIZE_K": config["BLOCK_SIZE_K"],
+        "GROUP_SIZE_M": config["GROUP_SIZE_M"],
+        "num_warps": config["num_warps"],
+        "num_stages": config["num_stages"],
+        **(
+            {"waves_per_eu": config["waves_per_eu"]} if "waves_per_eu" in config else {}
+        ),
+        **(
+            {"matrix_instr_nonkdim": config["matrix_instr_nonkdim"]}
+            if "matrix_instr_nonkdim" in config
+            else {}
+        ),
+        **({"kpack": config["kpack"]} if "kpack" in config else {}),
     }
 
 
-def save_configs(configs: dict[int, BenchmarkConfig], num_experts: int,
-                 shard_intermediate_size: int, hidden_size: int, topk: int,
-                 dtype: torch.dtype, use_fp8_w8a8: bool, use_int8_w8a16: bool,
-                 block_quant_shape: List[int]) -> None:
-    dtype_str = get_config_dtype_str(dtype,
-                                     use_int8_w8a16=use_int8_w8a16,
-                                     use_fp8_w8a8=use_fp8_w8a8)
+def save_configs(
+    configs: dict[int, BenchmarkConfig],
+    num_experts: int,
+    shard_intermediate_size: int,
+    hidden_size: int,
+    topk: int,
+    dtype: torch.dtype,
+    use_fp8_w8a8: bool,
+    use_int8_w8a16: bool,
+    block_quant_shape: List[int],
+) -> None:
+    dtype_str = get_config_dtype_str(
+        dtype, use_int8_w8a16=use_int8_w8a16, use_fp8_w8a8=use_fp8_w8a8
+    )
 
     # NOTE(woosuk): The current naming convention uses w2.shape[2], which
     # is the intermediate size after silu_and_mul.
-    filename = get_config_file_name(num_experts, shard_intermediate_size // 2,
-                                    dtype_str, block_quant_shape)
+    filename = get_config_file_name(
+        num_experts, shard_intermediate_size // 2, dtype_str, block_quant_shape
+    )
 
     print(f"Writing best config to {filename}...")
     with open(filename, "w") as f:
@@ -525,18 +550,16 @@ def save_configs(configs: dict[int, BenchmarkConfig], num_experts: int,
 
 
 def get_weight_block_size_safety(config, default_value=None):
-
-    quantization_config = getattr(config, 'quantization_config', {})
+    quantization_config = getattr(config, "quantization_config", {})
     if isinstance(quantization_config, dict):
-        return quantization_config.get('weight_block_size', default_value)
+        return quantization_config.get("weight_block_size", default_value)
     return default_value
 
 
 def main(args: argparse.Namespace):
     print(args)
 
-    config = get_config(model=args.model,
-                        trust_remote_code=args.trust_remote_code)
+    config = get_config(model=args.model, trust_remote_code=args.trust_remote_code)
     if args.model_prefix:
         config = getattr(config, args.model_prefix)
     config = SimpleNamespace(**config)
@@ -551,14 +574,12 @@ def main(args: argparse.Namespace):
         topk = config.num_experts_per_tok
         intermediate_size = config.intermediate_size
         shard_intermediate_size = 2 * intermediate_size // args.tp_size
-    elif (config.architectures[0]
-          in ("DeepseekV3ForCausalLM", "DeepseekV2ForCausalLM")):
+    elif config.architectures[0] in ("DeepseekV3ForCausalLM", "DeepseekV2ForCausalLM"):
         E = config.n_routed_experts
         topk = config.num_experts_per_tok
         intermediate_size = config.moe_intermediate_size
         shard_intermediate_size = 2 * intermediate_size // args.tp_size
-    elif config.architectures[0] in ("Qwen2MoeForCausalLM",
-                                     "Qwen3MoeForCausalLM"):
+    elif config.architectures[0] in ("Qwen2MoeForCausalLM", "Qwen3MoeForCausalLM"):
         E = config.num_experts
         topk = config.num_experts_per_tok
         intermediate_size = config.moe_intermediate_size
@@ -573,16 +594,35 @@ def main(args: argparse.Namespace):
         shard_intermediate_size = 2 * intermediate_size // args.tp_size
 
     hidden_size = config.hidden_size
-    dtype = torch.float16 if current_platform.is_rocm() else getattr(
-        torch, config.torch_dtype)
+    dtype = (
+        torch.float16
+        if current_platform.is_rocm()
+        else getattr(torch, config.torch_dtype)
+    )
     use_fp8_w8a8 = args.dtype == "fp8_w8a8"
     use_int8_w8a16 = args.dtype == "int8_w8a16"
     block_quant_shape = get_weight_block_size_safety(config)
 
     if args.batch_size is None:
         batch_sizes = [
-            1, 2, 4, 8, 16, 24, 32, 48, 64, 96, 128, 256, 512, 1024, 1536,
-            2048, 3072, 4096
+            1,
+            2,
+            4,
+            8,
+            16,
+            24,
+            32,
+            48,
+            64,
+            96,
+            128,
+            256,
+            512,
+            1024,
+            1536,
+            2048,
+            3072,
+            4096,
         ]
     else:
         batch_sizes = [args.batch_size]
@@ -593,7 +633,8 @@ def main(args: argparse.Namespace):
         # Ray will set ROCR_VISIBLE_DEVICES for device visibility
         logger.warning(
             "Ray uses ROCR_VISIBLE_DEVICES to control device accessibility."
-            "Replacing HIP_VISIBLE_DEVICES with ROCR_VISIBLE_DEVICES.")
+            "Replacing HIP_VISIBLE_DEVICES with ROCR_VISIBLE_DEVICES."
+        )
         val = os.environ["HIP_VISIBLE_DEVICES"]
         os.environ["ROCR_VISIBLE_DEVICES"] = val
         del os.environ["HIP_VISIBLE_DEVICES"]
@@ -620,25 +661,59 @@ def main(args: argparse.Namespace):
 
         start = time.time()
         configs = _distribute(
-            "tune", [(batch_size, E, shard_intermediate_size, hidden_size,
-                      topk, dtype, use_fp8_w8a8, use_int8_w8a16, search_space,
-                      block_quant_shape, use_deep_gemm)
-                     for batch_size in batch_sizes])
+            "tune",
+            [
+                (
+                    batch_size,
+                    E,
+                    shard_intermediate_size,
+                    hidden_size,
+                    topk,
+                    dtype,
+                    use_fp8_w8a8,
+                    use_int8_w8a16,
+                    search_space,
+                    block_quant_shape,
+                    use_deep_gemm,
+                )
+                for batch_size in batch_sizes
+            ],
+        )
         best_configs = {
-            M: sort_config(config)
-            for M, config in zip(batch_sizes, configs)
+            M: sort_config(config) for M, config in zip(batch_sizes, configs)
         }
-        save_configs(best_configs, E, shard_intermediate_size, hidden_size,
-                     topk, dtype, use_fp8_w8a8, use_int8_w8a16,
-                     block_quant_shape)
+        save_configs(
+            best_configs,
+            E,
+            shard_intermediate_size,
+            hidden_size,
+            topk,
+            dtype,
+            use_fp8_w8a8,
+            use_int8_w8a16,
+            block_quant_shape,
+        )
         end = time.time()
         print(f"Tuning took {end - start:.2f} seconds")
     else:
         outputs = _distribute(
             "benchmark",
-            [(batch_size, E, shard_intermediate_size, hidden_size, topk, dtype,
-              use_fp8_w8a8, use_int8_w8a16, block_quant_shape, use_deep_gemm)
-             for batch_size in batch_sizes])
+            [
+                (
+                    batch_size,
+                    E,
+                    shard_intermediate_size,
+                    hidden_size,
+                    topk,
+                    dtype,
+                    use_fp8_w8a8,
+                    use_int8_w8a16,
+                    block_quant_shape,
+                    use_deep_gemm,
+                )
+                for batch_size in batch_sizes
+            ],
+        )
 
         for batch_size, (config, kernel_time) in zip(batch_sizes, outputs):
             print(f"Batch size: {batch_size}, config: {config}")
@@ -647,18 +722,15 @@ def main(args: argparse.Namespace):
 
 if __name__ == "__main__":
     parser = FlexibleArgumentParser()
-    parser.add_argument("--model",
-                        type=str,
-                        default="mistralai/Mixtral-8x7B-Instruct-v0.1")
-    parser.add_argument("--tp-size",
-                        "-tp",
-                        "--tensor-parallel-size",
-                        type=int,
-                        default=2)
-    parser.add_argument("--dtype",
-                        type=str,
-                        choices=["auto", "fp8_w8a8", "int8_w8a16"],
-                        default="auto")
+    parser.add_argument(
+        "--model", type=str, default="mistralai/Mixtral-8x7B-Instruct-v0.1"
+    )
+    parser.add_argument(
+        "--tp-size", "-tp", "--tensor-parallel-size", type=int, default=2
+    )
+    parser.add_argument(
+        "--dtype", type=str, choices=["auto", "fp8_w8a8", "int8_w8a16"], default="auto"
+    )
     parser.add_argument("--use-deep-gemm", action="store_true")
     parser.add_argument("--seed", type=int, default=0)
     parser.add_argument("--batch-size", type=int, required=False)
diff --git a/benchmarks/kernels/benchmark_moe_permute_unpermute.py b/benchmarks/kernels/benchmark_moe_permute_unpermute.py
index 937df9624..333986fdf 100644
--- a/benchmarks/kernels/benchmark_moe_permute_unpermute.py
+++ b/benchmarks/kernels/benchmark_moe_permute_unpermute.py
@@ -8,7 +8,9 @@ import torch
 from transformers import AutoConfig
 
 from vllm.model_executor.layers.fused_moe.deep_gemm_moe import (
-    _moe_permute, _moe_unpermute_and_reduce)
+    _moe_permute,
+    _moe_unpermute_and_reduce,
+)
 from vllm.model_executor.layers.fused_moe.fused_moe import *
 from vllm.model_executor.layers.fused_moe.moe_permute_unpermute import *
 from vllm.model_executor.layers.fused_moe.utils import _fp8_quantize
@@ -27,15 +29,17 @@ class BenchmarkConfig(TypedDict):
     num_stages: int
 
 
-def benchmark_permute(num_tokens: int,
-                      num_experts: int,
-                      hidden_size: int,
-                      topk: int,
-                      dtype: torch.dtype,
-                      use_fp8_w8a8: bool,
-                      use_int8_w8a16: bool,
-                      num_iters: int = 100,
-                      use_customized_permute: bool = False) -> float:
+def benchmark_permute(
+    num_tokens: int,
+    num_experts: int,
+    hidden_size: int,
+    topk: int,
+    dtype: torch.dtype,
+    use_fp8_w8a8: bool,
+    use_int8_w8a16: bool,
+    num_iters: int = 100,
+    use_customized_permute: bool = False,
+) -> float:
     # init_dtype = torch.float16 if use_fp8_w8a8 else dtype
     hidden_states = torch.randn(num_tokens, hidden_size, dtype=dtype)
     # output_hidden_states = torch.empty_like(hidden_states)
@@ -46,36 +50,41 @@ def benchmark_permute(num_tokens: int,
         align_block_size = None
         qhidden_states = hidden_states
 
-    gating_output = torch.randn(num_iters,
-                                num_tokens,
-                                num_experts,
-                                dtype=torch.float32)
+    gating_output = torch.randn(num_iters, num_tokens, num_experts, dtype=torch.float32)
 
     input_gating = torch.randn(num_tokens, num_experts, dtype=torch.float32)
     topk_weights, topk_ids, token_expert_indices = fused_topk(
-        qhidden_states, input_gating, topk, False)
+        qhidden_states, input_gating, topk, False
+    )
 
     def prepare(i: int):
         input_gating.copy_(gating_output[i])
 
     def run():
         if use_customized_permute:
-            (permuted_hidden_states, first_token_off, inv_perm_idx,
-             m_indices) = moe_permute(
-                 qhidden_states,
-                 topk_weights=topk_weights,
-                 topk_ids=topk_ids,
-                 token_expert_indices=token_expert_indices,
-                 topk=topk,
-                 n_expert=num_experts,
-                 n_local_expert=num_experts,
-                 expert_map=None,
-                 align_block_size=align_block_size,
-             )
+            (permuted_hidden_states, first_token_off, inv_perm_idx, m_indices) = (
+                moe_permute(
+                    qhidden_states,
+                    topk_weights=topk_weights,
+                    topk_ids=topk_ids,
+                    token_expert_indices=token_expert_indices,
+                    topk=topk,
+                    n_expert=num_experts,
+                    n_local_expert=num_experts,
+                    expert_map=None,
+                    align_block_size=align_block_size,
+                )
+            )
         else:
-            (permuted_hidden_states, a1q_scale, sorted_token_ids, expert_ids,
-             inv_perm) = _moe_permute(qhidden_states, None, topk_ids,
-                                      num_experts, None, align_block_size)
+            (
+                permuted_hidden_states,
+                a1q_scale,
+                sorted_token_ids,
+                expert_ids,
+                inv_perm,
+            ) = _moe_permute(
+                qhidden_states, None, topk_ids, num_experts, None, align_block_size
+            )
 
     # JIT compilation & warmup
     run()
@@ -111,15 +120,17 @@ def benchmark_permute(num_tokens: int,
     return avg
 
 
-def benchmark_unpermute(num_tokens: int,
-                        num_experts: int,
-                        hidden_size: int,
-                        topk: int,
-                        dtype: torch.dtype,
-                        use_fp8_w8a8: bool,
-                        use_int8_w8a16: bool,
-                        num_iters: int = 100,
-                        use_customized_permute: bool = False) -> float:
+def benchmark_unpermute(
+    num_tokens: int,
+    num_experts: int,
+    hidden_size: int,
+    topk: int,
+    dtype: torch.dtype,
+    use_fp8_w8a8: bool,
+    use_int8_w8a16: bool,
+    num_iters: int = 100,
+    use_customized_permute: bool = False,
+) -> float:
     # init_dtype = torch.float16 if use_fp8_w8a8 else dtype
     hidden_states = torch.randn(num_tokens, hidden_size, dtype=dtype)
     output_hidden_states = torch.empty_like(hidden_states)
@@ -133,46 +144,74 @@ def benchmark_unpermute(num_tokens: int,
     input_gating = torch.randn(num_tokens, num_experts, dtype=torch.float32)
 
     topk_weights, topk_ids, token_expert_indices = fused_topk(
-        qhidden_states, input_gating, topk, False)
+        qhidden_states, input_gating, topk, False
+    )
 
     def prepare():
         if use_customized_permute:
-            (permuted_hidden_states, first_token_off, inv_perm_idx,
-             m_indices) = moe_permute(
-                 qhidden_states,
-                 topk_weights=topk_weights,
-                 topk_ids=topk_ids,
-                 token_expert_indices=token_expert_indices,
-                 topk=topk,
-                 n_expert=num_experts,
-                 n_local_expert=num_experts,
-                 expert_map=None,
-                 align_block_size=align_block_size,
-             )
+            (permuted_hidden_states, first_token_off, inv_perm_idx, m_indices) = (
+                moe_permute(
+                    qhidden_states,
+                    topk_weights=topk_weights,
+                    topk_ids=topk_ids,
+                    token_expert_indices=token_expert_indices,
+                    topk=topk,
+                    n_expert=num_experts,
+                    n_local_expert=num_experts,
+                    expert_map=None,
+                    align_block_size=align_block_size,
+                )
+            )
             # convert to fp16/bf16 as gemm output
-            return (permuted_hidden_states.to(dtype), first_token_off,
-                    inv_perm_idx, m_indices)
+            return (
+                permuted_hidden_states.to(dtype),
+                first_token_off,
+                inv_perm_idx,
+                m_indices,
+            )
         else:
-            (permuted_qhidden_states, a1q_scale, sorted_token_ids, expert_ids,
-             inv_perm) = _moe_permute(qhidden_states, None, topk_ids,
-                                      num_experts, None, align_block_size)
+            (
+                permuted_qhidden_states,
+                a1q_scale,
+                sorted_token_ids,
+                expert_ids,
+                inv_perm,
+            ) = _moe_permute(
+                qhidden_states, None, topk_ids, num_experts, None, align_block_size
+            )
             # convert to fp16/bf16 as gemm output
-            return (permuted_qhidden_states.to(dtype), a1q_scale,
-                    sorted_token_ids, expert_ids, inv_perm)
+            return (
+                permuted_qhidden_states.to(dtype),
+                a1q_scale,
+                sorted_token_ids,
+                expert_ids,
+                inv_perm,
+            )
 
     def run(input: tuple):
         if use_customized_permute:
-            (permuted_hidden_states, first_token_off, inv_perm_idx,
-             m_indices) = input
-            moe_unpermute(permuted_hidden_states, topk_weights, topk_ids,
-                          inv_perm_idx, first_token_off, topk, num_experts,
-                          num_experts)
+            (permuted_hidden_states, first_token_off, inv_perm_idx, m_indices) = input
+            moe_unpermute(
+                permuted_hidden_states,
+                topk_weights,
+                topk_ids,
+                inv_perm_idx,
+                first_token_off,
+                topk,
+                num_experts,
+                num_experts,
+            )
         else:
-            (permuted_hidden_states, a1q_scale, sorted_token_ids, expert_ids,
-             inv_perm) = input
-            _moe_unpermute_and_reduce(output_hidden_states,
-                                      permuted_hidden_states, inv_perm,
-                                      topk_weights)
+            (
+                permuted_hidden_states,
+                a1q_scale,
+                sorted_token_ids,
+                expert_ids,
+                inv_perm,
+            ) = input
+            _moe_unpermute_and_reduce(
+                output_hidden_states, permuted_hidden_states, inv_perm, topk_weights
+            )
 
     # JIT compilation & warmup
     input = prepare()
@@ -209,7 +248,6 @@ def benchmark_unpermute(num_tokens: int,
 
 @ray.remote(num_gpus=1)
 class BenchmarkWorker:
-
     def __init__(self, seed: int) -> None:
         torch.set_default_device("cuda")
         current_platform.seed_everything(seed)
@@ -241,7 +279,8 @@ class BenchmarkWorker:
             use_fp8_w8a8,
             use_int8_w8a16,
             num_iters=100,
-            use_customized_permute=use_customized_permute)
+            use_customized_permute=use_customized_permute,
+        )
         unpermute_time = benchmark_unpermute(
             num_tokens,
             num_experts,
@@ -251,15 +290,15 @@ class BenchmarkWorker:
             use_fp8_w8a8,
             use_int8_w8a16,
             num_iters=100,
-            use_customized_permute=use_customized_permute)
+            use_customized_permute=use_customized_permute,
+        )
         return permute_time, unpermute_time
 
 
 def get_weight_block_size_safety(config, default_value=None):
-
-    quantization_config = getattr(config, 'quantization_config', {})
+    quantization_config = getattr(config, "quantization_config", {})
     if isinstance(quantization_config, dict):
-        return quantization_config.get('weight_block_size', default_value)
+        return quantization_config.get("weight_block_size", default_value)
     return default_value
 
 
@@ -267,20 +306,21 @@ def main(args: argparse.Namespace):
     print(args)
 
     config = AutoConfig.from_pretrained(
-        args.model, trust_remote_code=args.trust_remote_code)
+        args.model, trust_remote_code=args.trust_remote_code
+    )
     if config.architectures[0] == "DbrxForCausalLM":
         E = config.ffn_config.moe_num_experts
         topk = config.ffn_config.moe_top_k
     elif config.architectures[0] == "JambaForCausalLM":
         E = config.num_experts
         topk = config.num_experts_per_tok
-    elif (config.architectures[0] == "DeepseekV3ForCausalLM"
-          or config.architectures[0] == "DeepseekV2ForCausalLM"):
+    elif (
+        config.architectures[0] == "DeepseekV3ForCausalLM"
+        or config.architectures[0] == "DeepseekV2ForCausalLM"
+    ):
         E = config.n_routed_experts
         topk = config.num_experts_per_tok
-    elif config.architectures[0] in [
-            "Qwen2MoeForCausalLM", "Qwen3MoeForCausalLM"
-    ]:
+    elif config.architectures[0] in ["Qwen2MoeForCausalLM", "Qwen3MoeForCausalLM"]:
         E = config.num_experts
         topk = config.num_experts_per_tok
 
@@ -299,8 +339,24 @@ def main(args: argparse.Namespace):
 
     if args.batch_size is None:
         batch_sizes = [
-            1, 2, 4, 8, 16, 24, 32, 48, 64, 96, 128, 256, 512, 1024, 1536,
-            2048, 3072, 4096
+            1,
+            2,
+            4,
+            8,
+            16,
+            24,
+            32,
+            48,
+            64,
+            96,
+            128,
+            256,
+            512,
+            1024,
+            1536,
+            2048,
+            3072,
+            4096,
         ]
     else:
         batch_sizes = [args.batch_size]
@@ -321,9 +377,21 @@ def main(args: argparse.Namespace):
         return ray.get(outputs)
 
     outputs = _distribute(
-        "benchmark", [(batch_size, E, hidden_size, topk, dtype, use_fp8_w8a8,
-                       use_int8_w8a16, use_customized_permute)
-                      for batch_size in batch_sizes])
+        "benchmark",
+        [
+            (
+                batch_size,
+                E,
+                hidden_size,
+                topk,
+                dtype,
+                use_fp8_w8a8,
+                use_int8_w8a16,
+                use_customized_permute,
+            )
+            for batch_size in batch_sizes
+        ],
+    )
 
     for batch_size, (permute, unpermute) in zip(batch_sizes, outputs):
         print(f"Batch size: {batch_size}")
@@ -333,13 +401,12 @@ def main(args: argparse.Namespace):
 
 if __name__ == "__main__":
     parser = FlexibleArgumentParser()
-    parser.add_argument("--model",
-                        type=str,
-                        default="mistralai/Mixtral-8x7B-Instruct-v0.1")
-    parser.add_argument("--dtype",
-                        type=str,
-                        choices=["auto", "fp8_w8a8", "int8_w8a16"],
-                        default="auto")
+    parser.add_argument(
+        "--model", type=str, default="mistralai/Mixtral-8x7B-Instruct-v0.1"
+    )
+    parser.add_argument(
+        "--dtype", type=str, choices=["auto", "fp8_w8a8", "int8_w8a16"], default="auto"
+    )
     parser.add_argument("--use-customized-permute", action="store_true")
     parser.add_argument("--seed", type=int, default=0)
     parser.add_argument("--batch-size", type=int, required=False)
diff --git a/benchmarks/kernels/benchmark_paged_attention.py b/benchmarks/kernels/benchmark_paged_attention.py
index 2625239b0..17432159c 100644
--- a/benchmarks/kernels/benchmark_paged_attention.py
+++ b/benchmarks/kernels/benchmark_paged_attention.py
@@ -9,8 +9,11 @@ import torch
 from vllm import _custom_ops as ops
 from vllm.logger import init_logger
 from vllm.platforms import current_platform
-from vllm.utils import (STR_DTYPE_TO_TORCH_DTYPE, FlexibleArgumentParser,
-                        create_kv_caches_with_random)
+from vllm.utils import (
+    STR_DTYPE_TO_TORCH_DTYPE,
+    FlexibleArgumentParser,
+    create_kv_caches_with_random,
+)
 
 logger = init_logger(__name__)
 
@@ -38,19 +41,15 @@ def main(
     current_platform.seed_everything(seed)
 
     scale = float(1.0 / (head_size**0.5))
-    query = torch.empty(num_seqs,
-                        num_query_heads,
-                        head_size,
-                        dtype=dtype,
-                        device=device)
+    query = torch.empty(
+        num_seqs, num_query_heads, head_size, dtype=dtype, device=device
+    )
     query.uniform_(-scale, scale)
 
     assert num_query_heads % num_kv_heads == 0
     alibi_slopes = None
     if use_alibi:
-        alibi_slopes = torch.randn(num_query_heads,
-                                   dtype=torch.float,
-                                   device=device)
+        alibi_slopes = torch.randn(num_query_heads, dtype=torch.float, device=device)
 
     seq_lens = [seq_len for _ in range(num_seqs)]
     max_seq_len = max(seq_lens)
@@ -61,24 +60,23 @@ def main(
     block_tables_lst: list[list[int]] = []
     for _ in range(num_seqs):
         block_table = [
-            random.randint(0, NUM_BLOCKS - 1)
-            for _ in range(max_num_blocks_per_seq)
+            random.randint(0, NUM_BLOCKS - 1) for _ in range(max_num_blocks_per_seq)
         ]
         block_tables_lst.append(block_table)
 
-    block_tables = torch.tensor(block_tables_lst,
-                                dtype=torch.int,
-                                device=device)
+    block_tables = torch.tensor(block_tables_lst, dtype=torch.int, device=device)
 
     # Create the KV cache.
-    key_caches, value_caches = create_kv_caches_with_random(NUM_BLOCKS,
-                                                            block_size,
-                                                            1,
-                                                            num_kv_heads,
-                                                            head_size,
-                                                            kv_cache_dtype,
-                                                            dtype,
-                                                            device=device)
+    key_caches, value_caches = create_kv_caches_with_random(
+        NUM_BLOCKS,
+        block_size,
+        1,
+        num_kv_heads,
+        head_size,
+        kv_cache_dtype,
+        dtype,
+        device=device,
+    )
     key_cache, value_cache = key_caches[0], value_caches[0]
 
     # Prepare for the paged attention kernel.
@@ -86,11 +84,8 @@ def main(
     if version == "v2":
         if current_platform.is_rocm():
             global PARTITION_SIZE
-            if not args.custom_paged_attn:
-                PARTITION_SIZE = 1024
-            else:
-                PARTITION_SIZE = PARTITION_SIZE_ROCM
-        num_partitions = ((max_seq_len + PARTITION_SIZE - 1) // PARTITION_SIZE)
+            PARTITION_SIZE = 1024 if not args.custom_paged_attn else PARTITION_SIZE_ROCM
+        num_partitions = (max_seq_len + PARTITION_SIZE - 1) // PARTITION_SIZE
         tmp_output = torch.empty(
             size=(num_seqs, num_query_heads, num_partitions, head_size),
             dtype=output.dtype,
@@ -110,9 +105,7 @@ def main(
         start_time = time.perf_counter()
 
         # Using default kv_scale
-        k_scale = v_scale = torch.tensor(1.0,
-                                         dtype=torch.float32,
-                                         device=device)
+        k_scale = v_scale = torch.tensor(1.0, dtype=torch.float32, device=device)
 
         for _ in range(num_iters):
             if version == "v1":
@@ -195,30 +188,29 @@ def main(
     print(f"Kernel running time: {latency * 1000000:.3f} us")
 
 
-if __name__ == '__main__':
-    logger.warning("This script benchmarks the paged attention kernel. "
-                   "By default this is no longer used in vLLM inference.")
+if __name__ == "__main__":
+    logger.warning(
+        "This script benchmarks the paged attention kernel. "
+        "By default this is no longer used in vLLM inference."
+    )
 
-    parser = FlexibleArgumentParser(
-        description="Benchmark the paged attention kernel.")
-    parser.add_argument("--version",
-                        type=str,
-                        choices=["v1", "v2"],
-                        default="v2")
+    parser = FlexibleArgumentParser(description="Benchmark the paged attention kernel.")
+    parser.add_argument("--version", type=str, choices=["v1", "v2"], default="v2")
     parser.add_argument("--batch-size", type=int, default=8)
     parser.add_argument("--seq-len", type=int, default=4096)
     parser.add_argument("--num-query-heads", type=int, default=64)
     parser.add_argument("--num-kv-heads", type=int, default=8)
-    parser.add_argument("--head-size",
-                        type=int,
-                        choices=[64, 80, 96, 112, 120, 128, 192, 256],
-                        default=128)
+    parser.add_argument(
+        "--head-size",
+        type=int,
+        choices=[64, 80, 96, 112, 120, 128, 192, 256],
+        default=128,
+    )
     parser.add_argument("--block-size", type=int, choices=[16, 32], default=16)
     parser.add_argument("--use-alibi", action="store_true")
-    parser.add_argument("--dtype",
-                        type=str,
-                        choices=["half", "bfloat16", "float"],
-                        default="half")
+    parser.add_argument(
+        "--dtype", type=str, choices=["half", "bfloat16", "float"], default="half"
+    )
     parser.add_argument("--seed", type=int, default=0)
     parser.add_argument("--profile", action="store_true")
     parser.add_argument(
@@ -228,10 +220,11 @@ if __name__ == '__main__':
         default="auto",
         help="Data type for kv cache storage. If 'auto', will use model "
         "data type. CUDA 11.8+ supports fp8 (=fp8_e4m3) and fp8_e5m2. "
-        "ROCm (AMD GPU) supports fp8 (=fp8_e4m3)")
-    parser.add_argument("--custom-paged-attn",
-                        action="store_true",
-                        help="Use custom paged attention")
+        "ROCm (AMD GPU) supports fp8 (=fp8_e4m3)",
+    )
+    parser.add_argument(
+        "--custom-paged-attn", action="store_true", help="Use custom paged attention"
+    )
     args = parser.parse_args()
     print(args)
 
diff --git a/benchmarks/kernels/benchmark_quant.py b/benchmarks/kernels/benchmark_quant.py
index b643897a6..2463dfebe 100644
--- a/benchmarks/kernels/benchmark_quant.py
+++ b/benchmarks/kernels/benchmark_quant.py
@@ -10,15 +10,17 @@ from vllm.utils import STR_DTYPE_TO_TORCH_DTYPE, FlexibleArgumentParser
 
 
 @torch.inference_mode()
-def main(num_tokens: int,
-         hidden_size: int,
-         static_scale: bool,
-         quant_dtype: torch.dtype,
-         dtype: torch.dtype,
-         seed: int = 0,
-         do_profile: bool = False,
-         num_warmup_iters: int = 5,
-         num_iters: int = 100) -> None:
+def main(
+    num_tokens: int,
+    hidden_size: int,
+    static_scale: bool,
+    quant_dtype: torch.dtype,
+    dtype: torch.dtype,
+    seed: int = 0,
+    do_profile: bool = False,
+    num_warmup_iters: int = 5,
+    num_iters: int = 100,
+) -> None:
     current_platform.seed_everything(seed)
     torch.set_default_device("cuda")
 
@@ -56,7 +58,7 @@ def main(num_tokens: int,
     print(f"Kernel running time: {latency * 1000000:.3f} us")
 
 
-if __name__ == '__main__':
+if __name__ == "__main__":
 
     def to_torch_dtype(dt):
         if dt == "int8":
@@ -66,37 +68,40 @@ if __name__ == '__main__':
         raise ValueError(f"Unsupported dtype: {dt}")
 
     parser = FlexibleArgumentParser(
-        description="Benchmark the quantization (fp8 or int8) kernel.")
+        description="Benchmark the quantization (fp8 or int8) kernel."
+    )
     parser.add_argument("--num-tokens", type=int, default=4096)
     parser.add_argument("--hidden-size", type=int, default=8192)
     parser.add_argument("--static-scale", action="store_true")
-    parser.add_argument("--quant-dtype",
-                        type=str,
-                        choices=["fp8", "int8"],
-                        default="int8")
-    parser.add_argument("--dtype",
-                        type=str,
-                        choices=["half", "bfloat16", "float"],
-                        default="half")
+    parser.add_argument(
+        "--quant-dtype", type=str, choices=["fp8", "int8"], default="int8"
+    )
+    parser.add_argument(
+        "--dtype", type=str, choices=["half", "bfloat16", "float"], default="half"
+    )
 
     parser.add_argument("--seed", type=int, default=0)
     parser.add_argument("--profile", action="store_true")
     parser.add_argument("--num-warmup-iters", type=int, default=5)
-    parser.add_argument("--num-iters",
-                        type=int,
-                        default=100,
-                        help="Number of benchmark iterations. "
-                        "If --profile is set, this number is ignored")
+    parser.add_argument(
+        "--num-iters",
+        type=int,
+        default=100,
+        help="Number of benchmark iterations. "
+        "If --profile is set, this number is ignored",
+    )
 
     args = parser.parse_args()
     print(args)
 
-    main(num_tokens=args.num_tokens,
-         hidden_size=args.hidden_size,
-         static_scale=args.static_scale,
-         quant_dtype=to_torch_dtype(args.quant_dtype),
-         dtype=STR_DTYPE_TO_TORCH_DTYPE[args.dtype],
-         seed=args.seed,
-         do_profile=args.profile,
-         num_warmup_iters=args.num_warmup_iters,
-         num_iters=args.num_iters)
+    main(
+        num_tokens=args.num_tokens,
+        hidden_size=args.hidden_size,
+        static_scale=args.static_scale,
+        quant_dtype=to_torch_dtype(args.quant_dtype),
+        dtype=STR_DTYPE_TO_TORCH_DTYPE[args.dtype],
+        seed=args.seed,
+        do_profile=args.profile,
+        num_warmup_iters=args.num_warmup_iters,
+        num_iters=args.num_iters,
+    )
diff --git a/benchmarks/kernels/benchmark_rmsnorm.py b/benchmarks/kernels/benchmark_rmsnorm.py
index 09a319ccf..d720083b6 100644
--- a/benchmarks/kernels/benchmark_rmsnorm.py
+++ b/benchmarks/kernels/benchmark_rmsnorm.py
@@ -12,7 +12,6 @@ from vllm.triton_utils import triton
 
 
 class HuggingFaceRMSNorm(nn.Module):
-
     def __init__(self, hidden_size: int, eps: float = 1e-6) -> None:
         super().__init__()
         self.weight = nn.Parameter(torch.ones(hidden_size))
@@ -114,23 +113,19 @@ def rmsnorm_vllm(
 
 def calculate_diff(batch_size, seq_len, hidden_size, use_residual=True):
     dtype = torch.bfloat16
-    x = torch.randn(batch_size,
-                    seq_len,
-                    hidden_size,
-                    dtype=dtype,
-                    device="cuda")
+    x = torch.randn(batch_size, seq_len, hidden_size, dtype=dtype, device="cuda")
     weight = torch.ones(hidden_size, dtype=dtype, device="cuda")
     residual = torch.randn_like(x) if use_residual else None
 
     output_naive = rmsnorm_naive(
-        x.clone(), weight,
-        residual.clone() if residual is not None else None)
+        x.clone(), weight, residual.clone() if residual is not None else None
+    )
     output_flashinfer = rmsnorm_flashinfer(
-        x.clone(), weight,
-        residual.clone() if residual is not None else None)
+        x.clone(), weight, residual.clone() if residual is not None else None
+    )
     output_vllm = rmsnorm_vllm(
-        x.clone(), weight,
-        residual.clone() if residual is not None else None)
+        x.clone(), weight, residual.clone() if residual is not None else None
+    )
 
     if use_residual:
         output_naive = output_naive[0]
@@ -141,9 +136,9 @@ def calculate_diff(batch_size, seq_len, hidden_size, use_residual=True):
     print(f"FlashInfer output={output_flashinfer}")
     print(f"vLLM output={output_vllm}")
 
-    if torch.allclose(output_naive, output_flashinfer, atol=1e-2,
-                      rtol=1e-2) and torch.allclose(
-                          output_naive, output_vllm, atol=1e-2, rtol=1e-2):
+    if torch.allclose(
+        output_naive, output_flashinfer, atol=1e-2, rtol=1e-2
+    ) and torch.allclose(output_naive, output_vllm, atol=1e-2, rtol=1e-2):
         print("✅ All implementations match")
     else:
         print("❌ Implementations differ")
@@ -152,12 +147,10 @@ def calculate_diff(batch_size, seq_len, hidden_size, use_residual=True):
 batch_size_range = [2**i for i in range(0, 7, 2)]
 seq_length_range = [2**i for i in range(6, 11, 1)]
 head_num_range = [32, 48]
-configs = list(
-    itertools.product(head_num_range, batch_size_range, seq_length_range))
+configs = list(itertools.product(head_num_range, batch_size_range, seq_length_range))
 
 
 def get_benchmark(use_residual):
-
     @triton.testing.perf_report(
         triton.testing.Benchmark(
             x_names=["head_num", "batch_size", "seq_len"],
@@ -167,19 +160,15 @@ def get_benchmark(use_residual):
             line_names=["HuggingFace", "FlashInfer", "vLLM"],
             styles=[("blue", "-"), ("green", "-"), ("red", "-")],
             ylabel="us",
-            plot_name=
-            f"rmsnorm-perf-{'with' if use_residual else 'without'}-residual",
+            plot_name=f"rmsnorm-perf-{'with' if use_residual else 'without'}-residual",
             args={},
-        ))
+        )
+    )
     def benchmark(head_num, batch_size, seq_len, provider):
         dtype = torch.bfloat16
         hidden_size = head_num * 128  # assuming head_dim = 128
 
-        x = torch.randn(batch_size,
-                        seq_len,
-                        hidden_size,
-                        dtype=dtype,
-                        device="cuda")
+        x = torch.randn(batch_size, seq_len, hidden_size, dtype=dtype, device="cuda")
         weight = torch.ones(hidden_size, dtype=dtype, device="cuda")
         residual = torch.randn_like(x) if use_residual else None
 
@@ -240,9 +229,9 @@ if __name__ == "__main__":
         default=4096,
         help="Hidden size (2nd dimension) of the sequence",
     )
-    parser.add_argument("--use-residual",
-                        action="store_true",
-                        help="Whether to use residual connection")
+    parser.add_argument(
+        "--use-residual", action="store_true", help="Whether to use residual connection"
+    )
     parser.add_argument(
         "--save-path",
         type=str,
@@ -253,10 +242,12 @@ if __name__ == "__main__":
     args = parser.parse_args()
 
     # Run correctness test
-    calculate_diff(batch_size=args.batch_size,
-                   seq_len=args.seq_len,
-                   hidden_size=args.hidden_size,
-                   use_residual=args.use_residual)
+    calculate_diff(
+        batch_size=args.batch_size,
+        seq_len=args.seq_len,
+        hidden_size=args.hidden_size,
+        use_residual=args.use_residual,
+    )
 
     # Get the benchmark function with proper use_residual setting
     benchmark = get_benchmark(args.use_residual)
diff --git a/benchmarks/kernels/benchmark_rope.py b/benchmarks/kernels/benchmark_rope.py
index 05d24fc4b..110d36db1 100644
--- a/benchmarks/kernels/benchmark_rope.py
+++ b/benchmarks/kernels/benchmark_rope.py
@@ -6,8 +6,7 @@ from typing import Optional
 import nvtx
 import torch
 
-from vllm.model_executor.layers.rotary_embedding import (RotaryEmbedding,
-                                                         get_rope)
+from vllm.model_executor.layers.rotary_embedding import RotaryEmbedding, get_rope
 from vllm.platforms import current_platform
 from vllm.utils import FlexibleArgumentParser
 
@@ -32,40 +31,49 @@ def benchmark_rope_kernels_multi_lora(
     # silulating serving 4 LoRAs
     scaling_factors = [1, 2, 4, 8]
     # batched RoPE can take multiple scaling factors
-    batched_rope = get_rope(head_size, rotary_dim, max_position, base,
-                            is_neox_style, {
-                                "rope_type": "linear",
-                                "factor": tuple(scaling_factors)
-                            })
+    batched_rope = get_rope(
+        head_size,
+        rotary_dim,
+        max_position,
+        base,
+        is_neox_style,
+        {"rope_type": "linear", "factor": tuple(scaling_factors)},
+    )
     # non-batched RoPE takes only one scaling factor, we create multiple
     # instances to simulate the same behavior
     non_batched_ropes: list[RotaryEmbedding] = []
     for scaling_factor in scaling_factors:
         non_batched_ropes.append(
-            get_rope(head_size, rotary_dim, max_position, base, is_neox_style,
-                     {
-                         "rope_type": "linear",
-                         "factor": (scaling_factor, )
-                     }))
+            get_rope(
+                head_size,
+                rotary_dim,
+                max_position,
+                base,
+                is_neox_style,
+                {"rope_type": "linear", "factor": (scaling_factor,)},
+            )
+        )
 
     positions = torch.randint(0, max_position, (batch_size, seq_len))
-    query = torch.randn(batch_size,
-                        seq_len,
-                        num_heads * head_size,
-                        dtype=dtype)
+    query = torch.randn(batch_size, seq_len, num_heads * head_size, dtype=dtype)
     key = torch.randn_like(query)
 
     # create query offsets for batched RoPE, we concat multiple kv cache
     # together and each query needs to find the right kv cache of its type
     offset_map = torch.tensor(
         list(
-            accumulate([0] + [
-                max_position * scaling_factor * 2
-                for scaling_factor in scaling_factors[:-1]
-            ])))
-    query_types = torch.randint(0,
-                                len(scaling_factors), (batch_size, seq_len),
-                                device=device)
+            accumulate(
+                [0]
+                + [
+                    max_position * scaling_factor * 2
+                    for scaling_factor in scaling_factors[:-1]
+                ]
+            )
+        )
+    )
+    query_types = torch.randint(
+        0, len(scaling_factors), (batch_size, seq_len), device=device
+    )
     # map query types to offsets
     query_offsets = offset_map[query_types]
     # the kernel takes flattened offsets
@@ -86,27 +94,28 @@ def benchmark_rope_kernels_multi_lora(
     torch.cuda.synchronize()
 
 
-if __name__ == '__main__':
+if __name__ == "__main__":
     parser = FlexibleArgumentParser(
-        description="Benchmark the rotary embedding kernels.")
+        description="Benchmark the rotary embedding kernels."
+    )
     parser.add_argument("--is-neox-style", type=bool, default=True)
     parser.add_argument("--batch-size", type=int, default=16)
     parser.add_argument("--seq-len", type=int, default=512)
     parser.add_argument("--num-heads", type=int, default=8)
-    parser.add_argument("--head-size",
-                        type=int,
-                        choices=[64, 80, 96, 112, 120, 128, 192, 256],
-                        default=128)
+    parser.add_argument(
+        "--head-size",
+        type=int,
+        choices=[64, 80, 96, 112, 120, 128, 192, 256],
+        default=128,
+    )
     parser.add_argument("--rotary-dim", type=int, choices=[16, 32], default=32)
-    parser.add_argument("--dtype",
-                        type=str,
-                        choices=["bfloat16", "float"],
-                        default="float")
+    parser.add_argument(
+        "--dtype", type=str, choices=["bfloat16", "float"], default="float"
+    )
     parser.add_argument("--seed", type=int, default=0)
-    parser.add_argument("--device",
-                        type=str,
-                        choices=["cuda:0", "cuda:1"],
-                        default="cuda:0")
+    parser.add_argument(
+        "--device", type=str, choices=["cuda:0", "cuda:1"], default="cuda:0"
+    )
     args = parser.parse_args()
     print(args)
 
diff --git a/benchmarks/kernels/benchmark_w8a8_block_fp8.py b/benchmarks/kernels/benchmark_w8a8_block_fp8.py
index 8f07bc8ca..6315c1ee6 100644
--- a/benchmarks/kernels/benchmark_w8a8_block_fp8.py
+++ b/benchmarks/kernels/benchmark_w8a8_block_fp8.py
@@ -14,14 +14,16 @@ import tqdm
 import triton
 
 from vllm.model_executor.layers.quantization.utils.fp8_utils import (
-    _w8a8_block_fp8_matmul)
+    _w8a8_block_fp8_matmul,
+)
 from vllm.platforms import current_platform
 from vllm.utils import FlexibleArgumentParser
 
 mp.set_start_method("spawn", force=True)
 
-assert current_platform.is_cuda(
-), "Only support tune w8a8 block fp8 kernel on CUDA device."
+assert current_platform.is_cuda(), (
+    "Only support tune w8a8 block fp8 kernel on CUDA device."
+)
 
 DTYPE_MAP = {
     "float32": torch.float32,
@@ -40,7 +42,7 @@ def w8a8_block_matmul(
     config: dict[str, Any],
     output_dtype: torch.dtype = torch.float16,
 ) -> torch.Tensor:
-    """This function performs matrix multiplication with 
+    """This function performs matrix multiplication with
     block-wise quantization.
 
     It takes two input tensors `A` and `B` with scales `As` and `Bs`.
@@ -51,7 +53,7 @@ def w8a8_block_matmul(
         B: The input tensor, e.g., weight.
         As: The per-token-group quantization scale for `A`.
         Bs: The per-block quantization scale for `B`.
-        block_size: The block size for per-block quantization. 
+        block_size: The block size for per-block quantization.
                     It should be 2-dim, e.g., [128, 128].
         output_dytpe: The dtype of the returned tensor.
 
@@ -71,18 +73,18 @@ def w8a8_block_matmul(
     assert triton.cdiv(N, block_n) == Bs.shape[0]
     assert triton.cdiv(K, block_k) == Bs.shape[1]
 
-    C_shape = A.shape[:-1] + (N, )
+    C_shape = A.shape[:-1] + (N,)
     C = A.new_empty(C_shape, dtype=output_dtype)
 
     def grid(META):
-        return (triton.cdiv(M, META["BLOCK_SIZE_M"]) *
-                triton.cdiv(N, META["BLOCK_SIZE_N"]), )
+        return (
+            triton.cdiv(M, META["BLOCK_SIZE_M"]) * triton.cdiv(N, META["BLOCK_SIZE_N"]),
+        )
 
     if A.dtype == torch.float8_e4m3fn:
         kernel = _w8a8_block_fp8_matmul
     else:
-        raise RuntimeError(
-            "Currently, only support tune w8a8 block fp8 kernel.")
+        raise RuntimeError("Currently, only support tune w8a8 block fp8 kernel.")
 
     kernel[grid](
         A,
@@ -119,14 +121,16 @@ def get_configs_compute_bound():
                 for block_n in [32, 64, 128, 256]:
                     for num_warps in [4, 8]:
                         for group_size in [1, 16, 32, 64]:
-                            configs.append({
-                                "BLOCK_SIZE_M": block_m,
-                                "BLOCK_SIZE_N": block_n,
-                                "BLOCK_SIZE_K": block_k,
-                                "GROUP_SIZE_M": group_size,
-                                "num_warps": num_warps,
-                                "num_stages": num_stages,
-                            })
+                            configs.append(
+                                {
+                                    "BLOCK_SIZE_M": block_m,
+                                    "BLOCK_SIZE_N": block_n,
+                                    "BLOCK_SIZE_K": block_k,
+                                    "GROUP_SIZE_M": group_size,
+                                    "num_warps": num_warps,
+                                    "num_stages": num_stages,
+                                }
+                            )
     return configs
 
 
@@ -165,15 +169,9 @@ def get_weight_shapes(tp_size):
     return weight_shapes
 
 
-def benchmark_config(A,
-                     B,
-                     As,
-                     Bs,
-                     block_size,
-                     config,
-                     out_dtype=torch.float16,
-                     num_iters=10):
-
+def benchmark_config(
+    A, B, As, Bs, block_size, config, out_dtype=torch.float16, num_iters=10
+):
     def run():
         w8a8_block_matmul(A, B, As, Bs, block_size, config, out_dtype)
 
@@ -206,26 +204,26 @@ def tune(M, N, K, block_size, out_dtype, search_space, input_type):
         fp8_max, fp8_min = fp8_info.max, fp8_info.min
 
         A_fp32 = (
-            (torch.rand(M, K, dtype=torch.float32, device="cuda") - 0.5) * 2 *
-            fp8_max)
+            (torch.rand(M, K, dtype=torch.float32, device="cuda") - 0.5) * 2 * fp8_max
+        )
         A = A_fp32.clamp(min=fp8_min, max=fp8_max).to(torch.float8_e4m3fn)
 
         B_fp32 = (
-            (torch.rand(N, K, dtype=torch.float32, device="cuda") - 0.5) * 2 *
-            fp8_max)
+            (torch.rand(N, K, dtype=torch.float32, device="cuda") - 0.5) * 2 * fp8_max
+        )
         B = B_fp32.clamp(min=fp8_min, max=fp8_max).to(torch.float8_e4m3fn)
     else:
-        raise RuntimeError(
-            "Currently, only support tune w8a8 block fp8 kernel.")
+        raise RuntimeError("Currently, only support tune w8a8 block fp8 kernel.")
 
     block_n, block_k = block_size[0], block_size[1]
     n_tiles = (N + block_n - 1) // block_n
     k_tiles = (K + block_k - 1) // block_k
 
-    As = torch.rand(M, k_tiles, dtype=torch.float32,
-                    device="cuda") * factor_for_scale
-    Bs = (torch.rand(n_tiles, k_tiles, dtype=torch.float32, device="cuda") *
-          factor_for_scale)
+    As = torch.rand(M, k_tiles, dtype=torch.float32, device="cuda") * factor_for_scale
+    Bs = (
+        torch.rand(n_tiles, k_tiles, dtype=torch.float32, device="cuda")
+        * factor_for_scale
+    )
 
     best_config = None
     best_time = float("inf")
@@ -267,7 +265,8 @@ def save_configs(
     device_name = current_platform.get_device_name().replace(" ", "_")
     json_file_name = (
         f"N={N},K={K},device_name={device_name},dtype={input_type}_w8a8,"
-        f"block_shape=[{block_n},{block_k}].json")
+        f"block_shape=[{block_n},{block_k}].json"
+    )
 
     config_file_path = os.path.join(save_path, json_file_name)
     print(f"Writing best config to {config_file_path}...")
@@ -295,8 +294,7 @@ def tune_on_gpu(args_dict):
 
     search_space = get_configs_compute_bound()
     search_space = [
-        config for config in search_space
-        if block_k % config["BLOCK_SIZE_K"] == 0
+        config for config in search_space if block_k % config["BLOCK_SIZE_K"] == 0
     ]
 
     start = time.time()
@@ -312,15 +310,11 @@ def tune_on_gpu(args_dict):
                 out_dtype,
                 search_space,
                 input_type,
-            ) for batch_size in tqdm(batch_sizes,
-                                     desc=f"GPU {gpu_id} - Batch sizes")
+            )
+            for batch_size in tqdm(batch_sizes, desc=f"GPU {gpu_id} - Batch sizes")
         ]
-        best_configs = {
-            M: config
-            for M, config in zip(batch_sizes, benchmark_results)
-        }
-        save_configs(N, K, block_n, block_k, best_configs, save_path,
-                     input_type)
+        best_configs = {M: config for M, config in zip(batch_sizes, benchmark_results)}
+        save_configs(N, K, block_n, block_k, best_configs, save_path, input_type)
 
     end = time.time()
     print(f"Tuning on GPU {gpu_id} took {end - start:.2f} seconds")
@@ -376,13 +370,14 @@ def main(args):
 
     process_args = []
     for gpu_id in range(num_gpus):
-        process_args.append({
-            "gpu_id": gpu_id,
-            "batch_sizes": batches_per_gpu[gpu_id],
-            "weight_shapes":
-            weight_shapes,  # Each GPU processes all weight shapes
-            "args": args,
-        })
+        process_args.append(
+            {
+                "gpu_id": gpu_id,
+                "batch_sizes": batches_per_gpu[gpu_id],
+                "weight_shapes": weight_shapes,  # Each GPU processes all weight shapes
+                "args": args,
+            }
+        )
 
     ctx = mp.get_context("spawn")
     with ctx.Pool(num_gpus) as pool:
@@ -398,13 +393,11 @@ Tune triton w8a8 block fp8 for DeepSeek-V3/DeepSeek-R1:
     python3 benchmark_w8a8_block_fp8.py --tp-size 8 --input-type fp8
 Then copy to model_executor/layers/quantization/utils/configs
         """,
-        formatter_class=argparse.RawTextHelpFormatter)
+        formatter_class=argparse.RawTextHelpFormatter,
+    )
 
     parser.add_argument("--tp-size", "-tp", type=int, default=8)
-    parser.add_argument("--input-type",
-                        type=str,
-                        choices=["fp8"],
-                        default="fp8")
+    parser.add_argument("--input-type", type=str, choices=["fp8"], default="fp8")
     parser.add_argument(
         "--out-dtype",
         type=str,
diff --git a/benchmarks/kernels/deepgemm/benchmark_fp8_block_dense_gemm.py b/benchmarks/kernels/deepgemm/benchmark_fp8_block_dense_gemm.py
index 5fa55bb97..e37764825 100644
--- a/benchmarks/kernels/deepgemm/benchmark_fp8_block_dense_gemm.py
+++ b/benchmarks/kernels/deepgemm/benchmark_fp8_block_dense_gemm.py
@@ -11,7 +11,9 @@ from deep_gemm import calc_diff, ceil_div, get_col_major_tma_aligned_tensor
 # Import vLLM functions
 from vllm import _custom_ops as ops
 from vllm.model_executor.layers.quantization.utils.fp8_utils import (
-    per_token_group_quant_fp8, w8a8_block_fp8_matmul)
+    per_token_group_quant_fp8,
+    w8a8_block_fp8_matmul,
+)
 from vllm.triton_utils import triton
 
 
diff --git a/benchmarks/kernels/graph_machete_bench.py b/benchmarks/kernels/graph_machete_bench.py
index bd62173a7..ab364a84d 100644
--- a/benchmarks/kernels/graph_machete_bench.py
+++ b/benchmarks/kernels/graph_machete_bench.py
@@ -14,13 +14,14 @@ from vllm.utils import FlexibleArgumentParser
 
 if __name__ == "__main__":
     parser = FlexibleArgumentParser(
-        description='Benchmark the latency of processing a single batch of '
-        'requests till completion.')
-    parser.add_argument('filename', type=str)
+        description="Benchmark the latency of processing a single batch of "
+        "requests till completion."
+    )
+    parser.add_argument("filename", type=str)
 
     args = parser.parse_args()
 
-    with open(args.filename, 'rb') as f:
+    with open(args.filename, "rb") as f:
         data = pickle.load(f)
         raw_results: list[TMeasurement] = data["results"]
 
@@ -38,11 +39,7 @@ if __name__ == "__main__":
             raise Exception("MKN not found")
 
         kernel = v.task_spec.description
-        results[KN].append({
-            "kernel": kernel,
-            "batch_size": M,
-            "median": v.median
-        })
+        results[KN].append({"kernel": kernel, "batch_size": M, "median": v.median})
 
     rows = int(math.ceil(len(results) / 2))
     fig, axs = plt.subplots(rows, 2, figsize=(12, 5 * rows))
@@ -50,14 +47,16 @@ if __name__ == "__main__":
     for axs_idx, (shape, data) in enumerate(results.items()):
         plt.sca(axs[axs_idx])
         df = pd.DataFrame(data)
-        sns.lineplot(data=df,
-                     x="batch_size",
-                     y="median",
-                     hue="kernel",
-                     style="kernel",
-                     markers=True,
-                     dashes=False,
-                     palette="Dark2")
+        sns.lineplot(
+            data=df,
+            x="batch_size",
+            y="median",
+            hue="kernel",
+            style="kernel",
+            markers=True,
+            dashes=False,
+            palette="Dark2",
+        )
         plt.title(f"Shape: {shape}")
         plt.ylabel("time (median, s)")
     plt.tight_layout()
diff --git a/benchmarks/kernels/utils.py b/benchmarks/kernels/utils.py
index ac64f786f..877a29fee 100644
--- a/benchmarks/kernels/utils.py
+++ b/benchmarks/kernels/utils.py
@@ -23,6 +23,7 @@ class ArgPool:
     For every invocation during a benchmarking run, it will choose a
     different value from the list.
     """
+
     values: Iterable[Any]
 
     def __getitem__(self, index):
@@ -30,9 +31,7 @@ class ArgPool:
 
 
 class Bench:
-
     class ArgsIterator:
-
         def __init__(self, args_list, kwargs_list):
             assert len(args_list) == len(kwargs_list)
             self.args_list = args_list
@@ -53,10 +52,16 @@ class Bench:
         def n_args(self):
             return self.n
 
-    def __init__(self, cuda_graph_params: Optional[CudaGraphBenchParams],
-                 label: str, sub_label: str, description: str, fn: Callable,
-                 *args, **kwargs):
-
+    def __init__(
+        self,
+        cuda_graph_params: Optional[CudaGraphBenchParams],
+        label: str,
+        sub_label: str,
+        description: str,
+        fn: Callable,
+        *args,
+        **kwargs,
+    ):
         self.cuda_graph_params = cuda_graph_params
         self.use_cuda_graph = self.cuda_graph_params is not None
         self.label = label
@@ -67,10 +72,8 @@ class Bench:
         # Process args
         self._args = args
         self._kwargs = kwargs
-        self.args_list, self.kwargs_list = self.collapse_argpool(
-            *args, **kwargs)
-        self.args_iterator = self.ArgsIterator(self.args_list,
-                                               self.kwargs_list)
+        self.args_list, self.kwargs_list = self.collapse_argpool(*args, **kwargs)
+        self.args_iterator = self.ArgsIterator(self.args_list, self.kwargs_list)
 
         # Cudagraph runner
         self.g = None
@@ -100,16 +103,13 @@ class Bench:
 
         for i in range(argpool_size):
             # collapse args; Just pick the ith value
-            args_list[i] = tuple([
-                arg[i] if isinstance(arg, ArgPool) else arg
-                for arg in args_list[i]
-            ])
+            args_list[i] = tuple(
+                [arg[i] if isinstance(arg, ArgPool) else arg for arg in args_list[i]]
+            )
 
             # collapse kwargs
             kwargs_i = kwargs_list[i]
-            arg_pool_keys = [
-                k for k, v in kwargs_i.items() if isinstance(v, ArgPool)
-            ]
+            arg_pool_keys = [k for k, v in kwargs_i.items() if isinstance(v, ArgPool)]
             for k in arg_pool_keys:
                 # again just pick the ith value
                 kwargs_i[k] = kwargs_i[k][i]
@@ -142,7 +142,7 @@ class Bench:
 
     def run_cudagrah(self) -> TMeasurement:
         assert self.use_cuda_graph
-        globals = {'g': self.g}
+        globals = {"g": self.g}
 
         return TBenchmark.Timer(
             stmt="g.replay()",
@@ -162,15 +162,15 @@ class Bench:
 
         has_arg_pool = self.args_iterator.n_args > 1
         if has_arg_pool:
-            setup = '''
+            setup = """
                     args_iterator.reset()
                     args_it = args_iterator.__next__()
-                    '''
-            stmt = '''
+                    """
+            stmt = """
                     args, kwargs = next(args_it)
                     fn(*args, **kwargs)
-                    '''
-            globals = {'fn': self.fn, 'args_iterator': self.args_iterator}
+                    """
+            globals = {"fn": self.fn, "args_iterator": self.args_iterator}
         else:
             # no arg pool. Just use the args and kwargs directly
             self.args_iterator.reset()
@@ -178,10 +178,10 @@ class Bench:
             args, kwargs = next(args_it)
 
             setup = ""
-            stmt = '''
+            stmt = """
                     fn(*args, **kwargs)
-                   '''
-            globals = {'fn': self.fn, 'args': args, 'kwargs': kwargs}
+                   """
+            globals = {"fn": self.fn, "args": args, "kwargs": kwargs}
 
         return TBenchmark.Timer(
             stmt=stmt,
diff --git a/benchmarks/overheads/benchmark_hashing.py b/benchmarks/overheads/benchmark_hashing.py
index 5f94552e9..d5701a8fb 100644
--- a/benchmarks/overheads/benchmark_hashing.py
+++ b/benchmarks/overheads/benchmark_hashing.py
@@ -7,9 +7,8 @@ from vllm import LLM, SamplingParams
 from vllm.utils import FlexibleArgumentParser
 
 # A very long prompt, total number of tokens is about 15k.
-LONG_PROMPT = ["You are an expert in large language models, aren't you?"
-               ] * 1000
-LONG_PROMPT = ' '.join(LONG_PROMPT)
+LONG_PROMPT = ["You are an expert in large language models, aren't you?"] * 1000
+LONG_PROMPT = " ".join(LONG_PROMPT)
 
 
 def main(args):
@@ -30,32 +29,35 @@ def main(args):
 
     print("------start generating------")
     for i in range(3):
-        profiler.runctx('llm.generate(LONG_PROMPT, sampling_params)',
-                        globals(), locals())
+        profiler.runctx(
+            "llm.generate(LONG_PROMPT, sampling_params)", globals(), locals()
+        )
 
     # analyze the runtime of hashing function
     stats = pstats.Stats(profiler)
-    stats.sort_stats('cumulative')
+    stats.sort_stats("cumulative")
     total_time = 0
     total_calls = 0
     for func in stats.stats:
-        if 'hash_of_block' in func[2]:
+        if "hash_of_block" in func[2]:
             total_time = stats.stats[func][3]
             total_calls = stats.stats[func][0]
     percentage = (total_time / stats.total_tt) * 100
-    print(f"Hashing took {total_time:.2f} seconds,"
-          f"{percentage:.2f}% of the total runtime.")
+    print(
+        f"Hashing took {total_time:.2f} seconds,{percentage:.2f}% of the total runtime."
+    )
 
 
 if __name__ == "__main__":
     parser = FlexibleArgumentParser(
-        description='Benchmark the performance of hashing function in'
-        'automatic prefix caching.')
-    parser.add_argument('--model', type=str, default='lmsys/longchat-7b-16k')
-    parser.add_argument('--tensor-parallel-size', '-tp', type=int, default=1)
-    parser.add_argument('--output-len', type=int, default=10)
-    parser.add_argument('--enable-prefix-caching',
-                        action='store_true',
-                        help='enable prefix caching')
+        description="Benchmark the performance of hashing function in"
+        "automatic prefix caching."
+    )
+    parser.add_argument("--model", type=str, default="lmsys/longchat-7b-16k")
+    parser.add_argument("--tensor-parallel-size", "-tp", type=int, default=1)
+    parser.add_argument("--output-len", type=int, default=10)
+    parser.add_argument(
+        "--enable-prefix-caching", action="store_true", help="enable prefix caching"
+    )
     args = parser.parse_args()
     main(args)
diff --git a/benchmarks/pyproject.toml b/benchmarks/pyproject.toml
new file mode 100644
index 000000000..f825cb203
--- /dev/null
+++ b/benchmarks/pyproject.toml
@@ -0,0 +1,54 @@
+# This local pyproject file is part of the migration from yapf to ruff format.
+# It uses the same core rules as the main pyproject.toml file, but with the
+# following differences:
+# - ruff line length is overridden to 88
+# - deprecated typing ignores (UP006, UP035) have been removed
+
+[tool.ruff]
+line-length = 88
+exclude = [
+    # External file, leaving license intact
+    "examples/other/fp8/quantizer/quantize.py",
+    "vllm/vllm_flash_attn/flash_attn_interface.pyi"
+]
+
+[tool.ruff.lint.per-file-ignores]
+"vllm/third_party/**" = ["ALL"]
+"vllm/version.py" = ["F401"]
+"vllm/_version.py" = ["ALL"]
+
+[tool.ruff.lint]
+select = [
+    # pycodestyle
+    "E",
+    # Pyflakes
+    "F",
+    # pyupgrade
+    "UP",
+    # flake8-bugbear
+    "B",
+    # flake8-simplify
+    "SIM",
+    # isort
+    "I",
+    # flake8-logging-format
+    "G",
+]
+ignore = [
+    # star imports
+    "F405", "F403",
+    # lambda expression assignment
+    "E731",
+    # Loop control variable not used within loop body
+    "B007",
+    # f-string format
+    "UP032",
+    # Can remove once 3.10+ is the minimum Python version
+    "UP007",
+]
+
+[tool.ruff.lint.isort]
+known-first-party = ["vllm"]
+
+[tool.ruff.format]
+docstring-code-format = true
\ No newline at end of file
diff --git a/pyproject.toml b/pyproject.toml
index a3e75ec69..408841845 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -54,6 +54,7 @@ include = ["vllm*"]
 [tool.yapfignore]
 ignore_patterns = [
     ".buildkite/**",
+    "benchmarks/**",
     "build/**",
 ]
 
@@ -155,6 +156,10 @@ ignore-words-list = "dout, te, indicies, subtile, ElementE"
 skip = "tests/models/fixtures/*,tests/prompts/*,benchmarks/sonnet.txt,tests/lora/data/*,build/*,vllm/third_party/*"
 
 [tool.isort]
+skip_glob = [
+    ".buildkite/*",
+    "benchmarks/*",
+]
 use_parentheses = true
 skip_gitignore = true
 
-- 
GitLab


From fc407a14259992e330c641fdfb0d62067ee02ae2 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 13 May 2025 15:53:13 +0100
Subject: [PATCH 336/461] Give auto-merge label workflow permission to add
 labels to issues (#18078)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .github/workflows/add_label_automerge.yml | 2 +-
 .github/workflows/reminder_comment.yml    | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/.github/workflows/add_label_automerge.yml b/.github/workflows/add_label_automerge.yml
index 69c89f695..315042fbf 100644
--- a/.github/workflows/add_label_automerge.yml
+++ b/.github/workflows/add_label_automerge.yml
@@ -1,6 +1,6 @@
 name: Add label on auto-merge enabled
 permissions:
-    issues: write
+    pull-requests: write
 on:
     pull_request_target:
         types:
diff --git a/.github/workflows/reminder_comment.yml b/.github/workflows/reminder_comment.yml
index b691c268c..16ae1aadb 100644
--- a/.github/workflows/reminder_comment.yml
+++ b/.github/workflows/reminder_comment.yml
@@ -1,6 +1,6 @@
 name: PR Reminder Comment Bot
 permissions:
-  issues: write
+  pull-requests: write
 on:
   pull_request_target:
     types: [opened]
-- 
GitLab


From 19324d660c61a63c6ea3dfbb18995d255c05ee6d Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 13 May 2025 16:32:48 +0100
Subject: [PATCH 337/461] Update deprecated type hinting in `vllm/compilation`
 (#18072)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 pyproject.toml                            |  1 -
 vllm/compilation/backends.py              | 33 ++++++++++----------
 vllm/compilation/compiler_interface.py    | 38 +++++++++++------------
 vllm/compilation/decorators.py            |  8 ++---
 vllm/compilation/fix_functionalization.py | 15 ++++-----
 vllm/compilation/fusion.py                | 10 +++---
 vllm/compilation/fx_utils.py              |  3 +-
 vllm/compilation/inductor_pass.py         |  4 +--
 vllm/compilation/multi_output_match.py    |  6 ++--
 vllm/compilation/noop_elimination.py      |  3 +-
 vllm/compilation/pass_manager.py          |  4 +--
 vllm/compilation/sequence_parallelism.py  | 10 +++---
 vllm/compilation/wrapper.py               |  4 +--
 13 files changed, 70 insertions(+), 69 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index 408841845..6f5c560e8 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -74,7 +74,6 @@ exclude = [
 # Python 3.8 typing. TODO: Remove these excludes after v1.0.0
 "vllm/adapter_commons/**/*.py" = ["UP006", "UP035"]
 "vllm/attention/**/*.py" = ["UP006", "UP035"]
-"vllm/compilation/**/*.py" = ["UP006", "UP035"]
 "vllm/core/**/*.py" = ["UP006", "UP035"]
 "vllm/device_allocator/**/*.py" = ["UP006", "UP035"]
 "vllm/distributed/**/*.py" = ["UP006", "UP035"]
diff --git a/vllm/compilation/backends.py b/vllm/compilation/backends.py
index c2e8c726c..0c1381a56 100644
--- a/vllm/compilation/backends.py
+++ b/vllm/compilation/backends.py
@@ -5,8 +5,9 @@ import dataclasses
 import os
 import pprint
 import time
+from collections.abc import Sequence
 from contextlib import ExitStack
-from typing import Any, Callable, Dict, List, Optional, Sequence, Set, Tuple
+from typing import Any, Callable, Optional
 from unittest.mock import patch
 
 import torch
@@ -56,7 +57,7 @@ class CompilerManager:
     """
 
     def __init__(self, compilation_config: CompilationConfig):
-        self.cache: Dict[Tuple[Optional[int], int, str], Any] = dict()
+        self.cache: dict[tuple[Optional[int], int, str], Any] = dict()
         self.is_cache_updated = False
         self.compilation_config = compilation_config
         self.compiler = make_compiler(compilation_config)
@@ -90,7 +91,7 @@ class CompilerManager:
 
     def load(self,
              graph: fx.GraphModule,
-             example_inputs: List[Any],
+             example_inputs: list[Any],
              graph_index: int,
              runtime_shape: Optional[int] = None) -> Optional[Callable]:
         if (runtime_shape, graph_index, self.compiler.name) not in self.cache:
@@ -186,7 +187,7 @@ class SplitItem:
 
 
 def split_graph(graph: fx.GraphModule,
-                ops: List[str]) -> Tuple[fx.GraphModule, List[SplitItem]]:
+                ops: list[str]) -> tuple[fx.GraphModule, list[SplitItem]]:
     # split graph by ops
     subgraph_id = 0
     node_to_subgraph_id = {}
@@ -252,7 +253,7 @@ class PiecewiseCompileInterpreter(torch.fx.Interpreter):
     """
 
     def __init__(self, module: torch.fx.GraphModule,
-                 compile_submod_names: List[str], vllm_config: VllmConfig,
+                 compile_submod_names: list[str], vllm_config: VllmConfig,
                  graph_pool, vllm_backend: "VllmBackend"):
         super().__init__(module)
         from torch._guards import detect_fake_mode
@@ -274,8 +275,8 @@ class PiecewiseCompileInterpreter(torch.fx.Interpreter):
             return super().run(*fake_args)
 
     def call_module(self, target: torch.fx.node.Target,
-                    args: Tuple[torch.fx.node.Argument,
-                                ...], kwargs: Dict[str, Any]) -> Any:
+                    args: tuple[torch.fx.node.Argument,
+                                ...], kwargs: dict[str, Any]) -> Any:
         assert isinstance(target, str)
         output = super().call_module(target, args, kwargs)
 
@@ -326,12 +327,12 @@ class VllmBackend:
     graph: fx.GraphModule
     # the stiching graph module for all the piecewise graphs
     split_gm: fx.GraphModule
-    piecewise_graphs: List[SplitItem]
+    piecewise_graphs: list[SplitItem]
     returned_callable: Callable
     # Inductor passes to run on the graph pre-defunctionalization
     post_grad_passes: Sequence[Callable]
-    sym_tensor_indices: List[int]
-    input_buffers: List[torch.Tensor]
+    sym_tensor_indices: list[int]
+    input_buffers: list[torch.Tensor]
     compiler_manager: CompilerManager
 
     def __init__(
@@ -573,14 +574,14 @@ class ConcreteSizeEntry:
 
     # for cudagraph debugging, track the input addresses
     # during capture, and check if they are the same during replay
-    input_addresses: Optional[List[int]] = None
+    input_addresses: Optional[list[int]] = None
 
 
 class PiecewiseBackend:
 
     def __init__(self, graph: fx.GraphModule, vllm_config: VllmConfig,
                  graph_pool: Any, piecewise_compile_index: int,
-                 total_piecewise_compiles: int, sym_shape_indices: List[int],
+                 total_piecewise_compiles: int, sym_shape_indices: list[int],
                  compiled_graph_for_general_shape: Callable,
                  vllm_backend: VllmBackend):
         """
@@ -608,9 +609,9 @@ class PiecewiseBackend:
         self.is_last_graph = (
             piecewise_compile_index == total_piecewise_compiles - 1)
 
-        self.compile_sizes: Set[int] = set(
+        self.compile_sizes: set[int] = set(
             self.compilation_config.compile_sizes)
-        self.cudagraph_capture_sizes: Set[int] = set(
+        self.cudagraph_capture_sizes: set[int] = set(
             self.compilation_config.cudagraph_capture_sizes
         ) if self.compilation_config.use_cudagraph else set()
 
@@ -624,11 +625,11 @@ class PiecewiseBackend:
 
         # the entries for different shapes that we need to either
         # compile or capture cudagraph
-        self.concrete_size_entries: Dict[int, ConcreteSizeEntry] = {}
+        self.concrete_size_entries: dict[int, ConcreteSizeEntry] = {}
 
         # to_be_compiled_sizes tracks the remaining sizes to compile,
         # and updates during the compilation process, so we need to copy it
-        self.to_be_compiled_sizes: Set[int] = self.compile_sizes.copy()
+        self.to_be_compiled_sizes: set[int] = self.compile_sizes.copy()
         for shape in self.compile_sizes.union(self.cudagraph_capture_sizes):
             self.concrete_size_entries[shape] = ConcreteSizeEntry(
                 runtime_shape=shape,
diff --git a/vllm/compilation/compiler_interface.py b/vllm/compilation/compiler_interface.py
index 423581784..89a131e8e 100644
--- a/vllm/compilation/compiler_interface.py
+++ b/vllm/compilation/compiler_interface.py
@@ -4,7 +4,7 @@ import copy
 import hashlib
 import os
 from contextlib import ExitStack
-from typing import Any, Callable, Dict, List, Optional, Tuple
+from typing import Any, Callable, Optional
 from unittest.mock import patch
 
 import torch
@@ -48,11 +48,11 @@ class CompilerInterface:
     def compile(
         self,
         graph: fx.GraphModule,
-        example_inputs: List[Any],
-        compiler_config: Dict[str, Any],
+        example_inputs: list[Any],
+        compiler_config: dict[str, Any],
         runtime_shape: Optional[int] = None,
         key: Optional[str] = None,
-    ) -> Tuple[Optional[Callable], Optional[Any]]:
+    ) -> tuple[Optional[Callable], Optional[Any]]:
         """
         Compile the graph with the given example inputs and compiler config,
         with a runtime shape. If the `runtime_shape` is None, it means
@@ -82,7 +82,7 @@ class CompilerInterface:
     def load(self,
              handle: Any,
              graph: fx.GraphModule,
-             example_inputs: List[Any],
+             example_inputs: list[Any],
              graph_index: int,
              runtime_shape: Optional[int] = None) -> Callable:
         """
@@ -120,7 +120,7 @@ class AlwaysHitShapeEnv:
     """
 
     def __init__(self) -> None:
-        self.guards: List[Any] = []
+        self.guards: list[Any] = []
 
     def evaluate_guards_expression(self, *args, **kwargs):
         return True
@@ -132,8 +132,8 @@ class AlwaysHitShapeEnv:
         return ""
 
 
-def get_inductor_factors() -> List[Any]:
-    factors: List[Any] = []
+def get_inductor_factors() -> list[Any]:
+    factors: list[Any] = []
     # summarize system state
     from torch._inductor.codecache import CacheBase
     system_factors = CacheBase.get_system()
@@ -169,11 +169,11 @@ class InductorStandaloneAdaptor(CompilerInterface):
     def compile(
         self,
         graph: fx.GraphModule,
-        example_inputs: List[Any],
-        compiler_config: Dict[str, Any],
+        example_inputs: list[Any],
+        compiler_config: dict[str, Any],
         runtime_shape: Optional[int] = None,
         key: Optional[str] = None,
-    ) -> Tuple[Optional[Callable], Optional[Any]]:
+    ) -> tuple[Optional[Callable], Optional[Any]]:
         current_config = {}
         if compiler_config is not None:
             current_config.update(compiler_config)
@@ -201,7 +201,7 @@ class InductorStandaloneAdaptor(CompilerInterface):
     def load(self,
              handle: Any,
              graph: fx.GraphModule,
-             example_inputs: List[Any],
+             example_inputs: list[Any],
              graph_index: int,
              runtime_shape: Optional[int] = None) -> Callable:
         assert isinstance(handle, tuple)
@@ -256,11 +256,11 @@ class InductorAdaptor(CompilerInterface):
     def compile(
         self,
         graph: fx.GraphModule,
-        example_inputs: List[Any],
-        compiler_config: Dict[str, Any],
+        example_inputs: list[Any],
+        compiler_config: dict[str, Any],
         runtime_shape: Optional[int] = None,
         key: Optional[str] = None,
-    ) -> Tuple[Optional[Callable], Optional[Any]]:
+    ) -> tuple[Optional[Callable], Optional[Any]]:
         from torch._inductor.compile_fx import compile_fx
         current_config = {}
         if compiler_config is not None:
@@ -420,7 +420,7 @@ class InductorAdaptor(CompilerInterface):
     def load(self,
              handle: Any,
              graph: fx.GraphModule,
-             example_inputs: List[Any],
+             example_inputs: list[Any],
              graph_index: int,
              runtime_shape: Optional[int] = None) -> Callable:
         assert isinstance(handle, tuple)
@@ -522,11 +522,11 @@ class EagerAdaptor(CompilerInterface):
     def compile(
         self,
         graph: fx.GraphModule,
-        example_inputs: List[Any],
-        compiler_config: Dict[str, Any],
+        example_inputs: list[Any],
+        compiler_config: dict[str, Any],
         runtime_shape: Optional[int] = None,
         key: Optional[str] = None,
-    ) -> Tuple[Optional[Callable], Optional[Any]]:
+    ) -> tuple[Optional[Callable], Optional[Any]]:
         # we don't need to compile the graph, just return the graph itself.
         # It does not support caching, return None for the handle.
         return graph, None
diff --git a/vllm/compilation/decorators.py b/vllm/compilation/decorators.py
index 20afe6967..f02994c55 100644
--- a/vllm/compilation/decorators.py
+++ b/vllm/compilation/decorators.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import inspect
-from typing import Callable, Dict, List, Optional, TypeVar, Union, overload
+from typing import Callable, Optional, TypeVar, Union, overload
 from unittest.mock import patch
 
 import torch
@@ -25,7 +25,7 @@ _T = TypeVar("_T", bound=type[nn.Module])
 @overload
 def support_torch_compile(
     *,
-    dynamic_arg_dims: Optional[Dict[str, Union[int, List[int]]]],
+    dynamic_arg_dims: Optional[dict[str, Union[int, list[int]]]],
 ) -> Callable[[_T], _T]:
     ...
 
@@ -38,7 +38,7 @@ def support_torch_compile(cls: _T) -> _T:
 def support_torch_compile(
     cls: Optional[_T] = None,
     *,
-    dynamic_arg_dims: Optional[Dict[str, Union[int, List[int]]]] = None,
+    dynamic_arg_dims: Optional[dict[str, Union[int, list[int]]]] = None,
 ) -> Union[Callable[[_T], _T], _T]:
     """
     A decorator to add support for compiling the forward method of a class.
@@ -131,7 +131,7 @@ def support_torch_compile(
 
 def _support_torch_compile(
     cls: _T,
-    dynamic_arg_dims: Dict[str, Union[int, List[int]]],
+    dynamic_arg_dims: dict[str, Union[int, list[int]]],
 ) -> _T:
     """
     A decorator to add support for compiling the forward method of a class.
diff --git a/vllm/compilation/fix_functionalization.py b/vllm/compilation/fix_functionalization.py
index 7f3120660..70f3b8b6d 100644
--- a/vllm/compilation/fix_functionalization.py
+++ b/vllm/compilation/fix_functionalization.py
@@ -1,7 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import operator
-from typing import Dict, Iterable, List, Optional, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch._higher_order_ops.auto_functionalize import auto_functionalized
@@ -27,7 +28,7 @@ class FixFunctionalizationPass(VllmInductorPass):
         self.begin()
         self.dump_graph(graph, "before_fix_functionalization")
 
-        self.nodes_to_remove: List[torch.fx.Node] = []
+        self.nodes_to_remove: list[torch.fx.Node] = []
         count = 0
         for node in graph.nodes:
             if not is_func(node, auto_functionalized):
@@ -117,8 +118,8 @@ class FixFunctionalizationPass(VllmInductorPass):
     def defunctionalize(self,
                         graph: torch.fx.Graph,
                         node: torch.fx.Node,
-                        mutated_args: Dict[int, Union[torch.fx.Node, str]],
-                        args: Optional[Tuple[Union[torch.fx.Node, str],
+                        mutated_args: dict[int, Union[torch.fx.Node, str]],
+                        args: Optional[tuple[Union[torch.fx.Node, str],
                                              ...]] = None):
         """
         De-functionalize a node by replacing it with a call to the original.
@@ -130,7 +131,7 @@ class FixFunctionalizationPass(VllmInductorPass):
         self._remove(node)
 
     def replace_users_with_mutated_args(self, node: torch.fx.Node,
-                                        mutated_args: Dict[int,
+                                        mutated_args: dict[int,
                                                            Union[torch.fx.Node,
                                                                  str]]):
         """
@@ -146,7 +147,7 @@ class FixFunctionalizationPass(VllmInductorPass):
             user.replace_all_uses_with(arg)
             self._remove(user)
 
-    def getitem_users(self, node: torch.fx.Node) -> Dict[int, torch.fx.Node]:
+    def getitem_users(self, node: torch.fx.Node) -> dict[int, torch.fx.Node]:
         """
         Returns the operator.getitem users of the auto-functionalized node,
         indexed by the index they are getting.
@@ -161,7 +162,7 @@ class FixFunctionalizationPass(VllmInductorPass):
     def insert_defunctionalized(self,
                                 graph: torch.fx.Graph,
                                 node: torch.fx.Node,
-                                args: Optional[Tuple[Union[torch.fx.Node, str],
+                                args: Optional[tuple[Union[torch.fx.Node, str],
                                                      ...]] = None):
         """
         Insert a new defunctionalized node into the graph before node.
diff --git a/vllm/compilation/fusion.py b/vllm/compilation/fusion.py
index 8f32fdb03..618b2fe94 100644
--- a/vllm/compilation/fusion.py
+++ b/vllm/compilation/fusion.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Callable, Dict, List, NamedTuple, Optional, Tuple
+from typing import Callable, NamedTuple, Optional
 
 import torch
 import torch._inductor.pattern_matcher as pm
@@ -57,7 +57,7 @@ kFp8StaticTensorSym = QuantKey(FP8_DTYPE, True, True, True)
 kFp8DynamicTensorSym = QuantKey(FP8_DTYPE, False, True, True)
 kFp8DynamicTokenSym = QuantKey(FP8_DTYPE, False, False, True)
 
-QUANT_OPS: Dict[QuantKey, OpOverload] = {
+QUANT_OPS: dict[QuantKey, OpOverload] = {
     kFp8StaticTensorSym: torch.ops._C.static_scaled_fp8_quant.default,  # noqa
     kFp8DynamicTensorSym:
     torch.ops._C.dynamic_scaled_fp8_quant.default,  # noqa
@@ -80,7 +80,7 @@ class FusedRMSQuantKey(NamedTuple):
                 f"{'' if self.fused_add else 'out'} residual)")
 
 
-FUSED_OPS: Dict[FusedRMSQuantKey, OpOverload] = {
+FUSED_OPS: dict[FusedRMSQuantKey, OpOverload] = {
     FusedRMSQuantKey(kFp8StaticTensorSym, False):
     torch.ops._C.rms_norm_static_fp8_quant.default,  # noqa
     FusedRMSQuantKey(kFp8StaticTensorSym, True):
@@ -101,7 +101,7 @@ class QuantMultiOutputMatch(MultiOutputMatch):
         self.QUANT_OP = quant_op  # in-place quant op
         self.FUSED_OP = fused_op  # in-place fused quant op
 
-    def insert_fused_node(self, fused_return_mapping: Dict[int, Tuple[fx.Node,
+    def insert_fused_node(self, fused_return_mapping: dict[int, tuple[fx.Node,
                                                                       int]],
                           **kwargs):
         """
@@ -548,7 +548,7 @@ class FusionPass(VllmInductorPass):
             "FusionPass singleton instance already exists"
         super().__init__(config)
 
-        self.matches: List[MultiOutputMatch] = []
+        self.matches: list[MultiOutputMatch] = []
         self.patterns: PatternMatcherPass = PatternMatcherPass(
             pass_name="fusion_pass")
 
diff --git a/vllm/compilation/fx_utils.py b/vllm/compilation/fx_utils.py
index f9427e48a..b9eeb0c8d 100644
--- a/vllm/compilation/fx_utils.py
+++ b/vllm/compilation/fx_utils.py
@@ -1,7 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import operator
-from typing import Iterable, Optional
+from collections.abc import Iterable
+from typing import Optional
 
 from torch import fx
 from torch._higher_order_ops.auto_functionalize import auto_functionalized
diff --git a/vllm/compilation/inductor_pass.py b/vllm/compilation/inductor_pass.py
index 4f5c82776..a9359fe1e 100644
--- a/vllm/compilation/inductor_pass.py
+++ b/vllm/compilation/inductor_pass.py
@@ -5,7 +5,7 @@ import inspect
 import json
 import types
 from contextlib import contextmanager
-from typing import Any, Callable, Dict, Optional, Union
+from typing import Any, Callable, Optional, Union
 
 import torch
 from torch import fx
@@ -83,7 +83,7 @@ class InductorPass(CustomGraphPass):
         return hasher.hexdigest()
 
     @staticmethod
-    def hash_dict(dict_: Dict[Any, Any]):
+    def hash_dict(dict_: dict[Any, Any]):
         """
         Utility method to hash a dictionary, can alternatively be used for uuid.
         :return: A sha256 hash of the json rep of the dictionary.
diff --git a/vllm/compilation/multi_output_match.py b/vllm/compilation/multi_output_match.py
index e6f6a60b2..cef19f925 100644
--- a/vllm/compilation/multi_output_match.py
+++ b/vllm/compilation/multi_output_match.py
@@ -3,7 +3,7 @@
 import abc
 import operator
 from abc import abstractmethod
-from typing import Iterable, List, Tuple
+from collections.abc import Iterable
 
 from torch import fx
 from torch._higher_order_ops.auto_functionalize import auto_functionalized
@@ -56,7 +56,7 @@ class MultiOutputMatch(abc.ABC):
         raise NotImplementedError
 
     @property
-    def nodes(self) -> List[fx.Node]:
+    def nodes(self) -> list[fx.Node]:
         return self.match.nodes
 
     @property
@@ -87,7 +87,7 @@ class MultiOutputMatch(abc.ABC):
         return self.graph.inserting_after(last_node_in_match)
 
     def insert_getitems(self, tuple_node: fx.Node,
-                        indices: Iterable[int]) -> Tuple[fx.Node, ...]:
+                        indices: Iterable[int]) -> tuple[fx.Node, ...]:
         """
         Insert operator.getitem nodes to extract elements from a tuple node.
 
diff --git a/vllm/compilation/noop_elimination.py b/vllm/compilation/noop_elimination.py
index 19127e933..13e4cd73f 100644
--- a/vllm/compilation/noop_elimination.py
+++ b/vllm/compilation/noop_elimination.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Iterable, Union
+from collections.abc import Iterable
+from typing import Union
 
 import torch.fx
 from torch import SymInt
diff --git a/vllm/compilation/pass_manager.py b/vllm/compilation/pass_manager.py
index b1646914c..f4d3fd9b4 100644
--- a/vllm/compilation/pass_manager.py
+++ b/vllm/compilation/pass_manager.py
@@ -1,7 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import List
-
 from torch import fx as fx
 
 from vllm.config import VllmConfig
@@ -34,7 +32,7 @@ class PostGradPassManager(CustomGraphPass):
     """
 
     def __init__(self):
-        self.passes: List[VllmInductorPass] = []
+        self.passes: list[VllmInductorPass] = []
 
     def __call__(self, graph: fx.Graph):
         shape = get_pass_context().runtime_shape
diff --git a/vllm/compilation/sequence_parallelism.py b/vllm/compilation/sequence_parallelism.py
index 95db63d34..f0476bfcb 100644
--- a/vllm/compilation/sequence_parallelism.py
+++ b/vllm/compilation/sequence_parallelism.py
@@ -1,5 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
-from typing import Optional, Tuple
+from typing import Optional
 
 import torch
 import torch._inductor.pattern_matcher as pm
@@ -125,7 +125,7 @@ class MiddleAllReduceRMSNormPattern(AllReduceRMSNormPattern):
             residual: torch.Tensor,
             mm_1: torch.Tensor,
             rms_norm_weights: torch.Tensor,
-        ) -> Tuple[torch.Tensor, torch.Tensor]:
+        ) -> tuple[torch.Tensor, torch.Tensor]:
             all_reduce = tensor_model_parallel_all_reduce(mm_1)
 
             rmsnorm = torch.ops.higher_order.auto_functionalized(
@@ -142,7 +142,7 @@ class MiddleAllReduceRMSNormPattern(AllReduceRMSNormPattern):
             residual: torch.Tensor,
             mm_1: torch.Tensor,
             rms_norm_weights: torch.Tensor,
-        ) -> Tuple[torch.Tensor, torch.Tensor]:
+        ) -> tuple[torch.Tensor, torch.Tensor]:
             tp = get_tp_group()
             tp_size = get_tensor_model_parallel_world_size()
             reduce_scatter = torch.ops.vllm.reduce_scatter.default(
@@ -190,7 +190,7 @@ class LastAllReduceRMSNormPattern(AllReduceRMSNormPattern):
             residual: torch.Tensor,
             mm_1: torch.Tensor,
             rms_norm_weights: torch.Tensor,
-        ) -> Tuple[torch.Tensor, torch.Tensor]:
+        ) -> tuple[torch.Tensor, torch.Tensor]:
             all_reduce = tensor_model_parallel_all_reduce(mm_1)
 
             rmsnorm = torch.ops.higher_order.auto_functionalized(
@@ -207,7 +207,7 @@ class LastAllReduceRMSNormPattern(AllReduceRMSNormPattern):
             residual: torch.Tensor,
             mm_1: torch.Tensor,
             rms_norm_weights: torch.Tensor,
-        ) -> Tuple[torch.Tensor, torch.Tensor]:
+        ) -> tuple[torch.Tensor, torch.Tensor]:
             tp = get_tp_group()
             tp_size = get_tensor_model_parallel_world_size()
             reduce_scatter = torch.ops.vllm.reduce_scatter.default(
diff --git a/vllm/compilation/wrapper.py b/vllm/compilation/wrapper.py
index a8a283ddd..1a8211f0a 100644
--- a/vllm/compilation/wrapper.py
+++ b/vllm/compilation/wrapper.py
@@ -5,7 +5,7 @@ import sys
 from abc import abstractmethod
 from contextlib import contextmanager
 from types import CodeType
-from typing import Callable, List, Optional
+from typing import Callable, Optional
 
 import torch
 
@@ -48,7 +48,7 @@ class TorchCompileWrapperWithCustomDispatcher:
 
         self.compiled_callable = compiled_callable
         self.original_code_object = self.__class__.forward.__code__
-        self.compiled_codes: List[CodeType] = []
+        self.compiled_codes: list[CodeType] = []
         torch._dynamo.convert_frame.register_bytecode_hook(self.bytecode_hook)
 
         # read the env var to determine whether to use the custom dispatcher
-- 
GitLab


From 0b217da646fd4cc08cd0dd20d0ea69f81d64ab35 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 13 May 2025 16:32:51 +0100
Subject: [PATCH 338/461] Update deprecated type hinting in
 `vllm/adapter_commons` (#18073)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 pyproject.toml                         |  1 -
 vllm/adapter_commons/layers.py         |  5 ++---
 vllm/adapter_commons/models.py         |  8 ++++----
 vllm/adapter_commons/utils.py          | 18 +++++++++---------
 vllm/adapter_commons/worker_manager.py |  6 +++---
 5 files changed, 18 insertions(+), 20 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index 6f5c560e8..ac8a36129 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -72,7 +72,6 @@ exclude = [
 "vllm/version.py" = ["F401"]
 "vllm/_version.py" = ["ALL"]
 # Python 3.8 typing. TODO: Remove these excludes after v1.0.0
-"vllm/adapter_commons/**/*.py" = ["UP006", "UP035"]
 "vllm/attention/**/*.py" = ["UP006", "UP035"]
 "vllm/core/**/*.py" = ["UP006", "UP035"]
 "vllm/device_allocator/**/*.py" = ["UP006", "UP035"]
diff --git a/vllm/adapter_commons/layers.py b/vllm/adapter_commons/layers.py
index 18e0c5227..9cc2b181f 100644
--- a/vllm/adapter_commons/layers.py
+++ b/vllm/adapter_commons/layers.py
@@ -1,15 +1,14 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from dataclasses import dataclass
-from typing import Tuple
 
 
 @dataclass
 class AdapterMapping:
     # Per every token in input_ids:
-    index_mapping: Tuple[int, ...]
+    index_mapping: tuple[int, ...]
     # Per sampled token:
-    prompt_mapping: Tuple[int, ...]
+    prompt_mapping: tuple[int, ...]
 
     def __post_init__(self):
         self.index_mapping = tuple(self.index_mapping)
diff --git a/vllm/adapter_commons/models.py b/vllm/adapter_commons/models.py
index f9a5d2fff..a84fbea2e 100644
--- a/vllm/adapter_commons/models.py
+++ b/vllm/adapter_commons/models.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from abc import ABC, abstractmethod
-from typing import Any, Callable, Dict, Optional, TypeVar
+from typing import Any, Callable, Optional, TypeVar
 
 from torch import nn
 
@@ -49,9 +49,9 @@ class AdapterModelManager(ABC):
             model: the model to be adapted.
         """
         self.model: nn.Module = model
-        self._registered_adapters: Dict[int, Any] = {}
+        self._registered_adapters: dict[int, Any] = {}
         # Dict instead of a Set for compatibility with LRUCache.
-        self._active_adapters: Dict[int, None] = {}
+        self._active_adapters: dict[int, None] = {}
         self.adapter_type = 'Adapter'
         self._last_mapping = None
 
@@ -97,7 +97,7 @@ class AdapterModelManager(ABC):
         raise NotImplementedError
 
     @abstractmethod
-    def list_adapters(self) -> Dict[int, Any]:
+    def list_adapters(self) -> dict[int, Any]:
         raise NotImplementedError
 
     @abstractmethod
diff --git a/vllm/adapter_commons/utils.py b/vllm/adapter_commons/utils.py
index c2dc5433c..46e9629e1 100644
--- a/vllm/adapter_commons/utils.py
+++ b/vllm/adapter_commons/utils.py
@@ -1,10 +1,10 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Callable, Dict, Optional, Set
+from typing import Any, Callable, Optional
 
 
 ## model functions
-def deactivate_adapter(adapter_id: int, active_adapters: Dict[int, None],
+def deactivate_adapter(adapter_id: int, active_adapters: dict[int, None],
                        deactivate_func: Callable) -> bool:
     if adapter_id in active_adapters:
         deactivate_func(adapter_id)
@@ -13,7 +13,7 @@ def deactivate_adapter(adapter_id: int, active_adapters: Dict[int, None],
     return False
 
 
-def add_adapter(adapter: Any, registered_adapters: Dict[int, Any],
+def add_adapter(adapter: Any, registered_adapters: dict[int, Any],
                 capacity: int, add_func: Callable) -> bool:
     if adapter.id not in registered_adapters:
         if len(registered_adapters) >= capacity:
@@ -32,23 +32,23 @@ def set_adapter_mapping(mapping: Any, last_mapping: Any,
     return last_mapping
 
 
-def remove_adapter(adapter_id: int, registered_adapters: Dict[int, Any],
+def remove_adapter(adapter_id: int, registered_adapters: dict[int, Any],
                    deactivate_func: Callable) -> bool:
     deactivate_func(adapter_id)
     return bool(registered_adapters.pop(adapter_id, None))
 
 
-def list_adapters(registered_adapters: Dict[int, Any]) -> Dict[int, Any]:
+def list_adapters(registered_adapters: dict[int, Any]) -> dict[int, Any]:
     return dict(registered_adapters)
 
 
 def get_adapter(adapter_id: int,
-                registered_adapters: Dict[int, Any]) -> Optional[Any]:
+                registered_adapters: dict[int, Any]) -> Optional[Any]:
     return registered_adapters.get(adapter_id)
 
 
 ## worker functions
-def set_active_adapters_worker(requests: Set[Any], mapping: Optional[Any],
+def set_active_adapters_worker(requests: set[Any], mapping: Optional[Any],
                                apply_adapters_func,
                                set_adapter_mapping_func) -> None:
     apply_adapters_func(requests)
@@ -66,7 +66,7 @@ def add_adapter_worker(adapter_request: Any, list_adapters_func,
     return loaded
 
 
-def apply_adapters_worker(adapter_requests: Set[Any], list_adapters_func,
+def apply_adapters_worker(adapter_requests: set[Any], list_adapters_func,
                           adapter_slots: int, remove_adapter_func,
                           add_adapter_func) -> None:
     models_that_exist = list_adapters_func()
@@ -88,5 +88,5 @@ def apply_adapters_worker(adapter_requests: Set[Any], list_adapters_func,
         add_adapter_func(models_map[adapter_id])
 
 
-def list_adapters_worker(adapter_manager_list_adapters_func) -> Set[int]:
+def list_adapters_worker(adapter_manager_list_adapters_func) -> set[int]:
     return set(adapter_manager_list_adapters_func())
diff --git a/vllm/adapter_commons/worker_manager.py b/vllm/adapter_commons/worker_manager.py
index ce24e08a5..3c1d26404 100644
--- a/vllm/adapter_commons/worker_manager.py
+++ b/vllm/adapter_commons/worker_manager.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from abc import ABC, abstractmethod
-from typing import Any, Optional, Set
+from typing import Any, Optional
 
 import torch
 
@@ -17,7 +17,7 @@ class AbstractWorkerManager(ABC):
         raise NotImplementedError
 
     @abstractmethod
-    def set_active_adapters(self, requests: Set[Any],
+    def set_active_adapters(self, requests: set[Any],
                             mapping: Optional[Any]) -> None:
         raise NotImplementedError
 
@@ -34,5 +34,5 @@ class AbstractWorkerManager(ABC):
         raise NotImplementedError
 
     @abstractmethod
-    def list_adapters(self) -> Set[int]:
+    def list_adapters(self) -> set[int]:
         raise NotImplementedError
-- 
GitLab


From 55aa7af9947244bdc427bfae01e750b1c157bd8f Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Tue, 13 May 2025 10:48:21 -0700
Subject: [PATCH 339/461] [V1] DP scale-out (2/N): Decouple engine process
 management and comms (#15977)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 tests/async_engine/test_async_llm_engine.py |   2 +-
 tests/v1/engine/test_engine_core_client.py  |  15 +-
 vllm/config.py                              |  41 ++-
 vllm/distributed/utils.py                   |   3 +-
 vllm/engine/arg_utils.py                    |  38 +++
 vllm/entrypoints/cli/serve.py               |  81 +++++-
 vllm/utils.py                               |   4 +
 vllm/v1/engine/core.py                      | 189 ++++++++-----
 vllm/v1/engine/core_client.py               | 293 ++++++++++++--------
 vllm/v1/utils.py                            | 111 +++++---
 10 files changed, 525 insertions(+), 252 deletions(-)

diff --git a/tests/async_engine/test_async_llm_engine.py b/tests/async_engine/test_async_llm_engine.py
index 48e2e31e5..b6f448714 100644
--- a/tests/async_engine/test_async_llm_engine.py
+++ b/tests/async_engine/test_async_llm_engine.py
@@ -41,7 +41,7 @@ class MockEngine:
         self.abort_request_calls = 0
         self.request_id = None
         # Ugly, remove dependency when possible
-        self.parallel_config = ParallelConfig(1, 1, False)
+        self.parallel_config = ParallelConfig()
         self.model_config = MockModelConfig()
 
     async def step_async(self, virtual_engine):
diff --git a/tests/v1/engine/test_engine_core_client.py b/tests/v1/engine/test_engine_core_client.py
index fd8d1fd7f..452fe1e37 100644
--- a/tests/v1/engine/test_engine_core_client.py
+++ b/tests/v1/engine/test_engine_core_client.py
@@ -18,9 +18,10 @@ from vllm.platforms import current_platform
 from vllm.usage.usage_lib import UsageContext
 from vllm.v1.engine import EngineCoreRequest
 from vllm.v1.engine.core import EngineCore
-from vllm.v1.engine.core_client import (AsyncMPClient, CoreEngine,
-                                        EngineCoreClient, SyncMPClient)
+from vllm.v1.engine.core_client import (AsyncMPClient, EngineCoreClient,
+                                        SyncMPClient)
 from vllm.v1.executor.abstract import Executor
+from vllm.v1.utils import CoreEngineProcManager
 
 from ...distributed.conftest import MockSubscriber
 from ...utils import create_new_process_for_each_test
@@ -348,13 +349,13 @@ def test_startup_failure(monkeypatch: pytest.MonkeyPatch):
 
         # Monkey-patch to extract core process pid while it's starting.
         core_proc_pid = [None]
-        ce_ctor = CoreEngine.__init__
+        cepm_ctor = CoreEngineProcManager.__init__
 
-        def patched_ce_ctor(self, *args, **kwargs):
-            ce_ctor(self, *args, **kwargs)
-            core_proc_pid[0] = self.proc_handle.proc.pid
+        def patched_cepm_ctor(self: CoreEngineProcManager, *args, **kwargs):
+            cepm_ctor(self, *args, **kwargs)
+            core_proc_pid[0] = self.processes[0].pid
 
-        m.setattr(CoreEngine, "__init__", patched_ce_ctor)
+        m.setattr(CoreEngineProcManager, "__init__", patched_cepm_ctor)
 
         t = time.time()
         engine_args = EngineArgs(model=MODEL_NAME)
diff --git a/vllm/config.py b/vllm/config.py
index dd0791537..d8eabfb2e 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -1668,25 +1668,17 @@ class ParallelConfig:
     data_parallel_size: int = 1
     """Number of data parallel groups. MoE layers will be sharded according to
     the product of the tensor parallel size and data parallel size."""
+    data_parallel_size_local: int = 1
+    """Number of local data parallel groups."""
     data_parallel_rank: int = 0
     """Rank of the data parallel group."""
-    _data_parallel_rank_local: Optional[int] = field(default=None, init=False)
-    """Private field to store the local rank of the data parallel group."""
-
-    @property
-    def data_parallel_rank_local(self) -> int:
-        """Local rank of the data parallel group, defaults to global rank."""
-        if self._data_parallel_rank_local is None:
-            return self.data_parallel_rank
-        return self._data_parallel_rank_local
-
-    @data_parallel_rank_local.setter
-    def data_parallel_rank_local(self, value: int) -> None:
-        """Set the local rank of the data parallel group."""
-        self._data_parallel_rank_local = value
-
+    data_parallel_rank_local: Optional[int] = None
+    """Local rank of the data parallel group,
+    set only in SPMD mode."""
     data_parallel_master_ip: str = "127.0.0.1"
     """IP of the data parallel master."""
+    data_parallel_rpc_port: int = 29550
+    """Port for data parallel messaging."""
     data_parallel_master_port: int = 29500
     """Port of the data parallel master."""
     enable_expert_parallel: bool = False
@@ -1734,13 +1726,16 @@ class ParallelConfig:
 
     world_size: int = field(init=False)
     """world_size is TPxPP, it affects the number of workers we create."""
-    world_size_across_dp: int = field(init=False)
-    """world_size_across_dp is TPxPPxDP, it is the size of the world
-    including data parallelism."""
 
     rank: int = 0
     """Global rank in distributed setup."""
 
+    @property
+    def world_size_across_dp(self) -> int:
+        """world_size_across_dp is TPxPPxDP, it is the size of the world
+        including data parallelism."""
+        return self.world_size * self.data_parallel_size
+
     def get_next_dp_init_port(self) -> int:
         """
         We might need to initialize process groups in multiple
@@ -1800,10 +1795,14 @@ class ParallelConfig:
         self.world_size = self.pipeline_parallel_size * \
             self.tensor_parallel_size
 
-        if self.data_parallel_size > 1:
+        if self.data_parallel_size_local > self.data_parallel_size:
+            raise ValueError(
+                f"data_parallel_size_local ({self.data_parallel_size_local}) "
+                f"must be <= data_parallel_size ({self.data_parallel_size})")
+
+        if self.data_parallel_size > 1 or self.data_parallel_size_local == 0:
             # Data parallel was specified in the engine args.
             self.data_parallel_master_port = get_open_port()
-            # TODO multi-node
         else:
             # Otherwise fall back to env vars (e.g. for offline SPMD case).
             self.data_parallel_size = envs.VLLM_DP_SIZE
@@ -1812,8 +1811,6 @@ class ParallelConfig:
             self.data_parallel_master_ip = envs.VLLM_DP_MASTER_IP
             self.data_parallel_master_port = envs.VLLM_DP_MASTER_PORT
 
-        self.world_size_across_dp = self.world_size * self.data_parallel_size
-
         if self.distributed_executor_backend == "external_launcher":
             import os
             os.environ["VLLM_ENABLE_V1_MULTIPROCESSING"] = "0"
diff --git a/vllm/distributed/utils.py b/vllm/distributed/utils.py
index e4d4008cd..a8f292c6e 100644
--- a/vllm/distributed/utils.py
+++ b/vllm/distributed/utils.py
@@ -22,6 +22,7 @@ from torch.distributed.rendezvous import rendezvous
 
 import vllm.envs as envs
 from vllm.logger import init_logger
+from vllm.utils import get_tcp_uri
 
 logger = init_logger(__name__)
 
@@ -303,7 +304,7 @@ def stateless_init_torch_distributed_process_group(
     always formed with process 1, 2, ..., 8, and the additional communication
     channel is formed with process 9 and 10.
     """
-    init_method = f"tcp://{host}:{port}"
+    init_method = get_tcp_uri(host, port)
     backend = Backend(backend)  # it is basically string
     timeout = _get_default_timeout(backend)
 
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index bba05c4c3..240142a1c 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -283,6 +283,9 @@ class EngineArgs:
     pipeline_parallel_size: int = ParallelConfig.pipeline_parallel_size
     tensor_parallel_size: int = ParallelConfig.tensor_parallel_size
     data_parallel_size: int = ParallelConfig.data_parallel_size
+    data_parallel_size_local: Optional[int] = None
+    data_parallel_address: Optional[str] = None
+    data_parallel_rpc_port: Optional[int] = None
     enable_expert_parallel: bool = ParallelConfig.enable_expert_parallel
     max_parallel_loading_workers: Optional[
         int] = ParallelConfig.max_parallel_loading_workers
@@ -596,6 +599,21 @@ class EngineArgs:
                                     **parallel_kwargs["tensor_parallel_size"])
         parallel_group.add_argument("--data-parallel-size", "-dp",
                                     **parallel_kwargs["data_parallel_size"])
+        parallel_group.add_argument('--data-parallel-size-local',
+                                    '-dpl',
+                                    type=int,
+                                    help='Number of data parallel replicas '
+                                    'to run on this node.')
+        parallel_group.add_argument('--data-parallel-address',
+                                    '-dpa',
+                                    type=str,
+                                    help='Address of data parallel cluster '
+                                    'head-node.')
+        parallel_group.add_argument('--data-parallel-rpc-port',
+                                    '-dpp',
+                                    type=int,
+                                    help='Port for data parallel RPC '
+                                    'communication.')
         parallel_group.add_argument(
             "--enable-expert-parallel",
             **parallel_kwargs["enable_expert_parallel"])
@@ -1019,10 +1037,30 @@ class EngineArgs:
             # but we should not do this here.
             placement_group = ray.util.get_current_placement_group()
 
+        # Local DP size defaults to global DP size if not set.
+        data_parallel_size_local = self.data_parallel_size if (
+            self.data_parallel_size_local
+            is None) else self.data_parallel_size_local
+
+        # DP address, used in multi-node case for torch distributed group
+        # and ZMQ sockets.
+        data_parallel_address = self.data_parallel_address if (
+            self.data_parallel_address
+            is not None) else ParallelConfig.data_parallel_master_ip
+
+        # This port is only used when there are remote data parallel engines,
+        # otherwise the local IPC transport is used.
+        data_parallel_rpc_port = self.data_parallel_rpc_port if (
+            self.data_parallel_rpc_port
+            is not None) else ParallelConfig.data_parallel_rpc_port
+
         parallel_config = ParallelConfig(
             pipeline_parallel_size=self.pipeline_parallel_size,
             tensor_parallel_size=self.tensor_parallel_size,
             data_parallel_size=self.data_parallel_size,
+            data_parallel_size_local=data_parallel_size_local,
+            data_parallel_master_ip=data_parallel_address,
+            data_parallel_rpc_port=data_parallel_rpc_port,
             enable_expert_parallel=self.enable_expert_parallel,
             max_parallel_loading_workers=self.max_parallel_loading_workers,
             disable_custom_all_reduce=self.disable_custom_all_reduce,
diff --git a/vllm/entrypoints/cli/serve.py b/vllm/entrypoints/cli/serve.py
index 5c8781b50..04be7c033 100644
--- a/vllm/entrypoints/cli/serve.py
+++ b/vllm/entrypoints/cli/serve.py
@@ -1,14 +1,24 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import argparse
+import signal
 
 import uvloop
 
+import vllm.envs as envs
+from vllm import AsyncEngineArgs
 from vllm.entrypoints.cli.types import CLISubcommand
 from vllm.entrypoints.openai.api_server import run_server
 from vllm.entrypoints.openai.cli_args import (make_arg_parser,
                                               validate_parsed_serve_args)
-from vllm.utils import FlexibleArgumentParser
+from vllm.logger import init_logger
+from vllm.usage.usage_lib import UsageContext
+from vllm.utils import FlexibleArgumentParser, get_tcp_uri
+from vllm.v1.engine.core import EngineCoreProc
+from vllm.v1.engine.core_client import CoreEngineProcManager
+from vllm.v1.executor.abstract import Executor
+
+logger = init_logger(__name__)
 
 
 class ServeSubcommand(CLISubcommand):
@@ -24,7 +34,10 @@ class ServeSubcommand(CLISubcommand):
         if hasattr(args, 'model_tag') and args.model_tag is not None:
             args.model = args.model_tag
 
-        uvloop.run(run_server(args))
+        if args.headless:
+            run_headless(args)
+        else:
+            uvloop.run(run_server(args))
 
     def validate(self, args: argparse.Namespace) -> None:
         validate_parsed_serve_args(args)
@@ -42,6 +55,18 @@ class ServeSubcommand(CLISubcommand):
                                   nargs='?',
                                   help="The model tag to serve "
                                   "(optional if specified in config)")
+        serve_parser.add_argument(
+            "--headless",
+            action='store_true',
+            default=False,
+            help="Run in headless mode. See multi-node data parallel "
+            "documentation for more details.")
+        serve_parser.add_argument(
+            '--data-parallel-start-rank',
+            '-dpr',
+            type=int,
+            default=0,
+            help='Starting data parallel rank for secondary nodes.')
         serve_parser.add_argument(
             "--config",
             type=str,
@@ -57,3 +82,55 @@ class ServeSubcommand(CLISubcommand):
 
 def cmd_init() -> list[CLISubcommand]:
     return [ServeSubcommand()]
+
+
+def run_headless(args: argparse.Namespace):
+
+    # Create the EngineConfig.
+    engine_args = AsyncEngineArgs.from_cli_args(args)
+    usage_context = UsageContext.OPENAI_API_SERVER
+    vllm_config = engine_args.create_engine_config(usage_context=usage_context)
+
+    if not envs.VLLM_USE_V1:
+        raise RuntimeError("Headless mode is only supported for V1")
+
+    parallel_config = vllm_config.parallel_config
+    local_engine_count = parallel_config.data_parallel_size_local
+    host = parallel_config.data_parallel_master_ip
+    port = engine_args.data_parallel_rpc_port  # add to config too
+    input_address = get_tcp_uri(host, port)
+
+    if local_engine_count <= 0:
+        raise RuntimeError("data_parallel_size_local must be > 0 in "
+                           "headless mode")
+
+    # Catch SIGTERM and SIGINT to allow graceful shutdown.
+    def signal_handler(signum, frame):
+        logger.debug("Received %d signal.", signum)
+        raise SystemExit
+
+    signal.signal(signal.SIGTERM, signal_handler)
+    signal.signal(signal.SIGINT, signal_handler)
+
+    logger.info(
+        "Launching %d data parallel engine(s) in headless mode, "
+        "with head node address %s.", local_engine_count, input_address)
+
+    # Create the engines.
+    engine_manager = CoreEngineProcManager(
+        target_fn=EngineCoreProc.run_engine_core,
+        local_engine_count=local_engine_count,
+        start_index=args.data_parallel_start_rank,
+        local_start_index=0,
+        vllm_config=vllm_config,
+        on_head_node=False,
+        input_address=input_address,
+        executor_class=Executor.get_class(vllm_config),
+        log_stats=not engine_args.disable_log_stats,
+    )
+
+    try:
+        engine_manager.join_first()
+    finally:
+        logger.info("Shutting down.")
+        engine_manager.close()
diff --git a/vllm/utils.py b/vllm/utils.py
index 59635a25e..9a7da8067 100644
--- a/vllm/utils.py
+++ b/vllm/utils.py
@@ -613,6 +613,10 @@ def is_valid_ipv6_address(address: str) -> bool:
 
 
 def get_distributed_init_method(ip: str, port: int) -> str:
+    return get_tcp_uri(ip, port)
+
+
+def get_tcp_uri(ip: str, port: int) -> str:
     # Brackets are not permitted in ipv4 addresses,
     # see https://github.com/python/cpython/issues/103848
     return f"tcp://[{ip}]:{port}" if ":" in ip else f"tcp://{ip}:{port}"
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index bc410befb..edc79ae20 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -1,5 +1,4 @@
 # SPDX-License-Identifier: Apache-2.0
-import json
 import os
 import queue
 import signal
@@ -23,7 +22,7 @@ from vllm.logging_utils.dump_input import dump_engine_exception
 from vllm.lora.request import LoRARequest
 from vllm.transformers_utils.config import (
     maybe_register_config_serialize_by_value)
-from vllm.utils import resolve_obj_by_qualname, zmq_socket_ctx
+from vllm.utils import make_zmq_socket, resolve_obj_by_qualname, zmq_socket_ctx
 from vllm.v1.core.kv_cache_utils import (get_kv_cache_config,
                                          unify_kv_cache_configs)
 from vllm.v1.core.sched.interface import SchedulerInterface
@@ -43,6 +42,7 @@ from vllm.version import __version__ as VLLM_VERSION
 logger = init_logger(__name__)
 
 POLLING_TIMEOUT_S = 2.5
+HANDSHAKE_TIMEOUT_MINS = 5
 
 _R = TypeVar('_R')  # Return type for collective_rpc
 
@@ -348,9 +348,9 @@ class EngineCoreProc(EngineCore):
 
     def __init__(
         self,
-        input_path: str,
-        output_path: str,
         vllm_config: VllmConfig,
+        on_head_node: bool,
+        input_address: str,
         executor_class: type[Executor],
         log_stats: bool,
         engine_index: int = 0,
@@ -360,28 +360,91 @@ class EngineCoreProc(EngineCore):
         executor_fail_callback = lambda: input_queue.put_nowait(
             (EngineCoreRequestType.EXECUTOR_FAILED, b''))
 
-        super().__init__(vllm_config, executor_class, log_stats,
-                         executor_fail_callback)
-
-        self.step_fn = (self.step if self.batch_queue is None else
-                        self.step_with_batch_queue)
-        self.engines_running = False
-
-        # Background Threads and Queues for IO. These enable us to
-        # overlap ZMQ socket IO with GPU since they release the GIL,
-        # and to overlap some serialization/deserialization with the
-        # model forward pass.
-        # Threads handle Socket <-> Queues and core_busy_loop uses Queue.
-        self.input_queue = input_queue
-        self.output_queue = queue.Queue[Union[EngineCoreOutputs, bytes]]()
-        threading.Thread(target=self.process_input_socket,
-                         args=(input_path, engine_index),
-                         daemon=True).start()
-        self.output_thread = threading.Thread(
-            target=self.process_output_socket,
-            args=(output_path, engine_index),
-            daemon=True)
-        self.output_thread.start()
+        # Create input socket.
+        input_ctx = zmq.Context()
+        identity = engine_index.to_bytes(length=2, byteorder="little")
+        input_socket = make_zmq_socket(input_ctx,
+                                       input_address,
+                                       zmq.DEALER,
+                                       identity=identity,
+                                       bind=False)
+        try:
+            # Register engine with front-end.
+            output_address = self.startup_handshake(
+                input_socket, on_head_node, vllm_config.parallel_config)
+
+            # Update config which may have changed from the handshake.
+            vllm_config.__post_init__()
+
+            # Set up data parallel environment.
+            self._init_data_parallel(vllm_config)
+
+            # Initialize engine core and model.
+            super().__init__(vllm_config, executor_class, log_stats,
+                             executor_fail_callback)
+
+            self.step_fn = (self.step if self.batch_queue is None else
+                            self.step_with_batch_queue)
+            self.engines_running = False
+
+            # Send ready message.
+            num_gpu_blocks = vllm_config.cache_config.num_gpu_blocks
+            input_socket.send(
+                msgspec.msgpack.encode({
+                    "status": "READY",
+                    "local": on_head_node,
+                    "num_gpu_blocks": num_gpu_blocks,
+                }))
+
+            # Background Threads and Queues for IO. These enable us to
+            # overlap ZMQ socket IO with GPU since they release the GIL,
+            # and to overlap some serialization/deserialization with the
+            # model forward pass.
+            # Threads handle Socket <-> Queues and core_busy_loop uses Queue.
+            self.input_queue = input_queue
+            self.output_queue = queue.Queue[Union[EngineCoreOutputs, bytes]]()
+            threading.Thread(target=self.process_input_socket,
+                             args=(input_socket, ),
+                             daemon=True).start()
+            input_socket = None
+            self.output_thread = threading.Thread(
+                target=self.process_output_socket,
+                args=(output_address, engine_index),
+                daemon=True)
+            self.output_thread.start()
+        finally:
+            if input_socket is not None:
+                input_socket.close(linger=0)
+
+    @staticmethod
+    def startup_handshake(input_socket: zmq.Socket, on_head_node: bool,
+                          parallel_config: ParallelConfig) -> str:
+
+        # Send registration message.
+        input_socket.send(
+            msgspec.msgpack.encode({
+                "status": "HELLO",
+                "local": on_head_node,
+            }))
+
+        # Receive initialization message.
+        logger.info("Waiting for init message from front-end.")
+        if not input_socket.poll(timeout=HANDSHAKE_TIMEOUT_MINS * 60 * 1000):
+            raise RuntimeError("Did not receive response from front-end "
+                               f"process within {HANDSHAKE_TIMEOUT_MINS} "
+                               f"minutes")
+        init_bytes = input_socket.recv()
+        init_message = msgspec.msgpack.decode(init_bytes)
+        logger.debug("Received init message: %s", init_message)
+
+        output_socket_address = init_message["output_socket_address"]
+        #TBD(nick) maybe replace IP with configured head node address
+
+        received_parallel_config = init_message["parallel_config"]
+        for key, value in received_parallel_config.items():
+            setattr(parallel_config, key, value)
+
+        return output_socket_address
 
     @staticmethod
     def run_engine_core(*args,
@@ -412,7 +475,7 @@ class EngineCoreProc(EngineCore):
         try:
             parallel_config: ParallelConfig = kwargs[
                 "vllm_config"].parallel_config
-            if parallel_config.data_parallel_size > 1:
+            if parallel_config.data_parallel_size > 1 or dp_rank > 0:
                 # Set data parallel rank for this engine process.
                 parallel_config.data_parallel_rank = dp_rank
                 parallel_config.data_parallel_rank_local = local_dp_rank
@@ -436,6 +499,9 @@ class EngineCoreProc(EngineCore):
             if engine_core is not None:
                 engine_core.shutdown()
 
+    def _init_data_parallel(self, vllm_config: VllmConfig):
+        pass
+
     def run_busy_loop(self):
         """Core busy loop of the EngineCore."""
 
@@ -527,40 +593,25 @@ class EngineCoreProc(EngineCore):
             logger.fatal("vLLM shutdown signal from EngineCore failed "
                          "to send. Please report this issue.")
 
-    def process_input_socket(self, input_path: str, engine_index: int):
+    def process_input_socket(self, input_socket: zmq.Socket):
         """Input socket IO thread."""
 
         # Msgpack serialization decoding.
         add_request_decoder = MsgpackDecoder(EngineCoreRequest)
         generic_decoder = MsgpackDecoder()
-        identity = engine_index.to_bytes(length=2, byteorder="little")
 
-        with zmq_socket_ctx(input_path,
-                            zmq.DEALER,
-                            identity=identity,
-                            bind=False) as socket:
-
-            # Send ready message to front-end once input socket is connected.
-            message_dict = {
-                'type': 'READY',
-                'num_gpu_blocks': self.vllm_config.cache_config.num_gpu_blocks,
-            }
-            message = json.dumps(message_dict).encode('utf-8')
-            socket.send(message)
-
-            while True:
-                # (RequestType, RequestData)
-                type_frame, *data_frames = socket.recv_multipart(copy=False)
-                request_type = EngineCoreRequestType(bytes(type_frame.buffer))
+        while True:
+            # (RequestType, RequestData)
+            type_frame, *data_frames = input_socket.recv_multipart(copy=False)
+            request_type = EngineCoreRequestType(bytes(type_frame.buffer))
 
-                # Deserialize the request data.
-                decoder = add_request_decoder if (
-                    request_type
-                    == EngineCoreRequestType.ADD) else generic_decoder
-                request = decoder.decode(data_frames)
+            # Deserialize the request data.
+            decoder = add_request_decoder if (
+                request_type == EngineCoreRequestType.ADD) else generic_decoder
+            request = decoder.decode(data_frames)
 
-                # Push to input queue for core busy loop.
-                self.input_queue.put_nowait((request_type, request))
+            # Push to input queue for core busy loop.
+            self.input_queue.put_nowait((request_type, request))
 
     def process_output_socket(self, output_path: str, engine_index: int):
         """Output socket IO thread."""
@@ -609,9 +660,9 @@ class DPEngineCoreProc(EngineCoreProc):
 
     def __init__(
         self,
-        input_path: str,
-        output_path: str,
         vllm_config: VllmConfig,
+        on_head_node: bool,
+        input_address: str,
         executor_class: type[Executor],
         log_stats: bool,
     ):
@@ -623,8 +674,20 @@ class DPEngineCoreProc(EngineCoreProc):
         _add_prefix(sys.stdout, process_name, pid)
         _add_prefix(sys.stderr, process_name, pid)
 
-        dp_size = vllm_config.parallel_config.data_parallel_size
+        # Counts forward-passes of the model so that we can synchronize
+        # finished with DP peers every N steps.
+        self.counter = 0
+
+        # Initialize the engine.
+        dp_rank = vllm_config.parallel_config.data_parallel_rank
+        super().__init__(vllm_config, on_head_node, input_address,
+                         executor_class, log_stats, dp_rank)
+
+    def _init_data_parallel(self, vllm_config: VllmConfig):
+
+        # Configure GPUs and stateless process group for data parallel.
         dp_rank = vllm_config.parallel_config.data_parallel_rank
+        dp_size = vllm_config.parallel_config.data_parallel_size
         local_dp_rank = vllm_config.parallel_config.data_parallel_rank_local
 
         assert dp_size > 1
@@ -632,24 +695,16 @@ class DPEngineCoreProc(EngineCoreProc):
 
         from vllm.platforms import current_platform
         device_control_env_var = current_platform.device_control_env_var
-        tp_size = vllm_config.parallel_config.tensor_parallel_size
+        world_size = vllm_config.parallel_config.world_size
         os.environ[device_control_env_var] = ",".join(
             str(current_platform.device_id_to_physical_device_id(i))
-            for i in range(local_dp_rank * tp_size, (local_dp_rank + 1) *
-                           tp_size))
+            for i in range(local_dp_rank * world_size, (local_dp_rank + 1) *
+                           world_size))
 
         self.local_dp_rank = local_dp_rank
         self.dp_group = vllm_config.parallel_config.stateless_init_dp_group()
         self.current_wave = 0
 
-        # Initialize the engine after setting up environment.
-        super().__init__(input_path, output_path, vllm_config, executor_class,
-                         log_stats, dp_rank)
-
-        # Counts forward-passes of the model so that we can synchronize
-        # finished with DP peers every N steps.
-        self.counter = 0
-
     def shutdown(self):
         super().shutdown()
         if dp_group := getattr(self, "dp_group", None):
diff --git a/vllm/v1/engine/core_client.py b/vllm/v1/engine/core_client.py
index c33317edc..0d52bc9a6 100644
--- a/vllm/v1/engine/core_client.py
+++ b/vllm/v1/engine/core_client.py
@@ -1,7 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 import asyncio
 import contextlib
-import json
 import queue
 import uuid
 import weakref
@@ -9,25 +8,27 @@ from abc import ABC, abstractmethod
 from collections import deque
 from collections.abc import Awaitable, Sequence
 from concurrent.futures import Future
-from dataclasses import dataclass, field
+from dataclasses import dataclass
+from enum import Enum, auto
 from threading import Thread
 from typing import Any, Callable, Optional, TypeVar, Union
 
+import msgspec
 import zmq
 import zmq.asyncio
 
-from vllm.config import VllmConfig
+from vllm.config import ParallelConfig, VllmConfig
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
-from vllm.utils import (get_open_zmq_inproc_path, get_open_zmq_ipc_path,
-                        make_zmq_socket)
+from vllm.utils import (get_open_port, get_open_zmq_inproc_path,
+                        get_open_zmq_ipc_path, get_tcp_uri, make_zmq_socket)
 from vllm.v1.engine import (EngineCoreOutputs, EngineCoreRequest,
                             EngineCoreRequestType, UtilityOutput)
 from vllm.v1.engine.core import EngineCore, EngineCoreProc
 from vllm.v1.engine.exceptions import EngineDeadError
 from vllm.v1.executor.abstract import Executor
 from vllm.v1.serial_utils import MsgpackDecoder, MsgpackEncoder, bytestr
-from vllm.v1.utils import BackgroundProcHandle
+from vllm.v1.utils import CoreEngineProcManager
 
 logger = init_logger(__name__)
 
@@ -264,45 +265,22 @@ class InprocClient(EngineCoreClient):
         return self.engine_core.collective_rpc(method, timeout, args, kwargs)
 
 
+class CoreEngineState(Enum):
+    NEW = auto()
+    CONNECTED = auto()
+    READY = auto()
+
+
 class CoreEngine:
     """One per data parallel rank."""
 
-    def __init__(
-        self,
-        vllm_config: VllmConfig,
-        executor_class: type[Executor],
-        log_stats: bool,
-        input_path: str,
-        output_path: str,
-        index: int = 0,
-        local_dp_rank: int = 0,
-    ):
+    def __init__(self, index: int = 0, local: bool = True):
+        self.local = local
         self.index = index
         self.identity = index.to_bytes(length=2, byteorder="little")
-        try:
-            # Start EngineCore in background process.
-            self.proc_handle = BackgroundProcHandle(
-                input_path=input_path,
-                output_path=output_path,
-                process_name=f"EngineCore_{index}",
-                target_fn=EngineCoreProc.run_engine_core,
-                process_kwargs={
-                    "vllm_config": vllm_config,
-                    "dp_rank": index,
-                    "local_dp_rank": local_dp_rank,
-                    "executor_class": executor_class,
-                    "log_stats": log_stats,
-                })
-
-            self.num_reqs_in_flight = 0
-        finally:
-            if not hasattr(self, "num_reqs_in_flight"):
-                # Ensure socket is closed if process fails to start.
-                self.close()
 
-    def close(self):
-        if proc_handle := getattr(self, "proc_handle", None):
-            proc_handle.shutdown()
+        self.state = CoreEngineState.NEW
+        self.num_reqs_in_flight = 0
 
 
 @dataclass
@@ -311,7 +289,7 @@ class BackgroundResources:
     circular reference back to the client object."""
 
     ctx: Union[zmq.Context]
-    core_engines: list[CoreEngine] = field(default_factory=list)
+    local_engine_manager: Optional[CoreEngineProcManager] = None
     output_socket: Optional[Union[zmq.Socket, zmq.asyncio.Socket]] = None
     input_socket: Optional[Union[zmq.Socket, zmq.asyncio.Socket]] = None
     output_queue_task: Optional[asyncio.Task] = None
@@ -325,8 +303,8 @@ class BackgroundResources:
         """Clean up background resources."""
 
         self.engine_dead = True
-        for core_engine in self.core_engines:
-            core_engine.close()
+        if self.local_engine_manager is not None:
+            self.local_engine_manager.close()
 
         if self.output_queue_task is not None:
             self.output_queue_task.cancel()
@@ -388,25 +366,56 @@ class MPClient(EngineCoreClient):
         self._finalizer = weakref.finalize(self, self.resources)
         success = False
         try:
-            # Paths and sockets for IPC.
-            self.output_path = get_open_zmq_ipc_path()
-            input_path = get_open_zmq_ipc_path()
-            self.input_socket = make_zmq_socket(self.ctx,
-                                                input_path,
-                                                zmq.ROUTER,
-                                                bind=True)
-            self.resources.input_socket = self.input_socket
-
-            new_core_engine = lambda index, local_dp_rank=None: CoreEngine(
-                vllm_config, executor_class, log_stats, input_path, self.
-                output_path, index, local_dp_rank)
-
-            # Start engine core process(es).
-            self._init_core_engines(vllm_config, new_core_engine,
-                                    self.resources.core_engines)
+            parallel_config = vllm_config.parallel_config
+            local_engine_count = parallel_config.data_parallel_size_local
+            start_index = parallel_config.data_parallel_rank
+            local_start_index = parallel_config.data_parallel_rank_local
+
+            # SPMD mode is where there is an LLM instance per DP rank and
+            # one core engine per LLM, see
+            # examples/offline_inference/data_parallel.py.
+            spmd_mode = local_start_index is not None
+            if spmd_mode:
+                assert local_engine_count == 1
+                self.core_engines = [
+                    CoreEngine(index=local_start_index, local=True)
+                ]
+            else:
+                assert start_index == 0
+                local_start_index = 0
+                self.core_engines = [
+                    CoreEngine(index=i, local=(i < local_engine_count))
+                    for i in range(parallel_config.data_parallel_size)
+                ]
+
+            input_address, output_address = self._get_zmq_addresses(
+                parallel_config, spmd_mode)
+
+            # Create input and output sockets.
+            self.input_socket = self.resources.input_socket = make_zmq_socket(
+                self.ctx, input_address, zmq.ROUTER, bind=True)
+
+            self.resources.output_socket = make_zmq_socket(
+                self.ctx, output_address, zmq.constants.PULL)
+            # Start local engines.
+            if local_engine_count:
+                # In server mode, start_index and local_start_index will
+                # both be 0.
+                self.resources.local_engine_manager = CoreEngineProcManager(
+                    EngineCoreProc.run_engine_core,
+                    vllm_config=vllm_config,
+                    executor_class=executor_class,
+                    log_stats=log_stats,
+                    input_address=input_address,
+                    on_head_node=True,
+                    local_engine_count=local_engine_count,
+                    start_index=start_index,
+                    local_start_index=local_start_index)
+
+            self.core_engine = self.core_engines[0]
 
             # Wait for engine core process(es) to start.
-            self._wait_for_engine_startup()
+            self._wait_for_engine_startup(output_address, parallel_config)
 
             self.utility_results: dict[int, AnyFuture] = {}
 
@@ -420,56 +429,116 @@ class MPClient(EngineCoreClient):
             if not success:
                 self._finalizer()
 
-    def _wait_for_engine_startup(self):
+    @staticmethod
+    def _get_zmq_addresses(parallel_config: ParallelConfig,
+                           spmd_mode: bool) -> tuple[str, str]:
+        """Returns (input_address, output_address)."""
+        dp_size = parallel_config.data_parallel_size
+        local_engine_count = parallel_config.data_parallel_size_local
+
+        if local_engine_count == dp_size or spmd_mode:
+            input_address = get_open_zmq_ipc_path()
+            output_address = get_open_zmq_ipc_path()
+        else:
+            host = parallel_config.data_parallel_master_ip
+            input_port = parallel_config.data_parallel_rpc_port
+            output_port = get_open_port()
+            input_address = get_tcp_uri(host, input_port)
+            output_address = get_tcp_uri(host, output_port)
+
+        return input_address, output_address
+
+    def _wait_for_engine_startup(self, output_address: str,
+                                 parallel_config: ParallelConfig):
         # Get a sync handle to the socket which can be sync or async.
         sync_input_socket = zmq.Socket.shadow(self.input_socket)
 
         # Wait for engine core process(es) to send ready messages.
-        identities = set(eng.index for eng in self.resources.core_engines)
+        local_count = parallel_config.data_parallel_size_local
+        remote_count = len(self.core_engines) - local_count
+        # [local, remote] counts
+        conn_pending, start_pending = [local_count, remote_count], [0, 0]
+
         poller = zmq.Poller()
         poller.register(sync_input_socket, zmq.POLLIN)
-        for eng in self.resources.core_engines:
-            poller.register(eng.proc_handle, zmq.POLLIN)
-        while identities:
+        proc_manager = self.resources.local_engine_manager
+        if proc_manager is not None:
+            for sentinel in proc_manager.sentinels():
+                poller.register(sentinel, zmq.POLLIN)
+        while any(conn_pending) or any(start_pending):
             events = poller.poll(STARTUP_POLL_PERIOD_MS)
             if not events:
-                logger.debug("Waiting for %d core engine proc(s) to start: %s",
-                             len(identities), identities)
+                if any(conn_pending):
+                    logger.debug(
+                        "Waiting for %d local, %d remote core engine proc(s) "
+                        "to connect.", *conn_pending)
+                if any(start_pending):
+                    logger.debug(
+                        "Waiting for %d local, %d remote core engine proc(s) "
+                        "to start.", *start_pending)
                 continue
             if len(events) > 1 or events[0][0] != sync_input_socket:
-                # One of the core processes exited.
+                # One of the local core processes exited.
+                finished = proc_manager.finished_procs(
+                ) if proc_manager else {}
                 raise RuntimeError("Engine core initialization failed. "
-                                   "See root cause above.")
-
-            eng_id_bytes, data = sync_input_socket.recv_multipart()
-            eng_id = int.from_bytes(eng_id_bytes, byteorder="little")
-            if eng_id not in identities:
-                raise RuntimeError(f"Unexpected or duplicate engine: {eng_id}")
-            message_dict = json.loads(data.decode('utf-8'))
-            if message_dict['type'] != 'READY':
-                raise RuntimeError(f"Engine {eng_id} failed: {data.decode()}")
-            logger.info("Core engine process %d ready.", eng_id)
-            identities.discard(eng_id)
-            # Setup KV cache config with initialization state from
-            # engine core process. Sum values from all engines in DP case.
-            num_gpu_blocks = self.vllm_config.cache_config.num_gpu_blocks or 0
-            num_gpu_blocks += message_dict['num_gpu_blocks']
-            self.vllm_config.cache_config.num_gpu_blocks = num_gpu_blocks
-
-    def _init_core_engines(
-        self,
-        vllm_config: VllmConfig,
-        new_core_engine: Callable[[int, Optional[int]], CoreEngine],
-        core_engines: list[CoreEngine],
-    ) -> None:
-
-        # Default case - single core engine.
-        core_engine = new_core_engine(
-            vllm_config.parallel_config.data_parallel_rank,
-            vllm_config.parallel_config.data_parallel_rank_local,
-        )
-        core_engines.append(core_engine)
-        self.core_engine = core_engine
+                                   "See root cause above. "
+                                   f"Failed core proc(s): {finished}")
+
+            # Receive HELLO and READY messages from the input socket.
+            eng_identity, ready_msg_bytes = sync_input_socket.recv_multipart()
+            eng_index = int.from_bytes(eng_identity, byteorder="little")
+            engine = next(
+                (e for e in self.core_engines if e.identity == eng_identity),
+                None)
+            if engine is None:
+                raise RuntimeError(f"Message from engine with unexpected data "
+                                   f"parallel rank: {eng_index}")
+            msg = msgspec.msgpack.decode(ready_msg_bytes)
+            status, local = msg["status"], msg["local"]
+            if local != engine.local:
+                raise RuntimeError(f"{status} message from "
+                                   f"{'local' if local else 'remote'} "
+                                   f"engine {eng_index}, expected it to be "
+                                   f"{'local' if engine.local else 'remote'}")
+
+            if status == "HELLO" and engine.state == CoreEngineState.NEW:
+
+                # Send init message with DP config info.
+                init_message = self.encoder.encode({
+                    "output_socket_address": output_address,
+                    "parallel_config": {
+                        "data_parallel_master_ip":
+                        parallel_config.data_parallel_master_ip,
+                        "data_parallel_master_port":
+                        parallel_config.data_parallel_master_port,
+                        "data_parallel_size":
+                        parallel_config.data_parallel_size,
+                    },
+                })
+                sync_input_socket.send_multipart((eng_identity, *init_message),
+                                                 copy=False)
+                conn_pending[0 if local else 1] -= 1
+                start_pending[0 if local else 1] += 1
+                engine.state = CoreEngineState.CONNECTED
+            elif status == "READY" and (engine.state
+                                        == CoreEngineState.CONNECTED):
+                # Setup KV cache config with initialization state from
+                # engine core process. Sum values from all engines in DP case.
+                cache_config = self.vllm_config.cache_config
+                num_gpu_blocks = cache_config.num_gpu_blocks or 0
+                num_gpu_blocks += msg['num_gpu_blocks']
+                cache_config.num_gpu_blocks = num_gpu_blocks
+
+                start_pending[0 if local else 1] -= 1
+                engine.state = CoreEngineState.READY
+            else:
+                raise RuntimeError(f"Unexpected {status} message for "
+                                   f"{'local' if local else 'remote'} engine "
+                                   f"{eng_index} in {engine.state} state.")
+
+            logger.debug("%s from %s core engine process %s.", status,
+                         "local" if local else "remote", eng_index)
 
     def shutdown(self):
         # Terminate background resources.
@@ -520,7 +589,8 @@ class SyncMPClient(MPClient):
         # Ensure that the outputs socket processing thread does not have
         # a ref to the client which prevents gc.
         ctx = self.ctx
-        output_path = self.output_path
+        out_socket = self.resources.output_socket
+        assert out_socket is not None
         decoder = self.decoder
         utility_results = self.utility_results
         outputs_queue = self.outputs_queue
@@ -531,7 +601,6 @@ class SyncMPClient(MPClient):
 
         def process_outputs_socket():
             shutdown_socket = ctx.socket(zmq.PAIR)
-            out_socket = make_zmq_socket(ctx, output_path, zmq.constants.PULL)
             try:
                 shutdown_socket.bind(shutdown_path)
                 poller = zmq.Poller()
@@ -566,6 +635,9 @@ class SyncMPClient(MPClient):
                                           daemon=True)
         self.output_queue_thread.start()
 
+        # The thread takes on responsibility for closing the socket.
+        self.resources.output_socket = None
+
     def get_output(self) -> EngineCoreOutputs:
         # If an exception arises in process_outputs_socket task,
         # it is forwarded to the outputs_queue so we can raise it
@@ -693,10 +765,8 @@ class AsyncMPClient(MPClient):
                                               self.__class__,
                                               "process_engine_outputs", None)
         _self_ref = weakref.ref(self) if output_handler else None
-        output_path = self.output_path
-        output_socket = make_zmq_socket(self.ctx, output_path,
-                                        zmq.constants.PULL)
-        resources.output_socket = output_socket
+        output_socket = resources.output_socket
+        assert output_socket is not None
 
         async def process_outputs_socket():
             try:
@@ -861,21 +931,6 @@ class DPAsyncMPClient(AsyncMPClient):
 
         assert len(self.core_engines) > 1
 
-    def _init_core_engines(
-        self,
-        vllm_config: VllmConfig,
-        new_core_engine: Callable[[int, Optional[int]], CoreEngine],
-        core_engines: list[CoreEngine],
-    ) -> None:
-
-        # Launch a core engine for each data parallel rank.
-        dp_size = vllm_config.parallel_config.data_parallel_size
-        for i in range(dp_size):
-            # Multi-node not yet supported so local_dp_rank == dp_rank.
-            core_engines.append(new_core_engine(i, i))
-
-        self.core_engines = core_engines
-
     async def call_utility_async(self, method: str, *args) -> Any:
         # Only the result from the first engine is returned.
         return (await asyncio.gather(*[
diff --git a/vllm/v1/utils.py b/vllm/v1/utils.py
index 9c238c3aa..0758747a8 100644
--- a/vllm/v1/utils.py
+++ b/vllm/v1/utils.py
@@ -1,20 +1,23 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import os
+import time
 import weakref
 from collections import defaultdict
 from collections.abc import Sequence
-from multiprocessing import Process
-from typing import (TYPE_CHECKING, Any, Callable, Generic, Optional, TypeVar,
-                    Union, overload)
+from multiprocessing import Process, connection
+from typing import (TYPE_CHECKING, Callable, Generic, Optional, TypeVar, Union,
+                    overload)
 
 import torch
 
+from vllm.config import VllmConfig
 from vllm.logger import init_logger
 from vllm.model_executor.models.utils import extract_layer_index
 from vllm.usage.usage_lib import (UsageContext, is_usage_stats_enabled,
                                   usage_message)
 from vllm.utils import get_mp_context, kill_process_tree
+from vllm.v1.executor.abstract import Executor
 
 if TYPE_CHECKING:
     from vllm.attention.layer import Attention
@@ -92,7 +95,7 @@ class ConstantList(Generic[T], Sequence):
         return f"ConstantList({self._x})"
 
 
-class BackgroundProcHandle:
+class CoreEngineProcManager:
     """
     Utility class to handle creation, readiness, and shutdown
     of background processes used by the AsyncLLM and LLMEngine.
@@ -100,49 +103,91 @@ class BackgroundProcHandle:
 
     def __init__(
         self,
-        input_path: str,
-        output_path: str,
-        process_name: str,
         target_fn: Callable,
-        process_kwargs: dict[Any, Any],
+        local_engine_count: int,
+        start_index: int,
+        local_start_index: int,
+        vllm_config: VllmConfig,
+        on_head_node: bool,
+        input_address: str,
+        executor_class: type[Executor],
+        log_stats: bool,
     ):
         context = get_mp_context()
+        common_kwargs = {
+            "vllm_config": vllm_config,
+            "on_head_node": on_head_node,
+            "input_address": input_address,
+            "executor_class": executor_class,
+            "log_stats": log_stats,
+        }
+
+        self.processes: list[Process] = []
+        for index in range(local_engine_count):
+            local_index = local_start_index + index
+            global_index = start_index + index
+            # Start EngineCore in background process.
+            self.processes.append(
+                context.Process(target=target_fn,
+                                name=f"EngineCore_{global_index}",
+                                kwargs=common_kwargs | {
+                                    "dp_rank": global_index,
+                                    "local_dp_rank": local_index,
+                                }))
+
+        self._finalizer = weakref.finalize(self, shutdown, self.processes,
+                                           input_address)
+        try:
+            for proc in self.processes:
+                proc.start()
+        finally:
+            # Kill other procs if not all are running.
+            if self.finished_procs():
+                self.close()
+
+    def close(self):
+        """Shutdown all procs."""
+        self._finalizer()
 
-        assert ("input_path" not in process_kwargs
-                and "output_path" not in process_kwargs)
-        process_kwargs["input_path"] = input_path
-        process_kwargs["output_path"] = output_path
-
-        # Run busy loop in background process.
-        self.proc: Process = context.Process(target=target_fn,
-                                             kwargs=process_kwargs,
-                                             name=process_name)
-        self._finalizer = weakref.finalize(self, shutdown, self.proc,
-                                           input_path, output_path)
-        self.proc.start()
+    def join_first(self):
+        """Wait for any process to exit."""
+        connection.wait(proc.sentinel for proc in self.processes)
 
-    def fileno(self):
-        return self.proc.sentinel
+    def sentinels(self) -> list:
+        return [proc.sentinel for proc in self.processes]
 
-    def shutdown(self):
-        self._finalizer()
+    def finished_procs(self) -> dict[str, int]:
+        """Returns dict of proc name -> exit code for any finished procs."""
+        return {
+            proc.name: proc.exitcode
+            for proc in self.processes if proc.exitcode is not None
+        }
 
 
 # Note(rob): shutdown function cannot be a bound method,
-# else the gc cannot collect the object.
-def shutdown(proc: Process, input_path: str, output_path: str):
+# else the gc cannot collect the objedecoupct.
+def shutdown(procs: list[Process], input_address: str):
     # Shutdown the process.
-    if proc.is_alive():
-        proc.terminate()
-        proc.join(5)
-
+    for proc in procs:
+        if proc.is_alive():
+            proc.terminate()
+
+    # Allow 5 seconds for remaining procs to terminate.
+    deadline = time.monotonic() + 5
+    for proc in procs:
+        remaining = deadline - time.monotonic()
+        if remaining <= 0:
+            break
+        if proc.is_alive():
+            proc.join(remaining)
+
+    for proc in procs:
         if proc.is_alive() and (pid := proc.pid) is not None:
             kill_process_tree(pid)
 
     # Remove zmq ipc socket files.
-    ipc_sockets = [output_path, input_path]
-    for ipc_socket in ipc_sockets:
-        socket_file = ipc_socket.replace("ipc://", "")
+    if input_address.startswith("ipc://"):
+        socket_file = input_address[len("ipc://"):]
         if os and os.path.exists(socket_file):
             os.remove(socket_file)
 
-- 
GitLab


From 0189a65a2e76b94ee4cc872dbad2b732256e0e9a Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Tue, 13 May 2025 15:36:00 -0400
Subject: [PATCH 340/461] [Docs] Expand security doc with firewall info
 (#18081)

Signed-off-by: Russell Bryant <rbryant@redhat.com>
---
 docs/source/deployment/security.md | 39 ++++++++++++++++++++++++++++++
 1 file changed, 39 insertions(+)

diff --git a/docs/source/deployment/security.md b/docs/source/deployment/security.md
index e2ef8196c..9c4d639c0 100644
--- a/docs/source/deployment/security.md
+++ b/docs/source/deployment/security.md
@@ -53,6 +53,45 @@ Key points from the PyTorch security guide:
    - Implement proper authentication and authorization for management interfaces
    - Follow the principle of least privilege for all system components
 
+## Security and Firewalls: Protecting Exposed vLLM Systems
+
+While vLLM is designed to allow unsafe network services to be isolated to
+private networks, there are components—such as dependencies and underlying
+frameworks—that may open insecure services listening on all network interfaces,
+sometimes outside of vLLM's direct control.
+
+A major concern is the use of `torch.distributed`, which vLLM leverages for
+distributed communication, including when using vLLM on a single host. When vLLM
+uses TCP initialization (see [PyTorch TCP Initialization
+documentation](https://docs.pytorch.org/docs/stable/distributed.html#tcp-initialization)),
+PyTorch creates a `TCPStore` that, by default, listens on all network
+interfaces. This means that unless additional protections are put in place,
+these services may be accessible to any host that can reach your machine via any
+network interface.
+
+**From a PyTorch perspective, any use of `torch.distributed` should be
+considered insecure by default.** This is a known and intentional behavior from
+the PyTorch team.
+
+### Firewall Configuration Guidance
+
+The best way to protect your vLLM system is to carefully configure a firewall to
+expose only the minimum network surface area necessary. In most cases, this
+means:
+
+- **Block all incoming connections except to the TCP port the API server is
+listening on.**
+
+- Ensure that ports used for internal communication (such as those for
+`torch.distributed` and KV cache transfer) are only accessible from trusted
+hosts or networks.
+
+- Never expose these internal ports to the public internet or untrusted
+networks.
+
+Consult your operating system or application platform documentation for specific
+firewall configuration instructions.
+
 ## Reporting Security Vulnerabilities
 
 If you believe you have found a security vulnerability in vLLM, please report it following the project's security policy. For more information on how to report security issues and the project's security policy, please see the [vLLM Security Policy](https://github.com/vllm-project/vllm/blob/main/SECURITY.md).
-- 
GitLab


From 40de1ef455f20da0944f365681cf506892a536af Mon Sep 17 00:00:00 2001
From: vllmellm <vllm.ellm@embeddedllm.com>
Date: Wed, 14 May 2025 10:08:20 +0800
Subject: [PATCH 341/461] [FEAT] [ROCm]: Add AITER Block-Scaled GEMM Feature
 (#14968)

Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>
Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
Co-authored-by: tjtanaa <tunjian.tan@embeddedllm.com>
---
 .../model_executor/test_enabled_custom_ops.py |  31 +++++
 .../model_executor/layers/quantization/fp8.py |   8 ++
 .../layers/quantization/utils/fp8_utils.py    | 130 +++++++++++++-----
 3 files changed, 137 insertions(+), 32 deletions(-)

diff --git a/tests/model_executor/test_enabled_custom_ops.py b/tests/model_executor/test_enabled_custom_ops.py
index 2d9cf1d48..93453ddb6 100644
--- a/tests/model_executor/test_enabled_custom_ops.py
+++ b/tests/model_executor/test_enabled_custom_ops.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import pytest
+import torch
 
 from vllm.config import CompilationConfig, VllmConfig, set_current_vllm_config
 from vllm.model_executor.custom_op import CustomOp
@@ -16,6 +17,8 @@ from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
 from vllm.model_executor.layers.layernorm import (
     RMSNorm, dispatch_cuda_rmsnorm_func, fused_add_rms_norm, rms_norm,
     rocm_aiter_fused_add_rms_norm, rocm_aiter_rms_norm)
+from vllm.model_executor.layers.quantization.utils.fp8_utils import (
+    cutlass_scaled_mm, dispatch_w8a8_blockscale_func, w8a8_block_fp8_matmul)
 from vllm.platforms import current_platform
 
 
@@ -98,6 +101,34 @@ def test_enabled_ops_invalid(env: str):
             RMSNorm(1024).enabled()
 
 
+@pytest.mark.skipif(
+    not current_platform.is_rocm() or not current_platform.is_fp8_fnuz(),
+    reason="AITER is a feature exclusive for ROCm and FP8_FNUZ")
+@pytest.mark.parametrize("use_cutlass", [True, False])
+@pytest.mark.parametrize("use_rocm_aiter", ["0", "1"])
+@pytest.mark.parametrize("use_rocm_aiter_gemm_w8a8_blockscale", ["0", "1"])
+def test_w8a8_blockscale_dispatch(use_cutlass: bool, use_rocm_aiter: str,
+                                  use_rocm_aiter_gemm_w8a8_blockscale: str,
+                                  monkeypatch):
+
+    monkeypatch.setenv("VLLM_ROCM_USE_AITER", use_rocm_aiter)
+    monkeypatch.setenv("VLLM_ROCM_USE_AITER_LINEAR",
+                       use_rocm_aiter_gemm_w8a8_blockscale)
+
+    use_aiter_and_is_supported = (bool(int(use_rocm_aiter)) and bool(
+        int(use_rocm_aiter_gemm_w8a8_blockscale)))
+    block_scale_func = dispatch_w8a8_blockscale_func(
+        use_cutlass, use_aiter_and_is_supported=use_aiter_and_is_supported)
+    if use_cutlass:
+        assert block_scale_func == cutlass_scaled_mm
+    elif current_platform.is_rocm() and int(use_rocm_aiter) and int(
+            use_rocm_aiter_gemm_w8a8_blockscale):
+        assert block_scale_func == (
+            torch.ops.vllm.rocm_aiter_gemm_w8a8_blockscale)
+    else:
+        assert block_scale_func == w8a8_block_fp8_matmul
+
+
 @pytest.mark.parametrize("use_rocm_aiter", ["0", "1"])
 def test_topk_dispatch(use_rocm_aiter: str, monkeypatch):
     monkeypatch.setenv("VLLM_ROCM_USE_AITER", use_rocm_aiter)
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index ca3126354..5b5f25909 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -182,6 +182,13 @@ class Fp8LinearMethod(LinearMethodBase):
         if current_platform.is_rocm():
             self.use_marlin = False
 
+        # AITER is only supported on ROCm and only for FP8_FNUZ
+        # and at the moment are MI300 series
+        self.use_aiter_and_is_supported = (current_platform.is_rocm()
+                                           and envs.VLLM_ROCM_USE_AITER
+                                           and envs.VLLM_ROCM_USE_AITER_LINEAR
+                                           and current_platform.is_fp8_fnuz())
+
         self.block_quant = self.quant_config.weight_block_size is not None
         self.fp8_linear = Fp8LinearOp(
             # Default to using per_token quantization if cutlass is supported
@@ -402,6 +409,7 @@ class Fp8LinearMethod(LinearMethodBase):
                 input_scale=layer.input_scale,
                 bias=bias,
                 cutlass_block_fp8_supported=self.cutlass_block_fp8_supported,
+                use_aiter_and_is_supported=self.use_aiter_and_is_supported,
             )
 
         return self.fp8_linear.apply(input=x,
diff --git a/vllm/model_executor/layers/quantization/utils/fp8_utils.py b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
index 723d2ffd4..8f525ef14 100644
--- a/vllm/model_executor/layers/quantization/utils/fp8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
@@ -4,7 +4,7 @@
 import functools
 import json
 import os
-from typing import Any, Optional, Union
+from typing import Any, Callable, Optional, Union
 
 import torch
 
@@ -27,6 +27,76 @@ def is_fp8(x: Union[torch.dtype, torch.Tensor]) -> bool:
     return x == torch.float8_e4m3fn or x == torch.float8_e4m3fnuz
 
 
+def cutlass_scaled_mm(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    As: torch.Tensor,
+    Bs: torch.Tensor,
+    block_size: list[int],
+    output_dtype: torch.dtype = torch.float16,
+) -> torch.Tensor:
+    return ops.cutlass_scaled_mm(A,
+                                 B.T,
+                                 out_dtype=output_dtype,
+                                 scale_a=As,
+                                 scale_b=Bs.T)
+
+
+def rocm_aiter_gemm_w8a8_blockscale_impl(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    As: torch.Tensor,
+    Bs: torch.Tensor,
+    block_size: list[int],
+    output_dtype: torch.dtype = torch.float16,
+) -> torch.Tensor:
+    import aiter as rocm_aiter
+
+    return rocm_aiter.gemm_a8w8_blockscale_CK(A, B, As, Bs, dtype=output_dtype)
+
+
+def rocm_aiter_gemm_w8a8_blockscale_fake(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    As: torch.Tensor,
+    Bs: torch.Tensor,
+    block_size: list[int],
+    output_dtype: torch.dtype = torch.float16,
+) -> torch.Tensor:
+
+    m = A.shape[0]
+    n = B.shape[0]
+    Y = torch.empty(m, n, dtype=output_dtype, device=A.device)
+    return Y
+
+
+if current_platform.is_rocm():
+    direct_register_custom_op(
+        op_name="rocm_aiter_gemm_w8a8_blockscale",
+        op_func=rocm_aiter_gemm_w8a8_blockscale_impl,
+        mutates_args=[],
+        fake_impl=rocm_aiter_gemm_w8a8_blockscale_fake,
+        dispatch_key=current_platform.dispatch_key,
+    )
+
+
+def dispatch_w8a8_blockscale_func(
+    use_cutlass: bool, use_aiter_and_is_supported: bool
+) -> Callable[[
+        torch.Tensor,
+        torch.Tensor,
+        torch.Tensor,
+        torch.Tensor,
+        list[int],
+        torch.dtype,
+], torch.Tensor]:
+    if use_cutlass:
+        return cutlass_scaled_mm
+    if (use_aiter_and_is_supported):
+        return torch.ops.vllm.rocm_aiter_gemm_w8a8_blockscale
+    return w8a8_block_fp8_matmul
+
+
 # TODO fix ROCm->Triton custom path:
 #  https://github.com/vllm-project/vllm/issues/14397
 def apply_w8a8_block_fp8_linear(
@@ -37,26 +107,23 @@ def apply_w8a8_block_fp8_linear(
     input_scale: Optional[torch.Tensor] = None,
     bias: Optional[torch.Tensor] = None,
     cutlass_block_fp8_supported: bool = CUTLASS_BLOCK_FP8_SUPPORTED,
+    use_aiter_and_is_supported: bool = False,
 ) -> torch.Tensor:
     assert input_scale is None
     # View input as 2D matrix for fp8 methods
     input_2d = input.view(-1, input.shape[-1])
     output_shape = [*input.shape[:-1], weight.shape[0]]
 
-    shape_supported_by_cutlass = (weight.shape[0] % 128 == 0
-                                  and weight.shape[1] % 128 == 0)
-    if current_platform.is_rocm():
-        # TODO this is never used, as cutlass_block_fp8_supported is False
-        scale_a_shape = ((input_2d.shape[-1] // block_size[1], ) +
-                         input_2d.shape[:-1])[::-1]
-        scale_b_shape = (weight_scale.view(-1, 1)
-                         if weight_scale.dim() <= 1 else weight_scale.T).shape
-        ar, ac = scale_a_shape
-        br, bc = scale_b_shape
-        if (ac > 1 or bc > 1 or ar not in (1, input_2d.shape[0])
-                or br not in (1, weight.shape[0])):
-            shape_supported_by_cutlass = False
-    if cutlass_block_fp8_supported and shape_supported_by_cutlass:
+    if current_platform.is_cuda():
+        use_cutlass = cutlass_block_fp8_supported and (
+            weight.shape[0] % 128 == 0 and weight.shape[1] % 128 == 0)
+    else:
+        use_cutlass = False
+
+    w8a8_blockscale_func = dispatch_w8a8_blockscale_func(
+        use_cutlass, use_aiter_and_is_supported)
+
+    if use_cutlass:
         rows, cols = input_2d.shape
         # Blackwell GPUs (SM100) require row dimensions to be multiple of 4 for
         # optimal tensor core usage. Can be removed when targeting platforms
@@ -67,26 +134,22 @@ def apply_w8a8_block_fp8_linear(
             input_2d = torch.nn.functional.pad(input_2d,
                                                (0, 0, 0, 4 - (rows % 4)),
                                                value=0).contiguous()
-        q_input, x_scale = per_token_group_quant_fp8(input_2d,
-                                                     block_size[1],
-                                                     column_major_scales=True)
-        output = ops.cutlass_scaled_mm(q_input,
-                                       weight.T,
-                                       out_dtype=input.dtype,
-                                       scale_a=x_scale,
-                                       scale_b=weight_scale.T)
+
+        q_input, x_scale = per_token_group_quant_fp8(
+            input_2d, block_size[1], column_major_scales=use_cutlass)
+
+        output = w8a8_blockscale_func(q_input, weight, x_scale, weight_scale,
+                                      block_size, input.dtype)
         if should_pad:
             output = output[:rows, :]
+
     else:
-        q_input, x_scale = per_token_group_quant_fp8(input_2d,
-                                                     block_size[1],
-                                                     column_major_scales=False)
-        output = w8a8_block_fp8_matmul(q_input,
-                                       weight,
-                                       x_scale,
-                                       weight_scale,
-                                       block_size,
-                                       output_dtype=input.dtype)
+        q_input, x_scale = per_token_group_quant_fp8(
+            input_2d, block_size[1], column_major_scales=use_cutlass)
+
+        output = w8a8_blockscale_func(q_input, weight, x_scale, weight_scale,
+                                      block_size, input.dtype)
+
     if bias is not None:
         output = output + bias
     return output.to(dtype=input.dtype).view(*output_shape)
@@ -98,6 +161,9 @@ def apply_w8a8_block_fp8_linear_fake(
     block_size: list[int],
     weight_scale: torch.Tensor,
     input_scale: Optional[torch.Tensor] = None,
+    bias: Optional[torch.Tensor] = None,
+    cutlass_block_fp8_supported: bool = CUTLASS_BLOCK_FP8_SUPPORTED,
+    use_aiter_and_is_supported: bool = False,
 ) -> torch.Tensor:
     output_shape = [*input.shape[:-1], weight.shape[0]]
     return torch.empty(output_shape, dtype=input.dtype, device=input.device)
-- 
GitLab


From f2ae883b672493ff83d1f372b6960a21d93b5ea9 Mon Sep 17 00:00:00 2001
From: Chen Zhang <zhangch99@outlook.com>
Date: Wed, 14 May 2025 10:09:39 +0800
Subject: [PATCH 342/461] [v1][KVCacheManager] pass num_new_computed_tokens to
 kv cache manager (#18001)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>
---
 tests/v1/core/test_prefix_caching.py | 126 ++++++++++++++++++++-------
 vllm/v1/core/kv_cache_manager.py     |  16 ++--
 vllm/v1/core/sched/scheduler.py      |  30 ++++---
 3 files changed, 119 insertions(+), 53 deletions(-)

diff --git a/tests/v1/core/test_prefix_caching.py b/tests/v1/core/test_prefix_caching.py
index a03810625..2d7411381 100644
--- a/tests/v1/core/test_prefix_caching.py
+++ b/tests/v1/core/test_prefix_caching.py
@@ -81,7 +81,9 @@ def test_prefill(hash_algo):
     assert len(manager.req_to_block_hashes[req0.request_id]) == 3
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    blocks = manager.allocate_slots(req0, 55, computed_blocks)
+    blocks = manager.allocate_slots(req0, 55,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert blocks.get_block_ids() == [1, 2, 3, 4]
 
     # Check full block metadata
@@ -108,7 +110,9 @@ def test_prefill(hash_algo):
     assert computed_blocks.get_block_ids() == [1, 2, 3]
     assert num_computed_tokens == 3 * 16
     num_new_tokens = 53 - 3 * 16
-    blocks = manager.allocate_slots(req1, num_new_tokens, computed_blocks)
+    blocks = manager.allocate_slots(req1, num_new_tokens,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert blocks.get_block_ids() == [5]
     for block in computed_blocks.blocks:
         assert block.ref_cnt == 2
@@ -140,7 +144,9 @@ def test_prefill(hash_algo):
     assert computed_blocks.get_block_ids() == [1, 2, 3]
     assert num_computed_tokens == 3 * 16
     num_new_tokens = 53 - 3 * 16
-    blocks = manager.allocate_slots(req2, num_new_tokens, computed_blocks)
+    blocks = manager.allocate_slots(req2, num_new_tokens,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert blocks.get_block_ids() == [6]
 
     # Although we only have 6 free blocks, we have 8 blocks in
@@ -161,7 +167,9 @@ def test_prefill(hash_algo):
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req3)
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    blocks = manager.allocate_slots(req3, 16 * 10, computed_blocks)
+    blocks = manager.allocate_slots(req3, 16 * 10,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     # This block ID order also checks the eviction order.
     assert blocks.get_block_ids() == [7, 8, 9, 10, 4, 5, 6, 3, 2, 1]
     assert manager.block_pool.free_block_queue.num_free_blocks == 0
@@ -197,7 +205,9 @@ def test_prefill_plp():
     assert len(manager.req_to_block_hashes[req0.request_id]) == 0
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    blocks = manager.allocate_slots(req0, 55, computed_blocks)
+    blocks = manager.allocate_slots(req0, 55,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert blocks.get_block_ids() == [1, 2, 3, 4]
     req0_block_hashes = [b.block_hash for b in blocks.blocks]
 
@@ -226,7 +236,9 @@ def test_prefill_plp():
     assert computed_blocks.get_block_ids() == [1, 2, 3]
     assert num_computed_tokens == 3 * 16
     num_new_tokens = 53 - 3 * 16
-    blocks = manager.allocate_slots(req1, num_new_tokens, computed_blocks)
+    blocks = manager.allocate_slots(req1, num_new_tokens,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert blocks.get_block_ids() == [5]
     for block in computed_blocks.blocks:
         assert block.ref_cnt == 2
@@ -259,7 +271,9 @@ def test_prefill_plp():
     assert len(manager.req_to_block_hashes[req2.request_id]) == 0
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    blocks = manager.allocate_slots(req2, 55, computed_blocks)
+    blocks = manager.allocate_slots(req2, 55,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     block_ids = blocks.get_block_ids()
     # Duplicate cached blocks have different ids but same hashes vs request #0
     assert [b.block_hash for b in blocks.blocks] == req0_block_hashes
@@ -290,14 +304,18 @@ def test_decode():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req0)
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    blocks = manager.allocate_slots(req0, 55, computed_blocks)
+    blocks = manager.allocate_slots(req0, 55,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert blocks.get_block_ids() == [1, 2, 3, 4]
 
     # Append slots without allocating a new block.
     req0.num_computed_tokens = 55
     for _ in range(4):
         req0.append_output_token_ids(8)
-    new_blocks = manager.allocate_slots(req0, 4)
+    new_blocks = manager.allocate_slots(req0, 4,
+                                        len(computed_blocks.blocks) * 16,
+                                        computed_blocks)
     assert new_blocks is not None and len(new_blocks.blocks) == 0
     assert manager.single_type_manager.req_to_blocks[
         req0.request_id][-1].block_hash is None
@@ -308,7 +326,9 @@ def test_decode():
     # the preallocated block.
     for _ in range(9 + 10):
         req0.append_output_token_ids(7)
-    new_blocks = manager.allocate_slots(req0, 19)
+    new_blocks = manager.allocate_slots(req0, 19,
+                                        len(computed_blocks.blocks) * 16,
+                                        computed_blocks)
     assert new_blocks is not None and len(new_blocks.blocks) == 1
     assert manager.single_type_manager.req_to_blocks[
         req0.request_id][-2].block_hash is not None
@@ -328,7 +348,9 @@ def test_evict():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req0)
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    blocks = manager.allocate_slots(req0, 5 * 16 + 7, computed_blocks)
+    blocks = manager.allocate_slots(req0, 5 * 16 + 7,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert len(blocks.blocks) == 6  # 5 full + 1 partial
 
     # 3 blocks.
@@ -337,7 +359,9 @@ def test_evict():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    blocks = manager.allocate_slots(req1, 3 * 16, computed_blocks)
+    blocks = manager.allocate_slots(req1, 3 * 16,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert len(blocks.blocks) == 3  # 3 full blocks
     last_token_id += 3 * 16
 
@@ -357,7 +381,9 @@ def test_evict():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req2)
     assert computed_blocks.get_block_ids() == [1, 2]
     assert num_computed_tokens == 2 * 16
-    blocks = manager.allocate_slots(req2, 3, computed_blocks)
+    blocks = manager.allocate_slots(req2, 3,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert blocks.get_block_ids() == [10]
     assert manager.block_pool.free_block_queue.num_free_blocks == 7
 
@@ -380,7 +406,9 @@ def test_hash_block_correct_reuse():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req)
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    blocks = manager.allocate_slots(req, num_tokens, computed_blocks)
+    blocks = manager.allocate_slots(req, num_tokens,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert len(blocks.blocks) == 1
 
     # Deallocate the block.
@@ -392,7 +420,9 @@ def test_hash_block_correct_reuse():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req)
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    blocks = manager.allocate_slots(req, num_tokens - 1, computed_blocks)
+    blocks = manager.allocate_slots(req, num_tokens - 1,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert len(blocks.blocks) == 1
 
     assert manager.block_pool.blocks[
@@ -417,7 +447,9 @@ def test_computed_blocks_not_evicted():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req0)
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    blocks = manager.allocate_slots(req0, num_tokens, computed_blocks)
+    blocks = manager.allocate_slots(req0, num_tokens,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert len(blocks.blocks) == 1
     assert blocks.blocks[0].block_id == 1
 
@@ -426,7 +458,9 @@ def test_computed_blocks_not_evicted():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    blocks = manager.allocate_slots(req1, num_tokens, computed_blocks)
+    blocks = manager.allocate_slots(req1, num_tokens,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert len(blocks.blocks) == 1
     assert blocks.blocks[0].block_id == 2
 
@@ -443,6 +477,7 @@ def test_computed_blocks_not_evicted():
     assert num_computed_tokens == block_size
 
     blocks = manager.allocate_slots(req2, num_tokens * 2 - num_tokens,
+                                    len(computed_blocks.blocks) * 16,
                                     computed_blocks)
     assert len(blocks.blocks) == 1
     assert blocks.blocks[0].block_id == 2
@@ -464,7 +499,9 @@ def test_basic_prefix_caching_disabled():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    blocks = manager.allocate_slots(req1, 10, computed_blocks)
+    blocks = manager.allocate_slots(req1, 10,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert len(blocks.blocks) == 3
 
     # Free the blocks.
@@ -475,7 +512,9 @@ def test_basic_prefix_caching_disabled():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req2)
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    blocks = manager.allocate_slots(req2, 16, computed_blocks)
+    blocks = manager.allocate_slots(req2, 16,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert len(blocks.blocks) == 4
 
     # New requests should not have any blocks.
@@ -483,7 +522,9 @@ def test_basic_prefix_caching_disabled():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req3)
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    blocks = manager.allocate_slots(req3, 4, computed_blocks)
+    blocks = manager.allocate_slots(req3, 4,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert not blocks
 
 
@@ -581,14 +622,18 @@ def test_mm_prefix_caching():
     assert block_hashes[1].extra_keys == ("aaa", "bbb")
     assert block_hashes[2].extra_keys == ("bbb", )
 
-    blocks = manager.allocate_slots(req0, 59, computed_blocks)
+    blocks = manager.allocate_slots(req0, 59,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert blocks.get_block_ids() == [1, 2, 3, 4]
     req0.num_computed_tokens = 59
 
     # Append slots without allocating a new block.
     for _ in range(5):
         req0.append_output_token_ids(8)
-    new_blocks = manager.allocate_slots(req0, 5)
+    new_blocks = manager.allocate_slots(req0, 5,
+                                        len(computed_blocks.blocks) * 16,
+                                        computed_blocks)
     assert new_blocks is not None and len(new_blocks.blocks) == 0
 
     # The just completed block should have hashes with extra keys.
@@ -638,14 +683,18 @@ def test_cache_key_salting():
     assert block_hashes[1].extra_keys is None
     assert block_hashes[2].extra_keys is None
 
-    blocks = manager.allocate_slots(req0, 59, computed_blocks)
+    blocks = manager.allocate_slots(req0, 59,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert blocks.get_block_ids() == [1, 2, 3, 4]
     req0.num_computed_tokens = 59
 
     # Append slots without allocating a new block.
     for _ in range(5):
         req0.append_output_token_ids(8)
-    new_blocks = manager.allocate_slots(req0, 5)
+    new_blocks = manager.allocate_slots(req0, 5,
+                                        len(computed_blocks.blocks) * 16,
+                                        computed_blocks)
     assert new_blocks is not None and len(new_blocks.blocks) == 0
 
     # Now one more block that should not have extra keys.
@@ -691,7 +740,8 @@ def test_prefill_not_enough_free_blocks_with_computed_blocks():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req0)
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    manager.allocate_slots(req0, 48, computed_blocks)
+    manager.allocate_slots(req0, 48,
+                           len(computed_blocks.blocks) * 16, computed_blocks)
     block_part0 = manager.single_type_manager.req_to_blocks[req0.request_id]
 
     # | Common-0 | Common-1 | Common-2 | Req1-3 | Req1-4 | Req1-5 | ... |
@@ -699,7 +749,8 @@ def test_prefill_not_enough_free_blocks_with_computed_blocks():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
     assert computed_blocks.blocks == block_part0
     assert num_computed_tokens == 3 * 16
-    manager.allocate_slots(req1, 48, computed_blocks)
+    manager.allocate_slots(req1, 48,
+                           len(computed_blocks.blocks) * 16, computed_blocks)
     block_part1 = manager.single_type_manager.req_to_blocks[req1.request_id]
     # | Common-0 | Common-1 | Common-2 | Req1-3 (F) | Req1-4 (F) |
     # | Req1-5(F)| ... |
@@ -713,7 +764,8 @@ def test_prefill_not_enough_free_blocks_with_computed_blocks():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req2)
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    manager.allocate_slots(req2, block_size * 2, computed_blocks)
+    manager.allocate_slots(req2, block_size * 2,
+                           len(computed_blocks.blocks) * 16, computed_blocks)
 
     # Req3 is Req2 + 3 new blocks, so the first 6 blocks are computed,
     # but it cannot be allocated due to insufficient free blocks (2).
@@ -724,7 +776,9 @@ def test_prefill_not_enough_free_blocks_with_computed_blocks():
     assert computed_blocks.blocks == block_part1
     assert num_computed_tokens == 6 * 16
     # Req3 cannot be allocated.
-    assert manager.allocate_slots(req3, 48, computed_blocks) is None
+    assert manager.allocate_slots(req3, 48,
+                                  len(computed_blocks.blocks) * 16,
+                                  computed_blocks) is None
     # Block 0-2 are used by Req 1.
     assert {block.ref_cnt for block in block_part1[:3]} == {1}
     # Block 3-5 are free.
@@ -751,7 +805,9 @@ def test_reset_prefix_cache():
     computed_blocks, _ = manager.get_computed_blocks(req1)
     assert len(manager.req_to_block_hashes[req1.request_id]) == 3
     assert len(computed_blocks.blocks) == 3
-    blocks = manager.allocate_slots(req1, 7, computed_blocks)
+    blocks = manager.allocate_slots(req1, 7,
+                                    len(computed_blocks.blocks) * 16,
+                                    computed_blocks)
     assert blocks.get_block_ids() == [5]
 
     # Failed to reset prefix cache because some blocks are not freed yet.
@@ -782,7 +838,8 @@ def test_prefix_cache_stats_disabled():
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req)
     assert not computed_blocks.blocks
     assert num_computed_tokens == 0
-    manager.allocate_slots(req, 16, computed_blocks)
+    manager.allocate_slots(req, 16,
+                           len(computed_blocks.blocks) * 16, computed_blocks)
     manager.reset_prefix_cache()
 
     # Ensure prefix_cache_stats remains None
@@ -860,7 +917,8 @@ def test_eagle_enabled_removes_last_block():
 
     # Prime the cache
     computed_blocks, _ = manager.get_computed_blocks(req)
-    manager.allocate_slots(req, len(token_ids), computed_blocks)
+    manager.allocate_slots(req, len(token_ids),
+                           len(computed_blocks.blocks) * 16, computed_blocks)
     manager.free(req)
 
     # New request with same tokens + Eagle enabled
@@ -889,7 +947,8 @@ def test_eagle_with_partial_blocks():
 
     # Prime the cache
     computed_blocks, _ = manager.get_computed_blocks(req)
-    manager.allocate_slots(req, len(token_ids), computed_blocks)
+    manager.allocate_slots(req, len(token_ids),
+                           len(computed_blocks.blocks) * 16, computed_blocks)
     manager.free(req)
 
     # New request with Eagle enabled
@@ -928,7 +987,8 @@ def test_eagle_with_sliding_window():
 
     # Prime the cache
     computed_blocks, _ = manager.get_computed_blocks(req)
-    manager.allocate_slots(req, len(token_ids), computed_blocks)
+    manager.allocate_slots(req, len(token_ids),
+                           len(computed_blocks.blocks) * 16, computed_blocks)
     # record the block hash of the first block in the request for later use
     block_hash_first_block = manager.req_to_block_hashes[req.request_id][0]
     assert block_hash_first_block is not None
diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
index 61ccb5311..598fc8711 100644
--- a/vllm/v1/core/kv_cache_manager.py
+++ b/vllm/v1/core/kv_cache_manager.py
@@ -121,13 +121,6 @@ class KVCacheManager:
                 - A list of blocks that are computed for the request.
                 - The number of computed tokens.
         """
-
-        # Request already has blocks from async load via KVConnector.
-        num_existing_blocks = len(
-            self.single_type_manager.req_to_blocks[request.request_id])
-        if num_existing_blocks > 0:
-            return KVCacheBlocks.create_empty(), request.num_computed_tokens
-
         # Prefix caching is disabled or
         # When the request requires prompt logprobs, we skip prefix caching.
         if (not self.enable_caching
@@ -172,6 +165,7 @@ class KVCacheManager:
         self,
         request: Request,
         num_new_tokens: int,
+        num_new_computed_tokens: int = 0,
         new_computed_blocks: Optional[KVCacheBlocks] = None,
         num_lookahead_tokens: int = 0,
         delay_cache_blocks: bool = False,
@@ -183,8 +177,10 @@ class KVCacheManager:
             num_new_tokens: The number of tokens to allocate, including external
                 tokens. Note that this does not include tokens that have
                 already been computed locally (i.e. new_computed_blocks).
-            new_computed_blocks: The new computed blocks just hitting the
-                prefix caching.
+            num_new_computed_tokens: The number of new computed tokens just
+                hitting the prefix caching, excluding external tokens.
+            new_computed_blocks: The cached blocks for the above new computed 
+                tokens.
             num_lookahead_tokens: The number of speculative tokens to allocate.
                 This is used by spec decode proposers with kv-cache such 
                 as eagle.
@@ -229,7 +225,7 @@ class KVCacheManager:
         # The number of computed tokens is the number of computed tokens plus
         # the new prefix caching hits
         num_computed_tokens = (request.num_computed_tokens +
-                               len(new_computed_block_list) * self.block_size)
+                               num_new_computed_tokens)
         num_tokens_need_slot = min(
             num_computed_tokens + num_new_tokens + num_lookahead_tokens,
             self.max_model_len)
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 7773853b0..9f051b73c 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -18,7 +18,7 @@ from vllm.logger import init_logger
 from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
 from vllm.v1.core.encoder_cache_manager import (EncoderCacheManager,
                                                 compute_encoder_budget)
-from vllm.v1.core.kv_cache_manager import KVCacheManager
+from vllm.v1.core.kv_cache_manager import KVCacheBlocks, KVCacheManager
 from vllm.v1.core.sched.interface import SchedulerInterface
 from vllm.v1.core.sched.output import (CachedRequestData, NewRequestData,
                                        SchedulerOutput)
@@ -311,12 +311,14 @@ class Scheduler(SchedulerInterface):
                     break
 
                 request = self.waiting[0]
-
+                num_prealloc_computed_tokens = 0
                 # P/D: skip request if still waiting for remote kvs.
                 if request.status == RequestStatus.WAITING_FOR_REMOTE_KVS:
                     is_ready = self._update_waiting_for_remote_kv(request)
                     if is_ready:
                         request.status = RequestStatus.WAITING
+                        num_prealloc_computed_tokens = (
+                            request.num_computed_tokens)
                     else:
                         self.waiting.popleft()
                         skipped_waiting_requests.appendleft(request)
@@ -345,18 +347,25 @@ class Scheduler(SchedulerInterface):
                     continue
 
                 # Get already-cached tokens.
-                new_computed_blocks, num_computed_tokens = \
-                    self.kv_cache_manager.get_computed_blocks(
-                        request)
+                if num_prealloc_computed_tokens == 0:
+                    new_computed_blocks, num_native_computed_tokens = \
+                        self.kv_cache_manager.get_computed_blocks(
+                            request)
+                else:
+                    # P/D: skip checking prefix cache if loaded from remote kvs.
+                    new_computed_blocks = KVCacheBlocks.create_empty()
+                    num_native_computed_tokens = 0
 
                 # Get externally-cached tokens if using a KVConnector.
-                num_external_tokens, load_kv_async = (
+                num_external_computed_tokens, load_kv_async = (
                     (0, False) if self.connector is None else
                     self.connector.get_num_new_matched_tokens(
-                        request, num_computed_tokens))
+                        request, num_native_computed_tokens))
 
                 # Total computed tokens (local + external).
-                num_computed_tokens += num_external_tokens
+                num_computed_tokens = (num_native_computed_tokens +
+                                       num_external_computed_tokens +
+                                       num_prealloc_computed_tokens)
 
                 encoder_inputs_to_schedule = None
                 new_encoder_budget = encoder_budget
@@ -390,7 +399,8 @@ class Scheduler(SchedulerInterface):
 
                 new_blocks = self.kv_cache_manager.allocate_slots(
                     request,
-                    num_new_tokens + num_external_tokens,
+                    num_new_tokens + num_external_computed_tokens,
+                    num_native_computed_tokens,
                     new_computed_blocks,
                     num_lookahead_tokens=self.num_lookahead_tokens,
                     delay_cache_blocks=load_kv_async,
@@ -406,7 +416,7 @@ class Scheduler(SchedulerInterface):
                     self.connector.update_state_after_alloc(
                         request,
                         new_computed_blocks + new_blocks,
-                        num_external_tokens,
+                        num_external_computed_tokens,
                     )
 
                 self.waiting.popleft()
-- 
GitLab


From 176a95c670f676e88175c6d3a507ace0b1c35f3d Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Luka=20Govedi=C4=8D?=
 <ProExpertProg@users.noreply.github.com>
Date: Tue, 13 May 2025 22:31:42 -0400
Subject: [PATCH 343/461] [Fix] Support CUDAGraph capture for encoder-decoder
 on ROCm (#18104)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Luka Govedič <lgovedic@redhat.com>
---
 vllm/attention/backends/utils.py | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/vllm/attention/backends/utils.py b/vllm/attention/backends/utils.py
index 54ffd5c45..a281c9771 100644
--- a/vllm/attention/backends/utils.py
+++ b/vllm/attention/backends/utils.py
@@ -345,10 +345,10 @@ class CommonAttentionState(AttentionState):
         if is_encoder_decoder_model:
             # The encoder decoder model works only with XFormers and
             # Flash Attention backend. Assert the same.
-            assert self.runner.attn_backend.get_name() in\
-                ["XFORMERS", "FLASH_ATTN"], \
-                f"Expected attn_backend name to be either 'XFORMERS' or " \
-                f"'FLASH_ATTN', but "\
+            assert self.runner.attn_backend.get_name() in \
+                   ["XFORMERS", "FLASH_ATTN", "ROCM_FLASH"], \
+                f"Expected attn_backend name to be either 'XFORMERS'," \
+                f"'ROCM_FLASH', or 'FLASH_ATTN', but " \
                 f"got '{self.runner.attn_backend.get_name()}'"
             self._update_captured_metadata_for_enc_dec_model(
                 batch_size=batch_size, attn_metadata=attn_metadata)
@@ -367,10 +367,10 @@ class CommonAttentionState(AttentionState):
         if is_encoder_decoder_model:
             # The encoder decoder model works only with XFormers and
             # Flash Attention backend. Assert the same.
-            assert self.runner.attn_backend.get_name() in\
-                ["XFORMERS", "FLASH_ATTN"], \
-                f"Expected attn_backend name to be either 'XFORMERS' or "\
-                f"'FLASH_ATTN', but "\
+            assert self.runner.attn_backend.get_name() in \
+                   ["XFORMERS", "FLASH_ATTN", "ROCM_FLASH"], \
+                f"Expected attn_backend name to be either 'XFORMERS'," \
+                f"'ROCM_FLASH', or 'FLASH_ATTN', but " \
                 f"got '{self.runner.attn_backend.get_name()}'"
             self._add_additonal_input_buffers_for_enc_dec_model(
                 attn_metadata=attn_metadata, input_buffers=input_buffers)
-- 
GitLab


From 65f0f74b6686103cbe6300fc576ed60d3ab0411e Mon Sep 17 00:00:00 2001
From: Pavani Majety <pmajety@nvidia.com>
Date: Tue, 13 May 2025 19:33:00 -0700
Subject: [PATCH 344/461] [Hardware/NVIDIA/Modelopt] Fix modelopt forward
 method for v1 torch.compile (#18101)

Signed-off-by: Pavani Majety <pmajety@nvidia.com>
---
 .../layers/fused_moe/cutlass_moe.py             |  7 +++++--
 .../layers/quantization/modelopt.py             | 17 +++++++++--------
 2 files changed, 14 insertions(+), 10 deletions(-)

diff --git a/vllm/model_executor/layers/fused_moe/cutlass_moe.py b/vllm/model_executor/layers/fused_moe/cutlass_moe.py
index 1b34e9522..7f96a4012 100644
--- a/vllm/model_executor/layers/fused_moe/cutlass_moe.py
+++ b/vllm/model_executor/layers/fused_moe/cutlass_moe.py
@@ -1,5 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 """ CUTLASS based Fused MoE kernels."""
+import os
 from typing import Optional
 
 import torch
@@ -183,7 +184,8 @@ def cutlass_moe_fp8(
 
 FLOAT4_E2M1_MAX = scalar_types.float4_e2m1f.max()
 FLOAT8_E4M3_MAX = torch.finfo(torch.float8_e4m3fn).max
-MAX_TOKENS_PER_EXPERT = 65536
+MAX_TOKENS_PER_EXPERT = int(
+    os.environ.get('VLLM_MODELOPT_MAX_TOKENS_PER_EXPERT', '65536'))
 
 
 def cutlass_moe_fp4(a: torch.Tensor, a1_gscale: torch.Tensor,
@@ -243,7 +245,8 @@ def cutlass_moe_fp4(a: torch.Tensor, a1_gscale: torch.Tensor,
             == m), ("topk must be provided for each row of a")
     assert (m <= MAX_TOKENS_PER_EXPERT), (
         f"m must be less than MAX_TOKENS_PER_EXPERT({MAX_TOKENS_PER_EXPERT})"
-        f" for cutlass_moe_fp4, observed m = {m}")
+        f" for cutlass_moe_fp4, observed m = {m}. Use"
+        f" VLLM_MODELOPT_MAX_TOKENS_PER_EXPERT to set this value.")
     out_dtype = a.dtype
     num_topk = topk_ids.shape[1]
 
diff --git a/vllm/model_executor/layers/quantization/modelopt.py b/vllm/model_executor/layers/quantization/modelopt.py
index 6a0dce83b..13957a96d 100644
--- a/vllm/model_executor/layers/quantization/modelopt.py
+++ b/vllm/model_executor/layers/quantization/modelopt.py
@@ -401,6 +401,7 @@ class ModelOptNvFp4LinearMethod(LinearMethodBase):
 
         layer.weight_scale_swizzled = Parameter(swizzled_weight_scale,
                                                 requires_grad=False)
+        layer.weight = Parameter(layer.weight.data, requires_grad=False)
 
         if self.use_marlin:
             prepare_fp4_layer_for_marlin(layer)
@@ -426,11 +427,7 @@ class ModelOptNvFp4LinearMethod(LinearMethodBase):
                 bias=bias)
 
         output_dtype = x.dtype
-
-        # for input only the contracting dimension has a constraint.
-        x_m, _ = x.shape
-        w_n, _ = layer.weight.shape
-        output_shape = [x_m, w_n]
+        output_shape = [x.shape[0], layer.weight.shape[0]]
 
         # quantize BF16 or FP16 to (FP4 and interleaved block scale)
         s_quant = 1 / layer.input_scale
@@ -586,11 +583,11 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
                 if scale_ndim == 2 else swizzled_scale.reshape(B, M, K))
 
     def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
-        # GEMM 1
 
+        # GEMM 1
         assert torch.allclose(
             layer.w13_weight_scale_2[:, 0], layer.w13_weight_scale_2[:, 1]), (
-                "Expected w1_weight_scale_2 to equal w3_weight_scale_2")
+                "w1_weight_scale_2 must match w3_weight_scale_2")
 
         w13_weight_scale_2 = layer.w13_weight_scale_2[:, 0]
         layer.w13_weight_scale_2 = Parameter(w13_weight_scale_2,
@@ -616,6 +613,9 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
         layer.w13_input_scale_quant = Parameter(
             (1 / w13_input_scale).to(torch.float32), requires_grad=False)
 
+        layer.w13_weight = Parameter(layer.w13_weight.data,
+                                     requires_grad=False)
+
         # GEMM 2
         layer.g2_alphas = Parameter(
             (layer.w2_input_scale * layer.w2_weight_scale_2).to(torch.float32),
@@ -633,6 +633,7 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
 
         layer.w2_blockscale_swizzled = Parameter(w2_blockscale_swizzled,
                                                  requires_grad=False)
+        layer.w2_weight = Parameter(layer.w2_weight.data, requires_grad=False)
 
         if self.use_marlin:
             prepare_moe_fp4_layer_for_marlin(layer)
@@ -694,7 +695,7 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
         assert not apply_router_weight_on_input, (
             "Router weight on input is not "
             "supported for ModelOptNvFp4FusedMoE.")
-        assert expert_map is None, ("Expert Parallelism /expert_map "
+        assert expert_map is None, ("Expert Parallelism / expert_map "
                                     "is currently not supported for "
                                     "ModelOptNvFp4FusedMoE.")
 
-- 
GitLab


From d5af47a149b8ffbcb8249638681740f1d0787cb0 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Tue, 13 May 2025 19:33:03 -0700
Subject: [PATCH 345/461] [P/D] Add some more debug logs to `NixlConnector`
 (#18102)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 .../kv_connector/v1/nixl_connector.py            | 16 ++++++++++++++++
 1 file changed, 16 insertions(+)

diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
index d26184982..cbbf5a565 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -253,6 +253,11 @@ class NixlConnectorScheduler:
               asynchronously (between scheduler steps).
         """
 
+        logger.debug(
+            "NIXLConnector get_num_new_matched_tokens: "
+            "num_computed_tokens=%s, kv_transfer_params=%s",
+            num_computed_tokens, request.kv_transfer_params)
+
         # No KVTransfer for this request.
         if request.kv_transfer_params is None:
             return 0, False
@@ -271,6 +276,12 @@ class NixlConnectorScheduler:
     def update_state_after_alloc(self, request: "Request",
                                  blocks: "KVCacheBlocks",
                                  num_external_tokens: int):
+
+        logger.debug(
+            "NIXLConnector update_state_after_alloc: "
+            "num_external_tokens=%s, kv_transfer_params=%s",
+            num_external_tokens, request.kv_transfer_params)
+
         if request.kv_transfer_params is None:
             return
 
@@ -319,6 +330,11 @@ class NixlConnectorScheduler:
         should be freed now or will be sent asynchronously and freed later.
         """
 
+        logger.debug(
+            "NIXLConnector request_finished, "
+            "request_status=%s, kv_transfer_params=%s", request.status,
+            request.kv_transfer_params)
+
         if request.kv_transfer_params is None:
             return False, None
         assert isinstance(request.kv_transfer_params, NixlKVTransferParams)
-- 
GitLab


From 6e27c6d86b6d9d7fcc8cb067ca2aa42d2f7f1682 Mon Sep 17 00:00:00 2001
From: Roger Wang <hey@rogerw.me>
Date: Tue, 13 May 2025 19:33:40 -0700
Subject: [PATCH 346/461] [Misc] Remove unused numpy tensor (#18084)

Signed-off-by: Roger Wang <hey@rogerw.me>
---
 vllm/v1/worker/gpu_model_runner.py | 1 -
 vllm/v1/worker/tpu_model_runner.py | 1 -
 2 files changed, 2 deletions(-)

diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 31895cc08..c2c8533c8 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -287,7 +287,6 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                                          dtype=torch.int32,
                                          device="cpu",
                                          pin_memory=self.pin_memory)
-        self.input_ids_np = self.input_ids_cpu.numpy()
         self.positions_cpu = torch.zeros(self.max_num_tokens,
                                          dtype=torch.int64,
                                          device="cpu",
diff --git a/vllm/v1/worker/tpu_model_runner.py b/vllm/v1/worker/tpu_model_runner.py
index 687dabee2..b4daf5a34 100644
--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@@ -191,7 +191,6 @@ class TPUModelRunner(LoRAModelRunnerMixin):
         self.input_ids_cpu = torch.zeros(self.max_num_tokens,
                                          dtype=torch.int32,
                                          device="cpu")
-        self.input_ids_np = self.input_ids_cpu.numpy()
 
         self.positions_cpu = torch.zeros(self.max_num_tokens,
                                          dtype=torch.int32,
-- 
GitLab


From 754b699cbe5eded4525c0eb3e301a17b06d50162 Mon Sep 17 00:00:00 2001
From: Jon Gill <113929785+gilljon@users.noreply.github.com>
Date: Tue, 13 May 2025 19:34:17 -0700
Subject: [PATCH 347/461] [Bug]: Fix S3 model/tokenizer path resolution
 (#18083)

Signed-off-by: Jon Gill <jon@yurts.ai>
---
 vllm/config.py | 41 ++++++++++++++++++++++++-----------------
 1 file changed, 24 insertions(+), 17 deletions(-)

diff --git a/vllm/config.py b/vllm/config.py
index d8eabfb2e..c5d61405c 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -611,28 +611,35 @@ class ModelConfig:
 
     def maybe_pull_model_tokenizer_for_s3(self, model: str,
                                           tokenizer: str) -> None:
+        """Pull model/tokenizer from S3 to temporary directory when needed.
+        
+        Args:
+            model: Model name or path
+            tokenizer: Tokenizer name or path
         """
-        Pull the model config or tokenizer to a temporary
-        directory in case of S3.
+        if not (is_s3(model) or is_s3(tokenizer)):
+            return
 
-        Args:
-            model: The model name or path.
-            tokenizer: The tokenizer name or path.
+        if is_s3(model):
+            s3_model = S3Model()
+            s3_model.pull_files(model,
+                                allow_pattern=["*.model", "*.py", "*.json"])
+            self.model_weights = model
+            self.model = s3_model.dir
 
-        """
-        if is_s3(model) or is_s3(tokenizer):
-            if is_s3(model):
-                s3_model = S3Model()
+            # If tokenizer is same as model, download to same directory
+            if model == tokenizer:
                 s3_model.pull_files(
-                    model, allow_pattern=["*.model", "*.py", "*.json"])
-                self.model_weights = self.model
-                self.model = s3_model.dir
-
-            if is_s3(tokenizer):
-                s3_tokenizer = S3Model()
-                s3_tokenizer.pull_files(
                     model, ignore_pattern=["*.pt", "*.safetensors", "*.bin"])
-                self.tokenizer = s3_tokenizer.dir
+                self.tokenizer = s3_model.dir
+                return
+
+        # Only download tokenizer if needed and not already handled
+        if is_s3(tokenizer):
+            s3_tokenizer = S3Model()
+            s3_tokenizer.pull_files(
+                model, ignore_pattern=["*.pt", "*.safetensors", "*.bin"])
+            self.tokenizer = s3_tokenizer.dir
 
     def _init_multimodal_config(self) -> Optional["MultiModalConfig"]:
         if self.registry.is_multimodal_model(self.architectures):
-- 
GitLab


From 6266c57bae0f52e830221007241920e44f9f1ccf Mon Sep 17 00:00:00 2001
From: youkaichao <youkaichao@gmail.com>
Date: Wed, 14 May 2025 10:46:49 +0800
Subject: [PATCH 348/461] [core][distributed] add ep group and all2all
 interface (#18077)

Signed-off-by: youkaichao <youkaichao@gmail.com>
---
 .../device_communicators/all2all.py           | 93 +++++++++++++++++++
 .../base_device_communicator.py               | 26 +++++-
 .../device_communicators/cuda_communicator.py | 39 +++++++-
 vllm/distributed/parallel_state.py            | 61 +++++++++++-
 vllm/distributed/utils.py                     |  9 +-
 vllm/envs.py                                  |  5 +
 vllm/model_executor/layers/fused_moe/layer.py | 38 +-------
 vllm/v1/worker/gpu_model_runner.py            |  4 +-
 8 files changed, 234 insertions(+), 41 deletions(-)
 create mode 100644 vllm/distributed/device_communicators/all2all.py

diff --git a/vllm/distributed/device_communicators/all2all.py b/vllm/distributed/device_communicators/all2all.py
new file mode 100644
index 000000000..b69647b00
--- /dev/null
+++ b/vllm/distributed/device_communicators/all2all.py
@@ -0,0 +1,93 @@
+# SPDX-License-Identifier: Apache-2.0
+import torch
+
+from vllm.forward_context import get_forward_context
+
+
+class All2AllBase:
+
+    def __init__(self, cpu_group, model):
+        self.cpu_group = cpu_group
+
+        # compute some common properties
+        from vllm.distributed.parallel_state import (get_dp_group,
+                                                     get_ep_group,
+                                                     get_tp_group,
+                                                     in_the_same_node_as)
+
+        # all2all lives in ep group, which is merged from dp and tp group
+        self.dp_group = get_dp_group()
+        self.tp_group = get_tp_group()
+        self.ep_group = get_ep_group()
+        self.dp_rank = self.dp_group.rank_in_group
+        self.dp_world_size = self.dp_group.world_size
+
+        # all2all communication often has separate implementations for
+        # intra-node and inter-node communication
+        self.intranode = in_the_same_node_as(cpu_group, source_rank=0)
+        self.internode = not self.intranode
+
+    def dispatch(self, hidden_states: torch.Tensor,
+                 router_logits: torch.Tensor):
+        raise NotImplementedError
+
+    def combine(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        raise NotImplementedError
+
+    def destroy(self):
+        pass
+
+
+class NaiveAll2All(All2AllBase):
+    """
+    A naive implementation of all2all communication.
+    It uses all-reduce under the hood, which is not
+    efficient at all. The main purpose is for testing and
+    debugging.
+    """
+
+    def __init__(self, cpu_group, model):
+        super().__init__(cpu_group, model)
+
+    def naive_multicast(self, x: torch.Tensor,
+                        cu_tokens_across_dp_cpu: torch.Tensor):
+        assert (len(x.shape) == 2)
+        buffer = torch.empty((cu_tokens_across_dp_cpu[-1], x.size(1)),
+                             device=x.device,
+                             dtype=x.dtype)
+
+        start = 0 if self.dp_rank == 0 else cu_tokens_across_dp_cpu[
+            self.dp_rank - 1]
+        end = cu_tokens_across_dp_cpu[self.dp_rank]
+        buffer[start:end, :].copy_(x)
+        for idx in range(self.dp_world_size):
+            start = 0 if idx == 0 else cu_tokens_across_dp_cpu[idx - 1]
+            end = cu_tokens_across_dp_cpu[idx]
+            self.dp_group.broadcast(buffer[start:end, :], idx)
+
+        return buffer
+
+    def dispatch(self, hidden_states: torch.Tensor,
+                 router_logits: torch.Tensor):
+        cu_tokens_across_dp_cpu = get_forward_context(
+        ).dp_metadata.cu_tokens_across_dp_cpu
+
+        hidden_states = self.naive_multicast(hidden_states,
+                                             cu_tokens_across_dp_cpu)
+        router_logits = self.naive_multicast(router_logits,
+                                             cu_tokens_across_dp_cpu)
+        return hidden_states, router_logits
+
+    def combine(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        cu_tokens_across_dp_cpu = get_forward_context(
+        ).dp_metadata.cu_tokens_across_dp_cpu
+        start = 0 if self.dp_rank == 0 else cu_tokens_across_dp_cpu[
+            self.dp_rank - 1]
+        end = cu_tokens_across_dp_cpu[self.dp_rank]
+
+        all_hidden_states = self.dp_group.all_reduce(hidden_states)
+        hidden_states = all_hidden_states[start:end, :]
+        return hidden_states
+
+    def destroy(self):
+        pass
diff --git a/vllm/distributed/device_communicators/base_device_communicator.py b/vllm/distributed/device_communicators/base_device_communicator.py
index 240313b98..c313b66ed 100644
--- a/vllm/distributed/device_communicators/base_device_communicator.py
+++ b/vllm/distributed/device_communicators/base_device_communicator.py
@@ -1,5 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
-from typing import Optional
+from typing import Optional, Tuple
 
 import torch
 import torch.distributed as dist
@@ -149,3 +149,27 @@ class DeviceCommunicatorBase:
 
     def destroy(self):
         pass
+
+    def prepare_communication_buffer_for_model(self,
+                                               model: torch.nn.Module) -> None:
+        """
+        Prepare the communication buffer for the model.
+        This is a no-op in the base class.
+        """
+        pass
+
+    def dispatch(
+            self, hidden_states: torch.Tensor,
+            router_logits: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
+        """
+        Dispatch the hidden states and router logits to the appropriate device.
+        This is a no-op in the base class.
+        """
+        return hidden_states, router_logits
+
+    def combine(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        """
+        Combine the hidden states and router logits from the appropriate device.
+        This is a no-op in the base class.
+        """
+        return hidden_states
diff --git a/vllm/distributed/device_communicators/cuda_communicator.py b/vllm/distributed/device_communicators/cuda_communicator.py
index 8bca278f3..7a90d6397 100644
--- a/vllm/distributed/device_communicators/cuda_communicator.py
+++ b/vllm/distributed/device_communicators/cuda_communicator.py
@@ -1,10 +1,13 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Optional
+from typing import Optional, Tuple
 
 import torch
 from torch.distributed import ProcessGroup
 
+import vllm.envs as envs
+
+from .all2all import All2AllBase
 from .base_device_communicator import DeviceCommunicatorBase
 
 
@@ -23,9 +26,13 @@ class CudaCommunicator(DeviceCommunicatorBase):
             from vllm.distributed.parallel_state import (
                 _ENABLE_CUSTOM_ALL_REDUCE)
             use_custom_allreduce = _ENABLE_CUSTOM_ALL_REDUCE
-        use_pynccl = True
+
+        # ep does not use pynccl
+        use_pynccl = "ep" not in unique_name
 
         self.use_pynccl = use_pynccl
+        self.use_all2all = "ep" in unique_name
+        self.all2all_impl: Optional[All2AllBase] = None
         self.use_custom_allreduce = use_custom_allreduce
 
         # lazy import to avoid documentation build error
@@ -129,3 +136,31 @@ class CudaCommunicator(DeviceCommunicatorBase):
             self.pynccl_comm = None
         if self.ca_comm is not None:
             self.ca_comm = None
+        if self.all2all_impl is not None:
+            self.all2all_impl.destroy()
+            self.all2all_impl = None
+
+    def prepare_communication_buffer_for_model(self,
+                                               model: torch.nn.Module) -> None:
+        """
+        Prepare the communication buffer for the model.
+        """
+        if not self.use_all2all:
+            return
+        all2all_backend = envs.VLLM_ALL2ALL_BACKEND
+        if all2all_backend == "naive":
+            from .all2all import NaiveAll2All
+            self.all2all_impl = NaiveAll2All(self.cpu_group, model)
+
+    def dispatch(
+            self, hidden_states: torch.Tensor,
+            router_logits: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
+        assert self.all2all_impl is not None
+        hidden_states, router_logits = self.all2all_impl.dispatch(
+            hidden_states, router_logits)
+        return hidden_states, router_logits
+
+    def combine(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        assert self.all2all_impl is not None
+        hidden_states = self.all2all_impl.combine(hidden_states)
+        return hidden_states
diff --git a/vllm/distributed/parallel_state.py b/vllm/distributed/parallel_state.py
index cb9658ce1..4a2a95d94 100644
--- a/vllm/distributed/parallel_state.py
+++ b/vllm/distributed/parallel_state.py
@@ -757,6 +757,22 @@ class GroupCoordinator:
         if self.mq_broadcaster is not None:
             self.mq_broadcaster = None
 
+    def prepare_communication_buffer_for_model(self, model: torch.nn.Module):
+        if self.device_communicator is not None:
+            self.device_communicator.prepare_communication_buffer_for_model(
+                model)
+
+    def dispatch(
+            self, hidden_states: torch.Tensor,
+            router_logits: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
+        if self.device_communicator is not None:
+            return self.device_communicator.dispatch(hidden_states,
+                                                     router_logits)
+
+    def combine(self, hidden_states) -> torch.Tensor:
+        if self.device_communicator is not None:
+            return self.device_communicator.combine(hidden_states)
+
 
 _WORLD: Optional[GroupCoordinator] = None
 
@@ -816,6 +832,14 @@ def get_dp_group() -> GroupCoordinator:
     return _DP
 
 
+_EP: Optional[GroupCoordinator] = None
+
+
+def get_ep_group() -> GroupCoordinator:
+    assert _EP is not None, ("expert parallel group is not initialized")
+    return _EP
+
+
 def get_pp_group() -> GroupCoordinator:
     assert _PP is not None, (
         "pipeline model parallel group is not initialized")
@@ -1001,10 +1025,21 @@ def initialize_model_parallel(
                                     backend,
                                     group_name="dp")
 
+    global _EP
+    assert _EP is None, ("expert parallel group is already initialized")
+    group_ranks = all_ranks.transpose(1, 2).reshape(
+        -1, data_parallel_size * tensor_model_parallel_size).unbind(0)
+    group_ranks = [x.tolist() for x in group_ranks]
+    _EP = init_model_parallel_group(group_ranks,
+                                    get_world_group().local_rank,
+                                    backend,
+                                    group_name="ep")
+
     logger.info(
         "rank %s in world size %s is assigned as "
-        "DP rank %s, PP rank %s, TP rank %s", rank, world_size,
-        _DP.rank_in_group, _PP.rank_in_group, _TP.rank_in_group)
+        "DP rank %s, PP rank %s, TP rank %s, EP rank %s", rank, world_size,
+        _DP.rank_in_group, _PP.rank_in_group, _TP.rank_in_group,
+        _EP.rank_in_group)
 
 
 def ensure_model_parallel_initialized(
@@ -1035,6 +1070,23 @@ def ensure_model_parallel_initialized(
         f"{pipeline_model_parallel_size=}")
 
 
+def prepare_communication_buffer_for_model(model: torch.nn.Module):
+    """Prepare the communication buffer for the model.
+    Traditional communication libraries like NCCL are almost
+    model agnostic. However, emerging new communication libraries like
+    MoE all2all (DeepEP) usually allocate the communication buffer
+    based on the model shape for optimal performance.
+    """
+    if _TP is not None:
+        _TP.prepare_communication_buffer_for_model(model)
+    if _PP is not None:
+        _PP.prepare_communication_buffer_for_model(model)
+    if _DP is not None:
+        _DP.prepare_communication_buffer_for_model(model)
+    if _EP is not None:
+        _EP.prepare_communication_buffer_for_model(model)
+
+
 def model_parallel_is_initialized():
     """Check if tensor and pipeline parallel groups are initialized."""
     return (_TP is not None and _PP is not None)
@@ -1095,6 +1147,11 @@ def destroy_model_parallel():
         _DP.destroy()
     _DP = None
 
+    global _EP
+    if _EP:
+        _EP.destroy()
+    _EP = None
+
 
 def destroy_distributed_environment():
     global _WORLD
diff --git a/vllm/distributed/utils.py b/vllm/distributed/utils.py
index a8f292c6e..7dd8389c9 100644
--- a/vllm/distributed/utils.py
+++ b/vllm/distributed/utils.py
@@ -362,6 +362,11 @@ def stateless_destroy_torch_distributed_process_group(
         stateless_init_torch_distributed_process_group().
     """
     # Lazy import for non-CUDA backends.
-    from torch.distributed.distributed_c10d import _shutdown_backend
-    _shutdown_backend(pg)
+    try:
+        # pytorch <= 2.6
+        from torch.distributed.distributed_c10d import _shutdown_backend
+        _shutdown_backend(pg)
+    except ImportError:
+        # pytorch >= 2.7
+        pg.shutdown()
     _unregister_process_group(pg.group_name)
diff --git a/vllm/envs.py b/vllm/envs.py
index 0c742bf05..9d585bf35 100644
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -115,6 +115,7 @@ if TYPE_CHECKING:
     VLLM_ALLOW_INSECURE_SERIALIZATION: bool = False
     VLLM_NIXL_SIDE_CHANNEL_HOST: str = "localhost"
     VLLM_NIXL_SIDE_CHANNEL_PORT: int = 5557
+    VLLM_ALL2ALL_BACKEND: str = "naive"
 
 
 def get_default_cache_root():
@@ -764,6 +765,10 @@ environment_variables: dict[str, Callable[[], Any]] = {
     # Port used for NIXL handshake between remote agents.
     "VLLM_NIXL_SIDE_CHANNEL_PORT":
     lambda: int(os.getenv("VLLM_NIXL_SIDE_CHANNEL_PORT", "5557")),
+
+    # all2all backend for vllm's expert parallel communication
+    "VLLM_ALL2ALL_BACKEND":
+    lambda: os.getenv("VLLM_ALL2ALL_BACKEND", "naive"),
 }
 
 # end-env-vars-definition
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index eae029b33..d745a15e3 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -10,7 +10,8 @@ from torch.nn.parameter import UninitializedParameter
 
 import vllm.envs as envs
 from vllm.config import get_current_vllm_config
-from vllm.distributed import (get_dp_group, get_tensor_model_parallel_rank,
+from vllm.distributed import (get_dp_group, get_ep_group,
+                              get_tensor_model_parallel_rank,
                               get_tensor_model_parallel_world_size,
                               tensor_model_parallel_all_reduce)
 from vllm.forward_context import ForwardContext, get_forward_context
@@ -832,24 +833,6 @@ class FusedMoE(torch.nn.Module):
 
         return topk_weights, topk_ids
 
-    def naive_multicast(self, x: torch.Tensor,
-                        cu_tokens_across_dp_cpu: torch.Tensor):
-        assert (len(x.shape) == 2)
-        buffer = torch.empty((cu_tokens_across_dp_cpu[-1], x.size(1)),
-                             device=x.device,
-                             dtype=x.dtype)
-
-        start = 0 if self.dp_rank == 0 else cu_tokens_across_dp_cpu[
-            self.dp_rank - 1]
-        end = cu_tokens_across_dp_cpu[self.dp_rank]
-        buffer[start:end, :].copy_(x)
-        for idx in range(get_dp_group().world_size):
-            start = 0 if idx == 0 else cu_tokens_across_dp_cpu[idx - 1]
-            end = cu_tokens_across_dp_cpu[idx]
-            get_dp_group().broadcast(buffer[start:end, :], idx)
-
-        return buffer
-
     def forward(self, hidden_states: torch.Tensor,
                 router_logits: torch.Tensor):
         if self.use_direct_call:
@@ -863,14 +846,8 @@ class FusedMoE(torch.nn.Module):
         assert self.quant_method is not None
 
         if self.dp_size > 1:
-            cu_tokens_across_dp_cpu = get_forward_context(
-            ).dp_metadata.cu_tokens_across_dp_cpu
-
-            hidden_states = self.naive_multicast(hidden_states,
-                                                 cu_tokens_across_dp_cpu)
-            router_logits = self.naive_multicast(router_logits,
-                                                 cu_tokens_across_dp_cpu)
-
+            hidden_states, router_logits = get_ep_group().dispatch(
+                hidden_states, router_logits)
         # Matrix multiply.
         final_hidden_states = self.quant_method.apply(
             layer=self,
@@ -891,12 +868,7 @@ class FusedMoE(torch.nn.Module):
         )
 
         if self.dp_size > 1:
-            start = 0 if self.dp_rank == 0 else cu_tokens_across_dp_cpu[
-                self.dp_rank - 1]
-            end = cu_tokens_across_dp_cpu[self.dp_rank]
-
-            all_hidden_states = get_dp_group().all_reduce(final_hidden_states)
-            final_hidden_states = all_hidden_states[start:end, :]
+            final_hidden_states = get_ep_group().combine(final_hidden_states)
 
         if self.reduce_results and (self.tp_size > 1 or self.ep_size > 1):
             # Default set to False. (May have to add shared expert outputs.)
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index c2c8533c8..1b16f273a 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -19,7 +19,8 @@ from vllm.config import (CompilationLevel, VllmConfig,
 from vllm.distributed.kv_transfer import (get_kv_transfer_group,
                                           has_kv_transfer_group)
 from vllm.distributed.kv_transfer.kv_connector.v1 import KVConnectorBase_V1
-from vllm.distributed.parallel_state import get_pp_group, graph_capture
+from vllm.distributed.parallel_state import (
+    get_pp_group, graph_capture, prepare_communication_buffer_for_model)
 from vllm.forward_context import get_forward_context, set_forward_context
 from vllm.logger import init_logger
 from vllm.model_executor.layers.rotary_embedding import MRotaryEmbedding
@@ -1457,6 +1458,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         logger.info("Model loading took %.4f GiB and %.6f seconds",
                     self.model_memory_usage / GiB_bytes,
                     time_after_load - time_before_load)
+        prepare_communication_buffer_for_model(self.model)
 
     def _get_prompt_logprobs_dict(
         self,
-- 
GitLab


From 9a2a6357de8aa112692dab93f7d40b2d7e75ac67 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Tue, 13 May 2025 22:48:33 -0400
Subject: [PATCH 349/461] [Bugfix] Fix FP8 Marlin MoE and enable for
 compressed-tensors models (#18026)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 .../compressed_tensors_moe.py                 | 54 ++++++++++++++++---
 .../model_executor/layers/quantization/fp8.py |  4 ++
 .../quantization/utils/marlin_utils_fp8.py    |  1 +
 3 files changed, 53 insertions(+), 6 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index d905cc9eb..a74f1f723 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -9,6 +9,7 @@ from compressed_tensors import CompressionFormat
 from compressed_tensors.quantization import (ActivationOrdering,
                                              QuantizationStrategy)
 
+import vllm.envs as envs
 import vllm.model_executor.layers.fused_moe  # noqa
 from vllm import _custom_ops as ops
 from vllm.logger import init_logger
@@ -20,10 +21,13 @@ from vllm.model_executor.layers.quantization.utils import replace_parameter
 from vllm.model_executor.layers.quantization.utils.marlin_utils import (
     check_moe_marlin_supports_layer, marlin_make_workspace_new,
     marlin_moe_permute_scales)
+from vllm.model_executor.layers.quantization.utils.marlin_utils_fp8 import (
+    prepare_moe_fp8_layer_for_marlin)
 from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
     all_close_1d, normalize_e4m3fn_to_e4m3fnuz, per_tensor_dequantize)
 from vllm.model_executor.utils import set_weight_attrs
 from vllm.platforms import current_platform
+from vllm.scalar_type import scalar_types
 
 logger = init_logger(__name__)
 
@@ -114,10 +118,24 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
                 "For FP8 Fused MoE layer, we require either per tensor or "
                 "channelwise, dynamic per token quantization.")
 
+        # For GPUs that lack FP8 hardware support, we can leverage the Marlin
+        # kernel for fast weight-only FP8 quantization
+        self.use_marlin = (not current_platform.has_device_capability(89)
+                           or envs.VLLM_TEST_FORCE_FP8_MARLIN)
+        # Disable marlin for rocm
+        if current_platform.is_rocm():
+            self.use_marlin = False
+
     def create_weights(self, layer: torch.nn.Module, num_experts: int,
                        hidden_size: int, intermediate_size_per_partition: int,
                        params_dtype: torch.dtype, **extra_weight_attrs):
 
+        layer.intermediate_size_per_partition = intermediate_size_per_partition
+        layer.hidden_size = hidden_size
+        layer.num_experts = num_experts
+        layer.orig_dtype = params_dtype
+        layer.weight_block_size = None
+
         params_dtype = torch.float8_e4m3fn
 
         # WEIGHTS
@@ -280,6 +298,12 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
             from vllm.model_executor.layers.fused_moe import fused_experts
             self.fused_experts_func = fused_experts
 
+        if self.use_marlin:
+            prepare_moe_fp8_layer_for_marlin(layer, False)
+            # Activations not quantized for marlin.
+            del layer.w13_input_scale
+            del layer.w2_input_scale
+
     def apply(
         self,
         layer: torch.nn.Module,
@@ -311,6 +335,24 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
             scoring_func=scoring_func,
             e_score_correction_bias=e_score_correction_bias)
 
+        if self.use_marlin:
+            assert activation == "silu", (
+                f"{activation} not supported for Marlin MoE.")
+            assert not apply_router_weight_on_input, (
+                "Apply router weight on input not supported for Marlin MoE.")
+            return torch.ops.vllm.fused_marlin_moe(
+                x,
+                layer.w13_weight,
+                layer.w2_weight,
+                layer.w13_weight_scale,
+                layer.w2_weight_scale,
+                router_logits,
+                topk_weights,
+                topk_ids,
+                quant_type_id=scalar_types.float8_e4m3fn.id,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map)
+
         return self.fused_experts_func(
             hidden_states=x,
             w1=layer.w13_weight,
@@ -517,7 +559,8 @@ class CompressedTensorsW8A8Fp8MoECutlassMethod(CompressedTensorsMoEMethod):
         activation: str = "silu",
     ) -> torch.Tensor:
 
-        assert activation == "silu"
+        assert activation == "silu", (
+            f"{activation} not supported for Cutlass MoE.")
 
         topk_weights, topk_ids = FusedMoE.select_experts(
             hidden_states=x,
@@ -942,11 +985,10 @@ class CompressedTensorsWNA16MarlinMoEMethod(CompressedTensorsMoEMethod):
         apply_router_weight_on_input: bool = False,
         activation: str = "silu",
     ) -> torch.Tensor:
-        assert activation == "silu", "Only SiLU activation is supported."
-        if apply_router_weight_on_input:
-            raise NotImplementedError(
-                "Apply router weight on input is not supported for "
-                "fused Marlin MoE method.")
+        assert activation == "silu", (
+            f"{activation} not supported for Marlin MoE.")
+        assert not apply_router_weight_on_input, (
+            "Apply router weight on input not supported for Marlin MoE.")
 
         topk_weights, topk_ids = FusedMoE.select_experts(
             hidden_states=x,
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index 5b5f25909..589ca7bed 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -811,6 +811,10 @@ class Fp8MoEMethod(FusedMoEMethodBase):
         )
 
         if self.use_marlin:
+            assert activation == "silu", (
+                f"{activation} not supported for Marlin MoE.")
+            assert not apply_router_weight_on_input, (
+                "Apply router weight on input not supported for Marlin MoE.")
             return torch.ops.vllm.fused_marlin_moe(
                 x,
                 layer.w13_weight,
diff --git a/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py b/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py
index 08812debd..1f6e74244 100644
--- a/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py
@@ -268,6 +268,7 @@ def prepare_moe_fp8_layer_for_marlin(layer: torch.nn.Module,
             tensor_list.append(marlin_scales)
 
         scales = torch.cat([x.unsqueeze(0) for x in tensor_list], 0)
+        scales = fp8_fused_exponent_bias_into_scales(scales)
         scales = torch.nn.Parameter(scales, requires_grad=False)
 
         setattr(layer, name + "_weight_scale", scales)
-- 
GitLab


From 12e6c0b41c197c5079d6ef285930e0dd3bb60c37 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Tue, 13 May 2025 23:36:17 -0400
Subject: [PATCH 350/461] [Bugfix][V1] Fix FlashInfer V1 backend using the
 wrong VllmConfig (#18086)

---
 vllm/v1/attention/backends/flashinfer.py | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/vllm/v1/attention/backends/flashinfer.py b/vllm/v1/attention/backends/flashinfer.py
index dcc33cffb..1c4f7f62f 100755
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -14,8 +14,7 @@ import vllm.envs as envs
 from vllm.attention.backends.abstract import (AttentionBackend, AttentionImpl,
                                               AttentionType)
 from vllm.attention.layer import Attention
-from vllm.config import (VllmConfig, get_current_vllm_config,
-                         get_layers_from_vllm_config)
+from vllm.config import VllmConfig, get_layers_from_vllm_config
 from vllm.logger import init_logger
 from vllm.v1.attention.backends.flash_attn import use_cascade_attention
 from vllm.v1.attention.backends.utils import CommonAttentionMetadata
@@ -215,7 +214,7 @@ class FlashInferMetadataBuilder:
         # Global hyperparameters shared by all attention layers
         self.global_hyperparameters: Optional[PerLayerParameters] = None
 
-        self.vllm_config = get_current_vllm_config()
+        self.vllm_config = runner.vllm_config
         self.kv_cache_spec = kv_cache_spec
         self.block_table = block_table
 
-- 
GitLab


From 2d912fb66fedf0c07bae06fb905d458b1d9a907a Mon Sep 17 00:00:00 2001
From: vllmellm <vllm.ellm@embeddedllm.com>
Date: Wed, 14 May 2025 13:03:47 +0800
Subject: [PATCH 351/461] [FEAT] [ROCm] [V1]: Add AITER biased group topk for
 DeepSeekV3 (#17955)

Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
Co-authored-by: tjtanaa <tunjian.tan@embeddedllm.com>
---
 tests/kernels/moe/test_rocm_aiter_topk.py     | 122 ++++++++++++++++++
 vllm/model_executor/layers/fused_moe/layer.py |  10 +-
 .../layers/fused_moe/rocm_aiter_fused_moe.py  |  71 ++++++++++
 3 files changed, 201 insertions(+), 2 deletions(-)
 create mode 100644 tests/kernels/moe/test_rocm_aiter_topk.py

diff --git a/tests/kernels/moe/test_rocm_aiter_topk.py b/tests/kernels/moe/test_rocm_aiter_topk.py
new file mode 100644
index 000000000..b0d34ddfd
--- /dev/null
+++ b/tests/kernels/moe/test_rocm_aiter_topk.py
@@ -0,0 +1,122 @@
+# SPDX-License-Identifier: Apache-2.0
+# This is a test for the AITER ops.
+# It tests if the AITER ops are
+# 1. correctly registered as custom ops
+# 2. correctly defined the relationship between
+#    implementation and fake function
+# 3. can be used with torch.compile
+# This file will be skipped if AITER is not installed
+# and the platform is not ROCm.
+
+import importlib.util
+
+import pytest
+import torch
+
+# this import statement is needed to ensure the ops are registered
+import vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe  # noqa: F401
+from vllm.platforms import current_platform
+
+# need to import once to ensure the ops are registered
+# Check if aiter package is installed
+aiter_available = importlib.util.find_spec("aiter") is not None
+
+pytestmark = pytest.mark.skipif(
+    not (current_platform.is_rocm() and aiter_available),
+    reason="AITER ops are only available on ROCm with aiter package installed")
+
+
+def test_rocm_aiter_biased_grouped_topk_custom_op_registration():
+    """Test that the custom op is correctly registered."""
+    # Check if the op exists in torch.ops.vllm
+    assert hasattr(torch.ops.vllm, 'rocm_aiter_biased_grouped_topk')
+
+    # Check if the op is callable
+    assert callable(torch.ops.vllm.rocm_aiter_biased_grouped_topk)
+
+
+def test_rocm_aiter_biased_grouped_topk_torch_compile_compatibility():
+    """Test that the op can be used with torch.compile."""
+    # Create test tensors
+    token = 64
+    expert = 256
+    num_expert_group = 8
+    topk = 8
+    topk_group = 4
+    renormalize = True
+    scale_factor = 1.0
+
+    gating_output = torch.randn((token, expert),
+                                dtype=torch.bfloat16,
+                                device="cuda")
+    e_score_correction_bias = torch.randn((expert, ),
+                                          dtype=torch.bfloat16,
+                                          device="cuda")
+
+    device = gating_output.device
+    topk_ids = torch.empty((token, topk), dtype=torch.int32, device=device)
+    topk_weights = torch.empty((token, topk),
+                               dtype=torch.float32,
+                               device=device)
+
+    # Define a function that uses the op
+    def biased_grouped_topk_fn(gating_output, e_score_correction_bias,
+                               topk_weights, topk_ids):
+        return torch.ops.vllm.rocm_aiter_biased_grouped_topk(
+            gating_output, e_score_correction_bias, topk_weights, topk_ids,
+            num_expert_group, topk_group, renormalize, scale_factor)
+
+    # Verify the op's fake implementation
+    torch.library.opcheck(
+        torch.ops.vllm.rocm_aiter_biased_grouped_topk,
+        (gating_output, e_score_correction_bias, topk_weights, topk_ids),
+        kwargs={
+            "num_expert_group": num_expert_group,
+            "topk_group": topk_group,
+            "need_renorm": renormalize,
+            "routed_scaling_factor": scale_factor
+        },
+        test_utils=("test_faketensor"))
+
+    # Compile the function with appropriate settings
+    compiled_fn = torch.compile(biased_grouped_topk_fn,
+                                fullgraph=True,
+                                backend="inductor",
+                                mode="reduce-overhead",
+                                dynamic=False)
+
+    topk_weights_original = torch.empty((token, topk),
+                                        dtype=torch.float32,
+                                        device=device)
+    topk_ids_original = torch.empty((token, topk),
+                                    dtype=torch.int32,
+                                    device=device)
+
+    topk_weights_compiled = torch.empty((token, topk),
+                                        dtype=torch.float32,
+                                        device=device)
+    topk_ids_compiled = torch.empty((token, topk),
+                                    dtype=torch.int32,
+                                    device=device)
+
+    # Run both compiled (V1 graph mode) and uncompiled versions (V1 eager mode)
+    biased_grouped_topk_fn(gating_output, e_score_correction_bias,
+                           topk_weights_original, topk_ids_original)
+    compiled_fn(gating_output, e_score_correction_bias, topk_weights_compiled,
+                topk_ids_compiled)
+
+    # Sort the results for comparison since the order might not be deterministic
+    topk_ids_original, indices_original = torch.sort(topk_ids_original)
+    topk_weights_original = torch.gather(topk_weights_original, 1,
+                                         indices_original)
+
+    topk_ids_compiled, indices_compiled = torch.sort(topk_ids_compiled)
+    topk_weights_compiled = torch.gather(topk_weights_compiled, 1,
+                                         indices_compiled)
+
+    # Verify results match
+    assert torch.allclose(topk_weights_original,
+                          topk_weights_compiled,
+                          rtol=1e-2,
+                          atol=1e-2)
+    assert torch.allclose(topk_ids_original, topk_ids_compiled)
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index d745a15e3..f74e38bde 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -17,6 +17,8 @@ from vllm.distributed import (get_dp_group, get_ep_group,
 from vllm.forward_context import ForwardContext, get_forward_context
 from vllm.logger import init_logger
 from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
+    is_rocm_aiter_moe_enabled)
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.utils import set_weight_attrs
@@ -28,6 +30,11 @@ if current_platform.is_cuda_alike():
     from .fused_moe import fused_experts
 else:
     fused_experts = None  # type: ignore
+if is_rocm_aiter_moe_enabled():
+    from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (  # noqa: E501
+        rocm_aiter_biased_group_topk as grouped_topk)
+else:
+    from vllm.model_executor.layers.fused_moe.fused_moe import grouped_topk
 if current_platform.is_tpu():
     # the iterative moe implementation is used until the moe_pallas is fixed
     from .moe_torch_iterative import fused_moe as fused_moe_pallas
@@ -802,8 +809,7 @@ class FusedMoE(torch.nn.Module):
                        custom_routing_function: Optional[Callable] = None,
                        scoring_func: str = "softmax",
                        e_score_correction_bias: Optional[torch.Tensor] = None):
-        from vllm.model_executor.layers.fused_moe.fused_moe import (
-            fused_topk, grouped_topk)
+        from vllm.model_executor.layers.fused_moe.fused_moe import fused_topk
 
         # DeekSeekv2 uses grouped_top_k
         if use_grouped_topk:
diff --git a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
index d42cfce4a..02e75402f 100644
--- a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
@@ -216,6 +216,37 @@ def rocm_aiter_topk_softmax_fake(topk_weights: torch.Tensor,
     pass
 
 
+def rocm_aiter_biased_grouped_topk_impl(
+        gating_output: torch.Tensor,
+        correction_bias: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_expert_group: int,
+        topk_group: int,
+        need_renorm: bool,
+        routed_scaling_factor: float = 1.0  # mul to topk_weights
+) -> None:
+
+    from aiter import biased_grouped_topk
+
+    biased_grouped_topk(gating_output, correction_bias, topk_weights, topk_ids,
+                        num_expert_group, topk_group, need_renorm,
+                        routed_scaling_factor)
+
+
+def rocm_aiter_biased_grouped_topk_fake(
+        gating_output: torch.Tensor,
+        correction_bias: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_expert_group: int,
+        topk_group: int,
+        need_renorm: bool,
+        routed_scaling_factor: float = 1.0  # mul to topk_weights
+) -> None:
+    pass
+
+
 if current_platform.is_rocm():
 
     direct_register_custom_op(
@@ -258,6 +289,46 @@ if current_platform.is_rocm():
         dispatch_key=current_platform.dispatch_key,
     )
 
+    direct_register_custom_op(
+        op_name="rocm_aiter_biased_grouped_topk",
+        op_func=rocm_aiter_biased_grouped_topk_impl,
+        mutates_args=["topk_weights", "topk_ids"],
+        fake_impl=rocm_aiter_biased_grouped_topk_fake,
+        dispatch_key=current_platform.dispatch_key,
+    )
+
+
+def rocm_aiter_biased_group_topk(
+    hidden_states: torch.Tensor,
+    gating_output: torch.Tensor,
+    topk: int,
+    renormalize: bool,
+    num_expert_group: int = 0,
+    topk_group: int = 0,
+    scoring_func: str = "sigmoid",
+    e_score_correction_bias: Optional[torch.Tensor] = None
+) -> tuple[torch.Tensor, torch.Tensor]:
+    assert scoring_func == "sigmoid", (
+        "rocm_aiter_biased_group_topk only supports 'sigmoid' scoring_func.")
+    assert e_score_correction_bias is not None, (
+        "'e_score_correction_bias' must not be None.")
+    token = hidden_states.shape[0]
+    device = hidden_states.device
+    topk_ids = torch.empty((token, topk), dtype=torch.int32, device=device)
+    topk_weights = torch.empty((token, topk),
+                               dtype=torch.float32,
+                               device=device)
+    torch.ops.vllm.rocm_aiter_biased_grouped_topk(
+        gating_output,
+        e_score_correction_bias,
+        topk_weights,
+        topk_ids,
+        num_expert_group,
+        topk_group,
+        renormalize,
+    )
+    return topk_weights, topk_ids
+
 
 def rocm_aiter_fused_experts(hidden_states: torch.Tensor,
                              w1: torch.Tensor,
-- 
GitLab


From 7b2f28deba3ce0ad773611f1612f9fc092b0e923 Mon Sep 17 00:00:00 2001
From: Charlie Fu <charlifu@amd.com>
Date: Wed, 14 May 2025 00:13:56 -0500
Subject: [PATCH 352/461] [AMD][torch.compile] Enable silu+fp8_quant fusion for
 rocm (#18082)

Signed-off-by: charlifu <charlifu@amd.com>
---
 .buildkite/test-pipeline.yaml                        | 1 +
 csrc/quantization/activation_kernels.cu              | 3 ++-
 tests/compile/test_silu_mul_quant_fusion.py          | 6 +++---
 tests/kernels/quantization/test_rocm_skinny_gemms.py | 5 +++--
 tests/kernels/test_fused_quant_activation.py         | 5 +++--
 vllm/compilation/activation_quant_fusion.py          | 3 ++-
 6 files changed, 14 insertions(+), 9 deletions(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index d46459eae..1040d1e1b 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -309,6 +309,7 @@ steps:
   commands:
     - pytest -v -s compile/test_pass_manager.py
     - pytest -v -s compile/test_fusion.py
+    - pytest -v -s compile/test_silu_mul_quant_fusion.py
     - pytest -v -s compile/test_sequence_parallelism.py
 
 - label: PyTorch Fullgraph Smoke Test # 9min
diff --git a/csrc/quantization/activation_kernels.cu b/csrc/quantization/activation_kernels.cu
index acc3d6722..67e9149c1 100644
--- a/csrc/quantization/activation_kernels.cu
+++ b/csrc/quantization/activation_kernels.cu
@@ -112,7 +112,8 @@ __global__ void act_and_mul_quant_kernel(
 void silu_and_mul_quant(torch::Tensor& out,    // [..., d]
                         torch::Tensor& input,  // [..., 2 * d]
                         torch::Tensor& scale) {
-  TORCH_CHECK(out.dtype() == torch::kFloat8_e4m3fn);
+  TORCH_CHECK(out.dtype() == torch::kFloat8_e4m3fn ||
+              out.dtype() == torch::kFloat8_e4m3fnuz);
   TORCH_CHECK(input.dtype() == torch::kFloat16 ||
               input.dtype() == torch::kBFloat16);
   TORCH_CHECK(input.size(-1) % 2 == 0);
diff --git a/tests/compile/test_silu_mul_quant_fusion.py b/tests/compile/test_silu_mul_quant_fusion.py
index f87f175ac..9eae48d60 100644
--- a/tests/compile/test_silu_mul_quant_fusion.py
+++ b/tests/compile/test_silu_mul_quant_fusion.py
@@ -27,8 +27,8 @@ class TestModel(torch.nn.Module):
 
 @pytest.mark.parametrize("num_tokens", [256])
 @pytest.mark.parametrize("hidden_size", [64])
-@pytest.mark.skipif(envs.VLLM_TARGET_DEVICE != "cuda",
-                    reason="Only test on CUDA")
+@pytest.mark.skipif(envs.VLLM_TARGET_DEVICE not in ["cuda", "rocm"],
+                    reason="Only test on CUDA and ROCm")
 def test_fusion_silu_and_mul_quant(num_tokens, hidden_size):
     torch.set_default_device("cuda")
     torch.set_default_dtype(torch.float16)
@@ -36,7 +36,7 @@ def test_fusion_silu_and_mul_quant(num_tokens, hidden_size):
     # Reshape pass is needed for the fusion pass to work
     config = VllmConfig()
     config.compilation_config = CompilationConfig(
-        pass_config=PassConfig(enable_fusion=True, enable_reshape=True))
+        pass_config=PassConfig(enable_fusion=True, enable_noop=True))
     fusion_pass = ActivationQuantFusionPass(config)
 
     backend = TestBackend(fusion_pass)
diff --git a/tests/kernels/quantization/test_rocm_skinny_gemms.py b/tests/kernels/quantization/test_rocm_skinny_gemms.py
index 76d331690..c7eee8998 100644
--- a/tests/kernels/quantization/test_rocm_skinny_gemms.py
+++ b/tests/kernels/quantization/test_rocm_skinny_gemms.py
@@ -58,8 +58,9 @@ def test_rocm_wvsplitk_kernel(n, k, m, dtype, seed):
 @pytest.mark.parametrize("m", M + [28672])  # m >= 16
 @pytest.mark.parametrize("dtype", DTYPES)
 @pytest.mark.parametrize("seed", SEEDS)
-@pytest.mark.skipif(not current_platform.is_rocm(),
-                    reason="only test for rocm")
+@pytest.mark.skipif(
+    not (current_platform.is_rocm() and current_platform.supports_fp8()),
+    reason="only test for rocm fp8")
 def test_rocm_wvsplitk_fp8_kernel(n, k, m, dtype, seed):
     torch.manual_seed(seed)
 
diff --git a/tests/kernels/test_fused_quant_activation.py b/tests/kernels/test_fused_quant_activation.py
index fa84ad74c..faa8d49ce 100644
--- a/tests/kernels/test_fused_quant_activation.py
+++ b/tests/kernels/test_fused_quant_activation.py
@@ -5,9 +5,10 @@ import torch
 import vllm._custom_ops as ops
 from tests.kernels.utils import opcheck
 from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.platforms import current_platform
 
 DTYPES = [torch.bfloat16, torch.float16]
-QUANT_DTYPES = [torch.float8_e4m3fn]
+QUANT_DTYPES = [current_platform.fp8_dtype()]
 NUM_TOKENS = [1, 17, 86, 1234, 3045]  # Arbitrary values for testing
 HIDDEN_SIZES = [16, 48, 128, 1562, 4096]  # Arbitrary values for testing
 SEEDS = [0]
@@ -26,7 +27,7 @@ def ref_impl(silu_and_mul: SiluAndMul, x: torch.Tensor,
 def ops_impl(x: torch.Tensor, scale: torch.Tensor) -> torch.Tensor:
     out_shape = (x.shape[0], x.shape[1] // 2)
     out = torch.empty(out_shape,
-                      dtype=torch.torch.float8_e4m3fn,
+                      dtype=current_platform.fp8_dtype(),
                       device=x.device)
     torch.ops._C.silu_and_mul_quant(out, x, scale)
     return out
diff --git a/vllm/compilation/activation_quant_fusion.py b/vllm/compilation/activation_quant_fusion.py
index 1917ed8bb..dc3e1482e 100644
--- a/vllm/compilation/activation_quant_fusion.py
+++ b/vllm/compilation/activation_quant_fusion.py
@@ -7,6 +7,7 @@ from torch._inductor.pattern_matcher import (PatternMatcherPass, fwd_only,
 
 from vllm.config import VllmConfig
 from vllm.logger import init_logger
+from vllm.platforms import current_platform
 
 from .vllm_inductor_pass import VllmInductorPass
 
@@ -41,7 +42,7 @@ def empty_bf16(*args, **kwargs):
 
 
 def empty_fp8(*args, **kwargs):
-    fp8 = torch.float8_e4m3fn
+    fp8 = current_platform.fp8_dtype()
     return torch.empty(*args, **kwargs, dtype=fp8, device="cuda")
 
 
-- 
GitLab


From 4f8b37322561ca07ba3e3e450ecff0a231d0d8f8 Mon Sep 17 00:00:00 2001
From: qli88 <qiang.li2@amd.com>
Date: Wed, 14 May 2025 01:05:20 -0500
Subject: [PATCH 353/461] [BugFix][AMD] Compatible patch for AITER lib after
 04/20 (#17912)

Signed-off-by: Qiang Li <qiang.li2@amd.com>
---
 vllm/attention/backends/rocm_aiter_mla.py     | 49 ++++++++++++++-----
 vllm/attention/ops/rocm_aiter_mla.py          | 13 ++++-
 .../layers/fused_moe/rocm_aiter_fused_moe.py  |  9 ++--
 3 files changed, 54 insertions(+), 17 deletions(-)

diff --git a/vllm/attention/backends/rocm_aiter_mla.py b/vllm/attention/backends/rocm_aiter_mla.py
index 4936c8201..b04822002 100644
--- a/vllm/attention/backends/rocm_aiter_mla.py
+++ b/vllm/attention/backends/rocm_aiter_mla.py
@@ -53,7 +53,7 @@ class AiterMLABackend(MLACommonBackend):
 
 @dataclass
 class AiterMLAMetadata(MLACommonMetadata):
-    # The following 4 tensors are for current version of AITER MLA
+    # The following 5 tensors are for current version of AITER MLA
     block_table_bound: Optional[torch.Tensor] = None
     # The indptr of the paged kv cache, shape: [batch_size + 1]
     paged_kv_indptr: Optional[torch.Tensor] = None
@@ -63,6 +63,10 @@ class AiterMLAMetadata(MLACommonMetadata):
     # the paged kv cache, shape: [batch_size]
     paged_kv_last_page_lens: Optional[torch.Tensor] = None
 
+    # This is just to make new AITER MLA API work
+    # -- MTP support is not added yet.
+    qo_indptr: Optional[torch.Tensor] = None
+
     @property
     def prefill_metadata(self):
         prefill_metadata = super().prefill_metadata
@@ -74,6 +78,7 @@ class AiterMLAMetadata(MLACommonMetadata):
             prefill_metadata\
                 .paged_kv_last_page_lens = self.paged_kv_last_page_lens
             prefill_metadata.block_table_bound = self.block_table_bound
+            prefill_metadata.qo_indptr = self.qo_indptr
 
             # update the cache
             self._cached_prefill_metadata = self.__class__(
@@ -93,6 +98,7 @@ class AiterMLAMetadata(MLACommonMetadata):
             decode_metadata\
                 .paged_kv_last_page_lens = self.paged_kv_last_page_lens
             decode_metadata.block_table_bound = self.block_table_bound
+            decode_metadata.qo_indptr = self.qo_indptr
 
             # update the cache
             self._cached_decode_metadata = self.__class__(
@@ -136,6 +142,7 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
         self.paged_kv_indptr: list[int] = [0]
         self.paged_kv_last_page_lens: list[int] = []
         self.total_blocks = 0
+        self.qo_indptr: list[int] = [0]
 
     def _add_seq_group(self, inter_data, chunked_prefill_enabled: bool,
                        prefix_cache_hit: bool):
@@ -208,6 +215,7 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
         self.paged_kv_indices.extend(block_table[:block_table_bound])
         self.paged_kv_indptr.append(self.paged_kv_indptr[-1] +
                                     block_table_bound)
+        self.qo_indptr.append(self.qo_indptr[-1] + 1)
 
         last_page_len = seq_len % self.block_size
         if last_page_len == 0:
@@ -226,6 +234,8 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
             self.paged_kv_indptr.extend([last_paged_kv_indptr] *
                                         cuda_graph_pad_size)
             self.paged_kv_last_page_lens.extend([0] * cuda_graph_pad_size)
+            last_qo_indptr = self.qo_indptr[-1]
+            self.qo_indptr.extend([last_qo_indptr] * cuda_graph_pad_size)
 
         # For current version of AITER MLA
         if len(self.paged_kv_indptr) > 0:
@@ -245,16 +255,22 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
                                                    1,
                                                    device=device,
                                                    dtype=torch.int)
+
+            qo_indptr = torch.tensor(self.qo_indptr,
+                                     device=device,
+                                     dtype=torch.int)
         else:
             paged_kv_indices_tensor = None
             paged_kv_indptr_tensor = None
             paged_kv_last_page_lens_tensor = None
             block_table_bound_tensor = None
+            qo_indptr = None
 
         metadata.paged_kv_indptr = paged_kv_indptr_tensor
         metadata.paged_kv_indices = paged_kv_indices_tensor
         metadata.paged_kv_last_page_lens = paged_kv_last_page_lens_tensor
         metadata.block_table_bound = block_table_bound_tensor
+        metadata.qo_indptr = qo_indptr
 
         return metadata
 
@@ -263,14 +279,17 @@ class AiterMLAState(MLACommonState[AiterMLAMetadata]):
 
     @contextmanager
     def graph_capture(self, max_batch_size: int):
-        kv_indices, kv_indptr, last_page_lens = get_aiter_mla_metadata(
-            max_batch_size=max_batch_size,
-            block_size=self.runner.block_size,
-            max_block_per_batch=self.runner.get_max_block_per_batch(),
-            device=self.runner.device)
+        kv_indices, kv_indptr, last_page_lens, qo_indptr = \
+            get_aiter_mla_metadata(
+                max_batch_size=max_batch_size,
+                block_size=self.runner.block_size,
+                max_block_per_batch=\
+                    self.runner.get_max_block_per_batch(),
+                device=self.runner.device)
         self._paged_kv_indices_tensor = kv_indices
         self._paged_kv_indptr_tensor = kv_indptr
         self._paged_kv_last_page_lens_tensor = last_page_lens
+        self._qo_indptr_tensor = qo_indptr
 
         with super().graph_capture(max_batch_size):
             yield
@@ -278,6 +297,7 @@ class AiterMLAState(MLACommonState[AiterMLAMetadata]):
         del self._paged_kv_indices_tensor
         del self._paged_kv_indptr_tensor
         del self._paged_kv_last_page_lens_tensor
+        del self._qo_indptr_tensor
 
     def graph_capture_get_metadata_for_batch(
             self,
@@ -291,10 +311,12 @@ class AiterMLAState(MLACommonState[AiterMLAMetadata]):
         paged_kv_indices = self._paged_kv_indices_tensor
         paged_kv_last_page_lens = self._paged_kv_last_page_lens_tensor[:
                                                                        batch_size]
+        qo_indptr = self._qo_indptr_tensor[:batch_size + 1]
 
         metadata.paged_kv_indptr = paged_kv_indptr
         metadata.paged_kv_indices = paged_kv_indices
         metadata.paged_kv_last_page_lens = paged_kv_last_page_lens
+        metadata.qo_indptr = qo_indptr
 
         return metadata
 
@@ -311,6 +333,7 @@ class AiterMLAState(MLACommonState[AiterMLAMetadata]):
         input_buffers[
             "paged_kv_last_page_lens"] = attn_metadata.\
             decode_metadata.paged_kv_last_page_lens
+        input_buffers['qo_indptr'] = attn_metadata.qo_indptr
 
         return input_buffers
 
@@ -330,6 +353,8 @@ class AiterMLAState(MLACommonState[AiterMLAMetadata]):
         input_buffers["paged_kv_last_page_lens"].copy_(
             attn_metadata.decode_metadata.paged_kv_last_page_lens,
             non_blocking=True)
+        input_buffers["qo_indptr"].copy_(
+            attn_metadata.decode_metadata.qo_indptr, non_blocking=True)
 
 
 class AiterMLAImpl(MLACommonImpl[AiterMLAMetadata]):
@@ -370,11 +395,9 @@ class AiterMLAImpl(MLACommonImpl[AiterMLAMetadata]):
             softmax_scale: float, return_softmax_lse: bool,
             **kwargs) -> Union[tuple[torch.Tensor, ...], torch.Tensor]:
         output = self.flash_attn_varlen_func(
-            q=q,
-            k=k,
-            v=v,
-            softmax_scale=softmax_scale,
-            return_lse=return_softmax_lse,
+            q,
+            k,
+            v,
             **kwargs,
         )
 
@@ -394,7 +417,7 @@ class AiterMLAImpl(MLACommonImpl[AiterMLAMetadata]):
         B = q_nope.shape[0]
 
         q = torch.cat([q_nope, q_pe], dim=-1)
-        o = torch.zeros(B,
+        o = torch.empty(B,
                         self.num_heads,
                         self.kv_lora_rank,
                         dtype=q.dtype,
@@ -403,6 +426,8 @@ class AiterMLAImpl(MLACommonImpl[AiterMLAMetadata]):
         kv_buffer = kv_c_and_k_pe_cache.unsqueeze(2)
 
         aiter_mla_decode_fwd(q, kv_buffer, o, self.scale,
+                             attn_metadata.qo_indptr,
+                             attn_metadata.max_query_len,
                              attn_metadata.paged_kv_indptr,
                              attn_metadata.paged_kv_indices,
                              attn_metadata.paged_kv_last_page_lens)
diff --git a/vllm/attention/ops/rocm_aiter_mla.py b/vllm/attention/ops/rocm_aiter_mla.py
index 3348d1880..421891ab6 100644
--- a/vllm/attention/ops/rocm_aiter_mla.py
+++ b/vllm/attention/ops/rocm_aiter_mla.py
@@ -20,7 +20,8 @@ def get_aiter_mla_metadata(max_batch_size: int, block_size: int,
     paged_kv_last_page_lens = torch.full((max_batch_size, ),
                                          block_size,
                                          dtype=torch.int32)
-    return paged_kv_indices, paged_kv_indptr, paged_kv_last_page_lens
+    qo_indptr = torch.zeros(max_batch_size + 1, dtype=torch.int, device=device)
+    return paged_kv_indices, paged_kv_indptr, paged_kv_last_page_lens, qo_indptr
 
 
 def aiter_mla_decode_fwd(
@@ -28,6 +29,8 @@ def aiter_mla_decode_fwd(
     kv_buffer: torch.Tensor,
     o: torch.Tensor,
     sm_scale: float,
+    qo_indptr: torch.Tensor,
+    max_seqlen_qo: int,
     kv_indptr: Optional[torch.Tensor] = None,
     kv_indices: Optional[torch.Tensor] = None,
     kv_last_page_lens: Optional[torch.Tensor] = None,
@@ -38,6 +41,8 @@ def aiter_mla_decode_fwd(
                                              kv_buffer.view(
                                                  -1, 1, 1, q.shape[-1]),
                                              o,
+                                             qo_indptr,
+                                             max_seqlen_qo,
                                              kv_indptr,
                                              kv_indices,
                                              kv_last_page_lens,
@@ -49,6 +54,8 @@ def mla_decode_fwd_impl(
     q: torch.Tensor,
     kv_buffer: torch.Tensor,
     o: torch.Tensor,
+    qo_indptr: torch.Tensor,
+    max_seqlen_qo: int,
     kv_indptr: Optional[torch.Tensor] = None,
     kv_indices: Optional[torch.Tensor] = None,
     kv_last_page_lens: Optional[torch.Tensor] = None,
@@ -60,9 +67,11 @@ def mla_decode_fwd_impl(
     mla_decode_fwd(q,
                    kv_buffer.view(-1, 1, 1, q.shape[-1]),
                    o,
+                   qo_indptr,
                    kv_indptr,
                    kv_indices,
                    kv_last_page_lens,
+                   max_seqlen_qo,
                    sm_scale=sm_scale,
                    logit_cap=logit_cap)
 
@@ -71,6 +80,8 @@ def mla_decode_fwd_fake(
     q: torch.Tensor,
     kv_buffer: torch.Tensor,
     o: torch.Tensor,
+    qo_indptr: torch.Tensor,
+    max_seqlen_qo: int,
     kv_indptr: Optional[torch.Tensor] = None,
     kv_indices: Optional[torch.Tensor] = None,
     kv_last_page_lens: Optional[torch.Tensor] = None,
diff --git a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
index 02e75402f..04155ab69 100644
--- a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
@@ -123,10 +123,11 @@ def rocm_aiter_fmoe_fp8_blockscale_g1u1_impl(
 
     fmoe_fp8_blockscale_g1u1(out_asm, a1, w1, w2, sorted_token_ids,
                              sorted_weight_buf, sorted_expert_ids,
-                             num_valid_ids, topk, w1_scale.view(local_E, -1),
-                             w2_scale.view(local_E, -1),
-                             a1_scale.t().contiguous(), *block_shape,
-                             smooth_scale)
+                             num_valid_ids, topk,
+                             a1_scale.t().contiguous(),
+                             w1_scale.view(local_E, -1),
+                             w2_scale.view(local_E,
+                                           -1), *block_shape, smooth_scale)
 
     return out_asm
 
-- 
GitLab


From 33011318c20824799b817347783d911e5b2076ea Mon Sep 17 00:00:00 2001
From: Ecthlion_zyy <48782306+Ecthlion@users.noreply.github.com>
Date: Wed, 14 May 2025 14:19:14 +0800
Subject: [PATCH 354/461] Fix broken example:
 examples/offline_inference/profiling at scheduler_config  (#18117)

---
 examples/offline_inference/profiling.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/examples/offline_inference/profiling.py b/examples/offline_inference/profiling.py
index 99303950d..3cf0c340d 100644
--- a/examples/offline_inference/profiling.py
+++ b/examples/offline_inference/profiling.py
@@ -193,7 +193,7 @@ def run_profile(context: ProfileContext, csv_output: Optional[str],
     batch_size = context.batch_size
     prompt_len = context.prompt_len
 
-    scheduler_config = llm.llm_engine.scheduler_config
+    scheduler_config = llm.llm_engine.vllm_config.scheduler_config
     max_model_len = llm.llm_engine.model_config.max_model_len
     max_num_batched_tokens = scheduler_config.max_num_batched_tokens
     max_num_seqs = scheduler_config.max_num_seqs
-- 
GitLab


From 6685890d11abe4d919a176854b940d97fb9344e7 Mon Sep 17 00:00:00 2001
From: lkchen <github@lkchen.net>
Date: Tue, 13 May 2025 23:27:26 -0700
Subject: [PATCH 355/461] [Fix] Move "model_config" as keyword args in
 chat_utils.py (#18098)

Signed-off-by: Linkun <github@lkchen.net>
---
 .../entrypoints/openai/test_chat_template.py  |  4 +--
 tests/entrypoints/test_chat_utils.py          | 10 +++---
 vllm/entrypoints/chat_utils.py                | 35 ++++++++++++++-----
 vllm/entrypoints/llm.py                       |  6 ++--
 vllm/entrypoints/openai/api_server.py         |  4 +--
 vllm/entrypoints/openai/serving_engine.py     |  6 ++--
 6 files changed, 42 insertions(+), 23 deletions(-)

diff --git a/tests/entrypoints/openai/test_chat_template.py b/tests/entrypoints/openai/test_chat_template.py
index 48ede50e9..f18fbb0a9 100644
--- a/tests/entrypoints/openai/test_chat_template.py
+++ b/tests/entrypoints/openai/test_chat_template.py
@@ -122,10 +122,10 @@ def test_get_gen_prompt(model, template, add_generation_prompt,
 
     # Call the function and get the result
     result = apply_hf_chat_template(
-        model_config,
-        tokenizer,
+        tokenizer=tokenizer,
         conversation=mock_request.messages,
         chat_template=mock_request.chat_template or template_content,
+        model_config=model_config,
         tools=None,
         add_generation_prompt=mock_request.add_generation_prompt,
         continue_final_message=mock_request.continue_final_message,
diff --git a/tests/entrypoints/test_chat_utils.py b/tests/entrypoints/test_chat_utils.py
index bcb25ed99..43ad09197 100644
--- a/tests/entrypoints/test_chat_utils.py
+++ b/tests/entrypoints/test_chat_utils.py
@@ -793,10 +793,10 @@ def test_multimodal_image_parsing_matches_hf(model, image_url):
     )
 
     vllm_result = apply_hf_chat_template(
-        model_config,
-        tokenizer,
+        tokenizer=tokenizer,
         conversation=conversation,
         chat_template=None,
+        model_config=model_config,
         tools=None,
         add_generation_prompt=True,
     )
@@ -903,11 +903,11 @@ def test_resolve_content_format_hf_defined(model, expected_format):
     print(_try_extract_ast(chat_template))
 
     resolved_format = resolve_chat_template_content_format(
-        model_config,
         None,  # Test detecting the tokenizer's chat_template
         None,
         "auto",
         tokenizer,
+        model_config=model_config,
     )
 
     assert resolved_format == expected_format
@@ -962,11 +962,11 @@ def test_resolve_content_format_fallbacks(model, expected_format):
     print(_try_extract_ast(chat_template))
 
     resolved_format = resolve_chat_template_content_format(
-        model_config,
         None,  # Test detecting the tokenizer's chat_template
         None,
         "auto",
         tokenizer,
+        model_config=model_config,
     )
 
     assert resolved_format == expected_format
@@ -1021,11 +1021,11 @@ def test_resolve_content_format_examples(template_path, expected_format):
     print(_try_extract_ast(chat_template))
 
     resolved_format = resolve_chat_template_content_format(
-        model_config,
         chat_template,
         None,
         "auto",
         dummy_tokenizer,
+        model_config=model_config,
     )
 
     assert resolved_format == expected_format
diff --git a/vllm/entrypoints/chat_utils.py b/vllm/entrypoints/chat_utils.py
index 183b5bf68..6f5514a6f 100644
--- a/vllm/entrypoints/chat_utils.py
+++ b/vllm/entrypoints/chat_utils.py
@@ -44,7 +44,7 @@ from vllm.transformers_utils.chat_templates import (
 # yapf: enable
 from vllm.transformers_utils.processor import cached_get_processor
 from vllm.transformers_utils.tokenizer import AnyTokenizer, MistralTokenizer
-from vllm.utils import random_uuid
+from vllm.utils import deprecate_kwargs, random_uuid
 
 logger = init_logger(__name__)
 
@@ -329,11 +329,17 @@ def resolve_mistral_chat_template(
             "so it will be ignored.")
     return None
 
+@deprecate_kwargs(
+    "trust_remote_code",
+    additional_message="Please use `model_config.trust_remote_code` instead.",
+)
 def resolve_hf_chat_template(
-    model_config: ModelConfig,
     tokenizer: Union[PreTrainedTokenizer, PreTrainedTokenizerFast],
     chat_template: Optional[str],
     tools: Optional[list[dict[str, Any]]],
+    *,
+    model_config: ModelConfig,
+    trsut_remote_code: Optional[bool] = None,
 ) -> Optional[str]:
     # 1st priority: The given chat template
     if chat_template is not None:
@@ -379,18 +385,19 @@ def resolve_hf_chat_template(
 
 
 def _resolve_chat_template_content_format(
-    model_config: ModelConfig,
     chat_template: Optional[str],
     tools: Optional[list[dict[str, Any]]],
     given_format: ChatTemplateContentFormatOption,
     tokenizer: AnyTokenizer,
+    *,
+    model_config: ModelConfig,
 ) -> _ChatTemplateContentFormat:
     if isinstance(tokenizer, (PreTrainedTokenizer, PreTrainedTokenizerFast)):
         hf_chat_template = resolve_hf_chat_template(
-            model_config,
             tokenizer,
             chat_template=chat_template,
             tools=tools,
+            model_config=model_config,
         )
     else:
         hf_chat_template = None
@@ -428,19 +435,25 @@ def _log_chat_template_content_format(
         )
 
 
+@deprecate_kwargs(
+    "trust_remote_code",
+    additional_message="Please use `model_config.trust_remote_code` instead.",
+)
 def resolve_chat_template_content_format(
-    model_config: ModelConfig,
     chat_template: Optional[str],
     tools: Optional[list[dict[str, Any]]],
     given_format: ChatTemplateContentFormatOption,
     tokenizer: AnyTokenizer,
+    *,
+    model_config: ModelConfig,
+    trust_remote_code: Optional[bool] = None,
 ) -> _ChatTemplateContentFormat:
     detected_format = _resolve_chat_template_content_format(
-        model_config,
         chat_template,
         tools,
         given_format,
         tokenizer,
+        model_config=model_config,
     )
 
     _log_chat_template_content_format(
@@ -1191,21 +1204,27 @@ def parse_chat_messages_futures(
     return conversation, mm_tracker.all_mm_data()
 
 
+@deprecate_kwargs(
+    "trust_remote_code",
+    additional_message="Please use `model_config.trust_remote_code` instead.",
+)
 def apply_hf_chat_template(
-    model_config: ModelConfig,
     tokenizer: Union[PreTrainedTokenizer, PreTrainedTokenizerFast],
     conversation: list[ConversationMessage],
     chat_template: Optional[str],
     tools: Optional[list[dict[str, Any]]],
     *,
+    model_config: ModelConfig,
     tokenize: bool = False,  # Different from HF's default
+    # Deprecated, explicitly capture here so it doesn't slit into kwargs.
+    trust_remote_code: Optional[bool] = None,
     **kwargs: Any,
 ) -> str:
     hf_chat_template = resolve_hf_chat_template(
-        model_config,
         tokenizer,
         chat_template=chat_template,
         tools=tools,
+        model_config=model_config,
     )
 
     if hf_chat_template is None:
diff --git a/vllm/entrypoints/llm.py b/vllm/entrypoints/llm.py
index cebddcc8e..053ee55bb 100644
--- a/vllm/entrypoints/llm.py
+++ b/vllm/entrypoints/llm.py
@@ -731,11 +731,11 @@ class LLM:
         tokenizer = self.get_tokenizer(lora_request)
         model_config = self.llm_engine.get_model_config()
         resolved_content_format = resolve_chat_template_content_format(
-            model_config,
             chat_template,
             tools,
             chat_template_content_format,
             tokenizer,
+            model_config=model_config,
         )
 
         _chat_template_kwargs: dict[str, Any] = dict(
@@ -767,9 +767,9 @@ class LLM:
                 )
             else:
                 prompt_str = apply_hf_chat_template(
-                    model_config,
-                    tokenizer,
+                    tokenizer=tokenizer,
                     conversation=conversation,
+                    model_config=model_config,
                     **_chat_template_kwargs,
                 )
                 # Special tokens are already included in chat templates so
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index a954a9ff9..5b3df0fac 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -971,10 +971,10 @@ async def init_app_state(
                 chat_template=resolved_chat_template)
         else:
             hf_chat_template = resolve_hf_chat_template(
-                vllm_config.model_config,
-                tokenizer,
+                tokenizer=tokenizer,
                 chat_template=None,
                 tools=None,
+                model_config=vllm_config.model_config,
             )
 
             if hf_chat_template != resolved_chat_template:
diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
index f1d907f51..f9eebde37 100644
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -670,11 +670,11 @@ class OpenAIServing:
         model_config = self.model_config
 
         resolved_content_format = resolve_chat_template_content_format(
-            model_config,
             chat_template,
             tool_dicts,
             chat_template_content_format,
             tokenizer,
+            model_config=model_config,
         )
         conversation, mm_data_future = parse_chat_messages_futures(
             messages,
@@ -701,9 +701,9 @@ class OpenAIServing:
             )
         else:
             request_prompt = apply_hf_chat_template(
-                model_config,
-                tokenizer,
+                tokenizer=tokenizer,
                 conversation=conversation,
+                model_config=model_config,
                 **_chat_template_kwargs,
             )
 
-- 
GitLab


From d4154c35a241077d27418940f2553003c58dd903 Mon Sep 17 00:00:00 2001
From: Jinzhen Lin <linjinzhen@hotmail.com>
Date: Wed, 14 May 2025 14:31:57 +0800
Subject: [PATCH 356/461] [Bugfix] fix moe marlin `topk_weight` loading
 (#18080)

Co-authored-by: mgoin <mgoin64@gmail.com>
---
 csrc/moe/marlin_moe_wna16/marlin_template.h | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/csrc/moe/marlin_moe_wna16/marlin_template.h b/csrc/moe/marlin_moe_wna16/marlin_template.h
index dedbe1b79..fdf0f51cd 100644
--- a/csrc/moe/marlin_moe_wna16/marlin_template.h
+++ b/csrc/moe/marlin_moe_wna16/marlin_template.h
@@ -473,15 +473,15 @@ __global__ void Marlin(
       if (mul_topk_weights) {
   #pragma unroll
         for (int i = 0; i < 4; i++) {
+          int idx = tid4 * 4 + i;
+          idx = idx < block_num_valid_tokens ? idx : 0;
           if constexpr (w_type == vllm::kFE2M1f) {
-            sh_block_topk_weights[tid4 * 4 + i] = __hmul2(
-                global_scale,
-                Dtype::num2num2(Dtype::float2num(
-                    topk_weights_ptr[sh_block_sorted_ids[tid4 * 4 + i]])));
+            sh_block_topk_weights[idx] = __hmul2(
+                global_scale, Dtype::num2num2(Dtype::float2num(
+                                  topk_weights_ptr[sh_block_sorted_ids[idx]])));
           } else {
-            sh_block_topk_weights[tid4 * 4 + i] =
-                Dtype::num2num2(Dtype::float2num(
-                    topk_weights_ptr[sh_block_sorted_ids[tid4 * 4 + i]]));
+            sh_block_topk_weights[idx] = Dtype::num2num2(
+                Dtype::float2num(topk_weights_ptr[sh_block_sorted_ids[idx]]));
           }
         }
       }
-- 
GitLab


From e7ef61c1f039a8eac98602a9e5ab7517027e7278 Mon Sep 17 00:00:00 2001
From: majianpeng <jianpeng.ma@intel.com>
Date: Wed, 14 May 2025 14:43:44 +0800
Subject: [PATCH 357/461] [Bugfix][Example] make lmcache v0 work. (#18051)

Signed-off-by: Ma, Jianpeng <jianpeng.ma@intel.com>
---
 examples/lmcache/cpu_offload_lmcache.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/examples/lmcache/cpu_offload_lmcache.py b/examples/lmcache/cpu_offload_lmcache.py
index bf191960b..eedb47dfc 100644
--- a/examples/lmcache/cpu_offload_lmcache.py
+++ b/examples/lmcache/cpu_offload_lmcache.py
@@ -34,7 +34,7 @@ from vllm.config import KVTransferConfig
 from vllm.engine.arg_utils import EngineArgs
 
 
-def setup_environment_variables():
+def setup_environment_variables(vllm_version: str):
     # LMCache-related environment variables
     # Use experimental features in LMCache
     os.environ["LMCACHE_USE_EXPERIMENTAL"] = "True"
@@ -44,6 +44,8 @@ def setup_environment_variables():
     os.environ["LMCACHE_LOCAL_CPU"] = "True"
     # Set local CPU memory limit to 5.0 GB
     os.environ["LMCACHE_MAX_LOCAL_CPU_SIZE"] = "5.0"
+    if vllm_version == "v0":
+        os.environ["VLLM_USE_V1"] = "0"
 
 
 @contextlib.contextmanager
@@ -120,7 +122,7 @@ def main():
         lmcache_connector = "LMCacheConnectorV1"
         model = "meta-llama/Meta-Llama-3.1-8B-Instruct"
 
-    setup_environment_variables()
+    setup_environment_variables(args.version)
 
     with build_llm_with_lmcache(lmcache_connector, model, args.version) as llm:
 
-- 
GitLab


From 63ad6222332c8091c1229098a3b0dc5b7f686fa1 Mon Sep 17 00:00:00 2001
From: "wang.yuqi" <noooop@126.com>
Date: Wed, 14 May 2025 16:31:31 +0800
Subject: [PATCH 358/461] [New Model]: support GTE NewModel (#17986)

---
 docs/source/models/supported_models.md        |  18 ++-
 tests/models/language/pooling/mteb_utils.py   |  17 ++-
 tests/models/language/pooling/test_gte.py     | 104 +++++++++++++++++
 tests/models/language/pooling/test_nomic.py   |   4 +
 .../pooling/test_snowflake_arctic_embed.py    |   4 +
 tests/models/registry.py                      |   6 +
 vllm/model_executor/layers/activation.py      |   2 +-
 .../model_executor/layers/rotary_embedding.py |  42 +++++++
 vllm/model_executor/models/bert_with_rope.py  | 107 ++++++++++++++----
 vllm/model_executor/models/modernbert.py      |   3 +
 vllm/model_executor/models/registry.py        |   4 +-
 11 files changed, 279 insertions(+), 32 deletions(-)
 create mode 100644 tests/models/language/pooling/test_gte.py

diff --git a/docs/source/models/supported_models.md b/docs/source/models/supported_models.md
index e20521df0..4bb831749 100644
--- a/docs/source/models/supported_models.md
+++ b/docs/source/models/supported_models.md
@@ -701,12 +701,22 @@ Specified using `--task embed`.
   * ✅︎
   * ✅︎
 - * `GteModel`
-  * GteModel
+  * Arctic-Embed-2.0-M
   * `Snowflake/snowflake-arctic-embed-m-v2.0`.
   *
   * ︎
+- * `GteNewModel`
+  * mGTE-TRM (see note)
+  * `Alibaba-NLP/gte-multilingual-base`, etc.
+  * ︎
+  * ︎
+- * `ModernBertModel`
+  * ModernBERT-based
+  * `Alibaba-NLP/gte-modernbert-base`, etc.
+  * ︎
+  * ︎
 - * `NomicBertModel`
-  * NomicBertModel
+  * Nomic BERT
   * `nomic-ai/nomic-embed-text-v1`, `nomic-ai/nomic-embed-text-v2-moe`, `Snowflake/snowflake-arctic-embed-m-long`, etc.
   * ︎
   * ︎
@@ -749,6 +759,10 @@ See [relevant issue on HF Transformers](https://github.com/huggingface/transform
 `jinaai/jina-embeddings-v3` supports multiple tasks through lora, while vllm temporarily only supports text-matching tasks by merging lora weights.
 :::
 
+:::{note}
+The second-generation GTE model (mGTE-TRM) is named `NewModel`. The name `NewModel` is too generic, you should set `--hf-overrides '{"architectures": ["GteNewModel"]}'` to specify the use of the `GteNewModel` architecture.
+:::
+
 If your model is not in the above list, we will try to automatically convert the model using
 {func}`~vllm.model_executor.models.adapters.as_embedding_model`. By default, the embeddings
 of the whole prompt are extracted from the normalized hidden state corresponding to the last token.
diff --git a/tests/models/language/pooling/mteb_utils.py b/tests/models/language/pooling/mteb_utils.py
index eedf310d0..7de2a9af2 100644
--- a/tests/models/language/pooling/mteb_utils.py
+++ b/tests/models/language/pooling/mteb_utils.py
@@ -7,6 +7,7 @@ import numpy as np
 import pytest
 
 from tests.models.utils import EmbedModelInfo
+from vllm.model_executor.model_loader.utils import set_default_torch_dtype
 
 # Most models on the STS12 task (See #17175):
 # - Model implementation and minor changes in tensor dtype
@@ -77,16 +78,22 @@ def run_mteb_embed_task_st(model_name, tasks):
     return run_mteb_embed_task(model, tasks)
 
 
-def mteb_test_embed_models(hf_runner, vllm_runner, model_info: EmbedModelInfo):
+def mteb_test_embed_models(hf_runner,
+                           vllm_runner,
+                           model_info: EmbedModelInfo,
+                           vllm_extra_kwargs=None):
     if not model_info.enable_test:
         # A model family has many models with the same architecture,
         # and we don't need to test each one.
         pytest.skip("Skipping test.")
 
+    vllm_extra_kwargs = vllm_extra_kwargs or {}
+
     with vllm_runner(model_info.name,
                      task="embed",
                      max_model_len=None,
-                     dtype=model_info.dtype) as vllm_model:
+                     dtype=model_info.dtype,
+                     **vllm_extra_kwargs) as vllm_model:
 
         if model_info.architecture:
             assert (model_info.architecture
@@ -99,9 +106,9 @@ def mteb_test_embed_models(hf_runner, vllm_runner, model_info: EmbedModelInfo):
             vllm_model.model.llm_engine.model_config.hf_config, "torch_dtype",
             vllm_dtype)
 
-    with hf_runner(model_info.name,
-                   is_sentence_transformer=True,
-                   dtype=model_dtype) as hf_model:
+    with set_default_torch_dtype(model_dtype) and hf_runner(
+            model_info.name, is_sentence_transformer=True,
+            dtype=model_dtype) as hf_model:
         st_main_score = run_mteb_embed_task(hf_model, MTEB_EMBED_TASKS)
 
     print("VLLM:", vllm_dtype, vllm_main_score)
diff --git a/tests/models/language/pooling/test_gte.py b/tests/models/language/pooling/test_gte.py
new file mode 100644
index 000000000..3ccf29996
--- /dev/null
+++ b/tests/models/language/pooling/test_gte.py
@@ -0,0 +1,104 @@
+# SPDX-License-Identifier: Apache-2.0
+from typing import Any
+
+import pytest
+
+from ...utils import EmbedModelInfo, run_embedding_correctness_test
+
+MODELS = [
+    ########## BertModel
+    EmbedModelInfo("thenlper/gte-large",
+                   architecture="BertModel",
+                   dtype="float32",
+                   enable_test=True),
+    EmbedModelInfo("thenlper/gte-base",
+                   architecture="BertModel",
+                   dtype="float32",
+                   enable_test=False),
+    EmbedModelInfo("thenlper/gte-small",
+                   architecture="BertModel",
+                   dtype="float32",
+                   enable_test=False),
+    EmbedModelInfo("thenlper/gte-large-zh",
+                   architecture="BertModel",
+                   dtype="float32",
+                   enable_test=False),
+    EmbedModelInfo("thenlper/gte-base-zh",
+                   architecture="BertModel",
+                   dtype="float32",
+                   enable_test=False),
+    EmbedModelInfo("thenlper/gte-small-zh",
+                   architecture="BertModel",
+                   dtype="float32",
+                   enable_test=False),
+    ########### NewModel
+    EmbedModelInfo("Alibaba-NLP/gte-multilingual-base",
+                   architecture="GteNewModel",
+                   enable_test=True),
+    EmbedModelInfo("Alibaba-NLP/gte-base-en-v1.5",
+                   architecture="GteNewModel",
+                   enable_test=True),
+    EmbedModelInfo("Alibaba-NLP/gte-large-en-v1.5",
+                   architecture="GteNewModel",
+                   enable_test=True),
+    ########### Qwen2ForCausalLM
+    EmbedModelInfo("Alibaba-NLP/gte-Qwen2-1.5B-instruct",
+                   architecture="Qwen2ForCausalLM",
+                   enable_test=True),
+    EmbedModelInfo("Alibaba-NLP/gte-Qwen2-7B-instruct",
+                   architecture="Qwen2ForCausalLM",
+                   enable_test=False),
+    ########## ModernBertModel
+    EmbedModelInfo("Alibaba-NLP/gte-modernbert-base",
+                   architecture="ModernBertModel",
+                   enable_test=True),
+]
+
+
+@pytest.mark.parametrize("model_info", MODELS)
+def test_models_mteb(hf_runner, vllm_runner,
+                     model_info: EmbedModelInfo) -> None:
+    pytest.skip("Skipping mteb test.")
+
+    from .mteb_utils import mteb_test_embed_models
+
+    vllm_extra_kwargs: dict[str, Any] = {}
+    if model_info.name == "Alibaba-NLP/gte-Qwen2-1.5B-instruct":
+        vllm_extra_kwargs["hf_overrides"] = {"is_causal": True}
+
+    if model_info.architecture == "GteNewModel":
+        vllm_extra_kwargs["hf_overrides"] = {"architectures": ["GteNewModel"]}
+
+    mteb_test_embed_models(hf_runner, vllm_runner, model_info,
+                           vllm_extra_kwargs)
+
+
+@pytest.mark.parametrize("model_info", MODELS)
+def test_models_correctness(hf_runner, vllm_runner, model_info: EmbedModelInfo,
+                            example_prompts) -> None:
+    if not model_info.enable_test:
+        pytest.skip("Skipping test.")
+
+    # ST will strip the input texts, see test_embedding.py
+    example_prompts = [str(s).strip() for s in example_prompts]
+
+    vllm_extra_kwargs: dict[str, Any] = {}
+    if model_info.name == "Alibaba-NLP/gte-Qwen2-1.5B-instruct":
+        vllm_extra_kwargs["hf_overrides"] = {"is_causal": True}
+
+    if model_info.architecture == "GteNewModel":
+        vllm_extra_kwargs["hf_overrides"] = {"architectures": ["GteNewModel"]}
+
+    with vllm_runner(model_info.name,
+                     task="embed",
+                     dtype=model_info.dtype,
+                     max_model_len=None,
+                     **vllm_extra_kwargs) as vllm_model:
+        vllm_outputs = vllm_model.encode(example_prompts)
+
+    with hf_runner(
+            model_info.name,
+            dtype=model_info.dtype,
+            is_sentence_transformer=True,
+    ) as hf_model:
+        run_embedding_correctness_test(hf_model, example_prompts, vllm_outputs)
diff --git a/tests/models/language/pooling/test_nomic.py b/tests/models/language/pooling/test_nomic.py
index f1ed0d494..6e9de30f9 100644
--- a/tests/models/language/pooling/test_nomic.py
+++ b/tests/models/language/pooling/test_nomic.py
@@ -23,6 +23,7 @@ MODELS = [
 @pytest.mark.parametrize("model_info", MODELS)
 def test_models_mteb(hf_runner, vllm_runner,
                      model_info: EmbedModelInfo) -> None:
+    pytest.skip("Skipping mteb test.")
     from .mteb_utils import mteb_test_embed_models
     mteb_test_embed_models(hf_runner, vllm_runner, model_info)
 
@@ -33,6 +34,9 @@ def test_models_correctness(hf_runner, vllm_runner, model_info: EmbedModelInfo,
     if not model_info.enable_test:
         pytest.skip("Skipping test.")
 
+    # ST will strip the input texts, see test_embedding.py
+    example_prompts = [str(s).strip() for s in example_prompts]
+
     with vllm_runner(model_info.name,
                      task="embed",
                      dtype=model_info.dtype,
diff --git a/tests/models/language/pooling/test_snowflake_arctic_embed.py b/tests/models/language/pooling/test_snowflake_arctic_embed.py
index c68aa008e..7d9c3c73d 100644
--- a/tests/models/language/pooling/test_snowflake_arctic_embed.py
+++ b/tests/models/language/pooling/test_snowflake_arctic_embed.py
@@ -46,6 +46,7 @@ def test_models_mteb(
     vllm_runner,
     model_info: EmbedModelInfo,
 ) -> None:
+    pytest.skip("Skipping mteb test.")
     from .mteb_utils import mteb_test_embed_models
     mteb_test_embed_models(hf_runner, vllm_runner, model_info)
 
@@ -60,6 +61,9 @@ def test_models_correctness(
     if not model_info.enable_test:
         pytest.skip("Skipping test.")
 
+    # ST will strip the input texts, see test_embedding.py
+    example_prompts = [str(s).strip() for s in example_prompts]
+
     with vllm_runner(model_info.name,
                      task="embed",
                      dtype=model_info.dtype,
diff --git a/tests/models/registry.py b/tests/models/registry.py
index 8e6422ae1..39b9795e7 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -256,11 +256,17 @@ _EMBEDDING_EXAMPLE_MODELS = {
     "GritLM": _HfExamplesInfo("parasail-ai/GritLM-7B-vllm"),
     "GteModel": _HfExamplesInfo("Snowflake/snowflake-arctic-embed-m-v2.0",
                                                trust_remote_code=True),
+    "GteNewModel": _HfExamplesInfo("Alibaba-NLP/gte-base-en-v1.5",
+                                   trust_remote_code=True,
+                                   hf_overrides={"architectures":
+                                                     ["GteNewModel"]}),
     "InternLM2ForRewardModel": _HfExamplesInfo("internlm/internlm2-1_8b-reward",
                                                trust_remote_code=True),
     "JambaForSequenceClassification": _HfExamplesInfo("ai21labs/Jamba-tiny-reward-dev"),  # noqa: E501
     "LlamaModel": _HfExamplesInfo("llama", is_available_online=False),
     "MistralModel": _HfExamplesInfo("intfloat/e5-mistral-7b-instruct"),
+    "ModernBertModel": _HfExamplesInfo("Alibaba-NLP/gte-modernbert-base",
+                                trust_remote_code=True),
     "NomicBertModel": _HfExamplesInfo("Snowflake/snowflake-arctic-embed-m-long",  # noqa: E501
                                                trust_remote_code=True),
     "Qwen2Model": _HfExamplesInfo("ssmits/Qwen2-7B-Instruct-embed-base"),
diff --git a/vllm/model_executor/layers/activation.py b/vllm/model_executor/layers/activation.py
index f082afb7e..a32c26317 100644
--- a/vllm/model_executor/layers/activation.py
+++ b/vllm/model_executor/layers/activation.py
@@ -354,7 +354,7 @@ def get_act_fn(act_fn_name: str) -> nn.Module:
 _ACTIVATION_AND_MUL_REGISTRY = LazyDict({
     "gelu": lambda: GeluAndMul(),
     "silu": lambda: SiluAndMul(),
-    "gelu_and_mul": lambda: GeluAndMul(),
+    "geglu": lambda: GeluAndMul(),
 })
 
 
diff --git a/vllm/model_executor/layers/rotary_embedding.py b/vllm/model_executor/layers/rotary_embedding.py
index 7e0d65684..70463ecd9 100644
--- a/vllm/model_executor/layers/rotary_embedding.py
+++ b/vllm/model_executor/layers/rotary_embedding.py
@@ -456,6 +456,40 @@ class LinearScalingRotaryEmbedding(RotaryEmbedding):
         return self._scaling_factor_to_offset
 
 
+class NTKScalingRotaryEmbedding(RotaryEmbedding):
+    """RotaryEmbedding extended with fixed and mixed NTK scaling.
+    https://kexue.fm/archives/9706 """
+
+    def __init__(self,
+                 head_size: int,
+                 rotary_dim: int,
+                 max_position_embeddings: int,
+                 base: int,
+                 is_neox_style: bool,
+                 scaling_factor: float,
+                 dtype: torch.dtype,
+                 mixed_b: Optional[float] = None) -> None:
+        self.scaling_factor = scaling_factor
+        self.mixed_b = mixed_b
+        super().__init__(head_size, rotary_dim, max_position_embeddings, base,
+                         is_neox_style, dtype)
+
+    def _compute_inv_freq(self, base: Union[int, float]) -> torch.Tensor:
+        base = self.base * (self.scaling_factor if self.mixed_b is None else 1)
+        inv_freq = super()._compute_inv_freq(base)
+
+        if self.mixed_b is None:
+            inv_freq = inv_freq / self.scaling_factor**(2 / self.rotary_dim)
+        else:
+            a = torch.tensor(self.scaling_factor).log() / (self.rotary_dim /
+                                                           2)**self.mixed_b
+            lambda_1_m = (a * torch.arange(
+                1, self.rotary_dim // 2 + 1).float()**self.mixed_b).exp()
+            inv_freq = inv_freq / lambda_1_m
+
+        return inv_freq
+
+
 class DynamicNTKScalingRotaryEmbedding(RotaryEmbedding):
     """RotaryEmbedding extended with Dynamic NTK scaling.
 
@@ -1765,6 +1799,14 @@ def get_rope(
                                                       max_position, base,
                                                       is_neox_style,
                                                       scaling_factor, dtype)
+        elif scaling_type == "ntk":
+            scaling_factor = rope_scaling["factor"]
+            mixed_b = rope_scaling.get('mixed_b', None)
+            rotary_emb = NTKScalingRotaryEmbedding(head_size, rotary_dim,
+                                                   max_position, base,
+                                                   is_neox_style,
+                                                   scaling_factor, dtype,
+                                                   mixed_b)
         elif scaling_type == "dynamic":
             scaling_factor = rope_scaling["factor"]
             rotary_emb = DynamicNTKScalingRotaryEmbedding(
diff --git a/vllm/model_executor/models/bert_with_rope.py b/vllm/model_executor/models/bert_with_rope.py
index 05cd84748..002949abf 100644
--- a/vllm/model_executor/models/bert_with_rope.py
+++ b/vllm/model_executor/models/bert_with_rope.py
@@ -32,11 +32,18 @@ class BertWithRopeEmbedding(nn.Module):
     def __init__(self, config: PretrainedConfig):
 
         super().__init__()
-        assert config.type_vocab_size > 0
+        if config.position_embedding_type not in ["rope", "rotary"]:
+            raise ValueError("Only 'rotary'('rope') position_embedding_type" +
+                             " is supported")
+
         self.word_embeddings = VocabParallelEmbedding(config.vocab_size,
                                                       config.hidden_size)
-        self.token_type_embeddings = VocabParallelEmbedding(
-            config.type_vocab_size, config.hidden_size)
+        if config.type_vocab_size > 0:
+            self.token_type_embeddings = VocabParallelEmbedding(
+                config.type_vocab_size, config.hidden_size)
+        else:
+            self.token_type_embeddings = None
+
         self.LayerNorm = nn.LayerNorm(config.hidden_size,
                                       eps=config.layer_norm_eps)
 
@@ -47,13 +54,17 @@ class BertWithRopeEmbedding(nn.Module):
     ) -> torch.Tensor:
         input_shape = input_ids.size()
         inputs_embeds = self.word_embeddings(input_ids)
-        if token_type_ids is None:
-            token_type_ids = torch.zeros(input_shape,
-                                         dtype=torch.long,
-                                         device=inputs_embeds.device)
 
-        token_type_embeddings = self.token_type_embeddings(token_type_ids)
-        embeddings = inputs_embeds + token_type_embeddings
+        embeddings = inputs_embeds
+        if self.token_type_embeddings is not None:
+            if token_type_ids is None:
+                token_type_ids = torch.zeros(input_shape,
+                                             dtype=torch.long,
+                                             device=inputs_embeds.device)
+
+            token_type_embeddings = self.token_type_embeddings(token_type_ids)
+            embeddings += token_type_embeddings
+
         embeddings = self.LayerNorm(embeddings)
         return embeddings
 
@@ -321,7 +332,7 @@ class BertWithRopeBlock(nn.Module):
         if moe:
             self.mlp = NomicMoELayer(config=config, )
         else:
-            if config.hidden_act in ["silu", "gelu_and_mul"]:
+            if config.hidden_act in ["silu", "geglu"]:
                 self.mlp = BertWithRopeGatedMLP(
                     hidden_size=config.hidden_size,
                     intermediate_size=config.intermediate_size,
@@ -390,6 +401,7 @@ class BertWithRope(nn.Module, SupportsV0Only, SupportsQuant):
 
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         super().__init__()
+        self.vllm_config = vllm_config
         self.config = self.config_verify(vllm_config)
         self.embeddings = BertWithRopeEmbedding(self.config)
         self.encoder = BertWithRopeEncoder(
@@ -420,7 +432,7 @@ class BertWithRope(nn.Module, SupportsV0Only, SupportsQuant):
                                                    torch.Tensor]]) -> Set[str]:
         weights = self.hf_to_vllm_mapper.apply(weights)
 
-        if self.config.hidden_act in ["silu", "gelu_and_mul"]:
+        if self.config.hidden_act in ["silu", "geglu"]:
             stacked_params_mapping = [
                 # (param_name, shard_name, shard_id)
                 ("gate_up_proj", "gate_proj", 0),
@@ -458,6 +470,8 @@ class BertWithRope(nn.Module, SupportsV0Only, SupportsQuant):
 
 
 class NomicBertModel(BertWithRope):
+    # for https://huggingface.co/nomic-ai/nomic-bert-2048
+
     hf_to_vllm_mapper = WeightsMapper(
         orig_to_new_substr={
             "emb_ln": "embeddings.LayerNorm",
@@ -475,6 +489,9 @@ class NomicBertModel(BertWithRope):
 
         assert config.__class__.__name__ == "NomicBertConfig"
         assert config.activation_function in ["swiglu", "gelu"]
+        config.position_embedding_type = getattr(config,
+                                                 "position_embedding_type",
+                                                 "rope")
 
         if config.activation_function == "swiglu":
             config.hidden_act = "silu"
@@ -512,10 +529,13 @@ class NomicBertModel(BertWithRope):
         return config
 
 
-class GteModel(BertWithRope):
+class GteNewModel(BertWithRope):
+    # for https://huggingface.co/Alibaba-NLP/new-impl
+
     hf_to_vllm_mapper = WeightsMapper(
         orig_to_new_substr={
-            "layer": 'layers',
+            "new.": "",
+            "layer": "layers",
             "attention.qkv_proj": "attn.qkv_proj",
             "attention.o_proj": "attn.out_proj",
         })
@@ -523,7 +543,7 @@ class GteModel(BertWithRope):
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         super().__init__(vllm_config=vllm_config, prefix=prefix)
 
-        # GteModel only gate_up_proj does not have bias.
+        # GteNewModel only gate_up_proj does not have bias.
         # Hack method learned from vllm/model_executor/models/glm.py
         for layer in self.encoder.layers:
             layer.mlp.gate_up_proj.bias = None
@@ -532,12 +552,10 @@ class GteModel(BertWithRope):
     def config_verify(self, vllm_config):
         config = vllm_config.model_config.hf_config
 
-        assert config.__class__.__name__ == "GteConfig"
-        assert config.position_embedding_type == "rope"
+        assert config.__class__.__name__ == "NewConfig"
         assert config.hidden_act == "gelu"
 
-        config.position_embedding_type = "rotary"
-        config.hidden_act = "gelu_and_mul"
+        config.hidden_act = "geglu"
 
         head_dim = config.hidden_size // config.num_attention_heads
         config.rotary_kwargs = {
@@ -559,13 +577,52 @@ class GteModel(BertWithRope):
             else:
                 yield name, weight
 
+    def ignore_unnecessary_layers(self,
+                                  weights: Iterable[Tuple[str, torch.Tensor]]):
+        for name, weight in weights:
+            if name.startswith("classifier"):
+                continue
+            yield name, weight
+
     def load_weights(self, weights: Iterable[Tuple[str,
                                                    torch.Tensor]]) -> Set[str]:
+        weights = self.ignore_unnecessary_layers(weights)
         weights = self.split_up_gate_proj(weights)
         return super().load_weights(weights)
 
 
+class SnowflakeGteNewModel(GteNewModel):
+    # for Snowflake/snowflake-arctic-embed-m-v2.0
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_substr={
+            "layer": "layers",
+            "attention.qkv_proj": "attn.qkv_proj",
+            "attention.o_proj": "attn.out_proj",
+        })
+
+    def config_verify(self, vllm_config):
+        config = vllm_config.model_config.hf_config
+
+        assert config.__class__.__name__ == "GteConfig"
+        assert config.hidden_act == "gelu"
+
+        config.hidden_act = "geglu"
+
+        head_dim = config.hidden_size // config.num_attention_heads
+        config.rotary_kwargs = {
+            "head_size": head_dim,
+            "rotary_dim": getattr(config, "rotary_emb_dim", head_dim),
+            "max_position": config.max_position_embeddings,
+            "base": config.rope_theta,
+            "rope_scaling": getattr(config, "rope_scaling", None)
+        }
+        return config
+
+
 class JinaRobertaModel(BertWithRope):
+    # for https://huggingface.co/jinaai/jina-embeddings-v3
+
     hf_to_vllm_mapper = WeightsMapper(
         orig_to_new_substr={
             "emb_ln": "embeddings.LayerNorm",
@@ -579,6 +636,9 @@ class JinaRobertaModel(BertWithRope):
 
     def config_verify(self, vllm_config):
         config = vllm_config.model_config.hf_config
+
+        assert config.__class__.__name__ == "XLMRobertaFlashConfig"
+
         head_dim = config.hidden_size // config.num_attention_heads
         config.rotary_kwargs = {
             "head_size": head_dim,
@@ -611,6 +671,7 @@ class JinaRobertaModel(BertWithRope):
         # This is a temporary solution until we have a better way to handle
 
         scaling = self.config.lora_alpha / self.config.lora_rank
+        device = self.vllm_config.device_config.device
 
         weights = {name: weight for name, weight in weights}
 
@@ -628,13 +689,13 @@ class JinaRobertaModel(BertWithRope):
                 weight_name = name[:-len(o)]
 
                 if "embeddings" in weight_name:
-                    B = weights[weight_name + a][i].cuda().float()
-                    A = weights[weight_name + b][i].cuda().float()
+                    B = weights[weight_name + a][i].to(device).float()
+                    A = weights[weight_name + b][i].to(device).float()
                 else:
-                    B = weights[weight_name + b][i].cuda().float()
-                    A = weights[weight_name + a][i].cuda().float()
+                    B = weights[weight_name + b][i].to(device).float()
+                    A = weights[weight_name + a][i].to(device).float()
 
-                weight = (weights[weight_name + o].cuda() +
+                weight = (weights[weight_name + o].to(device) +
                           torch.matmul(B, A).view(shape) * scaling)
                 weight = weight.cpu().to(dtype)
 
diff --git a/vllm/model_executor/models/modernbert.py b/vllm/model_executor/models/modernbert.py
index 2190241f0..73effb207 100644
--- a/vllm/model_executor/models/modernbert.py
+++ b/vllm/model_executor/models/modernbert.py
@@ -230,9 +230,12 @@ class ModernBertModel(nn.Module):
     def forward(
         self,
         input_ids: Optional[torch.LongTensor] = None,
+        positions: Optional[torch.Tensor] = None,
+        intermediate_tensors: Optional[IntermediateTensors] = None,
         inputs_embeds: Optional[torch.Tensor] = None,
         position_ids: Optional[torch.LongTensor] = None,
     ) -> torch.Tensor:
+        position_ids = positions if positions is not None else position_ids
         if inputs_embeds is not None:
             hidden_states = inputs_embeds
         else:
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index ebbbb3938..06a0e6574 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -127,7 +127,8 @@ _EMBEDDING_MODELS = {
     "Gemma2Model": ("gemma2", "Gemma2ForCausalLM"),
     "GlmForCausalLM": ("glm", "GlmForCausalLM"),
     "GritLM": ("gritlm", "GritLM"),
-    "GteModel": ("bert_with_rope", "GteModel"),
+    "GteModel": ("bert_with_rope", "SnowflakeGteNewModel"),
+    "GteNewModel": ("bert_with_rope", "GteNewModel"),
     "InternLM2ForRewardModel": ("internlm2", "InternLM2ForRewardModel"),
     "JambaForSequenceClassification": ("jamba", "JambaForSequenceClassification"),  # noqa: E501
     "LlamaModel": ("llama", "LlamaForCausalLM"),
@@ -137,6 +138,7 @@ _EMBEDDING_MODELS = {
         if arch == "LlamaForCausalLM"
     },
     "MistralModel": ("llama", "LlamaForCausalLM"),
+    "ModernBertModel": ("modernbert", "ModernBertModel"),
     "NomicBertModel": ("bert_with_rope", "NomicBertModel"),
     "Phi3ForCausalLM": ("phi3", "Phi3ForCausalLM"),
     "Qwen2Model": ("qwen2", "Qwen2EmbeddingModel"),
-- 
GitLab


From 8f5dc41481b7621f89ea203a40fdfbacfee3a44a Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Wed, 14 May 2025 17:08:07 +0800
Subject: [PATCH 359/461] [Bugfix] Fix entrypoints audio test failure (#18111)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 tests/entrypoints/openai/test_audio.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/tests/entrypoints/openai/test_audio.py b/tests/entrypoints/openai/test_audio.py
index 72e616656..7f959f312 100644
--- a/tests/entrypoints/openai/test_audio.py
+++ b/tests/entrypoints/openai/test_audio.py
@@ -272,7 +272,7 @@ async def test_chat_streaming_audio(client: openai.AsyncOpenAI,
     chat_completion = await client.chat.completions.create(
         model=model_name,
         messages=messages,
-        max_completion_tokens=10,
+        max_completion_tokens=8,
         temperature=0.0,
     )
     output = chat_completion.choices[0].message.content
@@ -282,7 +282,7 @@ async def test_chat_streaming_audio(client: openai.AsyncOpenAI,
     stream = await client.chat.completions.create(
         model=model_name,
         messages=messages,
-        max_completion_tokens=10,
+        max_completion_tokens=8,
         temperature=0.0,
         stream=True,
     )
@@ -332,7 +332,7 @@ async def test_chat_streaming_input_audio(client: openai.AsyncOpenAI,
     chat_completion = await client.chat.completions.create(
         model=model_name,
         messages=messages,
-        max_completion_tokens=10,
+        max_completion_tokens=8,
         temperature=0.0,
     )
     output = chat_completion.choices[0].message.content
@@ -342,7 +342,7 @@ async def test_chat_streaming_input_audio(client: openai.AsyncOpenAI,
     stream = await client.chat.completions.create(
         model=model_name,
         messages=messages,
-        max_completion_tokens=10,
+        max_completion_tokens=8,
         temperature=0.0,
         stream=True,
     )
-- 
GitLab


From 63dc3426e0789935acebd8d3f442324f9b2bbd32 Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Wed, 14 May 2025 17:13:19 +0800
Subject: [PATCH 360/461] [Model] Add packed_modules_mapping for Qwen3-MOE
 (#18118)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 vllm/model_executor/models/qwen3_moe.py | 11 +++++++++++
 1 file changed, 11 insertions(+)

diff --git a/vllm/model_executor/models/qwen3_moe.py b/vllm/model_executor/models/qwen3_moe.py
index fe6b303ba..51cfa5796 100644
--- a/vllm/model_executor/models/qwen3_moe.py
+++ b/vllm/model_executor/models/qwen3_moe.py
@@ -475,6 +475,17 @@ class Qwen3MoeModel(nn.Module):
 
 
 class Qwen3MoeForCausalLM(nn.Module, SupportsPP):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
 
     fall_back_to_pt_during_load = False
 
-- 
GitLab


From 82e7f9bb031a9aabb320db88503b6f948ded6e95 Mon Sep 17 00:00:00 2001
From: "rongfu.leng" <rongfu.leng@daocloud.io>
Date: Wed, 14 May 2025 17:13:47 +0800
Subject: [PATCH 361/461] [Misc] replace does not exist model (#18119)

Signed-off-by: rongfu.leng <rongfu.leng@daocloud.io>
---
 docs/source/models/supported_models.md      | 2 +-
 tests/distributed/test_pipeline_parallel.py | 2 +-
 tests/models/registry.py                    | 2 +-
 vllm/test_utils.py                          | 2 +-
 4 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/docs/source/models/supported_models.md b/docs/source/models/supported_models.md
index 4bb831749..80eccfd03 100644
--- a/docs/source/models/supported_models.md
+++ b/docs/source/models/supported_models.md
@@ -539,7 +539,7 @@ Specified using `--task generate`.
   * ✅︎
 - * `OLMo2ForCausalLM`
   * OLMo2
-  * `allenai/OLMo2-7B-1124`, etc.
+  * `allenai/OLMo-2-0425-1B`, etc.
   *
   * ✅︎
 - * `OLMoEForCausalLM`
diff --git a/tests/distributed/test_pipeline_parallel.py b/tests/distributed/test_pipeline_parallel.py
index 9c90fe381..5346d67b1 100644
--- a/tests/distributed/test_pipeline_parallel.py
+++ b/tests/distributed/test_pipeline_parallel.py
@@ -185,7 +185,7 @@ TEXT_GENERATION_MODELS = {
     "mosaicml/mpt-7b": PPTestSettings.fast(),
     "nvidia/Minitron-8B-Base": PPTestSettings.fast(),
     "allenai/OLMo-1B-hf": PPTestSettings.fast(),
-    "shanearora/OLMo-7B-1124-hf": PPTestSettings.fast(),
+    "allenai/OLMo-2-0425-1B": PPTestSettings.fast(),
     "allenai/OLMoE-1B-7B-0924-Instruct": PPTestSettings.fast(),
     "facebook/opt-iml-max-1.3b": PPTestSettings.fast(),
     "OrionStarAI/Orion-14B-Chat": PPTestSettings.fast(),
diff --git a/tests/models/registry.py b/tests/models/registry.py
index 39b9795e7..84abd42e9 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -205,7 +205,7 @@ _TEXT_GENERATION_EXAMPLE_MODELS = {
     "MPTForCausalLM": _HfExamplesInfo("mosaicml/mpt-7b"),
     "NemotronForCausalLM": _HfExamplesInfo("nvidia/Minitron-8B-Base"),
     "OlmoForCausalLM": _HfExamplesInfo("allenai/OLMo-1B-hf"),
-    "Olmo2ForCausalLM": _HfExamplesInfo("shanearora/OLMo-7B-1124-hf"),
+    "Olmo2ForCausalLM": _HfExamplesInfo("allenai/OLMo-2-0425-1B"),
     "OlmoeForCausalLM": _HfExamplesInfo("allenai/OLMoE-1B-7B-0924-Instruct"),
     "OPTForCausalLM": _HfExamplesInfo("facebook/opt-125m",
                                       {"1b": "facebook/opt-iml-max-1.3b"}),
diff --git a/vllm/test_utils.py b/vllm/test_utils.py
index 8611a2592..f8cec380f 100644
--- a/vllm/test_utils.py
+++ b/vllm/test_utils.py
@@ -110,7 +110,7 @@ MODELS_ON_S3 = [
     "royokong/e5-v",
     "sentence-transformers/all-roberta-large-v1",
     "sentence-transformers/stsb-roberta-base-v2",
-    "shanearora/OLMo-7B-1124-hf",
+    "allenai/OLMo-2-0425-1B",
     "shuyuej/Llama-3.2-1B-Instruct-GPTQ",
     "ssmits/Qwen2-7B-Instruct-embed-base",
     "stabilityai/stablelm-3b-4e1t",
-- 
GitLab


From 38fe728d60f7aeed721a7d1ba1644a26e0a487c6 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Andrzej=20Kot=C5=82owski?= <akotlowski@habana.ai>
Date: Wed, 14 May 2025 11:39:51 +0200
Subject: [PATCH 362/461] [Bugfix] Fix
 QKVCrossParallelLinear::sync_weight_attrs for PyTorch compile (#17844)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Andrzej Kotłowski <akotlowski@habana.ai>
---
 vllm/model_executor/layers/linear.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/layers/linear.py b/vllm/model_executor/layers/linear.py
index 794de4c38..54dd1251e 100644
--- a/vllm/model_executor/layers/linear.py
+++ b/vllm/model_executor/layers/linear.py
@@ -1425,8 +1425,8 @@ class QKVCrossParallelLinear(LinearBase):
     ):
         missing_attrs_dict = {
             k: getattr(src_param, k)
-            for k in (set(src_param.__dict__.keys()) -
-                      set(tgt_param.__dict__.keys()))
+            for k in (set(vars(src_param).keys()) -
+                      set(vars(tgt_param).keys()))
         }
         # TODO(Isotr0py): handle bitsandbytes 8bit
         use_bitsandbytes_4bit = getattr(src_param, "use_bitsandbytes_4bit",
-- 
GitLab


From 612c2edb4f940b26550ca64576995957e4118a12 Mon Sep 17 00:00:00 2001
From: TJian <tunjian.tan@embeddedllm.com>
Date: Wed, 14 May 2025 18:03:11 +0800
Subject: [PATCH 363/461] [FEAT] [ROCm]: Add AITER CK 2 Stages MoE support
 (#17110)

Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
Co-authored-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>
---
 tests/kernels/moe/test_moe.py                 |   7 +
 .../model_executor/test_enabled_custom_ops.py |  24 +--
 .../layers/fused_moe/fused_moe.py             |   3 -
 vllm/model_executor/layers/fused_moe/layer.py |  32 +++-
 .../layers/fused_moe/rocm_aiter_fused_moe.py  | 173 +++++++++++-------
 .../compressed_tensors_moe.py                 |  32 +++-
 .../model_executor/layers/quantization/fp8.py |  42 ++++-
 7 files changed, 201 insertions(+), 112 deletions(-)

diff --git a/tests/kernels/moe/test_moe.py b/tests/kernels/moe/test_moe.py
index c1d0940f2..96b090136 100644
--- a/tests/kernels/moe/test_moe.py
+++ b/tests/kernels/moe/test_moe.py
@@ -224,9 +224,16 @@ def test_mixtral_moe(dtype: torch.dtype, padding: bool, use_rocm_aiter: bool,
     """Make sure our Mixtral MoE implementation agrees with the one from
     huggingface."""
 
+    # clear the cache before every test
+    from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
+        is_rocm_aiter_moe_enabled)
+    is_rocm_aiter_moe_enabled.cache_clear()
     if use_rocm_aiter:
         monkeypatch.setenv("VLLM_ROCM_USE_AITER", "1")
 
+        if dtype == torch.float32:
+            pytest.skip("AITER ROCm test skip for float32")
+
     # Instantiate our and huggingface's MoE blocks
     config = MixtralConfig()
     hf_moe = MixtralSparseMoeBlock(config).to(dtype).to("cuda")
diff --git a/tests/model_executor/test_enabled_custom_ops.py b/tests/model_executor/test_enabled_custom_ops.py
index 93453ddb6..e957db5b3 100644
--- a/tests/model_executor/test_enabled_custom_ops.py
+++ b/tests/model_executor/test_enabled_custom_ops.py
@@ -8,10 +8,8 @@ from vllm.model_executor.custom_op import CustomOp
 from vllm.model_executor.layers.activation import (GeluAndMul,
                                                    ReLUSquaredActivation,
                                                    SiluAndMul)
-from vllm.model_executor.layers.fused_moe.fused_moe import (
-    dispatch_fused_experts_func, dispatch_topk_func,
-    torch_vllm_inplace_fused_experts, torch_vllm_outplace_fused_experts,
-    vllm_topk_softmax)
+from vllm.model_executor.layers.fused_moe.fused_moe import (dispatch_topk_func,
+                                                            vllm_topk_softmax)
 from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
     is_rocm_aiter_moe_enabled)
 from vllm.model_executor.layers.layernorm import (
@@ -142,24 +140,6 @@ def test_topk_dispatch(use_rocm_aiter: str, monkeypatch):
         assert topk_func == vllm_topk_softmax
 
 
-@pytest.mark.parametrize("use_rocm_aiter", ["0", "1"])
-@pytest.mark.parametrize("inplace", [True, False])
-def test_fused_experts_dispatch(use_rocm_aiter: str, inplace: bool,
-                                monkeypatch):
-
-    monkeypatch.setenv("VLLM_ROCM_USE_AITER", use_rocm_aiter)
-    is_rocm_aiter_moe_enabled.cache_clear()
-    fused_experts_func = dispatch_fused_experts_func(inplace)
-    if current_platform.is_rocm() and int(use_rocm_aiter):
-        from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
-            rocm_aiter_fused_experts)
-        assert fused_experts_func == rocm_aiter_fused_experts
-    elif inplace:
-        assert fused_experts_func == torch_vllm_inplace_fused_experts
-    else:
-        assert fused_experts_func == torch_vllm_outplace_fused_experts
-
-
 @pytest.mark.parametrize("add_residual", [True, False])
 @pytest.mark.parametrize("use_rocm_aiter", ["0", "1"])
 @pytest.mark.parametrize("use_rocm_aiter_norm", ["0", "1"])
diff --git a/vllm/model_executor/layers/fused_moe/fused_moe.py b/vllm/model_executor/layers/fused_moe/fused_moe.py
index 8c28cedbc..7bf424330 100644
--- a/vllm/model_executor/layers/fused_moe/fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/fused_moe.py
@@ -1100,9 +1100,6 @@ def torch_vllm_outplace_fused_experts(**kwargs) -> torch.Tensor:
 
 
 def dispatch_fused_experts_func(inplace: bool) -> Callable[..., torch.Tensor]:
-    if is_rocm_aiter_moe_enabled():
-        from .rocm_aiter_fused_moe import rocm_aiter_fused_experts
-        return rocm_aiter_fused_experts
     if inplace:
         return torch_vllm_inplace_fused_experts
     return torch_vllm_outplace_fused_experts
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index f74e38bde..14f360e3b 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -84,6 +84,16 @@ class FusedMoEMethodBase(QuantizeMethodBase):
 class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
     """MoE method without quantization."""
 
+    def __init__(self):
+        super().__init__()
+
+        self.rocm_aiter_moe_enabled = is_rocm_aiter_moe_enabled()
+        if self.rocm_aiter_moe_enabled:
+            from .rocm_aiter_fused_moe import rocm_aiter_fused_experts
+            self.rocm_aiter_fused_experts = rocm_aiter_fused_experts
+        else:
+            self.rocm_aiter_fused_experts = None  # type: ignore
+
     def create_weights(self, layer: torch.nn.Module, num_experts: int,
                        hidden_size: int, intermediate_size_per_partition: int,
                        params_dtype: torch.dtype, **extra_weight_attrs):
@@ -126,11 +136,13 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
         layer.w2_weight.data = self._maybe_pad_weight(layer.w2_weight.data)
         # Lazy import to avoid importing triton.
         from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
-            is_rocm_aiter_moe_enabled, shuffle_weights)
-        if is_rocm_aiter_moe_enabled():
-            # reshaping weights is required for aiter moe kernel.
-            shuffled_w13, shuffled_w2 = shuffle_weights(
-                layer.w13_weight.data, layer.w2_weight.data)
+            shuffle_weights)
+
+        if self.rocm_aiter_moe_enabled:
+            # use 2stage ck moe layout
+            shuffled_w13, shuffled_w2 = shuffle_weights(layer.w13_weight.data,
+                                                        layer.w2_weight.data,
+                                                        layout=(32, 32))
 
             layer.w13_weight.data = shuffled_w13
             layer.w2_weight.data = shuffled_w2
@@ -211,6 +223,16 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
             scoring_func=scoring_func,
             e_score_correction_bias=e_score_correction_bias)
 
+        if self.rocm_aiter_moe_enabled:
+            return self.rocm_aiter_fused_experts(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                activation=activation,
+                apply_router_weight_on_input=apply_router_weight_on_input)
+
         return fused_experts(
             hidden_states=x,
             w1=layer.w13_weight,
diff --git a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
index 04155ab69..a92081862 100644
--- a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
@@ -20,7 +20,7 @@ def rocm_aiter_asm_moe_tkw1_impl(
         hidden_states: torch.Tensor,
         w1: torch.Tensor,
         w2: torch.Tensor,
-        topk_weight: torch.Tensor,
+        topk_weights: torch.Tensor,
         topk_ids: torch.Tensor,
         fc1_scale: Optional[torch.Tensor] = None,
         fc2_scale: Optional[torch.Tensor] = None,
@@ -40,7 +40,7 @@ def rocm_aiter_asm_moe_tkw1_impl(
     return asm_moe_tkw1(hidden_states,
                         w1,
                         w2,
-                        topk_weight,
+                        topk_weights,
                         topk_ids,
                         fc1_scale=fc1_scale,
                         fc2_scale=fc2_scale,
@@ -56,7 +56,7 @@ def rocm_aiter_asm_moe_tkw1_fake(
         hidden_states: torch.Tensor,
         w1: torch.Tensor,
         w2: torch.Tensor,
-        topk_weight: torch.Tensor,
+        topk_weights: torch.Tensor,
         topk_ids: torch.Tensor,
         fc1_scale: Optional[torch.Tensor] = None,
         fc2_scale: Optional[torch.Tensor] = None,
@@ -69,23 +69,6 @@ def rocm_aiter_asm_moe_tkw1_fake(
     return torch.empty_like(hidden_states)
 
 
-def rocm_aiter_ck_moe_impl(hidden_states: torch.Tensor, w1: torch.Tensor,
-                           w2: torch.Tensor, topk_weights: torch.Tensor,
-                           topk_ids: torch.Tensor) -> torch.Tensor:
-    from aiter import ck_moe
-    return ck_moe(hidden_states=hidden_states,
-                  w1=w1,
-                  w2=w2,
-                  topk_weights=topk_weights,
-                  topk_ids=topk_ids)
-
-
-def rocm_aiter_ck_moe_fake(hidden_states: torch.Tensor, w1: torch.Tensor,
-                           w2: torch.Tensor, topk_weights: torch.Tensor,
-                           topk_ids: torch.Tensor) -> torch.Tensor:
-    return torch.empty_like(hidden_states)
-
-
 def rocm_aiter_fmoe_fp8_blockscale_g1u1_impl(
         topk_ids: torch.Tensor,
         topk_weights: torch.Tensor,
@@ -152,7 +135,7 @@ def rocm_aiter_fmoe_fp8_blockscale_g1u1_fake(
 def rocm_aiter_asm_moe_impl(hidden_states: torch.Tensor,
                             w1: torch.Tensor,
                             w2: torch.Tensor,
-                            topk_weight: torch.Tensor,
+                            topk_weights: torch.Tensor,
                             topk_ids: torch.Tensor,
                             fc1_scale: Optional[torch.Tensor] = None,
                             fc2_scale: Optional[torch.Tensor] = None,
@@ -175,7 +158,7 @@ def rocm_aiter_asm_moe_impl(hidden_states: torch.Tensor,
     return rocm_aiter_asm_fmoe.asm_moe(hidden_states=hidden_states,
                                        w1=w1,
                                        w2=w2,
-                                       topk_weight=topk_weight,
+                                       topk_weight=topk_weights,
                                        topk_ids=topk_ids,
                                        fc1_scale=fc1_scale,
                                        fc2_scale=fc2_scale,
@@ -188,7 +171,7 @@ def rocm_aiter_asm_moe_impl(hidden_states: torch.Tensor,
 def rocm_aiter_asm_moe_fake(hidden_states: torch.Tensor,
                             w1: torch.Tensor,
                             w2: torch.Tensor,
-                            topk_weight: torch.Tensor,
+                            topk_weights: torch.Tensor,
                             topk_ids: torch.Tensor,
                             fc1_scale: Optional[torch.Tensor] = None,
                             fc2_scale: Optional[torch.Tensor] = None,
@@ -199,6 +182,49 @@ def rocm_aiter_asm_moe_fake(hidden_states: torch.Tensor,
     return torch.empty_like(hidden_states)
 
 
+def rocm_aiter_ck_moe_2stages_impl(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    fc1_scale: Optional[torch.Tensor] = None,
+    fc2_scale: Optional[torch.Tensor] = None,
+    a1_scale: Optional[torch.Tensor] = None,
+    a2_scale: Optional[torch.Tensor] = None,
+    block_size: Optional[list[int]] = None,
+    expert_mask: Optional[torch.Tensor] = None,
+) -> torch.Tensor:
+    from aiter.fused_moe_bf16_asm import ck_moe_2stages
+    return ck_moe_2stages(a1=hidden_states,
+                          w1=w1,
+                          w2=w2,
+                          topk_weight=topk_weights,
+                          topk_ids=topk_ids,
+                          fc1_scale=fc1_scale,
+                          fc2_scale=fc2_scale,
+                          a1_scale=a1_scale,
+                          a2_scale=a2_scale,
+                          block_size=block_size,
+                          expert_mask=expert_mask)
+
+
+def rocm_aiter_ck_moe_2stages_fake(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    fc1_scale: Optional[torch.Tensor] = None,
+    fc2_scale: Optional[torch.Tensor] = None,
+    a1_scale: Optional[torch.Tensor] = None,
+    a2_scale: Optional[torch.Tensor] = None,
+    block_size: Optional[list[int]] = None,
+    expert_mask: Optional[torch.Tensor] = None,
+) -> torch.Tensor:
+    return torch.empty_like(hidden_states)
+
+
 def rocm_aiter_topk_softmax_impl(topk_weights: torch.Tensor,
                                  topk_indices: torch.Tensor,
                                  token_expert_indices: torch.Tensor,
@@ -258,14 +284,6 @@ if current_platform.is_rocm():
         dispatch_key=current_platform.dispatch_key,
     )
 
-    direct_register_custom_op(
-        op_name="rocm_aiter_ck_moe",
-        op_func=rocm_aiter_ck_moe_impl,
-        mutates_args=[],
-        fake_impl=rocm_aiter_ck_moe_fake,
-        dispatch_key=current_platform.dispatch_key,
-    )
-
     direct_register_custom_op(
         op_name="rocm_aiter_fmoe_fp8_blockscale_g1u1",
         op_func=rocm_aiter_fmoe_fp8_blockscale_g1u1_impl,
@@ -282,6 +300,14 @@ if current_platform.is_rocm():
         dispatch_key=current_platform.dispatch_key,
     )
 
+    direct_register_custom_op(
+        op_name="rocm_aiter_ck_moe_2stages",
+        op_func=rocm_aiter_ck_moe_2stages_impl,
+        mutates_args=[],
+        fake_impl=rocm_aiter_ck_moe_2stages_fake,
+        dispatch_key=current_platform.dispatch_key,
+    )
+
     direct_register_custom_op(
         op_name="rocm_aiter_topk_softmax",
         op_func=rocm_aiter_topk_softmax_impl,
@@ -331,29 +357,21 @@ def rocm_aiter_biased_group_topk(
     return topk_weights, topk_ids
 
 
-def rocm_aiter_fused_experts(hidden_states: torch.Tensor,
-                             w1: torch.Tensor,
-                             w2: torch.Tensor,
-                             topk_weights: torch.Tensor,
-                             topk_ids: torch.Tensor,
-                             inplace: bool = False,
-                             activation: str = "silu",
-                             apply_router_weight_on_input: bool = False,
-                             use_fp8_w8a8: bool = False,
-                             use_int8_w8a8: bool = False,
-                             use_int8_w8a16: bool = False,
-                             use_int4_w4a16: bool = False,
-                             per_channel_quant: bool = False,
-                             global_num_experts: int = -1,
-                             expert_map: Optional[torch.Tensor] = None,
-                             w1_scale: Optional[torch.Tensor] = None,
-                             w2_scale: Optional[torch.Tensor] = None,
-                             w1_zp: Optional[torch.Tensor] = None,
-                             w2_zp: Optional[torch.Tensor] = None,
-                             a1_scale: Optional[torch.Tensor] = None,
-                             a2_scale: Optional[torch.Tensor] = None,
-                             block_shape: Optional[list[int]] = None,
-                             allow_deep_gemm: bool = False) -> torch.Tensor:
+def rocm_aiter_fused_experts(
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str = "silu",
+        apply_router_weight_on_input: bool = False,
+        use_fp8_w8a8: bool = False,
+        per_channel_quant: bool = False,
+        w1_scale: Optional[torch.Tensor] = None,
+        w2_scale: Optional[torch.Tensor] = None,
+        a1_scale: Optional[torch.Tensor] = None,
+        a2_scale: Optional[torch.Tensor] = None,
+        block_shape: Optional[list[int]] = None) -> torch.Tensor:
 
     from vllm.model_executor.layers.quantization.utils.fp8_utils import (
         per_token_group_quant_fp8)
@@ -376,8 +394,8 @@ def rocm_aiter_fused_experts(hidden_states: torch.Tensor,
         a1, a1_scale = per_token_group_quant_fp8(hidden_states, block_shape[1])
 
         return torch.ops.vllm.rocm_aiter_fmoe_fp8_blockscale_g1u1(
-            topk_ids, topk_weights, hidden_states.dtype, expert_map, a1, w1,
-            w2, w1_scale, w2_scale, a1_scale, block_shape, None)
+            topk_ids, topk_weights, hidden_states.dtype, None, a1, w1, w2,
+            w1_scale, w2_scale, a1_scale, block_shape, None)
 
     # w8a8 per-channel quantization
     elif per_channel_quant and apply_router_weight_on_input and use_fp8_w8a8:
@@ -402,17 +420,36 @@ def rocm_aiter_fused_experts(hidden_states: torch.Tensor,
             fc2_smooth_scale=None,
             a16=False,
             per_tensor_quant_scale=None,
-            expert_mask=expert_map,
+            expert_mask=None,
             activation_str=activation)
 
     # w8a8 per-tensor activation per-tensor weight
     elif use_fp8_w8a8:
         assert not apply_router_weight_on_input, (
             "apply_router_weight_on_input is not supported for fp8_w8a8")
+
+        # - faster static per-tensor-activation static per-tensor-weight
+        #   fp8 quantization w8a8
+        if a1_scale is not None and a2_scale is not None:
+            return torch.ops.vllm.rocm_aiter_ck_moe_2stages(
+                hidden_states=hidden_states,
+                w1=w1,
+                w2=w2,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                fc1_scale=w1_scale,
+                fc2_scale=w2_scale,
+                a1_scale=a1_scale,
+                a2_scale=a2_scale)
+
+        # - fallback static per-tensor-activation static per-tensor-weight
+        #   fp8 quantization w8a8
+        # - dynamic per-tensor activation static per-tensor-weight
+        #   fp8 quantization w8a8
         return torch.ops.vllm.rocm_aiter_asm_moe(hidden_states=hidden_states,
                                                  w1=w1,
                                                  w2=w2,
-                                                 topk_weight=topk_weights,
+                                                 topk_weights=topk_weights,
                                                  topk_ids=topk_ids,
                                                  fc1_scale=w1_scale,
                                                  fc2_scale=w2_scale,
@@ -432,12 +469,12 @@ def rocm_aiter_fused_experts(hidden_states: torch.Tensor,
         topk_ids = topk_ids.to(torch.int32)
         topk_weights = torch.ones_like(topk_weights, dtype=torch.float32)
 
-    # w16a16 fallback to rocm_aiter_ck_moe w16a16
-    return torch.ops.vllm.rocm_aiter_ck_moe(hidden_states=hidden_states,
-                                            w1=w1,
-                                            w2=w2,
-                                            topk_weights=topk_weights,
-                                            topk_ids=topk_ids)
+    return torch.ops.vllm.rocm_aiter_ck_moe_2stages(
+        hidden_states=hidden_states,
+        w1=w1,
+        w2=w2,
+        topk_weights=topk_weights,
+        topk_ids=topk_ids)
 
 
 def rocm_aiter_topk_softmax(topk_weights: torch.Tensor,
@@ -451,7 +488,8 @@ def rocm_aiter_topk_softmax(topk_weights: torch.Tensor,
     return topk_weights, topk_indices
 
 
-def shuffle_weights(*tensors: torch.Tensor) -> tuple[torch.Tensor, ...]:
+def shuffle_weights(*tensors: torch.Tensor,
+                    layout: tuple[int, int]) -> tuple[torch.Tensor, ...]:
     """
     Applies shuffle_weight function from AITER to each 
     input tensor and returns them.
@@ -463,7 +501,8 @@ def shuffle_weights(*tensors: torch.Tensor) -> tuple[torch.Tensor, ...]:
     A Tuple of shuffled tensors.
     """
     from aiter.ops.shuffle import shuffle_weight
-    return tuple(shuffle_weight(tensor) for tensor in tensors)
+
+    return tuple(shuffle_weight(tensor, layout=layout) for tensor in tensors)
 
 
 def expand_weights(*tensors: torch.Tensor,
@@ -485,4 +524,4 @@ def expand_weights(*tensors: torch.Tensor,
 
     return tuple(
         tensor.unsqueeze(-1).unsqueeze(-1).expand((-1, dim, -1))
-        for tensor, dim in zip(tensors, expansion_dims))
+        for tensor, dim in zip(tensors, expansion_dims))
\ No newline at end of file
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index a74f1f723..fa0067c44 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -125,6 +125,10 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
         # Disable marlin for rocm
         if current_platform.is_rocm():
             self.use_marlin = False
+        from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
+            is_rocm_aiter_moe_enabled)
+
+        self.rocm_aiter_moe_enabled = is_rocm_aiter_moe_enabled()
 
     def create_weights(self, layer: torch.nn.Module, num_experts: int,
                        hidden_size: int, intermediate_size_per_partition: int,
@@ -276,24 +280,22 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
             layer.w13_weight_scale = torch.nn.Parameter(max_w13_scales,
                                                         requires_grad=False)
 
-        from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
-            is_rocm_aiter_moe_enabled)
-
         # Property to determine if AITER is used
-        if is_rocm_aiter_moe_enabled():
+        if self.rocm_aiter_moe_enabled:
             from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (  # noqa E501
                 rocm_aiter_fused_experts, shuffle_weights)
 
             # reshaping weights is required for aiter moe kernel.
-            shuffled_w13, shuffled_w2 = shuffle_weights(
-                layer.w13_weight.data, layer.w2_weight.data)
+            shuffled_w13, shuffled_w2 = shuffle_weights(layer.w13_weight.data,
+                                                        layer.w2_weight.data,
+                                                        layout=(16, 16))
 
             layer.w13_weight = torch.nn.Parameter(shuffled_w13,
                                                   requires_grad=False)
             layer.w2_weight = torch.nn.Parameter(shuffled_w2,
                                                  requires_grad=False)
 
-            self.fused_experts_func = rocm_aiter_fused_experts
+            self.rocm_aiter_fused_experts_func = rocm_aiter_fused_experts
         else:
             from vllm.model_executor.layers.fused_moe import fused_experts
             self.fused_experts_func = fused_experts
@@ -335,6 +337,22 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
             scoring_func=scoring_func,
             e_score_correction_bias=e_score_correction_bias)
 
+        if self.rocm_aiter_moe_enabled:
+            return self.rocm_aiter_fused_experts_func(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                activation=activation,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                use_fp8_w8a8=True,
+                per_channel_quant=self.weight_quant.strategy ==
+                QuantizationStrategy.CHANNEL,
+                w1_scale=layer.w13_weight_scale,
+                w2_scale=layer.w2_weight_scale,
+                a1_scale=layer.w13_input_scale,
+                a2_scale=layer.w2_input_scale)
         if self.use_marlin:
             assert activation == "silu", (
                 f"{activation} not supported for Marlin MoE.")
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index 589ca7bed..cfd398c07 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -591,6 +591,8 @@ class Fp8MoEMethod(FusedMoEMethodBase):
         from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
             expand_weights, is_rocm_aiter_moe_enabled, shuffle_weights)
 
+        self.rocm_aiter_moe_enabled = is_rocm_aiter_moe_enabled()
+
         # TODO (rob): refactor block quant into separate class.
         if self.block_quant:
             assert self.quant_config.activation_scheme == "dynamic"
@@ -616,10 +618,12 @@ class Fp8MoEMethod(FusedMoEMethodBase):
             layer.w2_weight = Parameter(w2_weight, requires_grad=False)
             layer.w2_weight_scale_inv = Parameter(w2_weight_scale_inv,
                                                   requires_grad=False)
-            if is_rocm_aiter_moe_enabled():
+            if self.rocm_aiter_moe_enabled:
                 # reshaping weights is required for aiter moe kernel.
                 shuffled_w13, shuffled_w2 = shuffle_weights(
-                    layer.w13_weight.data, layer.w2_weight.data)
+                    layer.w13_weight.data,
+                    layer.w2_weight.data,
+                    layout=(16, 16))
 
                 layer.w13_weight = torch.nn.Parameter(shuffled_w13,
                                                       requires_grad=False)
@@ -663,7 +667,7 @@ class Fp8MoEMethod(FusedMoEMethodBase):
                                                   requires_grad=False)
             layer.w2_weight = torch.nn.Parameter(w2_weight,
                                                  requires_grad=False)
-            if is_rocm_aiter_moe_enabled():
+            if self.rocm_aiter_moe_enabled:
                 # reshaping weights is required for aiter moe kernel.
                 w13_scales, w2_scales = expand_weights(
                     layer.w13_weight_scale.data,
@@ -676,8 +680,9 @@ class Fp8MoEMethod(FusedMoEMethodBase):
                 layer.w2_weight_scale = torch.nn.Parameter(
                     w2_scales.contiguous(), requires_grad=False)
 
-                shuffled_w13, shuffled_w2 = shuffle_weights(
-                    layer.w13_weight, layer.w2_weight)
+                shuffled_w13, shuffled_w2 = shuffle_weights(layer.w13_weight,
+                                                            layer.w2_weight,
+                                                            layout=(16, 16))
 
                 layer.w13_weight = torch.nn.Parameter(shuffled_w13,
                                                       requires_grad=False)
@@ -748,7 +753,7 @@ class Fp8MoEMethod(FusedMoEMethodBase):
                             dq_weight, max_w13_scales[expert_id])
                     start += shard_size
 
-            if is_rocm_aiter_moe_enabled():
+            if self.rocm_aiter_moe_enabled:
                 # reshaping weights is required for aiter moe kernel.
                 expansion_dims = [
                     layer.w13_weight.shape[1], layer.w2_weight.shape[1]
@@ -760,8 +765,9 @@ class Fp8MoEMethod(FusedMoEMethodBase):
                 layer.w2_weight_scale = torch.nn.Parameter(
                     w2_scales.contiguous(), requires_grad=False)
 
-                shuffled_w13, shuffled_w2 = shuffle_weights(
-                    layer.w13_weight, layer.w2_weight)
+                shuffled_w13, shuffled_w2 = shuffle_weights(layer.w13_weight,
+                                                            layer.w2_weight,
+                                                            layout=(32, 32))
 
                 layer.w13_weight = torch.nn.Parameter(shuffled_w13,
                                                       requires_grad=False)
@@ -796,6 +802,8 @@ class Fp8MoEMethod(FusedMoEMethodBase):
         activation: str = "silu",
     ) -> torch.Tensor:
         from vllm.model_executor.layers.fused_moe import fused_experts
+        from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
+            rocm_aiter_fused_experts)
 
         topk_weights, topk_ids = FusedMoE.select_experts(
             hidden_states=x,
@@ -810,6 +818,24 @@ class Fp8MoEMethod(FusedMoEMethodBase):
             e_score_correction_bias=e_score_correction_bias,
         )
 
+        if self.rocm_aiter_moe_enabled:
+            return rocm_aiter_fused_experts(
+                x,
+                layer.w13_weight,
+                layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                activation=activation,
+                use_fp8_w8a8=True,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                w1_scale=(layer.w13_weight_scale_inv
+                          if self.block_quant else layer.w13_weight_scale),
+                w2_scale=(layer.w2_weight_scale_inv
+                          if self.block_quant else layer.w2_weight_scale),
+                a1_scale=layer.w13_input_scale,
+                a2_scale=layer.w2_input_scale,
+                block_shape=self.quant_config.weight_block_size)
+
         if self.use_marlin:
             assert activation == "silu", (
                 f"{activation} not supported for Marlin MoE.")
-- 
GitLab


From 259127f8b8a8ee3c6b2ca7d91f2406f50b480f5f Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Wed, 14 May 2025 18:25:47 +0800
Subject: [PATCH 364/461] [Bugfix] Fix LoRA test (#18123)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 tests/lora/test_worker.py | 16 +++++++++++-----
 1 file changed, 11 insertions(+), 5 deletions(-)

diff --git a/tests/lora/test_worker.py b/tests/lora/test_worker.py
index 30b74ce3e..e5ae660af 100644
--- a/tests/lora/test_worker.py
+++ b/tests/lora/test_worker.py
@@ -58,13 +58,19 @@ def test_worker_apply_lora(sql_lora_files):
             download_dir=None,
             load_format="dummy",
         ),
-        parallel_config=ParallelConfig(1, 1, False),
+        parallel_config=ParallelConfig(
+            pipeline_parallel_size=1,
+            tensor_parallel_size=1,
+            data_parallel_size=1,
+        ),
         scheduler_config=SchedulerConfig("generate", 32, 32, 32),
         device_config=DeviceConfig("cuda"),
-        cache_config=CacheConfig(block_size=16,
-                                 gpu_memory_utilization=1.,
-                                 swap_space=0,
-                                 cache_dtype="auto"),
+        cache_config=CacheConfig(
+            block_size=16,
+            gpu_memory_utilization=1.0,
+            swap_space=0,
+            cache_dtype="auto",
+        ),
         lora_config=LoRAConfig(max_lora_rank=8, max_cpu_loras=32,
                                max_loras=32),
     )
-- 
GitLab


From d62a076e8467ddc9bba13849911275bf66b8ed6c Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Wed, 14 May 2025 18:33:19 +0800
Subject: [PATCH 365/461] [Model] GritLM supports other attention backends
 (#18109)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 tests/models/language/pooling/test_gritlm.py | 77 ++++++++------------
 vllm/model_executor/models/gritlm.py         | 46 +++---------
 vllm/model_executor/models/llama.py          | 42 +++++++----
 vllm/model_executor/models/qwen2.py          | 26 +++----
 4 files changed, 84 insertions(+), 107 deletions(-)

diff --git a/tests/models/language/pooling/test_gritlm.py b/tests/models/language/pooling/test_gritlm.py
index 3ad6e7190..7dd3c8a4e 100644
--- a/tests/models/language/pooling/test_gritlm.py
+++ b/tests/models/language/pooling/test_gritlm.py
@@ -11,7 +11,6 @@ from scipy.spatial.distance import cosine
 
 from vllm import LLM, SamplingParams
 from vllm.config import ModelConfig
-from vllm.utils import STR_BACKEND_ENV_VAR
 
 from ....utils import RemoteOpenAIServer
 
@@ -117,44 +116,37 @@ def validate_embed_output(q_rep: list[list[float]], d_rep: list[list[float]]):
     assert math.isclose(cosine_sim_q1_d1, 0.534, abs_tol=0.001)
 
 
-def test_gritlm_offline_embedding(monkeypatch: pytest.MonkeyPatch,
-                                  vllm_runner):
-    # GritLM embedding implementation is only supported by XFormers backend.
-    with monkeypatch.context() as m:
-        m.setenv(STR_BACKEND_ENV_VAR, "XFORMERS")
-
-        queries, q_instruction, documents, d_instruction = get_test_data()
+def test_gritlm_offline_embedding(vllm_runner):
+    queries, q_instruction, documents, d_instruction = get_test_data()
 
-        with vllm_runner(
-                MODEL_NAME,
-                task="embed",
-                max_model_len=MAX_MODEL_LEN,
-        ) as vllm_model:
-            llm = vllm_model.model
+    with vllm_runner(
+            MODEL_NAME,
+            task="embed",
+            max_model_len=MAX_MODEL_LEN,
+    ) as vllm_model:
+        llm = vllm_model.model
 
-            d_rep = run_llm_encode(
-                llm,
-                documents,
-                d_instruction,
-            )
-            q_rep = run_llm_encode(
-                llm,
-                queries,
-                q_instruction,
-            )
+        d_rep = run_llm_encode(
+            llm,
+            documents,
+            d_instruction,
+        )
+        q_rep = run_llm_encode(
+            llm,
+            queries,
+            q_instruction,
+        )
 
-        validate_embed_output(q_rep, d_rep)
+    validate_embed_output(q_rep, d_rep)
 
 
 @pytest.mark.asyncio
 async def test_gritlm_api_server_embedding():
     queries, q_instruction, documents, d_instruction = get_test_data()
 
-    # GritLM embedding implementation is only supported by XFormers backend.
     args = ["--task", "embed", "--max_model_len", str(MAX_MODEL_LEN)]
-    env_dict = {STR_BACKEND_ENV_VAR: "XFORMERS"}
 
-    with RemoteOpenAIServer(MODEL_NAME, args, env_dict=env_dict) as server:
+    with RemoteOpenAIServer(MODEL_NAME, args) as server:
         client_embedding = server.get_async_client()
 
         d_rep = await run_client_embeddings(
@@ -172,35 +164,28 @@ async def test_gritlm_api_server_embedding():
 
 
 def test_gritlm_offline_generate(monkeypatch: pytest.MonkeyPatch, vllm_runner):
-    # GritLM embedding implementation is only supported by XFormers backend.
-    with monkeypatch.context() as m:
-        m.setenv("VLLM_USE_V1", "0")
-        m.setenv(STR_BACKEND_ENV_VAR, "XFORMERS")
-
-        input = "<|user|>\nWhat is the capital of France?\n<|assistant|>\n"
+    input = "<|user|>\nWhat is the capital of France?\n<|assistant|>\n"
 
-        with vllm_runner(
-                MODEL_NAME,
-                task="generate",
-                max_model_len=MAX_MODEL_LEN,
-        ) as vllm_model:
-            llm = vllm_model.model
+    with vllm_runner(
+            MODEL_NAME,
+            task="generate",
+            max_model_len=MAX_MODEL_LEN,
+    ) as vllm_model:
+        llm = vllm_model.model
 
-            sampling_params = SamplingParams(temperature=0.0, max_tokens=256)
-            outputs = llm.generate(input, sampling_params=sampling_params)
+        sampling_params = SamplingParams(temperature=0.0, max_tokens=256)
+        outputs = llm.generate(input, sampling_params=sampling_params)
 
-        assert outputs[0].outputs[0].text == "The capital of France is Paris."
+    assert outputs[0].outputs[0].text == "The capital of France is Paris."
 
 
 @pytest.mark.asyncio
 async def test_gritlm_api_server_generate():
     input = "<|user|>\nWhat is the capital of France?\n<|assistant|>\n"
 
-    # GritLM embedding implementation is only supported by XFormers backend.
     args = ["--task", "generate", "--max_model_len", str(MAX_MODEL_LEN)]
-    env_dict = {"VLLM_USE_V1": "0", STR_BACKEND_ENV_VAR: "XFORMERS"}
 
-    with RemoteOpenAIServer(MODEL_NAME, args, env_dict=env_dict) as server:
+    with RemoteOpenAIServer(MODEL_NAME, args) as server:
         client_generate = server.get_async_client()
 
         outputs = await client_generate.completions.create(
diff --git a/vllm/model_executor/models/gritlm.py b/vllm/model_executor/models/gritlm.py
index e4692c458..6a444e8d1 100644
--- a/vllm/model_executor/models/gritlm.py
+++ b/vllm/model_executor/models/gritlm.py
@@ -1,22 +1,18 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from array import array
-from typing import Optional, Union
+from typing import Optional
 
 import torch
 import torch.nn as nn
-from xformers.ops.fmha.attn_bias import BlockDiagonalMask
 
-from vllm.attention.backends.xformers import XFormersImpl
 from vllm.config import ModelConfig, VllmConfig
-from vllm.forward_context import get_forward_context
 from vllm.logger import init_logger
 from vllm.model_executor.layers.pooler import PoolerHead
 from vllm.model_executor.models.llama import LlamaForCausalLM
 from vllm.model_executor.pooling_metadata import (PoolingMetadata,
                                                   PoolingTensors)
-from vllm.sequence import (IntermediateTensors, PoolerOutput,
-                           PoolingSequenceGroupOutput)
+from vllm.sequence import PoolerOutput, PoolingSequenceGroupOutput
 from vllm.transformers_utils.tokenizer import cached_tokenizer_from_config
 
 from .interfaces import SupportsV0Only
@@ -204,38 +200,20 @@ class GritLM(LlamaForCausalLM, SupportsV0Only):
         prefix: str = "",
         **kwargs,
     ) -> None:
-        super().__init__(vllm_config=vllm_config, prefix=prefix, **kwargs)
+        # Use full attention for pooling
+        if vllm_config.model_config.runner_type == "pooling":
+            hf_config = vllm_config.model_config.hf_config
+            hf_config.is_causal = False
 
-        self.runner_type = vllm_config.model_config.runner_type
+            vllm_config.cache_config.sliding_window = None
 
-        self._pooler = GritLMPooler(vllm_config.model_config)
+            for attr in ("sliding_window", "interleaved_sliding_window"):
+                if hasattr(hf_config, attr):
+                    delattr(hf_config, attr)
 
-        for layer in self.model.layers:
-            if self.runner_type == "pooling" and hasattr(layer, "self_attn"):
-                assert isinstance(layer.self_attn.attn.impl, XFormersImpl), (
-                    "GritLM embedding is only supported by XFormers backend, "
-                    "which can be forced by VLLM_ATTENTION_BACKEND=XFORMERS")
+        super().__init__(vllm_config=vllm_config, prefix=prefix, **kwargs)
 
-    def forward(
-        self,
-        input_ids: torch.Tensor,
-        positions: torch.Tensor,
-        **kwargs,
-    ) -> Union[torch.Tensor, IntermediateTensors]:
-
-        # Change attention to non-causal for pooling tasks.
-        if self.runner_type == "pooling":
-            attn_metadata = get_forward_context().attn_metadata
-            assert attn_metadata.prefill_metadata.attn_bias is None
-            attn_metadata.prefill_metadata.attn_bias = [
-                BlockDiagonalMask.from_seqlens(attn_metadata.seq_lens)
-            ]
-
-        return super().forward(
-            input_ids=input_ids,
-            positions=positions,
-            **kwargs,
-        )
+        self._pooler = GritLMPooler(vllm_config.model_config)
 
     def pooler(
         self,
diff --git a/vllm/model_executor/models/llama.py b/vllm/model_executor/models/llama.py
index 7a3ea7a68..c1593dcbe 100644
--- a/vllm/model_executor/models/llama.py
+++ b/vllm/model_executor/models/llama.py
@@ -28,7 +28,7 @@ import torch
 from torch import nn
 from transformers import LlamaConfig
 
-from vllm.attention import Attention
+from vllm.attention import Attention, AttentionType
 from vllm.compilation.decorators import support_torch_compile
 from vllm.config import CacheConfig, VllmConfig
 from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
@@ -96,19 +96,22 @@ class LlamaMLP(nn.Module):
 
 class LlamaAttention(nn.Module):
 
-    def __init__(self,
-                 config: LlamaConfig,
-                 hidden_size: int,
-                 num_heads: int,
-                 num_kv_heads: int,
-                 rope_theta: float = 10000,
-                 rope_scaling: Optional[Dict[str, Any]] = None,
-                 max_position_embeddings: int = 8192,
-                 quant_config: Optional[QuantizationConfig] = None,
-                 bias: bool = False,
-                 bias_o_proj: bool = False,
-                 cache_config: Optional[CacheConfig] = None,
-                 prefix: str = "") -> None:
+    def __init__(
+        self,
+        config: LlamaConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: Optional[Dict[str, Any]] = None,
+        max_position_embeddings: int = 8192,
+        quant_config: Optional[QuantizationConfig] = None,
+        bias: bool = False,
+        bias_o_proj: bool = False,
+        cache_config: Optional[CacheConfig] = None,
+        prefix: str = "",
+        attn_type: str = AttentionType.DECODER,
+    ) -> None:
         super().__init__()
         layer_idx = extract_layer_index(prefix)
         self.hidden_size = hidden_size
@@ -194,6 +197,7 @@ class LlamaAttention(nn.Module):
             cache_config=cache_config,
             quant_config=quant_config,
             per_layer_sliding_window=sliding_window,
+            attn_type=attn_type,
             prefix=f"{prefix}.attn",
         )
 
@@ -238,6 +242,15 @@ class LlamaDecoderLayer(nn.Module):
         if hasattr(config, 'qkv_bias'):
             attention_bias = config.qkv_bias
 
+        # By default, Llama uses causal attention as it is a decoder-only model.
+        # You can override the HF config with `is_causal=False` to enable
+        # bidirectional attention, which is used in some embedding models
+        # (e.g. parasail-ai/GritLM-7B-vllm)
+        if getattr(config, "is_causal", True):
+            attn_type = AttentionType.DECODER
+        else:
+            attn_type = AttentionType.ENCODER_ONLY
+
         self.self_attn = LlamaAttention(
             config=config,
             hidden_size=self.hidden_size,
@@ -252,6 +265,7 @@ class LlamaDecoderLayer(nn.Module):
             bias_o_proj=bias_o_proj,
             cache_config=cache_config,
             prefix=f"{prefix}.self_attn",
+            attn_type=attn_type,
         )
         self.mlp = LlamaMLP(
             hidden_size=self.hidden_size,
diff --git a/vllm/model_executor/models/qwen2.py b/vllm/model_executor/models/qwen2.py
index b5850011e..60f8a7cd7 100644
--- a/vllm/model_executor/models/qwen2.py
+++ b/vllm/model_executor/models/qwen2.py
@@ -100,19 +100,19 @@ class Qwen2MLP(nn.Module):
 class Qwen2Attention(nn.Module):
 
     def __init__(
-            self,
-            hidden_size: int,
-            num_heads: int,
-            num_kv_heads: int,
-            max_position: int = 4096 * 32,
-            rope_theta: float = 10000,
-            cache_config: Optional[CacheConfig] = None,
-            quant_config: Optional[QuantizationConfig] = None,
-            rope_scaling: Optional[Tuple] = None,
-            prefix: str = "",
-            attn_type: str = AttentionType.DECODER,
-            dual_chunk_attention_config: Optional[dict[str,
-                                                       Any]] = None) -> None:
+        self,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        max_position: int = 4096 * 32,
+        rope_theta: float = 10000,
+        cache_config: Optional[CacheConfig] = None,
+        quant_config: Optional[QuantizationConfig] = None,
+        rope_scaling: Optional[Tuple] = None,
+        prefix: str = "",
+        attn_type: str = AttentionType.DECODER,
+        dual_chunk_attention_config: Optional[dict[str, Any]] = None,
+    ) -> None:
         super().__init__()
         self.hidden_size = hidden_size
         tp_size = get_tensor_model_parallel_world_size()
-- 
GitLab


From 9ccc6ded425139b386edb6a268af66ede2082beb Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Wed, 14 May 2025 18:57:34 +0800
Subject: [PATCH 366/461] [doc] add missing import (#18133)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 docs/source/serving/offline_inference.md | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/docs/source/serving/offline_inference.md b/docs/source/serving/offline_inference.md
index e46361955..433d2e894 100644
--- a/docs/source/serving/offline_inference.md
+++ b/docs/source/serving/offline_inference.md
@@ -74,6 +74,8 @@ Tensor parallelism (`tensor_parallel_size` option) can be used to split the mode
 The following code splits the model across 2 GPUs.
 
 ```python
+from vllm import LLM
+
 llm = LLM(model="ibm-granite/granite-3.1-8b-instruct",
           tensor_parallel_size=2)
 ```
-- 
GitLab


From 9b5b39b650ef37d9086985eabfb9ed2f1c327075 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Wed, 14 May 2025 11:57:59 +0100
Subject: [PATCH 367/461] Update deprecated type hinting in `vllm/lora`
 (#18128)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 pyproject.toml                                |  1 -
 vllm/lora/fully_sharded_layers.py             | 22 ++---
 vllm/lora/layers.py                           | 62 +++++++-------
 vllm/lora/lora.py                             | 14 ++--
 vllm/lora/models.py                           | 56 ++++++-------
 vllm/lora/ops/triton_ops/lora_expand_op.py    |  8 +-
 .../ops/triton_ops/lora_kernel_metadata.py    |  4 +-
 vllm/lora/ops/triton_ops/lora_shrink_op.py    |  8 +-
 vllm/lora/ops/triton_ops/utils.py             | 10 +--
 vllm/lora/peft_helper.py                      |  4 +-
 vllm/lora/punica_wrapper/punica_base.py       | 82 +++++++++----------
 vllm/lora/punica_wrapper/punica_cpu.py        | 46 +++++------
 vllm/lora/punica_wrapper/punica_gpu.py        | 36 ++++----
 vllm/lora/punica_wrapper/punica_hpu.py        | 30 +++----
 vllm/lora/punica_wrapper/punica_tpu.py        | 50 +++++------
 vllm/lora/punica_wrapper/utils.py             | 16 ++--
 vllm/lora/resolver.py                         |  7 +-
 vllm/lora/utils.py                            | 18 ++--
 vllm/lora/worker_manager.py                   | 22 ++---
 19 files changed, 245 insertions(+), 251 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index ac8a36129..62196a842 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -78,7 +78,6 @@ exclude = [
 "vllm/distributed/**/*.py" = ["UP006", "UP035"]
 "vllm/engine/**/*.py" = ["UP006", "UP035"]
 "vllm/executor/**/*.py" = ["UP006", "UP035"]
-"vllm/lora/**/*.py" = ["UP006", "UP035"]
 "vllm/model_executor/model_loader/**/*.py" = ["UP006", "UP035"]
 "vllm/model_executor/models/**/*.py" = ["UP006", "UP035"]
 "vllm/platforms/**/*.py" = ["UP006", "UP035"]
diff --git a/vllm/lora/fully_sharded_layers.py b/vllm/lora/fully_sharded_layers.py
index e195f8cf5..b6b138a44 100644
--- a/vllm/lora/fully_sharded_layers.py
+++ b/vllm/lora/fully_sharded_layers.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 # pylint: disable=unused-argument
-from typing import TYPE_CHECKING, List, Optional, Tuple, Union, cast
+from typing import TYPE_CHECKING, Optional, Union, cast
 
 import torch
 import torch.nn as nn
@@ -118,7 +118,7 @@ class ColumnParallelLinearWithShardedLoRA(ColumnParallelLinearWithLoRA):
         cls,
         source_layer: nn.Module,
         lora_config: LoRAConfig,
-        packed_modules_list: List,
+        packed_modules_list: list,
         model_config: Optional[PretrainedConfig],
     ) -> bool:
         # specifying kwargs so they can be easily accessed in decorator
@@ -141,8 +141,8 @@ class MergedColumnParallelLinearWithShardedLoRA(
     """
 
     def slice_lora_a(
-        self, lora_a: List[Union[torch.Tensor, None]]
-    ) -> List[Union[torch.Tensor, None]]:
+        self, lora_a: list[Union[torch.Tensor, None]]
+    ) -> list[Union[torch.Tensor, None]]:
         #NOTE: lora_a contains 2 subloras, and each sublora could be None.
         output_shard_size = self.lora_a_stacked[0].shape[2]
         output_start_idx = self.tp_rank * output_shard_size
@@ -165,7 +165,7 @@ class MergedColumnParallelLinearWithShardedLoRA(
         cls,
         source_layer: nn.Module,
         lora_config: LoRAConfig,
-        packed_modules_list: List,
+        packed_modules_list: list,
         model_config: Optional[PretrainedConfig],
     ) -> bool:
         # specifying kwargs so they can be easily accessed in decorator
@@ -201,7 +201,7 @@ class QKVParallelLinearWithShardedLoRA(QKVParallelLinearWithLoRA):
     @classmethod
     @_fully_sharded_can_replace
     def can_replace_layer(cls, source_layer: nn.Module,
-                          lora_config: LoRAConfig, packed_modules_list: List,
+                          lora_config: LoRAConfig, packed_modules_list: list,
                           model_config: Optional[PretrainedConfig]) -> bool:
         # specifying kwargs so they can be easily accessed in decorator
         return super().can_replace_layer(
@@ -222,8 +222,8 @@ class MergedQKVParallelLinearWithShardedLoRA(MergedQKVParallelLinearWithLoRA):
     """
 
     def slice_lora_a(
-        self, lora_a: List[Union[torch.Tensor, None]]
-    ) -> List[Union[torch.Tensor, None]]:
+        self, lora_a: list[Union[torch.Tensor, None]]
+    ) -> list[Union[torch.Tensor, None]]:
         # NOTE: lora_a contains 3 subloras, and each sublora could be None.
         shard_size = [self.lora_a_stacked[i].shape[2] for i in range(3)]
         start_idx = [self.tp_rank * shard_size[i] for i in range(3)]
@@ -248,7 +248,7 @@ class MergedQKVParallelLinearWithShardedLoRA(MergedQKVParallelLinearWithLoRA):
         cls,
         source_layer: nn.Module,
         lora_config: LoRAConfig,
-        packed_modules_list: List,
+        packed_modules_list: list,
         model_config: Optional[PretrainedConfig],
     ) -> bool:
         # specifying kwargs so they can be easily accessed in decorator
@@ -281,7 +281,7 @@ class RowParallelLinearWithShardedLoRA(RowParallelLinearWithLoRA):
     def slice_bias(self, bias: torch.Tensor) -> torch.Tensor:
         if bias is None:
             return bias
-        self.lora_bias_stacked = cast(Tuple[torch.Tensor, ...],
+        self.lora_bias_stacked = cast(tuple[torch.Tensor, ...],
                                       self.lora_bias_stacked)
         shard_size = self.lora_bias_stacked[0].shape[2]
         start_idx = self.tp_rank * shard_size
@@ -341,7 +341,7 @@ class RowParallelLinearWithShardedLoRA(RowParallelLinearWithLoRA):
         cls,
         source_layer: nn.Module,
         lora_config: LoRAConfig,
-        packed_modules_list: List,
+        packed_modules_list: list,
         model_config: Optional[PretrainedConfig],
     ) -> bool:
         # specifying kwargs so they can be easily accessed in decorator
diff --git a/vllm/lora/layers.py b/vllm/lora/layers.py
index 6749ec16a..023c8e9c9 100644
--- a/vllm/lora/layers.py
+++ b/vllm/lora/layers.py
@@ -3,7 +3,7 @@
 # pylint: disable=unused-argument
 import math
 from dataclasses import dataclass
-from typing import TYPE_CHECKING, Dict, List, Optional, Tuple, Union, cast
+from typing import TYPE_CHECKING, Optional, Union, cast
 
 import torch
 import torch.nn as nn
@@ -82,14 +82,14 @@ class LoRAMapping(AdapterMapping):
 class BaseLayerWithLoRA(nn.Module):
 
     def slice_lora_a(
-        self, lora_a: Union[torch.Tensor, List[Union[torch.Tensor, None]]]
-    ) -> Union[torch.Tensor, List[Union[torch.Tensor, None]]]:
+        self, lora_a: Union[torch.Tensor, list[Union[torch.Tensor, None]]]
+    ) -> Union[torch.Tensor, list[Union[torch.Tensor, None]]]:
         """Slice lora a if splitting for tensor parallelism."""
         ...
 
     def slice_lora_b(
-        self, lora_b: Union[torch.Tensor, List[Union[torch.Tensor, None]]]
-    ) -> Union[torch.Tensor, List[Union[torch.Tensor, None]]]:
+        self, lora_b: Union[torch.Tensor, list[Union[torch.Tensor, None]]]
+    ) -> Union[torch.Tensor, list[Union[torch.Tensor, None]]]:
         """Slice lora b if splitting with tensor parallelism."""
         ...
 
@@ -128,7 +128,7 @@ class BaseLayerWithLoRA(nn.Module):
         cls,
         source_layer: nn.Module,
         lora_config: LoRAConfig,
-        packed_modules_list: List,
+        packed_modules_list: list,
         model_config: Optional[PretrainedConfig],
     ) -> bool:
         """Returns True if the layer can be replaced by this LoRA layer."""
@@ -140,7 +140,7 @@ class VocabParallelEmbeddingWithLoRA(BaseLayerWithLoRA):
     def __init__(self, base_layer: VocabParallelEmbedding) -> None:
         super().__init__()
         self.base_layer = base_layer
-        self.embeddings_slice: Optional[Tuple[int, int]]
+        self.embeddings_slice: Optional[tuple[int, int]]
         self.embeddings_weights: Optional[torch.Tensor]
 
     def create_lora_weights(
@@ -279,7 +279,7 @@ class VocabParallelEmbeddingWithLoRA(BaseLayerWithLoRA):
         cls,
         source_layer: nn.Module,
         lora_config: LoRAConfig,
-        packed_modules_list: List,
+        packed_modules_list: list,
         model_config: Optional[PretrainedConfig],
     ) -> bool:
         return type(source_layer) is VocabParallelEmbedding
@@ -296,9 +296,9 @@ class BaseLinearLayerWithLoRA(BaseLayerWithLoRA):
         self.base_layer = base_layer
         self.input_size = self.base_layer.input_size
         self.device = _get_lora_device(self.base_layer)
-        self.lora_bias_stacked: Optional[Tuple[torch.Tensor, ...]] = None
+        self.lora_bias_stacked: Optional[tuple[torch.Tensor, ...]] = None
 
-        self.output_slices: Tuple[int, ...]
+        self.output_slices: tuple[int, ...]
         self.tp_size: int
         self.output_size: int
         self.n_slices: int
@@ -365,7 +365,7 @@ class BaseLinearLayerWithLoRA(BaseLayerWithLoRA):
             self.lora_b_stacked[s_index][index] = 0
             if self.lora_config.bias_enabled:
                 # Make mypy happy
-                self.lora_bias_stacked = cast(Tuple[torch.Tensor, ...],
+                self.lora_bias_stacked = cast(tuple[torch.Tensor, ...],
                                               self.lora_bias_stacked)
                 self.lora_bias_stacked[s_index][index] = 0
 
@@ -399,7 +399,7 @@ class BaseLinearLayerWithLoRA(BaseLayerWithLoRA):
                                    lora_b.T, non_blocking=True)
         if lora_bias is not None:
 
-            self.lora_bias_stacked = cast(Tuple[torch.Tensor, ...],
+            self.lora_bias_stacked = cast(tuple[torch.Tensor, ...],
                                           self.lora_bias_stacked)
             assert len(self.lora_bias_stacked)
             self.lora_bias_stacked[0][index, 0, :lora_bias.shape[0]].copy_(
@@ -497,7 +497,7 @@ class ReplicatedLinearWithLoRA(BaseLinearLayerWithLoRA):
         cls,
         source_layer: nn.Module,
         lora_config: LoRAConfig,
-        packed_modules_list: List,
+        packed_modules_list: list,
         model_config: Optional[PretrainedConfig],
     ) -> bool:
         return type(source_layer) is ReplicatedLinear
@@ -597,7 +597,7 @@ class ColumnParallelLinearWithLoRA(BaseLinearLayerWithLoRA):
         cls,
         source_layer: nn.Module,
         lora_config: LoRAConfig,
-        packed_modules_list: List,
+        packed_modules_list: list,
         model_config: Optional[PretrainedConfig],
     ) -> bool:
         return type(source_layer) is ColumnParallelLinear or (
@@ -674,13 +674,13 @@ class MergedColumnParallelLinearWithLoRA(ColumnParallelLinearWithLoRA):
                 ) for output_size in self.output_slices)
 
     def slice_lora_a(
-        self, lora_a: List[Union[torch.Tensor, None]]
-    ) -> List[Union[torch.Tensor, None]]:
+        self, lora_a: list[Union[torch.Tensor, None]]
+    ) -> list[Union[torch.Tensor, None]]:
         return lora_a
 
     def slice_lora_b(
-        self, lora_b: List[Union[torch.Tensor, None]]
-    ) -> List[Union[torch.Tensor, None]]:
+        self, lora_b: list[Union[torch.Tensor, None]]
+    ) -> list[Union[torch.Tensor, None]]:
         for i, (shard_id, shard_size) in enumerate(
                 zip(self.output_ids, self.output_slices)):
             if (lora_b_i := lora_b[i]) is not None:
@@ -689,8 +689,8 @@ class MergedColumnParallelLinearWithLoRA(ColumnParallelLinearWithLoRA):
         return lora_b
 
     def slice_bias(
-        self, bias: List[Union[torch.Tensor,
-                               None]]) -> List[Union[torch.Tensor, None]]:
+        self, bias: list[Union[torch.Tensor,
+                               None]]) -> list[Union[torch.Tensor, None]]:
         for i, (shard_id, shard_size) in enumerate(
                 zip(self.output_ids, self.output_slices)):
             if (bias_i := bias[i]) is not None:
@@ -725,7 +725,7 @@ class MergedColumnParallelLinearWithLoRA(ColumnParallelLinearWithLoRA):
                         lora_b_i.T, non_blocking=True)
 
         if lora_bias is not None:
-            self.lora_bias_stacked = cast(Tuple[torch.Tensor, ...],
+            self.lora_bias_stacked = cast(tuple[torch.Tensor, ...],
                                           self.lora_bias_stacked)
             for i in range(self.n_slices):
                 if (lora_bias_i := lora_bias[i]) is not None:
@@ -740,7 +740,7 @@ class MergedColumnParallelLinearWithLoRA(ColumnParallelLinearWithLoRA):
         cls,
         source_layer: nn.Module,
         lora_config: LoRAConfig,
-        packed_modules_list: List,
+        packed_modules_list: list,
         model_config: Optional[PretrainedConfig],
     ) -> bool:
         return (type(source_layer) is MergedColumnParallelLinear
@@ -809,7 +809,7 @@ class QKVParallelLinearWithLoRA(ColumnParallelLinearWithLoRA):
     @classmethod
     @_not_fully_sharded_can_replace
     def can_replace_layer(cls, source_layer: nn.Module,
-                          lora_config: LoRAConfig, packed_modules_list: List,
+                          lora_config: LoRAConfig, packed_modules_list: list,
                           model_config: Optional[PretrainedConfig]) -> bool:
         return type(source_layer) is QKVParallelLinear and len(
             packed_modules_list) == 1
@@ -869,7 +869,7 @@ class MergedQKVParallelLinearWithLoRA(MergedColumnParallelLinearWithLoRA):
         cls,
         source_layer: nn.Module,
         lora_config: LoRAConfig,
-        packed_modules_list: List,
+        packed_modules_list: list,
         model_config: Optional[PretrainedConfig],
     ) -> bool:
         return (type(source_layer) is QKVParallelLinear
@@ -923,7 +923,7 @@ class RowParallelLinearWithLoRA(BaseLinearLayerWithLoRA):
             - output
             - bias
         """
-        # Set up backprop all-reduce.
+        # set up backprop all-reduce.
         if self.base_layer.input_is_parallel:
             input_parallel = input_
         else:
@@ -958,7 +958,7 @@ class RowParallelLinearWithLoRA(BaseLinearLayerWithLoRA):
         cls,
         source_layer: nn.Module,
         lora_config: LoRAConfig,
-        packed_modules_list: List,
+        packed_modules_list: list,
         model_config: Optional[PretrainedConfig],
     ) -> bool:
         return type(source_layer) is RowParallelLinear
@@ -981,7 +981,7 @@ class LogitsProcessorWithLoRA(BaseLayerWithLoRA):
 
     def __init__(self, base_layer: LogitsProcessor, hidden_size: int,
                  dtype: torch.dtype, device: torch.device,
-                 sharded_to_full_mapping: Optional[List[int]]) -> None:
+                 sharded_to_full_mapping: Optional[list[int]]) -> None:
         super().__init__()
         self.base_layer = base_layer
         self.hidden_size = hidden_size
@@ -1189,7 +1189,7 @@ class LogitsProcessorWithLoRA(BaseLayerWithLoRA):
         cls,
         source_layer: nn.Module,
         lora_config: LoRAConfig,
-        packed_modules_list: List,
+        packed_modules_list: list,
         model_config: Optional[PretrainedConfig],
     ) -> bool:
         # Special handling for the LogitsProcessor.
@@ -1256,7 +1256,7 @@ class LinearScalingRotaryEmbeddingWithLoRA(BaseLayerWithLoRA):
         positions: torch.Tensor,
         query: torch.Tensor,
         key: torch.Tensor,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         return self.base_layer(
             positions,
             query,
@@ -1265,7 +1265,7 @@ class LinearScalingRotaryEmbeddingWithLoRA(BaseLayerWithLoRA):
         )
 
     @property
-    def scaling_factor_to_offset(self) -> Dict[float, int]:
+    def scaling_factor_to_offset(self) -> dict[float, int]:
         return self.base_layer.scaling_factor_to_offset
 
     @classmethod
@@ -1273,7 +1273,7 @@ class LinearScalingRotaryEmbeddingWithLoRA(BaseLayerWithLoRA):
         cls,
         source_layer: nn.Module,
         lora_config: LoRAConfig,
-        packed_modules_list: List,
+        packed_modules_list: list,
         model_config: Optional[PretrainedConfig],
     ) -> bool:
         """Returns True if the layer can be replaced by this LoRA layer."""
diff --git a/vllm/lora/lora.py b/vllm/lora/lora.py
index 00299bf6c..294b49e0a 100644
--- a/vllm/lora/lora.py
+++ b/vllm/lora/lora.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import List, Optional
-from typing import Sequence as GenericSequence
+from collections.abc import Sequence as GenericSequence
+from typing import Optional
 
 import torch
 import torch.types
@@ -125,11 +125,11 @@ class PackedLoRALayerWeights(LoRALayerWeights):
         self,
         module_name: str,
         rank: int,
-        lora_alphas: List[Optional[int]],
-        lora_a: List[Optional[torch.Tensor]],
-        lora_b: List[Optional[torch.Tensor]],
-        bias: Optional[List[Optional[torch.Tensor]]] = None,
-        scaling: Optional[List[float]] = None,
+        lora_alphas: list[Optional[int]],
+        lora_a: list[Optional[torch.Tensor]],
+        lora_b: list[Optional[torch.Tensor]],
+        bias: Optional[list[Optional[torch.Tensor]]] = None,
+        scaling: Optional[list[float]] = None,
     ) -> None:
         super().__init__(
             module_name=module_name,
diff --git a/vllm/lora/models.py b/vllm/lora/models.py
index 9f9d80867..959fe4a67 100644
--- a/vllm/lora/models.py
+++ b/vllm/lora/models.py
@@ -4,9 +4,9 @@ import copy
 import math
 import os
 import re
+from collections.abc import Sequence
 from dataclasses import dataclass, field
-from typing import (Any, Callable, Dict, List, Optional, Sequence, Set, Type,
-                    Union)
+from typing import Any, Callable, Optional, Union
 
 import safetensors.torch
 import torch
@@ -44,12 +44,12 @@ _GLOBAL_LORA_ID = 0
 class LongContextLoRAContext:
     """Context for lora adapters that support long context."""
     # The scaling factors to support long context lora fine tuned models.
-    scaling_factors: List[float]
+    scaling_factors: list[float]
     # dimension to apply rotary embedding.
     rot_dim: int
     # offsets to the sin_cos_cache for each lora_id loaded.
     # This value is dynamically modified.
-    offsets_by_lora_id: Dict[int, int] = field(default_factory=dict)
+    offsets_by_lora_id: dict[int, int] = field(default_factory=dict)
 
 
 def get_lora_id():
@@ -65,7 +65,7 @@ class LoRAModel(AdapterModel):
         self,
         lora_model_id: int,
         rank: int,
-        loras: Dict[str, LoRALayerWeights],
+        loras: dict[str, LoRALayerWeights],
         scaling_factor: Optional[float] = None,
     ) -> None:
         """
@@ -84,7 +84,7 @@ class LoRAModel(AdapterModel):
             lora_model_id
             > 0), f"a valid lora id should be greater than 0, got {self.id}"
         self.rank = rank
-        self.loras: Dict[str, LoRALayerWeights] = loras
+        self.loras: dict[str, LoRALayerWeights] = loras
 
     def clone(self, lora_model_id: int) -> "LoRAModel":
         """Return a copy of the object with different ids.
@@ -113,19 +113,19 @@ class LoRAModel(AdapterModel):
     def from_lora_tensors(
         cls,
         lora_model_id: int,
-        tensors: Dict[str, torch.Tensor],
+        tensors: dict[str, torch.Tensor],
         peft_helper: PEFTHelper,
         device: str = "cuda",
         dtype: Optional[torch.dtype] = None,
-        embeddings: Optional[Dict[str, torch.Tensor]] = None,
+        embeddings: Optional[dict[str, torch.Tensor]] = None,
         target_embedding_padding: Optional[int] = None,
-        embedding_modules: Optional[Dict[str, str]] = None,
-        embedding_padding_modules: Optional[List[str]] = None,
+        embedding_modules: Optional[dict[str, str]] = None,
+        embedding_padding_modules: Optional[list[str]] = None,
         weights_mapper: Optional[WeightsMapper] = None,
     ) -> "LoRAModel":
         """Create a LoRAModel from a dictionary of tensors."""
         pin_memory = str(device) == "cpu" and is_pin_memory_available()
-        loras: Dict[str, LoRALayerWeights] = {}
+        loras: dict[str, LoRALayerWeights] = {}
         for tensor_name, tensor in tensors.items():
             module_name, is_lora_a, is_bias = parse_fine_tuned_lora_name(
                 tensor_name, weights_mapper)
@@ -187,15 +187,15 @@ class LoRAModel(AdapterModel):
     def from_local_checkpoint(
         cls,
         lora_dir: str,
-        expected_lora_modules: List[str],
+        expected_lora_modules: list[str],
         peft_helper: PEFTHelper,
         *,
         lora_model_id: Optional[int] = None,
         device: str = "cuda",
         dtype: Optional[torch.dtype] = None,
         target_embedding_padding: Optional[int] = None,
-        embedding_modules: Optional[Dict[str, str]] = None,
-        embedding_padding_modules: Optional[List[str]] = None,
+        embedding_modules: Optional[dict[str, str]] = None,
+        embedding_padding_modules: Optional[list[str]] = None,
         weights_mapper: Optional[WeightsMapper] = None,
     ) -> "LoRAModel":
         """Create a LoRAModel from a local checkpoint.
@@ -220,9 +220,9 @@ class LoRAModel(AdapterModel):
         new_embeddings_bin_file_path = os.path.join(lora_dir,
                                                     "new_embeddings.bin")
 
-        unexpected_modules: List[Union[list[str], str]]
+        unexpected_modules: list[Union[list[str], str]]
         if os.path.isfile(lora_tensor_path):
-            tensors: Dict[str, torch.Tensor] = {}
+            tensors: dict[str, torch.Tensor] = {}
             # Find unexpected modules.
             # Use safetensor key as a source of truth to find expected modules.
             # in peft if you have target_modules A, B, C and C does not exist
@@ -329,7 +329,7 @@ class LoRAModelManager(AdapterModelManager):
         self.max_num_seqs = max_num_seqs
         assert self.capacity >= self.lora_slots
         self.max_num_batched_tokens = math.ceil(max_num_batched_tokens / 8) * 8
-        self.lora_index_to_id: List[Optional[int]] = [None] * self.lora_slots
+        self.lora_index_to_id: list[Optional[int]] = [None] * self.lora_slots
         self.vocab_size = vocab_size
         self.long_lora_context: Optional[LongContextLoRAContext] = None
         self.punica_wrapper = get_punica_wrapper(
@@ -339,7 +339,7 @@ class LoRAModelManager(AdapterModelManager):
             max_loras=self.lora_config.max_loras)
         # Scaling factor -> offset to the sin_cos_cache to it.
         # Used for long context lora.
-        self.scaling_factor_to_offset: Dict[float, int] = {}
+        self.scaling_factor_to_offset: dict[float, int] = {}
         super().__init__(model)
 
         self.supported_lora_modules = get_supported_lora_modules(self.model)
@@ -358,9 +358,9 @@ class LoRAModelManager(AdapterModelManager):
             # text modules (e.g. ChatGLM)
             and hasattr(self.model, "get_mm_mapping"))
         self.is_pooling_model = is_pooling_model(self.model)
-        self.packed_modules: Dict[str, List[str]] = {}
-        self.modules: Dict[str, BaseLayerWithLoRA] = {}
-        # Dict instead of a Set for compatibility with LRUCache.
+        self.packed_modules: dict[str, list[str]] = {}
+        self.modules: dict[str, BaseLayerWithLoRA] = {}
+        # Dict instead of a set for compatibility with LRUCache.
         self._last_mapping: Optional[LoRAMapping] = None
         self._create_lora_modules()
         self.model.lora_manager = self
@@ -530,7 +530,7 @@ class LoRAModelManager(AdapterModelManager):
             lora_id: int,
             rank: int,
             scaling_factor: Optional[float],
-            embedding_modules: Optional[Dict[str, str]] = None) -> LoRAModel:
+            embedding_modules: Optional[dict[str, str]] = None) -> LoRAModel:
         """Create zero-initialized LoRAModel for warmup."""
         model = LoRAModel(lora_id, rank, {}, scaling_factor)
         for module_name, module in self.model.named_modules():
@@ -578,7 +578,7 @@ class LoRAModelManager(AdapterModelManager):
             else:
                 parts = module_name.split(".")
                 replacements = self.packed_modules_mapping[parts[-1]]
-                subloras: List[Optional[LoRALayerWeights]] = []
+                subloras: list[Optional[LoRALayerWeights]] = []
                 for i, r in enumerate(replacements):
                     lora = LoRALayerWeights.create_dummy_lora_weights(
                         module_name + "." + r,
@@ -630,8 +630,8 @@ class LoRAModelManager(AdapterModelManager):
 
     def _create_merged_loras_inplace(self, lora_model: LoRAModel) -> None:
         for module_name, new_module_names in self.packed_modules.items():
-            replacement_loras: List[Optional[LoRALayerWeights]] = []
-            replaced_module: Set[str] = set()
+            replacement_loras: list[Optional[LoRALayerWeights]] = []
+            replaced_module: set[str] = set()
             has_replacement = False
             for r in new_module_names:
                 lora = self._get_lora_layer_weights(lora_model, r)
@@ -694,7 +694,7 @@ class LoRAModelManager(AdapterModelManager):
         return remove_adapter(adapter_id, self._registered_adapters,
                               self.deactivate_adapter)
 
-    def list_adapters(self) -> Dict[int, Any]:
+    def list_adapters(self) -> dict[int, Any]:
         return list_adapters(self._registered_adapters)
 
     def get_adapter(self, adapter_id: int) -> Optional[Any]:
@@ -721,7 +721,7 @@ class LRUCacheLoRAModelManager(LoRAModelManager):
         self._active_adapters: LoRALRUCache = LoRALRUCache(
             self.lora_slots, self._deactivate_adapter)
 
-    def list_adapters(self) -> Dict[int, LoRAModel]:
+    def list_adapters(self) -> dict[int, LoRAModel]:
         """List all registered LoRAModels."""
         return dict(self._registered_adapters.cache)
 
@@ -786,7 +786,7 @@ def create_lora_manager(
         vocab_size: int,
         lora_config: LoRAConfig,
         device: torch.device,
-        lora_manager_cls: Type[LoRAModelManager] = LoRAModelManager,
+        lora_manager_cls: type[LoRAModelManager] = LoRAModelManager,
         **kwargs) -> LoRAModelManager:
     """Create a LoRA adapter for a given model."""
     if not hasattr(model, "packed_modules_mapping"):
diff --git a/vllm/lora/ops/triton_ops/lora_expand_op.py b/vllm/lora/ops/triton_ops/lora_expand_op.py
index e41ae1d95..13ddaaf96 100644
--- a/vllm/lora/ops/triton_ops/lora_expand_op.py
+++ b/vllm/lora/ops/triton_ops/lora_expand_op.py
@@ -6,8 +6,6 @@ Punica: Multi-Tenant LoRA Serving.
 https://arxiv.org/abs/2310.18547
 """
 
-from typing import List
-
 import torch
 import triton
 import triton.language as tl
@@ -127,7 +125,7 @@ def _lora_expand_kernel(
 @torch.inference_mode()
 def _lora_expand(
     inputs: torch.Tensor,  # shape [num_slices, num_tokens, lora_rank]
-    lora_b_weights: List[
+    lora_b_weights: list[
         torch.Tensor],  # shape [num_lora, hidden_size, lora_rank]
     output_tensor: torch.
     Tensor,  # shape [num_tokens, hidden_size * num_slices]
@@ -143,7 +141,7 @@ def _lora_expand(
     """
     Args:
         inputs (torch.Tensor): input tensor
-        lora_b_weights (List[torch.Tensor]): lora'b weight
+        lora_b_weights (list[torch.Tensor]): lora'b weight
         output_tensor (torch.Tensor): output tensor
         token_lora_mapping (torch.Tensor): A tensor mapping each input token
             to the lora-id related to that token. A value of -1 indicates that
@@ -264,7 +262,7 @@ def _lora_expand(
 
 def _lora_expand_fake(
     inputs: torch.Tensor,
-    lora_b_weights: List[torch.Tensor],
+    lora_b_weights: list[torch.Tensor],
     output_tensor: torch.Tensor,
     token_lora_mapping: torch.Tensor,
     token_indices_sorted_by_lora_ids: torch.Tensor,
diff --git a/vllm/lora/ops/triton_ops/lora_kernel_metadata.py b/vllm/lora/ops/triton_ops/lora_kernel_metadata.py
index 055e78f40..ac459a832 100644
--- a/vllm/lora/ops/triton_ops/lora_kernel_metadata.py
+++ b/vllm/lora/ops/triton_ops/lora_kernel_metadata.py
@@ -4,7 +4,7 @@ LoRA kernels metadata preparation utilities.
 """
 
 from dataclasses import dataclass
-from typing import Tuple, Union
+from typing import Union
 
 import torch
 
@@ -125,7 +125,7 @@ class LoRAKernelMeta:
 
     def meta_args(
         self, token_nums: int
-    ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor,
                torch.Tensor, torch.Tensor]:
         """
         This function returns the kernel metadata required for the current
diff --git a/vllm/lora/ops/triton_ops/lora_shrink_op.py b/vllm/lora/ops/triton_ops/lora_shrink_op.py
index fb0422cf0..c3871bd58 100644
--- a/vllm/lora/ops/triton_ops/lora_shrink_op.py
+++ b/vllm/lora/ops/triton_ops/lora_shrink_op.py
@@ -6,8 +6,6 @@ Punica: Multi-Tenant LoRA Serving.
 https://arxiv.org/abs/2310.18547
 """
 
-from typing import List
-
 import torch
 import triton
 import triton.language as tl
@@ -98,7 +96,7 @@ def _lora_shrink_kernel(input_ptr, lora_ptr, out_ptr, M, N, K,
 @torch.inference_mode()
 def _lora_shrink(
     inputs: torch.Tensor,  #  shape [num_tokens, hidden_size]
-    lora_a_weights: List[
+    lora_a_weights: list[
         torch.Tensor],  # shape [num_loras, lora_rank, hidden_size]
     output_tensor: torch.Tensor,  # shape [num_slices, num_tokens, lora_rank]
     token_lora_mapping: torch.Tensor,  # shape [num_tokens]
@@ -112,7 +110,7 @@ def _lora_shrink(
     """
     Args:
         inputs (torch.Tensor): Input tensor
-        lora_a_weights (List[torch.Tensor]): LoRA weights
+        lora_a_weights (list[torch.Tensor]): LoRA weights
         output_tensor (torch.Tensor): output tensor
         token_lora_mapping (torch.Tensor): A tensor mapping each input token
             to the lora-id related to that token. A value of -1 indicates that
@@ -219,7 +217,7 @@ def _lora_shrink(
 
 def _lora_shrink_fake(
     inputs: torch.Tensor,
-    lora_a_weights: List[torch.Tensor],
+    lora_a_weights: list[torch.Tensor],
     output_tensor: torch.Tensor,
     token_lora_mapping: torch.Tensor,
     token_indices_sorted_by_lora_ids: torch.Tensor,
diff --git a/vllm/lora/ops/triton_ops/utils.py b/vllm/lora/ops/triton_ops/utils.py
index f779bbccd..6225635c2 100644
--- a/vllm/lora/ops/triton_ops/utils.py
+++ b/vllm/lora/ops/triton_ops/utils.py
@@ -1,14 +1,12 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Dict, List, Tuple
-
 import torch
 
-_LORA_A_PTR_DICT: Dict[Tuple[int, ...], Tuple[torch.tensor, ...]] = {}
-_LORA_B_PTR_DICT: Dict[Tuple[int, ...], Tuple[torch.tensor, ...]] = {}
+_LORA_A_PTR_DICT: dict[tuple[int, ...], tuple[torch.tensor, ...]] = {}
+_LORA_B_PTR_DICT: dict[tuple[int, ...], tuple[torch.tensor, ...]] = {}
 
 
-def _get_lora_a_ptr(lora_a_weights: List[torch.Tensor], device: torch.device):
+def _get_lora_a_ptr(lora_a_weights: list[torch.Tensor], device: torch.device):
     """
     `_LORA_A_PTR_DICT` collects the required information during `profile_run`, 
     After this, it remains constant and subsequent usage is through LUT.
@@ -53,7 +51,7 @@ def _get_lora_a_ptr(lora_a_weights: List[torch.Tensor], device: torch.device):
     return _LORA_A_PTR_DICT.get(key)
 
 
-def _get_lora_b_ptr(lora_weights: List[torch.Tensor], offset_start: int,
+def _get_lora_b_ptr(lora_weights: list[torch.Tensor], offset_start: int,
                     device: torch.device):
     """ 
      `_LORA_B_PTR_DICT` collects the required information during `profile_run`, 
diff --git a/vllm/lora/peft_helper.py b/vllm/lora/peft_helper.py
index f6944368b..d5de63f5b 100644
--- a/vllm/lora/peft_helper.py
+++ b/vllm/lora/peft_helper.py
@@ -6,7 +6,7 @@ import json
 import math
 import os
 from dataclasses import MISSING, dataclass, field, fields
-from typing import List, Literal, Optional, Union
+from typing import Literal, Optional, Union
 
 from vllm.config import LoRAConfig
 from vllm.logger import init_logger
@@ -40,7 +40,7 @@ class PEFTHelper:
     vllm_max_position_embeddings: Optional[int] = field(default=False)
     vllm_long_context_scaling_factor: Optional[float] = field(default=None)
 
-    def _validate_features(self) -> List[str]:
+    def _validate_features(self) -> list[str]:
         """
         Check if there are any unsupported LoRA features.
         """
diff --git a/vllm/lora/punica_wrapper/punica_base.py b/vllm/lora/punica_wrapper/punica_base.py
index 78866c518..e03f73290 100644
--- a/vllm/lora/punica_wrapper/punica_base.py
+++ b/vllm/lora/punica_wrapper/punica_base.py
@@ -7,7 +7,7 @@ https://arxiv.org/abs/2310.18547
 """
 
 from abc import ABC, abstractmethod
-from typing import TYPE_CHECKING, List, Optional, Tuple, Union
+from typing import TYPE_CHECKING, Optional, Union
 
 import torch
 
@@ -28,7 +28,7 @@ class PunicaWrapperABC(ABC):
     def update_metadata(
         self,
         mapping: "LoRAMapping",
-        lora_index_to_id: List[Optional[int]],
+        lora_index_to_id: list[Optional[int]],
         max_loras: int,
         vocab_size: int,
         extra_vocab_size: int,
@@ -43,9 +43,9 @@ class PunicaWrapperABC(ABC):
     @abstractmethod
     def add_shrink(
         self,
-        y: Union[Tuple[torch.Tensor, ...], torch.Tensor],
+        y: Union[tuple[torch.Tensor, ...], torch.Tensor],
         x: torch.Tensor,
-        lora_a_stacked: Tuple[torch.Tensor, ...],
+        lora_a_stacked: tuple[torch.Tensor, ...],
         scale: float,
         **kwargs,
     ) -> Optional[torch.Tensor]:
@@ -59,10 +59,10 @@ class PunicaWrapperABC(ABC):
     def add_expand(
         self,
         y: torch.Tensor,
-        x: Union[Tuple[torch.Tensor, ...], torch.Tensor],
-        lora_b_stacked: Tuple[torch.Tensor, ...],
-        lora_bias_stacked: Optional[Tuple[torch.Tensor, ...]],
-        output_slices: Tuple[int, ...],
+        x: Union[tuple[torch.Tensor, ...], torch.Tensor],
+        lora_b_stacked: tuple[torch.Tensor, ...],
+        lora_bias_stacked: Optional[tuple[torch.Tensor, ...]],
+        output_slices: tuple[int, ...],
         offset_start: int = 0,
         add_inputs=True,
         **kwargs,
@@ -91,13 +91,13 @@ class PunicaWrapperABC(ABC):
     def add_lora_linear(self,
                         y: torch.Tensor,
                         x: torch.Tensor,
-                        lora_a_stacked: Tuple[torch.Tensor, ...],
-                        lora_b_stacked: Tuple[torch.Tensor, ...],
-                        lora_bias_stacked: Optional[Tuple[torch.Tensor, ...]],
+                        lora_a_stacked: tuple[torch.Tensor, ...],
+                        lora_b_stacked: tuple[torch.Tensor, ...],
+                        lora_bias_stacked: Optional[tuple[torch.Tensor, ...]],
                         scale: float,
-                        output_slices: Tuple[int, ...],
+                        output_slices: tuple[int, ...],
                         *,
-                        buffer: Optional[Tuple[torch.Tensor, ...]] = None,
+                        buffer: Optional[tuple[torch.Tensor, ...]] = None,
                         **kwargs) -> Optional[torch.Tensor]:
         """
         Applicable to linear-related lora. 
@@ -150,7 +150,7 @@ class PunicaWrapperBase(PunicaWrapperABC):
         # 5 is the number of indices tensors.
         # base_indices, sampler_indices, sampler_indices_padded,
         # embeddings_indices,long_lora_indices
-        self.indices_len: List[Optional[int]] = [None] * 5
+        self.indices_len: list[Optional[int]] = [None] * 5
         # these attributes are the information required for sgmv kernel
         self._seq_start_locs = torch.empty(max_batches,
                                            dtype=torch.long,
@@ -171,7 +171,7 @@ class PunicaWrapperBase(PunicaWrapperABC):
     def _update_base_metadata(
         self,
         mapping: "LoRAMapping",
-        lora_index_to_id: List[Optional[int]],
+        lora_index_to_id: list[Optional[int]],
         max_loras: int,
         vocab_size: int,
         extra_vocab_size: int,
@@ -228,8 +228,8 @@ class PunicaWrapperBase(PunicaWrapperABC):
         self,
         indices: torch.Tensor,
         output: torch.Tensor,
-        output_slices: Tuple[int, ...],
-        lora_bias_stacked: Tuple[Optional[torch.Tensor], ...],
+        output_slices: tuple[int, ...],
+        lora_bias_stacked: tuple[Optional[torch.Tensor], ...],
     ):
         """Applies bias to output
 
@@ -259,7 +259,7 @@ class PunicaWrapperBase(PunicaWrapperABC):
     @property
     def prefill_metadata(
         self
-    ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, int, int, int]:
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, int, int, int]:
         """
         This property provides a convenient way to access the necessary 
         metadata for prefill-related  kernel computations.
@@ -323,7 +323,7 @@ class PunicaWrapperBase(PunicaWrapperABC):
     def update_metadata(
             self,
             mapping: "LoRAMapping",
-            lora_index_to_id: List[Optional[int]],
+            lora_index_to_id: list[Optional[int]],
             max_loras: int,
             vocab_size: int,
             extra_vocab_size: int,
@@ -341,8 +341,8 @@ class PunicaWrapperBase(PunicaWrapperABC):
             self.is_prefill = False
 
     @abstractmethod
-    def add_shrink(self, y: Union[Tuple[torch.Tensor, ...], torch.Tensor],
-                   x: torch.Tensor, lora_a_stacked: Tuple[torch.Tensor, ...],
+    def add_shrink(self, y: Union[tuple[torch.Tensor, ...], torch.Tensor],
+                   x: torch.Tensor, lora_a_stacked: tuple[torch.Tensor, ...],
                    scale: float, **kwargs) -> Optional[torch.Tensor]:
         """
         Performs GEMM  for multiple slices of lora_a.
@@ -352,9 +352,9 @@ class PunicaWrapperBase(PunicaWrapperABC):
             y[i] += (x @ lora_a_stacked[i]) * scale
         
         Args:
-            y (Union[Tuple[torch.Tensor, ...], torch.Tensor]): Output tensors
+            y (Union[tuple[torch.Tensor, ...], torch.Tensor]): Output tensors
             x (torch.Tensor): Input tensor
-            lora_a_stacked (Tuple[torch.Tensor, ...]): lora_a's weights
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weights
             scale (float): Scaling factor for the operation
 
         """
@@ -364,10 +364,10 @@ class PunicaWrapperBase(PunicaWrapperABC):
     @abstractmethod
     def add_expand(self,
                    y: torch.Tensor,
-                   x: Union[Tuple[torch.Tensor, ...], torch.Tensor],
-                   lora_b_stacked: Tuple[torch.Tensor, ...],
-                   lora_bias_stacked: Optional[Tuple[torch.Tensor, ...]],
-                   output_slices: Tuple[int, ...],
+                   x: Union[tuple[torch.Tensor, ...], torch.Tensor],
+                   lora_b_stacked: tuple[torch.Tensor, ...],
+                   lora_bias_stacked: Optional[tuple[torch.Tensor, ...]],
+                   output_slices: tuple[int, ...],
                    offset_start: int = 0,
                    add_inputs=True,
                    **kwargs) -> Optional[torch.Tensor]:
@@ -384,11 +384,11 @@ class PunicaWrapperBase(PunicaWrapperABC):
             
         Args:
             y (torch.Tensor): Output tensor.
-            x (Union[Tuple[torch.Tensor, ...], torch.Tensor]): Input tensors
-            lora_b_stacked (Tuple[torch.Tensor, ...]): lora_b's weight
-            lora_bias_stacked (Optional[Tuple[torch.Tensor, ...]]): 
+            x (Union[tuple[torch.Tensor, ...], torch.Tensor]): Input tensors
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight
+            lora_bias_stacked (Optional[tuple[torch.Tensor, ...]]): 
                 bias's weight
-            output_slices (Tuple[int, ...]): Every slice's size
+            output_slices (tuple[int, ...]): Every slice's size
             offset_start (int): The starting position of y, defaults to 0
             add_inputs (bool):  Defaults to True.
 
@@ -422,13 +422,13 @@ class PunicaWrapperBase(PunicaWrapperABC):
     def add_lora_linear(self,
                         y: torch.Tensor,
                         x: torch.Tensor,
-                        lora_a_stacked: Tuple[torch.Tensor, ...],
-                        lora_b_stacked: Tuple[torch.Tensor, ...],
-                        lora_bias_stacked: Optional[Tuple[torch.Tensor, ...]],
+                        lora_a_stacked: tuple[torch.Tensor, ...],
+                        lora_b_stacked: tuple[torch.Tensor, ...],
+                        lora_bias_stacked: Optional[tuple[torch.Tensor, ...]],
                         scale: float,
-                        output_slices: Tuple[int, ...],
+                        output_slices: tuple[int, ...],
                         *,
-                        buffer: Optional[Tuple[torch.Tensor, ...]] = None,
+                        buffer: Optional[tuple[torch.Tensor, ...]] = None,
                         **kwargs) -> Optional[torch.Tensor]:
         """
         Applicable to linear-related lora. 
@@ -445,12 +445,12 @@ class PunicaWrapperBase(PunicaWrapperABC):
         Args:
             y (torch.Tensor): Output tensor. Will be changed in-place.
             x (torch.Tensor): Input tensor
-            lora_a_stacked (Tuple[torch.Tensor, ...]): lora_a's weight.
-            lora_b_stacked (Tuple[torch.Tensor, ...]): lora_b's weight.
-            lora_bias_stacked (Optional[Tuple[torch.Tensor, ...]]): lora's bias.
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weight.
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight.
+            lora_bias_stacked (Optional[tuple[torch.Tensor, ...]]): lora's bias.
             scale (float): Scaling factor.
-            output_slices (Tuple[int, ...]): Every slice's size.
-            buffer (Optional[Tuple[torch.Tensor, ...]]): Defaults to None.
+            output_slices (tuple[int, ...]): Every slice's size.
+            buffer (Optional[tuple[torch.Tensor, ...]]): Defaults to None.
         """
         # TODO: implement it based on torch ops
         raise NotImplementedError
diff --git a/vllm/lora/punica_wrapper/punica_cpu.py b/vllm/lora/punica_wrapper/punica_cpu.py
index 29428f4cf..8118a72d6 100644
--- a/vllm/lora/punica_wrapper/punica_cpu.py
+++ b/vllm/lora/punica_wrapper/punica_cpu.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Callable, Optional, Tuple, Union
+from typing import Callable, Optional, Union
 
 import torch
 
@@ -150,8 +150,8 @@ class PunicaWrapperCPU(PunicaWrapperBase):
         shrink_fun(y, x, w_t_all, scale)
         y = y.view_as(y_org)
 
-    def add_shrink(self, y: Union[Tuple[torch.Tensor, ...], torch.Tensor],
-                   x: torch.Tensor, lora_a_stacked: Tuple[torch.Tensor, ...],
+    def add_shrink(self, y: Union[tuple[torch.Tensor, ...], torch.Tensor],
+                   x: torch.Tensor, lora_a_stacked: tuple[torch.Tensor, ...],
                    scale: float, **kwargs):
         """
         Performs GEMM  for multiple slices of lora_a.
@@ -165,9 +165,9 @@ class PunicaWrapperCPU(PunicaWrapperBase):
             y[i] += (x @ lora_a_stacked[i]) * scale
         
         Args:
-            y (Union[Tuple[torch.Tensor, ...], torch.Tensor]): Output tensors
+            y (Union[tuple[torch.Tensor, ...], torch.Tensor]): Output tensors
             x (torch.Tensor): Input tensor
-            lora_a_stacked (Tuple[torch.Tensor, ...]): lora_a's weights
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weights
             scale (float): Scaling factor for the operation
         """
 
@@ -179,10 +179,10 @@ class PunicaWrapperCPU(PunicaWrapperBase):
 
     def add_expand(self,
                    y: torch.Tensor,
-                   x: Union[Tuple[torch.Tensor, ...], torch.Tensor],
-                   lora_b_stacked: Tuple[torch.Tensor, ...],
-                   lora_bias_stacked: Optional[Tuple[torch.Tensor, ...]],
-                   output_slices: Tuple[int, ...],
+                   x: Union[tuple[torch.Tensor, ...], torch.Tensor],
+                   lora_b_stacked: tuple[torch.Tensor, ...],
+                   lora_bias_stacked: Optional[tuple[torch.Tensor, ...]],
+                   output_slices: tuple[int, ...],
                    offset_start: int = 0,
                    add_inputs=True,
                    **kwargs) -> None:
@@ -198,11 +198,11 @@ class PunicaWrapperCPU(PunicaWrapperBase):
             
         Args:
             y (torch.Tensor): Output tensor.
-            x (Union[Tuple[torch.Tensor, ...], torch.Tensor]): Input tensors
-            lora_b_stacked (Tuple[torch.Tensor, ...]): lora_b's weight
-            lora_bias_stacked (Optional[Tuple[torch.Tensor, ...]]): 
+            x (Union[tuple[torch.Tensor, ...], torch.Tensor]): Input tensors
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight
+            lora_bias_stacked (Optional[tuple[torch.Tensor, ...]]): 
                 bias's weight
-            output_slices (Tuple[int, ...]): Every slice's size
+            output_slices (tuple[int, ...]): Every slice's size
             add_inputs (bool):  Defaults to True.
         """
         y_org = y
@@ -250,13 +250,13 @@ class PunicaWrapperCPU(PunicaWrapperBase):
     def add_lora_linear(self,
                         y: torch.Tensor,
                         x: torch.Tensor,
-                        lora_a_stacked: Tuple[torch.Tensor, ...],
-                        lora_b_stacked: Tuple[torch.Tensor, ...],
-                        lora_bias_stacked: Optional[Tuple[torch.Tensor, ...]],
+                        lora_a_stacked: tuple[torch.Tensor, ...],
+                        lora_b_stacked: tuple[torch.Tensor, ...],
+                        lora_bias_stacked: Optional[tuple[torch.Tensor, ...]],
                         scale: float,
-                        output_slices: Tuple[int, ...],
+                        output_slices: tuple[int, ...],
                         *,
-                        buffer: Optional[Tuple[torch.Tensor, ...]] = None,
+                        buffer: Optional[tuple[torch.Tensor, ...]] = None,
                         **kwargs) -> None:
         """
         Applicable to linear-related lora. 
@@ -273,12 +273,12 @@ class PunicaWrapperCPU(PunicaWrapperBase):
         Args:
             y (torch.Tensor): Output tensor. Will be changed in-place.
             x (torch.Tensor): Input tensor
-            lora_a_stacked (Tuple[torch.Tensor, ...]): lora_a's weight.
-            lora_b_stacked (Tuple[torch.Tensor, ...]): lora_b's weight.
-            lora_bias_stacked (Optional[Tuple[torch.Tensor, ...]]): lora's bias.
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weight.
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight.
+            lora_bias_stacked (Optional[tuple[torch.Tensor, ...]]): lora's bias.
             scale (float): Scaling factor.
-            output_slices (Tuple[int, ...]): Every slice's size.
-            buffer (Optional[Tuple[torch.Tensor, ...]]): Defaults to None.
+            output_slices (tuple[int, ...]): Every slice's size.
+            buffer (Optional[tuple[torch.Tensor, ...]]): Defaults to None.
         """
 
         assert len(lora_a_stacked) == len(lora_b_stacked) == len(output_slices)
diff --git a/vllm/lora/punica_wrapper/punica_gpu.py b/vllm/lora/punica_wrapper/punica_gpu.py
index bb6d2808e..224640ec7 100644
--- a/vllm/lora/punica_wrapper/punica_gpu.py
+++ b/vllm/lora/punica_wrapper/punica_gpu.py
@@ -6,7 +6,7 @@ Punica: Multi-Tenant LoRA Serving.
 https://arxiv.org/abs/2310.18547
 """
 
-from typing import TYPE_CHECKING, List, Optional, Tuple, Union, final
+from typing import TYPE_CHECKING, Optional, Union, final
 
 import torch
 
@@ -57,7 +57,7 @@ class PunicaWrapperGPU(PunicaWrapperBase):
     def update_metadata(
             self,
             mapping: LoRAMapping,
-            lora_index_to_id: List[Optional[int]],
+            lora_index_to_id: list[Optional[int]],
             max_loras: int,
             vocab_size: int,
             extra_vocab_size: int,
@@ -74,7 +74,7 @@ class PunicaWrapperGPU(PunicaWrapperBase):
         self.prompt_mapping_meta.prepare_tensors(self.sampler_indices)
 
     def add_shrink(self, y: torch.Tensor, x: torch.Tensor,
-                   lora_a_stacked: Tuple[torch.Tensor,
+                   lora_a_stacked: tuple[torch.Tensor,
                                          ...], scale: float, **kwargs):
         """
         Performs GEMM  for multiple slices of lora_a.
@@ -86,7 +86,7 @@ class PunicaWrapperGPU(PunicaWrapperBase):
         Args:
             y (torch.Tensor): Output tensors
             x (torch.Tensor): Input tensor
-            lora_a_stacked (Tuple[torch.Tensor, ...]): lora_a's weights
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weights
             scale (float): Scaling factor for the operation
         """
 
@@ -102,9 +102,9 @@ class PunicaWrapperGPU(PunicaWrapperBase):
     def add_expand(self,
                    y: torch.Tensor,
                    x: torch.Tensor,
-                   lora_b_stacked: Tuple[torch.Tensor, ...],
-                   lora_bias_stacked: Optional[Tuple[torch.Tensor, ...]],
-                   output_slices: Tuple[int, ...],
+                   lora_b_stacked: tuple[torch.Tensor, ...],
+                   lora_bias_stacked: Optional[tuple[torch.Tensor, ...]],
+                   output_slices: tuple[int, ...],
                    offset_start: int = 0,
                    add_inputs=True,
                    **kwargs) -> None:
@@ -121,10 +121,10 @@ class PunicaWrapperGPU(PunicaWrapperBase):
         Args:
             y (torch.Tensor): Output tensor.
             x (torch.Tensor): Input tensors
-            lora_b_stacked (Tuple[torch.Tensor, ...]): lora_b's weight
-            lora_bias_stacked (Optional[Tuple[torch.Tensor, ...]]): 
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight
+            lora_bias_stacked (Optional[tuple[torch.Tensor, ...]]): 
                 bias's weight
-            output_slices (Tuple[int, ...]): Every slice's size
+            output_slices (tuple[int, ...]): Every slice's size
             add_inputs (bool): Defaults to True.
         """
         y_org = y
@@ -181,11 +181,11 @@ class PunicaWrapperGPU(PunicaWrapperBase):
     def add_lora_linear(self,
                         y: torch.Tensor,
                         x: torch.Tensor,
-                        lora_a_stacked: Tuple[torch.Tensor, ...],
-                        lora_b_stacked: Tuple[torch.Tensor, ...],
-                        lora_bias_stacked: Optional[Tuple[torch.Tensor, ...]],
+                        lora_a_stacked: tuple[torch.Tensor, ...],
+                        lora_b_stacked: tuple[torch.Tensor, ...],
+                        lora_bias_stacked: Optional[tuple[torch.Tensor, ...]],
                         scale: float,
-                        output_slices: Tuple[int, ...],
+                        output_slices: tuple[int, ...],
                         *,
                         buffer: Optional[torch.Tensor] = None,
                         **kwargs) -> None:
@@ -204,11 +204,11 @@ class PunicaWrapperGPU(PunicaWrapperBase):
         Args:
             y (torch.Tensor): Output tensor. Will be changed in-place.
             x (torch.Tensor): Input tensor
-            lora_a_stacked (Tuple[torch.Tensor, ...]): lora_a's weight.
-            lora_b_stacked (Tuple[torch.Tensor, ...]): lora_b's weight.
-            lora_bias_stacked (Optional[Tuple[torch.Tensor, ...]]): lora's bias.
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weight.
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight.
+            lora_bias_stacked (Optional[tuple[torch.Tensor, ...]]): lora's bias.
             scale (float): Scaling factor.
-            output_slices (Tuple[int, ...]): Every slice's size.
+            output_slices (tuple[int, ...]): Every slice's size.
             buffer (Optional[torch.Tensor]): Defaults to None.
         """
 
diff --git a/vllm/lora/punica_wrapper/punica_hpu.py b/vllm/lora/punica_wrapper/punica_hpu.py
index 3661a7214..416c23e73 100644
--- a/vllm/lora/punica_wrapper/punica_hpu.py
+++ b/vllm/lora/punica_wrapper/punica_hpu.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import TYPE_CHECKING, List, Optional, Tuple, Union, final
+from typing import TYPE_CHECKING, Optional, Union, final
 
 import torch
 from vllm_hpu_extension.ops import (dispatch_bgmv_embedding,
@@ -28,7 +28,7 @@ class PunicaWrapperHPU(PunicaWrapperBase):
     def _update_base_metadata(
         self,
         mapping: "LoRAMapping",
-        lora_index_to_id: List[Optional[int]],
+        lora_index_to_id: list[Optional[int]],
         max_loras: int,
         vocab_size: int,
         extra_vocab_size: int,
@@ -48,9 +48,9 @@ class PunicaWrapperHPU(PunicaWrapperBase):
         # graph accumulation. Hence HPU appends `lora_offset` to a list and
         # converts it to a tensor only after it is ready.
         if long_lora_context:
-            index_mapping_indices: List[int] = list(
+            index_mapping_indices: list[int] = list(
                 mapping.index_mapping).copy()
-            long_lora_offsets: List[int] = []
+            long_lora_offsets: list[int] = []
             for i in range(len(index_mapping_indices)):
                 lora_offset: int = long_lora_context.offsets_by_lora_id.get(
                     index_mapping_indices[i], 0)
@@ -85,13 +85,13 @@ class PunicaWrapperHPU(PunicaWrapperBase):
     def add_lora_linear(self,
                         y: torch.Tensor,
                         x: torch.Tensor,
-                        lora_a_stacked: Tuple[torch.Tensor, ...],
-                        lora_b_stacked: Tuple[torch.Tensor, ...],
-                        lora_bias_stacked: Optional[Tuple[torch.Tensor, ...]],
+                        lora_a_stacked: tuple[torch.Tensor, ...],
+                        lora_b_stacked: tuple[torch.Tensor, ...],
+                        lora_bias_stacked: Optional[tuple[torch.Tensor, ...]],
                         scale: float,
-                        output_slices: Tuple[int, ...],
+                        output_slices: tuple[int, ...],
                         *,
-                        buffer: Optional[Tuple[torch.Tensor, ...]] = None,
+                        buffer: Optional[tuple[torch.Tensor, ...]] = None,
                         **kwargs) -> None:
         y_org = y
         x = x.view(-1, x.shape[-1])
@@ -122,9 +122,9 @@ class PunicaWrapperHPU(PunicaWrapperBase):
 
     def add_shrink(
         self,
-        y: Union[Tuple[torch.Tensor, ...], torch.Tensor],
+        y: Union[tuple[torch.Tensor, ...], torch.Tensor],
         x: torch.Tensor,
-        lora_a_stacked: Tuple[torch.Tensor, ...],
+        lora_a_stacked: tuple[torch.Tensor, ...],
         scale: float,
         **kwargs,
     ) -> None:
@@ -133,10 +133,10 @@ class PunicaWrapperHPU(PunicaWrapperBase):
     def add_expand(
         self,
         y: torch.Tensor,
-        x: Union[Tuple[torch.Tensor, ...], torch.Tensor],
-        lora_b_stacked: Tuple[torch.Tensor, ...],
-        lora_bias_stacked: Optional[Tuple[torch.Tensor, ...]],
-        output_slices: Tuple[int, ...],
+        x: Union[tuple[torch.Tensor, ...], torch.Tensor],
+        lora_b_stacked: tuple[torch.Tensor, ...],
+        lora_bias_stacked: Optional[tuple[torch.Tensor, ...]],
+        output_slices: tuple[int, ...],
         offset_start: int = 0,
         add_inputs=True,
         **kwargs,
diff --git a/vllm/lora/punica_wrapper/punica_tpu.py b/vllm/lora/punica_wrapper/punica_tpu.py
index 37544c755..f3153c6da 100644
--- a/vllm/lora/punica_wrapper/punica_tpu.py
+++ b/vllm/lora/punica_wrapper/punica_tpu.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Optional, Tuple, Union
+from typing import Optional, Union
 
 import torch
 import torch.nn.functional as F
@@ -77,8 +77,8 @@ class PunicaWrapperTPU(PunicaWrapperBase):
                                  self._get_token_lora_indices(x), y_offset,
                                  y_slice_size, add_inputs)
 
-    def add_shrink(self, y: Union[Tuple[torch.Tensor, ...], torch.Tensor],
-                   x: torch.Tensor, lora_a_stacked: Tuple[torch.Tensor, ...],
+    def add_shrink(self, y: Union[tuple[torch.Tensor, ...], torch.Tensor],
+                   x: torch.Tensor, lora_a_stacked: tuple[torch.Tensor, ...],
                    scale: float, **kwargs) -> Optional[torch.Tensor]:
         """
         Performs GEMM for multiple slices of lora_a.
@@ -88,9 +88,9 @@ class PunicaWrapperTPU(PunicaWrapperBase):
             y[i] += (x @ lora_a_stacked[i]) * scale
 
         Args:
-            y (Union[Tuple[torch.Tensor, ...], torch.Tensor]): Output tensors
+            y (Union[tuple[torch.Tensor, ...], torch.Tensor]): Output tensors
             x (torch.Tensor): Input tensor
-            lora_a_stacked (Tuple[torch.Tensor, ...]): lora_a's weights
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weights
             scale (float): Scaling factor for the operation
         """
 
@@ -106,10 +106,10 @@ class PunicaWrapperTPU(PunicaWrapperBase):
 
     def add_expand(self,
                    y: torch.Tensor,
-                   x: Union[Tuple[torch.Tensor, ...], torch.Tensor],
-                   lora_b_stacked: Tuple[torch.Tensor, ...],
-                   lora_bias_stacked: Optional[Tuple[torch.Tensor, ...]],
-                   output_slices: Tuple[int, ...],
+                   x: Union[tuple[torch.Tensor, ...], torch.Tensor],
+                   lora_b_stacked: tuple[torch.Tensor, ...],
+                   lora_bias_stacked: Optional[tuple[torch.Tensor, ...]],
+                   output_slices: tuple[int, ...],
                    offset_start: int = 0,
                    add_inputs=True,
                    **kwargs) -> torch.Tensor:
@@ -125,11 +125,11 @@ class PunicaWrapperTPU(PunicaWrapperBase):
 
         Args:
             y (torch.Tensor): Output tensor.
-            x (Union[Tuple[torch.Tensor, ...], torch.Tensor]): Input tensors
-            lora_b_stacked (Tuple[torch.Tensor, ...]): lora_b's weight
-            lora_bias_stacked (Optional[Tuple[torch.Tensor, ...]]):
+            x (Union[tuple[torch.Tensor, ...], torch.Tensor]): Input tensors
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight
+            lora_bias_stacked (Optional[tuple[torch.Tensor, ...]]):
                 bias's weight
-            output_slices (Tuple[int, ...]): Every slice's size
+            output_slices (tuple[int, ...]): Every slice's size
             add_inputs (bool):  Defaults to True.
         """
         y_org = y
@@ -177,13 +177,13 @@ class PunicaWrapperTPU(PunicaWrapperBase):
     def add_lora_linear(self,
                         y: torch.Tensor,
                         x: torch.Tensor,
-                        lora_a_stacked: Tuple[torch.Tensor, ...],
-                        lora_b_stacked: Tuple[torch.Tensor, ...],
-                        lora_bias_stacked: Optional[Tuple[torch.Tensor, ...]],
+                        lora_a_stacked: tuple[torch.Tensor, ...],
+                        lora_b_stacked: tuple[torch.Tensor, ...],
+                        lora_bias_stacked: Optional[tuple[torch.Tensor, ...]],
                         scale: float,
-                        output_slices: Tuple[int, ...],
+                        output_slices: tuple[int, ...],
                         *,
-                        buffer: Optional[Tuple[torch.Tensor, ...]] = None,
+                        buffer: Optional[tuple[torch.Tensor, ...]] = None,
                         **kwargs) -> torch.Tensor:
         """
         Applicable to linear-related lora.
@@ -200,12 +200,12 @@ class PunicaWrapperTPU(PunicaWrapperBase):
         Args:
             y (torch.Tensor): Output tensor. Will not be changed in-place.
             x (torch.Tensor): Input tensor (T, E)
-            lora_a_stacked (Tuple[torch.Tensor, ...]): lora_a's weight.
-            lora_b_stacked (Tuple[torch.Tensor, ...]): lora_b's weight.
-            lora_bias_stacked (Optional[Tuple[torch.Tensor, ...]]): lora's bias.
+            lora_a_stacked (tuple[torch.Tensor, ...]): lora_a's weight.
+            lora_b_stacked (tuple[torch.Tensor, ...]): lora_b's weight.
+            lora_bias_stacked (Optional[tuple[torch.Tensor, ...]]): lora's bias.
             scale (float): Scaling factor.
-            output_slices (Tuple[int, ...]): Every slice's size.
-            buffer (Optional[Tuple[torch.Tensor, ...]]): Defaults to None.
+            output_slices (tuple[int, ...]): Every slice's size.
+            buffer (Optional[tuple[torch.Tensor, ...]]): Defaults to None.
         """
 
         assert len(lora_a_stacked) == len(lora_b_stacked) == len(output_slices)
@@ -284,8 +284,8 @@ class PunicaWrapperTPU(PunicaWrapperBase):
         self,
         indices: torch.Tensor,
         output: torch.Tensor,
-        output_slices: Tuple[int, ...],
-        lora_bias_stacked: Tuple[Optional[torch.Tensor], ...],
+        output_slices: tuple[int, ...],
+        lora_bias_stacked: tuple[Optional[torch.Tensor], ...],
     ):
         """Applies bias to output
 
diff --git a/vllm/lora/punica_wrapper/utils.py b/vllm/lora/punica_wrapper/utils.py
index f4e5542b1..1adb40b4c 100644
--- a/vllm/lora/punica_wrapper/utils.py
+++ b/vllm/lora/punica_wrapper/utils.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import TYPE_CHECKING, List, Optional, Tuple, Union
+from typing import TYPE_CHECKING, Optional, Union
 
 import torch
 
@@ -12,7 +12,7 @@ if TYPE_CHECKING:
 
 def compute_meta(
     token_lora_tensor: torch.Tensor
-) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, int, int, int, bool]:
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, int, int, int, bool]:
     """
     Get the information required for the sgmv kernel. With the  features:
     1. If consecutive requests in the batch use the same LoRA, this function
@@ -43,14 +43,14 @@ def compute_meta(
 # TODO see if this can be vectorized
 def convert_mapping(
     mapping: "LoRAMapping",
-    lora_index_to_id: List[Optional[int]],
+    lora_index_to_id: list[Optional[int]],
     max_loras: int,
     vocab_size: int,
     extra_vocab_size: int,
     device: torch.device,
     long_lora_context: Optional["LongContextLoRAContext"] = None,
-) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor,
-           Optional[torch.Tensor], List[int]]:
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor,
+           Optional[torch.Tensor], list[int]]:
     """Converts LoRAMapping to index tensors.
 
     Args:
@@ -84,7 +84,7 @@ def convert_mapping(
                 (base_indices, sampler_indices, sampler_indices_padded,
                 embeddings_indices, long_lora_indices).
     """
-    index_mapping_indices: List[int] = list(mapping.index_mapping).copy()
+    index_mapping_indices: list[int] = list(mapping.index_mapping).copy()
     embedding_indices = index_mapping_indices.copy()
     lora_indices = index_mapping_indices.copy()
     long_lora_offsets: Optional[torch.Tensor] = None
@@ -92,7 +92,7 @@ def convert_mapping(
         long_lora_offsets = torch.zeros(len(index_mapping_indices),
                                         device=device,
                                         dtype=torch.long)
-    prompt_mapping: List[int] = [
+    prompt_mapping: list[int] = [
         lora_index_to_id.index(x) if x > 0 else -1
         for x in mapping.prompt_mapping
     ]
@@ -109,7 +109,7 @@ def convert_mapping(
                 index_mapping_indices[i], 0)
             long_lora_offsets[i] = lora_offset
 
-    indices_list: List[Union[List[int], torch.Tensor]] = [
+    indices_list: list[Union[list[int], torch.Tensor]] = [
         index_mapping_indices,
         lora_indices,
         embedding_indices,
diff --git a/vllm/lora/resolver.py b/vllm/lora/resolver.py
index 6726ca9a9..33f35322f 100644
--- a/vllm/lora/resolver.py
+++ b/vllm/lora/resolver.py
@@ -1,8 +1,9 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from abc import ABC, abstractmethod
+from collections.abc import Set
 from dataclasses import dataclass, field
-from typing import AbstractSet, Dict, Optional
+from typing import Optional
 
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
@@ -40,9 +41,9 @@ class LoRAResolver(ABC):
 
 @dataclass
 class _LoRAResolverRegistry:
-    resolvers: Dict[str, LoRAResolver] = field(default_factory=dict)
+    resolvers: dict[str, LoRAResolver] = field(default_factory=dict)
 
-    def get_supported_resolvers(self) -> AbstractSet[str]:
+    def get_supported_resolvers(self) -> Set[str]:
         """Get all registered resolver names."""
         return self.resolvers.keys()
 
diff --git a/vllm/lora/utils.py b/vllm/lora/utils.py
index 01064e5d0..b66850d43 100644
--- a/vllm/lora/utils.py
+++ b/vllm/lora/utils.py
@@ -2,7 +2,7 @@
 
 import os
 import re
-from typing import List, Optional, Set, Tuple, Type, Union
+from typing import Optional, Union
 
 import huggingface_hub
 from huggingface_hub.utils import (EntryNotFoundError, HfHubHTTPError,
@@ -37,7 +37,7 @@ from vllm.model_executor.models.utils import WeightsMapper
 
 logger = init_logger(__name__)
 
-_all_lora_classes: Set[Type[BaseLayerWithLoRA]] = {
+_all_lora_classes: set[type[BaseLayerWithLoRA]] = {
     VocabParallelEmbeddingWithLoRA,
     ColumnParallelLinearWithLoRA,
     MergedColumnParallelLinearWithLoRA,
@@ -58,7 +58,7 @@ _all_lora_classes: Set[Type[BaseLayerWithLoRA]] = {
 def from_layer(layer: nn.Module,
                max_loras: int,
                lora_config: LoRAConfig,
-               packed_modules_list: List,
+               packed_modules_list: list,
                model_config: Optional[PretrainedConfig] = None) -> nn.Module:
     for lora_cls in _all_lora_classes:
         # specifying kwargs so they can be easily accessed in decorator
@@ -99,7 +99,7 @@ def replace_submodule(model: nn.Module, module_name: str,
 def parse_fine_tuned_lora_name(
         name: str,
         weights_mapper: Optional[WeightsMapper] = None
-) -> Tuple[str, bool, bool]:
+) -> tuple[str, bool, bool]:
     """Parse the name of lora weights.
 
     args:
@@ -108,7 +108,7 @@ def parse_fine_tuned_lora_name(
         weights_mapper: maps the name of weight, e.g.
             `model.` -> `language_model.model.`,
     return:
-        Tuple(module_name, is_lora_a):
+        tuple(module_name, is_lora_a):
             module_name: the name of the module, e.g. model.dense1,
             is_lora_a whether the tensor is lora_a or lora_b.
             is_bias whether the tensor is lora bias.
@@ -147,8 +147,8 @@ def parse_fine_tuned_lora_name(
     raise ValueError(f"{name} is unsupported LoRA weight")
 
 
-def is_regex_target_modules(load_modules: Union[str, List[str]],
-                            expected_lora_modules: List[str]) -> bool:
+def is_regex_target_modules(load_modules: Union[str, list[str]],
+                            expected_lora_modules: list[str]) -> bool:
     """
     PEFT supports passing `target_modules` in the form of regular expressions, 
     such as `model.*(q_proj|k_proj|v_proj)$`. This function is mainly used to 
@@ -179,11 +179,11 @@ def is_regex_target_modules(load_modules: Union[str, List[str]],
     return False
 
 
-def get_supported_lora_modules(model: nn.Module) -> List[str]:
+def get_supported_lora_modules(model: nn.Module) -> list[str]:
     """
     In vLLM, all linear layers support LoRA.
     """
-    supported_lora_modules: Set[str] = set()
+    supported_lora_modules: set[str] = set()
     # step1: traverse the model to get all the linear subfixes.
     for name, module in model.named_modules():
         if isinstance(module, (LinearBase, )):
diff --git a/vllm/lora/worker_manager.py b/vllm/lora/worker_manager.py
index 108beb34b..8e5bc6106 100644
--- a/vllm/lora/worker_manager.py
+++ b/vllm/lora/worker_manager.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from contextlib import contextmanager
-from typing import Any, Dict, List, Literal, Optional, Set, Type, Union
+from typing import Any, Literal, Optional, Union
 
 import torch
 
@@ -27,7 +27,7 @@ class WorkerLoRAManager(AbstractWorkerManager):
     Every request, the requested LoRAs will be loaded (unless they are already
     loaded), and every other LoRA will be unloaded."""
 
-    _manager_cls: Type[LoRAModelManager] = LoRAModelManager
+    _manager_cls: type[LoRAModelManager] = LoRAModelManager
 
     def __init__(
         self,
@@ -36,9 +36,9 @@ class WorkerLoRAManager(AbstractWorkerManager):
         vocab_size: int,
         lora_config: LoRAConfig,
         device: torch.device,
-        embedding_modules: Dict[str, str],
-        embedding_padding_modules: List[str],
-        lora_model_cls: Type[LoRAModel] = LoRAModel,
+        embedding_modules: dict[str, str],
+        embedding_padding_modules: list[str],
+        lora_model_cls: type[LoRAModel] = LoRAModel,
         max_position_embeddings: Optional[int] = None,
     ):
         self._lora_model_cls = lora_model_cls
@@ -88,7 +88,7 @@ class WorkerLoRAManager(AbstractWorkerManager):
                 self._adapter_manager.supported_lora_modules)
             packed_modules_mapping = (
                 self._adapter_manager.packed_modules_mapping)
-            expected_lora_modules: List[str] = []
+            expected_lora_modules: list[str] = []
             for module in supported_lora_modules:
                 if module in packed_modules_mapping:
                     expected_lora_modules.extend(
@@ -162,12 +162,12 @@ class WorkerLoRAManager(AbstractWorkerManager):
     def pin_adapter(self, adapter_id: int) -> bool:
         return self._adapter_manager.pin_adapter(adapter_id)
 
-    def set_active_adapters(self, requests: Set[Any],
+    def set_active_adapters(self, requests: set[Any],
                             mapping: Optional[Any]) -> None:
         set_active_adapters_worker(requests, mapping, self._apply_adapters,
                                    self._adapter_manager.set_adapter_mapping)
 
-    def _apply_adapters(self, adapter_requests: Set[Any]) -> None:
+    def _apply_adapters(self, adapter_requests: set[Any]) -> None:
         apply_adapters_worker(adapter_requests, self.list_adapters,
                               self._adapter_manager.adapter_slots,
                               self.remove_adapter, self.add_adapter)
@@ -184,7 +184,7 @@ class WorkerLoRAManager(AbstractWorkerManager):
     def remove_all_adapters(self):
         self._adapter_manager.remove_all_adapters()
 
-    def list_adapters(self) -> Set[int]:
+    def list_adapters(self) -> set[int]:
         return list_adapters_worker(self._adapter_manager.list_adapters)
 
 
@@ -195,7 +195,7 @@ class LRUCacheWorkerLoRAManager(WorkerLoRAManager):
     (unless they are already loaded) and least recently used LoRAs will
     be unloaded if the cache is above capacity."""
 
-    _manager_cls: Type[LRUCacheLoRAModelManager] = LRUCacheLoRAModelManager
+    _manager_cls: type[LRUCacheLoRAModelManager] = LRUCacheLoRAModelManager
 
     def create_lora_manager(
         self,
@@ -213,7 +213,7 @@ class LRUCacheWorkerLoRAManager(WorkerLoRAManager):
         self._adapter_manager = lora_manager
         return lora_manager.model
 
-    def _apply_adapters(self, lora_requests: Set[LoRARequest]) -> None:
+    def _apply_adapters(self, lora_requests: set[LoRARequest]) -> None:
         loras_map = {
             lora_request.lora_int_id: lora_request
             for lora_request in lora_requests if lora_request
-- 
GitLab


From dc372b9c8aa97b5da5d4049cdccdaccef950d499 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Wed, 14 May 2025 12:07:57 +0100
Subject: [PATCH 368/461] Update deprecated type hinting in
 `vllm/device_allocator` and `vllm/distributed` (#18126)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 pyproject.toml                                |  2 -
 vllm/device_allocator/cumem.py                | 10 ++---
 vllm/distributed/communication_op.py          |  4 +-
 .../base_device_communicator.py               |  4 +-
 .../device_communicators/cpu_communicator.py  |  4 +-
 .../device_communicators/cuda_communicator.py |  4 +-
 .../device_communicators/cuda_wrapper.py      |  8 ++--
 .../device_communicators/custom_all_reduce.py |  8 ++--
 .../custom_all_reduce_utils.py                |  9 ++--
 .../device_communicators/pynccl_wrapper.py    | 10 ++---
 .../device_communicators/shm_broadcast.py     |  8 ++--
 .../kv_transfer/kv_connector/base.py          | 12 ++---
 .../kv_transfer/kv_connector/factory.py       |  6 +--
 .../kv_connector/lmcache_connector.py         |  8 ++--
 .../kv_connector/mooncake_store_connector.py  |  8 ++--
 .../kv_connector/simple_connector.py          | 10 ++---
 .../kv_connector/v1/nixl_connector.py         |  4 +-
 .../kv_transfer/kv_connector_agent.py         |  8 ++--
 .../kv_transfer/kv_lookup_buffer/base.py      |  6 +--
 .../kv_lookup_buffer/simple_buffer.py         | 14 +++---
 .../kv_transfer/kv_pipe/pynccl_pipe.py        |  6 +--
 vllm/distributed/parallel_state.py            | 44 +++++++++----------
 vllm/distributed/utils.py                     | 13 +++---
 23 files changed, 105 insertions(+), 105 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index 62196a842..b3ca68f9f 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -74,8 +74,6 @@ exclude = [
 # Python 3.8 typing. TODO: Remove these excludes after v1.0.0
 "vllm/attention/**/*.py" = ["UP006", "UP035"]
 "vllm/core/**/*.py" = ["UP006", "UP035"]
-"vllm/device_allocator/**/*.py" = ["UP006", "UP035"]
-"vllm/distributed/**/*.py" = ["UP006", "UP035"]
 "vllm/engine/**/*.py" = ["UP006", "UP035"]
 "vllm/executor/**/*.py" = ["UP006", "UP035"]
 "vllm/model_executor/model_loader/**/*.py" = ["UP006", "UP035"]
diff --git a/vllm/device_allocator/cumem.py b/vllm/device_allocator/cumem.py
index 9ff77f14a..6fcbca628 100644
--- a/vllm/device_allocator/cumem.py
+++ b/vllm/device_allocator/cumem.py
@@ -11,7 +11,7 @@ import dataclasses
 import gc
 import os
 from contextlib import contextmanager
-from typing import Any, Callable, Dict, Optional, Tuple, Union
+from typing import Any, Callable, Optional, Union
 
 import torch
 
@@ -63,7 +63,7 @@ except ModuleNotFoundError:
     libcudart = None
 
 # py_device, py_alignedSize, py_d_mem, py_p_memHandle
-HandleType = Tuple[int, int, int, int]
+HandleType = tuple[int, int, int, int]
 
 
 @dataclasses.dataclass
@@ -148,9 +148,9 @@ class CuMemAllocator:
             "Please track https://github.com/pytorch/pytorch/issues/147851 "
             "for the latest updates.")
 
-        self.pointer_to_data: Dict[int, AllocationData] = {}
+        self.pointer_to_data: dict[int, AllocationData] = {}
         self.current_tag: str = CuMemAllocator.default_tag
-        self.allocator_and_pools: Dict[str, Any] = {}
+        self.allocator_and_pools: dict[str, Any] = {}
 
     def python_malloc_callback(self, allocation_handle: HandleType) -> None:
         """
@@ -172,7 +172,7 @@ class CuMemAllocator:
 
     def sleep(
             self,
-            offload_tags: Optional[Union[Tuple[str, ...],
+            offload_tags: Optional[Union[tuple[str, ...],
                                          str]] = None) -> None:
         """
         Put the allocator in sleep mode.
diff --git a/vllm/distributed/communication_op.py b/vllm/distributed/communication_op.py
index 894a0fafb..d85a41dda 100644
--- a/vllm/distributed/communication_op.py
+++ b/vllm/distributed/communication_op.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Any, Dict, Optional, Union
+from typing import Any, Optional, Union
 
 import torch
 import torch.distributed
@@ -32,7 +32,7 @@ def tensor_model_parallel_gather(input_: torch.Tensor,
     return get_tp_group().gather(input_, dst, dim)
 
 
-def broadcast_tensor_dict(tensor_dict: Optional[Dict[Any, Union[torch.Tensor,
+def broadcast_tensor_dict(tensor_dict: Optional[dict[Any, Union[torch.Tensor,
                                                                 Any]]] = None,
                           src: int = 0):
     if not torch.distributed.is_initialized():
diff --git a/vllm/distributed/device_communicators/base_device_communicator.py b/vllm/distributed/device_communicators/base_device_communicator.py
index c313b66ed..ead79872b 100644
--- a/vllm/distributed/device_communicators/base_device_communicator.py
+++ b/vllm/distributed/device_communicators/base_device_communicator.py
@@ -1,5 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
-from typing import Optional, Tuple
+from typing import Optional
 
 import torch
 import torch.distributed as dist
@@ -160,7 +160,7 @@ class DeviceCommunicatorBase:
 
     def dispatch(
             self, hidden_states: torch.Tensor,
-            router_logits: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
+            router_logits: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
         """
         Dispatch the hidden states and router logits to the appropriate device.
         This is a no-op in the base class.
diff --git a/vllm/distributed/device_communicators/cpu_communicator.py b/vllm/distributed/device_communicators/cpu_communicator.py
index 296f5f2b4..d4b34900b 100644
--- a/vllm/distributed/device_communicators/cpu_communicator.py
+++ b/vllm/distributed/device_communicators/cpu_communicator.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import os
-from typing import List, Optional
+from typing import Optional
 
 import torch
 from torch.distributed import ProcessGroup
@@ -126,7 +126,7 @@ class _CPUSHMDistributed:
 
     def gather(self,
                input: torch.Tensor,
-               gather_list: Optional[List[torch.Tensor]],
+               gather_list: Optional[list[torch.Tensor]],
                dst: int = -1,
                group: Optional[ProcessGroup] = None) -> None:
         # Note: different from the torch gather, here we use local dst rank.
diff --git a/vllm/distributed/device_communicators/cuda_communicator.py b/vllm/distributed/device_communicators/cuda_communicator.py
index 7a90d6397..13303f94b 100644
--- a/vllm/distributed/device_communicators/cuda_communicator.py
+++ b/vllm/distributed/device_communicators/cuda_communicator.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Optional, Tuple
+from typing import Optional
 
 import torch
 from torch.distributed import ProcessGroup
@@ -154,7 +154,7 @@ class CudaCommunicator(DeviceCommunicatorBase):
 
     def dispatch(
             self, hidden_states: torch.Tensor,
-            router_logits: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
+            router_logits: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
         assert self.all2all_impl is not None
         hidden_states, router_logits = self.all2all_impl.dispatch(
             hidden_states, router_logits)
diff --git a/vllm/distributed/device_communicators/cuda_wrapper.py b/vllm/distributed/device_communicators/cuda_wrapper.py
index 1d53b1c5b..6c15ef644 100644
--- a/vllm/distributed/device_communicators/cuda_wrapper.py
+++ b/vllm/distributed/device_communicators/cuda_wrapper.py
@@ -6,7 +6,7 @@ convenient for use when we just need to call a few functions.
 
 import ctypes
 from dataclasses import dataclass
-from typing import Any, Dict, List, Optional
+from typing import Any, Optional
 
 # this line makes it possible to directly load `libcudart.so` using `ctypes`
 import torch  # noqa
@@ -32,7 +32,7 @@ class cudaIpcMemHandle_t(ctypes.Structure):
 class Function:
     name: str
     restype: Any
-    argtypes: List[Any]
+    argtypes: list[Any]
 
 
 def find_loaded_library(lib_name) -> Optional[str]:
@@ -97,11 +97,11 @@ class CudaRTLibrary:
 
     # class attribute to store the mapping from the path to the library
     # to avoid loading the same library multiple times
-    path_to_library_cache: Dict[str, Any] = {}
+    path_to_library_cache: dict[str, Any] = {}
 
     # class attribute to store the mapping from library path
     #  to the corresponding dictionary
-    path_to_dict_mapping: Dict[str, Dict[str, Any]] = {}
+    path_to_dict_mapping: dict[str, dict[str, Any]] = {}
 
     def __init__(self, so_file: Optional[str] = None):
         if so_file is None:
diff --git a/vllm/distributed/device_communicators/custom_all_reduce.py b/vllm/distributed/device_communicators/custom_all_reduce.py
index 45fc2a711..7567161b6 100644
--- a/vllm/distributed/device_communicators/custom_all_reduce.py
+++ b/vllm/distributed/device_communicators/custom_all_reduce.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from contextlib import contextmanager
-from typing import List, Optional, Union
+from typing import Optional, Union
 
 import torch
 import torch.distributed as dist
@@ -276,7 +276,7 @@ class CustomAllreduce:
     @staticmethod
     def create_shared_buffer(size_in_bytes: int,
                              group: Optional[ProcessGroup] = None,
-                             uncached: Optional[bool] = False) -> List[int]:
+                             uncached: Optional[bool] = False) -> list[int]:
         pointer, handle = ops.allocate_shared_buffer_and_handle(size_in_bytes)
 
         world_size = dist.get_world_size(group=group)
@@ -284,7 +284,7 @@ class CustomAllreduce:
         handles = [None] * world_size
         dist.all_gather_object(handles, handle, group=group)
 
-        pointers: List[int] = []
+        pointers: list[int] = []
         for i, h in enumerate(handles):
             if i == rank:
                 pointers.append(pointer)  # type: ignore
@@ -293,7 +293,7 @@ class CustomAllreduce:
         return pointers
 
     @staticmethod
-    def free_shared_buffer(pointers: List[int],
+    def free_shared_buffer(pointers: list[int],
                            group: Optional[ProcessGroup] = None,
                            rank: Optional[int] = 0) -> None:
         if rank is None:
diff --git a/vllm/distributed/device_communicators/custom_all_reduce_utils.py b/vllm/distributed/device_communicators/custom_all_reduce_utils.py
index d8d6eed2d..11b8b57fe 100644
--- a/vllm/distributed/device_communicators/custom_all_reduce_utils.py
+++ b/vllm/distributed/device_communicators/custom_all_reduce_utils.py
@@ -7,8 +7,9 @@ import pickle
 import subprocess
 import sys
 import tempfile
+from collections.abc import Sequence
 from itertools import product
-from typing import Dict, List, Optional, Sequence
+from typing import Optional
 
 import torch.distributed as dist
 import torch.multiprocessing as mp
@@ -149,7 +150,7 @@ def can_actually_p2p(
     p_src.join()
     p_tgt.join()
     assert p_src.exitcode == 0 and p_tgt.exitcode == 0
-    result: List[bool] = []
+    result: list[bool] = []
     for src, tgt in zip(batch_src, batch_tgt):
         a = result_queue.get()
         b = result_queue.get()
@@ -175,7 +176,7 @@ def can_actually_p2p(
 #  e.g. used by different vllm engines. The device id in the cache file is a
 #  **local** device id, i.e. from 0 to num_dev-1, where num_dev is the number
 #  of visible devices in the vllm engine.
-_gpu_p2p_access_cache: Optional[Dict[str, bool]] = None
+_gpu_p2p_access_cache: Optional[dict[str, bool]] = None
 
 
 def gpu_p2p_access_check(src: int, tgt: int) -> bool:
@@ -204,7 +205,7 @@ def gpu_p2p_access_check(src: int, tgt: int) -> bool:
         # only the local master process (with local_rank == 0) can
         #  enter this block to calculate the cache
         logger.info("generating GPU P2P access cache in %s", path)
-        cache: Dict[str, bool] = {}
+        cache: dict[str, bool] = {}
         ids = list(range(num_dev))
         # batch of all pairs of GPUs
         batch_src, batch_tgt = zip(*list(product(ids, ids)))
diff --git a/vllm/distributed/device_communicators/pynccl_wrapper.py b/vllm/distributed/device_communicators/pynccl_wrapper.py
index 4f04899e9..6f69089b6 100644
--- a/vllm/distributed/device_communicators/pynccl_wrapper.py
+++ b/vllm/distributed/device_communicators/pynccl_wrapper.py
@@ -24,7 +24,7 @@
 import ctypes
 import platform
 from dataclasses import dataclass
-from typing import Any, Dict, List, Optional
+from typing import Any, Optional
 
 import torch
 from torch.distributed import ReduceOp
@@ -121,7 +121,7 @@ class ncclRedOpTypeEnum:
 class Function:
     name: str
     restype: Any
-    argtypes: List[Any]
+    argtypes: list[Any]
 
 
 class NCCLLibrary:
@@ -210,11 +210,11 @@ class NCCLLibrary:
 
     # class attribute to store the mapping from the path to the library
     # to avoid loading the same library multiple times
-    path_to_library_cache: Dict[str, Any] = {}
+    path_to_library_cache: dict[str, Any] = {}
 
     # class attribute to store the mapping from library path
     #  to the corresponding dictionary
-    path_to_dict_mapping: Dict[str, Dict[str, Any]] = {}
+    path_to_dict_mapping: dict[str, dict[str, Any]] = {}
 
     def __init__(self, so_file: Optional[str] = None):
 
@@ -238,7 +238,7 @@ class NCCLLibrary:
             raise e
 
         if so_file not in NCCLLibrary.path_to_dict_mapping:
-            _funcs: Dict[str, Any] = {}
+            _funcs: dict[str, Any] = {}
             for func in NCCLLibrary.exported_functions:
                 f = getattr(self.lib, func.name)
                 f.restype = func.restype
diff --git a/vllm/distributed/device_communicators/shm_broadcast.py b/vllm/distributed/device_communicators/shm_broadcast.py
index e33cfee21..fa944407a 100644
--- a/vllm/distributed/device_communicators/shm_broadcast.py
+++ b/vllm/distributed/device_communicators/shm_broadcast.py
@@ -8,7 +8,7 @@ from contextlib import contextmanager
 from dataclasses import dataclass, field
 from multiprocessing import shared_memory
 from threading import Event
-from typing import Any, List, Optional, Tuple, Union
+from typing import Any, Optional, Union
 from unittest.mock import patch
 
 import torch
@@ -173,9 +173,9 @@ class ShmRingBuffer:
 
 @dataclass
 class Handle:
-    local_reader_ranks: List[int] = field(default_factory=list)
+    local_reader_ranks: list[int] = field(default_factory=list)
 
-    buffer_handle: Optional[Tuple[int, int, int, str]] = None
+    buffer_handle: Optional[tuple[int, int, int, str]] = None
     local_subscribe_addr: Optional[str] = None
     remote_subscribe_addr: Optional[str] = None
     remote_addr_ipv6: bool = False
@@ -187,7 +187,7 @@ class MessageQueue:
         self,
         n_reader,  # number of all readers
         n_local_reader,  # number of local readers through shared memory
-        local_reader_ranks: Optional[List[int]] = None,
+        local_reader_ranks: Optional[list[int]] = None,
         max_chunk_bytes: int = 1024 * 1024 * 10,
         max_chunks: int = 10,
         connect_ip: Optional[str] = None,
diff --git a/vllm/distributed/kv_transfer/kv_connector/base.py b/vllm/distributed/kv_transfer/kv_connector/base.py
index 0d1a3d40a..e9b70610e 100644
--- a/vllm/distributed/kv_transfer/kv_connector/base.py
+++ b/vllm/distributed/kv_transfer/kv_connector/base.py
@@ -8,7 +8,7 @@ The class provides two primary abstract methods:
 """
 
 from abc import ABC, abstractmethod
-from typing import TYPE_CHECKING, List, Tuple, Union
+from typing import TYPE_CHECKING, Union
 
 import torch
 
@@ -55,7 +55,7 @@ class KVConnectorBase(ABC):
         self,
         model_executable: torch.nn.Module,
         model_input: "ModelInputForGPUWithSamplingMetadata",
-        kv_caches: List[torch.Tensor],
+        kv_caches: list[torch.Tensor],
         hidden_or_intermediate_states: Union[torch.Tensor,
                                              IntermediateTensors],
     ) -> None:
@@ -71,7 +71,7 @@ class KVConnectorBase(ABC):
                 start and end layer information.
             model_input (ModelInputForGPUWithSamplingMetadata): The input
                 metadata from vLLM.
-            kv_caches (List[torch.Tensor]): List of KV caches (keys and values) 
+            kv_caches (list[torch.Tensor]): List of KV caches (keys and values) 
                 for each layer.
             hidden_or_intermediate_states (Union[torch.Tensor, 
             IntermediateTensors]): 
@@ -88,8 +88,8 @@ class KVConnectorBase(ABC):
     def recv_kv_caches_and_hidden_states(
         self, model_executable: torch.nn.Module,
         model_input: "ModelInputForGPUWithSamplingMetadata",
-        kv_caches: List[torch.Tensor]
-    ) -> Tuple[Union[torch.Tensor, IntermediateTensors], bool,
+        kv_caches: list[torch.Tensor]
+    ) -> tuple[Union[torch.Tensor, IntermediateTensors], bool,
                "ModelInputForGPUWithSamplingMetadata"]:
         """
         Receive KV caches and hidden states from the connector.
@@ -104,7 +104,7 @@ class KVConnectorBase(ABC):
                 The model executable from vLLM modelrunner.
             model_input (ModelInputForGPUWithSamplingMetadata): 
                 The model input from vLLM modelrunner.
-            kv_caches (List[torch.Tensor]): 
+            kv_caches (list[torch.Tensor]): 
                 List of KV caches for each layer.
 
         Returns:
diff --git a/vllm/distributed/kv_transfer/kv_connector/factory.py b/vllm/distributed/kv_transfer/kv_connector/factory.py
index 54cb1871d..6766d5a24 100644
--- a/vllm/distributed/kv_transfer/kv_connector/factory.py
+++ b/vllm/distributed/kv_transfer/kv_connector/factory.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import importlib
-from typing import TYPE_CHECKING, Callable, Dict, Type
+from typing import TYPE_CHECKING, Callable
 
 import vllm.envs as envs
 from vllm.distributed.kv_transfer.kv_connector.base import KVConnectorBaseType
@@ -18,7 +18,7 @@ logger = init_logger(__name__)
 
 
 class KVConnectorFactory:
-    _registry: Dict[str, Callable[[], Type[KVConnectorBaseType]]] = {}
+    _registry: dict[str, Callable[[], type[KVConnectorBaseType]]] = {}
 
     @classmethod
     def register_connector(cls, name: str, module_path: str,
@@ -27,7 +27,7 @@ class KVConnectorFactory:
         if name in cls._registry:
             raise ValueError(f"Connector '{name}' is already registered.")
 
-        def loader() -> Type[KVConnectorBaseType]:
+        def loader() -> type[KVConnectorBaseType]:
             module = importlib.import_module(module_path)
             return getattr(module, class_name)
 
diff --git a/vllm/distributed/kv_transfer/kv_connector/lmcache_connector.py b/vllm/distributed/kv_transfer/kv_connector/lmcache_connector.py
index 42de227b6..d121cb701 100644
--- a/vllm/distributed/kv_transfer/kv_connector/lmcache_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/lmcache_connector.py
@@ -7,7 +7,7 @@ The LMCacheConnector can (1) transfer KV caches between prefill vLLM worker
 (2) offload and share KV caches.
 """
 
-from typing import TYPE_CHECKING, List, Tuple, Union
+from typing import TYPE_CHECKING, Union
 
 import torch
 
@@ -63,8 +63,8 @@ class LMCacheConnector(KVConnectorBase):
     def recv_kv_caches_and_hidden_states(
         self, model_executable: torch.nn.Module,
         model_input: "ModelInputForGPUWithSamplingMetadata",
-        kv_caches: List[torch.Tensor]
-    ) -> Tuple[Union[torch.Tensor, IntermediateTensors], bool,
+        kv_caches: list[torch.Tensor]
+    ) -> tuple[Union[torch.Tensor, IntermediateTensors], bool,
                "ModelInputForGPUWithSamplingMetadata"]:
 
         retrieve_status = self.lmcache_should_retrieve(model_input)
@@ -78,7 +78,7 @@ class LMCacheConnector(KVConnectorBase):
         self,
         model_executable: torch.nn.Module,
         model_input: "ModelInputForGPUWithSamplingMetadata",
-        kv_caches: List[torch.Tensor],
+        kv_caches: list[torch.Tensor],
         hidden_or_intermediate_states: Union[torch.Tensor,
                                              IntermediateTensors],
     ) -> None:
diff --git a/vllm/distributed/kv_transfer/kv_connector/mooncake_store_connector.py b/vllm/distributed/kv_transfer/kv_connector/mooncake_store_connector.py
index 7b26aec23..56b55c2bb 100644
--- a/vllm/distributed/kv_transfer/kv_connector/mooncake_store_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/mooncake_store_connector.py
@@ -6,7 +6,7 @@ The MooncakeStoreConnector transfers KV caches between prefill vLLM workers
 database-style KVStore.
 """
 import hashlib
-from typing import TYPE_CHECKING, List, Tuple, Union
+from typing import TYPE_CHECKING, Union
 
 import torch
 
@@ -70,7 +70,7 @@ class MooncakeStoreConnector(KVConnectorBase):
         self,
         model_executable: torch.nn.Module,
         model_input: "ModelInputForGPUWithSamplingMetadata",
-        kv_caches: List[torch.Tensor],
+        kv_caches: list[torch.Tensor],
         hidden_or_intermediate_states: Union[torch.Tensor,
                                              IntermediateTensors],
     ) -> None:
@@ -113,8 +113,8 @@ class MooncakeStoreConnector(KVConnectorBase):
     def recv_kv_caches_and_hidden_states(
         self, model_executable: torch.nn.Module,
         model_input: "ModelInputForGPUWithSamplingMetadata",
-        kv_caches: List[torch.Tensor]
-    ) -> Tuple[Union[torch.Tensor, IntermediateTensors], bool,
+        kv_caches: list[torch.Tensor]
+    ) -> tuple[Union[torch.Tensor, IntermediateTensors], bool,
                "ModelInputForGPUWithSamplingMetadata"]:
         bypass_model_exec = True
         input_tokens_tensor = model_input.input_tokens
diff --git a/vllm/distributed/kv_transfer/kv_connector/simple_connector.py b/vllm/distributed/kv_transfer/kv_connector/simple_connector.py
index 0464a7585..2e4bd2074 100644
--- a/vllm/distributed/kv_transfer/kv_connector/simple_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/simple_connector.py
@@ -8,7 +8,7 @@ MooncakePipe.
 
 But the logic can be extended to support other pipe and lookup buffer.
 """
-from typing import TYPE_CHECKING, List, Optional, Tuple, Union
+from typing import TYPE_CHECKING, Optional, Union
 
 import torch
 
@@ -133,7 +133,7 @@ class SimpleConnector(KVConnectorBase):
             )
 
     def select(self, input_tokens: Optional[torch.Tensor],
-               roi: Optional[torch.Tensor]) -> List[Optional[torch.Tensor]]:
+               roi: Optional[torch.Tensor]) -> list[Optional[torch.Tensor]]:
 
         assert self.consumer_buffer is not None, "Please initialize the "\
             "consumer buffer before calling select."
@@ -152,7 +152,7 @@ class SimpleConnector(KVConnectorBase):
         self,
         model_executable: torch.nn.Module,
         model_input: "ModelInputForGPUWithSamplingMetadata",
-        kv_caches: List[torch.Tensor],
+        kv_caches: list[torch.Tensor],
         hidden_or_intermediate_states: Union[torch.Tensor,
                                              IntermediateTensors],
     ) -> None:
@@ -207,8 +207,8 @@ class SimpleConnector(KVConnectorBase):
     def recv_kv_caches_and_hidden_states(
         self, model_executable: torch.nn.Module,
         model_input: "ModelInputForGPUWithSamplingMetadata",
-        kv_caches: List[torch.Tensor]
-    ) -> Tuple[Union[torch.Tensor, IntermediateTensors], bool,
+        kv_caches: list[torch.Tensor]
+    ) -> tuple[Union[torch.Tensor, IntermediateTensors], bool,
                "ModelInputForGPUWithSamplingMetadata"]:
 
         # When bypass_model_exec is set to False, it means that at least for one
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
index cbbf5a565..6e6add082 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -5,13 +5,13 @@ import threading
 import time
 import uuid
 from collections import defaultdict
+from collections.abc import Iterator
 from dataclasses import dataclass
-from typing import TYPE_CHECKING, Any, Iterator
+from typing import TYPE_CHECKING, Any, Optional
 
 import msgspec
 import torch
 import zmq
-from typing_extensions import Optional
 
 from vllm import envs
 from vllm.config import VllmConfig
diff --git a/vllm/distributed/kv_transfer/kv_connector_agent.py b/vllm/distributed/kv_transfer/kv_connector_agent.py
index 9d7145098..819c06805 100644
--- a/vllm/distributed/kv_transfer/kv_connector_agent.py
+++ b/vllm/distributed/kv_transfer/kv_connector_agent.py
@@ -5,7 +5,7 @@ This implementation is a shim wrapper on two APIs exposed by `kv_connector`:
 1. `send_kv_caches_and_hidden_states`
 2. `recv_kv_caches_and_hidden_states
 """
-from typing import TYPE_CHECKING, List, Tuple, Union
+from typing import TYPE_CHECKING, Union
 
 if TYPE_CHECKING:
     from vllm.worker.model_runner import ModelInputForGPUWithSamplingMetadata
@@ -53,7 +53,7 @@ class KVTransferAgent:
         self,
         model_executable: torch.nn.Module,
         model_input: "ModelInputForGPUWithSamplingMetadata",
-        kv_caches: List[torch.Tensor],
+        kv_caches: list[torch.Tensor],
         hidden_or_intermediate_states: Union[torch.Tensor,
                                              IntermediateTensors],
     ) -> None:
@@ -68,8 +68,8 @@ class KVTransferAgent:
     def recv_kv_caches_and_hidden_states(
         self, model_executable: torch.nn.Module,
         model_input: "ModelInputForGPUWithSamplingMetadata",
-        kv_caches: List[torch.Tensor]
-    ) -> Tuple[Union[torch.Tensor, IntermediateTensors], bool,
+        kv_caches: list[torch.Tensor]
+    ) -> tuple[Union[torch.Tensor, IntermediateTensors], bool,
                "ModelInputForGPUWithSamplingMetadata"]:
 
         return self.connector.recv_kv_caches_and_hidden_states(
diff --git a/vllm/distributed/kv_transfer/kv_lookup_buffer/base.py b/vllm/distributed/kv_transfer/kv_lookup_buffer/base.py
index bea42846e..d1ffb8092 100644
--- a/vllm/distributed/kv_transfer/kv_lookup_buffer/base.py
+++ b/vllm/distributed/kv_transfer/kv_lookup_buffer/base.py
@@ -13,7 +13,7 @@ These classes above are abstracted behind class `KVCacheBufferBase`.
 """
 
 from abc import ABC, abstractmethod
-from typing import List, Optional
+from typing import Optional
 
 import torch
 
@@ -93,7 +93,7 @@ class KVLookupBufferBase(KVCacheBufferBase):
     @abstractmethod
     def drop_select(
             self, input_tokens: Optional[torch.Tensor],
-            roi: Optional[torch.Tensor]) -> List[Optional[torch.Tensor]]:
+            roi: Optional[torch.Tensor]) -> list[Optional[torch.Tensor]]:
         """Select and *drop* KV cache entries from the lookup buffer.
         
         The functionality is similar to the following python statements
@@ -111,7 +111,7 @@ class KVLookupBufferBase(KVCacheBufferBase):
             roi (torch.Tensor): A binary mask on top of the input tokens
 
         Returns:
-            List[Optional[torch.Tensor]]: A list of tensors. Can be None.
+            list[Optional[torch.Tensor]]: A list of tensors. Can be None.
 
         Raises:
             NotImplementedError: This method must be implemented in subclasses.
diff --git a/vllm/distributed/kv_transfer/kv_lookup_buffer/simple_buffer.py b/vllm/distributed/kv_transfer/kv_lookup_buffer/simple_buffer.py
index 10bbfe1dd..e3b2274bd 100644
--- a/vllm/distributed/kv_transfer/kv_lookup_buffer/simple_buffer.py
+++ b/vllm/distributed/kv_transfer/kv_lookup_buffer/simple_buffer.py
@@ -11,7 +11,7 @@
 """
 import threading
 from collections import deque
-from typing import Deque, List, Optional, Union
+from typing import Optional, Union
 
 import torch
 
@@ -38,7 +38,7 @@ class SimpleBuffer(KVLookupBufferBase):
         data_pipe: on device (e.g. GPU)
         """
 
-        self.buffer: Deque[List[torch.Tensor]] = deque()
+        self.buffer: deque[list[torch.Tensor]] = deque()
 
         self.buffer_size = 0
         self.buffer_size_threshold = buffer_size_thresh
@@ -50,8 +50,8 @@ class SimpleBuffer(KVLookupBufferBase):
         self.normal_signal = torch.tensor([0], device="cpu")
         self.end_signal = None
 
-    def _matches(self, tokens_roi_sender: List[torch.Tensor],
-                 tokens_roi_recver: List[torch.Tensor]):
+    def _matches(self, tokens_roi_sender: list[torch.Tensor],
+                 tokens_roi_recver: list[torch.Tensor]):
 
         # tokens_roi_sender: tokens and roi of the producer (in the buffer)
         # tokens_roi_recver: tokens and roi of the consumer (query)
@@ -88,7 +88,7 @@ class SimpleBuffer(KVLookupBufferBase):
             tensor = tensor.float()
         self.data_pipe.send_tensor(tensor)
 
-    def _get_element_size(self, data: Optional[Union[List, torch.Tensor]]):
+    def _get_element_size(self, data: Optional[Union[list, torch.Tensor]]):
 
         if isinstance(data, torch.Tensor):
             return data.element_size() * data.numel()
@@ -151,7 +151,7 @@ class SimpleBuffer(KVLookupBufferBase):
                 tokens_roi_recver = [input_tokens, roi]
 
                 def is_buffer_available(
-                    tokens_roi_recver: List[torch.Tensor], ) -> bool:
+                    tokens_roi_recver: list[torch.Tensor], ) -> bool:
                     # perform input tokens and roi matching
                     # FIXME: this matching is O(n), ideally it should be O(1)
                     # but this buffer size won't (and shouldn't) be too large so
@@ -184,7 +184,7 @@ class SimpleBuffer(KVLookupBufferBase):
 
     def drop_select(
             self, input_tokens: Optional[torch.Tensor],
-            roi: Optional[torch.Tensor]) -> List[Optional[torch.Tensor]]:
+            roi: Optional[torch.Tensor]) -> list[Optional[torch.Tensor]]:
 
         assert self.request_handling_thread is None, \
             "drop_select should be called by the KV cache consumer "\
diff --git a/vllm/distributed/kv_transfer/kv_pipe/pynccl_pipe.py b/vllm/distributed/kv_transfer/kv_pipe/pynccl_pipe.py
index e8bf607eb..fcc38d7fb 100644
--- a/vllm/distributed/kv_transfer/kv_pipe/pynccl_pipe.py
+++ b/vllm/distributed/kv_transfer/kv_pipe/pynccl_pipe.py
@@ -15,7 +15,7 @@
 import threading
 import time
 from concurrent.futures import ThreadPoolExecutor
-from typing import Callable, Dict, Optional, Tuple
+from typing import Callable, Optional
 
 import torch
 
@@ -35,7 +35,7 @@ class BrokenPipeException(Exception):
         super().__init__(self.message)
 
 
-Metadata = Dict[str, Optional[torch.Tensor]]
+Metadata = dict[str, Optional[torch.Tensor]]
 
 
 class PyNcclPipe(KVPipeBase):
@@ -83,7 +83,7 @@ class PyNcclPipe(KVPipeBase):
 
     def _get_device_send_recv_impl(
         self, group: StatelessProcessGroup
-    ) -> Tuple[Callable[[torch.Tensor, int], None], Callable[
+    ) -> tuple[Callable[[torch.Tensor, int], None], Callable[
         [torch.Tensor, int], None]]:
 
         send: Callable[[torch.Tensor, int], None]
diff --git a/vllm/distributed/parallel_state.py b/vllm/distributed/parallel_state.py
index 4a2a95d94..2041a54e8 100644
--- a/vllm/distributed/parallel_state.py
+++ b/vllm/distributed/parallel_state.py
@@ -29,7 +29,7 @@ from collections import namedtuple
 from contextlib import contextmanager, nullcontext
 from dataclasses import dataclass
 from multiprocessing import shared_memory
-from typing import Any, Callable, Dict, List, Optional, Tuple, Union
+from typing import Any, Callable, Optional, Union
 from unittest.mock import patch
 
 import torch
@@ -54,15 +54,15 @@ TensorMetadata = namedtuple("TensorMetadata", ["device", "dtype", "size"])
 
 
 def _split_tensor_dict(
-    tensor_dict: Dict[str, Union[torch.Tensor, Any]]
-) -> Tuple[List[Tuple[str, Any]], List[torch.Tensor]]:
+    tensor_dict: dict[str, Union[torch.Tensor, Any]]
+) -> tuple[list[tuple[str, Any]], list[torch.Tensor]]:
     """Split the tensor dictionary into two parts:
     1. A list of (key, value) pairs. If the value is a tensor, it is replaced
          by its metadata.
     2. A list of tensors.
     """
-    metadata_list: List[Tuple[str, Any]] = []
-    tensor_list: List[torch.Tensor] = []
+    metadata_list: list[tuple[str, Any]] = []
+    tensor_list: list[torch.Tensor] = []
     for key, value in tensor_dict.items():
         if isinstance(value, torch.Tensor):
             # Note: we cannot use `value.device` here,
@@ -78,7 +78,7 @@ def _split_tensor_dict(
     return metadata_list, tensor_list
 
 
-_group_name_counter: Dict[str, int] = {}
+_group_name_counter: dict[str, int] = {}
 
 
 def _get_unique_name(name: str) -> str:
@@ -94,7 +94,7 @@ def _get_unique_name(name: str) -> str:
     return newname
 
 
-_groups: Dict[str, Callable[[], Optional["GroupCoordinator"]]] = {}
+_groups: dict[str, Callable[[], Optional["GroupCoordinator"]]] = {}
 
 
 def _register_group(group: "GroupCoordinator") -> None:
@@ -182,7 +182,7 @@ class GroupCoordinator:
 
     # available attributes:
     rank: int  # global rank
-    ranks: List[int]  # global ranks in the group
+    ranks: list[int]  # global ranks in the group
     world_size: int  # size of the group
     # difference between `local_rank` and `rank_in_group`:
     # if we have a group of size 4 across two nodes:
@@ -201,7 +201,7 @@ class GroupCoordinator:
 
     def __init__(
         self,
-        group_ranks: List[List[int]],
+        group_ranks: list[list[int]],
         local_rank: int,
         torch_distributed_backend: Union[str, Backend],
         use_device_communicator: bool,
@@ -435,7 +435,7 @@ class GroupCoordinator:
             return recv[0]
 
     def broadcast_object_list(self,
-                              obj_list: List[Any],
+                              obj_list: list[Any],
                               src: int = 0,
                               group: Optional[ProcessGroup] = None):
         """Broadcast the input object list.
@@ -518,11 +518,11 @@ class GroupCoordinator:
 
     def broadcast_tensor_dict(
         self,
-        tensor_dict: Optional[Dict[str, Union[torch.Tensor, Any]]] = None,
+        tensor_dict: Optional[dict[str, Union[torch.Tensor, Any]]] = None,
         src: int = 0,
         group: Optional[ProcessGroup] = None,
         metadata_group: Optional[ProcessGroup] = None
-    ) -> Optional[Dict[str, Union[torch.Tensor, Any]]]:
+    ) -> Optional[dict[str, Union[torch.Tensor, Any]]]:
         """Broadcast the input tensor dictionary.
         NOTE: `src` is the local rank of the source rank.
         """
@@ -536,7 +536,7 @@ class GroupCoordinator:
 
         rank_in_group = self.rank_in_group
         if rank_in_group == src:
-            metadata_list: List[Tuple[Any, Any]] = []
+            metadata_list: list[tuple[Any, Any]] = []
             assert isinstance(
                 tensor_dict,
                 dict), (f"Expecting a dictionary, got {type(tensor_dict)}")
@@ -603,10 +603,10 @@ class GroupCoordinator:
 
     def send_tensor_dict(
         self,
-        tensor_dict: Dict[str, Union[torch.Tensor, Any]],
+        tensor_dict: dict[str, Union[torch.Tensor, Any]],
         dst: Optional[int] = None,
         all_gather_group: Optional["GroupCoordinator"] = None,
-    ) -> Optional[Dict[str, Union[torch.Tensor, Any]]]:
+    ) -> Optional[dict[str, Union[torch.Tensor, Any]]]:
         """Send the input tensor dictionary.
         NOTE: `dst` is the local rank of the source rank.
         """
@@ -626,7 +626,7 @@ class GroupCoordinator:
             dst = (self.rank_in_group + 1) % self.world_size
         assert dst < self.world_size, f"Invalid dst rank ({dst})"
 
-        metadata_list: List[Tuple[Any, Any]] = []
+        metadata_list: list[tuple[Any, Any]] = []
         assert isinstance(
             tensor_dict,
             dict), f"Expecting a dictionary, got {type(tensor_dict)}"
@@ -661,7 +661,7 @@ class GroupCoordinator:
         self,
         src: Optional[int] = None,
         all_gather_group: Optional["GroupCoordinator"] = None,
-    ) -> Optional[Dict[str, Union[torch.Tensor, Any]]]:
+    ) -> Optional[dict[str, Union[torch.Tensor, Any]]]:
         """Recv the input tensor dictionary.
         NOTE: `src` is the local rank of the source rank.
         """
@@ -682,7 +682,7 @@ class GroupCoordinator:
         assert src < self.world_size, f"Invalid src rank ({src})"
 
         recv_metadata_list = self.recv_object(src=src)
-        tensor_dict: Dict[str, Any] = {}
+        tensor_dict: dict[str, Any] = {}
         for key, value in recv_metadata_list:
             if isinstance(value, TensorMetadata):
                 tensor = torch.empty(value.size,
@@ -764,7 +764,7 @@ class GroupCoordinator:
 
     def dispatch(
             self, hidden_states: torch.Tensor,
-            router_logits: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
+            router_logits: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
         if self.device_communicator is not None:
             return self.device_communicator.dispatch(hidden_states,
                                                      router_logits)
@@ -782,7 +782,7 @@ def get_world_group() -> GroupCoordinator:
     return _WORLD
 
 
-def init_world_group(ranks: List[int], local_rank: int,
+def init_world_group(ranks: list[int], local_rank: int,
                      backend: str) -> GroupCoordinator:
     return GroupCoordinator(
         group_ranks=[ranks],
@@ -794,7 +794,7 @@ def init_world_group(ranks: List[int], local_rank: int,
 
 
 def init_model_parallel_group(
-    group_ranks: List[List[int]],
+    group_ranks: list[list[int]],
     local_rank: int,
     backend: str,
     use_message_queue_broadcaster: bool = False,
@@ -1182,7 +1182,7 @@ def cleanup_dist_env_and_memory(shutdown_ray: bool = False):
 
 
 def in_the_same_node_as(pg: Union[ProcessGroup, StatelessProcessGroup],
-                        source_rank: int = 0) -> List[bool]:
+                        source_rank: int = 0) -> list[bool]:
     """
     This is a collective operation that returns if each rank is in the same node
     as the source rank. It tests if processes are attached to the same
diff --git a/vllm/distributed/utils.py b/vllm/distributed/utils.py
index 7dd8389c9..68983b91b 100644
--- a/vllm/distributed/utils.py
+++ b/vllm/distributed/utils.py
@@ -10,7 +10,8 @@ import pickle
 import socket
 import time
 from collections import deque
-from typing import Any, Deque, Dict, Optional, Sequence, Tuple
+from collections.abc import Sequence
+from typing import Any, Optional
 
 import torch
 from torch.distributed import ProcessGroup, TCPStore
@@ -69,7 +70,7 @@ def split_tensor_along_last_dim(
 
 
 def get_pp_indices(num_hidden_layers: int, pp_rank: int,
-                   pp_size: int) -> Tuple[int, int]:
+                   pp_size: int) -> tuple[int, int]:
     """Try to evenly distribute layers across partitions.
 
     If the number of layers is not divisible by the number of partitions,
@@ -132,15 +133,15 @@ class StatelessProcessGroup:
     data_expiration_seconds: int = 3600  # 1 hour
 
     # dst rank -> counter
-    send_dst_counter: Dict[int, int] = dataclasses.field(default_factory=dict)
+    send_dst_counter: dict[int, int] = dataclasses.field(default_factory=dict)
     # src rank -> counter
-    recv_src_counter: Dict[int, int] = dataclasses.field(default_factory=dict)
+    recv_src_counter: dict[int, int] = dataclasses.field(default_factory=dict)
     broadcast_send_counter: int = 0
-    broadcast_recv_src_counter: Dict[int, int] = dataclasses.field(
+    broadcast_recv_src_counter: dict[int, int] = dataclasses.field(
         default_factory=dict)
 
     # A deque to store the data entries, with key and timestamp.
-    entries: Deque[Tuple[str,
+    entries: deque[tuple[str,
                          float]] = dataclasses.field(default_factory=deque)
 
     def __post_init__(self):
-- 
GitLab


From c8ea982d9b86e145a16092017528d068a7f94630 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Wed, 14 May 2025 13:28:16 +0100
Subject: [PATCH 369/461] Update deprecated type hinting in `platform`,
 `plugins`, `triton_utils`, `vllm_flash_attn` (#18129)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 pyproject.toml              |  5 -----
 vllm/platforms/cuda.py      | 13 ++++++-------
 vllm/platforms/interface.py |  6 +++---
 vllm/platforms/rocm.py      | 10 +++++-----
 vllm/platforms/tpu.py       |  4 ++--
 vllm/plugins/__init__.py    |  4 ++--
 6 files changed, 18 insertions(+), 24 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index b3ca68f9f..46cf7a801 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -78,13 +78,8 @@ exclude = [
 "vllm/executor/**/*.py" = ["UP006", "UP035"]
 "vllm/model_executor/model_loader/**/*.py" = ["UP006", "UP035"]
 "vllm/model_executor/models/**/*.py" = ["UP006", "UP035"]
-"vllm/platforms/**/*.py" = ["UP006", "UP035"]
-"vllm/plugins/**/*.py" = ["UP006", "UP035"]
 "vllm/prompt_adapter/**/*.py" = ["UP006", "UP035"]
 "vllm/spec_decode/**/*.py" = ["UP006", "UP035"]
-"vllm/transformers_utils/**/*.py" = ["UP006", "UP035"]
-"vllm/triton_utils/**/*.py" = ["UP006", "UP035"]
-"vllm/vllm_flash_attn/**/*.py" = ["UP006", "UP035"]
 "vllm/worker/**/*.py" = ["UP006", "UP035"]
 "vllm/utils.py" = ["UP006", "UP035"]
 
diff --git a/vllm/platforms/cuda.py b/vllm/platforms/cuda.py
index 2343e6d82..9163b97c5 100644
--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
@@ -5,8 +5,7 @@ pynvml. However, it should not initialize cuda context.
 
 import os
 from functools import wraps
-from typing import (TYPE_CHECKING, Callable, List, Optional, Tuple, TypeVar,
-                    Union)
+from typing import TYPE_CHECKING, Callable, Optional, TypeVar, Union
 
 import torch
 from typing_extensions import ParamSpec
@@ -56,7 +55,7 @@ class CudaPlatformBase(Platform):
     device_control_env_var: str = "CUDA_VISIBLE_DEVICES"
 
     @property
-    def supported_dtypes(self) -> List[torch.dtype]:
+    def supported_dtypes(self) -> list[torch.dtype]:
         if self.has_device_capability(80):
             # Ampere and Hopper or later NVIDIA GPUs.
             return [torch.bfloat16, torch.float16, torch.float32]
@@ -93,7 +92,7 @@ class CudaPlatformBase(Platform):
         return True
 
     @classmethod
-    def is_fully_connected(cls, device_ids: List[int]) -> bool:
+    def is_fully_connected(cls, device_ids: list[int]) -> bool:
         raise NotImplementedError
 
     @classmethod
@@ -335,7 +334,7 @@ class NvmlCudaPlatform(CudaPlatformBase):
     @with_nvml_context
     def has_device_capability(
         cls,
-        capability: Union[Tuple[int, int], int],
+        capability: Union[tuple[int, int], int],
         device_id: int = 0,
     ) -> bool:
         try:
@@ -365,7 +364,7 @@ class NvmlCudaPlatform(CudaPlatformBase):
 
     @classmethod
     @with_nvml_context
-    def is_fully_connected(cls, physical_device_ids: List[int]) -> bool:
+    def is_fully_connected(cls, physical_device_ids: list[int]) -> bool:
         """
         query if the set of gpus are fully connected by nvlink (1 hop)
         """
@@ -430,7 +429,7 @@ class NonNvmlCudaPlatform(CudaPlatformBase):
         return device_props.total_memory
 
     @classmethod
-    def is_fully_connected(cls, physical_device_ids: List[int]) -> bool:
+    def is_fully_connected(cls, physical_device_ids: list[int]) -> bool:
         logger.exception(
             "NVLink detection not possible, as context support was"
             " not found. Assuming no NVLink available.")
diff --git a/vllm/platforms/interface.py b/vllm/platforms/interface.py
index cf30f7529..b09e31e9e 100644
--- a/vllm/platforms/interface.py
+++ b/vllm/platforms/interface.py
@@ -4,7 +4,7 @@ import os
 import platform
 import random
 from platform import uname
-from typing import TYPE_CHECKING, NamedTuple, Optional, Tuple, Union
+from typing import TYPE_CHECKING, NamedTuple, Optional, Union
 
 import numpy as np
 import torch
@@ -200,7 +200,7 @@ class Platform:
     @classmethod
     def has_device_capability(
         cls,
-        capability: Union[Tuple[int, int], int],
+        capability: Union[tuple[int, int], int],
         device_id: int = 0,
     ) -> bool:
         """
@@ -362,7 +362,7 @@ class Platform:
         raise NotImplementedError
 
     @classmethod
-    def get_infinity_values(cls, dtype: torch.dtype) -> Tuple[float, float]:
+    def get_infinity_values(cls, dtype: torch.dtype) -> tuple[float, float]:
         """
         Return the platform specific values for (-inf, inf)
         """
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index f3d64f01b..c8b860875 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -2,7 +2,7 @@
 
 import os
 from functools import cache, lru_cache, wraps
-from typing import TYPE_CHECKING, Dict, List, Optional
+from typing import TYPE_CHECKING, Optional
 
 import torch
 
@@ -35,7 +35,7 @@ except ImportError as e:
     logger.warning("Failed to import from vllm._rocm_C with %r", e)
 
 # Models not supported by ROCm.
-_ROCM_UNSUPPORTED_MODELS: List[str] = []
+_ROCM_UNSUPPORTED_MODELS: list[str] = []
 
 # Models partially supported by ROCm.
 # Architecture -> Reason.
@@ -43,7 +43,7 @@ _ROCM_SWA_REASON = ("Sliding window attention (SWA) is not yet supported in "
                     "Triton flash attention. For half-precision SWA support, "
                     "please use CK flash attention by setting "
                     "`VLLM_USE_TRITON_FLASH_ATTN=0`")
-_ROCM_PARTIALLY_SUPPORTED_MODELS: Dict[str, str] = {
+_ROCM_PARTIALLY_SUPPORTED_MODELS: dict[str, str] = {
     "Qwen2ForCausalLM":
     _ROCM_SWA_REASON,
     "MistralForCausalLM":
@@ -58,7 +58,7 @@ _ROCM_PARTIALLY_SUPPORTED_MODELS: Dict[str, str] = {
      "excessive use of shared memory. If this happens, disable Triton FA "
      "by setting `VLLM_USE_TRITON_FLASH_ATTN=0`")
 }
-_ROCM_DEVICE_ID_NAME_MAP: Dict[str, str] = {
+_ROCM_DEVICE_ID_NAME_MAP: dict[str, str] = {
     "0x74a0": "AMD_Instinct_MI300A",
     "0x74a1": "AMD_Instinct_MI300X",
     "0x74b5": "AMD_Instinct_MI300X",  # MI300X VF
@@ -203,7 +203,7 @@ class RocmPlatform(Platform):
 
     @staticmethod
     @with_amdsmi_context
-    def is_fully_connected(physical_device_ids: List[int]) -> bool:
+    def is_fully_connected(physical_device_ids: list[int]) -> bool:
         """
         Query if the set of gpus are fully connected by xgmi (1 hop)
         """
diff --git a/vllm/platforms/tpu.py b/vllm/platforms/tpu.py
index d0a5af358..41ed94fb6 100644
--- a/vllm/platforms/tpu.py
+++ b/vllm/platforms/tpu.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import TYPE_CHECKING, Optional, Tuple, Union, cast
+from typing import TYPE_CHECKING, Optional, Union, cast
 
 import torch
 from tpu_info import device
@@ -73,7 +73,7 @@ class TpuPlatform(Platform):
         return "vllm.lora.punica_wrapper.punica_tpu.PunicaWrapperTPU"
 
     @classmethod
-    def get_infinity_values(cls, dtype: torch.dtype) -> Tuple[float, float]:
+    def get_infinity_values(cls, dtype: torch.dtype) -> tuple[float, float]:
         return torch.finfo(dtype).min, torch.finfo(dtype).max
 
     @classmethod
diff --git a/vllm/plugins/__init__.py b/vllm/plugins/__init__.py
index 389cb8728..d72ab2bd0 100644
--- a/vllm/plugins/__init__.py
+++ b/vllm/plugins/__init__.py
@@ -2,7 +2,7 @@
 
 import logging
 import os
-from typing import Callable, Dict
+from typing import Callable
 
 import torch
 
@@ -14,7 +14,7 @@ logger = logging.getLogger(__name__)
 plugins_loaded = False
 
 
-def load_plugins_by_group(group: str) -> Dict[str, Callable]:
+def load_plugins_by_group(group: str) -> dict[str, Callable]:
     import sys
     if sys.version_info < (3, 10):
         from importlib_metadata import entry_points
-- 
GitLab


From d066e52013be278c7a3bc54ec9799d8457895f4d Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Wed, 14 May 2025 20:38:21 +0800
Subject: [PATCH 370/461] [Bugfix] Fix chat utils tests (#18139)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 tests/entrypoints/test_chat_utils.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/tests/entrypoints/test_chat_utils.py b/tests/entrypoints/test_chat_utils.py
index 43ad09197..9f1f2321d 100644
--- a/tests/entrypoints/test_chat_utils.py
+++ b/tests/entrypoints/test_chat_utils.py
@@ -845,10 +845,10 @@ def test_resolve_hf_chat_template(sample_json_schema, model, use_tools):
 
     # Test detecting the tokenizer's chat_template
     chat_template = resolve_hf_chat_template(
-        model_config,
         tokenizer,
         chat_template=None,
         tools=tools,
+        model_config=model_config,
     )
     assert isinstance(chat_template, str)
 
@@ -890,10 +890,10 @@ def test_resolve_content_format_hf_defined(model, expected_format):
 
     # Test detecting the tokenizer's chat_template
     chat_template = resolve_hf_chat_template(
-        model_config,
         tokenizer,
         chat_template=None,
         tools=None,
+        model_config=model_config,
     )
     assert isinstance(chat_template, str)
 
@@ -949,10 +949,10 @@ def test_resolve_content_format_fallbacks(model, expected_format):
 
     # Test detecting the tokenizer's chat_template
     chat_template = resolve_hf_chat_template(
-        model_config,
         tokenizer,
         chat_template=None,
         tools=None,
+        model_config=model_config,
     )
     assert isinstance(chat_template, str)
 
-- 
GitLab


From 59dd311cf598ea6f4d4a0535def1416a463e4daf Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Wed, 14 May 2025 08:05:57 -0700
Subject: [PATCH 371/461] [KVConnector] Keep KVTransferParams as a dict
 (#18033)

---
 tests/v1/kv_connector/unit/utils.py           |  26 ++--
 .../kv_transfer/kv_connector/v1/__init__.py   |   4 +-
 .../kv_transfer/kv_connector/v1/base.py       |  25 ----
 .../kv_connector/v1/nixl_connector.py         | 129 +++++-------------
 vllm/v1/core/sched/scheduler.py               |  12 +-
 vllm/v1/engine/core.py                        |  12 +-
 vllm/v1/request.py                            |  13 +-
 7 files changed, 64 insertions(+), 157 deletions(-)

diff --git a/tests/v1/kv_connector/unit/utils.py b/tests/v1/kv_connector/unit/utils.py
index 8a7d7bdd8..53e2d6fda 100644
--- a/tests/v1/kv_connector/unit/utils.py
+++ b/tests/v1/kv_connector/unit/utils.py
@@ -1,13 +1,11 @@
 # SPDX-License-Identifier: Apache-2.0
-from typing import Optional
+from typing import Any, Optional
 
 import torch
 
 from vllm import SamplingParams
 from vllm.config import (CacheConfig, DeviceConfig, KVTransferConfig,
                          ModelConfig, SchedulerConfig, VllmConfig)
-from vllm.distributed.kv_transfer.kv_connector.v1.nixl_connector import (
-    NixlKVTransferParams)
 from vllm.v1.core.sched.scheduler import Scheduler
 from vllm.v1.kv_cache_interface import (FullAttentionSpec, KVCacheConfig,
                                         KVCacheGroupSpec)
@@ -124,20 +122,20 @@ def create_request(
 ) -> Request:
     """Make dummy request for testing."""
 
+    kv_transfer_params: Optional[dict[str, Any]] = None
+
     if do_remote_decode:
         assert not do_remote_prefill
-        kv_transfer_params = NixlKVTransferParams(do_remote_prefill=False,
-                                                  do_remote_decode=True)
+        kv_transfer_params = dict(do_remote_prefill=False,
+                                  do_remote_decode=True)
     elif do_remote_prefill:
-        kv_transfer_params = NixlKVTransferParams(
-            do_remote_prefill=True,
-            do_remote_decode=False,
-            remote_engine_id="my-engine-id",
-            remote_block_ids=list(range(num_remote_blocks)),
-            remote_host="my-host",
-            remote_port=1234)
-    else:
-        kv_transfer_params = None
+        kv_transfer_params = dict(do_remote_prefill=True,
+                                  do_remote_decode=False,
+                                  remote_engine_id="my-engine-id",
+                                  remote_block_ids=list(
+                                      range(num_remote_blocks)),
+                                  remote_host="my-host",
+                                  remote_port=1234)
 
     max_tokens = 1 if do_remote_decode else max_tokens
     sampling_params = SamplingParams(max_tokens=max_tokens)
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/__init__.py b/vllm/distributed/kv_transfer/kv_connector/v1/__init__.py
index 43181ab79..e66aaa7f8 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/__init__.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/__init__.py
@@ -1,5 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
 from vllm.distributed.kv_transfer.kv_connector.v1.base import (
-    KVConnectorBase_V1, KVConnectorRole, KVTransferParams)
+    KVConnectorBase_V1, KVConnectorRole)
 
-__all__ = ["KVConnectorRole", "KVConnectorBase_V1", "KVTransferParams"]
+__all__ = ["KVConnectorRole", "KVConnectorBase_V1"]
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/base.py b/vllm/distributed/kv_transfer/kv_connector/v1/base.py
index 2ff61e8a4..03c99f20e 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/base.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/base.py
@@ -48,23 +48,6 @@ class KVConnectorRole(enum.Enum):
     WORKER = 1
 
 
-class KVTransferParams:
-    """
-    Abstract KVTransferParams used to send KVTransfer
-    parameters between instances of vLLM.
-    
-    Specific instances of KVConnector customize this
-    method for serializing / deserializing msgs sent
-    via the HTTP protocol.
-    """
-
-    @staticmethod
-    def from_raw_dict(
-            raw_dict: Optional[dict[str,
-                                    Any]]) -> Optional["KVTransferParams"]:
-        return None
-
-
 @dataclass
 class KVConnectorMetadata:
     """
@@ -75,7 +58,6 @@ class KVConnectorMetadata:
 
 
 class KVConnectorBase_V1(ABC):
-    _KVTransferParams = KVTransferParams
 
     def __init__(self, vllm_config: "VllmConfig", role: KVConnectorRole):
         logger.warning(
@@ -213,13 +195,6 @@ class KVConnectorBase_V1(ABC):
     # Scheduler-side methods
     # ==============================
 
-    def set_kv_transfer_params(self, request: "Request"):
-        """Parse raw KV Transfer params."""
-        assert request.kv_transfer_params is None
-        kv_transfer_params = self._KVTransferParams.from_raw_dict(
-            request.raw_kv_transfer_params)
-        request.kv_transfer_params = kv_transfer_params
-
     @abstractmethod
     def get_num_new_matched_tokens(
         self,
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
index 6e6add082..abd1ea2be 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -16,7 +16,7 @@ import zmq
 from vllm import envs
 from vllm.config import VllmConfig
 from vllm.distributed.kv_transfer.kv_connector.v1.base import (
-    KVConnectorBase_V1, KVConnectorMetadata, KVConnectorRole, KVTransferParams)
+    KVConnectorBase_V1, KVConnectorMetadata, KVConnectorRole)
 from vllm.distributed.parallel_state import (
     get_tensor_model_parallel_rank, get_tensor_model_parallel_world_size,
     get_tp_group)
@@ -44,56 +44,6 @@ except ImportError:
     NixlWrapper = None
 
 
-@dataclass
-class NixlKVTransferParams(KVTransferParams):
-
-    def __init__(
-        self,
-        do_remote_prefill: bool,
-        do_remote_decode: bool,
-        remote_block_ids: Optional[list[int]] = None,
-        remote_host: Optional[str] = None,
-        remote_port: Optional[int] = None,
-        remote_engine_id: Optional[str] = None,
-    ):
-        self.do_remote_prefill = do_remote_prefill
-        self.do_remote_decode = do_remote_decode
-        self.remote_block_ids = remote_block_ids
-        self.remote_host = remote_host
-        self.remote_port = remote_port
-        self.remote_engine_id = remote_engine_id
-
-    @staticmethod
-    def from_raw_dict(
-        raw_dict: Optional[dict[str,
-                                Any]]) -> Optional["NixlKVTransferParams"]:
-
-        # If no raw transfer params passed, return None.
-        if raw_dict is None:
-            return None
-
-        # Validate the request is formatted properly.
-        if (("do_remote_prefill" not in raw_dict)
-                or ("do_remote_decode" not in raw_dict)
-                or ("remote_block_ids" not in raw_dict)
-                or ("remote_host" not in raw_dict)
-                or ("remote_port" not in raw_dict)
-                or ("remote_engine_id" not in raw_dict)):
-            logger.warning(
-                "Got invalid KVTransferParams: %s. This "
-                "request will not utilize KVTransfer", raw_dict)
-            return None
-
-        return NixlKVTransferParams(
-            do_remote_prefill=raw_dict["do_remote_prefill"],
-            do_remote_decode=raw_dict["do_remote_decode"],
-            remote_block_ids=raw_dict["remote_block_ids"],
-            remote_host=raw_dict["remote_host"],
-            remote_port=raw_dict["remote_port"],
-            remote_engine_id=raw_dict["remote_engine_id"],
-        )
-
-
 class NixlAgentMetadata(
         msgspec.Struct,
         omit_defaults=True,  # type: ignore[call-arg]
@@ -123,25 +73,18 @@ class NixlConnectorMetadata(KVConnectorMetadata):
         self,
         request_id: str,
         local_block_ids: list[int],
-        kv_transfer_params: NixlKVTransferParams,
+        kv_transfer_params: dict[str, Any],
     ):
-        assert request_id not in self.requests
-        assert kv_transfer_params.remote_block_ids is not None
-        assert kv_transfer_params.remote_engine_id is not None
-        assert kv_transfer_params.remote_host is not None
-        assert kv_transfer_params.remote_port is not None
-
         self.requests[request_id] = ReqMeta(
             local_block_ids=local_block_ids,
-            remote_block_ids=kv_transfer_params.remote_block_ids,
-            remote_engine_id=kv_transfer_params.remote_engine_id,
-            remote_host=kv_transfer_params.remote_host,
-            remote_port=kv_transfer_params.remote_port,
+            remote_block_ids=kv_transfer_params["remote_block_ids"],
+            remote_engine_id=kv_transfer_params["remote_engine_id"],
+            remote_host=kv_transfer_params["remote_host"],
+            remote_port=kv_transfer_params["remote_port"],
         )
 
 
 class NixlConnector(KVConnectorBase_V1):
-    _KVTransferParams: type[NixlKVTransferParams] = NixlKVTransferParams
 
     def __init__(self, vllm_config: VllmConfig, role: KVConnectorRole):
         assert vllm_config.kv_transfer_config is not None
@@ -253,52 +196,52 @@ class NixlConnectorScheduler:
               asynchronously (between scheduler steps).
         """
 
+        params = request.kv_transfer_params
         logger.debug(
             "NIXLConnector get_num_new_matched_tokens: "
             "num_computed_tokens=%s, kv_transfer_params=%s",
-            num_computed_tokens, request.kv_transfer_params)
-
-        # No KVTransfer for this request.
-        if request.kv_transfer_params is None:
-            return 0, False
-        assert isinstance(request.kv_transfer_params, NixlKVTransferParams)
+            num_computed_tokens, params)
 
-        # Remote prefill: get all prompt blocks from remote.
-        if request.kv_transfer_params.do_remote_prefill:
+        if params is not None and params.get("do_remote_prefill"):
+            # Remote prefill: get all prompt blocks from remote.
             assert num_computed_tokens % self.block_size == 0
             rounded_num_prompt_tokens = round_down(
                 len(request.prompt_token_ids), self.block_size)
             count = max(rounded_num_prompt_tokens - num_computed_tokens, 0)
             return count, count > 0
 
+        # No remote prefill for this request.
         return 0, False
 
     def update_state_after_alloc(self, request: "Request",
                                  blocks: "KVCacheBlocks",
                                  num_external_tokens: int):
 
+        params = request.kv_transfer_params
         logger.debug(
             "NIXLConnector update_state_after_alloc: "
             "num_external_tokens=%s, kv_transfer_params=%s",
-            num_external_tokens, request.kv_transfer_params)
+            num_external_tokens, params)
 
-        if request.kv_transfer_params is None:
-            return
-
-        assert isinstance(request.kv_transfer_params, NixlKVTransferParams)
-        if request.kv_transfer_params.do_remote_prefill:
+        if params is not None and params.get("do_remote_prefill"):
             # NOTE(rob): if prompt < block_size, no remote blocks
             # since the remote only sends fully computed blocks, so
             # skip recving for this request. num_external_tokens
             # should be 0 if there are no remote blocks.
-            if request.kv_transfer_params.remote_block_ids:
-                # Get unhashed blocks to pull from remote.
-                self._reqs_need_recv[request.request_id] = (
-                    request, blocks.get_unhashed_block_ids())
+            if params.get("remote_block_ids"):
+                if all(p in params for p in ("remote_engine_id", "remote_host",
+                                             "remote_port")):
+                    # Get unhashed blocks to pull from remote.
+                    self._reqs_need_recv[request.request_id] = (
+                        request, blocks.get_unhashed_block_ids())
+                else:
+                    logger.warning(
+                        "Got invalid KVTransferParams: %s. This "
+                        "request will not utilize KVTransfer", params)
             else:
                 assert num_external_tokens == 0
             # Only trigger 1 KV transfer per request.
-            request.kv_transfer_params.do_remote_prefill = False
+            params["do_remote_prefill"] = False
 
     def build_connector_meta(
         self,
@@ -308,7 +251,7 @@ class NixlConnectorScheduler:
 
         # Loop through scheduled reqs and convert to ReqMeta.
         for req_id, (req, block_ids) in self._reqs_need_recv.items():
-            assert isinstance(req.kv_transfer_params, NixlKVTransferParams)
+            assert req.kv_transfer_params is not None
             meta.add_new_req(
                 request_id=req_id,
                 local_block_ids=block_ids,
@@ -330,34 +273,30 @@ class NixlConnectorScheduler:
         should be freed now or will be sent asynchronously and freed later.
         """
 
+        params = request.kv_transfer_params
         logger.debug(
-            "NIXLConnector request_finished, "
-            "request_status=%s, kv_transfer_params=%s", request.status,
-            request.kv_transfer_params)
-
-        if request.kv_transfer_params is None:
-            return False, None
-        assert isinstance(request.kv_transfer_params, NixlKVTransferParams)
+            "NIXLConnector request_finished, request_status=%s, "
+            "kv_transfer_params=%s", request.status, params)
 
-        if ((not request.kv_transfer_params.do_remote_decode)
-                or (request.status != RequestStatus.FINISHED_LENGTH_CAPPED)):
+        if (params is None or not params.get("do_remote_decode")
+                or request.status != RequestStatus.FINISHED_LENGTH_CAPPED):
             return False, None
 
         # Get computed blocks.
         all_full = request.num_computed_tokens % self.block_size == 0
-        computed_block_ids = (block_ids if all_full else block_ids[:-1])
+        computed_block_ids = block_ids if all_full else block_ids[:-1]
 
         # If prompt < block_size, no xfer so free blocks immediately.
         delay_free_blocks = len(computed_block_ids) > 0
 
-        return delay_free_blocks, NixlKVTransferParams(
+        return delay_free_blocks, dict(
             do_remote_prefill=True,
             do_remote_decode=False,
             remote_block_ids=computed_block_ids,
             remote_engine_id=self.engine_id,
             remote_host=envs.VLLM_NIXL_SIDE_CHANNEL_HOST,
             remote_port=envs.VLLM_NIXL_SIDE_CHANNEL_PORT,
-        ).__dict__
+        )
 
 
 class NixlConnectorWorker:
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 9f051b73c..f338e4ba1 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -12,8 +12,7 @@ from vllm.distributed.kv_events import EventPublisherFactory, KVEventBatch
 from vllm.distributed.kv_transfer.kv_connector.factory import (
     KVConnectorFactory)
 from vllm.distributed.kv_transfer.kv_connector.v1 import (KVConnectorBase_V1,
-                                                          KVConnectorRole,
-                                                          KVTransferParams)
+                                                          KVConnectorRole)
 from vllm.logger import init_logger
 from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
 from vllm.v1.core.encoder_cache_manager import (EncoderCacheManager,
@@ -931,8 +930,13 @@ class Scheduler(SchedulerInterface):
         return self.connector
 
     def _connector_finished(
-            self, request: Request) -> tuple[bool, Optional[KVTransferParams]]:
-        """Invoke the KV connector request_finished() method if applicable."""
+            self, request: Request) -> tuple[bool, Optional[dict[str, Any]]]:
+        """
+        Invoke the KV connector request_finished() method if applicable.
+
+        Returns optional kv transfer parameters to be included with the
+        request outputs.
+        """
         if self.connector is None:
             return False, None
         block_ids = self.kv_cache_manager.get_block_ids(request.request_id)
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index edc79ae20..0cf2383af 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -182,14 +182,10 @@ class EngineCore:
             # Start grammar compilation asynchronously
             self.structured_output_manager.grammar_init(req)
 
-        if req.raw_kv_transfer_params is not None:
-            if (kv_connector := self.scheduler.get_kv_connector()):
-                # Parse raw KV transfer params via connector.
-                kv_connector.set_kv_transfer_params(req)
-            else:
-                logger.warning(
-                    "Got KVTransferParams, but no KVConnector found. "
-                    "Disabling KVTransfer for this request.")
+        if req.kv_transfer_params is not None and (
+                not self.scheduler.get_kv_connector()):
+            logger.warning("Got kv_transfer_params, but no KVConnector found. "
+                           "Disabling KVTransfer for this request.")
 
         self.scheduler.add_request(req)
 
diff --git a/vllm/v1/request.py b/vllm/v1/request.py
index fc6b73854..d2843b65a 100644
--- a/vllm/v1/request.py
+++ b/vllm/v1/request.py
@@ -3,7 +3,6 @@
 import enum
 from typing import TYPE_CHECKING, Any, Optional, Union
 
-from vllm.distributed.kv_transfer.kv_connector.v1 import KVTransferParams
 from vllm.multimodal.inputs import MultiModalKwargs, PlaceholderRange
 from vllm.sampling_params import SamplingParams
 from vllm.utils import is_list_of
@@ -62,14 +61,10 @@ class Request:
         self.num_encoder_inputs = len(self.mm_inputs)
         self.has_encoder_inputs = self.num_encoder_inputs > 0
 
-        # P/D: KV transfer parameters (raw and parsed).
-        raw_params = (None if sampling_params.extra_args is None
-                      else sampling_params.extra_args.get(
-                          "kv_transfer_params", None))
-        self.raw_kv_transfer_params: Optional[dict[str, Any]] = raw_params
-        # Each connector parses the raw dictionary and sets this
-        # attr the first time that the request is processed.
-        self.kv_transfer_params: Optional[KVTransferParams] = None
+        # P/D: Connector-specific KV transfer parameters.
+        kv_params = (None if sampling_params.extra_args is None else
+                     sampling_params.extra_args.get("kv_transfer_params"))
+        self.kv_transfer_params: Optional[dict[str, Any]] = kv_params
 
         # Sanity check
         assert len(self.mm_inputs) == len(self.mm_positions)
-- 
GitLab


From 964472b9667508b1d4a7ed92068ff81740ae0036 Mon Sep 17 00:00:00 2001
From: Chen Zhang <zhangch99@outlook.com>
Date: Wed, 14 May 2025 23:23:30 +0800
Subject: [PATCH 372/461] [Doc] Update prefix cache metrics to counting tokens
 (#18138)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>
---
 docs/source/design/v1/metrics.md | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/docs/source/design/v1/metrics.md b/docs/source/design/v1/metrics.md
index 7e7c8b925..de8022655 100644
--- a/docs/source/design/v1/metrics.md
+++ b/docs/source/design/v1/metrics.md
@@ -415,8 +415,8 @@ The discussion in <gh-issue:10582> about adding prefix cache metrics yielded
 some interesting points which may be relevant to how we approach
 future metrics.
 
-Every time the prefix cache is queried, we record the number of blocks
-queried and the number of queried blocks present in the cache
+Every time the prefix cache is queried, we record the number of tokens
+queried and the number of queried tokens present in the cache
 (i.e. hits).
 
 However, the metric of interest is the hit rate - i.e. the number of
-- 
GitLab


From 418d2f8bfb5593bce89641d79849900f7294b859 Mon Sep 17 00:00:00 2001
From: Ekagra Ranjan <3116519+ekagra-ranjan@users.noreply.github.com>
Date: Wed, 14 May 2025 15:31:46 -0400
Subject: [PATCH 373/461] [V1][Spec Decode] Share input embedding of target
 model with EAGLE draft model to free ~1GB for llama 3 model (#17326)

Co-authored-by: root <root@ekagra-8xh100.us-east5-a.c.serving-efficiency-poc.internal>
Co-authored-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>
---
 examples/offline_inference/eagle.py        |  7 ++++++
 vllm/model_executor/models/llama_eagle.py  | 27 +++++++++++++-------
 vllm/model_executor/models/llama_eagle3.py | 15 +++++++----
 vllm/v1/spec_decode/eagle.py               | 29 ++++++++++++++++++----
 4 files changed, 59 insertions(+), 19 deletions(-)

diff --git a/examples/offline_inference/eagle.py b/examples/offline_inference/eagle.py
index 020521611..615f67e9f 100644
--- a/examples/offline_inference/eagle.py
+++ b/examples/offline_inference/eagle.py
@@ -105,6 +105,13 @@ def main():
     outputs = llm.generate(prompt_token_ids=prompt_ids,
                            sampling_params=sampling_params)
 
+    # print the generated text
+    for output in outputs:
+        print("-" * 50)
+        print(f"prompt: {output.prompt}")
+        print(f"generated text: {output.outputs[0].text}")
+        print("-" * 50)
+
     if not hasattr(outputs, "metrics") or outputs.metrics is None:
         return
 
diff --git a/vllm/model_executor/models/llama_eagle.py b/vllm/model_executor/models/llama_eagle.py
index 76655bd71..4e51daa22 100644
--- a/vllm/model_executor/models/llama_eagle.py
+++ b/vllm/model_executor/models/llama_eagle.py
@@ -8,6 +8,7 @@ from transformers import LlamaConfig
 
 from vllm.compilation.decorators import support_torch_compile
 from vllm.config import VllmConfig
+from vllm.distributed.parallel_state import get_pp_group
 from vllm.logger import init_logger
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.vocab_parallel_embedding import (
@@ -52,11 +53,15 @@ class LlamaModel(nn.Module):
         self.config = vllm_config. \
             speculative_config.draft_model_config.hf_config
         self.vocab_size = self.config.vocab_size
-        self.embed_tokens = VocabParallelEmbedding(
-            self.config.vocab_size,
-            self.config.hidden_size,
-            prefix=maybe_prefix(prefix, "embed_tokens"),
-        )
+
+        # if PP disabled then draft will share embed with target
+        if get_pp_group().world_size > 1:
+            self.embed_tokens = VocabParallelEmbedding(
+                self.config.vocab_size,
+                self.config.hidden_size,
+                prefix=maybe_prefix(prefix, "embed_tokens"),
+            )
+
         self.layers = nn.ModuleList([
             LlamaDecoderLayer(
                 self.config,
@@ -109,6 +114,12 @@ class LlamaModel(nn.Module):
                 weight_loader(param, loaded_weight, shard_id)
                 break
             else:
+
+                # if PP disabled then draft will share embed with target
+                if get_pp_group().world_size == 1 and \
+                    "embed_tokens." in name:
+                    continue
+
                 param = params_dict[name]
                 weight_loader = getattr(param, "weight_loader",
                                         default_weight_loader)
@@ -142,8 +153,7 @@ class EagleLlamaForCausalLM(LlamaForCausalLM):
     def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
         loader = AutoWeightsLoader(
             self,
-            skip_prefixes=(["lm_head."]
-                           if self.config.tie_word_embeddings else None),
+            skip_prefixes=None,
         )
 
         model_weights = {}
@@ -151,5 +161,4 @@ class EagleLlamaForCausalLM(LlamaForCausalLM):
             if "lm_head" not in name:
                 name = "model." + name
             model_weights[name] = loaded_weight
-
-        loader.load_weights(model_weights.items())
+        return loader.load_weights(model_weights.items())
diff --git a/vllm/model_executor/models/llama_eagle3.py b/vllm/model_executor/models/llama_eagle3.py
index 904ff3210..9761c8389 100644
--- a/vllm/model_executor/models/llama_eagle3.py
+++ b/vllm/model_executor/models/llama_eagle3.py
@@ -8,6 +8,7 @@ from transformers import LlamaConfig
 
 from vllm.compilation.decorators import support_torch_compile
 from vllm.config import VllmConfig
+from vllm.distributed.parallel_state import get_pp_group
 from vllm.logger import init_logger
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import QKVParallelLinear
@@ -91,11 +92,15 @@ class LlamaModel(nn.Module):
         self.config = vllm_config. \
             speculative_config.draft_model_config.hf_config
         self.vocab_size = self.config.vocab_size
-        self.embed_tokens = VocabParallelEmbedding(
-            self.config.vocab_size,
-            self.config.hidden_size,
-            prefix=maybe_prefix(prefix, "embed_tokens"),
-        )
+
+        # if PP disabled then draft will share embed with target
+        if get_pp_group().world_size > 1:
+            self.embed_tokens = VocabParallelEmbedding(
+                self.config.vocab_size,
+                self.config.hidden_size,
+                prefix=maybe_prefix(prefix, "embed_tokens"),
+            )
+
         self.layers = nn.ModuleList([
             LlamaDecoderLayer(
                 self.config,
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index 8af8fda39..5b84bc1f5 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -5,6 +5,7 @@ import torch.nn as nn
 from vllm.attention.layer import Attention
 from vllm.config import (CompilationLevel, VllmConfig,
                          get_layers_from_vllm_config, set_current_vllm_config)
+from vllm.distributed.parallel_state import get_pp_group
 from vllm.forward_context import set_forward_context
 from vllm.logger import init_logger
 from vllm.model_executor.model_loader import get_model_loader
@@ -306,12 +307,30 @@ class EagleProposer:
         self.attn_layer_name = next(iter(draft_attn_layer_names))
         loaded_weights = self.model.load_weights(
             loader.get_all_weights(draft_model_config, self.model))
-        if self.vllm_config.speculative_config.method == "eagle3":
-            if "model.embed_tokens.weight" not in loaded_weights:
-                logger.info(
-                    "Loading EAGLE embedding weights from the target model.")
-                self.model.model.embed_tokens = target_model.model.embed_tokens
+
+        # share embed_tokens with the target model if needed
+        if get_pp_group().world_size == 1:
+            assert "model.embed_tokens.weight" not in loaded_weights, \
+            "For PP = 1, Eagle draft should share embed with target model"
+            logger.info(
+                "The EAGLE head shares the same vocab embedding" \
+                " with the target model."
+            )
+            self.model.model.embed_tokens = target_model.model.embed_tokens
         else:
+            assert "model.embed_tokens.weight" in loaded_weights, \
+            "For PP > 1, Eagle draft checkpoint should its own copy of "
+            " the model.embed_tokens.weight"
+            logger.info(
+                "Since PP > 1, the EAGLE head loaded its own vocab embedding" \
+                " weights instead of sharing them with the target model."
+            )
+
+        # share lm_head with the target model if needed
+        # some model definition do not define lm_head explicitly
+        # and reuse embed_tokens for lm_head, e.g., CohereForCausalLM
+        if self.vllm_config.speculative_config.method != "eagle3" and \
+                hasattr(target_model, "lm_head"):
             logger.info("Loading EAGLE LM head weights from the target model.")
             self.model.lm_head = target_model.lm_head
 
-- 
GitLab


From f9c069c85e029830094ff9abb926ffbf37b7c7e7 Mon Sep 17 00:00:00 2001
From: bnellnm <49004751+bnellnm@users.noreply.github.com>
Date: Wed, 14 May 2025 16:11:54 -0400
Subject: [PATCH 374/461] Modularize fused experts and integrate PPLX kernels
 (#15956)

---
 csrc/activation_kernels.cu                    |   3 +
 csrc/dispatch_utils.h                         |  14 +
 csrc/moe/moe_align_sum_kernels.cu             |   8 +-
 csrc/moe/topk_softmax_kernels.cu              |  63 +-
 examples/offline_inference/data_parallel.py   |  22 +-
 tests/kernels/moe/test_batched_moe.py         | 114 +++
 tests/kernels/moe/test_cutlass_moe.py         |  46 +-
 tests/kernels/moe/test_moe.py                 |  93 ++-
 tests/kernels/moe/test_pplx_moe.py            | 691 ++++++++++++++++
 tests/kernels/moe/test_triton_moe_ptpc_fp8.py |  34 +-
 tests/kernels/quantization/test_block_fp8.py  |  20 +-
 tests/kernels/quantization/test_block_int8.py |   5 +-
 vllm/distributed/parallel_state.py            |  53 +-
 vllm/distributed/utils.py                     |  13 +-
 vllm/forward_context.py                       |   5 +-
 .../layers/fused_moe/__init__.py              |   5 +-
 .../layers/fused_moe/cutlass_moe.py           | 303 ++++---
 .../layers/fused_moe/deep_gemm_moe.py         | 329 +++-----
 .../layers/fused_moe/fused_batched_moe.py     | 755 ++++++++++++++++++
 .../layers/fused_moe/fused_moe.py             | 388 ++++++---
 vllm/model_executor/layers/fused_moe/layer.py | 551 +++++++++++--
 .../layers/fused_moe/modular_kernel.py        | 364 +++++++++
 .../layers/fused_moe/moe_permute_unpermute.py |  90 ++-
 .../layers/fused_moe/pplx_prepare_finalize.py | 147 ++++
 .../layers/fused_moe/prepare_finalize.py      |  60 ++
 .../layers/fused_moe/triton_deep_gemm_moe.py  | 112 +++
 vllm/model_executor/layers/fused_moe/utils.py |  59 +-
 .../model_executor/layers/quantization/fp8.py |  84 +-
 vllm/model_executor/models/dbrx.py            |   1 -
 vllm/model_executor/models/deepseek_v2.py     |  14 +-
 vllm/model_executor/models/llama4.py          |   8 +-
 vllm/model_executor/models/qwen2_moe.py       |   9 +-
 vllm/model_executor/models/qwen3_moe.py       |   6 +-
 vllm/platforms/cuda.py                        |   1 +
 vllm/v1/attention/backends/mla/common.py      |   6 +-
 vllm/v1/worker/gpu_worker.py                  |   3 +-
 vllm/v1/worker/tpu_worker.py                  |   3 +-
 vllm/worker/cpu_worker.py                     |   3 +-
 vllm/worker/hpu_worker.py                     |   6 +-
 vllm/worker/tpu_worker.py                     |   3 +-
 vllm/worker/worker.py                         |   3 +-
 vllm/worker/xpu_worker.py                     |   3 +-
 42 files changed, 3835 insertions(+), 665 deletions(-)
 create mode 100644 tests/kernels/moe/test_batched_moe.py
 create mode 100644 tests/kernels/moe/test_pplx_moe.py
 create mode 100644 vllm/model_executor/layers/fused_moe/fused_batched_moe.py
 create mode 100644 vllm/model_executor/layers/fused_moe/modular_kernel.py
 create mode 100644 vllm/model_executor/layers/fused_moe/pplx_prepare_finalize.py
 create mode 100644 vllm/model_executor/layers/fused_moe/prepare_finalize.py
 create mode 100644 vllm/model_executor/layers/fused_moe/triton_deep_gemm_moe.py

diff --git a/csrc/activation_kernels.cu b/csrc/activation_kernels.cu
index 88275dbdd..55e659679 100644
--- a/csrc/activation_kernels.cu
+++ b/csrc/activation_kernels.cu
@@ -70,6 +70,9 @@ __device__ __forceinline__ T gelu_tanh_kernel(const T& x) {
   int64_t num_tokens = input.numel() / input.size(-1);                   \
   dim3 grid(num_tokens);                                                 \
   dim3 block(std::min(d, 1024));                                         \
+  if (num_tokens == 0) {                                                 \
+    return;                                                              \
+  }                                                                      \
   const at::cuda::OptionalCUDAGuard device_guard(device_of(input));      \
   const cudaStream_t stream = at::cuda::getCurrentCUDAStream();          \
   VLLM_DISPATCH_FLOATING_TYPES(                                          \
diff --git a/csrc/dispatch_utils.h b/csrc/dispatch_utils.h
index dc6e0769b..f7b75c483 100644
--- a/csrc/dispatch_utils.h
+++ b/csrc/dispatch_utils.h
@@ -65,5 +65,19 @@
   AT_DISPATCH_CASE(at::ScalarType::Int, __VA_ARGS__)   \
   AT_DISPATCH_CASE(at::ScalarType::Long, __VA_ARGS__)
 
+#define VLLM_DISPATCH_CASE_INTEGRAL_AND_UNSIGNED_TYPES(...) \
+  AT_DISPATCH_CASE(at::ScalarType::Byte, __VA_ARGS__)       \
+  AT_DISPATCH_CASE(at::ScalarType::Char, __VA_ARGS__)       \
+  AT_DISPATCH_CASE(at::ScalarType::Short, __VA_ARGS__)      \
+  AT_DISPATCH_CASE(at::ScalarType::Int, __VA_ARGS__)        \
+  AT_DISPATCH_CASE(at::ScalarType::Long, __VA_ARGS__)       \
+  AT_DISPATCH_CASE(at::ScalarType::UInt16, __VA_ARGS__)     \
+  AT_DISPATCH_CASE(at::ScalarType::UInt32, __VA_ARGS__)     \
+  AT_DISPATCH_CASE(at::ScalarType::UInt64, __VA_ARGS__)
+
 #define VLLM_DISPATCH_INTEGRAL_TYPES(TYPE, NAME, ...) \
   AT_DISPATCH_SWITCH(TYPE, NAME, VLLM_DISPATCH_CASE_INTEGRAL_TYPES(__VA_ARGS__))
+
+#define VLLM_DISPATCH_INTEGRAL_AND_UNSIGNED_TYPES(TYPE, NAME, ...) \
+  AT_DISPATCH_SWITCH(                                              \
+      TYPE, NAME, VLLM_DISPATCH_CASE_INTEGRAL_AND_UNSIGNED_TYPES(__VA_ARGS__))
diff --git a/csrc/moe/moe_align_sum_kernels.cu b/csrc/moe/moe_align_sum_kernels.cu
index d7be76945..6b6a9d04a 100644
--- a/csrc/moe/moe_align_sum_kernels.cu
+++ b/csrc/moe/moe_align_sum_kernels.cu
@@ -326,7 +326,7 @@ void moe_align_block_size(torch::Tensor topk_ids, int64_t num_experts,
   }
 
   if (use_global_memory) {
-    VLLM_DISPATCH_INTEGRAL_TYPES(
+    VLLM_DISPATCH_INTEGRAL_AND_UNSIGNED_TYPES(
         topk_ids.scalar_type(), "moe_align_block_size_global_mem_kernel", [&] {
           // calc needed amount of shared mem for `tokens_cnts` and `cumsum`
           // tensors
@@ -351,7 +351,7 @@ void moe_align_block_size(torch::Tensor topk_ids, int64_t num_experts,
               cumsum_buffer.data_ptr<int32_t>());
         });
   } else if (use_i16) {
-    VLLM_DISPATCH_INTEGRAL_TYPES(
+    VLLM_DISPATCH_INTEGRAL_AND_UNSIGNED_TYPES(
         topk_ids.scalar_type(), "moe_align_block_size_kernel", [&] {
           // set dynamic shared mem
           auto kernel =
@@ -366,7 +366,7 @@ void moe_align_block_size(torch::Tensor topk_ids, int64_t num_experts,
               topk_ids.numel());
         });
   } else {
-    VLLM_DISPATCH_INTEGRAL_TYPES(
+    VLLM_DISPATCH_INTEGRAL_AND_UNSIGNED_TYPES(
         topk_ids.scalar_type(), "moe_align_block_size_kernel", [&] {
           auto kernel =
               vllm::moe::moe_align_block_size_kernel<scalar_t, int32_t>;
@@ -391,7 +391,7 @@ void sgl_moe_align_block_size(torch::Tensor topk_ids, int64_t num_experts,
   TORCH_CHECK(num_experts == 256,
               "sgl_moe_align_block_size kernel only supports deepseek v3.");
 
-  VLLM_DISPATCH_INTEGRAL_TYPES(
+  VLLM_DISPATCH_INTEGRAL_AND_UNSIGNED_TYPES(
       topk_ids.scalar_type(), "sgl_moe_align_block_size_kernel", [&] {
         // calc needed amount of shared mem for `cumsum` tensors
         auto options_int =
diff --git a/csrc/moe/topk_softmax_kernels.cu b/csrc/moe/topk_softmax_kernels.cu
index de9747b60..a93790322 100644
--- a/csrc/moe/topk_softmax_kernels.cu
+++ b/csrc/moe/topk_softmax_kernels.cu
@@ -108,9 +108,17 @@ __launch_bounds__(TPB) __global__
     }
 }
 
-template <int TPB>
-__launch_bounds__(TPB) __global__ void moeTopK(const float* inputs_after_softmax, const bool* finished, float* output,
-    int* indices, int* source_rows, const int num_experts, const int k, const int start_expert, const int end_expert)
+template <int TPB, typename IndType>
+__launch_bounds__(TPB) __global__ void moeTopK(
+    const float* inputs_after_softmax,
+    const bool* finished,
+    float* output,
+    IndType* indices,
+    int* source_rows,
+    const int num_experts,
+    const int k,
+    const int start_expert,
+    const int end_expert)
 {
 
     using cub_kvp = cub::KeyValuePair<int, float>;
@@ -182,9 +190,9 @@ __launch_bounds__(TPB) __global__ void moeTopK(const float* inputs_after_softmax
   2) This implementation assumes k is small, but will work for any k.
 */
 
-template <int VPT, int NUM_EXPERTS, int WARPS_PER_CTA, int BYTES_PER_LDG>
+template <int VPT, int NUM_EXPERTS, int WARPS_PER_CTA, int BYTES_PER_LDG, typename IndType>
 __launch_bounds__(WARPS_PER_CTA* WARP_SIZE) __global__
-    void topkGatingSoftmax(const float* input, const bool* finished, float* output, const int num_rows, int* indices,
+    void topkGatingSoftmax(const float* input, const bool* finished, float* output, const int num_rows, IndType* indices,
         int* source_rows, const int k, const int start_expert, const int end_expert)
 {
     // We begin by enforcing compile time assertions and setting up compile time constants.
@@ -397,8 +405,8 @@ struct TopkConstants
 };
 } // namespace detail
 
-template <int EXPERTS, int WARPS_PER_TB>
-void topkGatingSoftmaxLauncherHelper(const float* input, const bool* finished, float* output, int* indices,
+template <int EXPERTS, int WARPS_PER_TB, typename IndType>
+void topkGatingSoftmaxLauncherHelper(const float* input, const bool* finished, float* output, IndType* indices,
     int* source_row, const int num_rows, const int k, const int start_expert, const int end_expert, cudaStream_t stream)
 {
     static constexpr std::size_t MAX_BYTES_PER_LDG = 16;
@@ -421,10 +429,11 @@ void topkGatingSoftmaxLauncherHelper(const float* input, const bool* finished, f
         token_expert_indices, num_tokens, topk, 0, num_experts,         \
         stream);
 
+template <typename IndType>
 void topkGatingSoftmaxKernelLauncher(
     const float* gating_output,
     float* topk_weights,
-    int* topk_indicies,
+    IndType* topk_indicies,
     int* token_expert_indices,
     float* softmax_workspace,
     const int num_tokens,
@@ -493,14 +502,32 @@ void topk_softmax(
     const at::cuda::OptionalCUDAGuard device_guard(device_of(gating_output));
     const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
     torch::Tensor softmax_workspace = torch::empty({workspace_size}, gating_output.options());
-    vllm::moe::topkGatingSoftmaxKernelLauncher(
-        gating_output.data_ptr<float>(),
-        topk_weights.data_ptr<float>(),
-        topk_indices.data_ptr<int>(),
-        token_expert_indices.data_ptr<int>(),
-        softmax_workspace.data_ptr<float>(),
-        num_tokens,
-        num_experts,
-        topk,
-        stream);
+
+    if(topk_indices.scalar_type() == at::ScalarType::Int)
+    {
+        vllm::moe::topkGatingSoftmaxKernelLauncher(
+            gating_output.data_ptr<float>(),
+            topk_weights.data_ptr<float>(),
+            topk_indices.data_ptr<int>(),
+            token_expert_indices.data_ptr<int>(),
+            softmax_workspace.data_ptr<float>(),
+            num_tokens,
+            num_experts,
+            topk,
+            stream);
+    }
+    else
+    {
+        assert(topk_indices.scalar_type() == at::ScalarType::UInt32);
+        vllm::moe::topkGatingSoftmaxKernelLauncher(
+            gating_output.data_ptr<float>(),
+            topk_weights.data_ptr<float>(),
+            topk_indices.data_ptr<uint32_t>(),
+            token_expert_indices.data_ptr<int>(),
+            softmax_workspace.data_ptr<float>(),
+            num_tokens,
+            num_experts,
+            topk,
+            stream);
+    }
 }
diff --git a/examples/offline_inference/data_parallel.py b/examples/offline_inference/data_parallel.py
index 965915bea..f636a08c0 100644
--- a/examples/offline_inference/data_parallel.py
+++ b/examples/offline_inference/data_parallel.py
@@ -65,11 +65,17 @@ def parse_args():
                         type=int,
                         default=0,
                         help="Master node port")
+    parser.add_argument("--enforce-eager",
+                        action='store_true',
+                        help="Enforce eager mode execution.")
+    parser.add_argument("--trust-remote-code",
+                        action='store_true',
+                        help="Trust remote code.")
     return parser.parse_args()
 
 
 def main(model, dp_size, local_dp_rank, global_dp_rank, dp_master_ip,
-         dp_master_port, GPUs_per_dp_rank):
+         dp_master_port, GPUs_per_dp_rank, enforce_eager, trust_remote_code):
     os.environ["VLLM_DP_RANK"] = str(global_dp_rank)
     os.environ["VLLM_DP_RANK_LOCAL"] = str(local_dp_rank)
     os.environ["VLLM_DP_SIZE"] = str(dp_size)
@@ -109,10 +115,13 @@ def main(model, dp_size, local_dp_rank, global_dp_rank, dp_master_ip,
                                      max_tokens=[16, 20][global_dp_rank % 2])
 
     # Create an LLM.
-    llm = LLM(model=model,
-              tensor_parallel_size=GPUs_per_dp_rank,
-              enforce_eager=True,
-              enable_expert_parallel=True)
+    llm = LLM(
+        model=model,
+        tensor_parallel_size=GPUs_per_dp_rank,
+        enforce_eager=enforce_eager,
+        enable_expert_parallel=True,
+        trust_remote_code=trust_remote_code,
+    )
     outputs = llm.generate(prompts, sampling_params)
     # Print the outputs.
     for i, output in enumerate(outputs):
@@ -155,7 +164,8 @@ if __name__ == "__main__":
         proc = Process(target=main,
                        args=(args.model, dp_size, local_dp_rank,
                              global_dp_rank, dp_master_ip, dp_master_port,
-                             tp_size))
+                             tp_size, args.enforce_eager,
+                             args.trust_remote_code))
         proc.start()
         procs.append(proc)
     exit_code = 0
diff --git a/tests/kernels/moe/test_batched_moe.py b/tests/kernels/moe/test_batched_moe.py
new file mode 100644
index 000000000..7d369edfc
--- /dev/null
+++ b/tests/kernels/moe/test_batched_moe.py
@@ -0,0 +1,114 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from dataclasses import dataclass
+
+import pytest
+import torch
+import triton.language as tl
+
+from vllm.model_executor.layers.fused_moe.fused_batched_moe import (
+    invoke_moe_batched_triton_kernel)
+
+
+@dataclass
+class BatchedMMConfig:
+    dtype: torch.dtype
+    num_experts: int
+    max_tokens_per_expert: int
+    K: int
+    N: int
+
+
+@dataclass
+class BatchedMMTensors:
+    A: torch.Tensor  # [E, max_tokens, K]
+    B: torch.Tensor  # [E, K, N] - column major
+    C: torch.Tensor  # [E, max_tokens, N]
+    num_expert_tokens: torch.Tensor  # [E]
+
+    @staticmethod
+    def make_tensors(config: BatchedMMConfig):
+        A = torch.randn(
+            (config.num_experts, config.max_tokens_per_expert, config.K),
+            device="cuda",
+            dtype=config.dtype) / 10
+        B = torch.randn((config.num_experts, config.N, config.K),
+                        device="cuda",
+                        dtype=config.dtype)
+        C = torch.zeros(
+            (config.num_experts, config.max_tokens_per_expert, config.N),
+            device="cuda",
+            dtype=config.dtype)
+        num_expert_tokens = torch.randint(low=0,
+                                          high=config.max_tokens_per_expert,
+                                          size=(config.num_experts, ),
+                                          device="cuda",
+                                          dtype=torch.int32)
+        return BatchedMMTensors(A, B, C, num_expert_tokens)
+
+
+def ref_impl(A: torch.Tensor, B: torch.Tensor, C: torch.Tensor,
+             num_expert_tokens: torch.Tensor) -> torch.Tensor:
+
+    num_expert_tokens_cpu = num_expert_tokens.clone()
+    num_expert_tokens_cpu = num_expert_tokens_cpu.to(device="cpu")
+    num_experts = num_expert_tokens.size(0)
+
+    for e in range(num_experts):
+        num_tokens = num_expert_tokens_cpu[e]
+        C[e, :num_tokens, :] = A[e, :num_tokens, :] @ B[e].transpose(0, 1)
+
+    return C
+
+
+@pytest.mark.parametrize("num_experts", [16, 32])
+@pytest.mark.parametrize("max_tokens_per_expert",
+                         [32, 64, 128, 192, 224, 256, 512])
+@pytest.mark.parametrize("K", [128, 256, 1024])
+@pytest.mark.parametrize("N", [128, 256, 512, 1024])
+@pytest.mark.parametrize("dtype",
+                         [torch.float32, torch.float16, torch.bfloat16])
+def test_batched_mm(num_experts: int, max_tokens_per_expert: int, K: int,
+                    N: int, dtype: torch.dtype):
+
+    config = BatchedMMConfig(dtype, num_experts, max_tokens_per_expert, K, N)
+    tensors = BatchedMMTensors.make_tensors(config)
+
+    test_output = tensors.C
+    ref_output = test_output.clone()
+
+    compute_tl_dtype = {
+        torch.float16: tl.float16,
+        torch.bfloat16: tl.bfloat16,
+        torch.float32: tl.float32
+    }[test_output.dtype]
+    invoke_moe_batched_triton_kernel(
+        tensors.A,
+        tensors.B,
+        test_output,
+        tensors.num_expert_tokens,
+        compute_tl_dtype,
+        # Quantization data
+        None,
+        None,
+        None,
+        # Quantization schemes
+        False,
+        False,
+        False,
+        config={
+            "BLOCK_SIZE_M": 16,
+            "BLOCK_SIZE_N": 16,
+            "BLOCK_SIZE_K": 16
+        })
+
+    ref_output = ref_impl(tensors.A, tensors.B, ref_output,
+                          tensors.num_expert_tokens)
+
+    rtol, atol = {
+        torch.float16: (6e-2, 6e-2),
+        torch.bfloat16: (6e-2, 6e-2),
+        torch.float32: (1e-2, 1e-2),
+    }[test_output.dtype]
+
+    torch.testing.assert_close(test_output, ref_output, atol=atol, rtol=rtol)
diff --git a/tests/kernels/moe/test_cutlass_moe.py b/tests/kernels/moe/test_cutlass_moe.py
index 975cd418a..7db4fe0f4 100644
--- a/tests/kernels/moe/test_cutlass_moe.py
+++ b/tests/kernels/moe/test_cutlass_moe.py
@@ -30,6 +30,11 @@ MNK_FACTORS = [
     (224, 3072, 1536),
 ]
 
+vllm_config = VllmConfig(parallel_config=ParallelConfig(
+    pipeline_parallel_size=1))
+vllm_config.scheduler_config.max_num_seqs = 128
+vllm_config.scheduler_config.max_model_len = 8192
+
 
 @dataclasses.dataclass
 class MOETensors:
@@ -190,7 +195,7 @@ def run_8_bit(moe_tensors: MOETensors8Bit,
         'w1_q': moe_tensors.w1_q.transpose(1, 2),  # type: ignore[union-attr]
         'w2_q': moe_tensors.w2_q.transpose(1, 2),  # type: ignore[union-attr]
         'topk_weights': topk_weights,
-        'topk_ids_': topk_ids,
+        'topk_ids': topk_ids,
         'ab_strides1': moe_tensors.ab_strides1,
         'c_strides1': moe_tensors.c_strides1,
         'ab_strides2': moe_tensors.ab_strides2,
@@ -231,18 +236,15 @@ def test_cutlass_moe_8_bit_no_graph(
     per_out_ch: bool,
 ):
     current_platform.seed_everything(7)
-    with set_current_vllm_config(
-            VllmConfig(parallel_config=ParallelConfig(
-                pipeline_parallel_size=1))):
-
+    with set_current_vllm_config(vllm_config):
         mt = MOETensors8Bit.make_moe_tensors_8bit(m, k, n, e, per_act_token,
                                                   per_out_ch)
 
         score = torch.randn((m, e), device="cuda", dtype=torch.half)
-        topk_weights, topk_ids = fused_topk(mt.a,
-                                            score,
-                                            topk,
-                                            renormalize=False)
+        topk_weights, topk_ids, _ = fused_topk(mt.a,
+                                               score,
+                                               topk,
+                                               renormalize=False)
 
         # Note that we are using the dequantized versions of the tensors.
         # Using a, w1 and w2 directly results in minor output differences.
@@ -276,20 +278,17 @@ def test_cutlass_moe_8_bit_cuda_graph(
     per_out_ch: bool,
 ):
     current_platform.seed_everything(7)
-    with set_current_vllm_config(
-            VllmConfig(parallel_config=ParallelConfig(
-                pipeline_parallel_size=1))):
-
+    with set_current_vllm_config(vllm_config):
         dtype = torch.half
 
         mt = MOETensors8Bit.make_moe_tensors_8bit(m, k, n, e, per_act_token,
                                                   per_out_ch)
 
         score = torch.randn((m, e), device="cuda", dtype=dtype)
-        topk_weights, topk_ids = fused_topk(mt.a,
-                                            score,
-                                            topk,
-                                            renormalize=False)
+        topk_weights, topk_ids, _ = fused_topk(mt.a,
+                                               score,
+                                               topk,
+                                               renormalize=False)
 
         # Note that we are using the dequantized versions of the tensors.
         # Using a, w1 and w2 directly results in minor output differences.
@@ -334,18 +333,15 @@ def test_cutlass_moe_8_bit_EP(
     ep_size: int,
 ):
     current_platform.seed_everything(7)
-    with set_current_vllm_config(
-            VllmConfig(parallel_config=ParallelConfig(
-                pipeline_parallel_size=1))):
-
+    with set_current_vllm_config(vllm_config):
         mt = MOETensors8Bit.make_moe_tensors_8bit(m, k, n, e, per_act_token,
                                                   per_out_channel)
 
         score = torch.randn((m, e), device="cuda", dtype=torch.half)
-        topk_weights, topk_ids = fused_topk(mt.a,
-                                            score,
-                                            topk,
-                                            renormalize=False)
+        topk_weights, topk_ids, _ = fused_topk(mt.a,
+                                               score,
+                                               topk,
+                                               renormalize=False)
 
         # Note that we are using the dequantized versions of the tensors.
         # Using a, w1 and w2 directly results in minor output differences.
diff --git a/tests/kernels/moe/test_moe.py b/tests/kernels/moe/test_moe.py
index 96b090136..43ddc79fc 100644
--- a/tests/kernels/moe/test_moe.py
+++ b/tests/kernels/moe/test_moe.py
@@ -12,6 +12,7 @@ from transformers.models.mixtral.modeling_mixtral import MixtralSparseMoeBlock
 
 import vllm.model_executor.layers.fused_moe  # noqa
 from tests.kernels.utils import opcheck, stack_and_dev, torch_moe
+from vllm.config import VllmConfig, set_current_vllm_config
 from vllm.model_executor.layers.fused_moe import fused_moe
 from vllm.model_executor.layers.fused_moe.fused_moe import fused_topk
 from vllm.model_executor.layers.fused_moe.moe_torch_iterative import (
@@ -32,6 +33,10 @@ NUM_EXPERTS = [8, 64]
 EP_SIZE = [1, 4]
 TOP_KS = [2, 6]
 
+vllm_config = VllmConfig()
+vllm_config.scheduler_config.max_num_seqs = 128
+vllm_config.scheduler_config.max_model_len = 8192
+
 
 @pytest.mark.parametrize("m", [1, 33, 64, 222, 1024 * 128])
 @pytest.mark.parametrize("n", [128, 1024, 2048])
@@ -70,31 +75,33 @@ def test_fused_moe(
     else:
         e_map = None
 
-    torch_output = torch_moe(a, w1, w2, score, topk, e_map)
-    iterative_output = iterative_moe(a,
-                                     w1,
-                                     w2,
-                                     score,
-                                     topk,
-                                     global_num_experts=e,
-                                     expert_map=e_map,
-                                     renormalize=False)
+    with set_current_vllm_config(vllm_config):
+        torch_output = torch_moe(a, w1, w2, score, topk, e_map)
+        iterative_output = iterative_moe(a,
+                                         w1,
+                                         w2,
+                                         score,
+                                         topk,
+                                         global_num_experts=e,
+                                         expert_map=e_map,
+                                         renormalize=False)
+
+        # Pad the weight if moe padding is enabled
+        if padding:
+            w1 = F.pad(w1, (0, 128), "constant", 0)[..., 0:-128]
+            torch.cuda.empty_cache()
+            w2 = F.pad(w2, (0, 128), "constant", 0)[..., 0:-128]
+            torch.cuda.empty_cache()
+
+        triton_output = fused_moe(a,
+                                  w1,
+                                  w2,
+                                  score,
+                                  topk,
+                                  global_num_experts=e,
+                                  expert_map=e_map,
+                                  renormalize=False)
 
-    # Pad the weight if moe padding is enabled
-    if padding:
-        w1 = F.pad(w1, (0, 128), "constant", 0)[..., 0:-128]
-        torch.cuda.empty_cache()
-        w2 = F.pad(w2, (0, 128), "constant", 0)[..., 0:-128]
-        torch.cuda.empty_cache()
-
-    triton_output = fused_moe(a,
-                              w1,
-                              w2,
-                              score,
-                              topk,
-                              global_num_experts=e,
-                              expert_map=e_map,
-                              renormalize=False)
     torch.testing.assert_close(triton_output, torch_output, atol=2e-2, rtol=0)
     torch.testing.assert_close(iterative_output,
                                torch_output,
@@ -115,7 +122,6 @@ def test_fused_moe(
 def test_fused_moe_wn16(m: int, n: int, k: int, e: int, topk: int,
                         ep_size: int, dtype: torch.dtype, group_size: int,
                         has_zp: bool, weight_bits: int):
-    print(m, n, k, e, topk, dtype, group_size, has_zp, weight_bits)
     a = torch.randn((m, k), device="cuda", dtype=dtype) / 10
     w1 = torch.randn((e, 2 * n, k), device="cuda", dtype=dtype) / 10
     w2 = torch.randn((e, k, n), device="cuda", dtype=dtype) / 10
@@ -194,22 +200,24 @@ def test_fused_moe_wn16(m: int, n: int, k: int, e: int, topk: int,
     else:
         e_map = None
 
-    triton_output = fused_moe(a,
-                              w1_qweight,
-                              w2_qweight,
-                              score,
-                              topk,
-                              renormalize=False,
-                              use_int4_w4a16=weight_bits == 4,
-                              use_int8_w8a16=weight_bits == 8,
-                              global_num_experts=e,
-                              expert_map=e_map,
-                              w1_scale=w1_scales,
-                              w2_scale=w2_scales,
-                              w1_zp=w1_qzeros if has_zp else None,
-                              w2_zp=w2_qzeros if has_zp else None,
-                              block_shape=[0, group_size])
-    torch_output = torch_moe(a, w1_ref, w2_ref, score, topk, e_map)
+    with set_current_vllm_config(vllm_config):
+        triton_output = fused_moe(a,
+                                  w1_qweight,
+                                  w2_qweight,
+                                  score,
+                                  topk,
+                                  renormalize=False,
+                                  use_int4_w4a16=weight_bits == 4,
+                                  use_int8_w8a16=weight_bits == 8,
+                                  global_num_experts=e,
+                                  expert_map=e_map,
+                                  w1_scale=w1_scales,
+                                  w2_scale=w2_scales,
+                                  w1_zp=w1_qzeros if has_zp else None,
+                                  w2_zp=w2_qzeros if has_zp else None,
+                                  block_shape=[0, group_size])
+        torch_output = torch_moe(a, w1_ref, w2_ref, score, topk, e_map)
+
     torch.testing.assert_close(triton_output, torch_output, atol=2e-2, rtol=0)
 
 
@@ -515,7 +523,8 @@ def test_fused_marlin_moe(
 
     topk_weights, topk_ids, _ = fused_topk(a, score, topk, False)
 
-    torch_output = torch_moe(a, w_ref1, w_ref2, score, topk, e_map)
+    with set_current_vllm_config(vllm_config):
+        torch_output = torch_moe(a, w_ref1, w_ref2, score, topk, e_map)
 
     marlin_output = torch.ops.vllm.fused_marlin_moe(
         a,
diff --git a/tests/kernels/moe/test_pplx_moe.py b/tests/kernels/moe/test_pplx_moe.py
new file mode 100644
index 000000000..8c4a2c3fa
--- /dev/null
+++ b/tests/kernels/moe/test_pplx_moe.py
@@ -0,0 +1,691 @@
+# SPDX-License-Identifier: Apache-2.0
+"""Tests for the MOE layers.
+
+Run `pytest tests/kernels/test_pplx_moe.py`.
+"""
+import dataclasses
+import os
+import traceback
+from typing import Callable, Optional
+
+import pytest
+import torch
+
+try:
+    from pplx_kernels import AllToAll
+    from pplx_kernels.nvshmem import (nvshmem_alloc_empty_unique_id,
+                                      nvshmem_finalize, nvshmem_get_unique_id,
+                                      nvshmem_init)
+    has_pplx = True
+except ImportError:
+    has_pplx = False
+
+from torch.multiprocessing import (
+    spawn)  # pyright: ignore[reportPrivateImportUsage]
+from typing_extensions import Concatenate, ParamSpec
+
+from vllm.config import VllmConfig, set_current_vllm_config
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import override_config
+from vllm.model_executor.layers.fused_moe.fused_batched_moe import (
+    BatchedExperts, BatchedPrepareAndFinalize, BatchedTritonExperts)
+from vllm.model_executor.layers.fused_moe.fused_moe import (fused_topk,
+                                                            get_default_config)
+from vllm.model_executor.layers.fused_moe.modular_kernel import (
+    FusedMoEModularKernel)
+from vllm.platforms import current_platform
+
+PPLX_PREPARE_COMBOS = [(4, 128, 128), (32, 1024, 512), (64, 1024, 512),
+                       (222, 2048, 1024)]
+
+PPLX_MOE_COMBOS = [
+    (1, 128, 128),
+    (2, 128, 512),
+    (3, 1024, 2048),
+    (32, 128, 1024),
+    (45, 512, 2048),
+    (64, 1024, 1024),
+    (222, 1024, 2048),
+]
+
+NUM_EXPERTS = [8, 64]
+EP_SIZE = [1, 4]
+TOP_KS = [1, 2, 6]
+
+vllm_config = VllmConfig()
+vllm_config.scheduler_config.max_num_seqs = 128
+vllm_config.scheduler_config.max_model_len = 8192
+
+P = ParamSpec("P")
+
+requires_pplx = pytest.mark.skipif(
+    not has_pplx,
+    reason="Requires PPLX kernels",
+)
+
+
+@dataclasses.dataclass
+class ProcessGroupInfo:
+    world_size: int
+    world_local_size: int
+    rank: int
+    node_rank: int
+    local_rank: int
+    device: torch.device
+
+
+def _worker_parallel_launch(
+    local_rank: int,
+    world_size: int,
+    world_local_size: int,
+    node_rank: int,
+    init_method: str,
+    worker: Callable[Concatenate[ProcessGroupInfo, P], None],
+    *args: P.args,
+    **kwargs: P.kwargs,
+) -> None:
+    rank = node_rank * world_local_size + local_rank
+    torch.cuda.set_device(local_rank)
+    device = torch.device("cuda", local_rank)
+    torch.distributed.init_process_group(
+        backend="cpu:gloo,cuda:nccl",
+        init_method=init_method,
+        rank=rank,
+        world_size=world_size,
+        device_id=device,
+    )
+    barrier = torch.tensor([rank], device=device)
+    torch.distributed.all_reduce(barrier)
+
+    try:
+        worker(
+            ProcessGroupInfo(
+                world_size=world_size,
+                world_local_size=world_local_size,
+                rank=rank,
+                node_rank=node_rank,
+                local_rank=local_rank,
+                device=device,
+            ),
+            *args,
+            **kwargs,
+        )
+    except Exception as ex:
+        print(ex)
+        traceback.print_exc()
+        raise
+    finally:
+        torch.distributed.destroy_process_group()
+
+
+def parallel_launch(
+    world_size: int,
+    worker: Callable[Concatenate[ProcessGroupInfo, P], None],
+    *args: P.args,
+    **kwargs: P.kwargs,
+) -> None:
+    assert not kwargs
+    spawn(
+        _worker_parallel_launch,
+        args=(
+            world_size,
+            world_size,
+            0,
+            "tcp://localhost:29500",
+            worker,
+        ) + args,
+        nprocs=world_size,
+        join=True,
+    )
+
+
+def parallel_launch_from_env(
+    worker: Callable[Concatenate[ProcessGroupInfo, P], None],
+    *args: P.args,
+    **kwargs: P.kwargs,
+) -> None:
+    """
+    Launches a worker function in parallel across all processes in the current
+    environment. The environment must have the following variables set:
+    - WORLD_SIZE: The total number of processes.
+    - WORLD_LOCAL_SIZE: The number of processes on the current node.
+    - NODE_RANK: The rank of the current
+    - MASTER_ADDR: The address of the master process.
+    - MASTER_PORT: The port of the master process.
+    """
+    assert not kwargs
+    world_size = int(os.environ["WORLD_SIZE"])
+    world_local_size = int(os.environ["WORLD_LOCAL_SIZE"])
+    node_rank = int(os.environ["NODE_RANK"])
+    assert "MASTER_ADDR" in os.environ
+    assert "MASTER_PORT" in os.environ
+    spawn(
+        _worker_parallel_launch,
+        args=(
+            world_size,
+            world_local_size,
+            node_rank,
+            "env://",
+            worker,
+        ) + args,
+        nprocs=world_local_size,
+        join=True,
+    )
+
+
+def torch_prepare(
+    a: torch.Tensor,
+    topk_ids: torch.Tensor,
+    num_experts: int,
+    max_num_tokens: Optional[int] = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    assert topk_ids.dim() == 2
+    assert topk_ids.shape[0] == a.shape[0]
+
+    num_tokens, hidden_dim = a.shape
+    topk = topk_ids.shape[1]
+
+    tokens_per_expert = torch.bincount(topk_ids.view(-1),
+                                       minlength=num_experts)
+
+    assert tokens_per_expert.numel() == num_experts
+
+    if max_num_tokens is None:
+        max_num_tokens = int(tokens_per_expert.max().item())
+
+    b_a = torch.zeros((num_experts, max_num_tokens, hidden_dim),
+                      dtype=a.dtype,
+                      device=a.device)
+
+    token_counts = torch.zeros(num_experts, dtype=torch.int, device=a.device)
+
+    for token in range(num_tokens):
+        for j in range(topk):
+            expert_id = topk_ids[token, j]
+            idx = token_counts[expert_id]
+            b_a[expert_id, idx:idx + 1, :] = a[token, :]
+            token_counts[expert_id] = token_counts[expert_id] + 1
+
+    return b_a, tokens_per_expert
+
+
+def torch_finalize(b_out: torch.Tensor, topk_weight: torch.Tensor,
+                   topk_ids: torch.Tensor) -> torch.Tensor:
+    num_tokens = topk_ids.shape[0]
+    num_experts = b_out.shape[0]
+    K = b_out.shape[-1]
+    out = torch.zeros((num_tokens, K), dtype=b_out.dtype, device=b_out.device)
+    expert_counts = torch.zeros(num_experts,
+                                dtype=torch.int,
+                                device=b_out.device)
+    for token in range(num_tokens):
+        expert_ids = topk_ids[token]
+        for i in range(expert_ids.numel()):
+            expert_id = expert_ids[i]
+            idx = expert_counts[expert_id]
+            out[token, :] = out[token, :] + b_out[expert_id, idx:idx +
+                                                  1, :] * topk_weight[token, i]
+            expert_counts[expert_id] = expert_counts[expert_id] + 1
+
+    return out
+
+
+def torch_batched_moe(
+    a: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weight: torch.Tensor,
+    topk_ids: torch.Tensor,
+) -> torch.Tensor:
+    num_experts = w1.shape[0]
+    b_a, tokens_per_expert = torch_prepare(a, topk_ids, num_experts)
+    assert b_a.dim() == 3
+    num_tokens, topk = topk_ids.shape
+    _, max_num_tokens, K = b_a.shape
+    assert num_experts == b_a.shape[0] and w2.shape[1] == K
+    out = torch.zeros((num_experts, max_num_tokens, K),
+                      dtype=b_a.dtype,
+                      device=b_a.device)
+    tmp = torch.empty((max_num_tokens, w1.shape[1] // 2),
+                      dtype=b_a.dtype,
+                      device=b_a.device)
+    for expert in range(num_experts):
+        num = tokens_per_expert[expert]
+        if num > 0:
+            torch.ops._C.silu_and_mul(
+                tmp[:num], b_a[expert, :num, :] @ w1[expert].transpose(0, 1))
+            out[expert, :num, :] = tmp[:num] @ w2[expert].transpose(0, 1)
+
+    return torch_finalize(out, topk_weight, topk_ids)
+
+
+def batched_moe(
+    a: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weight: torch.Tensor,
+    topk_ids: torch.Tensor,
+) -> torch.Tensor:
+    num_experts = w1.shape[0]
+
+    fused_experts = FusedMoEModularKernel(
+        BatchedPrepareAndFinalize(a.shape[0], world_size=1, dp_size=1, rank=0),
+        BatchedExperts(max_num_tokens=a.shape[0], dp_size=1, world_size=1))
+
+    return fused_experts(a, w1, w2, topk_weight, topk_ids, num_experts)
+
+
+# Note: same as torch_moe but with fused_topk factored out.
+def torch_moe2(
+    a: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weight: torch.Tensor,
+    topk_ids: torch.Tensor,
+) -> torch.Tensor:
+    M, K = a.shape
+    topk = topk_ids.shape[1]
+    a = a.view(M, -1, K).repeat(1, topk, 1).reshape(-1, K)
+    out = torch.zeros(M * topk, w2.shape[1], dtype=a.dtype, device=a.device)
+    num_experts = w1.shape[0]
+    for i in range(num_experts):
+        mask = (topk_ids == i).view(-1)
+        if mask.sum():
+            out[mask] = SiluAndMul()(
+                a[mask] @ w1[i].transpose(0, 1)) @ w2[i].transpose(0, 1)
+
+    return (out.view(M, -1, w2.shape[1]) *
+            topk_weight.view(M, -1, 1).to(out.dtype)).sum(dim=1)
+
+
+@pytest.mark.parametrize("m", [1, 33, 64, 222])
+@pytest.mark.parametrize("n", [128, 1024, 2048])
+@pytest.mark.parametrize("k", [128, 512, 1024])
+@pytest.mark.parametrize("e", NUM_EXPERTS)
+@pytest.mark.parametrize("topk", TOP_KS)
+@pytest.mark.parametrize("dtype", [torch.bfloat16])
+def test_fused_moe_batched_experts(
+    m: int,
+    n: int,
+    k: int,
+    e: int,
+    topk: int,
+    dtype: torch.dtype,
+):
+    current_platform.seed_everything(7)
+
+    a = torch.randn((m, k), device="cuda", dtype=dtype) / 10
+    w1 = torch.randn((e, 2 * n, k), device="cuda", dtype=dtype) / 10
+    w2 = torch.randn((e, k, n), device="cuda", dtype=dtype) / 10
+    score = torch.randn((m, e), device="cuda", dtype=dtype)
+
+    with set_current_vllm_config(vllm_config):
+        topk_weight, topk_ids, _ = fused_topk(a, score, topk, False)
+        baseline_output = torch_moe2(a, w1, w2, topk_weight, topk_ids)
+        torch_output = torch_batched_moe(a, w1, w2, topk_weight, topk_ids)
+        batched_output = batched_moe(a, w1, w2, topk_weight, topk_ids)
+
+    torch.testing.assert_close(baseline_output,
+                               torch_output,
+                               atol=2e-2,
+                               rtol=0)
+    torch.testing.assert_close(baseline_output,
+                               batched_output,
+                               atol=2e-2,
+                               rtol=0)
+
+
+def rank_chunk(num: int, r: int, w: int) -> int:
+    rem = num % w
+    return (num // w) + (1 if r < rem else 0)
+
+
+def chunk_by_rank(t: torch.Tensor, r: int, w: int) -> torch.Tensor:
+    chunk = rank_chunk(t.shape[0], r, w)
+    return t[(r * chunk):(r + 1) * chunk]
+
+
+def pplx_prepare_finalize(pgi: ProcessGroupInfo, dp_size: int, a: torch.Tensor,
+                          topk_weight: torch.Tensor, topk_ids: torch.Tensor,
+                          num_experts: int) -> torch.Tensor:
+    from vllm.model_executor.layers.fused_moe.pplx_prepare_finalize import (
+        PplxPrepareAndFinalize)
+
+    assert torch.cuda.current_device() == pgi.local_rank
+
+    topk = topk_ids.shape[1]
+    num_tokens, hidden_dim = a.shape
+    block_size = 128
+    device = pgi.device
+    rank = pgi.rank
+    world_size = pgi.world_size
+    max_num_tokens = rank_chunk(num_tokens, 0, world_size)
+
+    ata = AllToAll.internode(
+        max_num_tokens=max_num_tokens,
+        num_experts=num_experts,
+        experts_per_token=topk,
+        rank=rank,
+        world_size=world_size,
+        dp_size=dp_size,
+        hidden_dim=hidden_dim,
+        hidden_dim_bytes=hidden_dim * a.dtype.itemsize,
+        hidden_dim_scale_bytes=(0 if a.dtype.itemsize != 1 else
+                                ((hidden_dim + block_size - 1) // block_size *
+                                 torch.float32.itemsize)),
+    )
+
+    topk_ids = topk_ids.to(dtype=torch.uint32)
+
+    prepare_finalize = PplxPrepareAndFinalize(
+        ata,
+        max_num_tokens,
+        world_size,
+        rank,
+        dp_size,
+        a.dtype,
+    )
+
+    a_chunk = chunk_by_rank(a, rank, world_size).to(device)
+    chunk_topk_weight = chunk_by_rank(topk_weight, rank, world_size).to(device)
+    chunk_topk_ids = chunk_by_rank(topk_ids, rank, world_size).to(device)
+
+    b_a, b_a_scale, expert_num_tokens = prepare_finalize.prepare(
+        a_chunk,
+        None,
+        None,
+        chunk_topk_weight,
+        chunk_topk_ids,
+        num_experts,
+        None,
+        False,
+    )
+
+    b_a = b_a * 1.5
+
+    out = torch.full(
+        (max_num_tokens, hidden_dim),
+        torch.nan,
+        dtype=a.dtype,
+        device=device,
+    )
+
+    prepare_finalize.finalize(
+        out,
+        b_a,
+        chunk_topk_weight,
+        chunk_topk_ids,
+        False,
+    )
+
+    torch.cuda.synchronize()
+
+    ata.destroy()
+
+    num_tokens = a_chunk.shape[0]
+
+    return out[:num_tokens]
+
+
+def _pplx_prepare_finalize(
+    pgi: ProcessGroupInfo,
+    dp_size: int,
+    a: torch.Tensor,
+    score: torch.Tensor,
+    topk: torch.Tensor,
+    num_experts: int,
+):
+    uid = nvshmem_get_unique_id(
+    ) if pgi.rank == 0 else nvshmem_alloc_empty_unique_id()
+    torch.distributed.broadcast(uid, src=0)
+    nvshmem_init(uid, pgi.rank, pgi.world_size)
+    device = pgi.device
+
+    topk_weight, topk_ids, _ = fused_topk(a, score, topk, False)
+    k = a.shape[1]
+
+    a_rep = torch.repeat_interleave(a, topk, dim=0).to(device)
+
+    torch_output = (a_rep.view(-1, topk, k) * 1.5 *
+                    topk_weight.view(-1, topk, 1).to(device)).sum(dim=1).to(
+                        a.dtype)
+
+    pplx_output = pplx_prepare_finalize(pgi, dp_size, a, topk_weight, topk_ids,
+                                        num_experts)
+
+    torch_output = chunk_by_rank(torch_output, pgi.rank,
+                                 pgi.world_size).to(pplx_output.device)
+
+    torch.testing.assert_close(pplx_output, torch_output, atol=2e-2, rtol=0)
+
+    nvshmem_finalize()
+
+
+# TODO (bnell): this test point does not work for odd M due to how the test is
+# written, not due to limitations of the pplx kernels.  The pplx_moe
+# test below is able to deal with odd M.
+@pytest.mark.parametrize("mnk", PPLX_PREPARE_COMBOS)
+@pytest.mark.parametrize("e", NUM_EXPERTS)
+@pytest.mark.parametrize("topk", TOP_KS)
+@pytest.mark.parametrize("dtype", [torch.bfloat16])
+@pytest.mark.parametrize("world_dp_size", [[2, 1]])
+@requires_pplx
+def test_pplx_prepare_finalize(
+    mnk: tuple[int, int, int],
+    e: int,
+    topk: int,
+    dtype: torch.dtype,
+    world_dp_size: tuple[int, int],
+):
+    current_platform.seed_everything(7)
+    m, n, k = mnk
+    world_size, dp_size = world_dp_size
+    device = "cuda"
+    a = torch.randn((m, k), device=device, dtype=dtype) / 10
+    score = torch.randn((m, e), device=device, dtype=dtype)
+
+    parallel_launch(world_size, _pplx_prepare_finalize, dp_size, a, score,
+                    topk, e)
+
+
+def pplx_moe(
+    rank: int,
+    world_size: int,
+    dp_size: int,
+    a: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weight: torch.Tensor,
+    topk_ids: torch.Tensor,
+    use_compile: bool = True,
+    use_cudagraphs: bool = True,
+) -> torch.Tensor:
+    from vllm.model_executor.layers.fused_moe.pplx_prepare_finalize import (
+        PplxPrepareAndFinalize)
+
+    device = torch.device("cuda", rank)
+    hidden_dim = a.shape[1]
+    num_experts = w1.shape[0]
+    block_size = 128
+    topk = topk_ids.shape[1]
+    max_num_tokens = rank_chunk(a.shape[0], 0, world_size)
+
+    ata = AllToAll.internode(
+        max_num_tokens=max_num_tokens,
+        num_experts=num_experts,
+        experts_per_token=topk,
+        rank=rank,
+        world_size=world_size,
+        dp_size=dp_size,
+        hidden_dim=hidden_dim,
+        hidden_dim_bytes=hidden_dim * a.dtype.itemsize,
+        hidden_dim_scale_bytes=(0 if a.dtype.itemsize != 1 else
+                                ((hidden_dim + block_size - 1) // block_size *
+                                 torch.float32.itemsize)),
+    )
+
+    topk_ids = topk_ids.to(dtype=torch.uint32)
+
+    prepare_finalize = PplxPrepareAndFinalize(
+        ata,
+        max_num_tokens,
+        world_size,
+        rank,
+        dp_size,
+    )
+
+    experts = BatchedTritonExperts(max_num_tokens=a.shape[0],
+                                   world_size=world_size,
+                                   dp_size=dp_size)
+
+    fused_experts = FusedMoEModularKernel(
+        prepare_finalize,
+        experts,
+    )
+
+    # Note: workers with the same dp_rank must use the exact same inputs.
+    a_chunk = chunk_by_rank(a, rank, world_size).to(device)
+    chunk_topk_weight = chunk_by_rank(topk_weight, rank, world_size).to(device)
+    chunk_topk_ids = chunk_by_rank(topk_ids, rank, world_size).to(device)
+
+    # Chunking weights like this only works for batched format
+    w1_chunk = chunk_by_rank(w1, rank, world_size).to(device)
+    w2_chunk = chunk_by_rank(w2, rank, world_size).to(device)
+
+    if use_compile:
+        _fused_experts = torch.compile(fused_experts,
+                                       backend='inductor',
+                                       fullgraph=True)
+    else:
+        _fused_experts = fused_experts
+
+    out = _fused_experts(a_chunk,
+                         w1_chunk,
+                         w2_chunk,
+                         chunk_topk_weight,
+                         chunk_topk_ids,
+                         global_num_experts=num_experts)
+
+    if use_cudagraphs:
+        out.fill_(0)
+        stream = torch.cuda.Stream()
+        graph = torch.cuda.CUDAGraph()
+        with torch.cuda.graph(graph, stream=stream):
+            out = _fused_experts(a_chunk,
+                                 w1_chunk,
+                                 w2_chunk,
+                                 chunk_topk_weight,
+                                 chunk_topk_ids,
+                                 global_num_experts=num_experts)
+
+        torch.cuda.synchronize()
+        graph.replay()
+
+    torch.cuda.synchronize()
+
+    ata.destroy()
+
+    return out
+
+
+def _batched_moe(pgi, dp_size, a, w1, w2, topk_weight, topk_ids):
+    assert torch.cuda.current_device() == pgi.local_rank
+
+    num_experts = w1.shape[0]
+    device = pgi.device
+    rank = pgi.rank
+    world_size = pgi.world_size
+    max_num_tokens = rank_chunk(a.shape[0], 0, world_size)
+
+    prepare_finalize = BatchedPrepareAndFinalize(
+        max_num_tokens=max_num_tokens,
+        world_size=world_size,
+        dp_size=dp_size,
+        rank=rank,
+    )
+
+    experts = BatchedExperts(max_num_tokens=a.shape[0],
+                             world_size=1,
+                             dp_size=1)
+
+    fused_experts = FusedMoEModularKernel(
+        prepare_finalize,
+        experts,
+    )
+
+    # Note: workers with the same dp_rank must use the exact same inputs.
+    a_chunk = chunk_by_rank(a, rank, world_size).to(device)
+    chunk_topk_weight = chunk_by_rank(topk_weight, rank, world_size).to(device)
+    chunk_topk_ids = chunk_by_rank(topk_ids, rank, world_size).to(device)
+
+    out = fused_experts(
+        a_chunk,
+        # Chunking weights like this only works for batched format
+        chunk_by_rank(w1, rank, world_size).to(device),
+        chunk_by_rank(w2, rank, world_size).to(device),
+        chunk_topk_weight,
+        chunk_topk_ids,
+        global_num_experts=num_experts)
+
+    return out
+
+
+def _pplx_moe(
+    pgi: ProcessGroupInfo,
+    dp_size: int,
+    a: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    score: torch.Tensor,
+    topk: int,
+):
+    uid = nvshmem_get_unique_id(
+    ) if pgi.rank == 0 else nvshmem_alloc_empty_unique_id()
+    torch.distributed.broadcast(uid, src=0)
+    nvshmem_init(uid, pgi.rank, pgi.world_size)
+
+    m, k = a.shape
+    e, _, n = w2.shape
+
+    moe_config = get_default_config(m, e, n, k, topk, a.dtype, False)
+
+    with set_current_vllm_config(vllm_config), override_config(moe_config):
+        topk_weight, topk_ids, _ = fused_topk(a, score, topk, False)
+        torch_output = torch_moe2(a, w1, w2, topk_weight, topk_ids)
+        pplx_output = pplx_moe(pgi.rank, pgi.world_size, dp_size, a, w1, w2,
+                               topk_weight, topk_ids)
+        # TODO (bnell): fix + re-enable
+        #batched_output = _batched_moe(pgi, dp_size, a, w1, w2, topk_weight,
+        #                              topk_ids)
+
+    torch_output = chunk_by_rank(torch_output, pgi.rank,
+                                 pgi.world_size).to(pplx_output.device)
+
+    torch.testing.assert_close(pplx_output, torch_output, atol=2e-2, rtol=0)
+    #torch.testing.assert_close(batched_output, torch_output, atol=2e-2, rtol=0)
+
+    nvshmem_finalize()
+
+
+@pytest.mark.parametrize("mnk", PPLX_MOE_COMBOS)
+@pytest.mark.parametrize("e", NUM_EXPERTS)
+@pytest.mark.parametrize("topk", TOP_KS)
+@pytest.mark.parametrize("dtype", [torch.bfloat16])
+@pytest.mark.parametrize("world_dp_size", [[2, 1]])
+@requires_pplx
+def test_pplx_moe(
+    mnk: tuple[int, int, int],
+    e: int,
+    topk: int,
+    dtype: torch.dtype,
+    world_dp_size: tuple[int, int],
+):
+    current_platform.seed_everything(7)
+    m, n, k = mnk
+    world_size, dp_size = world_dp_size
+    a = torch.randn((m, k), device="cuda", dtype=dtype) / 10
+    w1 = torch.randn((e, 2 * n, k), device="cuda", dtype=dtype) / 10
+    w2 = torch.randn((e, k, n), device="cuda", dtype=dtype) / 10
+    score = torch.randn((m, e), device="cuda", dtype=dtype)
+
+    parallel_launch(world_size, _pplx_moe, dp_size, a, w1, w2, score, topk)
diff --git a/tests/kernels/moe/test_triton_moe_ptpc_fp8.py b/tests/kernels/moe/test_triton_moe_ptpc_fp8.py
index 44734e934..3b5838a99 100644
--- a/tests/kernels/moe/test_triton_moe_ptpc_fp8.py
+++ b/tests/kernels/moe/test_triton_moe_ptpc_fp8.py
@@ -7,6 +7,7 @@ import pytest
 import torch
 
 from vllm import _custom_ops as ops
+from vllm.config import VllmConfig, set_current_vllm_config
 from vllm.model_executor.layers.activation import SiluAndMul
 from vllm.model_executor.layers.fused_moe import fused_moe
 from vllm.platforms import current_platform
@@ -15,6 +16,10 @@ if current_platform.get_device_capability() < (9, 0):
     pytest.skip("FP8 Triton requires CUDA 9.0 or higher",
                 allow_module_level=True)
 
+vllm_config = VllmConfig()
+vllm_config.scheduler_config.max_num_seqs = 128
+vllm_config.scheduler_config.max_model_len = 8192
+
 
 def native_w8a8_per_token_matmul(A, B, As, Bs, output_dtype=torch.float16):
     """Matrix multiplication function that supports per-token input
@@ -137,20 +142,21 @@ def test_w8a8_fp8_fused_moe(M, N, K, E, topk, dtype, seed):
     w2_s = torch.rand(E, K, device=w2_fp32.device) * factor_for_scale
     score = torch.randn((M, E), dtype=dtype)
 
-    ref_out = torch_w8a8_per_column_moe(a, w1, w2, w1_s, w2_s, score, topk)
-    out = fused_moe(
-        a,
-        w1,
-        w2,
-        score,
-        topk,
-        renormalize=False,
-        use_fp8_w8a8=True,  # using fp8
-        per_channel_quant=True,
-        w1_scale=w1_s,
-        w2_scale=w2_s,
-        block_shape=None,  # Not using block quantization
-    )
+    with set_current_vllm_config(vllm_config):
+        ref_out = torch_w8a8_per_column_moe(a, w1, w2, w1_s, w2_s, score, topk)
+        out = fused_moe(
+            a,
+            w1,
+            w2,
+            score,
+            topk,
+            renormalize=False,
+            use_fp8_w8a8=True,  # using fp8
+            per_channel_quant=True,
+            w1_scale=w1_s,
+            w2_scale=w2_s,
+            block_shape=None,  # Not using block quantization
+        )
 
     # Check results
     rel_diff = (torch.mean(
diff --git a/tests/kernels/quantization/test_block_fp8.py b/tests/kernels/quantization/test_block_fp8.py
index 38c7e461b..ef1d7e47e 100644
--- a/tests/kernels/quantization/test_block_fp8.py
+++ b/tests/kernels/quantization/test_block_fp8.py
@@ -11,7 +11,7 @@ from vllm.config import VllmConfig, set_current_vllm_config
 from vllm.model_executor.layers.activation import SiluAndMul
 from vllm.model_executor.layers.fused_moe import fused_moe
 from vllm.model_executor.layers.fused_moe.deep_gemm_moe import (
-    deep_gemm_moe_fp8)
+    _valid_deep_gemm_shape, deep_gemm_moe_fp8)
 from vllm.model_executor.layers.fused_moe.fused_moe import fused_topk
 from vllm.model_executor.layers.fused_moe.moe_align_block_size import (
     moe_align_block_size)
@@ -30,6 +30,10 @@ if current_platform.get_device_capability() < (9, 0):
     pytest.skip("FP8 Triton requires CUDA 9.0 or higher",
                 allow_module_level=True)
 
+vllm_config = VllmConfig()
+vllm_config.scheduler_config.max_num_seqs = 128
+vllm_config.scheduler_config.max_model_len = 8192
+
 # Test configurations
 DTYPES = [torch.bfloat16]  # [torch.half, torch.bfloat16, torch.float32]
 NUM_TOKENS = [7, 83, 2048]
@@ -210,7 +214,6 @@ def test_w8a8_block_fp8_fused_moe(M, N, K, E, topk, block_size, dtype, seed):
     score = torch.randn((M, E), dtype=dtype)
 
     # Set the context to avoid lots of warning spam.
-    vllm_config = VllmConfig()
     with set_current_vllm_config(vllm_config):
         out = fused_moe(
             a,
@@ -258,6 +261,7 @@ def per_block_cast_to_fp8(
 @pytest.mark.parametrize(
     "M,N,K,block_size,out_dtype,seed",
     itertools.product(M, N, K, BLOCK_SIZE, OUT_DTYPES, SEEDS))
+@pytest.mark.skipif(not dg_available, reason="DeepGemm kernels not available.")
 @torch.inference_mode()
 def test_w8a8_block_fp8_deep_gemm_matmul(M, N, K, block_size, out_dtype, seed):
     # only aligned sizes
@@ -381,15 +385,11 @@ def test_w8a8_block_fp8_deep_gemm_fused_moe(M, N, K, E, topk, seed):
     block_size = [block_m, block_m]
     dtype = torch.bfloat16
 
-    # only aligned sizes
-    if (N % block_m != 0 or K % block_m != 0 or topk > E):
-        pytest.skip(
-            f"Skipping test; bad size m={M}, n={N}, k={K}, topk={topk}, E={E}")
-
-    if N <= 512:
-        pytest.skip("Skipping N <= 512 until performance issues solved.")
+    if topk > E:
+        pytest.skip(f"Skipping test: topk={topk} > E={E}")
 
-    vllm_config = VllmConfig()
+    if not _valid_deep_gemm_shape(M, N, K):
+        pytest.skip(f"Skipping test: invalid size m={M}, n={N}, k={K}")
 
     torch.manual_seed(seed)
     fp8_info = torch.finfo(torch.float8_e4m3fn)
diff --git a/tests/kernels/quantization/test_block_int8.py b/tests/kernels/quantization/test_block_int8.py
index 104f23fd7..a4e9f83f0 100644
--- a/tests/kernels/quantization/test_block_int8.py
+++ b/tests/kernels/quantization/test_block_int8.py
@@ -18,6 +18,10 @@ if current_platform.get_device_capability() < (7, 0):
     pytest.skip("INT8 Triton requires CUDA 7.0 or higher",
                 allow_module_level=True)
 
+vllm_config = VllmConfig()
+vllm_config.scheduler_config.max_num_seqs = 128
+vllm_config.scheduler_config.max_model_len = 8192
+
 
 # For test
 def native_per_token_group_quant_int8(x,
@@ -174,7 +178,6 @@ def test_w8a8_block_int8_fused_moe(M, N, K, E, topk, block_size, dtype, seed):
     score = torch.randn((M, E), dtype=dtype)
 
     # Set the context to avoid lots of warning spam.
-    vllm_config = VllmConfig()
     with set_current_vllm_config(vllm_config):
         out = fused_moe(
             a,
diff --git a/vllm/distributed/parallel_state.py b/vllm/distributed/parallel_state.py
index 2041a54e8..51c519d8f 100644
--- a/vllm/distributed/parallel_state.py
+++ b/vllm/distributed/parallel_state.py
@@ -23,6 +23,7 @@ If you only need to use the distributed environment without model/pipeline
 """
 import contextlib
 import gc
+import importlib.util
 import pickle
 import weakref
 from collections import namedtuple
@@ -42,7 +43,7 @@ from vllm.distributed.device_communicators.base_device_communicator import (
 from vllm.distributed.utils import StatelessProcessGroup
 from vllm.logger import init_logger
 from vllm.utils import (direct_register_custom_op, resolve_obj_by_qualname,
-                        supports_custom_op)
+                        run_once, supports_custom_op)
 
 
 @dataclass
@@ -936,9 +937,49 @@ def init_distributed_environment(
             "world group already initialized with a different world size")
 
 
+PPLX_DID_INIT: bool = False
+
+
+@run_once
+def pplx_init(rank, world_size):
+    has_pplx = importlib.util.find_spec("pplx_kernels") is not None
+
+    if has_pplx and world_size > 1:
+        from pplx_kernels.nvshmem import (nvshmem_alloc_empty_unique_id,
+                                          nvshmem_get_unique_id, nvshmem_init)
+        try:
+            global PPLX_DID_INIT
+            logger.debug(
+                "Initialize NVSHMEM for PPLX kernels: rank=%d, "
+                "world size=%d", rank, world_size)
+            uid = nvshmem_get_unique_id(
+            ) if rank == 0 else nvshmem_alloc_empty_unique_id()
+            uid_gpu = uid.cuda()
+            get_world_group().broadcast(uid_gpu, src=0)
+            uid = uid_gpu.to(device='cpu')
+            logger.debug("PPLX NVSHMEM UID = %s", uid)
+            nvshmem_init(uid, rank, world_size)
+            PPLX_DID_INIT = True
+        except Exception as ex:
+            logger.error("Failed to initialize NVSHMEM for PPLX: %s", ex)
+
+
+@run_once
+def pplx_finalize():
+    global PPLX_DID_INIT
+    if PPLX_DID_INIT:
+        from pplx_kernels.nvshmem import nvshmem_finalize
+        logger.debug("PPLX NVSHMEM finalize")
+        from vllm.model_executor.layers.fused_moe.layer import (
+            _all_to_all_cache)
+        _all_to_all_cache.destroy()
+        nvshmem_finalize()
+
+
 def initialize_model_parallel(
     tensor_model_parallel_size: int = 1,
     pipeline_model_parallel_size: int = 1,
+    enable_expert_parallel: bool = False,
     backend: Optional[str] = None,
 ) -> None:
     """
@@ -1041,10 +1082,14 @@ def initialize_model_parallel(
         _DP.rank_in_group, _PP.rank_in_group, _TP.rank_in_group,
         _EP.rank_in_group)
 
+    if enable_expert_parallel:
+        pplx_init(rank, world_size)
+
 
 def ensure_model_parallel_initialized(
     tensor_model_parallel_size: int,
     pipeline_model_parallel_size: int,
+    enable_expert_parallel: bool = False,
     backend: Optional[str] = None,
 ) -> None:
     """Helper to initialize model parallel groups if they are not initialized,
@@ -1055,7 +1100,8 @@ def ensure_model_parallel_initialized(
         get_world_group().device_group)
     if not model_parallel_is_initialized():
         initialize_model_parallel(tensor_model_parallel_size,
-                                  pipeline_model_parallel_size, backend)
+                                  pipeline_model_parallel_size,
+                                  enable_expert_parallel, backend)
         return
 
     assert (
@@ -1133,6 +1179,9 @@ def get_tensor_model_parallel_rank():
 def destroy_model_parallel():
     """Set the groups to none and destroy them."""
     global _TP
+
+    pplx_finalize()
+
     if _TP:
         _TP.destroy()
     _TP = None
diff --git a/vllm/distributed/utils.py b/vllm/distributed/utils.py
index 68983b91b..6bb323d79 100644
--- a/vllm/distributed/utils.py
+++ b/vllm/distributed/utils.py
@@ -23,7 +23,7 @@ from torch.distributed.rendezvous import rendezvous
 
 import vllm.envs as envs
 from vllm.logger import init_logger
-from vllm.utils import get_tcp_uri
+from vllm.utils import get_tcp_uri, is_torch_equal_or_newer
 
 logger = init_logger(__name__)
 
@@ -362,12 +362,11 @@ def stateless_destroy_torch_distributed_process_group(
     Destroy ProcessGroup returned by
         stateless_init_torch_distributed_process_group().
     """
-    # Lazy import for non-CUDA backends.
-    try:
-        # pytorch <= 2.6
+    if is_torch_equal_or_newer("2.7"):
+        pg.shutdown()
+    else:
+        # Lazy import for non-CUDA backends.
         from torch.distributed.distributed_c10d import _shutdown_backend
         _shutdown_backend(pg)
-    except ImportError:
-        # pytorch >= 2.7
-        pg.shutdown()
+
     _unregister_process_group(pg.group_name)
diff --git a/vllm/forward_context.py b/vllm/forward_context.py
index eb1e1f569..5d2d95f18 100644
--- a/vllm/forward_context.py
+++ b/vllm/forward_context.py
@@ -27,6 +27,7 @@ batchsize_forward_time: defaultdict = defaultdict(list)
 
 @dataclass
 class DPMetadata:
+    max_tokens_across_dp_cpu: torch.Tensor
     cu_tokens_across_dp_cpu: torch.Tensor
 
 
@@ -90,8 +91,10 @@ def set_forward_context(attn_metadata: Any,
                                          dtype=torch.int32)
         from vllm.distributed.parallel_state import get_dp_group
         dist.all_reduce(num_tokens_tensor, group=get_dp_group().cpu_group)
+        max_tokens_across_dp_cpu = torch.max(num_tokens_tensor)
         cu_tokens_across_dp_cpu = torch.cumsum(num_tokens_tensor, dim=0)
-        dp_metadata = DPMetadata(cu_tokens_across_dp_cpu)
+        dp_metadata = DPMetadata(max_tokens_across_dp_cpu,
+                                 cu_tokens_across_dp_cpu)
 
     global _forward_context
     prev_context = _forward_context
diff --git a/vllm/model_executor/layers/fused_moe/__init__.py b/vllm/model_executor/layers/fused_moe/__init__.py
index 08be9de62..5c262287f 100644
--- a/vllm/model_executor/layers/fused_moe/__init__.py
+++ b/vllm/model_executor/layers/fused_moe/__init__.py
@@ -38,8 +38,8 @@ if HAS_TRITON:
     from vllm.model_executor.layers.fused_moe.cutlass_moe import (
         cutlass_moe_fp4, cutlass_moe_fp8)
     from vllm.model_executor.layers.fused_moe.fused_moe import (
-        fused_experts, fused_moe, fused_topk, get_config_file_name,
-        grouped_topk)
+        TritonExperts, fused_experts, fused_moe, fused_topk,
+        get_config_file_name, grouped_topk)
 
     __all__ += [
         "fused_moe",
@@ -49,4 +49,5 @@ if HAS_TRITON:
         "grouped_topk",
         "cutlass_moe_fp8",
         "cutlass_moe_fp4",
+        "TritonExperts",
     ]
diff --git a/vllm/model_executor/layers/fused_moe/cutlass_moe.py b/vllm/model_executor/layers/fused_moe/cutlass_moe.py
index 7f96a4012..aff108112 100644
--- a/vllm/model_executor/layers/fused_moe/cutlass_moe.py
+++ b/vllm/model_executor/layers/fused_moe/cutlass_moe.py
@@ -5,10 +5,176 @@ from typing import Optional
 
 import torch
 
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
 from vllm import _custom_ops as ops
+from vllm.model_executor.layers.fused_moe.prepare_finalize import (
+    MoEPrepareAndFinalizeNoEP)
+from vllm.model_executor.layers.fused_moe.utils import _fp8_perm, _resize_cache
 from vllm.scalar_type import scalar_types
 
 
+class CutlassExpertsFp8(mk.FusedMoEPermuteExpertsUnpermute):
+
+    def __init__(
+        self,
+        ab_strides1: torch.Tensor,
+        c_strides1: torch.Tensor,
+        ab_strides2: torch.Tensor,
+        c_strides2: torch.Tensor,
+        out_dtype: torch.dtype,
+    ):
+        super().__init__()
+        self.ab_strides1 = ab_strides1
+        self.c_strides1 = c_strides1
+        self.ab_strides2 = ab_strides2
+        self.c_strides2 = c_strides2
+        self.out_dtype = out_dtype
+
+    def workspace_shapes(
+        self,
+        a: torch.Tensor,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        num_experts: int,
+    ) -> tuple[int, int, torch.dtype]:
+        # Note that K, N are transposed
+        N, K = K, N
+        workspace1 = M * topk * max(2 * N, K)
+        workspace2 = M * topk * N
+        return (workspace1, workspace2, self.out_dtype)
+
+    def apply(
+        self,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: Optional[torch.Tensor],
+        w1_scale: Optional[torch.Tensor],
+        w2_scale: Optional[torch.Tensor],
+        w1_zp: Optional[torch.Tensor],
+        w2_zp: Optional[torch.Tensor],
+        a1q_scale: Optional[torch.Tensor],
+        a2_scale: Optional[torch.Tensor],
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_num_tokens: Optional[torch.Tensor],
+    ) -> torch.Tensor:
+        a1q = hidden_states
+
+        assert w1_scale is not None
+        assert w2_scale is not None
+        assert w1.dtype == torch.float8_e4m3fn
+        assert w2.dtype == torch.float8_e4m3fn
+        assert a1q.shape[1] == w1.shape[1], "Hidden size mismatch w1"
+        assert w1.shape[2] == w2.shape[1] * 2, "Hidden size mismatch w2"
+        assert w1.shape[0] == w2.shape[0], "Expert number mismatch"
+        assert a1q_scale is None or a1q_scale.dim(
+        ) == 0 or a1q_scale.shape[0] == 1 or a1q_scale.shape[0] == a1q.shape[
+            0], "Input scale shape mismatch"
+        assert w1_scale.dim() == 1 or w1_scale.shape[1] == 1 or w1_scale.shape[
+            1] == w1.shape[2], "W1 scale shape mismatch"
+        assert w2_scale.dim() == 1 or w2_scale.shape[1] == 1 or w2_scale.shape[
+            1] == w2.shape[2], "W2 scale shape mismatch"
+        assert w1.shape[0] == w2.shape[0], "Weights expert number mismatch"
+        assert w1.shape[0] == w1_scale.shape[
+            0], "w1 scales expert number mismatch"
+        assert w1.shape[0] == w2_scale.shape[
+            0], "w2 scales expert number mismatch"
+        assert a2_scale is None or a1q_scale is None or a2_scale.shape == a1q_scale.shape, "Intermediate scale shape mismatch"  # noqa: E501
+        assert self.ab_strides1.shape[0] == w1.shape[
+            0], "AB Strides 1 expert number mismatch"
+        assert self.c_strides1.shape[0] == w1.shape[
+            0], "C Strides 1 expert number mismatch"
+        assert self.ab_strides2.shape[0] == w2.shape[
+            0], "AB Strides 2 expert number  mismatch"
+        assert self.c_strides2.shape[0] == w2.shape[
+            0], "C Strides 2 expert number mismatch"
+        assert self.out_dtype in [torch.half,
+                                  torch.bfloat16], "Invalid output dtype"
+
+        M = a1q.shape[0]
+        _, N, K = w2.shape  # because w1 + w2 are transposed
+        device = a1q.device
+
+        assert w1.shape[1] == K
+        assert global_num_experts != -1
+        assert a1q_scale is not None
+
+        if expert_map is not None:
+            "Translate info from expert_map to topk_ids"
+            local_topk_ids = torch.where(expert_map[topk_ids] != -1,
+                                         expert_map[topk_ids], -1)
+        else:
+            local_topk_ids = topk_ids
+
+        topk = local_topk_ids.shape[1]
+
+        per_act_token = a1q_scale.numel() != 1 if a1q_scale is not None else (
+            a2_scale.numel() != 1 if a2_scale is not None else False)
+
+        expert_offsets = torch.empty((global_num_experts + 1),
+                                     dtype=torch.int32,
+                                     device=device)
+        problem_sizes1 = torch.empty((global_num_experts, 3),
+                                     dtype=torch.int32,
+                                     device=device)
+        problem_sizes2 = torch.empty((global_num_experts, 3),
+                                     dtype=torch.int32,
+                                     device=device)
+
+        # With expert_map each Rank processes only a subset of experts. As
+        # a result not all of a_map and c2 tensors are filled. We fill it
+        # zeros for correctness.
+        if expert_map is not None:
+            a_map = torch.zeros((local_topk_ids.numel()),
+                                dtype=torch.int32,
+                                device=device)
+        else:
+            a_map = torch.empty((local_topk_ids.numel()),
+                                dtype=torch.int32,
+                                device=device)
+
+        c_map = torch.empty((local_topk_ids.numel()),
+                            dtype=torch.int32,
+                            device=device)
+
+        ops.get_cutlass_moe_mm_data(local_topk_ids, expert_offsets,
+                                    problem_sizes1, problem_sizes2, a_map,
+                                    c_map, global_num_experts, N, K)
+
+        a1q = _fp8_perm(a1q, a_map)
+        a1q_scale = a1q_scale[a_map] if per_act_token else a1q_scale
+
+        c1 = _resize_cache(workspace13, (M * topk, N * 2))
+        c2 = _resize_cache(workspace2, (M * topk, N))
+        c3 = _resize_cache(workspace13, (M * topk, K))
+
+        ops.cutlass_moe_mm(c1, a1q, w1, a1q_scale, w1_scale,
+                           expert_offsets[:-1], problem_sizes1,
+                           self.ab_strides1, self.ab_strides1, self.c_strides1)
+
+        self.activation(activation, c2, c1)
+
+        a2q, a2q_scale = ops.scaled_fp8_quant(
+            c2, a2_scale, use_per_token_if_dynamic=per_act_token)
+
+        if expert_map is not None:
+            c3.fill_(0)
+
+        ops.cutlass_moe_mm(c3, a2q, w2, a2q_scale, w2_scale,
+                           expert_offsets[:-1], problem_sizes2,
+                           self.ab_strides2, self.ab_strides2, self.c_strides2)
+
+        c3 = c3[c_map]
+
+        return c3
+
+
 #TODO make the grouped gemm kernel consistent with scaled gemm kernel
 def cutlass_moe_fp8(
     a: torch.Tensor,
@@ -17,7 +183,7 @@ def cutlass_moe_fp8(
     w1_scale: torch.Tensor,
     w2_scale: torch.Tensor,
     topk_weights: torch.Tensor,
-    topk_ids_: torch.Tensor,
+    topk_ids: torch.Tensor,
     ab_strides1: torch.Tensor,
     c_strides1: torch.Tensor,
     ab_strides2: torch.Tensor,
@@ -59,7 +225,7 @@ def cutlass_moe_fp8(
     - a2_scale (Optional[torch.Tensor]): The optional fp32 scale to
         quantize the intermediate result between the gemms.
         Shape: scalar or [M]
-    - out_dtype (torch.Tensor): The output tensor type.
+    - out_dtype (torch.dtype): The output tensor type.
     - expert_map (Optional[torch.Tensor]): In the case of Expert parallel,
         every Rank is responsible for a subset of experts. expert_map is a
         mapping from global expert-id to local expert-id. When expert_map[i]
@@ -71,115 +237,36 @@ def cutlass_moe_fp8(
     Returns:
     - torch.Tensor: The fp16 output tensor after applying the MoE layer.
     """
-
-    assert topk_weights.shape == topk_ids_.shape, "topk shape mismatch"
-    assert w1_q.dtype == torch.float8_e4m3fn
-    assert w2_q.dtype == torch.float8_e4m3fn
-    assert a.shape[1] == w1_q.shape[1], "Hidden size mismatch w1"
-    assert w1_q.shape[2] == w2_q.shape[1] * 2, "Hidden size mismatch w2"
-    assert w1_q.shape[0] == w2_q.shape[0], "Expert number mismatch"
-    assert a1_scale is None or a1_scale.dim(
-    ) == 0 or a1_scale.shape[0] == 1 or a1_scale.shape[0] == a.shape[
-        0], "Input scale shape mismatch"
-    assert w1_scale.dim() == 1 or w1_scale.shape[1] == 1 or w1_scale.shape[
-        1] == w1_q.shape[2], "W1 scale shape mismatch"
-    assert w2_scale.dim() == 1 or w2_scale.shape[1] == 1 or w2_scale.shape[
-        1] == w2_q.shape[2], "W2 scale shape mismatch"
-    assert w1_q.shape[0] == w2_q.shape[0], "Weights expert number mismatch"
-    assert w1_q.shape[0] == w1_scale.shape[
-        0], "w1 scales expert number mismatch"
-    assert w1_q.shape[0] == w2_scale.shape[
-        0], "w2 scales expert number mismatch"
-    assert a2_scale is None or a1_scale is None or a2_scale.shape == a1_scale.shape, "Intermediate scale shape mismatch"  # noqa: E501
-    assert ab_strides1.shape[0] == w1_q.shape[
-        0], "AB Strides 1 expert number mismatch"
-    assert c_strides1.shape[0] == w1_q.shape[
-        0], "C Strides 1 expert number mismatch"
-    assert ab_strides2.shape[0] == w2_q.shape[
-        0], "AB Strides 2 expert number  mismatch"
-    assert c_strides2.shape[0] == w2_q.shape[
-        0], "C Strides 2 expert number mismatch"
-    assert out_dtype in [torch.half, torch.bfloat16], "Invalid output dtype"
-
-    num_experts = w1_q.size(0)
-    m = a.size(0)
-    k = w1_q.size(1)
-    n = w2_q.size(1)
-
-    local_topk_ids = topk_ids_
-    if expert_map is not None:
-        "Translate info from expert_map to topk_ids"
-        local_topk_ids = torch.where(expert_map[topk_ids_] != -1,
-                                     expert_map[topk_ids_], -1)
-
-    topk = local_topk_ids.size(1)
-
     per_act_token = a1_scale.numel() != 1 if a1_scale is not None else (
         a2_scale.numel() != 1 if a2_scale is not None else False)
-    if apply_router_weight_on_input:
-        assert topk == 1, \
-            "apply_router_weight_on_input is only implemented for topk=1"
-        # TODO: this only works for topK=1, will need to update for topK>1
-        a = a * topk_weights.to(out_dtype)
-
-    a_q, a1_scale = ops.scaled_fp8_quant(
-        a, a1_scale, use_per_token_if_dynamic=per_act_token)
-    device = a_q.device
-
-    expert_offsets = torch.empty((num_experts + 1),
-                                 dtype=torch.int32,
-                                 device=device)
-    problem_sizes1 = torch.empty((num_experts, 3),
-                                 dtype=torch.int32,
-                                 device=device)
-    problem_sizes2 = torch.empty((num_experts, 3),
-                                 dtype=torch.int32,
-                                 device=device)
-
-    a_map_initializer = torch.empty
-    c2_initializer = torch.empty
-    if expert_map is not None:
-        # With expert_map each Rank processes only a subset of experts. As
-        # a result not all of a_map and c2 tensors are filled. We fill it
-        # zeros for correctness.
-        a_map_initializer = torch.zeros
-        c2_initializer = torch.zeros
-
-    a_map = a_map_initializer((local_topk_ids.numel()),
-                              dtype=torch.int32,
-                              device=device)
-    c_map = torch.empty((local_topk_ids.numel()),
-                        dtype=torch.int32,
-                        device=device)
 
-    ops.get_cutlass_moe_mm_data(local_topk_ids, expert_offsets, problem_sizes1,
-                                problem_sizes2, a_map, c_map, num_experts, n,
-                                k)
-
-    rep_a_q = a_q.view(dtype=torch.uint8)[a_map].view(dtype=a_q.dtype)
-    rep_a1_scales = a1_scale[a_map] if per_act_token else a1_scale
-
-    c1 = torch.empty((m * topk, n * 2), device=device, dtype=out_dtype)
-    c2 = c2_initializer((m * topk, k), device=device, dtype=out_dtype)
-
-    ops.cutlass_moe_mm(c1, rep_a_q, w1_q, rep_a1_scales, w1_scale,
-                       expert_offsets[:-1], problem_sizes1, ab_strides1,
-                       ab_strides1, c_strides1)
-
-    intermediate = torch.empty((m * topk, n), device=device, dtype=out_dtype)
-    torch.ops._C.silu_and_mul(intermediate, c1)
-
-    intemediate_q, a2_scale = ops.scaled_fp8_quant(
-        intermediate, a2_scale, use_per_token_if_dynamic=per_act_token)
-
-    ops.cutlass_moe_mm(c2, intemediate_q, w2_q, a2_scale, w2_scale,
-                       expert_offsets[:-1], problem_sizes2, ab_strides2,
-                       ab_strides2, c_strides2)
-    # Gather tokens
-    c2 = c2[c_map].view(m, topk, k)
-    if not apply_router_weight_on_input:
-        c2 = c2 * topk_weights.view(m, topk, 1).to(out_dtype)
-    return c2.sum(dim=1)
+    fn = mk.FusedMoEModularKernel(
+        MoEPrepareAndFinalizeNoEP(
+            per_channel_quant=per_act_token,
+            quant_dtype=torch.float8_e4m3fn,
+        ),
+        CutlassExpertsFp8(
+            ab_strides1,
+            c_strides1,
+            ab_strides2,
+            c_strides2,
+            out_dtype,
+        ),
+    )
+
+    return fn(
+        a,
+        w1_q,
+        w2_q,
+        topk_weights,
+        topk_ids,
+        expert_map=expert_map,
+        w1_scale=w1_scale,
+        w2_scale=w2_scale,
+        a1_scale=a1_scale,
+        a2_scale=a2_scale,
+        apply_router_weight_on_input=apply_router_weight_on_input,
+    )
 
 
 FLOAT4_E2M1_MAX = scalar_types.float4_e2m1f.max()
diff --git a/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py b/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py
index 5098e15dc..46a814e6e 100644
--- a/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py
+++ b/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py
@@ -1,16 +1,17 @@
 # SPDX-License-Identifier: Apache-2.0
+import functools
 import importlib.util
 from typing import Optional
 
 import torch
 
-import vllm.envs as envs
-from vllm import _custom_ops as ops
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
 from vllm.logger import init_logger
-from vllm.model_executor.layers.fused_moe.moe_align_block_size import (
-    moe_align_block_size)
-from vllm.model_executor.layers.fused_moe.utils import (_fp8_perm,
-                                                        _fp8_quantize,
+from vllm.model_executor.layers.fused_moe.moe_permute_unpermute import (
+    _moe_permute)
+from vllm.model_executor.layers.fused_moe.prepare_finalize import (
+    MoEPrepareAndFinalizeNoEP)
+from vllm.model_executor.layers.fused_moe.utils import (_fp8_quantize,
                                                         _resize_cache)
 from vllm.utils import round_up
 
@@ -19,6 +20,19 @@ logger = init_logger(__name__)
 has_deep_gemm = importlib.util.find_spec("deep_gemm") is not None
 
 
+@functools.cache
+def deep_gemm_block_shape() -> list[int]:
+    # Lazy import to avoid CUDA initialization problems.
+    import deep_gemm as dg
+    block = dg.get_m_alignment_for_contiguous_layout()
+    return [block, block]
+
+
+def _valid_deep_gemm_shape(M: int, N: int, K: int):
+    align = deep_gemm_block_shape()[0]
+    return align <= M and N % align == 0 and K % align == 0
+
+
 def _valid_deep_gemm(hidden_states: torch.Tensor,
                      w1: torch.Tensor,
                      w2: torch.Tensor,
@@ -29,89 +43,112 @@ def _valid_deep_gemm(hidden_states: torch.Tensor,
     aligned by `dg.get_m_alignment_for_contiguous_layout()`.
     """
     if not has_deep_gemm:
+        logger.debug("DeepGemm disabled: deep_gemm not available.")
         return False
 
-    # Lazy import to avoid CUDA initialization problems.
-    import deep_gemm as dg
-
-    # Expert maps not supported yet.
     if expert_map is not None:
+        logger.debug("DeepGemm disabled: expert map NYI.")
         return False
 
-    align = dg.get_m_alignment_for_contiguous_layout()
-    M = hidden_states.shape[0]
-    _, K, N = w2.shape
-
-    # For now, disable DeepGemm for small N until better permute/unpermute
-    # ops are available.
-    if N <= 512:
+    M = hidden_states.size(0)
+    _, K, N = w2.size()
+    if not _valid_deep_gemm_shape(M, N, K):
+        logger.debug("DeepGemm disabled: unalinged problem size.")
         return False
 
-    if align > M or N % align != 0 or K % align != 0:
+    if (w1.dtype != torch.float8_e4m3fn or w2.dtype != torch.float8_e4m3fn):
+        logger.debug("DeepGemm disabled: invalid weight dtype(s).")
         return False
 
-    return (hidden_states.is_contiguous() and w1.is_contiguous()
-            and w2.is_contiguous())
-
-
-def _moe_permute(
-    curr_hidden_states: torch.Tensor,
-    a1q_scale: Optional[torch.Tensor],
-    curr_topk_ids: torch.Tensor,
-    global_num_experts: int,
-    expert_map: Optional[torch.Tensor],
-    block_m: int,
-) -> tuple[torch.Tensor, Optional[torch.Tensor], torch.Tensor, torch.Tensor,
-           Optional[torch.Tensor]]:
-    """
-    Determine the sorted_token_ids, expert_ids for the given problem size.
-    Permute the hidden states and scales according to `sorted_token_ids`.
-    """
-    top_k_num = curr_topk_ids.shape[1]
-
-    tokens_in_chunk, _ = curr_hidden_states.shape
+    if (not hidden_states.is_contiguous() or not w1.is_contiguous()
+            or not w2.is_contiguous()):
+        logger.debug(
+            "DeepGemm disabled: weights or activations not contiguous.")
+        return False
 
-    sorted_token_ids, expert_ids, num_tokens_post_padded = (
-        moe_align_block_size(curr_topk_ids,
-                             block_m,
-                             global_num_experts,
-                             expert_map,
-                             pad_sorted_ids=True))
+    return True
+
+
+class DeepGemmExperts(mk.FusedMoEPermuteExpertsUnpermute):
+
+    def __init__(self):
+        super().__init__()
+        self.block_shape = deep_gemm_block_shape()
+
+    def workspace_shapes(
+        self,
+        a: torch.Tensor,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        num_experts: int,
+    ) -> tuple[int, int, torch.dtype]:
+        block_m = self.block_shape[0]
+        M_sum = (M * topk) + num_experts * (block_m - 1)
+        M_sum = round_up(M_sum, block_m)
+        workspace1 = M_sum * max(N * 2, K)
+        workspace2 = M_sum * N
+        return (workspace1, workspace2, a.dtype)
+
+    def apply(
+        self,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: Optional[torch.Tensor],
+        w1_scale: Optional[torch.Tensor],
+        w2_scale: Optional[torch.Tensor],
+        w1_zp: Optional[torch.Tensor],
+        w2_zp: Optional[torch.Tensor],
+        a1q_scale: Optional[torch.Tensor],
+        a2_scale: Optional[torch.Tensor],
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_num_tokens: Optional[torch.Tensor],
+    ) -> torch.Tensor:
+        import deep_gemm as dg
+
+        a1q = hidden_states
+        _, N, K = w1.size()
+
+        assert global_num_experts != -1
+        assert w2.size(1) == K
+
+        a1q, a1q_scale, _, expert_ids, inv_perm = _moe_permute(
+            a1q,
+            a1q_scale,
+            topk_ids,
+            global_num_experts,
+            expert_map,
+            self.block_shape[0],
+        )
+
+        # Note: M_sum is different than the pre-permuted shape of a1q.
+        M_sum = a1q.size(0)
+        workspace1 = _resize_cache(workspace13, (M_sum, N))
+        workspace2 = _resize_cache(workspace2, (M_sum, N // 2))
+        workspace3 = _resize_cache(workspace13, (M_sum, K))
 
-    inv_perm: Optional[torch.Tensor] = None
+        dg.m_grouped_gemm_fp8_fp8_bf16_nt_contiguous(
+            (a1q, a1q_scale), (w1, w1_scale), workspace1, expert_ids)
 
-    num_tokens = top_k_num * tokens_in_chunk
-    sorted_token_ids = sorted_token_ids.clamp(max=num_tokens - 1)
-    expert_ids = torch.repeat_interleave(expert_ids, block_m, dim=0)
-    inv_perm = torch.argsort(sorted_token_ids)[:num_tokens]
+        self.activation(activation, workspace2, workspace1.view(-1, N))
 
-    # Permute according to sorted token ids.
-    curr_hidden_states = _fp8_perm(curr_hidden_states,
-                                   sorted_token_ids // top_k_num)
+        a2q_scale: Optional[torch.Tensor] = None
 
-    if a1q_scale is not None:
-        a1q_scale = a1q_scale[sorted_token_ids // top_k_num]
+        a2q, a2q_scale = _fp8_quantize(workspace2, a2_scale, False,
+                                       self.block_shape)
 
-    return (curr_hidden_states, a1q_scale, sorted_token_ids, expert_ids,
-            inv_perm)
+        dg.m_grouped_gemm_fp8_fp8_bf16_nt_contiguous(
+            (a2q, a2q_scale), (w2, w2_scale), workspace3, expert_ids)
 
+        workspace3 = workspace3[inv_perm, ...]
 
-def _moe_unpermute_and_reduce(
-    out: torch.Tensor,
-    curr_hidden: torch.Tensor,
-    inv_perm: Optional[torch.Tensor],
-    topk_weight: torch.Tensor,
-) -> None:
-    """
-    Unpermute the final result and apply topk_weights, then perform the final
-    reduction on the hidden states.
-    """
-    M, topk = topk_weight.shape
-    K = curr_hidden.shape[1]
-    curr_hidden = curr_hidden[inv_perm, ...]
-    curr_hidden = curr_hidden.view(-1, topk, K)
-    curr_hidden.mul_(topk_weight.view(M, -1, 1))
-    ops.moe_sum(curr_hidden, out)
+        return workspace3
 
 
 def deep_gemm_moe_fp8(
@@ -128,6 +165,7 @@ def deep_gemm_moe_fp8(
     expert_map: Optional[torch.Tensor] = None,
     a1_scale: Optional[torch.Tensor] = None,
     a2_scale: Optional[torch.Tensor] = None,
+    apply_router_weight_on_input=False,
 ) -> torch.Tensor:
     """
     This function computes a a8w8-quantized Mixture of Experts (MoE) layer
@@ -166,129 +204,24 @@ def deep_gemm_moe_fp8(
     Returns:
     - torch.Tensor: The bfloat16 output tensor after applying the MoE layer.
     """
-    # Lazy import to avoid CUDA initialization problems.
-    import deep_gemm as dg
-
-    assert expert_map is None, "Expert maps not supported yet"
-
-    assert hidden_states.shape[1] == w1.shape[2], "Hidden size mismatch"
-
-    assert topk_weights.shape == topk_ids.shape, "topk shape mismatch"
-    assert hidden_states.is_contiguous(), "Hidden_states must be contiguous"
-    assert w1.stride(-1) == 1, "Stride of last dimension must be 1"
-    assert w2.stride(-1) == 1, "Stride of last dimension must be 1"
-    assert hidden_states.dtype in [
-        torch.float32, torch.float16, torch.bfloat16
-    ]
-    assert w1.dtype == torch.float8_e4m3fn
-    assert w2.dtype == torch.float8_e4m3fn
-    assert w1.shape[0] == w2.shape[0], "Expert number mismatch"
-    assert w1.shape[0] == w1_scale.shape[0], "w1 scales expert number mismatch"
-    assert w1.shape[0] == w2_scale.shape[0], "w2 scales expert number mismatch"
-    assert a1_scale is None or a1_scale.dim(
-    ) == 0 or a1_scale.shape[0] == 1 or a1_scale.shape[
-        0] == hidden_states.shape[0], "Input scale shape mismatch"
-    assert a2_scale is None or a1_scale is None or a2_scale.shape == a1_scale.shape, "Intermediate scale shape mismatch"  # noqa: E501
-
-    num_tokens, _ = hidden_states.shape
-    E, N, _ = w1.shape
-    K = w2.shape[1]
-    if global_num_experts == -1:
-        global_num_experts = E
-
-    # We execute the fused_moe kernel in chunks to circumvent this issue:
-    # https://github.com/vllm-project/vllm/issues/5938
-    CHUNK_SIZE = envs.VLLM_FUSED_MOE_CHUNK_SIZE
-
-    assert _valid_deep_gemm(hidden_states, w1, w2, expert_map)
-
-    if inplace:
-        out_hidden_states = hidden_states
-    else:
-        out_hidden_states = torch.empty_like(hidden_states)
-
-    block_m = dg.get_m_alignment_for_contiguous_layout()
-    block_shape = [block_m, block_m]
-
-    assert w1_scale is not None
-    assert w2_scale is not None
-
-    # We attempt to transpose and align offline in Fp8MoEMethod, in which
-    # case these calls will be nops.  Otherwise, they'll be performed every
-    # time the layer is executed.
-    w1_scale = dg.get_col_major_tma_aligned_tensor(w1_scale).contiguous()
-    w2_scale = dg.get_col_major_tma_aligned_tensor(w2_scale).contiguous()
-
-    M_sum = topk_ids.numel() + global_num_experts * (block_m - 1)
-    M_sum = round_up(M_sum, block_m)
-
-    num_chunks = (num_tokens // CHUNK_SIZE) + 1
-
-    # We can reuse the memory between cache1 and cache3 because by the time
-    # we need cache3, we're done with cache1
-    workspace13 = torch.empty(M_sum * max(N, K),
-                              device=hidden_states.device,
-                              dtype=hidden_states.dtype)
-
-    workspace1 = workspace13[:M_sum * N].view(M_sum, N)
-    workspace2 = torch.empty((M_sum, N // 2),
-                             device=hidden_states.device,
-                             dtype=hidden_states.dtype)
-    workspace3 = workspace13[:M_sum * K].view(M_sum, K)
-
-    for chunk in range(num_chunks):
-        begin_chunk_idx, end_chunk_idx = (chunk * CHUNK_SIZE,
-                                          min((chunk + 1) * CHUNK_SIZE,
-                                              num_tokens))
-        curr_hidden_states = hidden_states[begin_chunk_idx:end_chunk_idx]
-        tokens_in_chunk, _ = curr_hidden_states.shape
-
-        if tokens_in_chunk == 0:
-            break
-
-        curr_topk_ids = topk_ids[begin_chunk_idx:end_chunk_idx]
-        curr_topk_weights = topk_weights[begin_chunk_idx:end_chunk_idx]
-
-        a1q_scale: Optional[torch.Tensor] = None
-
-        qcurr_hidden_states, a1q_scale = _fp8_quantize(curr_hidden_states,
-                                                       a1_scale, block_shape)
-
-        (qcurr_hidden_states, a1q_scale, sorted_token_ids, expert_ids,
-         inv_perm) = _moe_permute(qcurr_hidden_states, a1q_scale,
-                                  curr_topk_ids, global_num_experts,
-                                  expert_map, block_m)
-
-        # Adjust the intermediate cache size and config for the last chunk.
-        # Note that in most cases we only have one chunk so the cache size
-        # and config are already set correctly and do not need to be adjusted.
-        if tokens_in_chunk < CHUNK_SIZE and chunk > 0:
-            curr_M = sorted_token_ids.numel()
-            workspace1 = _resize_cache(workspace1, (curr_M, N))
-            workspace2 = _resize_cache(workspace2, (curr_M, N // 2))
-            workspace3 = _resize_cache(workspace3, (curr_M, K))
-
-        dg.m_grouped_gemm_fp8_fp8_bf16_nt_contiguous(
-            (qcurr_hidden_states, a1q_scale), (w1, w1_scale), workspace1,
-            expert_ids)
-
-        if activation == "silu":
-            torch.ops._C.silu_and_mul(workspace2, workspace1.view(-1, N))
-        elif activation == "gelu":
-            torch.ops._C.gelu_and_mul(workspace2, workspace1.view(-1, N))
-        else:
-            raise ValueError(f"Unsupported FusedMoe activation: {activation}")
-
-        a2q_scale: Optional[torch.Tensor] = None
-
-        qworkspace2, a2q_scale = _fp8_quantize(workspace2, a2_scale,
-                                               block_shape)
-
-        dg.m_grouped_gemm_fp8_fp8_bf16_nt_contiguous(
-            (qworkspace2, a2q_scale), (w2, w2_scale), workspace3, expert_ids)
-
-        _moe_unpermute_and_reduce(
-            out_hidden_states[begin_chunk_idx:end_chunk_idx],
-            workspace3.view(*workspace3.shape), inv_perm, curr_topk_weights)
-
-    return out_hidden_states
+    fn = mk.FusedMoEModularKernel(
+        MoEPrepareAndFinalizeNoEP(quant_dtype=torch.float8_e4m3fn,
+                                  block_shape=deep_gemm_block_shape()),
+        DeepGemmExperts(),
+    )
+    return fn(
+        hidden_states,
+        w1,
+        w2,
+        topk_weights,
+        topk_ids,
+        inplace,
+        activation,
+        global_num_experts,
+        expert_map,
+        w1_scale=w1_scale,
+        w2_scale=w2_scale,
+        a1_scale=a1_scale,
+        a2_scale=a2_scale,
+        apply_router_weight_on_input=apply_router_weight_on_input,
+    )
diff --git a/vllm/model_executor/layers/fused_moe/fused_batched_moe.py b/vllm/model_executor/layers/fused_moe/fused_batched_moe.py
new file mode 100644
index 000000000..c2db79365
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/fused_batched_moe.py
@@ -0,0 +1,755 @@
+# SPDX-License-Identifier: Apache-2.0
+"""Fused batched MoE kernel."""
+from typing import Optional
+
+import torch
+import triton
+import triton.language as tl
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.model_executor.layers.fused_moe.fused_moe import (
+    get_config_dtype_str, try_get_optimal_moe_config)
+from vllm.model_executor.layers.fused_moe.utils import _resize_cache
+
+
+@triton.jit
+def moe_mmk(
+        a_ptrs,
+        b_ptrs,
+        K,
+        expert_id,
+        a_scale_ptr,
+        b_scale_ptr,
+        # The stride variables represent how much to increase the ptr by when
+        # moving by 1 element in a particular dimension. E.g. `stride_am` is
+        # how much to increase `a_ptr` by to get the element one row down
+        # (A has M rows).
+        stride_ak,
+        stride_bk,
+        stride_asm,
+        stride_ask,
+        stride_bse,
+        stride_bsk,
+        stride_bsn,
+        # Offsets and masks
+        offs_m,
+        offs_n,
+        mask_m,
+        # Block size for block-wise quantization
+        group_n: tl.constexpr,
+        group_k: tl.constexpr,
+        # Meta-parameters
+        BLOCK_M: tl.constexpr,
+        BLOCK_N: tl.constexpr,
+        BLOCK_K: tl.constexpr,
+        compute_type: tl.constexpr,
+        use_w8a8: tl.constexpr,
+        use_w8a16: tl.constexpr):
+
+    offs_k = tl.arange(0, BLOCK_K)
+
+    if use_w8a16:
+        b_scale_ptrs = b_scale_ptr + expert_id * stride_bse + offs_n[
+            None, :] * stride_bsn
+        b_scale = tl.load(b_scale_ptrs)
+
+    if use_w8a8:
+        # block-wise
+        if group_k > 0 and group_n > 0:
+            a_scale_ptrs = a_scale_ptr + offs_m * stride_asm
+            offs_bsn = offs_n // group_n
+            b_scale_ptrs = (b_scale_ptr + expert_id * stride_bse +
+                            offs_bsn * stride_bsn)
+        # tensor-wise
+        else:
+            a_scale = tl.load(a_scale_ptr)
+            b_scale = tl.load(b_scale_ptr + expert_id)
+
+    # -----------------------------------------------------------
+    # Iterate to compute a block of the C matrix.
+    # We accumulate into a `[BLOCK_SIZE_M, BLOCK_SIZE_N]` block
+    # of fp32 values for higher accuracy.
+    # `accumulator` will be converted back to fp16 after the loop.
+    accumulator = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_K)):
+        # Load the next block of A and B, generate a mask by checking the
+        # K dimension.
+        a = tl.load(a_ptrs,
+                    mask=mask_m[:, None] & (offs_k[None, :] < K - k * BLOCK_K),
+                    other=0.0)
+        b = tl.load(b_ptrs, mask=offs_k[:, None] < K - k * BLOCK_K, other=0.0)
+        # We accumulate along the K dimension.
+        if use_w8a16:
+            accumulator = tl.dot(a, b.to(compute_type), acc=accumulator)
+        elif use_w8a8:
+            if group_k > 0 and group_n > 0:
+                k_start = k * BLOCK_K
+                offs_ks = k_start // group_k
+                a_scale = tl.load(a_scale_ptrs + offs_ks * stride_ask,
+                                  mask=mask_m,
+                                  other=0.0)
+                b_scale = tl.load(b_scale_ptrs + offs_ks * stride_bsk)
+
+                accumulator += tl.dot(a, b) * a_scale[:,
+                                                      None] * b_scale[None, :]
+            else:
+                if use_w8a8:
+                    # acc used to enable fp8_fast_accum
+                    accumulator = tl.dot(a, b, acc=accumulator)
+                else:
+                    accumulator += tl.dot(a, b)
+        else:
+            accumulator += tl.dot(a, b)
+        # Advance the ptrs to the next K block.
+        a_ptrs += BLOCK_K * stride_ak
+        b_ptrs += BLOCK_K * stride_bk
+
+    if use_w8a16:
+        accumulator = (accumulator * b_scale).to(compute_type)
+    elif use_w8a8:
+        if group_k > 0 and group_n > 0:
+            accumulator = accumulator.to(compute_type)
+        else:
+            accumulator = (accumulator * a_scale * b_scale).to(compute_type)
+    else:
+        accumulator = accumulator.to(compute_type)
+
+    return accumulator
+
+
+@triton.jit
+def expert_triton_kernel(
+        a_ptr,  #[max_tokens, K]
+        b_ptr,  #[K, N]
+        c_ptr,  #[max_tokens, N]
+        expert_id,
+        compute_type: tl.constexpr,
+        # Dimensions
+        M,
+        N,
+        K,
+        # Quantization data
+        a_scale_ptr,
+        b_scale_ptr,
+        b_zp_ptr,
+        # strides
+        stride_am,
+        stride_ak,
+        stride_bk,
+        stride_bn,
+        stride_cm,
+        stride_cn,
+        stride_asm,
+        stride_ask,
+        stride_bse,
+        stride_bsk,
+        stride_bsn,
+        # Blockwise quantization data
+        group_n,
+        group_k,
+        # Quantization schemes
+        use_fp8_w8a8: tl.constexpr,
+        use_int8_w8a16: tl.constexpr,
+        # Kernel config
+        BLOCK_M: tl.constexpr,
+        BLOCK_N: tl.constexpr,
+        BLOCK_K: tl.constexpr):
+
+    offs_m = tl.arange(0, BLOCK_M)
+    offs_n = tl.arange(0, BLOCK_N) % N
+    offs_k = tl.arange(0, BLOCK_K)
+    mask_m = offs_m < M
+
+    a_ptrs = a_ptr + offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + offs_k[:, None] * stride_bk + offs_n[None, :] * stride_bn
+
+    accumulator = moe_mmk(
+        a_ptrs,
+        b_ptrs,
+        K,
+        expert_id,
+        a_scale_ptr,
+        b_scale_ptr,
+        # The stride variables represent how much to increase the ptr by when
+        # moving by 1 element in a particular dimension. E.g. `stride_am` is
+        # how much to increase `a_ptr` by to get the element one row down
+        # (A has M rows).
+        stride_ak,
+        stride_bk,
+        stride_asm,
+        stride_ask,
+        stride_bse,
+        stride_bsk,
+        stride_bsn,
+        # Offsets and masks
+        offs_m,
+        offs_n,
+        mask_m,
+        # Block size for block-wise quantization
+        group_n,
+        group_k,
+        # Meta-parameters
+        BLOCK_M,
+        BLOCK_N,
+        BLOCK_K,
+        compute_type,
+        use_fp8_w8a8,
+        use_int8_w8a16)
+
+    # store in C
+    offs_cn = tl.arange(0, BLOCK_N)
+    c_ptrs = c_ptr + offs_m[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    c_mask = mask_m[:, None] & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, accumulator, mask=c_mask)
+
+
+@triton.jit
+def batched_triton_kernel(
+        a_ptr,  # [E, max_num_tokens, K]
+        b_ptr,  # [E, K, N]
+        c_ptr,  # [E, max_num_tokens, N]
+        expert_num_tokens,  # [E]
+        compute_type: tl.constexpr,
+        # Dimensions
+        max_num_tokens,
+        K,
+        N,
+        # Quantization data
+        a_scale_ptr,
+        b_scale_ptr,
+        b_zp_ptr,
+        # The stride variables represent how much to increase the ptr by when
+        # moving by 1 element in a particular dimension. E.g. `stride_am` is
+        # how much to increase `a_ptr` by to get the element one row down
+        # (A has M rows).
+        stride_ae,
+        stride_am,
+        stride_ak,
+        stride_be,
+        stride_bk,
+        stride_bn,
+        stride_ce,
+        stride_cm,
+        stride_cn,
+        stride_asm,
+        stride_ask,
+        stride_bse,
+        stride_bsk,
+        stride_bsn,
+        # Blockwise quantization data
+        group_n: tl.constexpr,
+        group_k: tl.constexpr,
+        # Quantization schemes
+        use_fp8_w8a8: tl.constexpr,
+        use_int8_w8a16: tl.constexpr,
+        # Kernel config
+        BLOCK_M: tl.constexpr,
+        BLOCK_N: tl.constexpr,
+        BLOCK_K: tl.constexpr):
+    expert_id = tl.program_id(axis=0)
+    e_num_tokens = tl.load(expert_num_tokens + expert_id)
+    if e_num_tokens == 0:
+        # Early exit
+        return
+
+    pid_mn = tl.program_id(axis=1)
+    #num_pid_m = tl.cdiv(max_num_tokens, BLOCK_M)
+    num_pid_n = tl.cdiv(N, BLOCK_N)
+    pid_m = pid_mn // num_pid_n
+    pid_n = pid_mn % num_pid_n
+
+    cta_m_start = pid_m * BLOCK_M
+    cta_n_start = pid_n * BLOCK_N
+    if cta_m_start >= e_num_tokens:
+        # Early exit
+        return
+
+    cta_m_size = min(BLOCK_M, e_num_tokens - cta_m_start)
+    cta_n_size = min(BLOCK_N, N - cta_n_start)
+
+    a_ptr = a_ptr + expert_id * stride_ae + cta_m_start * stride_am
+    b_ptr = b_ptr + expert_id * stride_be + cta_n_start * stride_bn
+    c_ptr = (c_ptr + expert_id * stride_ce + cta_m_start * stride_cm +
+             cta_n_start * stride_cn)
+
+    expert_triton_kernel(
+        a_ptr,
+        b_ptr,
+        c_ptr,
+        expert_id,
+        compute_type,
+        cta_m_size,  # M
+        cta_n_size,  # N
+        K,  # K
+        a_scale_ptr,
+        b_scale_ptr,
+        b_zp_ptr,
+        # Strides
+        stride_am,
+        stride_ak,
+        stride_bk,
+        stride_bn,
+        stride_cm,
+        stride_cn,
+        stride_asm,
+        stride_ask,
+        stride_bse,
+        stride_bsk,
+        stride_bsn,
+        # Blockwise quantization data
+        group_n,
+        group_k,
+        # Quantization schemes
+        use_fp8_w8a8,
+        use_int8_w8a16,
+        # Kernel config
+        BLOCK_M,
+        BLOCK_N,
+        BLOCK_K)
+
+
+def invoke_moe_batched_triton_kernel(
+        A: torch.Tensor,  # [E, max_tokens, K]
+        B: torch.Tensor,  # [E, K, N]
+        C: torch.Tensor,  # [E, max_tokens, N]
+        expert_num_tokens: torch.Tensor,  # [E]
+        compute_type: tl.dtype,
+        # Quantization data
+        A_scale: torch.Tensor,
+        B_scale: torch.Tensor,
+        B_zp: torch.Tensor,
+        # Quantization schemes
+        use_fp8_w8a8: bool,
+        use_int8_w8a16: bool,
+        use_int4_w4a16: bool,
+        config: dict[str, int],
+        block_shape: Optional[list[int]] = None):
+
+    assert not use_int4_w4a16
+    max_num_tokens = A.size(1)
+    K = A.size(2)
+    N = C.size(2)
+
+    BLOCK_M = config['BLOCK_SIZE_M']
+    BLOCK_N = config['BLOCK_SIZE_N']
+    BLOCK_K = config['BLOCK_SIZE_K']
+    assert (torch.compiler.is_compiling()
+            or torch.cuda.is_current_stream_capturing()
+            or max_num_tokens % BLOCK_M == 0)
+
+    grid = (expert_num_tokens.size(0), triton.cdiv(max_num_tokens, BLOCK_M) *
+            triton.cdiv(B.size(1), BLOCK_N))
+
+    batched_triton_kernel[grid](
+        A,
+        B,
+        C,
+        expert_num_tokens,
+        compute_type,
+        # Dimensions
+        max_num_tokens,
+        K,
+        N,
+        # Quantization data
+        A_scale,
+        B_scale,
+        B_zp,
+        # Strides
+        A.stride(0),
+        A.stride(1),
+        A.stride(2),
+        B.stride(0),
+        B.stride(2),
+        B.stride(1),
+        C.stride(0),
+        C.stride(1),
+        C.stride(2),
+        A_scale.stride(0) if A_scale is not None and A_scale.ndim == 2 else 0,
+        A_scale.stride(1) if A_scale is not None and A_scale.ndim == 2 else 0,
+        B_scale.stride(0) if B_scale is not None and B_scale.ndim >= 2 else 0,
+        B_scale.stride(2) if B_scale is not None and B_scale.ndim == 3 else 0,
+        B_scale.stride(1) if B_scale is not None and B_scale.ndim >= 2 else 0,
+        # Blockwise quantization data
+        0 if block_shape is None else block_shape[0],
+        0 if block_shape is None else block_shape[1],
+        # Quantization schemes
+        use_fp8_w8a8,
+        use_int8_w8a16,
+        # Kernel config
+        BLOCK_M=BLOCK_M,
+        BLOCK_N=BLOCK_N,
+        BLOCK_K=BLOCK_K)
+
+
+class BatchedPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
+    """
+    A reference prepare/finalize class that reorganizes the tokens into
+    expert batched format, i.e. E x max_num_tokens x K.  This is the format
+    that the PPLX dispatch/combine kernels use.
+    """
+
+    def __init__(self, max_num_tokens: Optional[int], world_size: int,
+                 dp_size: int, rank: int):
+        super().__init__()
+        self.world_size = world_size
+        self.dp_size = dp_size
+        self.rank = rank
+        self.max_num_tokens = max_num_tokens
+
+    def prepare(
+        self,
+        a1: torch.Tensor,
+        a1_scale: Optional[torch.Tensor],
+        a2_scale: Optional[torch.Tensor],
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_experts: int,
+        expert_map: Optional[torch.Tensor],
+        apply_router_weight_on_input: bool,
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor], Optional[torch.Tensor]]:
+        assert a1.dim() == 2
+        assert topk_ids.dim() == 2
+        assert topk_ids.size(0) == a1.size(0)
+
+        if apply_router_weight_on_input:
+            topk = topk_ids.size(1)
+            # TODO: this only works for topK=1, will need to update for topK>1
+            assert topk == 1, \
+                "apply_router_weight_on_input is only implemented for topk=1"
+            a1.mul_(topk_weights.to(a1.dtype))
+
+        num_tokens, hidden_dim = a1.size()
+        topk = topk_ids.size(1)
+
+        if self.max_num_tokens is None:
+            tokens_per_expert = torch.bincount(topk_ids.view(-1),
+                                               minlength=num_experts)
+            self.max_num_tokens = int(tokens_per_expert.max().item())
+        else:
+            tokens_per_expert = torch.zeros(num_experts,
+                                            dtype=torch.int,
+                                            device=a1.device)
+
+        assert num_experts % self.world_size == 0
+
+        num_local_experts = num_experts // self.world_size
+
+        b_a1 = torch.zeros(
+            (num_local_experts, self.max_num_tokens, hidden_dim),
+            dtype=a1.dtype,
+            device=a1.device)
+
+        first_expert = num_local_experts * self.rank
+        last_expert = first_expert + num_local_experts
+
+        for expert_id in range(first_expert, last_expert):
+            topks = torch.any(topk_ids == expert_id, dim=1).flatten()
+            rows = torch.count_nonzero(topks.flatten())
+            b_a1[expert_id -
+                 first_expert, :rows, :] = a1[:topks.numel()][topks]
+            tokens_per_expert[expert_id - first_expert] = rows
+
+        return b_a1, a1_scale, tokens_per_expert
+
+    def finalize(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+    ) -> None:
+        num_tokens = topk_ids.size(0)
+        num_local_experts = fused_expert_output.size(0)
+        K = fused_expert_output.size(-1)
+        assert output.size(0) == num_tokens and output.size(1) == K
+
+        output.fill_(0)
+
+        first_expert = num_local_experts * self.rank
+        last_expert = first_expert + num_local_experts
+
+        for expert_id in range(first_expert, last_expert):
+            matching_tokens = topk_ids == expert_id
+            topks = torch.any(matching_tokens, dim=1).flatten()
+            rows = torch.count_nonzero(topks)
+            rhs = fused_expert_output[expert_id - first_expert, :rows, :]
+            if not apply_router_weight_on_input:
+                rhs.mul_(topk_weights[matching_tokens].view(rhs.size(0), 1))
+            output[topks] = output[topks] + rhs
+
+
+class BatchedExperts(mk.FusedMoEPermuteExpertsUnpermute):
+    """
+    A reference MoE expert class that operates on expert batched format,
+    i.e. E x max_num_tokens x K.  This is the format that the pplx
+    dispatch/combine kernels use.
+    """
+
+    def __init__(
+        self,
+        world_size: int,
+        dp_size: int,
+        max_num_tokens: Optional[int] = None,
+        use_fp8_w8a8: bool = False,
+        use_int8_w8a8: bool = False,
+        use_int8_w8a16: bool = False,
+        use_int4_w4a16: bool = False,
+        block_shape: Optional[list[int]] = None,
+        block_m: Optional[int] = None,
+    ):
+        super().__init__()
+        assert block_shape is None
+        assert block_m is None
+        assert not use_fp8_w8a8, "NYI"
+        assert not use_int8_w8a8, "NYI"
+        assert not use_int8_w8a16, "NYI"
+        assert not use_int4_w4a16, "NYI"
+        self.max_num_tokens = max_num_tokens
+        self.world_size = world_size
+        self.dp_size = dp_size
+
+    def workspace_shapes(
+        self,
+        a: torch.Tensor,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        num_experts: int,
+    ) -> tuple[int, int, torch.dtype]:
+        assert a.dim() == 2
+        num_dp = self.world_size // self.dp_size
+        max_num_tokens = a.size(
+            0) if self.max_num_tokens is None else self.max_num_tokens
+        #print(f"WORKSPACE {max_num_tokens} {num_dp}")
+        workspace13 = num_experts * max_num_tokens * num_dp * K
+        workspace2 = max_num_tokens * num_dp * N
+        return (workspace13, workspace2, a.dtype)
+
+    def apply(
+        self,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: Optional[torch.Tensor],
+        w1_scale: Optional[torch.Tensor],
+        w2_scale: Optional[torch.Tensor],
+        w1_zp: Optional[torch.Tensor],
+        w2_zp: Optional[torch.Tensor],
+        a1q_scale: Optional[torch.Tensor],
+        a2_scale: Optional[torch.Tensor],
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_num_tokens: Optional[torch.Tensor],
+    ) -> torch.Tensor:
+        assert hidden_states.dim() == 3
+        assert expert_num_tokens is not None
+        hidden_dim = hidden_states.size(-1)
+
+        if self.max_num_tokens is None:
+            max_num_tokens = hidden_states.size(1)
+        else:
+            max_num_tokens = self.max_num_tokens
+
+        num_dp = self.world_size // self.dp_size
+        num_experts = global_num_experts
+        out = _resize_cache(workspace13,
+                            (num_experts, max_num_tokens * num_dp, hidden_dim))
+        num_local_experts = w1.size(0)
+        assert num_local_experts == w1.size(0), (
+            f"{num_local_experts} == {w1.size(0)}")
+
+        N = w1.size(1) // 2
+
+        # Not cudagraph friendly
+        assert (torch.compiler.is_compiling()
+                or torch.cuda.is_current_stream_capturing()
+                or torch.all(expert_num_tokens <= max_num_tokens * num_dp)), (
+                    f"{expert_num_tokens} <= {max_num_tokens * num_dp}")
+
+        for expert in range(num_local_experts):
+            # Indexing expert_num_tokens doesn't work w/cudagraphs or inductor
+            if (torch.compiler.is_compiling()
+                    or torch.cuda.is_current_stream_capturing()):
+                num = max_num_tokens * num_dp
+            else:
+                num = int(expert_num_tokens[expert].item())
+            tmp = _resize_cache(workspace2, (num, N))
+            input = hidden_states[expert, :num, :] @ w1[expert].transpose(0, 1)
+            self.activation(activation, tmp, input)
+            out[expert, :num, :] = tmp @ w2[expert].transpose(0, 1)
+
+        return out
+
+
+class BatchedTritonExperts(mk.FusedMoEPermuteExpertsUnpermute):
+    """
+    A Triton based MoE expert class that operates on expert batched format,
+    i.e. E x max_num_tokens x K.  This is the format that the pplx
+    dispatch/combine kernels use.
+    """
+
+    def __init__(
+        self,
+        max_num_tokens: Optional[int] = None,
+        use_fp8_w8a8: bool = False,
+        use_int8_w8a8: bool = False,
+        use_int8_w8a16: bool = False,
+        use_int4_w4a16: bool = False,
+        block_shape: Optional[list[int]] = None,
+        world_size: int = 1,
+        dp_size: int = 1,
+    ):
+        super().__init__()
+        self.use_fp8_w8a8 = use_fp8_w8a8
+        self.use_int8_w8a8 = use_int8_w8a8
+        self.use_int4_w4a16 = use_int4_w4a16
+        self.use_int8_w8a16 = use_int8_w8a16
+        self.block_shape = block_shape
+        self.max_num_tokens = max_num_tokens
+        assert not use_int8_w8a8, "NYI"
+        assert not use_int4_w4a16, "NYI"
+        self.world_size = world_size
+        self.dp_size = dp_size
+
+    def workspace_shapes(
+        self,
+        a: torch.Tensor,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        num_experts: int,
+    ) -> tuple[int, int, torch.dtype]:
+        assert a.dim() == 2
+        num_dp = self.world_size // self.dp_size
+        max_num_tokens = a.size(
+            0) if self.max_num_tokens is None else self.max_num_tokens
+        workspace13 = num_experts * max_num_tokens * num_dp * max(K, N)
+        workspace2 = num_experts * max_num_tokens * num_dp * (N // 2)
+        return (workspace13, workspace2, a.dtype)
+
+    def apply(
+        self,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: Optional[torch.Tensor],
+        w1_scale: Optional[torch.Tensor],
+        w2_scale: Optional[torch.Tensor],
+        w1_zp: Optional[torch.Tensor],
+        w2_zp: Optional[torch.Tensor],
+        a1q_scale: Optional[torch.Tensor],
+        a2_scale: Optional[torch.Tensor],
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_num_tokens: Optional[torch.Tensor],
+    ) -> torch.Tensor:
+        # Check constraints.
+        if self.use_int4_w4a16:
+            assert hidden_states.size(-1) // 2 == w1.size(2), (
+                "Hidden size mismatch")
+        else:
+            assert hidden_states.size(-1) == w1.size(2), (
+                f"Hidden size mismatch {hidden_states.size(-1)} "
+                f"!= {w1.size(2)}")
+
+        assert hidden_states.is_contiguous(
+        ), "Hidden_states must be contiguous"
+        assert w1.stride(-1) == 1, "Stride of last dimension must be 1"
+        assert w2.stride(-1) == 1, "Stride of last dimension must be 1"
+        assert hidden_states.dtype in [
+            torch.float32, torch.float16, torch.bfloat16, torch.float8_e4m3fn
+        ]
+
+        # TODO: num_tokens -> max_num_tokens?
+        E, num_tokens, N, K, top_k_num = mk._moe_problem_size(
+            hidden_states, w1, w2, topk_ids)
+
+        assert w1.size(0) == E
+        assert w2.size(0) == E
+
+        config_dtype = get_config_dtype_str(use_fp8_w8a8=self.use_fp8_w8a8,
+                                            use_int8_w8a16=self.use_int8_w8a16,
+                                            use_int4_w4a16=self.use_int4_w4a16,
+                                            dtype=hidden_states.dtype)
+
+        config = try_get_optimal_moe_config(
+            w1.size(),
+            w2.size(),
+            top_k_num,
+            config_dtype,
+            num_tokens,
+            block_shape=self.block_shape,
+        )
+
+        if hidden_states.dtype == torch.bfloat16:
+            compute_type = tl.bfloat16
+        elif hidden_states.dtype == torch.float16:
+            compute_type = tl.float16
+        elif hidden_states.dtype == torch.float32:
+            compute_type = tl.float32
+        elif hidden_states.dtype == torch.float8_e4m3fn:
+            compute_type = tl.bfloat16
+        else:
+            raise ValueError(
+                f"Unsupported compute_type: {hidden_states.dtype}")
+
+        #print(f"shape: E={E}, M={num_tokens}, N={N}, K={K}, top_k={top_k_num}")
+        # We can reuse the memory between these because by the time we need
+        # cache3, we're done with cache1
+        intermediate_cache1 = _resize_cache(workspace13, (E, num_tokens, N))
+        intermediate_cache2 = _resize_cache(workspace2,
+                                            (E, num_tokens, N // 2))
+        intermediate_cache3 = _resize_cache(workspace13, (E, num_tokens, K))
+
+        # MM1
+        invoke_moe_batched_triton_kernel(A=hidden_states,
+                                         B=w1,
+                                         C=intermediate_cache1,
+                                         expert_num_tokens=expert_num_tokens,
+                                         compute_type=compute_type,
+                                         A_scale=a1q_scale,
+                                         B_scale=w1_scale,
+                                         B_zp=w1_zp,
+                                         use_fp8_w8a8=self.use_fp8_w8a8,
+                                         use_int8_w8a16=self.use_int8_w8a16,
+                                         use_int4_w4a16=self.use_int4_w4a16,
+                                         config=config,
+                                         block_shape=self.block_shape)
+
+        # TODO: would be nice to use expert_num_tokens here to reduce
+        # garbage compute
+        self.activation(activation, intermediate_cache2.view(-1, N // 2),
+                        intermediate_cache1.view(-1, N))
+
+        #qintermediate_cache2 = intermediate_cache2
+        a2q_scale = a2_scale
+        # TODO (varun) : support w8a8
+        assert not self.use_fp8_w8a8
+        #if self.use_fp8_w8a8:
+        #    qintermediate_cache2, a2q_scale = _fp8_quantize(
+        #        intermediate_cache2, a2_scale, self.block_shape)
+
+        invoke_moe_batched_triton_kernel(A=intermediate_cache2,
+                                         B=w2,
+                                         C=intermediate_cache3,
+                                         expert_num_tokens=expert_num_tokens,
+                                         compute_type=compute_type,
+                                         A_scale=a2q_scale,
+                                         B_scale=w2_scale,
+                                         B_zp=w2_zp,
+                                         use_fp8_w8a8=self.use_fp8_w8a8,
+                                         use_int8_w8a16=self.use_int8_w8a16,
+                                         use_int4_w4a16=self.use_int4_w4a16,
+                                         config=config,
+                                         block_shape=self.block_shape)
+
+        return intermediate_cache3
diff --git a/vllm/model_executor/layers/fused_moe/fused_moe.py b/vllm/model_executor/layers/fused_moe/fused_moe.py
index 7bf424330..78f8eb926 100644
--- a/vllm/model_executor/layers/fused_moe/fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/fused_moe.py
@@ -8,16 +8,17 @@ from typing import Any, Callable, Optional
 import torch
 
 import vllm.envs as envs
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
 from vllm import _custom_ops as ops
 from vllm.logger import init_logger
 from vllm.model_executor.layers.fused_moe.deep_gemm_moe import (
     _valid_deep_gemm, deep_gemm_moe_fp8)
 from vllm.model_executor.layers.fused_moe.moe_align_block_size import (
     moe_align_block_size)
-from vllm.model_executor.layers.quantization.utils.fp8_utils import (
-    per_token_group_quant_fp8)
-from vllm.model_executor.layers.quantization.utils.int8_utils import (
-    per_token_group_quant_int8, per_token_quant_int8)
+from vllm.model_executor.layers.fused_moe.prepare_finalize import (
+    MoEPrepareAndFinalizeNoEP)
+from vllm.model_executor.layers.fused_moe.utils import (
+    _resize_cache, moe_kernel_quantize_input)
 from vllm.platforms import current_platform
 from vllm.triton_utils import tl, triton
 from vllm.utils import direct_register_custom_op
@@ -484,6 +485,20 @@ def invoke_fused_moe_kernel(A: torch.Tensor,
     assert topk_weights is None or topk_weights.stride(1) == 1
     assert sorted_token_ids.stride(0) == 1
 
+    if use_fp8_w8a8 or use_int8_w8a8:
+        assert B_scale is not None
+        assert (block_shape is None or triton.cdiv(B.shape[-2], block_shape[0])
+                == B_scale.shape[-2])
+        assert (block_shape is None or triton.cdiv(B.shape[-1], block_shape[1])
+                == B_scale.shape[-1])
+
+    elif use_int8_w8a16 or use_int4_w4a16:
+        assert B_scale is not None
+        assert block_shape is None or block_shape[0] == 0
+    else:
+        assert A_scale is None
+        assert B_scale is None
+
     M = A.shape[0]
     num_tokens = M * top_k
 
@@ -855,6 +870,7 @@ def fused_topk(
     gating_output: torch.Tensor,
     topk: int,
     renormalize: bool,
+    indices_type: Optional[torch.dtype] = None,
 ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
     assert hidden_states.shape[0] == gating_output.shape[0], (
         "Number of tokens mismatch")
@@ -865,10 +881,11 @@ def fused_topk(
                                topk,
                                dtype=torch.float32,
                                device=hidden_states.device)
-    topk_ids = torch.empty(M,
-                           topk,
-                           dtype=torch.int32,
-                           device=hidden_states.device)
+    topk_ids = torch.empty(
+        M,
+        topk,
+        dtype=torch.int32 if indices_type is None else indices_type,
+        device=hidden_states.device)
     token_expert_indices = torch.empty(M,
                                        topk,
                                        dtype=torch.int32,
@@ -962,6 +979,20 @@ def get_config_dtype_str(
     return None
 
 
+# TODO (bnell): use scalar_type instead of bools?
+def get_config_qtype(
+    use_fp8_w8a8: bool,
+    use_int8_w8a8: bool,
+    use_int8_w8a16: bool,
+    use_int4_w4a16: bool,
+) -> Optional[torch.dtype]:
+    if use_fp8_w8a8:
+        return torch.float8_e4m3fn
+    elif use_int8_w8a8:
+        return torch.int8
+    return None
+
+
 def inplace_fused_experts(hidden_states: torch.Tensor,
                           w1: torch.Tensor,
                           w2: torch.Tensor,
@@ -1128,7 +1159,10 @@ def fused_experts(hidden_states: torch.Tensor,
                   a2_scale: Optional[torch.Tensor] = None,
                   block_shape: Optional[list[int]] = None,
                   allow_deep_gemm: bool = False) -> torch.Tensor:
-    if (allow_deep_gemm and use_fp8_w8a8
+    # For now, disable DeepGemm for small N (<= 512) until better
+    # permute/unpermute ops are available.
+    N = w1.shape[1]
+    if (allow_deep_gemm and use_fp8_w8a8 and N > 512
             and _valid_deep_gemm(hidden_states, w1, w2, expert_map)):
         assert apply_router_weight_on_input is False
         return deep_gemm_moe_fp8(
@@ -1145,6 +1179,7 @@ def fused_experts(hidden_states: torch.Tensor,
             w2_scale=w2_scale,
             a1_scale=a1_scale,
             a2_scale=a2_scale,
+            apply_router_weight_on_input=apply_router_weight_on_input,
         )
     else:
         return dispatch_fused_experts_func(inplace)(
@@ -1171,87 +1206,37 @@ def fused_experts(hidden_states: torch.Tensor,
             block_shape=block_shape)
 
 
-def moe_kernel_prepare_input(
-    A: torch.Tensor,
-    B: torch.Tensor,
-    A_scale: Optional[torch.Tensor],
-    B_scale: Optional[torch.Tensor],
-    use_fp8_w8a8: bool,
-    use_int8_w8a8: bool,
-    use_int8_w8a16: bool,
-    use_int4_w4a16: bool,
-    per_channel_quant: bool,
+def fused_experts_impl(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    inplace: bool = False,
+    activation: str = "silu",
+    apply_router_weight_on_input: bool = False,
+    use_fp8_w8a8: bool = False,
+    use_int8_w8a8: bool = False,
+    use_int8_w8a16: bool = False,
+    use_int4_w4a16: bool = False,
+    per_channel_quant: bool = False,
+    global_num_experts: int = -1,
+    expert_map: Optional[torch.Tensor] = None,
+    w1_scale: Optional[torch.Tensor] = None,
+    w2_scale: Optional[torch.Tensor] = None,
+    w1_zp: Optional[torch.Tensor] = None,
+    w2_zp: Optional[torch.Tensor] = None,
+    a1_scale: Optional[torch.Tensor] = None,
+    a2_scale: Optional[torch.Tensor] = None,
     block_shape: Optional[list[int]] = None,
-) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
-    if use_fp8_w8a8:
-        assert B_scale is not None
-        if block_shape is None:
-            # If weights are per-channel (per_channel_quant=True), then
-            # activations apply per-token quantization. Otherwise, assume
-            # activation tensor-wise fp8 quantization, dynamic or static
-            A, A_scale = ops.scaled_fp8_quant(
-                A, A_scale, use_per_token_if_dynamic=per_channel_quant)
-        else:
-            # activation block-wise fp8 quantization
-            assert len(block_shape) == 2
-            _, block_k = block_shape[0], block_shape[1]
-            A, A_scale = per_token_group_quant_fp8(A, block_k)
-            assert triton.cdiv(A.shape[-1], block_k) == A_scale.shape[-1]
-            # assert triton.cdiv(B.shape[-2], block_n) == B_scale.shape[-2]
-            # assert triton.cdiv(B.shape[-1], block_k) == B_scale.shape[-1]
-    elif use_int8_w8a8:
-        assert B_scale is not None
-        if block_shape is None:
-            # activation channel-wise int8 quantization
-            assert (per_channel_quant
-                    ), "int8 quantization only supports block or channel-wise"
-            A, A_scale = per_token_quant_int8(A)
-        else:
-            # activation block-wise int8 quantization
-            assert len(block_shape) == 2
-            _, block_k = block_shape[0], block_shape[1]
-            A, A_scale = per_token_group_quant_int8(A, block_k)
-            assert triton.cdiv(A.shape[-1], block_k) == A_scale.shape[-1]
-            # assert triton.cdiv(B.shape[-2], block_n) == B_scale.shape[-2]
-            # assert triton.cdiv(B.shape[-1], block_k) == B_scale.shape[-1]
-    elif use_int8_w8a16 or use_int4_w4a16:
-        assert B_scale is not None
-        assert block_shape is None or block_shape[0] == 0
-    else:
-        assert A_scale is None
-        assert B_scale is None
-
-    return A, A_scale
-
-
-def fused_experts_impl(hidden_states: torch.Tensor,
-                       w1: torch.Tensor,
-                       w2: torch.Tensor,
-                       topk_weights: torch.Tensor,
-                       topk_ids: torch.Tensor,
-                       inplace: bool = False,
-                       activation: str = "silu",
-                       apply_router_weight_on_input: bool = False,
-                       use_fp8_w8a8: bool = False,
-                       use_int8_w8a8: bool = False,
-                       use_int8_w8a16: bool = False,
-                       use_int4_w4a16: bool = False,
-                       per_channel_quant: bool = False,
-                       global_num_experts: int = -1,
-                       expert_map: Optional[torch.Tensor] = None,
-                       w1_scale: Optional[torch.Tensor] = None,
-                       w2_scale: Optional[torch.Tensor] = None,
-                       w1_zp: Optional[torch.Tensor] = None,
-                       w2_zp: Optional[torch.Tensor] = None,
-                       a1_scale: Optional[torch.Tensor] = None,
-                       a2_scale: Optional[torch.Tensor] = None,
-                       block_shape: Optional[list[int]] = None):
+) -> torch.Tensor:
     # Check constraints.
     if use_int4_w4a16:
         assert hidden_states.shape[1] // 2 == w1.shape[
             2], "Hidden size mismatch"
     else:
-        assert hidden_states.shape[1] == w1.shape[2], "Hidden size mismatch"
+        assert hidden_states.shape[1] == w1.shape[2], (
+            f"Hidden size mismatch {hidden_states.shape[1]} != {w1.shape[2]}")
 
     assert topk_weights.shape == topk_ids.shape, "topk shape mismatch"
     assert hidden_states.is_contiguous(), "Hidden_states must be contiguous"
@@ -1261,7 +1246,7 @@ def fused_experts_impl(hidden_states: torch.Tensor,
         torch.float32, torch.float16, torch.bfloat16
     ]
 
-    num_tokens, _ = hidden_states.shape
+    num_tokens = hidden_states.shape[0]
     E, N, _ = w1.shape
     K = w2.shape[1]
     if global_num_experts == -1:
@@ -1276,6 +1261,11 @@ def fused_experts_impl(hidden_states: torch.Tensor,
                                         use_int4_w4a16=use_int4_w4a16,
                                         dtype=hidden_states.dtype)
 
+    qtype = get_config_qtype(use_fp8_w8a8=use_fp8_w8a8,
+                             use_int8_w8a8=use_int8_w8a8,
+                             use_int8_w8a16=use_int8_w8a16,
+                             use_int4_w4a16=use_int4_w4a16)
+
     get_config_func = functools.partial(
         try_get_optimal_moe_config,
         w1.shape,
@@ -1338,15 +1328,10 @@ def fused_experts_impl(hidden_states: torch.Tensor,
         curr_topk_ids = topk_ids[begin_chunk_idx:end_chunk_idx]
         curr_topk_weights = topk_weights[begin_chunk_idx:end_chunk_idx]
 
-        qcurr_hidden_states, qa1_scale = moe_kernel_prepare_input(
+        qcurr_hidden_states, a1q_scale = moe_kernel_quantize_input(
             A=curr_hidden_states,
-            B=w1,
             A_scale=a1_scale,
-            B_scale=w1_scale,
-            use_fp8_w8a8=use_fp8_w8a8,
-            use_int8_w8a8=use_int8_w8a8,
-            use_int8_w8a16=use_int8_w8a16,
-            use_int4_w4a16=use_int4_w4a16,
+            qtype=qtype,
             per_channel_quant=per_channel_quant,
             block_shape=block_shape)
 
@@ -1357,7 +1342,7 @@ def fused_experts_impl(hidden_states: torch.Tensor,
         invoke_fused_moe_kernel(qcurr_hidden_states,
                                 w1,
                                 intermediate_cache1,
-                                qa1_scale,
+                                a1q_scale,
                                 w1_scale,
                                 w1_zp,
                                 curr_topk_weights,
@@ -1384,22 +1369,17 @@ def fused_experts_impl(hidden_states: torch.Tensor,
         else:
             raise ValueError(f"Unsupported FusedMoe activation: {activation}")
 
-        qintermediate_cache2, qa2_scale = moe_kernel_prepare_input(
+        qintermediate_cache2, a2q_scale = moe_kernel_quantize_input(
             A=intermediate_cache2,
-            B=w2,
             A_scale=a2_scale,
-            B_scale=w2_scale,
-            use_fp8_w8a8=use_fp8_w8a8,
-            use_int8_w8a8=use_int8_w8a8,
-            use_int8_w8a16=use_int8_w8a16,
-            use_int4_w4a16=use_int4_w4a16,
+            qtype=qtype,
             per_channel_quant=per_channel_quant,
             block_shape=block_shape)
 
         invoke_fused_moe_kernel(qintermediate_cache2,
                                 w2,
                                 intermediate_cache3,
-                                qa2_scale,
+                                a2q_scale,
                                 w2_scale,
                                 w2_zp,
                                 curr_topk_weights,
@@ -1534,3 +1514,209 @@ def fused_moe(
                          a1_scale=a1_scale,
                          a2_scale=a2_scale,
                          block_shape=block_shape)
+
+
+class TritonExperts(mk.FusedMoEPermuteExpertsUnpermute):
+
+    def __init__(
+        self,
+        use_fp8_w8a8: bool,
+        use_int8_w8a8: bool,
+        use_int8_w8a16: bool,
+        use_int4_w4a16: bool,
+        per_channel_quant: bool,
+        block_shape: Optional[list[int]] = None,
+        block_m: Optional[int] = None,
+    ):
+        super().__init__()
+        self.use_fp8_w8a8 = use_fp8_w8a8
+        self.use_int4_w4a16 = use_int4_w4a16
+        self.use_int8_w8a8 = use_int8_w8a8
+        self.use_int8_w8a16 = use_int8_w8a16
+        self.block_shape = block_shape
+        self.block_m = block_m
+        self.qtype = get_config_qtype(use_fp8_w8a8=use_fp8_w8a8,
+                                      use_int8_w8a8=use_int8_w8a8,
+                                      use_int8_w8a16=use_int8_w8a16,
+                                      use_int4_w4a16=use_int4_w4a16)
+        self.per_channel_quant = per_channel_quant
+
+    def workspace_shapes(
+        self,
+        a: torch.Tensor,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        num_experts: int,
+    ) -> tuple[int, int, torch.dtype]:
+        factor = num_experts if a.dim() == 3 else 1
+        workspace1 = M * topk * max(N * 2, K) * factor
+        workspace2 = M * topk * N * factor
+        return (workspace1, workspace2, a.dtype)
+
+    def apply(
+        self,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: Optional[torch.Tensor],
+        w1_scale: Optional[torch.Tensor],
+        w2_scale: Optional[torch.Tensor],
+        w1_zp: Optional[torch.Tensor],
+        w2_zp: Optional[torch.Tensor],
+        a1q_scale: Optional[torch.Tensor],
+        a2_scale: Optional[torch.Tensor],
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_num_tokens: Optional[torch.Tensor],
+    ) -> torch.Tensor:
+        # Check constraints.
+        if self.use_int4_w4a16:
+            assert hidden_states.size(-1) // 2 == w1.size(2), (
+                "Hidden size mismatch")
+        else:
+            assert hidden_states.size(-1) == w1.size(2), \
+                (f"Hidden size mismatch {hidden_states.size(-1)} "
+                 f"!= {w1.size(2)}")
+
+        assert hidden_states.is_contiguous(
+        ), "Hidden_states must be contiguous"
+        assert hidden_states.dim() == 2
+        assert w1.stride(-1) == 1, "Stride of last dimension must be 1"
+        assert w2.stride(-1) == 1, "Stride of last dimension must be 1"
+        assert hidden_states.dtype in [
+            torch.float32, torch.float16, torch.bfloat16, torch.float8_e4m3fn
+        ]
+
+        E, num_tokens, N, K, top_k_num = mk._moe_problem_size(
+            hidden_states, w1, w2, topk_ids)
+
+        if global_num_experts == -1:
+            global_num_experts = E
+
+        config_dtype = get_config_dtype_str(use_fp8_w8a8=self.use_fp8_w8a8,
+                                            use_int8_w8a16=self.use_int8_w8a16,
+                                            use_int4_w4a16=self.use_int4_w4a16,
+                                            dtype=hidden_states.dtype)
+
+        config = try_get_optimal_moe_config(
+            w1.shape,
+            w2.shape,
+            top_k_num,
+            config_dtype,
+            num_tokens,
+            block_shape=self.block_shape,
+        )
+
+        if hidden_states.dtype == torch.bfloat16:
+            compute_type = tl.bfloat16
+        elif hidden_states.dtype == torch.float16:
+            compute_type = tl.float16
+        elif hidden_states.dtype == torch.float32:
+            compute_type = tl.float32
+        elif hidden_states.dtype == torch.float8_e4m3fn:
+            compute_type = tl.bfloat16
+        else:
+            raise ValueError(
+                f"Unsupported compute_type: {hidden_states.dtype}")
+
+        # We can reuse the memory between these because by the time we need
+        # cache3, we're done with cache1
+        intermediate_cache1 = _resize_cache(workspace13,
+                                            (num_tokens, top_k_num, N))
+        intermediate_cache2 = _resize_cache(workspace2,
+                                            (num_tokens * top_k_num, N // 2))
+        intermediate_cache3 = _resize_cache(workspace13,
+                                            (num_tokens, top_k_num, K))
+
+        sorted_token_ids, expert_ids, num_tokens_post_padded = (
+            moe_align_block_size(topk_ids, config['BLOCK_SIZE_M'],
+                                 global_num_experts, expert_map))
+
+        invoke_fused_moe_kernel(hidden_states,
+                                w1,
+                                intermediate_cache1,
+                                a1q_scale,
+                                w1_scale,
+                                w1_zp,
+                                None,
+                                sorted_token_ids,
+                                expert_ids,
+                                num_tokens_post_padded,
+                                False,
+                                top_k_num,
+                                config,
+                                compute_type=compute_type,
+                                use_fp8_w8a8=self.use_fp8_w8a8,
+                                use_int8_w8a8=self.use_int8_w8a8,
+                                use_int8_w8a16=self.use_int8_w8a16,
+                                use_int4_w4a16=self.use_int4_w4a16,
+                                per_channel_quant=self.per_channel_quant,
+                                block_shape=self.block_shape)
+
+        self.activation(activation, intermediate_cache2,
+                        intermediate_cache1.view(-1, N))
+
+        a2q_scale: Optional[torch.Tensor] = None
+
+        qintermediate_cache2, a2q_scale = moe_kernel_quantize_input(
+            intermediate_cache2, a2_scale, self.qtype, self.per_channel_quant,
+            self.block_shape)
+
+        invoke_fused_moe_kernel(qintermediate_cache2,
+                                w2,
+                                intermediate_cache3,
+                                a2q_scale,
+                                w2_scale,
+                                w2_zp,
+                                None,
+                                sorted_token_ids,
+                                expert_ids,
+                                num_tokens_post_padded,
+                                False,
+                                1,
+                                config,
+                                compute_type=compute_type,
+                                use_fp8_w8a8=self.use_fp8_w8a8,
+                                use_int8_w8a8=self.use_int8_w8a8,
+                                use_int8_w8a16=self.use_int8_w8a16,
+                                use_int4_w4a16=self.use_int4_w4a16,
+                                per_channel_quant=self.per_channel_quant,
+                                block_shape=self.block_shape)
+
+        return intermediate_cache3
+
+
+def modular_triton_fused_moe(
+    use_fp8_w8a8: bool,
+    use_int8_w8a8: bool,
+    use_int8_w8a16: bool,
+    use_int4_w4a16: bool,
+    per_channel_quant: bool,
+    block_shape: Optional[list[int]] = None,
+) -> mk.FusedMoEModularKernel:
+    qtype = get_config_qtype(
+        use_fp8_w8a8=use_fp8_w8a8,
+        use_int8_w8a8=use_int8_w8a8,
+        use_int8_w8a16=use_int8_w8a16,
+        use_int4_w4a16=use_int4_w4a16,
+    )
+    return mk.FusedMoEModularKernel(
+        MoEPrepareAndFinalizeNoEP(
+            quant_dtype=qtype,
+            per_channel_quant=per_channel_quant,
+            block_shape=block_shape,
+        ),
+        TritonExperts(
+            use_fp8_w8a8=use_fp8_w8a8,
+            use_int8_w8a8=use_int8_w8a8,
+            use_int8_w8a16=use_int8_w8a16,
+            use_int4_w4a16=use_int4_w4a16,
+            per_channel_quant=per_channel_quant,
+            block_shape=block_shape,
+        ),
+    )
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 14f360e3b..d083e0040 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -1,15 +1,19 @@
 # SPDX-License-Identifier: Apache-2.0
 
+import importlib
+import threading
 from abc import abstractmethod
+from dataclasses import dataclass
 from enum import Enum
 from typing import Callable, Optional
+from weakref import WeakValueDictionary
 
 import torch
 import torch.nn.functional as F
 from torch.nn.parameter import UninitializedParameter
 
 import vllm.envs as envs
-from vllm.config import get_current_vllm_config
+from vllm.config import ParallelConfig, get_current_vllm_config
 from vllm.distributed import (get_dp_group, get_ep_group,
                               get_tensor_model_parallel_rank,
                               get_tensor_model_parallel_world_size,
@@ -26,8 +30,17 @@ from vllm.platforms import current_platform
 from vllm.platforms.interface import CpuArchEnum
 from vllm.utils import direct_register_custom_op
 
+has_pplx = importlib.util.find_spec("pplx_kernels") is not None
+
 if current_platform.is_cuda_alike():
-    from .fused_moe import fused_experts
+    from .fused_batched_moe import (BatchedPrepareAndFinalize,
+                                    BatchedTritonExperts)
+    from .fused_moe import TritonExperts, fused_experts
+    from .modular_kernel import (FusedMoEModularKernel,
+                                 FusedMoEPermuteExpertsUnpermute,
+                                 FusedMoEPrepareAndFinalize)
+    if has_pplx:
+        from .pplx_prepare_finalize import PplxPrepareAndFinalize
 else:
     fused_experts = None  # type: ignore
 if is_rocm_aiter_moe_enabled():
@@ -42,6 +55,179 @@ else:
     fused_moe_pallas = None  # type: ignore
 logger = init_logger(__name__)
 
+# Note: this limit is somewhat arbitrary and might be changed later.
+# The size of the activations will be E x MOE_DP_CHUNK_SIZE x hidden_dim.
+MOE_DP_CHUNK_SIZE = 256
+
+
+@dataclass
+class FusedMoEParallelConfig:
+    tp_size: int
+    dp_size: int
+    ep_size: int
+    tp_rank: int
+    dp_rank: int
+    ep_rank: int
+
+    use_ep: bool  # whether to use EP or not
+
+    @property
+    def use_pplx_kernels(self):
+        return self.dp_size > 1 and self.use_ep and has_pplx
+
+    @staticmethod
+    def make(tp_size_: int, dp_size_: int,
+             vllm_parallel_config: ParallelConfig) -> "FusedMoEParallelConfig":
+        """
+        Determine MoE parallel configuration. Based on the input tp_size_,
+        dp_size_, ep_size_ and vllm's parallel config, determine what
+        level's of parallelism to use in the fused moe layer.
+
+        Args:
+            tp_size_ (int): tp_size passed into the FusedMoE constructor.
+            dp_size_ (int): dp_size passed into the FusedMoE constructor.
+            ep_size_ (int): ep_size passed into the FusedMoE constructor.
+            vllm_parallel_config (ParallelConfig): vllm's parallel config
+            object.
+
+        Examples:
+        When there is no parallelism requested, i.e. tp_size_ = dp_size_ = 1,
+        we simply return the sizes unaltered and the ranks set to 0.
+
+        Expert Parallelism is considered only when either dp_size_ or tp_size_
+        is non trivial.
+
+        When TP = 2, DP = 1 and EP = False, the configuration on different
+        devices,
+            - device 0 : TP = {2, 0} DP = {1, 0} EP = {1, 0} //
+                         legend : {size, rank}
+            - device 1 : TP = {2, 1} DP = {1, 0} EP = {1, 0}
+            - Comment : Tensors are sharded across 2 devices.
+
+        When TP = 1, DP = 2 and EP = False, the configuration on different
+        devices,
+            - device 0 : TP = {2, 0} DP = {2, 0} EP = {1, 0}
+            - device 1 : TP = {2, 1} DP = {2, 1} EP = {1, 0}
+            - Comment: There are 2 engine instances and the tensors are sharded
+              across 2 decvices.
+
+        When TP = 2, DP = 2 and EP = False, the configuration on different
+        devices,
+            - device 0: TP = {4, 0} DP = {2, 0} EP = {1, 0}
+            - device 1: TP = {4, 1} DP = {2, 0} EP = {1, 0}
+            - device 2: TP = {4, 2} DP = {2, 1} EP = {1, 0}
+            - device 3: TP = {4, 3} DP = {2, 1} EP = {1, 0}
+            - Comment: There are 2 engine instances and the tensors are sharded
+              across 4 devices.
+
+        When, TP = 2, DP = 1 and EP = True, the configuration on different
+        devices,
+            - device 0: TP = {1, 0} DP = {1, 0} EP = {2, 0}
+            - device 1: TP = {1, 0} DP = {1, 0} EP = {2, 1}
+            - Comment: The experts are split between the 2 devices.
+
+        When, TP = 1, DP = 2 and EP = True, the configuration on different
+        devices,
+            - device 0: TP = {1, 0} DP = {2, 0} EP = {2, 0}
+            - device 1: TP = {1, 0} DP = {2, 1} EP = {2, 1}
+            - Comment: There are 2 engine instances and the experts are split
+              between the 2 devices.
+
+        When TP = 2, DP = 2 and EP = True, the configuration on different
+        devices,
+            - device 0: TP = {1, 0} DP = {2, 0} EP = {4, 0}
+            - device 1: TP = {1, 0} DP = {2, 0} EP = {4, 1}
+            - device 2: TP = {1, 0} DP = {2, 1} EP = {4, 2}
+            - device 3: TP = {1, 0} DP = {2, 1} EP = {4, 3}
+            - Comment: There are 2 engine instances and the experts are split
+              between the 4 devices.
+        """
+
+        def flatten_tp_across_dp(dp_rank: int):
+            tp_rank = 0 if tp_size_ == 1 else get_tensor_model_parallel_rank()
+            # There are actually dp_size_ * tp_size_ devices. Update tp_size
+            # and tp_rank so we shard across all devices.
+            tp_size = dp_size_ * tp_size_
+            tp_rank = dp_rank * tp_size_ + tp_rank
+            return tp_size, tp_rank
+
+        use_ep = (dp_size_ * tp_size_ > 1
+                  and vllm_parallel_config.enable_expert_parallel)
+
+        dp_size = dp_size_
+        dp_rank = get_dp_group().rank_in_group if dp_size > 1 else 0
+        tp_size, tp_rank = flatten_tp_across_dp(dp_rank)
+
+        if not use_ep:
+            return FusedMoEParallelConfig(tp_size=tp_size,
+                                          tp_rank=tp_rank,
+                                          dp_size=dp_size,
+                                          dp_rank=dp_rank,
+                                          ep_size=1,
+                                          ep_rank=0,
+                                          use_ep=False)
+        # DP + EP / TP + EP / DP + TP + EP
+        assert use_ep
+        # In EP, each device owns a set of experts fully. There is no tensor
+        # parallel update tp_size, tp_rank, ep_size and ep_rank to reflect that.
+        ep_size = tp_size
+        ep_rank = tp_rank
+        return FusedMoEParallelConfig(tp_size=1,
+                                      tp_rank=0,
+                                      dp_size=dp_size,
+                                      dp_rank=dp_rank,
+                                      ep_size=ep_size,
+                                      ep_rank=ep_rank,
+                                      use_ep=True)
+
+
+# Adapted from pplx-kernels tests/all_to_all_utils.py
+@dataclass
+class MoEConfig:
+    num_experts: int
+    experts_per_token: int
+    hidden_dim: int
+
+    num_local_experts: int
+    moe_parallel_config: FusedMoEParallelConfig
+
+    in_dtype: torch.dtype  # The activation type.
+
+    # TODO: add more quantization params, blocked, per-token, etc.
+    block_size: int = 128
+
+    @property
+    def tp_size(self):
+        return self.moe_parallel_config.tp_size
+
+    @property
+    def dp_size(self):
+        return self.moe_parallel_config.dp_size
+
+    @property
+    def ep_size(self):
+        return self.moe_parallel_config.ep_size
+
+    @property
+    def tp_rank(self):
+        return self.moe_parallel_config.tp_rank
+
+    @property
+    def dp_rank(self):
+        return self.moe_parallel_config.dp_rank
+
+    @property
+    def ep_rank(self):
+        return self.moe_parallel_config.ep_rank
+
+    @property
+    def use_ep(self):
+        return self.moe_parallel_config.use_ep
+
+    @property
+    def use_pplx_kernels(self):
+        return self.moe_parallel_config.use_pplx_kernels
+
 
 class FusedMoeWeightScaleSupported(Enum):
     TENSOR = "tensor"
@@ -58,6 +244,14 @@ class FusedMoEMethodBase(QuantizeMethodBase):
                        params_dtype: torch.dtype, **extra_weight_attrs):
         raise NotImplementedError
 
+    def set_prepare_finalize(
+        self,
+        dp_size: int,
+        world_size: int,
+        prepare_finalize: FusedMoEPrepareAndFinalize,
+    ) -> bool:
+        return False
+
     @abstractmethod
     def apply(
         self,
@@ -80,12 +274,54 @@ class FusedMoEMethodBase(QuantizeMethodBase):
         raise NotImplementedError
 
 
+class AllToAllCache:
+
+    def __init__(self):
+        self._cache: WeakValueDictionary = WeakValueDictionary()
+        self._lock = threading.RLock()  # Reentrant lock for thread safety
+
+    def destroy(self):
+        with self._lock:
+            # TODO: can we do del self._cache?
+            for _, a2a in self._cache.items():
+                a2a.destroy()
+
+    def get_or_create(self, **kwargs):
+        assert has_pplx
+        import pplx_kernels as pplx
+
+        # Create a hashable key from the kwargs
+        key = tuple(sorted((k, v) for k, v in kwargs.items()))
+
+        with self._lock:
+            instance = self._cache.get(key)
+            if instance is None:
+                # TODO (varun): Add support to switch to intranode
+                # when all communications are within the same
+                # node.
+                logger.debug("Create AllToAll %s", kwargs)
+                instance = pplx.AllToAll.internode(**kwargs)
+                self._cache[key] = instance
+            return instance
+
+
+# Global singleton
+_all_to_all_cache = AllToAllCache()
+
+
+# Factory function as a cleaner interface
+def get_all_to_all(**kwargs):
+    return _all_to_all_cache.get_or_create(**kwargs)
+
+
 @CustomOp.register("unquantized_fused_moe")
 class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
     """MoE method without quantization."""
 
-    def __init__(self):
+    def __init__(self, moe: MoEConfig):
         super().__init__()
+        self.fused_experts = fused_experts
+        self.moe = moe
 
         self.rocm_aiter_moe_enabled = is_rocm_aiter_moe_enabled()
         if self.rocm_aiter_moe_enabled:
@@ -193,6 +429,47 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
             activation=activation,
             apply_router_weight_on_input=apply_router_weight_on_input)
 
+    def set_prepare_finalize(
+        self,
+        dp_size: int,
+        world_size: int,
+        prepare_finalize: FusedMoEPrepareAndFinalize,
+    ) -> bool:
+        assert self.fused_experts == fused_experts
+
+        experts: Optional[FusedMoEPermuteExpertsUnpermute] = None
+
+        if isinstance(prepare_finalize,
+                      (BatchedPrepareAndFinalize, PplxPrepareAndFinalize)):
+            logger.debug("BatchedTritonExperts %s", self.moe)
+            experts = BatchedTritonExperts(
+                max_num_tokens=MOE_DP_CHUNK_SIZE,
+                world_size=world_size,
+                dp_size=dp_size,
+                use_fp8_w8a8=False,
+                use_int8_w8a8=False,
+                use_int8_w8a16=False,
+                use_int4_w4a16=False,
+                block_shape=None,
+            )
+        else:
+            logger.debug("TritonExperts %s", self.moe)
+            experts = TritonExperts(
+                use_fp8_w8a8=False,
+                use_int8_w8a8=False,
+                use_int8_w8a16=False,
+                use_int4_w4a16=False,
+                block_shape=None,
+                per_channel_quant=False,
+            )
+
+        self.fused_experts = FusedMoEModularKernel(
+            prepare_finalize,
+            experts,
+        )
+
+        return True
+
     def forward_cuda(
         self,
         layer: torch.nn.Module,
@@ -221,9 +498,12 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
             num_expert_group=num_expert_group,
             custom_routing_function=custom_routing_function,
             scoring_func=scoring_func,
-            e_score_correction_bias=e_score_correction_bias)
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=torch.uint32 if self.moe.use_pplx_kernels else None)
 
         if self.rocm_aiter_moe_enabled:
+            assert not apply_router_weight_on_input
+            assert expert_map is None
             return self.rocm_aiter_fused_experts(
                 hidden_states=x,
                 w1=layer.w13_weight,
@@ -232,18 +512,19 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
                 topk_ids=topk_ids,
                 activation=activation,
                 apply_router_weight_on_input=apply_router_weight_on_input)
-
-        return fused_experts(
-            hidden_states=x,
-            w1=layer.w13_weight,
-            w2=layer.w2_weight,
-            topk_weights=topk_weights,
-            topk_ids=topk_ids,
-            inplace=True,
-            activation=activation,
-            apply_router_weight_on_input=apply_router_weight_on_input,
-            global_num_experts=global_num_experts,
-            expert_map=expert_map)
+        else:
+            return self.fused_experts(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                inplace=True,
+                activation=activation,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+            )
 
     def forward_cpu(
         self,
@@ -399,6 +680,45 @@ def determine_expert_map(
     return (local_num_experts, expert_map)
 
 
+def _construct_prepare_finalize(
+    moe: MoEConfig, quant_config: Optional[QuantizationConfig]
+) -> Optional[FusedMoEPrepareAndFinalize]:
+    max_num_tokens = MOE_DP_CHUNK_SIZE
+    world_size = moe.ep_size
+    dp_size = moe.ep_size // moe.dp_size  # dp_size actually means TP.
+    rank = moe.ep_rank
+
+    if moe.use_pplx_kernels:
+        logger.debug("using PplxPrepareAndFinalize")
+
+        all_to_all = get_all_to_all(
+            max_num_tokens=max_num_tokens,
+            num_experts=moe.num_experts,
+            experts_per_token=moe.experts_per_token,  # topk
+            rank=rank,
+            world_size=world_size,
+            dp_size=dp_size,
+            hidden_dim=moe.hidden_dim,
+            hidden_dim_bytes=moe.hidden_dim * moe.in_dtype.itemsize,
+            # For blocked per token: set to
+            #   ceil_div(hidden_dim, block_size) * sizeof(float32)
+            # For per-token: set to sizeof(float32)
+            hidden_dim_scale_bytes=(0 if moe.in_dtype.itemsize != 1 else
+                                    ((moe.hidden_dim + moe.block_size - 1) //
+                                     moe.block_size * torch.float32.itemsize)))
+
+        return PplxPrepareAndFinalize(
+            all_to_all,
+            max_num_tokens=max_num_tokens,
+            world_size=world_size,
+            rank=rank,
+            dp_size=dp_size,
+            quant_dtype=moe.in_dtype,
+        )
+
+    return None
+
+
 class FusedMoE(torch.nn.Module):
     """FusedMoE layer for MoE models.
 
@@ -449,21 +769,16 @@ class FusedMoE(torch.nn.Module):
             params_dtype = torch.get_default_dtype()
         self.params_dtype = params_dtype
 
-        # Note: here we guard against accessing the TP and DP groups when
-        # uninitialized (this happens when testing)
-        self.tp_size = (tp_size if tp_size is not None else
-                        get_tensor_model_parallel_world_size())
-        tp_rank = 0 if self.tp_size == 1 else get_tensor_model_parallel_rank()
-        self.dp_size = (dp_size
-                        if dp_size is not None else get_dp_group().world_size)
-        self.dp_rank = (0
-                        if self.dp_size == 1 else get_dp_group().rank_in_group)
-        self.global_num_experts = num_experts
-
-        # Use expert parallelism instead of tensor parallelism?
         vllm_config = get_current_vllm_config()
-        use_ep = (vllm_config.parallel_config.enable_expert_parallel
-                  and self.tp_size * self.dp_size > 1)
+        self.moe_parallel_config: FusedMoEParallelConfig = (
+            FusedMoEParallelConfig.make(
+                tp_size_=(tp_size if tp_size is not None else
+                          get_tensor_model_parallel_world_size()),
+                dp_size_=(dp_size if dp_size is not None else
+                          get_dp_group().world_size),
+                vllm_parallel_config=vllm_config.parallel_config))
+
+        self.global_num_experts = num_experts
 
         # For smuggling this layer into the fused moe custom op
         self.use_direct_call = self.dp_size == 1
@@ -474,28 +789,17 @@ class FusedMoE(torch.nn.Module):
             compilation_config.static_forward_context[prefix] = self
             self.layer_name = prefix
 
-        if use_ep:
-            # Set TP size to 1 to adjust for EP and adjust EP size and rank
-            # for DP attention.
-            self.ep_rank = tp_rank + self.tp_size * self.dp_rank
-            self.tp_rank = 0
-            self.ep_size = self.tp_size * self.dp_size
-            self.tp_size = 1
-
+        # Determine expert maps
+        if self.use_ep:
             self.local_num_experts, self.expert_map = determine_expert_map(
                 ep_size=self.ep_size,
                 ep_rank=self.ep_rank,
                 global_num_experts=self.global_num_experts)
         else:
-            # Adjust TP size for DP attention
-            self.tp_rank = tp_rank + self.tp_size * self.dp_rank
-            self.ep_rank = 0
-            self.tp_size = self.tp_size * self.dp_size
-            self.ep_size = 1
-            self.local_num_experts = self.global_num_experts
-            self.expert_map = None
+            self.local_num_experts, self.expert_map = (self.global_num_experts,
+                                                       None)
+
         self.top_k = top_k
-        self.global_num_experts = num_experts
 
         assert intermediate_size % self.tp_size == 0
         self.hidden_size = hidden_size
@@ -520,14 +824,40 @@ class FusedMoE(torch.nn.Module):
             from vllm_hpu_extension.ops import DynamicFusedMOE
             self.hpu_fused_moe = DynamicFusedMOE(self.global_num_experts)
 
+        moe = MoEConfig(
+            num_experts=self.global_num_experts,
+            experts_per_token=top_k,
+            hidden_dim=hidden_size,
+            num_local_experts=self.local_num_experts,
+            moe_parallel_config=self.moe_parallel_config,
+            # TODO (bnell): this needs to be fixed for quantized types.
+            in_dtype=params_dtype,
+        )
+
         # Note: get_quant_method will look at the layer's local_num_experts
         # for heuristic purposes, so it must be initialized first.
+        quant_method: Optional[QuantizeMethodBase] = None
+
         if quant_config is None:
-            self.quant_method: Optional[QuantizeMethodBase] = (
-                UnquantizedFusedMoEMethod())
+            quant_method = UnquantizedFusedMoEMethod(moe)
+            prepare_finalize = _construct_prepare_finalize(moe, quant_config)
         else:
-            self.quant_method = quant_config.get_quant_method(self, prefix)
-        assert self.quant_method is not None
+            quant_method = quant_config.get_quant_method(self, prefix)
+            # No pplx for quantized types yet.
+            prepare_finalize = None
+
+        assert quant_method is not None
+        assert isinstance(quant_method, FusedMoEMethodBase)
+        self.quant_method = quant_method
+
+        if prepare_finalize is not None:
+            world_size = moe.ep_size
+            dp_size = int(moe.ep_size // moe.dp_size)
+            success = self.quant_method.set_prepare_finalize(
+                dp_size, world_size, prepare_finalize)
+            if not success:
+                logger.warning("DP+EP not supported for %s.",
+                               type(self.quant_method))
 
         moe_quant_params = {
             "num_experts": self.local_num_experts,
@@ -546,6 +876,38 @@ class FusedMoE(torch.nn.Module):
 
         self.quant_method.create_weights(layer=self, **moe_quant_params)
 
+    @property
+    def tp_size(self):
+        return self.moe_parallel_config.tp_size
+
+    @property
+    def dp_size(self):
+        return self.moe_parallel_config.dp_size
+
+    @property
+    def ep_size(self):
+        return self.moe_parallel_config.ep_size
+
+    @property
+    def tp_rank(self):
+        return self.moe_parallel_config.tp_rank
+
+    @property
+    def dp_rank(self):
+        return self.moe_parallel_config.dp_rank
+
+    @property
+    def ep_rank(self):
+        return self.moe_parallel_config.ep_rank
+
+    @property
+    def use_ep(self):
+        return self.moe_parallel_config.use_ep
+
+    @property
+    def use_pplx_kernels(self):
+        return self.moe_parallel_config.use_pplx_kernels
+
     def _load_per_tensor_weight_scale(self, shard_id: str,
                                       param: torch.nn.Parameter,
                                       loaded_weight: torch.Tensor,
@@ -830,7 +1192,8 @@ class FusedMoE(torch.nn.Module):
                        num_expert_group: Optional[int] = None,
                        custom_routing_function: Optional[Callable] = None,
                        scoring_func: str = "softmax",
-                       e_score_correction_bias: Optional[torch.Tensor] = None):
+                       e_score_correction_bias: Optional[torch.Tensor] = None,
+                       indices_type: Optional[torch.dtype] = None):
         from vllm.model_executor.layers.fused_moe.fused_moe import fused_topk
 
         # DeekSeekv2 uses grouped_top_k
@@ -846,21 +1209,52 @@ class FusedMoE(torch.nn.Module):
                 topk_group=topk_group,
                 scoring_func=scoring_func,
                 e_score_correction_bias=e_score_correction_bias)
+            if indices_type is not None:
+                topk_ids = topk_ids.to(dtype=indices_type)
         elif custom_routing_function is None:
             topk_weights, topk_ids, token_expert_indices = fused_topk(
                 hidden_states=hidden_states,
                 gating_output=router_logits,
                 topk=top_k,
-                renormalize=renormalize)
+                renormalize=renormalize,
+                indices_type=indices_type,
+            )
         else:
             topk_weights, topk_ids = custom_routing_function(
                 hidden_states=hidden_states,
                 gating_output=router_logits,
                 topk=top_k,
                 renormalize=renormalize)
+            if indices_type is not None:
+                topk_ids = topk_ids.to(dtype=indices_type)
 
         return topk_weights, topk_ids
 
+    def must_reduce_shared_expert_outputs(self) -> bool:
+        """
+        The shared_experts are typically computed using the RowParallelLinear
+        layer. The result of this function is typically used as
+        the reduce_results argument to the module.
+        When just tensor-parallel is used, it is not required to reduce
+        the shared_experts results immediately. Instead we reduce at the
+        once at the end of the MoE op. (Refer to DeepSeekV2MoE module)
+        With EP and the pplx kernels - this is no longer viable as all
+        GPU ranks in DP, produce the complete set of hidden_states.
+        Therefore it is required that we reduce the shared_experts output
+        early.
+        """
+        return self.use_pplx_kernels
+
+    def maybe_all_reduce_tensor_model_parallel(
+            self, final_hidden_states: torch.Tensor):
+        """
+        The pplx combine kernel reduces across GPU ranks by default.
+        """
+        if self.use_pplx_kernels:
+            return final_hidden_states
+        else:
+            return tensor_model_parallel_all_reduce(final_hidden_states)
+
     def forward(self, hidden_states: torch.Tensor,
                 router_logits: torch.Tensor):
         if self.use_direct_call:
@@ -869,9 +1263,62 @@ class FusedMoE(torch.nn.Module):
             return torch.ops.vllm.moe_forward(hidden_states, router_logits,
                                               self.layer_name)
 
+    def forward_impl_chunked(self, full_hidden_states: torch.Tensor,
+                             full_router_logits: torch.Tensor):
+
+        full_final_hidden_states = torch.empty_like(full_hidden_states)
+
+        def process_chunk(chunk_start, chunk_end, skip_result_store=False):
+            hidden_states = full_hidden_states[chunk_start:chunk_end, :]
+            router_logits = full_router_logits[chunk_start:chunk_end, :]
+
+            # Matrix multiply.
+            final_hidden_states = self.quant_method.apply(
+                layer=self,
+                x=hidden_states,
+                router_logits=router_logits,
+                top_k=self.top_k,
+                renormalize=self.renormalize,
+                use_grouped_topk=self.use_grouped_topk,
+                global_num_experts=self.global_num_experts,
+                expert_map=self.expert_map,
+                topk_group=self.topk_group,
+                num_expert_group=self.num_expert_group,
+                custom_routing_function=self.custom_routing_function,
+                scoring_func=self.scoring_func,
+                e_score_correction_bias=self.e_score_correction_bias,
+                activation=self.activation,
+            )
+
+            if not skip_result_store:
+                full_final_hidden_states[chunk_start:chunk_end, :].copy_(
+                    final_hidden_states)
+
+        ctx = get_forward_context()
+        max_tokens_across_dp = ctx.dp_metadata.max_tokens_across_dp_cpu
+        moe_dp_chunk_size_per_rank = MOE_DP_CHUNK_SIZE
+
+        num_tokens = full_hidden_states.size(0)
+        for chunk_start_ in range(0, max_tokens_across_dp,
+                                  moe_dp_chunk_size_per_rank):
+            chunk_start = chunk_start_
+            chunk_end = min(chunk_start + moe_dp_chunk_size_per_rank,
+                            max_tokens_across_dp)
+            # clamp start and end
+            chunk_start = min(chunk_start, num_tokens - 1)
+            chunk_end = min(chunk_end, num_tokens)
+
+            process_chunk(chunk_start,
+                          chunk_end,
+                          skip_result_store=chunk_start_ >= num_tokens)
+
+        return full_final_hidden_states
+
     def forward_impl(self, hidden_states: torch.Tensor,
                      router_logits: torch.Tensor):
         assert self.quant_method is not None
+        if self.moe_parallel_config.use_pplx_kernels:
+            return self.forward_impl_chunked(hidden_states, router_logits)
 
         if self.dp_size > 1:
             hidden_states, router_logits = get_ep_group().dispatch(
diff --git a/vllm/model_executor/layers/fused_moe/modular_kernel.py b/vllm/model_executor/layers/fused_moe/modular_kernel.py
new file mode 100644
index 000000000..7d3ddf8f1
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/modular_kernel.py
@@ -0,0 +1,364 @@
+# SPDX-License-Identifier: Apache-2.0
+from abc import ABC, abstractmethod
+from typing import Optional
+
+import torch
+
+#
+# This file defines a set of base classes used to make MoE kernels more modular.
+# The goal is to be able to utilize different communication mechanisms with
+# any fused MoE kernel without needing to have combinatoric implementations.
+#
+# The fused moe kernels are broken down into the following components:
+#
+# [Router] → [Quantize-Dispatch] → [Permute-Experts-Unpermute] → [Combine]
+#
+# Each component will be independent of the others except for
+# [Quantize-Dispatch] and `[Combine] (see below). The components can then be
+# mixed and matched with so that DP+EP can be supported easily for multiple
+# MoE kernel implementations.
+#
+# The following main classes are defined:
+# * FusedMoEPrepareAndFinalize - an abstract base class for preparation of MoE
+#   inputs (e.g. quantization, distribution) and finalization of Moe outputs.
+#   The prepare method must take care of any needed quantization and the
+#   finalize method must apply weights and do the final reduction of the output.
+# * FusedMoEPermuteExpertsUnpermute - an abstract base class for the main fused
+#   MoE operation. One important feature to note is that this class does not
+#   apply topk weights or reduce the final output.
+# * FusedMoEModularKernel - an interface class that combines a
+#   FusedMoEPrepareAndFinalize and a FusedMoEPermuteExpertsUnpermute to
+#   provide the standard fused MoE kernel interface.
+#
+# [Quantize-Prepare] and [Finalize] functionality are bundled into a single
+# class `FusedMoEPrepareAndFinalize` since they could use collective
+# communication mechanisms that need to be consistent.
+#
+
+
+def _moe_problem_size(
+    a1: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_ids: torch.Tensor,
+) -> tuple[int, int, int, int, int]:
+    """
+    Extract the MoE problem size from the given tensor arguments:
+    - a: The hidden states, input to the MoE layer.
+    - w1: The first set of expert weights.
+    - w2: The second set of expert weights.
+    - topk_ids: The topk ids.
+
+    Note: extracting the problem shape from the weight and activation tensors is
+    not obvious.  It needs to be done this way specifically due to subtle issues
+    with particular kernels, e.g. the int4 kernels divide the trailing dimension
+    by two, so it's not "correct" to extract N or K from the trailing dimension
+    of w1 or w2.  Similarly, some kernels transpose the weights, so this needs
+    to be kept in mind.
+    """
+    assert w1.dim() == 3 and w2.dim() == 3
+    E, N, _ = w1.size()
+    K = w2.size(1)
+
+    if a1.dim() == 2:
+        # Make sure we are using the correct a1 (pre-permute).
+        assert topk_ids.size(0) == a1.size(0), \
+            f"{topk_ids.size(0)} != {a1.size(0)}"
+        M = a1.size(0)
+    else:
+        assert a1.dim() == 3
+        assert a1.size(0) == E, f"{a1.size(0)} == {E}"
+        M = a1.size(1)  # This is max_num_tokens
+
+    assert topk_ids.dim() == 2
+    topk = topk_ids.size(1)
+
+    return E, M, N, K, topk
+
+
+class FusedMoEPrepareAndFinalize(ABC):
+    """
+    An abstract base class for the [Quantize-Prepare] and [Finalize] steps
+    described above.
+    """
+
+    @abstractmethod
+    def prepare(
+        self,
+        a1: torch.Tensor,
+        a1_scale: Optional[torch.Tensor],
+        a2_scale: Optional[torch.Tensor],
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_experts: int,
+        expert_map: Optional[torch.Tensor],
+        apply_router_weight_on_input: bool,
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor], Optional[torch.Tensor]]:
+        """
+        Perform any quantization (and/or) dispatching needed
+        for this kernel.
+        - a1: The (unquantized) input to the MoE layer.
+        - a1_scale: Optional scales for a1
+        - a2_scale: Optional scales for the second MoE gemm.  Required to make
+          sure the quantization is consistent for both gemms.
+        - topk_ids: The topk ids.
+        - topk_weights: The topk weights.
+        - num_experts: The total number of experts in the global expert space.
+        - expert_map: A tensor mapping expert indices from the global expert
+          space to the local expert space of the expert parallel shard.
+        - apply_router_weight_on_input: When True, apply the weights to the
+          activations, before quantization + dispatching.
+
+        Returns a tuple of:
+        - quantized + dispatched a.
+        - quantized + dispatched a1_scales.
+        """
+        raise NotImplementedError
+
+    @abstractmethod
+    def finalize(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+    ) -> None:
+        """
+        Perform any combine plus apply weights and perform a reduction on the
+        fused experts output.
+        - output: The output tensor, written in place.  Must be (M, K) shape.
+        - fused_expert_output: The unweighted, unreduced output of the fused
+          experts, it will have (M, topk, K) shape.
+        - topk_weights: The weights to be applied to the fused_experts_output.
+        - topk_ids: The topk_ids.
+        - apply_router_weight_on_input: When False, apply the weights to
+          fused_expert_output.
+        """
+        raise NotImplementedError
+
+
+class FusedMoEPermuteExpertsUnpermute(ABC):
+    """
+    An abstract base class for the [Permute-Experts-Unpermute] step described
+    above.
+    """
+
+    @abstractmethod
+    def workspace_shapes(
+        self,
+        a: torch.Tensor,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        num_experts: int,
+    ) -> tuple[int, int, torch.dtype]:
+        """
+        Compute the number of elements for the temporary outputs of the two
+        gemms and activation in the fused expert function.  Since the
+        gemms are independent, the workspace for the first gemm can be shared
+        with the workspace for the last gemm.
+
+        Returns a tuple of:
+        - Number of workspace13 elements: must be large enough to hold the
+          result of either expert gemm.
+        - Number of workspace2 elements: must be large enough to hold the
+          result of the activation function.
+        - Workspace type: The dtype to use for the workspace tensors.
+        """
+        raise NotImplementedError
+
+    def activation(self, activation: str, output: torch.Tensor,
+                   input: torch.Tensor) -> None:
+        assert output.size(-1) * 2 == input.size(-1)
+        if activation == "silu":
+            torch.ops._C.silu_and_mul(output, input)
+        elif activation == "gelu":
+            torch.ops._C.gelu_and_mul(output, input)
+        else:
+            raise ValueError(f"Unsupported FusedMoe activation: {activation}")
+
+    @abstractmethod
+    def apply(
+        self,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: Optional[torch.Tensor],
+        w1_scale: Optional[torch.Tensor],
+        w2_scale: Optional[torch.Tensor],
+        w1_zp: Optional[torch.Tensor],
+        w2_zp: Optional[torch.Tensor],
+        a1q_scale: Optional[torch.Tensor],
+        a2_scale: Optional[torch.Tensor],
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_num_tokens: Optional[torch.Tensor],
+    ) -> torch.Tensor:
+        """
+        This function computes the intermediate result of a Mixture of Experts
+        (MoE) layer using two sets of weights, w1 and w2.
+
+        Parameters:
+        - hidden_states: (torch.Tensor): The (quantized) input tensor to the MoE
+          layer.
+        - w1 (torch.Tensor): The first set of expert weights.
+        - w2 (torch.Tensor): The second set of expert weights.
+        - topk_ids (torch.Tensor): A map of row to expert id.
+        - activation (str): The activation function to apply after the first
+          MoE layer.
+        - global_num_experts (int): The total number of experts in the global
+          expert space.
+        - expert_map (Optional[torch.Tensor]):  A tensor mapping expert indices
+          from the global expert space to the local expert space of the expert
+          parallel shard.
+        - w1_scale (Optional[torch.Tensor]): Optional scale to be used for w1.
+        - w2_scale (Optional[torch.Tensor]): Optional scale to be used for w2.
+        - w1_zp (Optional[torch.Tensor]): Optional zero points to be used for
+          w1.
+        - w2_zp (Optional[torch.Tensor]): Optional zero points to be used for
+          w2.
+        - a1q_scale (Optional[torch.Tensor]): Optional quantized scale to be
+          used for a1.
+        - a2_scale (Optional[torch.Tensor]): Optional scale to be used for a2.
+        - workspace13 (torch.Tensor): A scratch tensor used for gemm outputs
+          must be large enough to hold output of either MoE gemm.
+        - workspace2 (torch.Tensor): A scratch tensor used for the activation
+          function.
+        - expert_num_tokens: An optional tensor containing the number of tokens
+          assigned to each expert when using batched experts format input.
+
+        Returns:
+        - torch.Tensor: The unweighted, unreduced output tensor
+        """
+        raise NotImplementedError
+
+
+class FusedMoEModularKernel(torch.nn.Module):
+    """
+    This class combines a FusedMoEPrepareAndFinalize instance and
+    a FusedMoEPermuteExpertsUnpermute to provide an interface that
+    is compatible with the `fused_experts` function in fused_moe.py.
+
+    It takes care of managing any required scratch space.
+
+    Note: Instances of this class should only be used for a single model
+    layer due to any layer specific state that may be used by the component
+    objects.
+    """
+
+    def __init__(
+        self,
+        prepare_finalize: FusedMoEPrepareAndFinalize,
+        fused_experts: FusedMoEPermuteExpertsUnpermute,
+    ):
+        super().__init__()
+        self.prepare_finalize = prepare_finalize
+        self.fused_experts = fused_experts
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        inplace: bool = False,
+        activation: str = "silu",
+        global_num_experts: int = -1,
+        expert_map: Optional[torch.Tensor] = None,
+        w1_scale: Optional[torch.Tensor] = None,
+        w2_scale: Optional[torch.Tensor] = None,
+        w1_zp: Optional[torch.Tensor] = None,
+        w2_zp: Optional[torch.Tensor] = None,
+        a1_scale: Optional[torch.Tensor] = None,
+        a2_scale: Optional[torch.Tensor] = None,
+        apply_router_weight_on_input: bool = False,
+    ) -> torch.Tensor:
+        """
+        This function computes a Mixture of Experts (MoE) layer using two sets
+        of weights, w1 and w2, and top-k gating mechanism.
+
+        Parameters:
+        - hidden_states: (torch.Tensor): The input tensor to the MoE layer.
+        - w1 (torch.Tensor): The first set of expert weights.
+        - w2 (torch.Tensor): The second set of expert weights.
+        - topk_weights (torch.Tensor): The topk weights applied at the end of
+          the layer.
+        - topk_ids (torch.Tensor): A map of row to expert id.
+        - inplace (bool): If True, perform the operation in-place.
+          Defaults to False.
+        - activation (str): The activation function to apply after the first
+          MoE layer.
+        - global_num_experts (int): The total number of experts in the global
+          expert space.
+        - expert_map (Optional[torch.Tensor]):  A tensor mapping expert indices
+          from the global expert space to the local expert space of the expert
+          parallel shard.
+        - w1_scale (Optional[torch.Tensor]): Optional scale to be used for w1.
+        - w2_scale (Optional[torch.Tensor]): Optional scale to be used for w2.
+        - w1_zp (Optional[torch.Tensor]): Optional zero points to be used for
+          w1.
+        - w2_zp (Optional[torch.Tensor]): Optional zero points to be used for
+          w2.
+        - a1_scale (Optional[torch.Tensor]): Optional scale to be used for a1.
+        - a2_scale (Optional[torch.Tensor]): Optional scale to be used for a2.
+        - apply_router_weight_on_input (bool): When true, the topk weights are
+          applied directly on the inputs. This is only applicable when topk is
+          1.
+
+        Returns:
+        - torch.Tensor: The output tensor after applying the MoE layer.
+        """
+        a1 = hidden_states
+        E, M, N, K, top_k = _moe_problem_size(a1, w1, w2, topk_ids)
+
+        if global_num_experts == -1:
+            global_num_experts = E
+
+        output = a1 if inplace else torch.zeros_like(a1)
+
+        workspace13_shape, workspace2_shape, workspace_dtype = (
+            self.fused_experts.workspace_shapes(a1, M, N, K, top_k,
+                                                global_num_experts))
+
+        # We can reuse the memory between cache1 and cache3 because by the time
+        # we need cache3, we're done with cache1
+        workspace13 = torch.zeros(workspace13_shape,
+                                  device=a1.device,
+                                  dtype=workspace_dtype)
+        workspace2 = torch.zeros(workspace2_shape,
+                                 device=a1.device,
+                                 dtype=workspace_dtype)
+
+        a1q, a1q_scale, expert_num_tokens = self.prepare_finalize.prepare(
+            a1, a1_scale, a2_scale, topk_weights, topk_ids, global_num_experts,
+            expert_map, apply_router_weight_on_input)
+
+        fused_out = self.fused_experts.apply(
+            a1q,
+            w1,
+            w2,
+            topk_ids,
+            activation=activation,
+            global_num_experts=global_num_experts,
+            expert_map=expert_map,
+            w1_scale=w1_scale,
+            w2_scale=w2_scale,
+            w1_zp=w1_zp,
+            w2_zp=w2_zp,
+            a1q_scale=a1q_scale,
+            a2_scale=a2_scale,
+            workspace13=workspace13,
+            workspace2=workspace2,
+            expert_num_tokens=expert_num_tokens,
+        )
+
+        self.prepare_finalize.finalize(output, fused_out, topk_weights,
+                                       topk_ids, apply_router_weight_on_input)
+
+        return output
diff --git a/vllm/model_executor/layers/fused_moe/moe_permute_unpermute.py b/vllm/model_executor/layers/fused_moe/moe_permute_unpermute.py
index 90cb04084..270e7cf12 100644
--- a/vllm/model_executor/layers/fused_moe/moe_permute_unpermute.py
+++ b/vllm/model_executor/layers/fused_moe/moe_permute_unpermute.py
@@ -3,6 +3,74 @@ from typing import Optional
 
 import torch
 
+from vllm import _custom_ops as ops
+from vllm.model_executor.layers.fused_moe.moe_align_block_size import (
+    moe_align_block_size)
+from vllm.model_executor.layers.fused_moe.utils import _fp8_perm
+
+
+def _moe_permute(
+    curr_hidden_states: torch.Tensor,
+    a1q_scale: Optional[torch.Tensor],
+    curr_topk_ids: torch.Tensor,
+    global_num_experts: int,
+    expert_map: Optional[torch.Tensor],
+    block_m: int,
+) -> tuple[torch.Tensor, Optional[torch.Tensor], torch.Tensor, torch.Tensor,
+           Optional[torch.Tensor]]:
+    """
+    Determine the sorted_token_ids, expert_ids for the given problem size.
+    Permute the hidden states and scales according to `sorted_token_ids`.
+    """
+    top_k_num = curr_topk_ids.size(1)
+
+    tokens_in_chunk = curr_hidden_states.sizze(0)
+
+    sorted_token_ids, expert_ids, num_tokens_post_padded = (
+        moe_align_block_size(curr_topk_ids,
+                             block_m,
+                             global_num_experts,
+                             expert_map,
+                             pad_sorted_ids=True))
+
+    inv_perm: Optional[torch.Tensor] = None
+
+    num_tokens = top_k_num * tokens_in_chunk
+    sorted_token_ids = sorted_token_ids.clamp(max=num_tokens - 1)
+    expert_ids = torch.repeat_interleave(expert_ids, block_m, dim=0)
+    inv_perm = torch.argsort(sorted_token_ids)[:num_tokens]
+
+    # Permute according to sorted token ids.
+    curr_hidden_states = _fp8_perm(curr_hidden_states,
+                                   sorted_token_ids // top_k_num)
+
+    if a1q_scale is not None:
+        a1q_scale = a1q_scale[sorted_token_ids // top_k_num]
+
+    return (curr_hidden_states, a1q_scale, sorted_token_ids, expert_ids,
+            inv_perm)
+
+
+def _moe_unpermute_and_reduce(
+    out: torch.Tensor,
+    curr_hidden: torch.Tensor,
+    inv_perm: Optional[torch.Tensor],
+    topk_weight: torch.Tensor,
+    apply_router_weight_on_input: bool,
+) -> None:
+    """
+    Unpermute the final result and apply topk_weights, then perform the final
+    reduction on the hidden states.
+    """
+    M, topk = topk_weight.size()
+    K = curr_hidden.size(-1)
+    if inv_perm is not None:
+        curr_hidden = curr_hidden[inv_perm, ...]
+    curr_hidden = curr_hidden.view(-1, topk, K)
+    if not apply_router_weight_on_input:
+        curr_hidden.mul_(topk_weight.view(M, -1, 1))
+    ops.moe_sum(curr_hidden, out)
+
 
 def moe_permute(
     hidden_states: torch.Tensor,
@@ -17,21 +85,21 @@ def moe_permute(
     fill_invalid_expert: int = -1
 ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
     """
-    This function expands and permutes activation to gather uncontinuous tokens 
+    This function expands and permutes activation to gather uncontinuous tokens
       for each expert.
     Parameters:
-    - hidden_states (torch.Tensor): The input tensor to the MoE layer.    
+    - hidden_states (torch.Tensor): The input tensor to the MoE layer.
     - topk_weights (torch.Tensor): topk expert route weight for each token.
     - topk_ids (torch.Tensor): topk expert route id for each token.
     - token_expert_indices (torch.Tensor): indice for expanded hidden.
     - topk (int): The number of top-k experts to select.
     - n_expert (int): The number of expert.
     - n_local_expert (int): The number of expert in current EP rank.
-    - expert_map (Optional[torch.Tensor]):  A tensor mapping expert indices 
-        from the global expert space to the local expert space of the expert 
+    - expert_map (Optional[torch.Tensor]):  A tensor mapping expert indices
+        from the global expert space to the local expert space of the expert
         parallel shard.
     - align_block_size (Optional[int]): align group gemm block size for deepgemm
-    - fill_invalid_expert(int): fill expert id in m_indices for invalid expert 
+    - fill_invalid_expert(int): fill expert id in m_indices for invalid expert
       to workaround DeepGemm unsupported -1 in m_indices
     Returns:
     - permuted_hidden_states (torch.Tensor): permuted activation.
@@ -39,10 +107,10 @@ def moe_permute(
        of each expert for standard grouped gemm. if enable 'align_block_size'
        expert_first_token_offset will align up to 'align_block_size'.
     - src_row_id2dst_row_id_map (torch.Tensor): idx map for moe_unpermute.
-    - m_indices: m_indices for grouped gemm in deepgemm,`m_indices[i]` records 
+    - m_indices: m_indices for grouped gemm in deepgemm,`m_indices[i]` records
     the group which the j-th row of the LHS belong to.`
     """
-    n_token, n_hidden = hidden_states.shape
+    n_token, n_hidden = hidden_states.size()
     assert (n_hidden * hidden_states.element_size()
             ) % 16 == 0, "permue kernel need hidden dim align to 16B"
     permuted_row_size = n_token * topk
@@ -87,7 +155,7 @@ def moe_unpermute(
     n_local_expert: int,
 ) -> torch.Tensor:
     """
-    This function expands and permutes activation to gathering uncontinuous 
+    This function expands and permutes activation to gathering uncontinuous
       tokens for each expert.
     Parameters:
     - permuted_hidden_states (torch.Tensor): permuted activation.
@@ -99,10 +167,10 @@ def moe_unpermute(
     - n_expert (int): The number of expert.
     - n_local_expert (int): The number of expert in current EP rank.
     Returns:
-    - hidden_states (torch.Tensor): The reduced and unpermuted activation 
-      tensor.  
+    - hidden_states (torch.Tensor): The reduced and unpermuted activation
+      tensor.
     """
-    n_token, n_hidden = topk_weights.shape[0], permuted_hidden_states.shape[-1]
+    n_token, n_hidden = topk_weights.size(0), permuted_hidden_states.size(-1)
     assert (n_hidden * permuted_hidden_states.element_size()
             ) % 16 == 0, "unpermue kernel need hidden dim align to 16B"
     hidden_states = torch.empty((n_token, n_hidden),
diff --git a/vllm/model_executor/layers/fused_moe/pplx_prepare_finalize.py b/vllm/model_executor/layers/fused_moe/pplx_prepare_finalize.py
new file mode 100644
index 000000000..b1126b94e
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/pplx_prepare_finalize.py
@@ -0,0 +1,147 @@
+# SPDX-License-Identifier: Apache-2.0
+from typing import Optional
+
+import pplx_kernels as pplx
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.model_executor.layers.fused_moe.utils import (
+    moe_kernel_quantize_input)
+
+
+# Note use: layer.get_all_to_all() to get an AllToAll instance
+# The max_num_tokens, world_size and dp_size must be the same
+# as the ones used to create the AllToAll.
+class PplxPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
+
+    def __init__(self,
+                 a2a: pplx.AllToAll,
+                 max_num_tokens: int,
+                 world_size: int,
+                 rank: int,
+                 dp_size: int,
+                 quant_dtype: Optional[torch.dtype] = None,
+                 block_shape: Optional[list[int]] = None):
+        super().__init__()
+        assert max_num_tokens > 0
+        self.a2a = a2a
+        self.block_shape = block_shape
+        self.max_num_tokens = max_num_tokens
+        self.world_size = world_size
+        self.rank = rank
+        self.dp_size = dp_size
+        self.quant_dtype = quant_dtype
+
+    def prepare(
+        self,
+        a1: torch.Tensor,
+        a1_scale: Optional[torch.Tensor],
+        a2_scale: Optional[torch.Tensor],
+        rank_topk_weights: torch.Tensor,
+        rank_topk_ids: torch.Tensor,
+        num_experts: int,
+        expert_map: Optional[torch.Tensor],
+        apply_router_weight_on_input: bool,
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor], Optional[torch.Tensor]]:
+        num_tokens = a1.size(0)  # M
+        hidden_dim = a1.size(-1)  # K
+
+        assert rank_topk_ids.size(0) == num_tokens
+        # assert expert_map is None, "NYI"
+
+        # Is this always going to be a1.device?
+        device = a1.device
+
+        if apply_router_weight_on_input:
+            topk = rank_topk_ids.size(1)
+            # TODO: this only works for topK=1, will need to update for topK>1
+            assert topk == 1, (
+                "apply_router_weight_on_input is only implemented for topk=1")
+            a1 = a1 * rank_topk_weights.to(a1.dtype)
+
+        per_act_token = a1_scale.numel() != 1 if a1_scale is not None else (
+            a2_scale.numel() != 1 if a2_scale is not None else False)
+
+        a1q, a1q_scale = moe_kernel_quantize_input(a1, a1_scale,
+                                                   self.quant_dtype,
+                                                   per_act_token,
+                                                   self.block_shape)
+
+        # rem_experts need to be 0 for pplx to work properly.
+        rem_experts = num_experts % self.world_size
+        assert rem_experts == 0
+        num_local_experts = ((num_experts // self.world_size) +
+                             (1 if self.rank < rem_experts else 0))
+
+        expert_num_tokens = torch.empty(
+            num_local_experts,
+            dtype=torch.int32,
+            device=device,
+        )
+
+        num_dp = self.world_size // self.dp_size
+        expert_x = torch.empty(
+            (num_local_experts, self.max_num_tokens * num_dp, hidden_dim),
+            dtype=a1q.dtype,
+            device=device,
+        )
+
+        expert_x_scale: Optional[torch.Tensor] = None
+        if a1q.dtype.itemsize == 1:
+            float32_size = torch.float32.itemsize
+            block_size = (self.block_shape[0] if self.block_shape is not None
+                          else 1) * float32_size
+            expert_x_scale = torch.empty(
+                (
+                    num_experts,
+                    expert_x.size(1),
+                    (expert_x.size(2) + block_size - 1) // block_size,
+                ),
+                dtype=torch.float32,
+                device=device,
+            )
+
+        # This argument is optional, defaults to indices.size(0)
+        # There's not much point setting this unless it is != indices.size(0)
+        bound_m: Optional[torch.Tensor] = None
+
+        self.a2a.dispatch(
+            out_expert_num_tokens=expert_num_tokens,
+            out_expert_x=expert_x,
+            out_expert_x_scale=expert_x_scale,
+            dp_x=a1q,
+            dp_x_scale=a1q_scale,
+            indices=rank_topk_ids,
+            bound_m=bound_m,
+        )
+
+        return expert_x, expert_x_scale, expert_num_tokens
+
+    def finalize(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+    ) -> None:
+        num_tokens = output.size(0)  # M
+        # This argument is optional
+        # There's not much point setting this unless it is != topk_ids.size(0)
+        bound_m: Optional[torch.Tensor] = None
+
+        assert topk_ids.size(0) == num_tokens, (
+            f"{topk_ids.size(0)} == {num_tokens}")
+        assert output.size(0) <= self.max_num_tokens, (
+            f"{output.size(0)} <= {self.max_num_tokens}")
+        assert output.size(1) == fused_expert_output.size(-1)
+
+        # Set weights to 1 if we did them in dispatch. This is hacky.
+        if apply_router_weight_on_input:
+            topk_weights = torch.ones_like(topk_weights)
+
+        self.a2a.combine(out_tokens=output,
+                         indices=topk_ids,
+                         weights=topk_weights,
+                         expert_y=fused_expert_output,
+                         bound_m=bound_m)
diff --git a/vllm/model_executor/layers/fused_moe/prepare_finalize.py b/vllm/model_executor/layers/fused_moe/prepare_finalize.py
new file mode 100644
index 000000000..98f98b3bd
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/prepare_finalize.py
@@ -0,0 +1,60 @@
+# SPDX-License-Identifier: Apache-2.0
+from typing import Optional
+
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.model_executor.layers.fused_moe.moe_permute_unpermute import (
+    _moe_unpermute_and_reduce)
+from vllm.model_executor.layers.fused_moe.utils import (
+    moe_kernel_quantize_input)
+
+
+class MoEPrepareAndFinalizeNoEP(mk.FusedMoEPrepareAndFinalize):
+
+    def __init__(
+        self,
+        quant_dtype: Optional[torch.dtype] = None,
+        per_channel_quant: bool = False,
+        block_shape: Optional[list[int]] = None,
+    ):
+        super().__init__()
+        self.per_channel_quant = per_channel_quant
+        self.block_shape = block_shape
+        self.quant_dtype = quant_dtype
+
+    def prepare(
+        self,
+        a1: torch.Tensor,
+        a1_scale: Optional[torch.Tensor],
+        a2_scale: Optional[torch.Tensor],
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_experts: int,
+        expert_map: Optional[torch.Tensor],
+        apply_router_weight_on_input: bool = False,
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor], Optional[torch.Tensor]]:
+        if apply_router_weight_on_input:
+            topk = topk_ids.size(1)
+            # TODO: this only works for topK=1, will need to update for topK>1
+            assert topk == 1, \
+                "apply_router_weight_on_input is only implemented for topk=1"
+            a1.mul_(topk_weights.to(a1.dtype))
+
+        a1q, a1q_scale = moe_kernel_quantize_input(a1, a1_scale,
+                                                   self.quant_dtype,
+                                                   self.per_channel_quant,
+                                                   self.block_shape)
+
+        return a1q, a1q_scale, None
+
+    def finalize(
+        self,
+        output: torch.Tensor,
+        fused_expert_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        apply_router_weight_on_input: bool,
+    ) -> None:
+        _moe_unpermute_and_reduce(output, fused_expert_output, None,
+                                  topk_weights, apply_router_weight_on_input)
diff --git a/vllm/model_executor/layers/fused_moe/triton_deep_gemm_moe.py b/vllm/model_executor/layers/fused_moe/triton_deep_gemm_moe.py
new file mode 100644
index 000000000..2cfe37314
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/triton_deep_gemm_moe.py
@@ -0,0 +1,112 @@
+# SPDX-License-Identifier: Apache-2.0
+from typing import Optional
+
+import torch
+
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.model_executor.layers.fused_moe.deep_gemm_moe import (
+    DeepGemmExperts, _valid_deep_gemm, _valid_deep_gemm_shape)
+from vllm.model_executor.layers.fused_moe.fused_moe import TritonExperts
+
+
+class TritonOrDeepGemmExperts(mk.FusedMoEPermuteExpertsUnpermute):
+
+    def __init__(self,
+                 use_fp8_w8a8: bool = False,
+                 use_int8_w8a8: bool = False,
+                 use_int8_w8a16: bool = False,
+                 use_int4_w4a16: bool = False,
+                 per_channel_quant: bool = False,
+                 block_shape: Optional[list[int]] = None,
+                 block_m: Optional[int] = None,
+                 allow_deep_gemm: bool = False):
+        super().__init__()
+        self.triton_expert = TritonExperts(use_fp8_w8a8=use_fp8_w8a8,
+                                           use_int8_w8a8=use_int8_w8a8,
+                                           use_int4_w4a16=use_int4_w4a16,
+                                           use_int8_w8a16=use_int8_w8a16,
+                                           per_channel_quant=per_channel_quant,
+                                           block_shape=block_shape,
+                                           block_m=block_m)
+        self.deep_gemm_expert = DeepGemmExperts()
+        self.allow_deep_gemm = allow_deep_gemm
+        self.use_fp8_w8a8 = use_fp8_w8a8
+
+    def workspace_shapes(
+        self,
+        a: torch.Tensor,
+        M: int,
+        N: int,
+        K: int,
+        topk: int,
+        num_experts: int,
+    ) -> tuple[int, int, torch.dtype]:
+        # Note: the deep gemm workspaces are strictly larger than the triton
+        # workspaces so we can be pessimistic here and allocate for DeepGemm
+        # even if we fall back to triton later, e.g. if expert maps are set.
+        if self.allow_deep_gemm and _valid_deep_gemm_shape(M, N, K):
+            return self.deep_gemm_expert.workspace_shapes(
+                a, M, N, K, topk, num_experts)
+        else:
+            return self.triton_expert.workspace_shapes(a, M, N, K, topk,
+                                                       num_experts)
+
+    def apply(
+        self,
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_ids: torch.Tensor,
+        activation: str,
+        global_num_experts: int,
+        expert_map: Optional[torch.Tensor],
+        w1_scale: Optional[torch.Tensor],
+        w2_scale: Optional[torch.Tensor],
+        w1_zp: Optional[torch.Tensor],
+        w2_zp: Optional[torch.Tensor],
+        a1q_scale: Optional[torch.Tensor],
+        a2_scale: Optional[torch.Tensor],
+        workspace13: torch.Tensor,
+        workspace2: torch.Tensor,
+        expert_num_tokens: Optional[torch.Tensor],
+    ) -> torch.Tensor:
+        N = w1.size(1)
+        if (self.allow_deep_gemm and self.use_fp8_w8a8 and N > 512
+                and _valid_deep_gemm(hidden_states, w1, w2, expert_map)):
+            return self.deep_gemm_expert.apply(
+                hidden_states,
+                w1,
+                w2,
+                topk_ids,
+                activation,
+                global_num_experts,
+                expert_map,
+                w1_scale,
+                w2_scale,
+                w1_zp,
+                w2_zp,
+                a1q_scale,
+                a2_scale,
+                workspace13,
+                workspace2,
+                expert_num_tokens,
+            )
+        else:
+            return self.triton_expert.apply(
+                hidden_states,
+                w1,
+                w2,
+                topk_ids,
+                activation,
+                global_num_experts,
+                expert_map,
+                w1_scale,
+                w2_scale,
+                w1_zp,
+                w2_zp,
+                a1q_scale,
+                a2_scale,
+                workspace13,
+                workspace2,
+                expert_num_tokens,
+            )
diff --git a/vllm/model_executor/layers/fused_moe/utils.py b/vllm/model_executor/layers/fused_moe/utils.py
index 1acbba205..d9d2520e1 100644
--- a/vllm/model_executor/layers/fused_moe/utils.py
+++ b/vllm/model_executor/layers/fused_moe/utils.py
@@ -7,6 +7,8 @@ import torch
 from vllm import _custom_ops as ops
 from vllm.model_executor.layers.quantization.utils.fp8_utils import (
     per_token_group_quant_fp8)
+from vllm.model_executor.layers.quantization.utils.int8_utils import (
+    per_token_group_quant_int8, per_token_quant_int8)
 from vllm.utils import cdiv
 
 
@@ -15,34 +17,81 @@ def _resize_cache(x: torch.Tensor, v: tuple[int, ...]) -> torch.Tensor:
     Shrink the given tensor and apply the given view to it.  This is
     used to resize the intermediate fused_moe caches.
     """
-    assert prod(v) <= x.numel()
+    assert prod(
+        v) <= x.numel(), f"{prod(v)} <= {x.numel()}"  # CUDAGRAPH unfriendly?
     return x.flatten()[:prod(v)].view(*v)
 
 
 def _fp8_quantize(
     A: torch.Tensor,
     A_scale: Optional[torch.Tensor],
-    block_shape: Optional[list[int]],
+    per_act_token: bool,
+    block_shape: Optional[list[int]] = None,
 ) -> tuple[torch.Tensor, torch.Tensor]:
     """
     Perform fp8 quantization on the inputs.  If a block_shape
     is provided, the output will be blocked.
     """
     if block_shape is None:
-        A, A_scale = ops.scaled_fp8_quant(A, A_scale)
+        A, A_scale = ops.scaled_fp8_quant(
+            A, A_scale, use_per_token_if_dynamic=per_act_token)
     else:
         assert len(block_shape) == 2
         _, block_k = block_shape[0], block_shape[1]
         A, A_scale = per_token_group_quant_fp8(A, block_k)
-        assert cdiv(A.shape[-1], block_k) == A_scale.shape[-1]
+        assert cdiv(A.size(-1), block_k) == A_scale.size(-1)
+
     return A, A_scale
 
 
+def _int8_quantize(
+    A: torch.Tensor,
+    A_scale: Optional[torch.Tensor],
+    per_act_token: bool,
+    block_shape: Optional[list[int]] = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Perform int8 quantization on the inputs.  If a block_shape
+    is provided, the output will be blocked.
+    """
+
+    # If weights are per-channel (per_channel_quant=True), then
+    # activations apply per-token quantization. Otherwise, assume
+    # activation tensor-wise fp8/int8 quantization, dynamic or static
+    if block_shape is None:
+        assert per_act_token, \
+            "int8 quantization only supports block or channel-wise"
+        A, A_scale = per_token_quant_int8(A)
+    else:
+        assert len(block_shape) == 2
+        _, block_k = block_shape[0], block_shape[1]
+        A, A_scale = per_token_group_quant_int8(A, block_k)
+        assert cdiv(A.size(-1), block_k) == A_scale.size(-1)
+
+    return A, A_scale
+
+
+def moe_kernel_quantize_input(
+    A: torch.Tensor,
+    A_scale: Optional[torch.Tensor],
+    qtype: Optional[torch.dtype],
+    per_channel_quant: bool,
+    block_shape: Optional[list[int]] = None,
+) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
+    if qtype == torch.float8_e4m3fn:
+        return _fp8_quantize(A, A_scale, per_channel_quant, block_shape)
+    elif qtype == torch.int8:
+        return _int8_quantize(A, A_scale, per_channel_quant, block_shape)
+    else:
+        assert A_scale is None
+        return A, A_scale
+
+
 def _fp8_perm(m: torch.Tensor, idx: torch.Tensor) -> torch.Tensor:
     """
     A permutation routine that works on fp8 types.
     """
-    if torch.is_floating_point(m) and torch.finfo(m.dtype).bits == 8:
+    if torch.is_floating_point(m) and m.dtype.itemsize == 1:
         return m.view(dtype=torch.uint8)[idx, ...].view(dtype=m.dtype)
     else:
         return m[idx, ...]
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index cfd398c07..f4cdc3db1 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -1,5 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
+import functools
 import importlib.util
 from typing import Any, Callable, Optional
 
@@ -9,6 +10,7 @@ from torch.nn import Module
 from torch.nn.parameter import Parameter
 
 import vllm.envs as envs
+import vllm.model_executor.layers.fused_moe.modular_kernel as mk
 from vllm import _custom_ops as ops
 from vllm.distributed import get_tensor_model_parallel_world_size
 from vllm.logger import init_logger
@@ -434,6 +436,7 @@ class Fp8MoEMethod(FusedMoEMethodBase):
     """
 
     def __init__(self, quant_config: Fp8Config):
+        from vllm.model_executor.layers.fused_moe import fused_experts
         self.quant_config = quant_config
         self.block_quant = self.quant_config.weight_block_size is not None
 
@@ -458,6 +461,11 @@ class Fp8MoEMethod(FusedMoEMethodBase):
                 logger.warning_once(
                     "DeepGemm not supported on the current platform.")
 
+        self.fused_experts = functools.partial(
+            fused_experts,
+            block_shape=self.quant_config.weight_block_size,
+            allow_deep_gemm=self.allow_deep_gemm)
+
     def create_weights(self, layer: Module, num_experts: int, hidden_size: int,
                        intermediate_size_per_partition: int,
                        params_dtype: torch.dtype, **extra_weight_attrs):
@@ -783,6 +791,31 @@ class Fp8MoEMethod(FusedMoEMethodBase):
             del layer.w13_input_scale
             del layer.w2_input_scale
 
+    def set_prepare_finalize(
+        self,
+        dp_size: int,
+        world_size: int,
+        prepare_finalize: mk.FusedMoEPrepareAndFinalize,
+    ) -> bool:
+        from vllm.model_executor.layers.fused_moe.triton_deep_gemm_moe import (
+            TritonOrDeepGemmExperts)
+
+        if self.use_marlin or self.rocm_aiter_moe_enabled:
+            return False
+
+        experts = TritonOrDeepGemmExperts(
+            use_fp8_w8a8=True,
+            block_shape=self.quant_config.weight_block_size,
+            allow_deep_gemm=self.allow_deep_gemm,
+        )
+
+        self.fused_experts = mk.FusedMoEModularKernel(
+            prepare_finalize,
+            experts,
+        )
+
+        return True
+
     def apply(
         self,
         layer: torch.nn.Module,
@@ -801,10 +834,6 @@ class Fp8MoEMethod(FusedMoEMethodBase):
         apply_router_weight_on_input: bool = False,
         activation: str = "silu",
     ) -> torch.Tensor:
-        from vllm.model_executor.layers.fused_moe import fused_experts
-        from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
-            rocm_aiter_fused_experts)
-
         topk_weights, topk_ids = FusedMoE.select_experts(
             hidden_states=x,
             router_logits=router_logits,
@@ -819,6 +848,8 @@ class Fp8MoEMethod(FusedMoEMethodBase):
         )
 
         if self.rocm_aiter_moe_enabled:
+            from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (  # noqa: E501
+                rocm_aiter_fused_experts)
             return rocm_aiter_fused_experts(
                 x,
                 layer.w13_weight,
@@ -835,8 +866,7 @@ class Fp8MoEMethod(FusedMoEMethodBase):
                 a1_scale=layer.w13_input_scale,
                 a2_scale=layer.w2_input_scale,
                 block_shape=self.quant_config.weight_block_size)
-
-        if self.use_marlin:
+        elif self.use_marlin:
             assert activation == "silu", (
                 f"{activation} not supported for Marlin MoE.")
             assert not apply_router_weight_on_input, (
@@ -853,28 +883,26 @@ class Fp8MoEMethod(FusedMoEMethodBase):
                 quant_type_id=scalar_types.float8_e4m3fn.id,
                 global_num_experts=global_num_experts,
                 expert_map=expert_map)
-
-        return fused_experts(
-            x,
-            layer.w13_weight,
-            layer.w2_weight,
-            topk_weights=topk_weights,
-            topk_ids=topk_ids,
-            inplace=True,
-            activation=activation,
-            use_fp8_w8a8=True,
-            global_num_experts=global_num_experts,
-            apply_router_weight_on_input=apply_router_weight_on_input,
-            expert_map=expert_map,
-            w1_scale=(layer.w13_weight_scale_inv
-                      if self.block_quant else layer.w13_weight_scale),
-            w2_scale=(layer.w2_weight_scale_inv
-                      if self.block_quant else layer.w2_weight_scale),
-            a1_scale=layer.w13_input_scale,
-            a2_scale=layer.w2_input_scale,
-            block_shape=self.quant_config.weight_block_size,
-            allow_deep_gemm=self.allow_deep_gemm,
-        )
+        else:
+            return self.fused_experts(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                inplace=True,
+                activation=activation,
+                use_fp8_w8a8=True,
+                global_num_experts=global_num_experts,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                expert_map=expert_map,
+                w1_scale=(layer.w13_weight_scale_inv
+                          if self.block_quant else layer.w13_weight_scale),
+                w2_scale=(layer.w2_weight_scale_inv
+                          if self.block_quant else layer.w2_weight_scale),
+                a1_scale=layer.w13_input_scale,
+                a2_scale=layer.w2_input_scale,
+            )
 
 
 class Fp8KVCacheMethod(BaseKVCacheMethod):
diff --git a/vllm/model_executor/models/dbrx.py b/vllm/model_executor/models/dbrx.py
index 9ec245cce..850fba260 100644
--- a/vllm/model_executor/models/dbrx.py
+++ b/vllm/model_executor/models/dbrx.py
@@ -79,7 +79,6 @@ class DbrxExperts(FusedMoE):
             prefix=prefix,
         )
         self.config = config
-        self.tp_size = get_tensor_model_parallel_world_size()
         self.d_model = config.d_model
         self.intermediate_size = (self.config.ffn_config.ffn_hidden_size //
                                   self.tp_size)
diff --git a/vllm/model_executor/models/deepseek_v2.py b/vllm/model_executor/models/deepseek_v2.py
index 0366895ef..680b7e614 100644
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -31,9 +31,7 @@ from transformers import PretrainedConfig
 from vllm.attention import Attention
 from vllm.compilation.decorators import support_torch_compile
 from vllm.config import CacheConfig, ModelConfig, VllmConfig
-from vllm.distributed import (get_pp_group,
-                              get_tensor_model_parallel_world_size,
-                              tensor_model_parallel_all_reduce)
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
 from vllm.model_executor.layers.activation import SiluAndMul
 from vllm.model_executor.layers.fused_moe import FusedMoE
 from vllm.model_executor.layers.layernorm import RMSNorm
@@ -143,7 +141,8 @@ class DeepseekV2MoE(nn.Module):
                 intermediate_size=intermediate_size,
                 hidden_act=config.hidden_act,
                 quant_config=quant_config,
-                reduce_results=False,
+                reduce_results=self.experts.must_reduce_shared_expert_outputs(
+                ),
                 prefix=f"{prefix}.shared_experts",
             )
 
@@ -154,6 +153,7 @@ class DeepseekV2MoE(nn.Module):
             shared_output = self.shared_experts(hidden_states)
         # router_logits: (num_tokens, n_experts)
         router_logits, _ = self.gate(hidden_states)
+
         if hidden_states.dtype != torch.float16:
             final_hidden_states = self.experts(
                 hidden_states=hidden_states,
@@ -171,9 +171,11 @@ class DeepseekV2MoE(nn.Module):
                 # See DeepseekV2DecoderLayer for more details.
                 final_hidden_states = final_hidden_states + shared_output \
                     * (1. / self.routed_scaling_factor)
+
         if self.tp_size > 1:
-            final_hidden_states = tensor_model_parallel_all_reduce(
-                final_hidden_states)
+            final_hidden_states = (
+                self.experts.maybe_all_reduce_tensor_model_parallel(
+                    final_hidden_states))
 
         return final_hidden_states.view(num_tokens, hidden_dim)
 
diff --git a/vllm/model_executor/models/llama4.py b/vllm/model_executor/models/llama4.py
index 0fdc30f36..dfd0804f2 100644
--- a/vllm/model_executor/models/llama4.py
+++ b/vllm/model_executor/models/llama4.py
@@ -25,8 +25,7 @@ from transformers import Llama4TextConfig
 from vllm.attention import Attention
 from vllm.compilation.decorators import support_torch_compile
 from vllm.config import CacheConfig, VllmConfig
-from vllm.distributed import (get_tensor_model_parallel_world_size,
-                              tensor_model_parallel_all_reduce)
+from vllm.distributed import get_tensor_model_parallel_world_size
 from vllm.model_executor.layers.fused_moe import FusedMoE
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import (QKVParallelLinear,
@@ -89,7 +88,7 @@ class Llama4MoE(nn.Module):
             quant_config=quant_config,
             bias=False,
             prefix=f"{prefix}.shared_expert",
-            reduce_results=False,  # We need to do scatter before reduce
+            reduce_results=self.experts.must_reduce_shared_expert_outputs(),
         )
 
     def forward(self, hidden_states):
@@ -102,7 +101,8 @@ class Llama4MoE(nn.Module):
         experts_out = routed_out + shared_out
 
         if self.tp_size > 1:
-            experts_out = tensor_model_parallel_all_reduce(experts_out)
+            experts_out = self.experts.maybe_all_reduce_tensor_model_parallel(
+                experts_out)
 
         return experts_out
 
diff --git a/vllm/model_executor/models/qwen2_moe.py b/vllm/model_executor/models/qwen2_moe.py
index 14f9f8158..ae1c146cf 100644
--- a/vllm/model_executor/models/qwen2_moe.py
+++ b/vllm/model_executor/models/qwen2_moe.py
@@ -33,9 +33,7 @@ from transformers import PretrainedConfig
 from vllm.attention import Attention
 from vllm.compilation.decorators import support_torch_compile
 from vllm.config import CacheConfig, VllmConfig
-from vllm.distributed import (get_pp_group,
-                              get_tensor_model_parallel_world_size,
-                              tensor_model_parallel_all_reduce)
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
 from vllm.logger import init_logger
 from vllm.model_executor.layers.activation import SiluAndMul
 from vllm.model_executor.layers.fused_moe import FusedMoE
@@ -129,7 +127,8 @@ class Qwen2MoeSparseMoeBlock(nn.Module):
                 intermediate_size=config.shared_expert_intermediate_size,
                 hidden_act=config.hidden_act,
                 quant_config=quant_config,
-                reduce_results=False,
+                reduce_results=self.experts.must_reduce_shared_expert_outputs(
+                ),
             )
         else:
             self.shared_expert = None
@@ -156,7 +155,7 @@ class Qwen2MoeSparseMoeBlock(nn.Module):
         if shared_output is not None:
             final_hidden_states = final_hidden_states + shared_output
         if self.tp_size > 1:
-            final_hidden_states = tensor_model_parallel_all_reduce(
+            final_hidden_states = self.experts.maybe_all_reduce_tensor_model_parallel(  # noqa E501
                 final_hidden_states)
 
         return final_hidden_states.view(orig_shape)
diff --git a/vllm/model_executor/models/qwen3_moe.py b/vllm/model_executor/models/qwen3_moe.py
index 51cfa5796..1fef37a96 100644
--- a/vllm/model_executor/models/qwen3_moe.py
+++ b/vllm/model_executor/models/qwen3_moe.py
@@ -30,9 +30,7 @@ from transformers import PretrainedConfig
 from vllm.attention import Attention
 from vllm.compilation.decorators import support_torch_compile
 from vllm.config import CacheConfig, VllmConfig
-from vllm.distributed import (get_pp_group,
-                              get_tensor_model_parallel_world_size,
-                              tensor_model_parallel_all_reduce)
+from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
 from vllm.logger import init_logger
 from vllm.model_executor.layers.activation import SiluAndMul
 from vllm.model_executor.layers.fused_moe import FusedMoE
@@ -137,7 +135,7 @@ class Qwen3MoeSparseMoeBlock(nn.Module):
                                            router_logits=router_logits)
         final_hidden_states = final_hidden_states
         if self.tp_size > 1:
-            final_hidden_states = tensor_model_parallel_all_reduce(
+            final_hidden_states = self.experts.maybe_all_reduce_tensor_model_parallel(  # noqa E501
                 final_hidden_states)
 
         return final_hidden_states.view(orig_shape)
diff --git a/vllm/platforms/cuda.py b/vllm/platforms/cuda.py
index 9163b97c5..bdee8b2f8 100644
--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
@@ -158,6 +158,7 @@ class CudaPlatformBase(Platform):
                 "currently not supported with CUDA Graphs.")
             vllm_config.model_config.enforce_eager = True
             compilation_config.use_cudagraph = False
+            compilation_config.use_inductor = False
 
     @classmethod
     def get_current_memory_usage(cls,
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index 69fc1ac69..83e181116 100644
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -865,8 +865,10 @@ class MLACommonImpl(MLAAttentionImpl[M], Generic[M]):
         assert output is not None, "Output tensor must be provided."
 
         if attn_metadata is None:
-            # Profiling run.
-            return output
+            # The zero fill is required when used with DP + EP
+            # to ensure all ranks within a DP group compute the
+            # same expert outputs.
+            return output.fill_(0)
 
         num_actual_toks = attn_metadata.num_actual_tokens
 
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index 5352b1c5a..d85701fa9 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -341,7 +341,8 @@ def init_worker_distributed_environment(
                                  distributed_init_method, local_rank)
 
     ensure_model_parallel_initialized(parallel_config.tensor_parallel_size,
-                                      parallel_config.pipeline_parallel_size)
+                                      parallel_config.pipeline_parallel_size,
+                                      parallel_config.enable_expert_parallel)
 
     ensure_kv_transfer_initialized(vllm_config)
 
diff --git a/vllm/v1/worker/tpu_worker.py b/vllm/v1/worker/tpu_worker.py
index 9eea26d85..25715407c 100644
--- a/vllm/v1/worker/tpu_worker.py
+++ b/vllm/v1/worker/tpu_worker.py
@@ -265,4 +265,5 @@ def init_tpu_worker_distributed_environment(
         backend="gloo",
     )
     ensure_model_parallel_initialized(parallel_config.tensor_parallel_size,
-                                      parallel_config.pipeline_parallel_size)
+                                      parallel_config.pipeline_parallel_size,
+                                      parallel_config.enable_expert_parallel)
diff --git a/vllm/worker/cpu_worker.py b/vllm/worker/cpu_worker.py
index 1436a4043..a92cf1e5a 100644
--- a/vllm/worker/cpu_worker.py
+++ b/vllm/worker/cpu_worker.py
@@ -390,7 +390,8 @@ class CPUWorker(LocalOrDistributedWorkerBase):
 
         ensure_model_parallel_initialized(
             parallel_config.tensor_parallel_size,
-            parallel_config.pipeline_parallel_size)
+            parallel_config.pipeline_parallel_size,
+            parallel_config.enable_expert_parallel)
 
     def get_cache_block_size_bytes(self) -> int:
         """Return the size in bytes of a single KV cache block.
diff --git a/vllm/worker/hpu_worker.py b/vllm/worker/hpu_worker.py
index 7898c645d..42882992f 100644
--- a/vllm/worker/hpu_worker.py
+++ b/vllm/worker/hpu_worker.py
@@ -416,7 +416,8 @@ def init_worker_distributed_environment(
                                  backend='hccl')
 
     ensure_model_parallel_initialized(parallel_config.tensor_parallel_size,
-                                      parallel_config.pipeline_parallel_size)
+                                      parallel_config.pipeline_parallel_size,
+                                      parallel_config.enable_expert_parallel)
 
     if torch.distributed.is_initialized():
         torch_world_size = torch.distributed.get_world_size()
@@ -442,7 +443,8 @@ def init_worker_distributed_environment(
     torch.distributed.all_reduce(dummy_tensor_hpu)
     assert dummy_tensor_hpu.item() == parallel_config.world_size
     ensure_model_parallel_initialized(parallel_config.tensor_parallel_size,
-                                      parallel_config.pipeline_parallel_size)
+                                      parallel_config.pipeline_parallel_size,
+                                      parallel_config.enable_expert_parallel)
 
 
 def raise_if_cache_size_invalid(num_gpu_blocks, block_size, max_model_len,
diff --git a/vllm/worker/tpu_worker.py b/vllm/worker/tpu_worker.py
index 4bb9bea02..891ed6659 100644
--- a/vllm/worker/tpu_worker.py
+++ b/vllm/worker/tpu_worker.py
@@ -76,7 +76,8 @@ class TPUWorker(LoRANotSupportedWorkerBase, LocalOrDistributedWorkerBase):
         )
         ensure_model_parallel_initialized(
             self.parallel_config.tensor_parallel_size,
-            self.parallel_config.pipeline_parallel_size)
+            self.parallel_config.pipeline_parallel_size,
+            self.parallel_config.enable_expert_parallel)
 
         # Device initialization should happen after initializing the distributed
         # runtime.
diff --git a/vllm/worker/worker.py b/vllm/worker/worker.py
index 17f636765..41546462e 100644
--- a/vllm/worker/worker.py
+++ b/vllm/worker/worker.py
@@ -530,7 +530,8 @@ def init_worker_distributed_environment(
     init_distributed_environment(parallel_config.world_size, rank,
                                  distributed_init_method, local_rank)
     ensure_model_parallel_initialized(parallel_config.tensor_parallel_size,
-                                      parallel_config.pipeline_parallel_size)
+                                      parallel_config.pipeline_parallel_size,
+                                      parallel_config.enable_expert_parallel)
 
     ensure_kv_transfer_initialized(vllm_config)
 
diff --git a/vllm/worker/xpu_worker.py b/vllm/worker/xpu_worker.py
index 17f533525..65085f80f 100644
--- a/vllm/worker/xpu_worker.py
+++ b/vllm/worker/xpu_worker.py
@@ -176,7 +176,8 @@ class XPUWorker(LoRANotSupportedWorkerBase, Worker):
 
         ensure_model_parallel_initialized(
             parallel_config.tensor_parallel_size,
-            parallel_config.pipeline_parallel_size)
+            parallel_config.pipeline_parallel_size,
+            parallel_config.enable_expert_parallel)
         # global all_reduce needed for overall oneccl warm up
         torch.distributed.all_reduce(torch.zeros(1).xpu())
 
-- 
GitLab


From 856865008e1a8ffce393901c0245df265b5dfc3f Mon Sep 17 00:00:00 2001
From: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
Date: Wed, 14 May 2025 16:49:56 -0400
Subject: [PATCH 375/461] [CI] Disable Failing Tests (#18165)

---
 tests/spec_decode/e2e/test_eagle_correctness.py | 2 ++
 tests/v1/engine/test_engine_core_client.py      | 2 ++
 2 files changed, 4 insertions(+)

diff --git a/tests/spec_decode/e2e/test_eagle_correctness.py b/tests/spec_decode/e2e/test_eagle_correctness.py
index eee535a14..2814bb6d3 100644
--- a/tests/spec_decode/e2e/test_eagle_correctness.py
+++ b/tests/spec_decode/e2e/test_eagle_correctness.py
@@ -178,6 +178,8 @@ def test_eagle_e2e_greedy_correctness_cuda_graph(
                                   batch_size, output_len, seed)
 
 
+# TRACKING: https://github.com/vllm-project/vllm/issues/18166
+@pytest.mark.skip(reason="RE-ENABLE: Failing on main.")
 @pytest.mark.parametrize(
     "common_llm_kwargs",
     [{
diff --git a/tests/v1/engine/test_engine_core_client.py b/tests/v1/engine/test_engine_core_client.py
index 452fe1e37..671d74b83 100644
--- a/tests/v1/engine/test_engine_core_client.py
+++ b/tests/v1/engine/test_engine_core_client.py
@@ -256,6 +256,8 @@ async def test_engine_core_client_asyncio(monkeypatch: pytest.MonkeyPatch):
             client.shutdown()
 
 
+# TRACKING: https://github.com/vllm-project/vllm/issues/18167
+@pytest.mark.skip(reason="RE-ENABLE: this test is failing on main.")
 @pytest.mark.parametrize(
     "multiprocessing_mode,publisher_config",
     [(True, "tcp"), (False, "inproc")],
-- 
GitLab


From 749f792553d48dad68855f32910fafa61a28297e Mon Sep 17 00:00:00 2001
From: David Xia <david@davidxia.com>
Date: Wed, 14 May 2025 18:43:32 -0400
Subject: [PATCH 376/461] [Frontend] decrease import time of vllm.multimodal
 (#18031)

Co-authored-by: Aaron Pham <Aaronpham0103@gmail.com>
---
 vllm/multimodal/inputs.py     | 45 +++++++++++++++++++----------------
 vllm/multimodal/parse.py      | 21 +++++++++-------
 vllm/multimodal/processing.py | 13 ++++++----
 3 files changed, 45 insertions(+), 34 deletions(-)

diff --git a/vllm/multimodal/inputs.py b/vllm/multimodal/inputs.py
index 61d8eb62f..2335af843 100644
--- a/vllm/multimodal/inputs.py
+++ b/vllm/multimodal/inputs.py
@@ -10,40 +10,43 @@ from typing import (TYPE_CHECKING, Any, Literal, Optional, TypedDict, TypeVar,
                     Union, cast, final)
 
 import numpy as np
-import torch
-import torch.types
-from PIL.Image import Image
-from transformers import BatchFeature
 from typing_extensions import NotRequired, TypeAlias
 
 from vllm.jsontree import JSONTree, json_map_leaves
-from vllm.utils import full_groupby, is_list_of
+from vllm.utils import LazyLoader, full_groupby, is_list_of
 
 if TYPE_CHECKING:
+    import torch
+    import torch.types
+    from PIL.Image import Image
+    from transformers.feature_extraction_utils import BatchFeature
+
     from .hasher import MultiModalHashDict
+else:
+    torch = LazyLoader("torch", globals(), "torch")
 
 _T = TypeVar("_T")
 
-HfImageItem: TypeAlias = Union[Image, np.ndarray, torch.Tensor]
+HfImageItem: TypeAlias = Union["Image", np.ndarray, "torch.Tensor"]
 """
 A {class}`transformers.image_utils.ImageInput` representing a single image
 item, which can be passed to a HuggingFace `ImageProcessor`.
 """
 
-HfVideoItem: TypeAlias = Union[list[Image], np.ndarray, torch.Tensor,
-                               list[np.ndarray], list[torch.Tensor]]
+HfVideoItem: TypeAlias = Union[list["Image"], np.ndarray, "torch.Tensor",
+                               list[np.ndarray], list["torch.Tensor"]]
 """
 A {class}`transformers.image_utils.VideoInput` representing a single video
 item, which can be passed to a HuggingFace `VideoProcessor`.
 """
 
-HfAudioItem: TypeAlias = Union[list[float], np.ndarray, torch.Tensor]
+HfAudioItem: TypeAlias = Union[list[float], np.ndarray, "torch.Tensor"]
 """
 Represents a single audio
 item, which can be passed to a HuggingFace `AudioProcessor`.
 """
 
-ImageItem: TypeAlias = Union[HfImageItem, torch.Tensor]
+ImageItem: TypeAlias = Union[HfImageItem, "torch.Tensor"]
 """
 A {class}`transformers.image_utils.ImageInput` representing a single image
 item, which can be passed to a HuggingFace `ImageProcessor`.
@@ -53,7 +56,7 @@ which are treated as image embeddings;
 these are directly passed to the model without HF processing.
 """
 
-VideoItem: TypeAlias = Union[HfVideoItem, torch.Tensor]
+VideoItem: TypeAlias = Union[HfVideoItem, "torch.Tensor"]
 """
 A {class}`transformers.image_utils.VideoInput` representing a single video
 item, which can be passed to a HuggingFace `VideoProcessor`.
@@ -64,7 +67,7 @@ these are directly passed to the model without HF processing.
 """
 
 AudioItem: TypeAlias = Union[HfAudioItem, tuple[np.ndarray, float],
-                             torch.Tensor]
+                             "torch.Tensor"]
 """
 Represents a single audio
 item, which can be passed to a HuggingFace `AudioProcessor`.
@@ -132,7 +135,7 @@ class PlaceholderRange:
     length: int
     """The length of the placeholder."""
 
-    is_embed: Optional[torch.Tensor] = None
+    is_embed: Optional["torch.Tensor"] = None
     """
     A boolean mask of shape `(length,)` indicating which positions
     between `offset` and `offset + length` to assign embeddings to.
@@ -158,8 +161,8 @@ class PlaceholderRange:
         return nested_tensors_equal(self.is_embed, other.is_embed)
 
 
-NestedTensors = Union[list["NestedTensors"], list[torch.Tensor], torch.Tensor,
-                      tuple[torch.Tensor, ...]]
+NestedTensors: TypeAlias = Union[list["NestedTensors"], list["torch.Tensor"],
+                                 "torch.Tensor", tuple["torch.Tensor", ...]]
 """
 Uses a list instead of a tensor if the dimensions of each element do not match.
 """
@@ -261,7 +264,7 @@ class BaseMultiModalField(ABC):
         """
         Construct {class}`MultiModalFieldElem` instances to represent
         the provided data.
-        
+
         This is the inverse of {meth}`reduce_data`.
         """
         raise NotImplementedError
@@ -422,7 +425,7 @@ class MultiModalFieldConfig:
             modality: The modality of the multi-modal item that uses this
                 keyword argument.
             slices: For each multi-modal item, a slice (dim=0) or a tuple of
-                slices (dim>0) that is used to extract the data corresponding 
+                slices (dim>0) that is used to extract the data corresponding
                 to it.
             dim: The dimension to extract data, default to 0.
 
@@ -465,7 +468,7 @@ class MultiModalFieldConfig:
 
     @staticmethod
     def flat_from_sizes(modality: str,
-                        size_per_item: torch.Tensor,
+                        size_per_item: "torch.Tensor",
                         dim: int = 0):
         """
         Defines a field where an element in the batch is obtained by
@@ -602,7 +605,7 @@ class MultiModalKwargs(UserDict[str, NestedTensors]):
 
     @staticmethod
     def from_hf_inputs(
-        hf_inputs: BatchFeature,
+        hf_inputs: "BatchFeature",
         config_by_key: Mapping[str, MultiModalFieldConfig],
     ):
         # NOTE: This skips fields in `hf_inputs` that are not in `config_by_key`
@@ -792,7 +795,7 @@ class MultiModalKwargs(UserDict[str, NestedTensors]):
         return self._items_by_modality[modality]
 
 
-MultiModalPlaceholderDict = Mapping[str, Sequence[PlaceholderRange]]
+MultiModalPlaceholderDict: TypeAlias = Mapping[str, Sequence[PlaceholderRange]]
 """
 A dictionary containing placeholder ranges for each modality.
 """
@@ -823,7 +826,7 @@ class MultiModalInputs(TypedDict):
     mm_hashes: Optional["MultiModalHashDict"]
     """The hashes of the multi-modal data."""
 
-    mm_placeholders: MultiModalPlaceholderDict
+    mm_placeholders: "MultiModalPlaceholderDict"
     """
     For each modality, information about the placeholder tokens in
     `prompt_token_ids`.
diff --git a/vllm/multimodal/parse.py b/vllm/multimodal/parse.py
index f9588431c..6e9ec9555 100644
--- a/vllm/multimodal/parse.py
+++ b/vllm/multimodal/parse.py
@@ -8,11 +8,9 @@ from typing import (TYPE_CHECKING, Any, Generic, Literal, NamedTuple, Optional,
 
 import numpy as np
 import torch
-from PIL.Image import Image
-from transformers import BatchFeature
 from typing_extensions import TypeAlias, TypeGuard, assert_never
 
-from vllm.utils import is_list_of
+from vllm.utils import LazyLoader, is_list_of
 
 from .audio import AudioResampler
 from .inputs import (AudioItem, HfAudioItem, HfImageItem, HfVideoItem,
@@ -22,6 +20,11 @@ from .inputs import (AudioItem, HfAudioItem, HfImageItem, HfVideoItem,
 _T = TypeVar("_T")
 _I = TypeVar("_I")
 
+if TYPE_CHECKING:
+    import PIL.Image as PILImage
+else:
+    PILImage = LazyLoader("PILImage", globals(), "PIL.Image")
+
 
 class ModalityDataItems(ABC, Generic[_T, _I]):
     """
@@ -131,6 +134,8 @@ class DictEmbeddingItems(ModalityDataItems[Mapping[str, torch.Tensor],
             Mapping[str, MultiModalFieldConfig],
         ],
     ) -> None:
+        from transformers.feature_extraction_utils import BatchFeature
+
         super().__init__(data, modality)
 
         missing_required_data_keys = required_fields - data.keys()
@@ -200,7 +205,7 @@ class ImageProcessorItems(ProcessorBatchItems[HfImageItem]):
     def get_image_size(self, item_idx: int) -> ImageSize:
         image = self.get(item_idx)
 
-        if isinstance(image, Image):
+        if isinstance(image, PILImage.Image):
             return ImageSize(*image.size)
         if isinstance(image, (np.ndarray, torch.Tensor)):
             _, h, w = image.shape
@@ -226,7 +231,7 @@ class VideoProcessorItems(ProcessorBatchItems[HfVideoItem]):
     def get_frame_size(self, item_idx: int) -> ImageSize:
         image = self.get(item_idx)[0]  # Assume that the video isn't empty
 
-        if isinstance(image, Image):
+        if isinstance(image, PILImage.Image):
             return ImageSize(*image.size)
         if isinstance(image, (np.ndarray, torch.Tensor)):
             _, h, w = image.shape
@@ -253,7 +258,7 @@ class MultiModalDataItems(UserDict[str, ModalityDataItems[Any, Any]]):
     def get_count(self, modality: str, *, strict: bool = True) -> int:
         """
         Get the number of data items belonging to a modality.
-        
+
         If `strict=False`, return `0` instead of raising {exc}`KeyError`
         even if the modality is not found.
         """
@@ -399,7 +404,7 @@ class MultiModalDataParser:
         if self._is_embeddings(data):
             return ImageEmbeddingItems(data)
 
-        if (isinstance(data, Image)
+        if (isinstance(data, PILImage.Image)
                 or isinstance(data,
                               (np.ndarray, torch.Tensor)) and data.ndim == 3):
             data_items = [data]
@@ -420,7 +425,7 @@ class MultiModalDataParser:
         if self._is_embeddings(data):
             return VideoEmbeddingItems(data)
 
-        if (is_list_of(data, Image)
+        if (is_list_of(data, PILImage.Image)
                 or isinstance(data,
                               (np.ndarray, torch.Tensor)) and data.ndim == 4):
             data_items = [data]
diff --git a/vllm/multimodal/processing.py b/vllm/multimodal/processing.py
index 92f9e70b5..320a26f37 100644
--- a/vllm/multimodal/processing.py
+++ b/vllm/multimodal/processing.py
@@ -13,7 +13,6 @@ from typing import (TYPE_CHECKING, Generic, NamedTuple, Optional, Protocol,
                     TypeVar, Union, cast)
 
 import torch
-from transformers import BatchFeature, PretrainedConfig, ProcessorMixin
 from typing_extensions import assert_never
 
 from vllm.inputs import InputProcessingContext
@@ -31,6 +30,10 @@ from .parse import (DictEmbeddingItems, EmbeddingItems, MultiModalDataItems,
                     MultiModalDataParser)
 
 if TYPE_CHECKING:
+    from transformers.configuration_utils import PretrainedConfig
+    from transformers.feature_extraction_utils import BatchFeature
+    from transformers.processing_utils import ProcessorMixin
+
     from .profiling import BaseDummyInputsBuilder
 
 logger = init_logger(__name__)
@@ -1047,10 +1050,10 @@ class BaseProcessingInfo:
     def get_tokenizer(self) -> AnyTokenizer:
         return self.ctx.tokenizer
 
-    def get_hf_config(self) -> PretrainedConfig:
+    def get_hf_config(self) -> "PretrainedConfig":
         return self.ctx.get_hf_config()
 
-    def get_hf_processor(self, **kwargs: object) -> ProcessorMixin:
+    def get_hf_processor(self, **kwargs: object) -> "ProcessorMixin":
         """
         Subclasses can override this method to handle
         specific kwargs from model config or user inputs.
@@ -1165,7 +1168,7 @@ class BaseMultiModalProcessor(ABC, Generic[_I]):
     @abstractmethod
     def _get_mm_fields_config(
         self,
-        hf_inputs: BatchFeature,
+        hf_inputs: "BatchFeature",
         hf_processor_mm_kwargs: Mapping[str, object],
     ) -> Mapping[str, MultiModalFieldConfig]:
         """Given the HF-processed data, output the metadata of each field."""
@@ -1222,7 +1225,7 @@ class BaseMultiModalProcessor(ABC, Generic[_I]):
         # This refers to the data to be passed to HF processor.
         mm_data: Mapping[str, object],
         mm_kwargs: Mapping[str, object],
-    ) -> BatchFeature:
+    ) -> "BatchFeature":
         """
         Call the HF processor on the prompt text and
         associated multi-modal data.
-- 
GitLab


From d93c976a0d78639d0ea9074a9e01607f0d5c5670 Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Wed, 14 May 2025 18:43:55 -0400
Subject: [PATCH 377/461] [Kernel] Have rotary embeddings support tensors
 (#18046)

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>
---
 csrc/pos_encoding_kernels.cu                | 40 ++++++++++++++-------
 tests/kernels/core/test_pos_encoding.py     | 14 +++++++-
 tests/kernels/core/test_rotary_embedding.py | 17 +++++++--
 vllm/_custom_ops.py                         | 19 ++--------
 4 files changed, 59 insertions(+), 31 deletions(-)

diff --git a/csrc/pos_encoding_kernels.cu b/csrc/pos_encoding_kernels.cu
index ef6dd1c09..266f2a066 100644
--- a/csrc/pos_encoding_kernels.cu
+++ b/csrc/pos_encoding_kernels.cu
@@ -44,7 +44,8 @@ inline __device__ void apply_rotary_embedding(
                                    // head_size]
     const scalar_t* cache_ptr, const int head_size, const int num_heads,
     const int num_kv_heads, const int rot_dim, const int token_idx,
-    const int64_t query_stride, const int64_t key_stride) {
+    const int64_t query_stride, const int64_t key_stride,
+    const int64_t head_stride) {
   const int embed_dim = rot_dim / 2;
   const scalar_t* cos_ptr = cache_ptr;
   const scalar_t* sin_ptr = cache_ptr + embed_dim;
@@ -52,7 +53,8 @@ inline __device__ void apply_rotary_embedding(
   const int nq = num_heads * embed_dim;
   for (int i = threadIdx.x; i < nq; i += blockDim.x) {
     const int head_idx = i / embed_dim;
-    const int64_t token_head = token_idx * query_stride + head_idx * head_size;
+    const int64_t token_head =
+        token_idx * query_stride + head_idx * head_stride;
     const int rot_offset = i % embed_dim;
     apply_token_rotary_embedding<scalar_t, IS_NEOX>(
         query + token_head, cos_ptr, sin_ptr, rot_offset, embed_dim);
@@ -62,7 +64,8 @@ inline __device__ void apply_rotary_embedding(
     const int nk = num_kv_heads * embed_dim;
     for (int i = threadIdx.x; i < nk; i += blockDim.x) {
       const int head_idx = i / embed_dim;
-      const int64_t token_head = token_idx * key_stride + head_idx * head_size;
+      const int64_t token_head =
+          token_idx * key_stride + head_idx * head_stride;
       const int rot_offset = i % embed_dim;
       apply_token_rotary_embedding<scalar_t, IS_NEOX>(
           key + token_head, cos_ptr, sin_ptr, rot_offset, embed_dim);
@@ -84,7 +87,8 @@ __global__ void rotary_embedding_kernel(
     const scalar_t* __restrict__ cos_sin_cache,  // [max_position, 2, rot_dim //
                                                  // 2]
     const int rot_dim, const int64_t query_stride, const int64_t key_stride,
-    const int num_heads, const int num_kv_heads, const int head_size) {
+    const int64_t head_stride, const int num_heads, const int num_kv_heads,
+    const int head_size) {
   // Each thread block is responsible for one token.
   const int token_idx = blockIdx.x;
   int64_t pos = positions[token_idx];
@@ -92,7 +96,7 @@ __global__ void rotary_embedding_kernel(
 
   apply_rotary_embedding<scalar_t, IS_NEOX>(
       query, key, cache_ptr, head_size, num_heads, num_kv_heads, rot_dim,
-      token_idx, query_stride, key_stride);
+      token_idx, query_stride, key_stride, head_stride);
 }
 
 template <typename scalar_t, bool IS_NEOX>
@@ -109,9 +113,9 @@ __global__ void batched_rotary_embedding_kernel(
     const scalar_t* __restrict__ cos_sin_cache,  // [max_position, 2, rot_dim //
                                                  // 2]
     const int64_t* __restrict__ cos_sin_cache_offsets,  // [batch_size, seq_len]
-                                                        // or [num_tokens]
     const int rot_dim, const int64_t query_stride, const int64_t key_stride,
-    const int num_heads, const int num_kv_heads, const int head_size) {
+    const int64_t head_stride, const int num_heads, const int num_kv_heads,
+    const int head_size) {
   // Each thread block is responsible for one token.
   const int token_idx = blockIdx.x;
   int64_t pos = positions[token_idx];
@@ -121,7 +125,7 @@ __global__ void batched_rotary_embedding_kernel(
 
   apply_rotary_embedding<scalar_t, IS_NEOX>(
       query, key, cache_ptr, head_size, num_heads, num_kv_heads, rot_dim,
-      token_idx, query_stride, key_stride);
+      token_idx, query_stride, key_stride, head_stride);
 }
 
 }  // namespace vllm
@@ -179,6 +183,12 @@ void rotary_embedding(
   int seq_dim_idx = positions_ndim - 1;
   int64_t query_stride = query.stride(seq_dim_idx);
   int64_t key_stride = key.has_value() ? key->stride(seq_dim_idx) : 0;
+  // Determine head stride: for [*, heads, head_size] use stride of last dim;
+  // for flat [*, heads*head_size], heads blocks are contiguous of size
+  // head_size
+  int query_ndim = query.dim();
+  int64_t head_stride =
+      (query_ndim == positions_ndim + 2) ? query.stride(-2) : head_size;
 
   dim3 grid(num_tokens);
   dim3 block(std::min<int64_t>(num_heads * rot_dim / 2, 512));
@@ -190,14 +200,14 @@ void rotary_embedding(
           positions.data_ptr<int64_t>(), query.data_ptr<scalar_t>(),
           key.has_value() ? key->data_ptr<scalar_t>() : nullptr,
           cos_sin_cache.data_ptr<scalar_t>(), rot_dim, query_stride, key_stride,
-          num_heads, num_kv_heads, head_size);
+          head_stride, num_heads, num_kv_heads, head_size);
     } else {
       vllm::rotary_embedding_kernel<scalar_t, false>
           <<<grid, block, 0, stream>>>(
               positions.data_ptr<int64_t>(), query.data_ptr<scalar_t>(),
               key.has_value() ? key->data_ptr<scalar_t>() : nullptr,
               cos_sin_cache.data_ptr<scalar_t>(), rot_dim, query_stride,
-              key_stride, num_heads, num_kv_heads, head_size);
+              key_stride, head_stride, num_heads, num_kv_heads, head_size);
     }
   });
 }
@@ -263,6 +273,12 @@ void batched_rotary_embedding(
   int seq_dim_idx = positions_ndim - 1;
   int64_t query_stride = query.stride(seq_dim_idx);
   int64_t key_stride = key.has_value() ? key->stride(seq_dim_idx) : 0;
+  // Determine head stride: for [*, heads, head_size] use stride of last dim;
+  // for flat [*, heads*head_size], heads blocks are contiguous of size
+  // head_size
+  int query_ndim = query.dim();
+  int64_t head_stride =
+      (query_ndim == positions_ndim + 2) ? query.stride(-2) : head_size;
 
   dim3 grid(num_tokens);
   dim3 block(std::min<int64_t>(num_heads * rot_dim / 2, 512));
@@ -276,7 +292,7 @@ void batched_rotary_embedding(
               key.has_value() ? key->data_ptr<scalar_t>() : nullptr,
               cos_sin_cache.data_ptr<scalar_t>(),
               cos_sin_cache_offsets.data_ptr<int64_t>(), rot_dim, query_stride,
-              key_stride, num_heads, num_kv_heads, head_size);
+              key_stride, head_stride, num_heads, num_kv_heads, head_size);
     } else {
       vllm::batched_rotary_embedding_kernel<scalar_t, false>
           <<<grid, block, 0, stream>>>(
@@ -284,7 +300,7 @@ void batched_rotary_embedding(
               key.has_value() ? key->data_ptr<scalar_t>() : nullptr,
               cos_sin_cache.data_ptr<scalar_t>(),
               cos_sin_cache_offsets.data_ptr<int64_t>(), rot_dim, query_stride,
-              key_stride, num_heads, num_kv_heads, head_size);
+              key_stride, head_stride, num_heads, num_kv_heads, head_size);
     }
   });
 }
diff --git a/tests/kernels/core/test_pos_encoding.py b/tests/kernels/core/test_pos_encoding.py
index d81c7487b..383a3c83b 100644
--- a/tests/kernels/core/test_pos_encoding.py
+++ b/tests/kernels/core/test_pos_encoding.py
@@ -29,12 +29,20 @@ def _get_flat_tensor_shape(batch_size: int, seq_len: int, num_heads: int,
     return (batch_size, seq_len, num_heads * head_size)
 
 
+# For testing sliced tensors
+def _get_padded_tensor_shape(batch_size: int, seq_len: int, num_heads: int,
+                             head_size: int) -> tuple[int, ...]:
+    return (batch_size, seq_len, num_heads, head_size + 64)
+
+
 def _get_batch_tensor_shape(batch_size: int, seq_len: int, num_heads: int,
                             head_size: int) -> tuple[int, ...]:
     return (batch_size, seq_len, num_heads, head_size)
 
 
-TENSORS_SHAPES_FN = [_get_batch_tensor_shape, _get_flat_tensor_shape]
+TENSORS_SHAPES_FN = [
+    _get_batch_tensor_shape, _get_flat_tensor_shape, _get_padded_tensor_shape
+]
 
 
 @pytest.mark.parametrize("is_neox_style", IS_NEOX_STYLE)
@@ -79,6 +87,10 @@ def test_rotary_embedding(
     query = torch.randn(query_shape, dtype=dtype)
     key = torch.randn_like(query) if use_key else None
 
+    # slice tensor if required, noop otherwise
+    query = query[..., :head_size]
+    key = key[..., :head_size] if use_key else None
+
     # NOTE(woosuk): The reference implementation should be executed first
     # because the custom kernel is in-place.
     ref_query, ref_key = rope.forward_native(positions, query, key)
diff --git a/tests/kernels/core/test_rotary_embedding.py b/tests/kernels/core/test_rotary_embedding.py
index 4e5486100..8383f943b 100644
--- a/tests/kernels/core/test_rotary_embedding.py
+++ b/tests/kernels/core/test_rotary_embedding.py
@@ -38,9 +38,10 @@ def rotary_embedding_opcheck(rot,
 @pytest.mark.parametrize("head_size", [32, 108])
 @pytest.mark.parametrize("seq_len", [11, 1024])
 @pytest.mark.parametrize("use_key", [True, False])
+@pytest.mark.parametrize("head_stride_is_contingous", [True, False])
 def test_rotary_embedding_opcheck(dist_init, device, max_position,
                                   is_neox_style, rotary_dim, head_size,
-                                  seq_len, use_key):
+                                  seq_len, use_key, head_stride_is_contingous):
     batch_size = 1
     base = 10000
     num_heads = 7
@@ -50,15 +51,27 @@ def test_rotary_embedding_opcheck(dist_init, device, max_position,
     positions = torch.randint(0,
                               max_position, (batch_size, seq_len),
                               device=device)
+    head_stride = head_size + (64 if head_stride_is_contingous else 0)
+
     query = torch.randn(batch_size,
                         seq_len,
-                        num_heads * head_size,
+                        num_heads,
+                        head_stride,
                         dtype=torch.float32,
                         device=device)
     key = torch.randn_like(query) if use_key else None
+    query = query[..., :head_size]
+    key = key[..., :head_size] if use_key else None
 
     rotary_embedding_opcheck(rot, positions, query, key)
     offsets = torch.zeros(batch_size * seq_len,
                           device=device,
                           dtype=torch.long)
     rotary_embedding_opcheck(rot, positions, query, key, offsets)
+
+    # if we have a contiguous head stride, test the alternate
+    # [..., num_heads * head_dim] shape/layout
+    if head_stride_is_contingous:
+        rotary_embedding_opcheck(
+            rot, positions, query.flatten(start_dim=-2),
+            key.flatten(start_dim=-2) if use_key else None)
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index c81300db5..e74d139ab 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -254,14 +254,8 @@ def rotary_embedding(
     cos_sin_cache: torch.Tensor,
     is_neox: bool,
 ) -> None:
-    # TODO: Remove this contiguous call when the kernel is updated to support tensor slices
-    query_contiguous = query.contiguous()
-    key_contiguous = key.contiguous() if key is not None else None
-    torch.ops._C.rotary_embedding(positions, query_contiguous, key_contiguous,
-                                  head_size, cos_sin_cache, is_neox)
-    query.copy_(query_contiguous)
-    if key is not None:
-        key.copy_(key_contiguous)
+    torch.ops._C.rotary_embedding(positions, query, key, head_size,
+                                  cos_sin_cache, is_neox)
 
 
 def batched_rotary_embedding(positions: torch.Tensor, query: torch.Tensor,
@@ -269,16 +263,9 @@ def batched_rotary_embedding(positions: torch.Tensor, query: torch.Tensor,
                              cos_sin_cache: torch.Tensor, is_neox: bool,
                              rot_dim: int,
                              cos_sin_cache_offsets: torch.Tensor) -> None:
-    # TODO: Remove this contiguous call when the kernel is updated to support tensor slices
-    query_contiguous = query.contiguous()
-    key_contiguous = key.contiguous() if key is not None else None
-    torch.ops._C.batched_rotary_embedding(positions, query_contiguous,
-                                          key_contiguous, head_size,
+    torch.ops._C.batched_rotary_embedding(positions, query, key, head_size,
                                           cos_sin_cache, is_neox, rot_dim,
                                           cos_sin_cache_offsets)
-    query.copy_(query_contiguous)
-    if key is not None:
-        key.copy_(key_contiguous)
 
 
 # layer norm ops
-- 
GitLab


From 2fc9075b82e05007f460992b3f9d42d2746c41cb Mon Sep 17 00:00:00 2001
From: Aaron Pham <contact@aarnphm.xyz>
Date: Wed, 14 May 2025 18:45:24 -0400
Subject: [PATCH 378/461] [V1] Structured Outputs + Thinking compatibility
 (#16577)

Signed-off-by: Aaron Pham <contact@aarnphm.xyz>
Co-authored-by: Russell Bryant <rbryant@redhat.com>
---
 docs/source/features/reasoning_outputs.md     |   4 +-
 .../llm/test_struct_output_generate.py        |  96 ++++++++++++++++-
 vllm/config.py                                |   4 +-
 vllm/reasoning/abs_reasoning_parsers.py       |   6 +-
 vllm/v1/core/sched/scheduler.py               |   8 +-
 vllm/v1/structured_output/__init__.py         | 101 +++++++++++++++---
 vllm/v1/structured_output/backend_guidance.py |  22 ++--
 vllm/v1/structured_output/backend_types.py    |  17 ++-
 vllm/v1/structured_output/backend_xgrammar.py |  49 ++++-----
 vllm/v1/structured_output/request.py          |   1 +
 10 files changed, 233 insertions(+), 75 deletions(-)

diff --git a/docs/source/features/reasoning_outputs.md b/docs/source/features/reasoning_outputs.md
index 4759d0c26..3c2571298 100644
--- a/docs/source/features/reasoning_outputs.md
+++ b/docs/source/features/reasoning_outputs.md
@@ -141,10 +141,10 @@ Remember to check whether the `reasoning_content` exists in the response before
 The reasoning content is also available in the structured output. The structured output engine like `xgrammar` will use the reasoning content to generate structured output. It is only supported in v0 engine now.
 
 ```bash
-VLLM_USE_V1=0 vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --reasoning-parser deepseek_r1
+vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --reasoning-parser deepseek_r1
 ```
 
-Please note that the `VLLM_USE_V1` environment variable must be set to `0` to use the v0 engine.
+The following is an example client:
 
 ```python
 from openai import OpenAI
diff --git a/tests/v1/entrypoints/llm/test_struct_output_generate.py b/tests/v1/entrypoints/llm/test_struct_output_generate.py
index 5c116598f..25bbcd901 100644
--- a/tests/v1/entrypoints/llm/test_struct_output_generate.py
+++ b/tests/v1/entrypoints/llm/test_struct_output_generate.py
@@ -1,3 +1,4 @@
+# ruff: noqa: E501
 # SPDX-License-Identifier: Apache-2.0
 
 from __future__ import annotations
@@ -5,17 +6,22 @@ from __future__ import annotations
 import json
 import re
 from enum import Enum
-from typing import Any
+from typing import TYPE_CHECKING, Any
 
 import jsonschema
 import pytest
 from pydantic import BaseModel
 
+from tests.reasoning.utils import run_reasoning_extraction
 from vllm.entrypoints.llm import LLM
 from vllm.outputs import RequestOutput
 from vllm.platforms import current_platform
+from vllm.reasoning.abs_reasoning_parsers import ReasoningParserManager
 from vllm.sampling_params import GuidedDecodingParams, SamplingParams
 
+if TYPE_CHECKING:
+    from vllm.config import TokenizerMode
+
 NGRAM_SPEC_CONFIG = {
     "model": "[ngram]",
     "num_speculative_tokens": 5,
@@ -444,7 +450,7 @@ def test_structured_output(
 
     prompt = """
 You have access to the following function to retrieve the weather in a city:
-         
+
     {
         "name": "get_weather",
         "parameters": {
@@ -455,7 +461,7 @@ You have access to the following function to retrieve the weather in a city:
             }
         }
     }
-         
+
 If a you choose to call a function ONLY reply in the following format:
 <{start_tag}={function_name}>{parameters}{end_tag}
 where
@@ -476,7 +482,7 @@ Reminder:
 - Always add your sources when using search results to answer the user query
 
 You are a helpful assistant.
-         
+
 Given the previous instructions, what is the weather in New York City? \
 Make the response as short as possible.
 """
@@ -514,6 +520,88 @@ Make the response as short as possible.
                         f"{generated_text!r}\nError: {str(e)}")
 
 
+@pytest.mark.skip_global_cleanup
+@pytest.mark.parametrize(
+    "model_name, guided_decoding_backend, tokenizer_mode, reasoning_parser, speculative_config",  # noqa: E501
+    [
+        ("deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B", "xgrammar", "auto",
+         "deepseek_r1", NGRAM_SPEC_CONFIG),
+        ("Qwen/Qwen3-1.7B", "xgrammar", "auto", "deepseek_r1", None),
+    ],
+)
+def test_structured_output_with_reasoning_matrices(
+    monkeypatch: pytest.MonkeyPatch,
+    guided_decoding_backend: str,
+    tokenizer_mode: TokenizerMode,
+    reasoning_parser: str,
+    model_name: str,
+    speculative_config: dict[str, Any] | None,
+):
+    monkeypatch.setenv("VLLM_USE_V1", "1")
+
+    if current_platform.is_tpu() and speculative_config:
+        pytest.skip("TPU does not support speculative decoding")
+
+    # Use a single LLM instance for several scenarios to
+    # speed up the test suite.
+    llm = LLM(
+        model=model_name,
+        # Don't use eager execution on TPUs because we want to test for no
+        # recompilation at runtime
+        enforce_eager=bool(not current_platform.is_tpu()),
+        max_model_len=1024,
+        max_num_seqs=16,
+        guided_decoding_backend=guided_decoding_backend,
+        guided_decoding_disable_any_whitespace=True,
+        tokenizer_mode=tokenizer_mode,
+        reasoning_parser=reasoning_parser,
+        speculative_config=speculative_config,
+    )
+    tokenizer = llm.get_tokenizer(None)
+    reasoner = ReasoningParserManager.get_reasoning_parser(reasoning_parser)(
+        tokenizer=tokenizer)
+
+    reasoning_prompt = "Solve the following math problem step-by-step, then provide the final answer as JSON object with a single key 'result'. Make sure to correct your reasoning if there are any issue should it arise.\nProblem: What is 5 * 8 + 2?"  # noqa: E501
+    reasoning_schema = {
+        "type": "object",
+        "properties": {
+            "result": {
+                "type": "integer"
+            }
+        },
+        "required": ["result"],
+        "additionalProperties": False
+    }
+    if "Qwen3" in model_name:
+        reasoning_prompt += "<think>\n"
+
+    sampling_params = SamplingParams(
+        temperature=0.1,
+        max_tokens=8192,
+        guided_decoding=GuidedDecodingParams(json=reasoning_schema),
+    )
+    outputs = llm.generate(
+        [reasoning_prompt],
+        sampling_params=sampling_params,
+        use_tqdm=True,
+    )
+
+    assert outputs is not None
+    output = outputs[0]
+    assert output is not None and isinstance(output, RequestOutput)
+    prompt = output.prompt
+    generated_text = output.outputs[0].text
+    reasoning_content, content = run_reasoning_extraction(
+        reasoner, [generated_text])
+    print(
+        f"Prompt: {prompt!r}\nReasoning: {reasoning_content!r}\nContent: {content!r}"
+    )
+
+    assert content is not None and reasoning_content is not None
+    output_json = json.loads(content)
+    jsonschema.validate(instance=output_json, schema=reasoning_schema)
+
+
 @pytest.mark.skip_global_cleanup
 @pytest.mark.parametrize("model_name, tokenizer_mode",
                          PARAMS_MODELS_TOKENIZER_MODE)
diff --git a/vllm/config.py b/vllm/config.py
index c5d61405c..09e89c111 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -2332,7 +2332,7 @@ class SpeculativeConfig:
     `TypicalAcceptanceSampler`."""
 
     speculative_token_tree: Optional[str] = None
-    """Specifies the tree structure for speculative token generation. 
+    """Specifies the tree structure for speculative token generation.
     """
     # required configuration params passed from engine
     target_model_config: ModelConfig = field(default=None,
@@ -4024,7 +4024,7 @@ class VllmConfig:
     """LoRA configuration."""
     speculative_config: Optional[SpeculativeConfig] = None
     """Speculative decoding configuration."""
-    decoding_config: Optional[DecodingConfig] = None
+    decoding_config: DecodingConfig = field(default_factory=DecodingConfig)
     """Decoding configuration."""
     observability_config: Optional[ObservabilityConfig] = None
     """Observability configuration."""
diff --git a/vllm/reasoning/abs_reasoning_parsers.py b/vllm/reasoning/abs_reasoning_parsers.py
index 454167a0d..9dd5191da 100644
--- a/vllm/reasoning/abs_reasoning_parsers.py
+++ b/vllm/reasoning/abs_reasoning_parsers.py
@@ -1,5 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
+from __future__ import annotations
+
 import os
 from abc import abstractmethod
 from collections.abc import Sequence
@@ -33,7 +35,7 @@ class ReasoningParser:
         return self.model_tokenizer.get_vocab()
 
     @abstractmethod
-    def is_reasoning_end(self, input_ids: list[int]) -> bool:
+    def is_reasoning_end(self, input_ids: Sequence[int]) -> bool:
         """
         Check if the reasoning content ends in the input_ids.
 
@@ -106,7 +108,7 @@ class ReasoningParserManager:
     reasoning_parsers: dict[str, type] = {}
 
     @classmethod
-    def get_reasoning_parser(cls, name) -> type:
+    def get_reasoning_parser(cls, name: str | None) -> type[ReasoningParser]:
         """
         Get reasoning parser by name which is registered by `register_module`.
 
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index f338e4ba1..96313c288 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -758,7 +758,8 @@ class Scheduler(SchedulerInterface):
                 # the outer lists can be of length > 1.
                 new_logprobs = logprobs.slice(req_index, req_index + 1)
 
-            if new_token_ids and request.use_structured_output:
+            if new_token_ids and self.structured_output_manager.should_advance(
+                    request):
                 # NOTE: structured_output_request
                 # should not be None if use_structured_output, we have
                 # check above, so safe to ignore type warning
@@ -767,11 +768,10 @@ class Scheduler(SchedulerInterface):
 
             # Add newly generated spec token ids to the request.
             if spec_token_ids is not None:
-                if request.use_structured_output:
+                if self.structured_output_manager.should_advance(request):
                     metadata = request.structured_output_request
-                    assert metadata is not None and metadata.grammar is not None
                     # Needs to happen after new_token_ids are accepted.
-                    request.spec_token_ids = metadata.grammar.validate_tokens(
+                    request.spec_token_ids = metadata.grammar.validate_tokens(  # type: ignore[union-attr]
                         spec_token_ids[req_index])
                 else:
                     request.spec_token_ids = spec_token_ids[req_index]
diff --git a/vllm/v1/structured_output/__init__.py b/vllm/v1/structured_output/__init__.py
index 3183edb7c..c701ab1d3 100644
--- a/vllm/v1/structured_output/__init__.py
+++ b/vllm/v1/structured_output/__init__.py
@@ -7,16 +7,23 @@ from typing import TYPE_CHECKING, Optional
 
 from vllm.config import VllmConfig
 from vllm.logger import init_logger
+from vllm.reasoning import ReasoningParserManager
+from vllm.transformers_utils.tokenizer_group import init_tokenizer_from_configs
+from vllm.utils import LazyLoader
 from vllm.v1.structured_output.backend_guidance import GuidanceBackend
 from vllm.v1.structured_output.backend_types import (StructuredOutputBackend,
                                                      StructuredOutputGrammar)
+from vllm.v1.structured_output.backend_xgrammar import XgrammarBackend
 
 if TYPE_CHECKING:
     import numpy as np
     import numpy.typing as npt
     import torch
 
+    from vllm.reasoning import ReasoningParser
     from vllm.v1.request import Request
+else:
+    torch = LazyLoader("torch", globals(), "torch")
 
 logger = init_logger(__name__)
 
@@ -26,9 +33,11 @@ class StructuredOutputManager:
 
     def __init__(self, vllm_config: VllmConfig):
         self.backend: Optional[StructuredOutputBackend] = None
+        self.reasoner: Optional[ReasoningParser] = None
         self.vllm_config = vllm_config
 
         self._grammar_bitmask: Optional[torch.Tensor] = None
+        self._full_mask = torch.tensor(-1, dtype=torch.int32)
 
         # The default max_workers if not specified is the number of CPUs * 5,
         # which is way too high since these tasks are CPU-bound, not I/O bound.
@@ -36,24 +45,43 @@ class StructuredOutputManager:
         # compilation, so we set it to half the number of CPUs.
         max_workers = max(1, (multiprocessing.cpu_count() + 1) // 2)
         self.executor = ThreadPoolExecutor(max_workers=max_workers)
+        self.tokenizer = init_tokenizer_from_configs(
+            model_config=self.vllm_config.model_config,
+            scheduler_config=self.vllm_config.scheduler_config,
+            lora_config=self.vllm_config.lora_config,
+        ).get_lora_tokenizer(None)
+        reasoning_backend = vllm_config.decoding_config.reasoning_backend
+        if reasoning_backend:
+            reasoner_cls = ReasoningParserManager.get_reasoning_parser(
+                reasoning_backend)
+            self.reasoner = reasoner_cls(tokenizer=self.tokenizer)
 
     def grammar_init(self, request: Request) -> None:
         if request.structured_output_request is None:
             return
 
+        if TYPE_CHECKING:
+            assert request.sampling_params.guided_decoding is not None
+
         # Initialize the backend the first time it is needed.
         #
         # NOTE: We only support a single backend. We do NOT support different
         # backends on a per-request basis in V1 (for now, anyway...).
         if self.backend is None:
             backend = request.sampling_params.guided_decoding.backend
+            vocab_size = self.vllm_config.model_config.get_vocab_size()
             if backend == "xgrammar":
-                from vllm.v1.structured_output.backend_xgrammar import (
-                    XgrammarBackend)
-
-                self.backend = XgrammarBackend(self.vllm_config)
+                self.backend = XgrammarBackend(
+                    self.vllm_config,
+                    tokenizer=self.tokenizer,
+                    vocab_size=vocab_size,
+                )
             elif backend == "guidance":
-                self.backend = GuidanceBackend(self.vllm_config)
+                self.backend = GuidanceBackend(
+                    self.vllm_config,
+                    tokenizer=self.tokenizer,
+                    vocab_size=vocab_size,
+                )
             else:
                 raise ValueError(
                     f"Unsupported structured output backend: {backend}")
@@ -87,14 +115,14 @@ class StructuredOutputManager:
         if not structured_output_request_ids:
             return None
 
+        max_num_spec_tokens = 0
+        if self.vllm_config.speculative_config is not None:
+            max_num_spec_tokens = \
+                self.vllm_config.speculative_config.num_speculative_tokens
+
         if self._grammar_bitmask is None:
             assert self.backend is not None
             max_batch_size = self.vllm_config.scheduler_config.max_num_seqs
-            if self.vllm_config.speculative_config is not None:
-                max_num_spec_tokens = self.vllm_config.\
-                    speculative_config.num_speculative_tokens
-            else:
-                max_num_spec_tokens = 0
 
             # Allocate a bitmask for each token needing to be checked:
             # one for each speculative position, and one more for the
@@ -103,6 +131,7 @@ class StructuredOutputManager:
                 self.backend.allocate_token_bitmask(
                     max_batch_size * (1 + max_num_spec_tokens))
 
+        bitmask_tensor = self._grammar_bitmask
         # Generate a batched bitmask for all structured output requests.
         # When speculative decoding is enabled, we need to include multiple
         # masks for each request, one for each possible bonus token position.
@@ -110,16 +139,30 @@ class StructuredOutputManager:
         cumulative_index = 0
         ordered_seq = sorted(structured_output_request_ids.items(),
                              key=lambda x: x[1])
+
+        # Note that for thinking support, we will need to
+        # reset the relevant part of the bitmask for consequent
+        # request here.
+        bitmask_tensor[:(len(ordered_seq) * (1 + max_num_spec_tokens))].fill_(
+            self._full_mask)
+
         # NOTE: This outer loop can likely be parallelized to improve
         # performance of bitmask generation for large batches.
         for req_id, _ in ordered_seq:
             request = requests[req_id].structured_output_request
-            assert request is not None and request.grammar is not None
+            if TYPE_CHECKING:
+                assert request is not None
+                assert request.grammar is not None
+
+            apply_bitmask = (
+                request.reasoning_ended if self.reasoner is not None else True
+            )  # noqa: E501
+
             state_advancements = 0
             req_tokens = scheduled_spec_decode_tokens.get(req_id, []) + [None]
             for i, token in enumerate(req_tokens):
-                if not request.grammar.is_terminated():
-                    request.grammar.fill_bitmask(self._grammar_bitmask,
+                if apply_bitmask and not request.grammar.is_terminated():
+                    request.grammar.fill_bitmask(bitmask_tensor,
                                                  cumulative_index)
                     if token is not None:
                         # In order to generate the correct bitmask for each
@@ -132,15 +175,41 @@ class StructuredOutputManager:
             if state_advancements > 0:
                 request.grammar.rollback(state_advancements)
 
-        bitmask_tensor = self._grammar_bitmask
-        if cumulative_index < self._grammar_bitmask.shape[0]:
-            bitmask_tensor = self._grammar_bitmask[:cumulative_index]
+        if cumulative_index < bitmask_tensor.shape[0]:
+            bitmask_tensor = bitmask_tensor[:cumulative_index]
 
         # After finishing with the xgrammar operations, we convert to
         # np.ndarray, because that is much more efficient for serialization
         # and deserialization when sending this to the GPU workers.
         return bitmask_tensor.numpy()
 
+    def should_advance(self, request: Request) -> bool:
+        if not request.use_structured_output:
+            return False
+
+        # To determine whether we can advance the FSM.
+        # Supports thinking usage where we skip the reasoning components.
+        if TYPE_CHECKING:
+            assert request.structured_output_request is not None
+            assert request.structured_output_request.grammar is not None
+        # by default, we should always advance
+        # for cases that doesn't uses thinking mode.
+        if self.reasoner is not None:
+            structured_req = request.structured_output_request
+
+            if structured_req.reasoning_ended:
+                return True
+
+            # Check if reasoning ends in *this* step
+            if self.reasoner.is_reasoning_end(request.all_token_ids):
+                # Reasoning just ended, so we shouldn't advanced til
+                # next pass
+                structured_req.reasoning_ended = True
+
+            return False
+        else:
+            return True
+
     def clear_backend(self) -> None:
         if self.backend is not None:
             self.backend.destroy()
diff --git a/vllm/v1/structured_output/backend_guidance.py b/vllm/v1/structured_output/backend_guidance.py
index 0ab175e78..55c5f6090 100644
--- a/vllm/v1/structured_output/backend_guidance.py
+++ b/vllm/v1/structured_output/backend_guidance.py
@@ -1,5 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
+from __future__ import annotations
+
 import copy
 import json
 import os
@@ -8,10 +10,8 @@ from typing import TYPE_CHECKING, Any, Optional, Union
 
 import torch
 
-from vllm.config import VllmConfig
 from vllm.logger import init_logger
 from vllm.sampling_params import SamplingParams
-from vllm.transformers_utils.tokenizer_group import init_tokenizer_from_configs
 from vllm.utils import LazyLoader
 from vllm.v1.structured_output.backend_types import (StructuredOutputBackend,
                                                      StructuredOutputGrammar,
@@ -54,25 +54,17 @@ def process_for_additional_properties(
     return guide_json_obj
 
 
+@dataclass
 class GuidanceBackend(StructuredOutputBackend):
 
-    def __init__(self, vllm_config: VllmConfig):
-        self.vllm_config = vllm_config
-        tokenizer_group = init_tokenizer_from_configs(
-            model_config=vllm_config.model_config,
-            scheduler_config=vllm_config.scheduler_config,
-            lora_config=vllm_config.lora_config)  # type: ignore[arg-type]
-        self.vllm_config = vllm_config
-        self.vocab_size = vllm_config.model_config.get_vocab_size()
-
+    def __post_init__(self):
         self.disable_any_whitespace = \
-            vllm_config.decoding_config.disable_any_whitespace
+            self.vllm_config.decoding_config.disable_any_whitespace
         self.disable_additional_properties = \
-            vllm_config.decoding_config.disable_additional_properties
+            self.vllm_config.decoding_config.disable_additional_properties
 
-        tokenizer = tokenizer_group.get_lora_tokenizer(None)
         self.ll_tokenizer = llguidance_hf.from_tokenizer(
-            tokenizer, self.vocab_size)
+            self.tokenizer, self.vocab_size)
 
     def compile_grammar(self, request_type: StructuredOutputOptions,
                         grammar_spec: str) -> StructuredOutputGrammar:
diff --git a/vllm/v1/structured_output/backend_types.py b/vllm/v1/structured_output/backend_types.py
index 33ca9f8cf..09f6cdf73 100644
--- a/vllm/v1/structured_output/backend_types.py
+++ b/vllm/v1/structured_output/backend_types.py
@@ -1,9 +1,17 @@
 # SPDX-License-Identifier: Apache-2.0
 
+from __future__ import annotations
+
 import enum
 from abc import ABC, abstractmethod
+from dataclasses import dataclass
+from typing import TYPE_CHECKING
+
+if TYPE_CHECKING:
+    import torch
 
-import torch
+    from vllm.config import VllmConfig
+    from vllm.transformers_utils.tokenizer import AnyTokenizer
 
 
 class StructuredOutputOptions(enum.Enum):
@@ -85,9 +93,14 @@ class StructuredOutputGrammar(ABC):
         """
 
 
+@dataclass
 class StructuredOutputBackend(ABC):
     """Engine-level backend for structured output requests."""
 
+    vllm_config: VllmConfig
+    tokenizer: AnyTokenizer
+    vocab_size: int
+
     @abstractmethod
     def compile_grammar(self, request_type: StructuredOutputOptions,
                         grammar_spec: str) -> StructuredOutputGrammar:
@@ -104,7 +117,7 @@ class StructuredOutputBackend(ABC):
         """
 
     @abstractmethod
-    def allocate_token_bitmask(self, max_num_seqs: int):
+    def allocate_token_bitmask(self, max_num_seqs: int) -> torch.Tensor:
         """
         Allocates a token bitmask for the specified maximum number of sequences.
 
diff --git a/vllm/v1/structured_output/backend_xgrammar.py b/vllm/v1/structured_output/backend_xgrammar.py
index 2ce2be337..f2570221d 100644
--- a/vllm/v1/structured_output/backend_xgrammar.py
+++ b/vllm/v1/structured_output/backend_xgrammar.py
@@ -1,5 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
+from __future__ import annotations
+
 import json
 from dataclasses import dataclass, field
 from typing import TYPE_CHECKING, Any
@@ -7,10 +9,8 @@ from typing import TYPE_CHECKING, Any
 import torch
 
 import vllm.envs
-from vllm.config import VllmConfig
 from vllm.logger import init_logger
 from vllm.sampling_params import SamplingParams
-from vllm.transformers_utils.tokenizer_group import init_tokenizer_from_configs
 from vllm.transformers_utils.tokenizers.mistral import MistralTokenizer
 from vllm.utils import LazyLoader
 from vllm.v1.structured_output.backend_types import (StructuredOutputBackend,
@@ -28,61 +28,49 @@ else:
 logger = init_logger(__name__)
 
 
+@dataclass
 class XgrammarBackend(StructuredOutputBackend):
 
-    def __init__(self, vllm_config: VllmConfig):
-        self.vllm_config = vllm_config
-        tokenizer_group = init_tokenizer_from_configs(
-            model_config=vllm_config.model_config,
-            scheduler_config=vllm_config.scheduler_config,
-            lora_config=vllm_config.lora_config)  # type: ignore[arg-type]
-
+    def __post_init__(self):
         self.disable_any_whitespace = \
-            vllm_config.decoding_config.disable_any_whitespace
+            self.vllm_config.decoding_config.disable_any_whitespace
 
-        self.num_speculative_tokens = 0
-        if self.vllm_config.speculative_config is not None:
-            self.num_speculative_tokens = \
-                self.vllm_config.speculative_config.num_speculative_tokens
-
-        tokenizer = tokenizer_group.get_lora_tokenizer(None)
-        self.vocab_size = vllm_config.model_config.get_vocab_size()
-        if isinstance(tokenizer, MistralTokenizer):
+        if isinstance(self.tokenizer, MistralTokenizer):
             # NOTE: ideally, xgrammar should handle this accordingly.
             # refer to https://github.com/mlc-ai/xgrammar/blob/d77c0a0173ef14779c918e3be7966ba852f7910f/python/xgrammar/tokenizer_info.py#L98
             try:
-                if tokenizer.is_tekken:
-                    encoded_vocab = tokenizer._vocab
+                if self.tokenizer.is_tekken:
+                    encoded_vocab = self.tokenizer._vocab
                 else:
                     encoded_vocab = [
                         token for token, _ in sorted(
-                            tokenizer.get_vocab().items(),
+                            self.tokenizer.get_vocab().items(),
                             key=lambda x: x[1],
                         )
                     ]
                 stop_token_ids = None
-                if hasattr(
-                        tokenizer,
+                if (hasattr(
+                        self.tokenizer,
                         "eos_token_id",
-                ) and tokenizer.eos_token_id is not None:
-                    stop_token_ids = [tokenizer.eos_token_id]
+                ) and self.tokenizer.eos_token_id is not None):
+                    stop_token_ids = [self.tokenizer.eos_token_id]
             except AttributeError as e:
                 raise ValueError(
                     f"Cannot get the vocabulary of the tokenizer "
-                    f"{type(tokenizer)}. The tokenizer should have a "
+                    f"{type(self.tokenizer)}. The tokenizer should have a "
                     "get_vocab method.") from e
             tokenizer_info = xgr.TokenizerInfo(  # type: ignore
                 encoded_vocab=encoded_vocab,
                 # NOTE: https://github.com/mlc-ai/xgrammar/blob/5e141f6ff1ca02bc31f9e512e68b61f2a8ae88e5/tests/python/test_tokenizer_info.py#L43 # noqa: E501
                 vocab_type=xgr.VocabType.RAW
-                if tokenizer.is_tekken else xgr.VocabType.BYTE_FALLBACK,
+                if self.tokenizer.is_tekken else xgr.VocabType.BYTE_FALLBACK,
                 vocab_size=self.vocab_size,
                 stop_token_ids=stop_token_ids,
                 add_prefix_space=True,
             )
         else:
             tokenizer_info = xgr.TokenizerInfo.from_huggingface(
-                tokenizer,
+                self.tokenizer,
                 vocab_size=self.vocab_size,
             )
         self.compiler = xgr.GrammarCompiler(
@@ -92,6 +80,11 @@ class XgrammarBackend(StructuredOutputBackend):
             cache_limit_bytes=vllm.envs.VLLM_XGRAMMAR_CACHE_MB * 1024 * 1024,
         )
 
+        self.num_speculative_tokens = 0
+        if self.vllm_config.speculative_config is not None:
+            self.num_speculative_tokens = \
+                self.vllm_config.speculative_config.num_speculative_tokens
+
     def compile_grammar(self, request_type: StructuredOutputOptions,
                         grammar_spec: str) -> StructuredOutputGrammar:
         if request_type == StructuredOutputOptions.JSON:
diff --git a/vllm/v1/structured_output/request.py b/vllm/v1/structured_output/request.py
index 6ef472eb8..c16320b9e 100644
--- a/vllm/v1/structured_output/request.py
+++ b/vllm/v1/structured_output/request.py
@@ -20,6 +20,7 @@ class StructuredOutputRequest:
     sampling_params: SamplingParams
     _grammar: Optional[Union[Future[StructuredOutputGrammar],
                              StructuredOutputGrammar]] = None
+    reasoning_ended: bool = False
 
     def _check_grammar_completion(self) -> bool:
         # NOTE: We have to lazy import to gate circular imports
-- 
GitLab


From 7974736740aee195e454eb989cd9112577bc8652 Mon Sep 17 00:00:00 2001
From: Jerry Zhang <jerryzh168@gmail.com>
Date: Wed, 14 May 2025 16:24:59 -0700
Subject: [PATCH 379/461] Add support for loading torchao models with
 `AOPerModuleConfig` (#17826)

Signed-off-by: Jerry Zhang <jerryzh168@gmail.com>
---
 tests/quantization/test_torchao.py            | 18 ++++++++++--
 .../layers/quantization/torchao.py            | 29 ++++++++++++++-----
 2 files changed, 37 insertions(+), 10 deletions(-)

diff --git a/tests/quantization/test_torchao.py b/tests/quantization/test_torchao.py
index 1a2022876..6571fc9e4 100644
--- a/tests/quantization/test_torchao.py
+++ b/tests/quantization/test_torchao.py
@@ -31,9 +31,6 @@ def test_pre_quantized_model(vllm_runner):
     ])
 def test_opt_125m_int4wo_model_loading_with_params(vllm_runner,
                                                    pt_load_map_location):
-    """
-    Test loading roberta-base model with no lm_head.
-    """
     torch._dynamo.reset()
     model_name = "jerryzh168/opt-125m-int4wo"
     with vllm_runner(model_name=model_name,
@@ -47,5 +44,20 @@ def test_opt_125m_int4wo_model_loading_with_params(vllm_runner,
         print(output)
 
 
+@pytest.mark.skipif(not TORCHAO_AVAILABLE, reason="torchao is not available")
+def test_opt_125m_int4wo_model_per_module_quant(vllm_runner):
+    torch._dynamo.reset()
+    model_name = "jerryzh168/opt-125m-int4wo-per-module"
+    with vllm_runner(model_name=model_name,
+                     quantization="torchao",
+                     dtype="bfloat16",
+                     pt_load_map_location="cuda:0") as llm:
+        output = llm.generate_greedy(["The capital of France is"],
+                                     max_tokens=32)
+
+        assert output
+        print(output)
+
+
 if __name__ == "__main__":
     pytest.main([__file__])
diff --git a/vllm/model_executor/layers/quantization/torchao.py b/vllm/model_executor/layers/quantization/torchao.py
index 9b60775df..7f9f3e643 100644
--- a/vllm/model_executor/layers/quantization/torchao.py
+++ b/vllm/model_executor/layers/quantization/torchao.py
@@ -5,10 +5,11 @@ import torch
 import torch.nn.functional as F
 from torch.nn.parameter import Parameter
 
-from vllm.model_executor.layers.linear import LinearBase, LinearMethodBase
+from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
+                                               UnquantizedLinearMethod)
 from vllm.model_executor.layers.quantization import QuantizationMethods
 from vllm.model_executor.layers.quantization.base_config import (
-    QuantizationConfig)
+    QuantizationConfig, QuantizeMethodBase)
 from vllm.model_executor.utils import set_weight_attrs
 
 
@@ -55,10 +56,24 @@ class TorchAOConfig(QuantizationConfig):
         return cls(ao_config)
 
     def get_quant_method(self, layer: torch.nn.Module,
-                         prefix: str) -> Optional["TorchAOLinearMethod"]:
-        if isinstance(layer, LinearBase):
-            return TorchAOLinearMethod(self)
-        return None
+                         prefix: str) -> Optional["QuantizeMethodBase"]:
+        if not isinstance(layer, LinearBase):
+            return None
+
+        from torchao.quantization import AOPerModuleConfig
+
+        module_fqn = prefix
+        if isinstance(self.torchao_config, AOPerModuleConfig):
+            module_fqn_to_config = self.torchao_config.module_fqn_to_config
+            c = module_fqn_to_config.get(
+                module_fqn) or module_fqn_to_config.get("_default", None)
+            if c is not None:
+                current_torchao_config = TorchAOConfig(c)
+                return TorchAOLinearMethod(current_torchao_config)
+            else:
+                return UnquantizedLinearMethod()
+
+        return TorchAOLinearMethod(self)
 
     def get_scaled_act_names(self) -> list[str]:
         return []
@@ -75,7 +90,7 @@ def torchao_quantize_param_data(param: torch.Tensor,
     """
     from torchao.core.config import AOBaseConfig
     from torchao.quantization import quantize_
-    assert isinstance(torchao_config, AOBaseConfig)
+    assert isinstance(torchao_config, AOBaseConfig), f"{torchao_config}"
     dummy_linear = torch.nn.Linear(param.shape[1], param.shape[0], bias=False)
     dummy_linear.weight = param
     quantize_(dummy_linear, torchao_config)
-- 
GitLab


From 78aa341d124e4e2162defdabde8e8b0a97ffb79d Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Wed, 14 May 2025 19:27:48 -0400
Subject: [PATCH 380/461] [CI] Fix race condition in test_kv_cache_events test
 (#18169)

Signed-off-by: Russell Bryant <rbryant@redhat.com>
---
 tests/v1/engine/test_engine_core_client.py | 1 -
 vllm/distributed/kv_events.py              | 2 +-
 2 files changed, 1 insertion(+), 2 deletions(-)

diff --git a/tests/v1/engine/test_engine_core_client.py b/tests/v1/engine/test_engine_core_client.py
index 671d74b83..71ebd0a36 100644
--- a/tests/v1/engine/test_engine_core_client.py
+++ b/tests/v1/engine/test_engine_core_client.py
@@ -292,7 +292,6 @@ def test_kv_cache_events(
             log_stats=False,
         )
         endpoint = publisher_config.endpoint.replace("*", "127.0.0.1")
-        time.sleep(0.1)
         subscriber = MockSubscriber(endpoint,
                                     topic=publisher_config.topic,
                                     decode_type=KVEventBatch)
diff --git a/vllm/distributed/kv_events.py b/vllm/distributed/kv_events.py
index 1141a8e53..29c6a70c4 100644
--- a/vllm/distributed/kv_events.py
+++ b/vllm/distributed/kv_events.py
@@ -130,6 +130,7 @@ class ZmqEventPublisher(EventPublisher):
         self._endpoint = endpoint
         self._replay_endpoint = replay_endpoint
         self._hwm = hwm
+        self._socket_setup()
 
         # Payload
         self._seq_gen = count()
@@ -207,7 +208,6 @@ class ZmqEventPublisher(EventPublisher):
     def _publisher_thread(self) -> None:
         """Background thread that processes the event queue."""
         self._pack = msgspec.msgpack.Encoder()
-        self._socket_setup()
 
         assert self._pub is not None  # narrows type for mypy
 
-- 
GitLab


From 2142035b51795d69d7434ce74e7aad746a2bab7a Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Wed, 14 May 2025 19:28:02 -0400
Subject: [PATCH 381/461] [V1] Support multiple kv connectors (#17564)

Signed-off-by: mgoin <mgoin64@gmail.com>
Signed-off-by: Nick Hill <nhill@redhat.com>
Co-authored-by: Nick Hill <nhill@redhat.com>
---
 .../kv_connector/unit/test_multi_connector.py | 241 ++++++++++++++++++
 .../kv_transfer/kv_connector/factory.py       |   5 +
 .../kv_transfer/kv_connector/v1/base.py       |   2 -
 .../kv_connector/v1/multi_connector.py        | 178 +++++++++++++
 4 files changed, 424 insertions(+), 2 deletions(-)
 create mode 100644 tests/v1/kv_connector/unit/test_multi_connector.py
 create mode 100644 vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py

diff --git a/tests/v1/kv_connector/unit/test_multi_connector.py b/tests/v1/kv_connector/unit/test_multi_connector.py
new file mode 100644
index 000000000..64da0d79b
--- /dev/null
+++ b/tests/v1/kv_connector/unit/test_multi_connector.py
@@ -0,0 +1,241 @@
+# SPDX-License-Identifier: Apache-2.0
+import filecmp
+import shutil
+import tempfile
+from collections import defaultdict
+from pathlib import Path
+
+from vllm import LLM, SamplingParams
+from vllm.config import KVTransferConfig, VllmConfig
+from vllm.distributed.kv_transfer.kv_connector.factory import (
+    KVConnectorFactory)
+from vllm.distributed.kv_transfer.kv_connector.v1.shared_storage_connector import (  # noqa
+    SharedStorageConnector)
+
+MODEL_NAME = "meta-llama/Llama-3.2-1B-Instruct"
+
+PROMPT_CONTEXT = "Hi " * 100
+PROMPTS = [
+    PROMPT_CONTEXT + "Hello, my name is",
+    PROMPT_CONTEXT + "The capital of France is",
+]
+
+SAMPLING_PARAMS = SamplingParams(temperature=0, max_tokens=20)
+
+
+class TestSharedStorageConnector(SharedStorageConnector):
+
+    def __init__(self, config: VllmConfig, role):
+        self.name = config.kv_transfer_config.kv_connector_extra_config["name"]
+        self._connector = SharedStorageConnector(config, role)
+        self.call_record: dict[str, int] = defaultdict(int)
+        # Use a unique temp file per connector
+        self._event_file = tempfile.gettempdir(
+        ) + f"/connector_{self.name}_events.log"
+        # Start with an empty file
+        with open(self._event_file, "w") as _:
+            pass
+
+    def __getattribute__(self, name):
+        if name in ("_connector", "call_record", "name", "_event_file",
+                    "__class__", "__dict__", "__getattribute__",
+                    "__init__"):  # avoid recursion
+            return object.__getattribute__(self, name)
+        if not hasattr(self._connector, name):
+            return object.__getattribute__(self, name)
+        attr = getattr(self._connector, name)
+
+        # Intercept calls to the connector interface and write an event
+        # for each one to a file, which can be read back in the main test proc.
+        if callable(attr):
+
+            def wrapper(*args, **kwargs):
+                self.call_record[name] += 1
+                # Log the event as a line to the file
+                try:
+                    with open(self._event_file, "a") as f:
+                        f.write(name + "\n")
+                except Exception as e:
+                    print(f"[ERROR] Could not log event {name} "
+                          f"for {self.name}: {e}")
+                return attr(*args, **kwargs)
+
+            return wrapper
+        return attr
+
+
+KVConnectorFactory.register_connector("TestSharedStorageConnector",
+                                      TestSharedStorageConnector.__module__,
+                                      TestSharedStorageConnector.__name__)
+
+
+# Helper function to compare directories recursively
+def _compare_directories(dir1: Path, dir2: Path) -> bool:
+    """Compares two directories recursively for identical content."""
+    dcmp = filecmp.dircmp(dir1, dir2)
+    if dcmp.left_only or dcmp.right_only or dcmp.diff_files:
+        print(f"Differences found between {dir1} and {dir2}:")
+        print(f"  Left only: {dcmp.left_only}")
+        print(f"  Right only: {dcmp.right_only}")
+        print(f"  Different files: {dcmp.diff_files}")
+        return False
+    for sub_dir in dcmp.common_dirs:
+        if not _compare_directories(dir1 / sub_dir, dir2 / sub_dir):
+            return False
+    return True
+
+
+def test_multi_shared_storage_connector_consistency():
+    """
+    Tests that MultiConnector with two SharedStorageConnectors saves
+    identical KV cache data to separate storage locations.
+    """
+    storage_1_path = Path("storage_1/")
+    storage_2_path = Path("storage_2/")
+    shutil.rmtree(storage_1_path, ignore_errors=True)
+    shutil.rmtree(storage_2_path, ignore_errors=True)
+    storage_1_path.mkdir()
+    storage_2_path.mkdir()
+
+    # Configure MultiConnector with two SharedStorageConnectors
+    kv_transfer_config = KVTransferConfig(
+        kv_connector="MultiConnector",
+        kv_role="kv_both",
+        kv_connector_extra_config={
+            "connectors": [{
+                "kv_connector": "TestSharedStorageConnector",
+                "kv_role": "kv_both",
+                "kv_connector_extra_config": {
+                    "shared_storage_path": str(storage_1_path),
+                    "name": "storage1",
+                }
+            }, {
+                "kv_connector": "TestSharedStorageConnector",
+                "kv_role": "kv_both",
+                "kv_connector_extra_config": {
+                    "shared_storage_path": str(storage_2_path),
+                    "name": "storage2",
+                }
+            }]
+        },
+    )
+
+    llm = LLM(
+        model=MODEL_NAME,
+        enforce_eager=True,
+        gpu_memory_utilization=0.5,
+        kv_transfer_config=kv_transfer_config,
+    )
+    # Run generation - this should trigger saving KV cache
+    _ = llm.generate(PROMPTS, SAMPLING_PARAMS)
+
+    # --- Verification ---
+
+    # Check that both storage directories were populated
+    local_subdirs = list(storage_1_path.iterdir())
+    external_subdirs = list(storage_2_path.iterdir())
+
+    assert len(
+        local_subdirs
+    ) > 0, f"Local storage path {storage_1_path} is empty after generation."
+    assert len(external_subdirs) > 0, (
+        f"External storage path {storage_2_path} is empty after generation.")
+    assert len(local_subdirs) == len(external_subdirs), (
+        f"Mismatch in number of cache entries: "
+        f"Local={len(local_subdirs)}, External={len(external_subdirs)}")
+
+    # The subdirectories should correspond to the prompt hashes
+    # Since prompts are the same, the hash directories should be the same name
+    local_subdir_names = sorted([d.name for d in local_subdirs])
+    external_subdir_names = sorted([d.name for d in external_subdirs])
+    assert local_subdir_names == external_subdir_names, (
+        "Cache directory names do not match between local and external storage"
+    )
+
+    # Compare the contents of each corresponding cache directory
+    for subdir_name in local_subdir_names:
+        print(f"Comparing contents of cache directory: {subdir_name}")
+        assert _compare_directories(storage_1_path / subdir_name,
+                                    storage_2_path / subdir_name), \
+            (f"Contents differ for cache directory '{subdir_name}' between "
+             f"{storage_1_path} and {storage_2_path}")
+
+    events = get_connector_events()
+    # get_num_new_matched_tokens will be called on each connector in turn.
+    # neither of them have hits so update_state_after_alloc won't be called.
+    assert events["storage1"][:3] == [
+        'get_num_new_matched_tokens', 'build_connector_meta',
+        'bind_connector_metadata'
+    ]
+    assert events["storage2"][:3] == [
+        'get_num_new_matched_tokens', 'build_connector_meta',
+        'bind_connector_metadata'
+    ]
+
+    # Reset prefix cache or else we'll just get the tokens back from there.
+    llm.reset_prefix_cache()
+
+    # Run generation again - this should trigger loading from the first
+    # connector.
+    _ = llm.generate(PROMPTS, SAMPLING_PARAMS)
+
+    events = get_connector_events()
+    # get_num_new_matched_tokens will return new tokens from the first
+    # connector so update_state_after_alloc will be called once blocks
+    # are allocated for the first connector.
+    # get_num_new_matched_tokens *won't* be called on the second connector
+    # in this case.
+    assert events["storage1"][:4] == [
+        'get_num_new_matched_tokens', 'update_state_after_alloc',
+        'build_connector_meta', 'bind_connector_metadata'
+    ]
+    assert events["storage2"][:2] == [
+        'build_connector_meta', 'bind_connector_metadata'
+    ]
+
+    # Delete storage1 connector state
+    shutil.rmtree(storage_1_path)
+
+    # Reset prefix cache or else we'll just get the tokens back from there.
+    llm.reset_prefix_cache()
+
+    # Run generation again - this should trigger loading from the first
+    # connector.
+    _ = llm.generate(PROMPTS, SAMPLING_PARAMS)
+
+    events = get_connector_events()
+    # get_num_new_matched_tokens will be called for the first connector but it
+    # won't have a hit so update_state_after_alloc won't be called.
+    # get_num_new_matched_tokens will also be called on the second connector,
+    # but it should have a hit so update_state_after_alloc will be called.
+    assert events["storage1"][:3] == [
+        'get_num_new_matched_tokens', 'build_connector_meta',
+        'bind_connector_metadata'
+    ]
+    assert events["storage2"][:4] == [
+        'get_num_new_matched_tokens', 'update_state_after_alloc',
+        'build_connector_meta', 'bind_connector_metadata'
+    ]
+
+    # Clean up
+    shutil.rmtree(storage_1_path)
+    shutil.rmtree(storage_2_path)
+
+
+def get_connector_events() -> dict[str, list[str]]:
+    # Read in connector events and reset the files.
+    import glob
+    event_files = glob.glob(tempfile.gettempdir() + "/connector_*_events.log")
+    connector_events = {}
+    for fname in event_files:
+        name = fname.split("connector_")[1].split("_events.log")[0]
+        try:
+            with open(fname, "r+") as f:
+                connector_events[name] = [
+                    line.strip() for line in f if line.strip()
+                ]
+                f.truncate(0)
+        except Exception as e:
+            print(f"[ERROR] Could not read connector events for {name}: {e}")
+
+    return connector_events
diff --git a/vllm/distributed/kv_transfer/kv_connector/factory.py b/vllm/distributed/kv_transfer/kv_connector/factory.py
index 6766d5a24..f998f5dd7 100644
--- a/vllm/distributed/kv_transfer/kv_connector/factory.py
+++ b/vllm/distributed/kv_transfer/kv_connector/factory.py
@@ -110,3 +110,8 @@ KVConnectorFactory.register_connector(
     "NixlConnector",
     "vllm.distributed.kv_transfer.kv_connector.v1.nixl_connector",
     "NixlConnector")
+
+KVConnectorFactory.register_connector(
+    "MultiConnector",
+    "vllm.distributed.kv_transfer.kv_connector.v1.multi_connector",
+    "MultiConnector")
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/base.py b/vllm/distributed/kv_transfer/kv_connector/v1/base.py
index 03c99f20e..9fdb5340f 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/base.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/base.py
@@ -22,7 +22,6 @@ The class provides the following primitives:
 
 import enum
 from abc import ABC, abstractmethod
-from dataclasses import dataclass
 from typing import TYPE_CHECKING, Any, Optional
 
 import torch
@@ -48,7 +47,6 @@ class KVConnectorRole(enum.Enum):
     WORKER = 1
 
 
-@dataclass
 class KVConnectorMetadata:
     """
     Abstract Metadata used to communicate between the
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py
new file mode 100644
index 000000000..cc4a7fbad
--- /dev/null
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py
@@ -0,0 +1,178 @@
+# SPDX-License-Identifier: Apache-2.0
+import copy
+from typing import TYPE_CHECKING, Any, Optional
+
+import torch
+
+from vllm.config import KVTransferConfig, VllmConfig
+from vllm.distributed.kv_transfer.kv_connector.factory import (
+    KVConnectorFactory)
+from vllm.distributed.kv_transfer.kv_connector.v1.base import (
+    KVConnectorBase_V1, KVConnectorMetadata, KVConnectorRole)
+from vllm.logger import init_logger
+from vllm.v1.core.sched.output import SchedulerOutput
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionMetadata
+    from vllm.forward_context import ForwardContext
+    from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.request import Request
+
+logger = init_logger(__name__)
+
+
+class MultiKVConnectorMetadata(tuple[KVConnectorMetadata, ...],
+                               KVConnectorMetadata):
+    pass
+
+
+class MultiConnector(KVConnectorBase_V1):
+    """
+    A wrapper for using multiple KVConnectors at the same time.
+
+    The current logic is:
+    - Load KV from the first connector that advertises available tokens from
+      get_num_new_matched_tokens(), based on the order in the config.
+    - Save to all connectors.
+    """
+
+    def __init__(self, vllm_config: "VllmConfig", role: KVConnectorRole):
+        super().__init__(vllm_config=vllm_config, role=role)
+        self._connectors = []
+        ktcs = vllm_config.kv_transfer_config.kv_connector_extra_config.get(
+            "connectors")
+        assert ktcs is not None
+        for ktc in ktcs:
+            temp_config = copy.copy(vllm_config)
+            temp_config.kv_transfer_config = KVTransferConfig(**ktc)
+            self._connectors.append(
+                KVConnectorFactory.create_connector_v1(temp_config, role))
+
+        # A mapping from request id to the connector that is assigned to it.
+        self._requests_to_connector: dict[str, KVConnectorBase_V1] = {}
+
+        # Keeps track of *additional* remaining async saves (beyond 1) to be
+        # finished per request. Not needed for async loads since we only allow
+        # a single connector to load.
+        self._extra_async_saves: dict[str, int] = {}
+
+    def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
+        for c in self._connectors:
+            c.register_kv_caches(kv_caches)
+
+    # We must override the base class method here because we need to bind
+    # the metadata to each connector in the order of the connectors in the
+    # MultiKVConnectorMetadata.
+    def bind_connector_metadata(
+            self, connector_metadata: KVConnectorMetadata) -> None:
+        assert isinstance(connector_metadata, MultiKVConnectorMetadata)
+        for c, cm in zip(self._connectors, connector_metadata):
+            c.bind_connector_metadata(cm)
+
+    def clear_connector_metadata(self) -> None:
+        for c in self._connectors:
+            c.clear_connector_metadata()
+
+    # ==============================
+    # Worker-side methods
+    # ==============================
+    def start_load_kv(self, forward_context: "ForwardContext",
+                      **kwargs) -> None:
+        for c in self._connectors:
+            c.start_load_kv(forward_context, **kwargs)
+
+    def wait_for_layer_load(self, layer_name: str) -> None:
+        for c in self._connectors:
+            c.wait_for_layer_load(layer_name)
+
+    def save_kv_layer(self, layer_name: str, kv_layer: torch.Tensor,
+                      attn_metadata: "AttentionMetadata", **kwargs) -> None:
+        for c in self._connectors:
+            c.save_kv_layer(layer_name, kv_layer, attn_metadata, **kwargs)
+
+    def wait_for_save(self):
+        for c in self._connectors:
+            c.wait_for_save()
+
+    def get_finished(
+        self, finished_req_ids: set[str]
+    ) -> tuple[Optional[set[str]], Optional[set[str]]]:
+        finished_recving: set[str] = set()
+        finished_sending: set[str] = set()
+        for c in self._connectors:
+            recving, sending = c.get_finished(finished_req_ids)
+            if not recving and not sending:
+                continue
+            # Aggregate finished recving request ids.
+            finished_recving.update(recving or ())
+            # Aggregate finished sending request ids - only include
+            # once we've drained the "extra" count (for cases where
+            # more than one connector is async-saving the same request).
+            for req_id in sending or ():
+                extra_pending = self._extra_async_saves.get(req_id)
+                if extra_pending is None:
+                    finished_sending.add(req_id)
+                    continue
+                assert extra_pending > 0
+                if extra_pending == 1:
+                    del self._extra_async_saves[req_id]
+                else:
+                    self._extra_async_saves[req_id] = extra_pending - 1
+
+        return finished_recving or None, finished_sending or None
+
+    # ==============================
+    # Scheduler-side methods
+    # ==============================
+    def get_num_new_matched_tokens(
+        self,
+        request: "Request",
+        num_computed_tokens: int,
+    ) -> tuple[int, bool]:
+        for c in self._connectors:
+            toks, load_async = c.get_num_new_matched_tokens(
+                request, num_computed_tokens)
+            # The first connector that has new matched tokens will be assigned
+            # to this request.
+            if toks > 0:
+                self._requests_to_connector[request.request_id] = c
+                return toks, load_async
+        return 0, False
+
+    def update_state_after_alloc(self, request: "Request",
+                                 blocks: "KVCacheBlocks",
+                                 num_external_tokens: int):
+        # If the request is not assigned to any connector, we do nothing.
+        if request.request_id not in self._requests_to_connector:
+            return
+        # We assume that the request is assigned to only one connector.
+        c = self._requests_to_connector.pop(request.request_id)
+        c.update_state_after_alloc(request, blocks, num_external_tokens)
+
+    def build_connector_meta(
+            self,
+            scheduler_output: SchedulerOutput) -> MultiKVConnectorMetadata:
+        return MultiKVConnectorMetadata(
+            c.build_connector_meta(scheduler_output) for c in self._connectors)
+
+    def request_finished(
+        self,
+        request: "Request",
+        blocks: "KVCacheBlocks",
+    ) -> tuple[bool, Optional[dict[str, Any]]]:
+        async_saves = 0
+        kv_txfer_params = None
+        for c in self._connectors:
+            async_save, txfer_params = c.request_finished(request, blocks)
+            if async_save:
+                async_saves += 1
+            if txfer_params is not None:
+                if kv_txfer_params is not None:
+                    #TODO we can probably change this to merge the dicts here,
+                    # checking for key clashes.
+                    raise RuntimeError(
+                        "Only one connector can produce KV transfer params")
+                kv_txfer_params = txfer_params
+        if async_saves > 1:
+            self._extra_async_saves[request.request_id] = async_saves - 1
+        return async_saves > 0, kv_txfer_params
-- 
GitLab


From 09f106a91e1a90f6d703571159a97db9783bb7f7 Mon Sep 17 00:00:00 2001
From: Andrey Talman <atalman@fb.com>
Date: Wed, 14 May 2025 16:35:56 -0700
Subject: [PATCH 382/461] Upload vllm index for the rc builds (#18173)

---
 .buildkite/scripts/upload-wheels.sh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/.buildkite/scripts/upload-wheels.sh b/.buildkite/scripts/upload-wheels.sh
index 75e3ef264..037897e53 100644
--- a/.buildkite/scripts/upload-wheels.sh
+++ b/.buildkite/scripts/upload-wheels.sh
@@ -75,3 +75,4 @@ else
 fi
 
 aws s3 cp "$wheel" "s3://vllm-wheels/$version/"
+aws s3 cp index.html "s3://vllm-wheels/$version/vllm/index.html"
-- 
GitLab


From f25e0d1125f873201ae880b50df46a9e3d29f3ba Mon Sep 17 00:00:00 2001
From: David Xia <david@davidxia.com>
Date: Wed, 14 May 2025 20:04:35 -0400
Subject: [PATCH 383/461] [Bugfix]: make most of `test_openai_schema.py` pass
 (#17664)

---
 vllm/entrypoints/openai/api_server.py         | 271 +++++++++++++++---
 vllm/entrypoints/openai/serving_chat.py       |   2 +-
 .../openai/serving_tokenization.py            |   2 +-
 3 files changed, 240 insertions(+), 35 deletions(-)

diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index 5b3df0fac..0ab6fcdca 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -17,8 +17,10 @@ from collections.abc import AsyncIterator
 from contextlib import asynccontextmanager
 from functools import partial
 from http import HTTPStatus
+from json import JSONDecodeError
 from typing import Annotated, Optional, Union
 
+import prometheus_client
 import uvloop
 from fastapi import APIRouter, Depends, FastAPI, Form, HTTPException, Request
 from fastapi.exceptions import RequestValidationError
@@ -305,15 +307,18 @@ async def validate_json_request(raw_request: Request):
     content_type = raw_request.headers.get("content-type", "").lower()
     media_type = content_type.split(";", maxsplit=1)[0]
     if media_type != "application/json":
-        raise HTTPException(
-            status_code=HTTPStatus.UNSUPPORTED_MEDIA_TYPE,
-            detail="Unsupported Media Type: Only 'application/json' is allowed"
-        )
+        raise RequestValidationError(errors=[
+            "Unsupported Media Type: Only 'application/json' is allowed"
+        ])
 
 
 router = APIRouter()
 
 
+class PrometheusResponse(Response):
+    media_type = prometheus_client.CONTENT_TYPE_LATEST
+
+
 def mount_metrics(app: FastAPI):
     # Lazy import for prometheus multiprocessing.
     # We need to set PROMETHEUS_MULTIPROC_DIR environment variable
@@ -332,6 +337,10 @@ def mount_metrics(app: FastAPI):
         registry = CollectorRegistry()
         multiprocess.MultiProcessCollector(registry)
 
+    # `response_class=PrometheusResponse` is needed to return an HTTP response
+    # with header "Content-Type: text/plain; version=0.0.4; charset=utf-8"
+    # instead of the default "application/json" which is incorrect.
+    # See https://github.com/trallnag/prometheus-fastapi-instrumentator/issues/163#issue-1296092364
     Instrumentator(
         excluded_handlers=[
             "/metrics",
@@ -342,7 +351,7 @@ def mount_metrics(app: FastAPI):
             "/server_info",
         ],
         registry=registry,
-    ).add().instrument(app).expose(app)
+    ).add().instrument(app).expose(app, response_class=PrometheusResponse)
 
     # Add prometheus asgi middleware to route /metrics requests
     metrics_route = Mount("/metrics", make_asgi_app(registry=registry))
@@ -401,11 +410,11 @@ def engine_client(request: Request) -> EngineClient:
     return request.app.state.engine_client
 
 
-@router.get("/health")
-async def health(raw_request: Request) -> JSONResponse:
+@router.get("/health", response_class=Response)
+async def health(raw_request: Request) -> Response:
     """Health check."""
     await engine_client(raw_request).check_health()
-    return JSONResponse(content={}, status_code=200)
+    return Response(status_code=200)
 
 
 @router.get("/load")
@@ -427,18 +436,42 @@ async def get_server_load_metrics(request: Request):
         content={'server_load': request.app.state.server_load_metrics})
 
 
-@router.api_route("/ping", methods=["GET", "POST"])
-async def ping(raw_request: Request) -> JSONResponse:
+@router.get("/ping", response_class=Response)
+@router.post("/ping", response_class=Response)
+async def ping(raw_request: Request) -> Response:
     """Ping check. Endpoint required for SageMaker"""
     return await health(raw_request)
 
 
-@router.post("/tokenize", dependencies=[Depends(validate_json_request)])
+@router.post("/tokenize",
+             dependencies=[Depends(validate_json_request)],
+             responses={
+                 HTTPStatus.BAD_REQUEST.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.NOT_FOUND.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.INTERNAL_SERVER_ERROR.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.NOT_IMPLEMENTED.value: {
+                     "model": ErrorResponse
+                 },
+             })
 @with_cancellation
 async def tokenize(request: TokenizeRequest, raw_request: Request):
     handler = tokenization(raw_request)
 
-    generator = await handler.create_tokenize(request, raw_request)
+    try:
+        generator = await handler.create_tokenize(request, raw_request)
+    except NotImplementedError as e:
+        raise HTTPException(status_code=HTTPStatus.NOT_IMPLEMENTED.value,
+                            detail=str(e)) from e
+    except Exception as e:
+        raise HTTPException(status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value,
+                            detail=str(e)) from e
+
     if isinstance(generator, ErrorResponse):
         return JSONResponse(content=generator.model_dump(),
                             status_code=generator.code)
@@ -448,12 +481,31 @@ async def tokenize(request: TokenizeRequest, raw_request: Request):
     assert_never(generator)
 
 
-@router.post("/detokenize", dependencies=[Depends(validate_json_request)])
+@router.post("/detokenize",
+             dependencies=[Depends(validate_json_request)],
+             responses={
+                 HTTPStatus.BAD_REQUEST.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.NOT_FOUND.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.INTERNAL_SERVER_ERROR.value: {
+                     "model": ErrorResponse
+                 },
+             })
 @with_cancellation
 async def detokenize(request: DetokenizeRequest, raw_request: Request):
     handler = tokenization(raw_request)
 
-    generator = await handler.create_detokenize(request, raw_request)
+    try:
+        generator = await handler.create_detokenize(request, raw_request)
+    except OverflowError as e:
+        raise RequestValidationError(errors=[str(e)]) from e
+    except Exception as e:
+        raise HTTPException(status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value,
+                            detail=str(e)) from e
+
     if isinstance(generator, ErrorResponse):
         return JSONResponse(content=generator.model_dump(),
                             status_code=generator.code)
@@ -478,7 +530,23 @@ async def show_version():
 
 
 @router.post("/v1/chat/completions",
-             dependencies=[Depends(validate_json_request)])
+             dependencies=[Depends(validate_json_request)],
+             responses={
+                 HTTPStatus.OK.value: {
+                     "content": {
+                         "text/event-stream": {}
+                     }
+                 },
+                 HTTPStatus.BAD_REQUEST.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.NOT_FOUND.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.INTERNAL_SERVER_ERROR.value: {
+                     "model": ErrorResponse
+                 }
+             })
 @with_cancellation
 @load_aware_call
 async def create_chat_completion(request: ChatCompletionRequest,
@@ -500,7 +568,24 @@ async def create_chat_completion(request: ChatCompletionRequest,
     return StreamingResponse(content=generator, media_type="text/event-stream")
 
 
-@router.post("/v1/completions", dependencies=[Depends(validate_json_request)])
+@router.post("/v1/completions",
+             dependencies=[Depends(validate_json_request)],
+             responses={
+                 HTTPStatus.OK.value: {
+                     "content": {
+                         "text/event-stream": {}
+                     }
+                 },
+                 HTTPStatus.BAD_REQUEST.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.NOT_FOUND.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.INTERNAL_SERVER_ERROR.value: {
+                     "model": ErrorResponse
+                 },
+             })
 @with_cancellation
 @load_aware_call
 async def create_completion(request: CompletionRequest, raw_request: Request):
@@ -509,7 +594,15 @@ async def create_completion(request: CompletionRequest, raw_request: Request):
         return base(raw_request).create_error_response(
             message="The model does not support Completions API")
 
-    generator = await handler.create_completion(request, raw_request)
+    try:
+        generator = await handler.create_completion(request, raw_request)
+    except OverflowError as e:
+        raise HTTPException(status_code=HTTPStatus.BAD_REQUEST.value,
+                            detail=str(e)) from e
+    except Exception as e:
+        raise HTTPException(status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value,
+                            detail=str(e)) from e
+
     if isinstance(generator, ErrorResponse):
         return JSONResponse(content=generator.model_dump(),
                             status_code=generator.code)
@@ -519,7 +612,16 @@ async def create_completion(request: CompletionRequest, raw_request: Request):
     return StreamingResponse(content=generator, media_type="text/event-stream")
 
 
-@router.post("/v1/embeddings", dependencies=[Depends(validate_json_request)])
+@router.post("/v1/embeddings",
+             dependencies=[Depends(validate_json_request)],
+             responses={
+                 HTTPStatus.BAD_REQUEST.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.INTERNAL_SERVER_ERROR.value: {
+                     "model": ErrorResponse
+                 },
+             })
 @with_cancellation
 @load_aware_call
 async def create_embedding(request: EmbeddingRequest, raw_request: Request):
@@ -566,7 +668,16 @@ async def create_embedding(request: EmbeddingRequest, raw_request: Request):
     assert_never(generator)
 
 
-@router.post("/pooling", dependencies=[Depends(validate_json_request)])
+@router.post("/pooling",
+             dependencies=[Depends(validate_json_request)],
+             responses={
+                 HTTPStatus.BAD_REQUEST.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.INTERNAL_SERVER_ERROR.value: {
+                     "model": ErrorResponse
+                 },
+             })
 @with_cancellation
 @load_aware_call
 async def create_pooling(request: PoolingRequest, raw_request: Request):
@@ -606,7 +717,16 @@ async def create_classify(request: ClassificationRequest,
     assert_never(generator)
 
 
-@router.post("/score", dependencies=[Depends(validate_json_request)])
+@router.post("/score",
+             dependencies=[Depends(validate_json_request)],
+             responses={
+                 HTTPStatus.BAD_REQUEST.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.INTERNAL_SERVER_ERROR.value: {
+                     "model": ErrorResponse
+                 },
+             })
 @with_cancellation
 @load_aware_call
 async def create_score(request: ScoreRequest, raw_request: Request):
@@ -625,7 +745,16 @@ async def create_score(request: ScoreRequest, raw_request: Request):
     assert_never(generator)
 
 
-@router.post("/v1/score", dependencies=[Depends(validate_json_request)])
+@router.post("/v1/score",
+             dependencies=[Depends(validate_json_request)],
+             responses={
+                 HTTPStatus.BAD_REQUEST.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.INTERNAL_SERVER_ERROR.value: {
+                     "model": ErrorResponse
+                 },
+             })
 @with_cancellation
 @load_aware_call
 async def create_score_v1(request: ScoreRequest, raw_request: Request):
@@ -636,12 +765,28 @@ async def create_score_v1(request: ScoreRequest, raw_request: Request):
     return await create_score(request, raw_request)
 
 
-@router.post("/v1/audio/transcriptions")
+@router.post("/v1/audio/transcriptions",
+             responses={
+                 HTTPStatus.OK.value: {
+                     "content": {
+                         "text/event-stream": {}
+                     }
+                 },
+                 HTTPStatus.BAD_REQUEST.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.UNPROCESSABLE_ENTITY.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.INTERNAL_SERVER_ERROR.value: {
+                     "model": ErrorResponse
+                 },
+             })
 @with_cancellation
 @load_aware_call
-async def create_transcriptions(request: Annotated[TranscriptionRequest,
-                                                   Form()],
-                                raw_request: Request):
+async def create_transcriptions(raw_request: Request,
+                                request: Annotated[TranscriptionRequest,
+                                                   Form()]):
     handler = transcription(raw_request)
     if handler is None:
         return base(raw_request).create_error_response(
@@ -661,7 +806,16 @@ async def create_transcriptions(request: Annotated[TranscriptionRequest,
     return StreamingResponse(content=generator, media_type="text/event-stream")
 
 
-@router.post("/rerank", dependencies=[Depends(validate_json_request)])
+@router.post("/rerank",
+             dependencies=[Depends(validate_json_request)],
+             responses={
+                 HTTPStatus.BAD_REQUEST.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.INTERNAL_SERVER_ERROR.value: {
+                     "model": ErrorResponse
+                 },
+             })
 @with_cancellation
 @load_aware_call
 async def do_rerank(request: RerankRequest, raw_request: Request):
@@ -679,7 +833,16 @@ async def do_rerank(request: RerankRequest, raw_request: Request):
     assert_never(generator)
 
 
-@router.post("/v1/rerank", dependencies=[Depends(validate_json_request)])
+@router.post("/v1/rerank",
+             dependencies=[Depends(validate_json_request)],
+             responses={
+                 HTTPStatus.BAD_REQUEST.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.INTERNAL_SERVER_ERROR.value: {
+                     "model": ErrorResponse
+                 },
+             })
 @with_cancellation
 async def do_rerank_v1(request: RerankRequest, raw_request: Request):
     logger.warning_once(
@@ -690,7 +853,16 @@ async def do_rerank_v1(request: RerankRequest, raw_request: Request):
     return await do_rerank(request, raw_request)
 
 
-@router.post("/v2/rerank", dependencies=[Depends(validate_json_request)])
+@router.post("/v2/rerank",
+             dependencies=[Depends(validate_json_request)],
+             responses={
+                 HTTPStatus.BAD_REQUEST.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.INTERNAL_SERVER_ERROR.value: {
+                     "model": ErrorResponse
+                 },
+             })
 @with_cancellation
 async def do_rerank_v2(request: RerankRequest, raw_request: Request):
     return await do_rerank(request, raw_request)
@@ -770,12 +942,29 @@ if envs.VLLM_SERVER_DEV_MODE:
         return JSONResponse(content={"is_sleeping": is_sleeping})
 
 
-@router.post("/invocations", dependencies=[Depends(validate_json_request)])
+@router.post("/invocations",
+             dependencies=[Depends(validate_json_request)],
+             responses={
+                 HTTPStatus.BAD_REQUEST.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.UNSUPPORTED_MEDIA_TYPE.value: {
+                     "model": ErrorResponse
+                 },
+                 HTTPStatus.INTERNAL_SERVER_ERROR.value: {
+                     "model": ErrorResponse
+                 },
+             })
 async def invocations(raw_request: Request):
     """
     For SageMaker, routes requests to other handlers based on model `task`.
     """
-    body = await raw_request.json()
+    try:
+        body = await raw_request.json()
+    except JSONDecodeError as e:
+        raise HTTPException(status_code=HTTPStatus.BAD_REQUEST.value,
+                            detail=f"JSON decode error: {e}") from e
+
     task = raw_request.app.state.task
 
     if task not in TASK_HANDLERS:
@@ -866,10 +1055,26 @@ def build_app(args: Namespace) -> FastAPI:
         allow_headers=args.allowed_headers,
     )
 
+    @app.exception_handler(HTTPException)
+    async def http_exception_handler(_: Request, exc: HTTPException):
+        err = ErrorResponse(message=exc.detail,
+                            type=HTTPStatus(exc.status_code).phrase,
+                            code=exc.status_code)
+        return JSONResponse(err.model_dump(), status_code=exc.status_code)
+
     @app.exception_handler(RequestValidationError)
-    async def validation_exception_handler(_, exc):
-        err = ErrorResponse(message=str(exc),
-                            type="BadRequestError",
+    async def validation_exception_handler(_: Request,
+                                           exc: RequestValidationError):
+        exc_str = str(exc)
+        errors_str = str(exc.errors())
+
+        if exc.errors() and errors_str and errors_str != exc_str:
+            message = f"{exc_str} {errors_str}"
+        else:
+            message = exc_str
+
+        err = ErrorResponse(message=message,
+                            type=HTTPStatus.BAD_REQUEST.phrase,
                             code=HTTPStatus.BAD_REQUEST)
         return JSONResponse(err.model_dump(),
                             status_code=HTTPStatus.BAD_REQUEST)
diff --git a/vllm/entrypoints/openai/serving_chat.py b/vllm/entrypoints/openai/serving_chat.py
index a9ba0e4d6..ee18e0b0a 100644
--- a/vllm/entrypoints/openai/serving_chat.py
+++ b/vllm/entrypoints/openai/serving_chat.py
@@ -197,7 +197,7 @@ class OpenAIServingChat(OpenAIServing):
         except (ValueError, TypeError, RuntimeError,
                 jinja2.TemplateError) as e:
             logger.exception("Error in preprocessing prompt inputs")
-            return self.create_error_response(str(e))
+            return self.create_error_response(f"{e} {e.__cause__}")
 
         request_id = "chatcmpl-" \
                      f"{self._base_request_id(raw_request, request.request_id)}"
diff --git a/vllm/entrypoints/openai/serving_tokenization.py b/vllm/entrypoints/openai/serving_tokenization.py
index c642fc510..5f4678cb0 100644
--- a/vllm/entrypoints/openai/serving_tokenization.py
+++ b/vllm/entrypoints/openai/serving_tokenization.py
@@ -91,7 +91,7 @@ class OpenAIServingTokenization(OpenAIServing):
                  )
         except (ValueError, TypeError, jinja2.TemplateError) as e:
             logger.exception("Error in preprocessing prompt inputs")
-            return self.create_error_response(str(e))
+            return self.create_error_response(f"{e} {e.__cause__}")
 
         input_ids: list[int] = []
         for i, engine_prompt in enumerate(engine_prompts):
-- 
GitLab


From e60f550b3825cbce2d3c7e882b029e2c1d914d8d Mon Sep 17 00:00:00 2001
From: Chen Zhang <zhangch99@outlook.com>
Date: Thu, 15 May 2025 09:54:54 +0800
Subject: [PATCH 384/461] [v1] Support multiple KV cache groups in GPU model
 runner (#17945)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>
---
 tests/v1/core/test_kv_cache_utils.py          |  71 ++++-
 tests/v1/core/test_prefix_caching.py          |  36 +--
 tests/v1/worker/test_gpu_input_batch.py       |  39 ++-
 tests/v1/worker/test_gpu_model_runner.py      |  57 ++--
 tests/weight_loading/models.txt               |   2 +-
 .../v1/shared_storage_connector.py            |   6 +-
 .../attention/backends/mla/rocm_aiter_mla.py  |   4 +-
 vllm/v1/core/kv_cache_manager.py              |  34 ++-
 vllm/v1/core/kv_cache_utils.py                |  13 +-
 vllm/v1/core/sched/output.py                  |  12 +-
 vllm/v1/core/sched/scheduler.py               |  16 +-
 vllm/v1/kv_cache_interface.py                 |  42 +++
 vllm/v1/worker/block_table.py                 |  47 +++
 vllm/v1/worker/gpu_input_batch.py             |  13 +-
 vllm/v1/worker/gpu_model_runner.py            | 270 ++++++++++--------
 vllm/v1/worker/tpu_model_runner.py            |  35 +--
 16 files changed, 482 insertions(+), 215 deletions(-)

diff --git a/tests/v1/core/test_kv_cache_utils.py b/tests/v1/core/test_kv_cache_utils.py
index 1cdc80dd3..e572100fe 100644
--- a/tests/v1/core/test_kv_cache_utils.py
+++ b/tests/v1/core/test_kv_cache_utils.py
@@ -19,7 +19,8 @@ from vllm.v1.core.kv_cache_utils import (NONE_HASH, BlockHashType,
                                          hash_request_tokens,
                                          unify_kv_cache_configs)
 from vllm.v1.kv_cache_interface import (FullAttentionSpec, KVCacheConfig,
-                                        KVCacheGroupSpec, KVCacheTensor)
+                                        KVCacheGroupSpec, KVCacheTensor,
+                                        SlidingWindowSpec)
 from vllm.v1.metrics.stats import PrefixCacheStats
 from vllm.v1.request import Request
 
@@ -54,12 +55,14 @@ def new_kv_cache_spec(block_size=16,
                       num_kv_heads=2,
                       head_size=64,
                       dtype=torch.float32,
-                      use_mla=False):
+                      use_mla=False,
+                      sliding_window=None):
     return FullAttentionSpec(block_size=block_size,
                              num_kv_heads=num_kv_heads,
                              head_size=head_size,
                              dtype=dtype,
-                             use_mla=use_mla)
+                             use_mla=use_mla,
+                             sliding_window=sliding_window)
 
 
 def test_none_hash():
@@ -471,6 +474,68 @@ def test_unify_kv_cache_configs():
         unify_kv_cache_configs(diff_kv_cache_config)
 
 
+def test_merge_kv_cache_spec():
+    same_layer_specs = [
+        new_kv_cache_spec(num_kv_heads=32),
+        new_kv_cache_spec(num_kv_heads=32),
+    ]
+    merged_layer_spec = same_layer_specs[0].merge(same_layer_specs)
+    assert merged_layer_spec.block_size == 16
+    assert merged_layer_spec.num_kv_heads == 32
+    assert merged_layer_spec.head_size == 64
+    assert merged_layer_spec.dtype == torch.float32
+    assert merged_layer_spec.sliding_window is None
+
+    different_layer_specs = [
+        new_kv_cache_spec(num_kv_heads=32),
+        new_kv_cache_spec(num_kv_heads=16),
+    ]
+    with pytest.raises(AssertionError):
+        different_layer_specs[0].merge(different_layer_specs)
+
+    full_spec = new_kv_cache_spec(num_kv_heads=32)
+    different_type_layer_specs = [
+        full_spec,
+        SlidingWindowSpec(
+            block_size=full_spec.block_size,
+            num_kv_heads=full_spec.num_kv_heads,
+            head_size=full_spec.head_size,
+            dtype=full_spec.dtype,
+            use_mla=full_spec.use_mla,
+            sliding_window=1,
+        ),
+    ]
+    with pytest.raises(AssertionError):
+        different_type_layer_specs[0].merge(different_type_layer_specs)
+    with pytest.raises(AssertionError):
+        different_type_layer_specs[1].merge(different_type_layer_specs)
+
+    different_sliding_window_layer_specs = [
+        new_kv_cache_spec(num_kv_heads=32),
+        new_kv_cache_spec(num_kv_heads=32, sliding_window=1),
+        new_kv_cache_spec(num_kv_heads=32, sliding_window=2),
+    ]
+    with pytest.raises(ValueError):
+        different_sliding_window_layer_specs[0].merge(
+            different_sliding_window_layer_specs)
+
+    same_sliding_window_layer_specs = [
+        new_kv_cache_spec(num_kv_heads=32, sliding_window=1),
+        new_kv_cache_spec(num_kv_heads=32, sliding_window=1),
+    ]
+    merged_layer_spec = same_sliding_window_layer_specs[0].merge(
+        same_sliding_window_layer_specs)
+    assert merged_layer_spec.sliding_window == 1
+
+    same_sliding_window_layer_spec_with_none = [
+        new_kv_cache_spec(num_kv_heads=32, sliding_window=1),
+        new_kv_cache_spec(num_kv_heads=32, sliding_window=None),
+    ]
+    merged_layer_spec = same_sliding_window_layer_spec_with_none[0].merge(
+        same_sliding_window_layer_spec_with_none)
+    assert merged_layer_spec.sliding_window == 1
+
+
 @pytest.mark.parametrize(
     ("model_id", "max_model_len", "want_estimated_max_len"), [
         ("Qwen/Qwen1.5-7B", 16385, 16384),
diff --git a/tests/v1/core/test_prefix_caching.py b/tests/v1/core/test_prefix_caching.py
index 2d7411381..3da27786b 100644
--- a/tests/v1/core/test_prefix_caching.py
+++ b/tests/v1/core/test_prefix_caching.py
@@ -84,7 +84,7 @@ def test_prefill(hash_algo):
     blocks = manager.allocate_slots(req0, 55,
                                     len(computed_blocks.blocks) * 16,
                                     computed_blocks)
-    assert blocks.get_block_ids() == [1, 2, 3, 4]
+    assert blocks.get_block_ids() == [[1, 2, 3, 4]]
 
     # Check full block metadata
     parent_block_hash = None
@@ -107,13 +107,13 @@ def test_prefill(hash_algo):
     req1 = make_request("1", common_token_ids + unique_token_ids)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
     assert len(manager.req_to_block_hashes[req1.request_id]) == 3
-    assert computed_blocks.get_block_ids() == [1, 2, 3]
+    assert computed_blocks.get_block_ids() == [[1, 2, 3]]
     assert num_computed_tokens == 3 * 16
     num_new_tokens = 53 - 3 * 16
     blocks = manager.allocate_slots(req1, num_new_tokens,
                                     len(computed_blocks.blocks) * 16,
                                     computed_blocks)
-    assert blocks.get_block_ids() == [5]
+    assert blocks.get_block_ids() == [[5]]
     for block in computed_blocks.blocks:
         assert block.ref_cnt == 2
 
@@ -141,13 +141,13 @@ def test_prefill(hash_algo):
     req2 = make_request("2", common_token_ids + unique_token_ids)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req2)
     assert len(manager.req_to_block_hashes[req2.request_id]) == 3
-    assert computed_blocks.get_block_ids() == [1, 2, 3]
+    assert computed_blocks.get_block_ids() == [[1, 2, 3]]
     assert num_computed_tokens == 3 * 16
     num_new_tokens = 53 - 3 * 16
     blocks = manager.allocate_slots(req2, num_new_tokens,
                                     len(computed_blocks.blocks) * 16,
                                     computed_blocks)
-    assert blocks.get_block_ids() == [6]
+    assert blocks.get_block_ids() == [[6]]
 
     # Although we only have 6 free blocks, we have 8 blocks in
     # the free block queue due to lazy removal.
@@ -171,7 +171,7 @@ def test_prefill(hash_algo):
                                     len(computed_blocks.blocks) * 16,
                                     computed_blocks)
     # This block ID order also checks the eviction order.
-    assert blocks.get_block_ids() == [7, 8, 9, 10, 4, 5, 6, 3, 2, 1]
+    assert blocks.get_block_ids() == [[7, 8, 9, 10, 4, 5, 6, 3, 2, 1]]
     assert manager.block_pool.free_block_queue.num_free_blocks == 0
     assert manager.block_pool.free_block_queue.free_list_head is None
     assert manager.block_pool.free_block_queue.free_list_tail is None
@@ -208,7 +208,7 @@ def test_prefill_plp():
     blocks = manager.allocate_slots(req0, 55,
                                     len(computed_blocks.blocks) * 16,
                                     computed_blocks)
-    assert blocks.get_block_ids() == [1, 2, 3, 4]
+    assert blocks.get_block_ids() == [[1, 2, 3, 4]]
     req0_block_hashes = [b.block_hash for b in blocks.blocks]
 
     # Check full block metadata
@@ -233,13 +233,13 @@ def test_prefill_plp():
     req1 = make_request("1", common_token_ids + unique_token_ids)
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
     assert len(manager.req_to_block_hashes[req1.request_id]) == 3
-    assert computed_blocks.get_block_ids() == [1, 2, 3]
+    assert computed_blocks.get_block_ids() == [[1, 2, 3]]
     assert num_computed_tokens == 3 * 16
     num_new_tokens = 53 - 3 * 16
     blocks = manager.allocate_slots(req1, num_new_tokens,
                                     len(computed_blocks.blocks) * 16,
                                     computed_blocks)
-    assert blocks.get_block_ids() == [5]
+    assert blocks.get_block_ids() == [[5]]
     for block in computed_blocks.blocks:
         assert block.ref_cnt == 2
 
@@ -277,11 +277,11 @@ def test_prefill_plp():
     block_ids = blocks.get_block_ids()
     # Duplicate cached blocks have different ids but same hashes vs request #0
     assert [b.block_hash for b in blocks.blocks] == req0_block_hashes
-    assert block_ids != [1, 2, 3, 4]
+    assert block_ids != [[1, 2, 3, 4]]
 
     # Request #2 block hashes are valid since request #0 hashes are.
     # Check block reference counts.
-    for block_id in block_ids:
+    for block_id in block_ids[0]:
         assert manager.block_pool.blocks[block_id].ref_cnt == 1
 
     manager.free(req2)
@@ -307,7 +307,7 @@ def test_decode():
     blocks = manager.allocate_slots(req0, 55,
                                     len(computed_blocks.blocks) * 16,
                                     computed_blocks)
-    assert blocks.get_block_ids() == [1, 2, 3, 4]
+    assert blocks.get_block_ids() == [[1, 2, 3, 4]]
 
     # Append slots without allocating a new block.
     req0.num_computed_tokens = 55
@@ -379,12 +379,12 @@ def test_evict():
     # Touch the first 2 blocks.
     req2 = make_request("2", list(range(2 * 16 + 3)))
     computed_blocks, num_computed_tokens = manager.get_computed_blocks(req2)
-    assert computed_blocks.get_block_ids() == [1, 2]
+    assert computed_blocks.get_block_ids() == [[1, 2]]
     assert num_computed_tokens == 2 * 16
     blocks = manager.allocate_slots(req2, 3,
                                     len(computed_blocks.blocks) * 16,
                                     computed_blocks)
-    assert blocks.get_block_ids() == [10]
+    assert blocks.get_block_ids() == [[10]]
     assert manager.block_pool.free_block_queue.num_free_blocks == 7
 
 
@@ -625,7 +625,7 @@ def test_mm_prefix_caching():
     blocks = manager.allocate_slots(req0, 59,
                                     len(computed_blocks.blocks) * 16,
                                     computed_blocks)
-    assert blocks.get_block_ids() == [1, 2, 3, 4]
+    assert blocks.get_block_ids() == [[1, 2, 3, 4]]
     req0.num_computed_tokens = 59
 
     # Append slots without allocating a new block.
@@ -686,7 +686,7 @@ def test_cache_key_salting():
     blocks = manager.allocate_slots(req0, 59,
                                     len(computed_blocks.blocks) * 16,
                                     computed_blocks)
-    assert blocks.get_block_ids() == [1, 2, 3, 4]
+    assert blocks.get_block_ids() == [[1, 2, 3, 4]]
     req0.num_computed_tokens = 59
 
     # Append slots without allocating a new block.
@@ -797,7 +797,7 @@ def test_reset_prefix_cache():
     all_token_ids = full_block_token_ids + unique_token_ids
     req0 = make_request("0", all_token_ids)
     blocks = manager.allocate_slots(req0, 55)
-    assert blocks.get_block_ids() == [1, 2, 3, 4]
+    assert blocks.get_block_ids() == [[1, 2, 3, 4]]
 
     unique_token_ids = [4] * 7
     all_token_ids = full_block_token_ids + unique_token_ids
@@ -808,7 +808,7 @@ def test_reset_prefix_cache():
     blocks = manager.allocate_slots(req1, 7,
                                     len(computed_blocks.blocks) * 16,
                                     computed_blocks)
-    assert blocks.get_block_ids() == [5]
+    assert blocks.get_block_ids() == [[5]]
 
     # Failed to reset prefix cache because some blocks are not freed yet.
     assert not manager.reset_prefix_cache()
diff --git a/tests/v1/worker/test_gpu_input_batch.py b/tests/v1/worker/test_gpu_input_batch.py
index 7b1359c85..638f5bedc 100644
--- a/tests/v1/worker/test_gpu_input_batch.py
+++ b/tests/v1/worker/test_gpu_input_batch.py
@@ -9,9 +9,11 @@ import torch
 
 from vllm.sampling_params import SamplingParams
 from vllm.utils import is_pin_memory_available, make_tensor_with_pad
+from vllm.v1.kv_cache_interface import (FullAttentionSpec, KVCacheConfig,
+                                        KVCacheGroupSpec, KVCacheTensor)
 from vllm.v1.sample.metadata import SamplingMetadata
-from vllm.v1.worker.gpu_input_batch import (BlockTable, CachedRequestState,
-                                            InputBatch)
+from vllm.v1.worker.block_table import BlockTable, MultiGroupBlockTable
+from vllm.v1.worker.gpu_input_batch import CachedRequestState, InputBatch
 
 VOCAB_SIZE = 1024
 NUM_OUTPUT_TOKENS = 20
@@ -22,6 +24,27 @@ CUDA_DEVICES = [
 MAX_NUM_PROMPT_TOKENS = 64
 
 
+def get_kv_cache_config() -> KVCacheConfig:
+    return KVCacheConfig(
+        num_blocks=10,
+        tensors={
+            "layer.0": KVCacheTensor(size=1024),
+        },
+        kv_cache_groups=[
+            KVCacheGroupSpec(
+                layer_names=["layer.0"],
+                kv_cache_spec=FullAttentionSpec(
+                    block_size=1,
+                    num_kv_heads=1,
+                    head_size=16,
+                    dtype=torch.float16,
+                    use_mla=False,
+                ),
+            ),
+        ],
+    )
+
+
 def _compare_objs(obj1, obj2):
     attrs = inspect.getmembers(obj1, lambda a: not (inspect.isroutine(a)))
     attr_names = set([
@@ -41,6 +64,10 @@ def _compare_objs(obj1, obj2):
         elif isinstance(a, np.ndarray):
             if np.allclose(a, b):
                 is_same = True
+        elif isinstance(a, MultiGroupBlockTable):
+            for a_i, b_i in zip(a.block_tables, b.block_tables):
+                _compare_objs(a_i, b_i)
+            is_same = True
         elif isinstance(a, (BlockTable, SamplingMetadata)):
             _compare_objs(a, b)
             is_same = True  # if we make it here must be same
@@ -198,7 +225,7 @@ def _construct_cached_request_state(req_id_suffix: int):
         sampling_params=_create_sampling_params(),
         mm_inputs=[],
         mm_positions=[],
-        block_ids=[],
+        block_ids=[[]],
         generator=None,
         num_computed_tokens=len(output_token_ids),
         output_token_ids=output_token_ids,
@@ -220,11 +247,11 @@ def test_sampling_metadata_in_input_batch(device: str, batch_size: int):
     input_batch: InputBatch = InputBatch(
         max_num_reqs=batch_size,
         max_model_len=1024,
-        max_num_blocks_per_req=10,
         max_num_batched_tokens=1024,
         device=torch.device(device),
         pin_memory=is_pin_memory_available(),
         vocab_size=1024,
+        kv_cache_config=get_kv_cache_config(),
     )
     reqs: list[CachedRequestState] = []
     req_id_reqs = {}
@@ -310,20 +337,20 @@ def test_swap_states_in_input_batch(device: str, batch_size: int,
     input_batch: InputBatch = InputBatch(
         max_num_reqs=batch_size,
         max_model_len=1024,
-        max_num_blocks_per_req=10,
         max_num_batched_tokens=1024,
         device=torch.device(device),
         pin_memory=is_pin_memory_available(),
         vocab_size=1024,
+        kv_cache_config=get_kv_cache_config(),
     )
     ref_input_batch: InputBatch = InputBatch(
         max_num_reqs=batch_size,
         max_model_len=1024,
-        max_num_blocks_per_req=10,
         max_num_batched_tokens=1024,
         device=torch.device(device),
         pin_memory=is_pin_memory_available(),
         vocab_size=1024,
+        kv_cache_config=get_kv_cache_config(),
     )
 
     reqs: list[CachedRequestState] = []
diff --git a/tests/v1/worker/test_gpu_model_runner.py b/tests/v1/worker/test_gpu_model_runner.py
index 725747294..e44660525 100644
--- a/tests/v1/worker/test_gpu_model_runner.py
+++ b/tests/v1/worker/test_gpu_model_runner.py
@@ -1,15 +1,16 @@
 # SPDX-License-Identifier: Apache-2.0
-import weakref
 
 import pytest
-import torch
 
-from vllm.config import CacheConfig, ModelConfig, SchedulerConfig, VllmConfig
+from vllm.config import (CacheConfig, ModelConfig, ParallelConfig,
+                         SchedulerConfig, VllmConfig)
 from vllm.sampling_params import SamplingParams
 from vllm.v1.core.sched.output import (CachedRequestData, NewRequestData,
                                        SchedulerOutput)
-from vllm.v1.kv_cache_interface import FullAttentionSpec
+from vllm.v1.kv_cache_interface import (FullAttentionSpec, KVCacheConfig,
+                                        KVCacheGroupSpec, KVCacheTensor)
 from vllm.v1.sample.metadata import SamplingMetadata
+from vllm.v1.worker.gpu_input_batch import InputBatch
 from vllm.v1.worker.gpu_model_runner import GPUModelRunner
 
 
@@ -17,13 +18,34 @@ def initialize_kv_cache(runner: GPUModelRunner):
     """
     Only perform necessary steps in GPUModelRunner.initialize_kv_cache()
     """
-    kv_cache_spec = FullAttentionSpec(block_size=16,
-                                      num_kv_heads=1,
-                                      head_size=64,
-                                      dtype=torch.float16,
-                                      use_mla=False)
-    runner.attn_metadata_builder = runner.attn_backend.get_builder_cls()(
-        weakref.proxy(runner), kv_cache_spec, runner.input_batch.block_table)
+    kv_cache_config = KVCacheConfig(
+        num_blocks=10,
+        tensors={
+            "layer.0": KVCacheTensor(size=1024),
+        },
+        kv_cache_groups=[
+            KVCacheGroupSpec(
+                layer_names=["layer.0"],
+                kv_cache_spec=FullAttentionSpec(
+                    block_size=16,
+                    num_kv_heads=runner.model_config.get_num_kv_heads(
+                        runner.parallel_config),
+                    head_size=runner.model_config.get_head_size(),
+                    dtype=runner.kv_cache_dtype,
+                    use_mla=False,
+                ))
+        ])
+    runner.kv_cache_config = kv_cache_config
+    runner.input_batch = InputBatch(
+        max_num_reqs=runner.max_num_reqs,
+        max_model_len=runner.max_model_len,
+        max_num_batched_tokens=runner.max_num_tokens,
+        device=runner.device,
+        pin_memory=runner.pin_memory,
+        vocab_size=runner.model_config.get_vocab_size(),
+        kv_cache_config=kv_cache_config,
+    )
+    runner.initialize_attn_backend(kv_cache_config)
 
 
 @pytest.fixture
@@ -48,10 +70,12 @@ def model_runner():
         swap_space=0,
         cache_dtype="auto",
     )
+    parallel_config = ParallelConfig()
     vllm_config = VllmConfig(
         model_config=model_config,
         cache_config=cache_config,
         scheduler_config=scheduler_config,
+        parallel_config=parallel_config,
     )
 
     device = "cuda"
@@ -73,7 +97,7 @@ def _schedule_new_request(*req_ids: str) -> SchedulerOutput:
                 mm_hashes=[],
                 mm_positions=[],
                 sampling_params=SamplingParams(),
-                block_ids=[0],
+                block_ids=[[0]],
                 num_computed_tokens=0,
                 lora_request=None,
             ))
@@ -111,13 +135,14 @@ def _is_sampling_metadata_changed(model_runner,
 
 def _is_req_state_block_table_match(model_runner, req_id: str) -> bool:
     req_index = model_runner.input_batch.req_id_to_index[req_id]
-    block_table = model_runner.input_batch.block_table
+    block_table = model_runner.input_batch.block_table[0]
     req_state = model_runner.requests[req_id]
-    if block_table.num_blocks_per_row[req_index] != len(req_state.block_ids):
+    if block_table.num_blocks_per_row[req_index] != len(
+            req_state.block_ids[0]):
         return False
     num_blocks = block_table.num_blocks_per_row[req_index]
     return (block_table.block_table_np[req_index, :num_blocks] ==
-            req_state.block_ids).all()
+            req_state.block_ids[0]).all()
 
 
 def test_update_states_new_request(model_runner):
@@ -200,7 +225,7 @@ def test_update_states_request_resumed(model_runner):
         req_id=req_id,
         resumed_from_preemption=False,
         new_token_ids=[],
-        new_block_ids=[],
+        new_block_ids=[[]],
         num_computed_tokens=0,
     )
 
diff --git a/tests/weight_loading/models.txt b/tests/weight_loading/models.txt
index 1b7970740..9164f8595 100644
--- a/tests/weight_loading/models.txt
+++ b/tests/weight_loading/models.txt
@@ -2,7 +2,7 @@ gptq_marlin, robertgshaw2/zephyr-7b-beta-channelwise-gptq, main
 gptq_marlin, TheBloke/Llama-2-7B-GPTQ, main
 gptq_marlin, TheBloke/TinyLlama-1.1B-Chat-v1.0-GPTQ, main
 gptq_marlin, TheBloke/TinyLlama-1.1B-Chat-v1.0-GPTQ, gptq-8bit--1g-actorder_True
-gptq_marlin, TheBloke/TinyLlama-1.1B-Chat-v1.0-GPTQ, gptq-8bit-32g-actorder_True
+#gptq_marlin, TheBloke/TinyLlama-1.1B-Chat-v1.0-GPTQ, gptq-8bit-32g-actorder_True
 gptq_marlin, TechxGenus/gemma-1.1-2b-it-GPTQ, main
 gptq, robertgshaw2/zephyr-7b-beta-channelwise-gptq, main
 gptq, TheBloke/Llama-2-7B-GPTQ, main
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py
index 0fedb6fd5..0421a65a2 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py
@@ -288,7 +288,7 @@ class SharedStorageConnector(KVConnectorBase_V1):
         for new_req in scheduler_output.scheduled_new_reqs:
             if new_req.req_id in self._requests_need_load:
                 meta.add_request(token_ids=new_req.prompt_token_ids,
-                                 block_ids=new_req.block_ids,
+                                 block_ids=new_req.block_ids[0],
                                  block_size=self._block_size,
                                  is_store=False)
                 total_need_load += 1
@@ -299,7 +299,7 @@ class SharedStorageConnector(KVConnectorBase_V1):
                 # the original prompt tokens.
                 if not self._found_match_for_request(new_req):
                     meta.add_request(token_ids=new_req.prompt_token_ids,
-                                     block_ids=new_req.block_ids,
+                                     block_ids=new_req.block_ids[0],
                                      block_size=self._block_size,
                                      is_store=True)
 
@@ -319,7 +319,7 @@ class SharedStorageConnector(KVConnectorBase_V1):
 
                 # NOTE(rob): For resumed req, new_block_ids is all
                 # of the block_ids for the request.
-                block_ids = cached_req.new_block_ids
+                block_ids = cached_req.new_block_ids[0]
 
                 meta.add_request(token_ids=token_ids,
                                  block_ids=block_ids,
diff --git a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
index 3abb185c5..7ce39110a 100644
--- a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
+++ b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
@@ -67,13 +67,13 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
         max_model_len = self.runner.model_config.max_model_len
         assert max_model_len == 32768,\
             "AITER MLA requires max_model_len=32768"
-        assert self.runner.block_size == 1, "AITER MLA" \
+        assert self.kv_cache_spec.block_size == 1, "AITER MLA" \
             "only supports block size 1."
 
     def _get_paged_kv_tensors(
             self, block_table: torch.Tensor,
             seq_lens: torch.Tensor) -> tuple[torch.Tensor, ...]:
-        page_size = self.runner.block_size
+        page_size = self.kv_cache_spec.block_size
         block_table_bounds = (seq_lens + page_size - 1) // page_size
 
         mask = (torch.arange(block_table.size(1),
diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
index 598fc8711..da18ece75 100644
--- a/vllm/v1/core/kv_cache_manager.py
+++ b/vllm/v1/core/kv_cache_manager.py
@@ -32,9 +32,16 @@ class KVCacheBlocks:
         """Creates a new KVCacheBlocks instance with no blocks."""
         return cls([])
 
-    def get_block_ids(self) -> list[int]:
-        """Converts the KVCacheBlocks instance to a list of block IDs."""
-        return [block.block_id for block in self.blocks]
+    def get_block_ids(self) -> list[list[int]]:
+        """
+        Converts the KVCacheBlocks instance to block_ids.
+        
+        Returns:
+            list[list[int]]: A two-level list where
+            * the outer list corresponds to KV cache groups (only 1 group now)
+            * each inner list contains the block_ids of the blocks in that group
+        """
+        return [[block.block_id for block in self.blocks]]
 
     def get_unhashed_block_ids(self) -> list[int]:
         """Get block_ids of unhashed blocks from KVCacheBlocks instance."""
@@ -300,9 +307,9 @@ class KVCacheManager:
         self,
         request: Request,
         num_running_requests: int,
-    ) -> int:
+    ) -> list[int]:
         """Calculate the number of common prefix blocks shared by all requests
-        in the RUNNING state.
+        in the RUNNING state for each kv cache group.
 
         The function determines this by selecting any request and iterating
         through its blocks.  A block is considered a common prefix block if its
@@ -332,11 +339,14 @@ class KVCacheManager:
                 requests in the current step.
 
         Returns:
-            int: The number of common prefix blocks.
+            list[int]: The number of common prefix blocks for each kv cache 
+            group.
         """
         assert request.status == RequestStatus.RUNNING
-        return self.single_type_manager.get_num_common_prefix_blocks(
-            request.request_id, num_running_requests)
+        return [
+            self.single_type_manager.get_num_common_prefix_blocks(
+                request.request_id, num_running_requests)
+        ]
 
     def free_block_hashes(self, request: Request) -> None:
         """Discard the block hashes for the request.
@@ -354,10 +364,8 @@ class KVCacheManager:
         """
         return self.block_pool.take_events()
 
-    def get_block_ids(self, request_id: str) -> list[int]:
+    def get_block_ids(self, request_id: str) -> list[list[int]]:
         """Get the block ids of a request."""
         assert request_id in self.single_type_manager.req_to_blocks
-        return [
-            block.block_id
-            for block in self.single_type_manager.req_to_blocks[request_id]
-        ]
+        return KVCacheBlocks(self.single_type_manager.req_to_blocks[request_id]
+                             ).get_block_ids()
diff --git a/vllm/v1/core/kv_cache_utils.py b/vllm/v1/core/kv_cache_utils.py
index 27c515835..403b5401b 100644
--- a/vllm/v1/core/kv_cache_utils.py
+++ b/vllm/v1/core/kv_cache_utils.py
@@ -577,14 +577,12 @@ def create_kv_cache_group_specs(
      """
     kv_cache_groups = []
     for layer_names_one_group in grouped_layer_names:
-        layer_spec = kv_cache_spec[layer_names_one_group[0]]
-        assert all(
-            kv_cache_spec[layer_name] == layer_spec
-            for layer_name in layer_names_one_group[1:]), (
-                "All layers in the same KV cache group must share the same "
-                "KVCacheSpec.")
+        layer_specs = [
+            kv_cache_spec[layer_name] for layer_name in layer_names_one_group
+        ]
+        merged_layer_spec = layer_specs[0].merge(layer_specs)
         kv_cache_groups.append(
-            KVCacheGroupSpec(layer_names_one_group, layer_spec))
+            KVCacheGroupSpec(layer_names_one_group, merged_layer_spec))
     return kv_cache_groups
 
 
@@ -683,6 +681,7 @@ def unify_hybrid_kv_cache_specs(kv_cache_spec: dict[str, KVCacheSpec]):
                     head_size=spec.head_size,
                     dtype=spec.dtype,
                     use_mla=spec.use_mla,
+                    sliding_window=spec.sliding_window,
                 )
 
 
diff --git a/vllm/v1/core/sched/output.py b/vllm/v1/core/sched/output.py
index 24032498e..257234430 100644
--- a/vllm/v1/core/sched/output.py
+++ b/vllm/v1/core/sched/output.py
@@ -26,7 +26,7 @@ class NewRequestData:
     mm_hashes: list[str]
     mm_positions: list[PlaceholderRange]
     sampling_params: SamplingParams
-    block_ids: list[int]
+    block_ids: list[list[int]]
     num_computed_tokens: int
     lora_request: Optional[LoRARequest]
 
@@ -34,7 +34,7 @@ class NewRequestData:
     def from_request(
         cls,
         request: Request,
-        block_ids: list[int],
+        block_ids: list[list[int]],
     ) -> NewRequestData:
         return cls(
             req_id=request.request_id,
@@ -85,7 +85,7 @@ class CachedRequestData:
     # request's block IDs instead of appending to the existing block IDs.
     resumed_from_preemption: bool
     new_token_ids: list[int]
-    new_block_ids: list[int]
+    new_block_ids: list[list[int]]
     num_computed_tokens: int
 
     @classmethod
@@ -94,7 +94,7 @@ class CachedRequestData:
         request: Request,
         resumed_from_preemption: bool,
         new_token_ids: list[int],
-        new_block_ids: list[int],
+        new_block_ids: list[list[int]],
     ) -> CachedRequestData:
         return cls(
             req_id=request.request_id,
@@ -131,9 +131,9 @@ class SchedulerOutput:
     # E.g., if a request has [0, 1], it could mean the vision encoder needs
     # to process that the request's 0-th and 1-th images in the current step.
     scheduled_encoder_inputs: dict[str, list[int]]
-    # Number of common prefix blocks for all requests.
+    # Number of common prefix blocks for all requests in each KV cache group.
     # This can be used for cascade attention.
-    num_common_prefix_blocks: int
+    num_common_prefix_blocks: list[int]
 
     # Request IDs that are finished in between the previous and the current
     # steps. This is used to notify the workers about the finished requests
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 96313c288..5ad05485e 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -173,7 +173,7 @@ class Scheduler(SchedulerInterface):
         # uses structured decoding.
         structured_output_request_ids: dict[str, int] = {}
 
-        req_to_new_block_ids: dict[str, list[int]] = {}
+        req_to_new_block_ids: dict[str, list[list[int]]] = {}
         num_scheduled_tokens: dict[str, int] = {}
         token_budget = self.max_num_scheduled_tokens
         # Encoder-related.
@@ -477,7 +477,8 @@ class Scheduler(SchedulerInterface):
 
         # Get the longest common prefix among all requests in the running queue.
         # This can be potentially used for cascade attention.
-        num_common_prefix_blocks = 0
+        num_common_prefix_blocks = [0] * len(
+            self.kv_cache_config.kv_cache_groups)
         if self.running:
             any_request = self.running[0]
             num_common_prefix_blocks = (
@@ -564,7 +565,7 @@ class Scheduler(SchedulerInterface):
         request: Request,
         num_scheduled_tokens: int,
         num_scheduled_spec_tokens: int,
-        new_block_ids: list[int],
+        new_block_ids: list[list[int]],
         resumed_from_preemption: bool,
     ) -> CachedRequestData:
         # OPTIMIZATION: Cache the CachedRequestData objects to avoid creating
@@ -939,7 +940,9 @@ class Scheduler(SchedulerInterface):
         """
         if self.connector is None:
             return False, None
-        block_ids = self.kv_cache_manager.get_block_ids(request.request_id)
+        assert len(self.kv_cache_config.kv_cache_groups
+                   ) == 1, "KV connector only supports one KV cache group now"
+        block_ids = self.kv_cache_manager.get_block_ids(request.request_id)[0]
         return self.connector.request_finished(request, block_ids)
 
     def _update_waiting_for_remote_kv(self, request: Request) -> bool:
@@ -956,9 +959,10 @@ class Scheduler(SchedulerInterface):
         """
         if request.request_id not in self.finished_recving_kv_req_ids:
             return False
-
+        assert len(self.kv_cache_config.kv_cache_groups
+                   ) == 1, "KV connector only supports one KV cache group now"
         # Now that the blocks are ready, actually cache them.
-        block_ids = self.kv_cache_manager.get_block_ids(request.request_id)
+        block_ids = self.kv_cache_manager.get_block_ids(request.request_id)[0]
         num_computed_tokens = len(block_ids) * self.block_size
         if num_computed_tokens == request.num_tokens:
             num_computed_tokens -= 1
diff --git a/vllm/v1/kv_cache_interface.py b/vllm/v1/kv_cache_interface.py
index 4fc0844cd..2747fc7fa 100644
--- a/vllm/v1/kv_cache_interface.py
+++ b/vllm/v1/kv_cache_interface.py
@@ -1,8 +1,11 @@
 # SPDX-License-Identifier: Apache-2.0
 
+import copy
 from dataclasses import dataclass
+from typing import Optional
 
 import torch
+from typing_extensions import Self
 
 from vllm.config import VllmConfig
 from vllm.logger import init_logger
@@ -53,6 +56,16 @@ class KVCacheSpec:
         """
         raise NotImplementedError
 
+    @classmethod
+    def merge(cls, specs: list[Self]) -> Self:
+        """
+        Merge a list of KVCacheSpec objects into a single KVCacheSpec object.
+        """
+        assert all(spec.type_id == specs[0].type_id for spec in specs[1:]), (
+            "All layers in the same KV cache group must share the same "
+            "type_id.")
+        return copy.deepcopy(specs[0])
+
 
 @dataclass
 class AttentionSpec(KVCacheSpec):
@@ -71,6 +84,16 @@ class AttentionSpec(KVCacheSpec):
 
 @dataclass
 class FullAttentionSpec(AttentionSpec):
+    sliding_window: Optional[int] = None
+    """
+    When hybrid allocator is disabled and the model contains both full 
+    attention layers and sliding window attention layers, sliding 
+    window attention are regarded as full attention in KV cache manager 
+    (blocks are allocated for all tokens), while computed as sliding window 
+    attention in model runner.
+    In this case, we use FullAttentionSpec and record the sliding window size.
+    Default to None for not using sliding window attention.
+    """
 
     @property
     def type_id(self) -> str:
@@ -80,6 +103,25 @@ class FullAttentionSpec(AttentionSpec):
         max_model_len = vllm_config.model_config.max_model_len
         return cdiv(max_model_len, self.block_size) * self.page_size_bytes
 
+    @classmethod
+    def merge(cls, specs: list[Self]) -> Self:
+        """
+        Merge a list of FullAttentionSpec objects into a single 
+        FullAttentionSpec object.
+        """
+        merged_spec = super().merge(specs)
+        sliding_window = set(spec.sliding_window for spec in specs
+                             if spec.sliding_window is not None)
+        if len(sliding_window) == 0:
+            merged_spec.sliding_window = None
+        elif len(sliding_window) == 1:
+            merged_spec.sliding_window = sliding_window.pop()
+        else:
+            raise ValueError(
+                "All sliding window layers in the same KV cache group "
+                "must have the same window size.")
+        return merged_spec
+
 
 @dataclass
 class SlidingWindowSpec(AttentionSpec):
diff --git a/vllm/v1/worker/block_table.py b/vllm/v1/worker/block_table.py
index 581d3d9bd..0c3341691 100644
--- a/vllm/v1/worker/block_table.py
+++ b/vllm/v1/worker/block_table.py
@@ -4,6 +4,8 @@ import numpy as np
 import torch
 
 from vllm.logger import init_logger
+from vllm.utils import cdiv
+from vllm.v1.kv_cache_interface import KVCacheConfig
 
 logger = init_logger(__name__)
 
@@ -96,3 +98,48 @@ class BlockTable:
     def get_numpy_array(self) -> np.ndarray:
         """Returns the numpy array of the block table."""
         return self.block_table_np
+
+
+class MultiGroupBlockTable:
+    """The BlockTables for each KV cache group."""
+
+    def __init__(self, max_num_reqs: int, max_model_len: int,
+                 max_num_batched_tokens: int, pin_memory: bool,
+                 device: torch.device, kv_cache_config: KVCacheConfig) -> None:
+        max_num_blocks_per_req = [
+            cdiv(max_model_len, g.kv_cache_spec.block_size)
+            for g in kv_cache_config.kv_cache_groups
+        ]
+        self.block_tables = [
+            BlockTable(max_num_reqs, max_num_blocks_per_req[i],
+                       max_num_batched_tokens, pin_memory, device)
+            for i in range(len(kv_cache_config.kv_cache_groups))
+        ]
+
+    def append_row(self, block_ids: list[list[int]], row_idx: int) -> None:
+        for i, block_table in enumerate(self.block_tables):
+            block_table.append_row(block_ids[i], row_idx)
+
+    def add_row(self, block_ids: list[list[int]], row_idx: int) -> None:
+        for i, block_table in enumerate(self.block_tables):
+            block_table.add_row(block_ids[i], row_idx)
+
+    def move_row(self, src: int, tgt: int) -> None:
+        for block_table in self.block_tables:
+            block_table.move_row(src, tgt)
+
+    def swap_row(self, src: int, tgt: int) -> None:
+        for block_table in self.block_tables:
+            block_table.swap_row(src, tgt)
+
+    def commit(self, num_reqs: int) -> None:
+        for block_table in self.block_tables:
+            block_table.commit(num_reqs)
+
+    def clear(self) -> None:
+        for block_table in self.block_tables:
+            block_table.clear()
+
+    def __getitem__(self, idx: int) -> "BlockTable":
+        """Returns the BlockTable for the i-th KV cache group."""
+        return self.block_tables[idx]
diff --git a/vllm/v1/worker/gpu_input_batch.py b/vllm/v1/worker/gpu_input_batch.py
index 871654fca..570de9bdd 100644
--- a/vllm/v1/worker/gpu_input_batch.py
+++ b/vllm/v1/worker/gpu_input_batch.py
@@ -11,10 +11,11 @@ from vllm.lora.request import LoRARequest
 from vllm.multimodal.inputs import MultiModalKwargs, PlaceholderRange
 from vllm.sampling_params import SamplingParams, SamplingType
 from vllm.utils import swap_dict_values
+from vllm.v1.kv_cache_interface import KVCacheConfig
 from vllm.v1.outputs import LogprobsTensors
 from vllm.v1.sample.metadata import SamplingMetadata
 from vllm.v1.utils import copy_slice
-from vllm.v1.worker.block_table import BlockTable
+from vllm.v1.worker.block_table import MultiGroupBlockTable
 
 _SAMPLING_EPS = 1e-5
 
@@ -29,7 +30,7 @@ class CachedRequestState:
     sampling_params: SamplingParams
     generator: Optional[torch.Generator]
 
-    block_ids: list[int]
+    block_ids: list[list[int]]
     num_computed_tokens: int
     output_token_ids: list[int]
 
@@ -58,15 +59,14 @@ class InputBatch:
         self,
         max_num_reqs: int,
         max_model_len: int,
-        max_num_blocks_per_req: int,
         max_num_batched_tokens: int,
         device: torch.device,
         pin_memory: bool,
         vocab_size: int,
+        kv_cache_config: KVCacheConfig,
     ):
         self.max_num_reqs = max_num_reqs
         self.max_model_len = max_model_len
-        self.max_num_blocks_per_req = max_num_blocks_per_req
         self.max_num_batched_tokens = max_num_batched_tokens
         self.device = device
         self.pin_memory = pin_memory
@@ -99,12 +99,13 @@ class InputBatch:
             self.num_computed_tokens_cpu_tensor.numpy()
 
         # Block table.
-        self.block_table = BlockTable(
+        self.block_table = MultiGroupBlockTable(
             max_num_reqs=max_num_reqs,
-            max_num_blocks_per_req=max_num_blocks_per_req,
+            max_model_len=max_model_len,
             max_num_batched_tokens=max_num_batched_tokens,
             pin_memory=pin_memory,
             device=device,
+            kv_cache_config=kv_cache_config,
         )
 
         # Sampling-related.
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 1b16f273a..1b34a9fb0 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -12,6 +12,8 @@ import torch.distributed
 import torch.nn as nn
 
 from vllm.attention import AttentionType, get_attn_backend
+from vllm.attention.backends.abstract import (AttentionBackend,
+                                              AttentionMetadataBuilder)
 from vllm.attention.layer import Attention
 from vllm.attention.utils.fa_utils import get_flash_attn_version
 from vllm.config import (CompilationLevel, VllmConfig,
@@ -31,8 +33,8 @@ from vllm.multimodal.utils import group_mm_inputs_by_modality
 from vllm.sampling_params import SamplingType
 from vllm.sequence import IntermediateTensors
 from vllm.utils import (STR_DTYPE_TO_TORCH_DTYPE, DeviceMemoryProfiler,
-                        GiB_bytes, LayerBlockType, LazyLoader, cdiv,
-                        check_use_alibi, is_pin_memory_available)
+                        GiB_bytes, LazyLoader, cdiv, check_use_alibi,
+                        is_pin_memory_available)
 from vllm.v1.attention.backends.flash_attn import FlashAttentionMetadata
 from vllm.v1.attention.backends.utils import CommonAttentionMetadata
 from vllm.v1.core.encoder_cache_manager import compute_encoder_budget
@@ -49,6 +51,7 @@ from vllm.v1.spec_decode.metadata import SpecDecodeMetadata
 from vllm.v1.spec_decode.ngram_proposer import NgramProposer
 from vllm.v1.spec_decode.utils import is_spec_decode_supported
 from vllm.v1.utils import bind_kv_cache
+from vllm.v1.worker.block_table import BlockTable
 from vllm.v1.worker.gpu_input_batch import CachedRequestState, InputBatch
 from vllm.v1.worker.lora_model_runner_mixin import LoRAModelRunnerMixin
 
@@ -100,59 +103,17 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             self.kv_cache_dtype = STR_DTYPE_TO_TORCH_DTYPE[
                 cache_config.cache_dtype]
 
-        # NOTE(woosuk): sliding_window is None for models with interleaved
-        # attention. Use interleaved_sliding_window instead.
-        self.sliding_window = model_config.get_sliding_window()
-        self.interleaved_sliding_window = getattr(
-            model_config.hf_text_config, "interleaved_sliding_window", None)
-        self.window_size = (self.sliding_window
-                            or self.interleaved_sliding_window)
-
         self.is_multimodal_model = model_config.is_multimodal_model
-        self.block_size = cache_config.block_size
         self.max_model_len = model_config.max_model_len
-        self.max_num_blocks_per_req = cdiv(self.max_model_len, self.block_size)
         self.max_num_tokens = scheduler_config.max_num_batched_tokens
         self.max_num_reqs = scheduler_config.max_num_seqs
 
         # Model-related.
-        self.num_attn_layers = model_config.get_num_layers_by_block_type(
-            parallel_config, LayerBlockType.attention)
         self.num_query_heads = model_config.get_num_attention_heads(
             parallel_config)
-        self.num_kv_heads = model_config.get_num_kv_heads(parallel_config)
-        self.head_size = model_config.get_head_size()
         self.hidden_size = model_config.get_hidden_size()
         self.attention_chunk_size = model_config.attention_chunk_size
 
-        self.attn_backend = get_attn_backend(
-            self.head_size,
-            self.dtype,
-            self.kv_cache_dtype,
-            self.block_size,
-            self.model_config.is_attention_free,
-            use_mla=self.model_config.use_mla,
-        )
-        if self.attn_backend is None:
-            error_msg = (
-                f"Error with get_att_backend: {self.head_size=}, "
-                f"{self.dtype=}, {self.kv_cache_dtype=}, {self.block_size=}, "
-                f"{self.model_config.is_attention_free=}, "
-                f"{self.model_config.use_mla=}")
-            logger.error(error_msg)
-            raise NotImplementedError(
-                "Non-Attention backend is not supported by V1 GPUModelRunner.")
-
-        if self.vllm_config.compilation_config.full_cuda_graph:
-            attn_backend_name = self.attn_backend.__name__
-            flash_attn_version = get_flash_attn_version()
-            if attn_backend_name != "FlashAttentionBackend" or \
-                flash_attn_version != 3:
-                raise ValueError(
-                    f"full_cuda_graph is only supported with "
-                    f"FA3. Current attention backend is {attn_backend_name}, "
-                    f"FlashAttention version is {flash_attn_version}.")
-
         self.cascade_attn_enabled = not self.model_config.disable_cascade_attn
 
         # Multi-modal data support
@@ -174,8 +135,10 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         # self.model: nn.Module  # Set after load_model
         # Initialize in initialize_kv_cache
         self.kv_caches: list[torch.Tensor] = []
+        self.attn_metadata_builders: list[AttentionMetadataBuilder] = []
+        self.attn_backends: list[type[AttentionBackend]] = []
         # self.kv_cache_config: KVCacheConfig
-        # self.attn_metadata_builder: type[AttentionMetadataBuilder]
+        # self.input_batch: InputBatch # Persistent batch.
 
         # req_id -> (input_id -> encoder_output)
         self.encoder_cache: dict[str, dict[int, torch.Tensor]] = {}
@@ -200,16 +163,6 @@ class GPUModelRunner(LoRAModelRunnerMixin):
 
         # Request states.
         self.requests: dict[str, CachedRequestState] = {}
-        # Persistent batch.
-        self.input_batch = InputBatch(
-            max_num_reqs=self.max_num_reqs,
-            max_model_len=self.max_model_len,
-            max_num_blocks_per_req=self.max_num_blocks_per_req,
-            max_num_batched_tokens=self.max_num_tokens,
-            device=self.device,
-            pin_memory=self.pin_memory,
-            vocab_size=model_config.get_vocab_size(),
-        )
 
         self.use_cuda_graph = (self.vllm_config.compilation_config.level
                                == CompilationLevel.PIECEWISE
@@ -304,6 +257,31 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                                         pin_memory=self.pin_memory)
         self.seq_lens_np = self.seq_lens_cpu.numpy()
 
+    def _may_reorder_batch(self, scheduler_output: "SchedulerOutput") -> bool:
+        """
+        Update the order of requests in the batch based on the attention
+        backend's needs. For example, some attention backends (namely MLA) may 
+        want to separate requests based on if the attention computation will be
+        compute-bound or memory-bound.
+
+        Args:
+            scheduler_output: The scheduler output.
+
+        Returns:
+            True if the batch was reordered, False otherwise.
+        """
+        batch_reordered = self.attn_metadata_builders[0].reorder_batch(
+            self.input_batch, scheduler_output)
+
+        # For models with multiple KV cache groups, the groups should agree on
+        # the same order of requests. We ensure this by only allowing the first
+        # group to reorder the batch and asserting that all other groups do not
+        # reorder the batch.
+        for i in range(1, len(self.kv_cache_config.kv_cache_groups)):
+            assert not self.attn_metadata_builders[i].reorder_batch(
+                self.input_batch, scheduler_output)
+        return batch_reordered
+
     def _update_states(self, scheduler_output: "SchedulerOutput") -> None:
         """Update the cached states and the persistent batch with the scheduler
         output.
@@ -440,7 +418,8 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             # Update the block IDs.
             if not req_data.resumed_from_preemption:
                 # Append the new blocks to the existing block IDs.
-                req_state.block_ids.extend(req_data.new_block_ids)
+                for i in range(len(self.kv_cache_config.kv_cache_groups)):
+                    req_state.block_ids[i].extend(req_data.new_block_ids[i])
             else:
                 # The request is resumed from preemption.
                 # Replace the existing block IDs with the new ones.
@@ -498,11 +477,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         if removed_req_indices:
             self.input_batch.condense(removed_req_indices)
 
-        # Some attention backends (namely MLA) may want to separate requests
-        # based on if the attention computation will be compute-bound or
-        # memory-bound. This gives them a hook to do that.
-        batch_reordered = self.attn_metadata_builder.reorder_batch(
-            self.input_batch, scheduler_output)
+        batch_reordered = self._may_reorder_batch(scheduler_output)
 
         if batch_changed or batch_reordered:
             self.input_batch.refresh_sampling_metadata()
@@ -570,21 +545,29 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                            torch.from_numpy(token_indices),
                            out=self.input_ids_cpu[:total_num_scheduled_tokens])
 
-        # Calculate the slot mapping.
-        # E.g., [0, 1, 0, 1, 2, 3, 4, 0, 1, 2]
-        # -> [0, 0, K, K, K + 1, K + 1, K + 2, 2 * K, 2 * K, 2 * K + 1]
-        # where K is the max_num_blocks_per_req and the block size is 2.
-        # NOTE(woosuk): We can't simply use `token_indices // block_size` here
-        # because M (max_model_len) is not necessarily divisible by block_size.
-        block_table_indices = (req_indices * self.max_num_blocks_per_req +
-                               positions_np // self.block_size)
-        block_table_cpu = self.input_batch.block_table.get_cpu_tensor()
-        block_numbers = block_table_cpu.flatten()[block_table_indices].numpy()
-        block_offsets = positions_np % self.block_size
-        np.add(block_numbers * self.block_size,
-               block_offsets,
-               out=self.input_batch.block_table.
-               slot_mapping_np[:total_num_scheduled_tokens])
+        # Calculate the slot mapping for each KV cache group.
+        for kv_cache_group_id, kv_cache_group_spec in enumerate(
+                self.kv_cache_config.kv_cache_groups):
+            block_size = kv_cache_group_spec.kv_cache_spec.block_size
+            block_table: BlockTable = self.input_batch.block_table[
+                kv_cache_group_id]
+            # E.g., [0, 1, 0, 1, 2, 3, 4, 0, 1, 2]
+            # -> [0, 0, K, K, K + 1, K + 1, K + 2, 2 * K, 2 * K, 2 * K + 1]
+            # where K is the max_num_blocks_per_req and the block size is 2.
+            # NOTE(woosuk): We can't simply use `token_indices // block_size`
+            # here because M (max_model_len) is not necessarily divisible by
+            # block_size.
+            block_table_indices = (
+                req_indices * block_table.max_num_blocks_per_req +
+                positions_np // block_size)
+            block_table_cpu = block_table.get_cpu_tensor()
+            block_numbers = block_table_cpu.flatten(
+            )[block_table_indices].numpy()
+            block_offsets = positions_np % block_size
+            np.add(
+                block_numbers * block_size,
+                block_offsets,
+                out=block_table.slot_mapping_np[:total_num_scheduled_tokens])
 
         # Prepare the attention metadata.
         self.query_start_loc_np[0] = 0
@@ -626,10 +609,6 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         attn_metadata: dict[str, FlashAttentionMetadata] = {}
         # Prepare the attention metadata for each KV cache group and make layers
         # in the same group share the same metadata.
-        # NOTE(Chen): there is exactly one KV cache group that contains all
-        # attetnion layers in the model for now, so the current logic for
-        # getting attn_metadata is not related to kv_cache_group information.
-        # Will extend this part to support multiple KV cache groups later.
         for kv_cache_group_id, kv_cache_group_spec in enumerate(
                 self.kv_cache_config.kv_cache_groups):
 
@@ -638,15 +617,19 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             if self.cascade_attn_enabled:
                 common_prefix_len = self._compute_cascade_attn_prefix_len(
                     num_scheduled_tokens,
-                    scheduler_output.num_common_prefix_blocks,
+                    scheduler_output.
+                    num_common_prefix_blocks[kv_cache_group_id],
+                    kv_cache_group_spec.kv_cache_spec,
+                    self.attn_metadata_builders[kv_cache_group_id],
                 )
 
-            attn_metadata_i = self.attn_metadata_builder.build(
-                num_reqs=num_reqs,
-                num_actual_tokens=total_num_scheduled_tokens,
-                max_query_len=max_num_scheduled_tokens,
-                common_prefix_len=common_prefix_len,
-                common_attn_metadata=common_attn_metadata)
+            attn_metadata_i = (
+                self.attn_metadata_builders[kv_cache_group_id].build(
+                    num_reqs=num_reqs,
+                    num_actual_tokens=total_num_scheduled_tokens,
+                    max_query_len=max_num_scheduled_tokens,
+                    common_prefix_len=common_prefix_len,
+                    common_attn_metadata=common_attn_metadata))
             for layer_name in kv_cache_group_spec.layer_names:
                 attn_metadata[layer_name] = attn_metadata_i
 
@@ -684,6 +667,8 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         self,
         num_scheduled_tokens: np.ndarray,
         num_common_prefix_blocks: int,
+        kv_cache_spec: KVCacheSpec,
+        attn_metadata_builder: AttentionMetadataBuilder,
     ) -> int:
         """Compute the length of the common prefix for cascade attention.
 
@@ -702,7 +687,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         Returns:
             int: Length of common prefix in tokens.
         """
-        common_prefix_len = num_common_prefix_blocks * self.block_size
+        common_prefix_len = num_common_prefix_blocks * kv_cache_spec.block_size
         if common_prefix_len == 0:
             # Common case.
             return 0
@@ -751,15 +736,19 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             common_prefix_len,
             self.input_batch.num_computed_tokens_cpu[:num_reqs].min())
         # common_prefix_len should be a multiple of the block size.
-        common_prefix_len = (common_prefix_len // self.block_size *
-                             self.block_size)
-        use_cascade = self.attn_metadata_builder.use_cascade_attention(
+        common_prefix_len = (common_prefix_len // kv_cache_spec.block_size *
+                             kv_cache_spec.block_size)
+        use_sliding_window = (isinstance(kv_cache_spec, SlidingWindowSpec) or
+                              (isinstance(kv_cache_spec, FullAttentionSpec)
+                               and kv_cache_spec.sliding_window is not None))
+        assert isinstance(kv_cache_spec, AttentionSpec)
+        use_cascade = attn_metadata_builder.use_cascade_attention(
             common_prefix_len=common_prefix_len,
             query_lens=num_scheduled_tokens,
             num_query_heads=self.num_query_heads,
-            num_kv_heads=self.num_kv_heads,
+            num_kv_heads=kv_cache_spec.num_kv_heads,
             use_alibi=self.use_alibi,
-            use_sliding_window=self.window_size is not None,
+            use_sliding_window=use_sliding_window,
             num_sms=self.num_sms,
         )
         return common_prefix_len if use_cascade else 0
@@ -1577,7 +1566,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                                         dtype=np.int32)
 
         if skip_attn:
-            attn_metadata = None
+            attn_metadata: Optional[dict[str, FlashAttentionMetadata]] = None
         else:
             query_start_loc = self.query_start_loc[:num_reqs + 1]
             seq_lens = self.seq_lens[:num_reqs]
@@ -1585,13 +1574,19 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             common_attn_metadata = CommonAttentionMetadata(
                 query_start_loc=query_start_loc, seq_lens=seq_lens)
 
-            attn_metadata = self.attn_metadata_builder.build(
-                num_reqs=num_tokens,
-                num_actual_tokens=num_tokens,
-                max_query_len=num_tokens,
-                common_prefix_len=0,
-                common_attn_metadata=common_attn_metadata,
-            )
+            attn_metadata = {}
+            for kv_cache_group_id, kv_cache_group_spec in enumerate(
+                    self.kv_cache_config.kv_cache_groups):
+                attn_metadata_i = (
+                    self.attn_metadata_builders[kv_cache_group_id].build(
+                        num_reqs=num_tokens,
+                        num_actual_tokens=num_tokens,
+                        max_query_len=num_tokens,
+                        common_prefix_len=0,
+                        common_attn_metadata=common_attn_metadata,
+                    ))
+                for layer_name in kv_cache_group_spec.layer_names:
+                    attn_metadata[layer_name] = attn_metadata_i
 
         with self.maybe_dummy_run_with_lora(self.lora_config,
                                             num_scheduled_tokens):
@@ -1822,6 +1817,56 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         logger.info("Graph capturing finished in %.0f secs, took %.2f GiB",
                     elapsed_time, cuda_graph_size / (1 << 30))
 
+    def initialize_attn_backend(self, kv_cache_config: KVCacheConfig) -> None:
+        """
+        Initialize the attention backends and attention metadata builders.
+        """
+        assert len(self.attn_backends) == 0 and len(
+            self.attn_metadata_builders
+        ) == 0, "Attention backends are already initialized"
+        for i, kv_cache_group_spec in enumerate(
+                kv_cache_config.kv_cache_groups):
+            kv_cache_spec = kv_cache_group_spec.kv_cache_spec
+            if not isinstance(kv_cache_spec, AttentionSpec):
+                raise NotImplementedError(
+                    "Only AttentionSpec is supported for now.")
+            attn_backend_i = get_attn_backend(
+                kv_cache_spec.head_size,
+                self.dtype,
+                kv_cache_spec.dtype,
+                kv_cache_spec.block_size,
+                self.model_config.is_attention_free,
+                use_mla=kv_cache_spec.use_mla,
+            )
+            if attn_backend_i is None:
+                error_msg = (
+                    f"Error with get_attn_backend: {kv_cache_spec.head_size=}, "
+                    f"{self.dtype=}, {kv_cache_spec.dtype=}, "
+                    f"{kv_cache_spec.block_size=}, "
+                    f"{self.model_config.is_attention_free=}, "
+                    f"{kv_cache_spec.use_mla=}")
+                logger.error(error_msg)
+                raise NotImplementedError(
+                    "Non-Attention backend is not supported by V1 "
+                    "GPUModelRunner.")
+
+            if self.vllm_config.compilation_config.full_cuda_graph:
+                attn_backend_name = attn_backend_i.__name__
+                flash_attn_version = get_flash_attn_version()
+                if attn_backend_name != "FlashAttentionBackend" or \
+                    flash_attn_version != 3:
+                    raise ValueError(
+                        f"full_cuda_graph is only supported with "
+                        f"FA3. Current attention backend is "
+                        f"{attn_backend_name}, FlashAttention version is "
+                        f"{flash_attn_version}.")
+
+            block_table_i = self.input_batch.block_table[i]
+            attn_metadata_builder_i = attn_backend_i.get_builder_cls()(
+                weakref.proxy(self), kv_cache_spec, block_table_i)
+            self.attn_backends.append(attn_backend_i)
+            self.attn_metadata_builders.append(attn_metadata_builder_i)
+
     def initialize_kv_cache(self, kv_cache_config: KVCacheConfig) -> None:
         """
         Initialize KV cache based on `kv_cache_config`.
@@ -1829,15 +1874,21 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             kv_cache_config: Configuration for the KV cache, including the KV
             cache size of each layer
         """
-        if len(kv_cache_config.kv_cache_groups) > 1:
-            raise NotImplementedError(
-                "Hybrid models with more than one KV cache type are not "
-                "supported yet.")
         self.kv_cache_config = kv_cache_config
+        self.input_batch = InputBatch(
+            max_num_reqs=self.max_num_reqs,
+            max_model_len=self.max_model_len,
+            max_num_batched_tokens=self.max_num_tokens,
+            device=self.device,
+            pin_memory=self.pin_memory,
+            vocab_size=self.model_config.get_vocab_size(),
+            kv_cache_config=kv_cache_config,
+        )
+        self.initialize_attn_backend(kv_cache_config)
 
         kv_caches: dict[str, torch.Tensor] = {}
 
-        for kv_cache_group in kv_cache_config.kv_cache_groups:
+        for i, kv_cache_group in enumerate(kv_cache_config.kv_cache_groups):
             kv_cache_spec = kv_cache_group.kv_cache_spec
             for layer_name in kv_cache_group.layer_names:
                 tensor_config = kv_cache_config.tensors[layer_name]
@@ -1852,7 +1903,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                 # the min of all `num_blocks`. Verify it here.
                 assert num_blocks >= kv_cache_config.num_blocks
                 if isinstance(kv_cache_spec, AttentionSpec):
-                    kv_cache_shape = self.attn_backend.get_kv_cache_shape(
+                    kv_cache_shape = self.attn_backends[i].get_kv_cache_shape(
                         num_blocks, kv_cache_spec.block_size,
                         kv_cache_spec.num_kv_heads, kv_cache_spec.head_size)
                     dtype = kv_cache_spec.dtype
@@ -1872,11 +1923,6 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         if has_kv_transfer_group():
             get_kv_transfer_group().register_kv_caches(kv_caches)
 
-        self.attn_metadata_builder = self.attn_backend.get_builder_cls()(
-            weakref.proxy(self),
-            kv_cache_config.kv_cache_groups[0].kv_cache_spec,
-            self.input_batch.block_table)
-
     def get_kv_cache_spec(self) -> dict[str, KVCacheSpec]:
         """
         Generates the KVCacheSpec by parsing the kv cache format from each
diff --git a/vllm/v1/worker/tpu_model_runner.py b/vllm/v1/worker/tpu_model_runner.py
index b4daf5a34..2da996964 100644
--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@@ -171,19 +171,10 @@ class TPUModelRunner(LoRAModelRunnerMixin):
         self.kv_caches: list[torch.Tensor] = []
         # req_id -> (input_id -> encoder_output)
         self.encoder_cache: dict[str, dict[int, torch.Tensor]] = {}
+        # self.input_batch: InputBatch  # Persistent batch.
 
         # Request states.
         self.requests: dict[str, CachedRequestState] = {}
-        # Persistent batch.
-        self.input_batch = InputBatch(
-            max_num_reqs=self.max_num_reqs,
-            max_model_len=self.max_model_len,
-            max_num_blocks_per_req=self.max_num_blocks_per_req,
-            max_num_batched_tokens=self.max_num_tokens,
-            device=self.device,
-            pin_memory=self.pin_memory,
-            vocab_size=self.vocab_size,
-        )
 
         # Cached torch/numpy tensor
         # The pytorch tensor and numpy array share the same buffer.
@@ -199,7 +190,7 @@ class TPUModelRunner(LoRAModelRunnerMixin):
 
         self.block_table_cpu = torch.zeros(
             (self.max_num_reqs, self.max_num_blocks_per_req),
-            dtype=self.input_batch.block_table.get_cpu_tensor().dtype,
+            dtype=torch.int32,
             device="cpu")
 
         self.query_start_loc_cpu = torch.zeros(self.max_num_tokens + 1,
@@ -524,12 +515,12 @@ class TPUModelRunner(LoRAModelRunnerMixin):
         # NOTE(woosuk): We use torch.index_select instead of np.take here
         # because torch.index_select is much faster than np.take for large
         # tensors.
-        block_table_cpu = self.input_batch.block_table.get_cpu_tensor()
+        block_table_cpu = self.input_batch.block_table[0].get_cpu_tensor()
         block_numbers = block_table_cpu.flatten()[block_table_indices].numpy()
         block_offsets = positions_np % self.block_size
         np.add(block_numbers * self.block_size,
                block_offsets,
-               out=self.input_batch.block_table.
+               out=self.input_batch.block_table[0].
                slot_mapping_np[:total_num_scheduled_tokens])
 
         # Prepare the attention metadata.
@@ -554,15 +545,15 @@ class TPUModelRunner(LoRAModelRunnerMixin):
         self.position_ids = self.positions_cpu[:
                                                padded_total_num_scheduled_tokens].to(
                                                    self.device)
-        self.input_batch.block_table.slot_mapping_cpu[
+        self.input_batch.block_table[0].slot_mapping_cpu[
             total_num_scheduled_tokens:] = _PAD_SLOT_ID
         slot_mapping = (
-            self.input_batch.block_table.
+            self.input_batch.block_table[0].
             slot_mapping_cpu[:padded_total_num_scheduled_tokens].to(
                 self.device))
         block_tables = self.block_table_cpu[:self.max_num_reqs]
         block_tables[:num_reqs, :self.max_num_blocks_per_req] = (
-            self.input_batch.block_table.get_cpu_tensor()[:num_reqs])
+            self.input_batch.block_table[0].get_cpu_tensor()[:num_reqs])
         block_tables = block_tables.to(self.device)
         query_start_loc = self.query_start_loc_cpu[:self.max_num_reqs + 1].to(
             self.device)
@@ -1263,6 +1254,18 @@ class TPUModelRunner(LoRAModelRunnerMixin):
                 "Hybrid models with more than one KV cache type are not "
                 "supported yet.")
 
+        self.input_batch = InputBatch(
+            max_num_reqs=self.max_num_reqs,
+            max_model_len=self.max_model_len,
+            max_num_batched_tokens=self.max_num_tokens,
+            device=self.device,
+            pin_memory=self.pin_memory,
+            vocab_size=self.model_config.get_vocab_size(),
+            kv_cache_config=kv_cache_config,
+        )
+        assert self.block_table_cpu.dtype == self.input_batch.block_table[
+            0].get_cpu_tensor().dtype
+
         kv_caches: dict[str, torch.Tensor] = {}
 
         for kv_cache_group in kv_cache_config.kv_cache_groups:
-- 
GitLab


From 65334ef3b9e4fd32ebc5c4e512debc25d5025488 Mon Sep 17 00:00:00 2001
From: Mark McLoughlin <markmc@redhat.com>
Date: Thu, 15 May 2025 04:13:17 +0100
Subject: [PATCH 385/461] [V1][Metrics] Remove unused code (#18158)

Signed-off-by: Mark McLoughlin <markmc@redhat.com>
---
 .buildkite/test-pipeline.yaml |   1 -
 tests/v1/test_stats.py        | 302 -----------------------
 vllm/v1/stats/__init__.py     |   0
 vllm/v1/stats/common.py       | 453 ----------------------------------
 4 files changed, 756 deletions(-)
 delete mode 100644 tests/v1/test_stats.py
 delete mode 100644 vllm/v1/stats/__init__.py
 delete mode 100644 vllm/v1/stats/common.py

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 1040d1e1b..1eb3e1f4c 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -216,7 +216,6 @@ steps:
     - pytest -v -s v1/spec_decode
     - pytest -v -s v1/kv_connector/unit
     - pytest -v -s v1/test_serial_utils.py
-    - pytest -v -s v1/test_stats.py
     - pytest -v -s v1/test_utils.py
     - pytest -v -s v1/test_oracle.py
     # TODO: accuracy does not match, whether setting
diff --git a/tests/v1/test_stats.py b/tests/v1/test_stats.py
deleted file mode 100644
index 48419d8a2..000000000
--- a/tests/v1/test_stats.py
+++ /dev/null
@@ -1,302 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-
-import pytest
-
-from vllm.sampling_params import SamplingParams
-from vllm.v1.stats.common import RequestStats, RequestStatsUpdate
-
-
-def make_update(
-    request_id: str,
-    update_type: RequestStatsUpdate.Type,
-    monotonic_ts_s: float,
-    **kwargs,
-):
-    if update_type == RequestStatsUpdate.Type.INPUT_PROCESSED:
-        kwargs.setdefault("sampling_params", SamplingParams(n=1))
-        kwargs.setdefault("num_prompt_tokens", 10)
-    elif update_type == RequestStatsUpdate.Type.PREFILLING:
-        kwargs.setdefault("num_computed_tokens", 10)
-        kwargs.setdefault("num_cached_tokens", 10)
-    elif update_type == RequestStatsUpdate.Type.DETOKENIZED:
-        kwargs.setdefault("num_new_tokens", 10)
-    elif update_type == RequestStatsUpdate.Type.FINISHED:
-        kwargs.setdefault("finish_reason", "test_reason")
-
-    return RequestStatsUpdate(
-        request_id=request_id,
-        type=update_type,
-        monotonic_ts_s=monotonic_ts_s,
-        **kwargs,
-    )
-
-
-def test_invalid_request_update():
-    request_id = "test_request"
-    update_specific_required_fields = {
-        RequestStatsUpdate.Type.INPUT_PROCESSED: [
-            "sampling_params",
-            "num_prompt_tokens",
-        ],
-        RequestStatsUpdate.Type.PREFILLING: [
-            "num_computed_tokens",
-            "num_cached_tokens",
-        ],
-        RequestStatsUpdate.Type.DETOKENIZED: ["num_new_tokens"],
-        RequestStatsUpdate.Type.FINISHED: ["finish_reason"],
-    }
-
-    # Missing a required field should raise an assertion error.
-    for update_type in RequestStatsUpdate.Type:
-        required_fields = update_specific_required_fields.get(update_type, [])
-
-        # Try to miss one of the required fields.
-        kwargs = {field: object() for field in required_fields}
-        for field in required_fields:
-            copy_kwargs = kwargs.copy()
-            copy_kwargs.pop(field)
-            with pytest.raises(ValueError):
-                RequestStatsUpdate(
-                    request_id=request_id,
-                    type=update_type,
-                    **copy_kwargs,
-                )
-
-
-def test_invalid_request_update_transition():
-    # Test invalid transition type.
-    for src in RequestStatsUpdate.Type:
-        for dst in RequestStatsUpdate.Type:
-            if dst not in RequestStatsUpdate._VALID_TRANSITIONS[src]:
-                with pytest.raises(AssertionError):
-                    RequestStatsUpdate.check_valid_update(
-                        make_update(
-                            update_type=dst,
-                            request_id="test_request",
-                            monotonic_ts_s=1,
-                        ),
-                        last_update_type=src,
-                        last_updated_ts_s=0,
-                    )
-            else:
-                RequestStatsUpdate.check_valid_update(
-                    make_update(
-                        request_id="test_request",
-                        update_type=dst,
-                        monotonic_ts_s=1,
-                    ),
-                    last_update_type=src,
-                    last_updated_ts_s=0,
-                )
-
-    # Test invalid timestamp.
-    with pytest.raises(AssertionError):
-        RequestStatsUpdate.check_valid_update(
-            make_update(
-                request_id="test_request",
-                update_type=RequestStatsUpdate.Type.ARRIVED,
-                monotonic_ts_s=1,
-            ),
-            last_update_type=None,
-            last_updated_ts_s=2,
-        )
-
-
-def test_lifecycle_updates():
-    request_id = "test_request"
-    stats = RequestStats(request_id=request_id)
-
-    # Test the below scenario:
-    arrived_ts = 0
-    input_processed_ts = 1
-    queued_ts = 2
-    prefilling_ts = 3
-    decoded_ts = 5
-    detokenized_ts = 6
-    decoded_2_ts = 7
-    detokenized_2_ts = 8
-    preempted_ts = 9
-    resumed_ts = 10
-    decoded_3_ts = 11
-    detokenized_3_ts = 12
-    finished_ts = 13
-
-    # Test ARRIVED
-    arrived_update = RequestStatsUpdate(
-        request_id=request_id,
-        type=RequestStatsUpdate.Type.ARRIVED,
-        monotonic_ts_s=arrived_ts,
-    )
-    stats.update_from(arrived_update)
-    assert stats.arrival_ts_s == arrived_ts
-    assert stats.last_updated_ts_s == arrived_ts
-
-    # Test INPUT_PROCESSED
-    sampling_params = SamplingParams(n=1)
-    input_processed_update = RequestStatsUpdate(
-        request_id=request_id,
-        type=RequestStatsUpdate.Type.INPUT_PROCESSED,
-        monotonic_ts_s=input_processed_ts,
-        sampling_params=sampling_params,
-        num_prompt_tokens=6,
-    )
-    stats.update_from(input_processed_update)
-    assert stats.input_processor_end_ts_s == input_processed_ts
-    assert stats.last_updated_ts_s == input_processed_ts
-    assert stats.num_prompt_tokens == 6
-    assert stats.sampling_params == sampling_params
-
-    assert stats.first_token_ts_s is None
-    assert stats.prefill_ts_s is None
-
-    # Test QUEUED
-    queued_update = RequestStatsUpdate(
-        request_id=request_id,
-        type=RequestStatsUpdate.Type.QUEUED,
-        monotonic_ts_s=queued_ts,
-    )
-    stats.update_from(queued_update)
-    assert stats.queued_ts_s == queued_ts
-    assert stats.last_updated_ts_s == queued_ts
-
-    # Test PREFILLING
-    prefilling_update = RequestStatsUpdate(
-        request_id=request_id,
-        type=RequestStatsUpdate.Type.PREFILLING,
-        monotonic_ts_s=prefilling_ts,
-        num_computed_tokens=3,
-        num_cached_tokens=1,
-    )
-    stats.update_from(prefilling_update)
-    assert stats.prefill_ts_s == prefilling_ts
-    assert stats.num_computed_tokens == 3
-    assert stats.num_cached_tokens == 1
-    assert stats.queue_duration_s == prefilling_ts - queued_ts
-
-    # Test DECODING
-    decoded_update = RequestStatsUpdate(
-        request_id=request_id,
-        type=RequestStatsUpdate.Type.DECODING,
-        monotonic_ts_s=decoded_ts,
-    )
-    stats.update_from(decoded_update)
-    assert stats.last_updated_ts_s == decoded_ts
-
-    # Test DETOKENIZED
-    detokenized_update = RequestStatsUpdate(
-        request_id=request_id,
-        type=RequestStatsUpdate.Type.DETOKENIZED,
-        monotonic_ts_s=detokenized_ts,
-        num_new_tokens=1,
-    )
-    stats.update_from(detokenized_update)
-    assert stats.last_updated_ts_s == detokenized_ts
-    assert stats.num_output_tokens == 1
-    # Since arrival
-    assert stats.first_token_latency_s == detokenized_ts - arrived_ts
-    # Since first scheduled
-    assert stats.prefill_latency_s == detokenized_ts - prefilling_ts
-
-    # Test another DECODING and DETOKENIZED should
-    # yield correct inter token latency
-    decoded_update = RequestStatsUpdate(
-        request_id=request_id,
-        type=RequestStatsUpdate.Type.DECODING,
-        monotonic_ts_s=decoded_2_ts,
-    )
-    stats.update_from(decoded_update)
-
-    detokenized_update = RequestStatsUpdate(
-        request_id=request_id,
-        type=RequestStatsUpdate.Type.DETOKENIZED,
-        monotonic_ts_s=detokenized_2_ts,
-        num_new_tokens=1,
-    )
-    stats.update_from(detokenized_update)
-    assert stats.output_token_latency_s_lst == [
-        detokenized_2_ts - detokenized_ts,
-    ]
-    assert stats.num_output_tokens == 2
-
-    # Test PREEMPTED
-    preempted_update = RequestStatsUpdate(
-        request_id=request_id,
-        type=RequestStatsUpdate.Type.PREEMPTED,
-        monotonic_ts_s=preempted_ts,
-    )
-    stats.update_from(preempted_update)
-    assert stats.last_updated_ts_s == preempted_ts
-    assert stats.preempted_ts_s_lst == [preempted_ts]
-    # States should be reset
-    assert stats.num_computed_tokens == 0
-    assert stats.num_cached_tokens == 0
-    # These states should not be reset
-    assert stats.num_output_tokens == 2
-    assert stats.output_token_latency_s_lst == [
-        detokenized_2_ts - detokenized_ts,
-    ]
-    assert stats.prefill_latency_s == prefilling_ts - arrived_ts
-    assert stats.num_prompt_tokens == 6
-    assert stats.prefill_start_ts_s_lst == [prefilling_ts]
-
-    # Test resumed
-    resumed_update = RequestStatsUpdate(
-        request_id=request_id,
-        type=RequestStatsUpdate.Type.PREFILLING,
-        monotonic_ts_s=resumed_ts,
-        num_computed_tokens=6,
-        num_cached_tokens=2,
-    )
-    stats.update_from(resumed_update)
-    # prefill timestamp should not be updated since it's a resumed prefill
-    assert stats.prefill_ts_s == prefilling_ts
-    assert stats.num_computed_tokens == 6
-    assert stats.num_cached_tokens == 2
-    assert stats.prefill_start_ts_s_lst == [
-        prefilling_ts,
-        resumed_ts,
-    ]
-    assert stats.last_updated_ts_s == resumed_ts
-
-    # Test another DECODED/DETOKENIZED should yield correct first token latency.
-    decoded_update = RequestStatsUpdate(
-        request_id=request_id,
-        type=RequestStatsUpdate.Type.DECODING,
-        monotonic_ts_s=decoded_3_ts,
-    )
-    detokenized_update = RequestStatsUpdate(
-        request_id=request_id,
-        type=RequestStatsUpdate.Type.DETOKENIZED,
-        monotonic_ts_s=detokenized_3_ts,
-        num_new_tokens=1,
-    )
-    stats.update_from(decoded_update)
-    stats.update_from(detokenized_update)
-    assert stats.first_token_ts_s == detokenized_ts - arrived_ts
-    assert stats.num_output_tokens == 3
-    assert stats.output_token_latency_s_lst == [
-        detokenized_2_ts - detokenized_ts,
-        detokenized_3_ts - detokenized_2_ts,
-    ]
-
-    # Test FINISHED
-    finished_update = RequestStatsUpdate(
-        request_id=request_id,
-        type=RequestStatsUpdate.Type.FINISHED,
-        monotonic_ts_s=finished_ts,
-        finish_reason="test_reason",
-    )
-    stats.update_from(finished_update)
-    assert stats.last_updated_ts_s == finished_ts
-    assert stats.e2e_latency_s == finished_ts - arrived_ts
-    assert stats.inference_latency_s == finished_ts - prefilling_ts
-    assert stats.prefill_latency_s == detokenized_ts - prefilling_ts
-    assert stats.decode_latency_s == finished_ts - detokenized_ts
-    assert stats.first_token_latency_s == detokenized_ts - arrived_ts
-    assert stats.queue_duration_s == prefilling_ts - queued_ts
-    assert stats.is_finished
-    assert stats.finish_reason == "test_reason"
-
-    # TODO(rickyx): Add model forward/execute time.
-    assert stats.model_forward_duration_s == 0.0
-    assert stats.model_execute_duration_s == 0.0
diff --git a/vllm/v1/stats/__init__.py b/vllm/v1/stats/__init__.py
deleted file mode 100644
index e69de29bb..000000000
diff --git a/vllm/v1/stats/common.py b/vllm/v1/stats/common.py
deleted file mode 100644
index 46818977d..000000000
--- a/vllm/v1/stats/common.py
+++ /dev/null
@@ -1,453 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-
-import time
-from dataclasses import dataclass
-from dataclasses import field as dataclass_field
-from enum import IntEnum
-from typing import ClassVar, Optional
-
-import msgspec
-from msgspec import field as msgspec_field
-
-from vllm.sampling_params import SamplingParams
-
-
-class RequestStatsUpdate(
-        msgspec.Struct,  # type: ignore
-        array_like=True,
-        omit_defaults=True,
-        gc=False):
-    """
-    An update to the request stats.
-
-    This represents a stats update at a specific timestamp with metadata
-    associated with the update.
-
-    NOTE: since there might be multiple processes generating updates at
-    different parts of the engine (e.g. input processor, scheduler, engine core,
-    etc.), we use the monotonic timestamp to record the update to compute any
-    intervals, and explicit wall-clock timestamp should be used for timestamps.
-
-    WARNING: This assumes stats are generated in a single machine. If there are
-    potentially multiple machines, one should always generate the stats updates
-    on one single machine or use something else.
-    """
-
-    class Type(IntEnum):
-        """See `RequestStats` for the lifecycle of a request."""
-
-        # Request arrived at the engine frontend.
-        ARRIVED = 0
-        # Input processed by the input processor.
-        INPUT_PROCESSED = 1
-        # Queued on the engine core.
-        QUEUED = 2
-        # Scheduled running prefill by the scheduler.
-        # A request could be running a new prefill on the prompt tokens or
-        # a resumed prefill on the original prefill tokens + generated output
-        # tokens before preemption.
-        PREFILLING = 3
-        # Preempted by the scheduler.
-        PREEMPTED = 4
-        # Output token is generated by the engine core.
-        DECODING = 5
-        # Token detokenized by the detokenizer.
-        # We will record the timestamp for each output token, as well as the
-        # finish reason.
-        DETOKENIZED = 6
-        # Request finishes (or aborts).
-        FINISHED = 7
-
-    """
-    Valid state updates:
-    ARRIVED
-    │
-    ├──────► INPUT_PROCESSED ──────► QUEUED ──────► PREFILLING ◄────┐
-    │              │                   │              │             │
-    │              │                   │              ▼             │
-    │              │                   │       -──► DECODING        │
-    │              │                   │       |      │             │
-    │              │                   │       |      ▼             │
-    │              │                   │       └─ DETOKENIZED       │
-    │              │                   │              │             │
-    │              │                   │              ▼             │
-    │              ▼                   ▼           PREEMPTED ◄──────┘
-    │              │                   │              │
-    └──────────────┴───────────────────┴──────────────┴
-                                │
-                                ▼
-                FINISHED (All could go to FINISHED)
-    """
-    _VALID_TRANSITIONS: ClassVar[dict[Type, set[Type]]] = {
-        Type.ARRIVED: {
-            Type.INPUT_PROCESSED,
-            Type.FINISHED,
-        },
-        Type.INPUT_PROCESSED: {
-            Type.QUEUED,
-            Type.FINISHED,
-        },
-        Type.QUEUED: {
-            Type.PREFILLING,
-            Type.FINISHED,
-        },
-        Type.PREFILLING: {
-            Type.DECODING,
-            Type.PREEMPTED,
-            Type.FINISHED,
-        },
-        Type.DECODING: {
-            Type.DETOKENIZED,
-            Type.FINISHED,
-        },
-        Type.DETOKENIZED: {
-            Type.DECODING,
-            Type.PREEMPTED,
-            Type.FINISHED,
-        },
-        Type.PREEMPTED: {Type.PREFILLING, Type.FINISHED},
-        Type.FINISHED: set(),
-    }
-
-    request_id: str
-
-    type: Type
-
-    # Timestamp when the update is recorded. This is used to record time
-    # intervals between events rather than wall clock time.
-    monotonic_ts_s: float = msgspec_field(
-        default_factory=lambda: time.monotonic())
-
-    ############################################################
-    # Metadata associated with the update.
-    ############################################################
-    # For input_processed. Metadata needed for stats logging.
-    num_prompt_tokens: Optional[int] = None
-    sampling_params: Optional[SamplingParams] = None
-
-    # For running.
-    # Number of tokens computed when scheduled to run.
-    num_computed_tokens: Optional[int] = None
-    # Number of cached tokens when scheduled to run.
-    num_cached_tokens: Optional[int] = None
-
-    # For decoded.
-    # The number of new output tokens generated.
-    num_new_tokens: Optional[int] = None
-
-    # For both detokenized and decoded.
-    # Finished reason.
-    finish_reason: Optional[str] = None
-
-    # Non-optional fields for each update type.
-    _REQUIRED_FIELDS: ClassVar[dict[Type, list[str]]] = {
-        Type.INPUT_PROCESSED: ["num_prompt_tokens", "sampling_params"],
-        Type.PREFILLING: ["num_computed_tokens", "num_cached_tokens"],
-        Type.DETOKENIZED: ["num_new_tokens"],
-        Type.FINISHED: ["finish_reason"],
-    }
-
-    def __post_init__(self):
-        required_fields = self._REQUIRED_FIELDS.get(self.type, [])
-        for field in required_fields:
-            if getattr(self, field) is None:
-                raise ValueError(
-                    f"Field {field} is required for update type {self.type}.")
-
-    @staticmethod
-    def check_valid_update(
-        update: "RequestStatsUpdate",
-        last_update_type: Optional[Type],
-        last_updated_ts_s: Optional[float],
-    ):
-        if last_update_type is None:
-            assert update.type == RequestStatsUpdate.Type.ARRIVED
-        else:
-            valid_cur_update_types = RequestStatsUpdate._VALID_TRANSITIONS[
-                last_update_type]
-            assert update.type in valid_cur_update_types, (
-                f"Invalid update type: {update.type} for last_update_type: "
-                f"{last_update_type}.")
-
-        if last_updated_ts_s is not None:
-            assert update.monotonic_ts_s >= last_updated_ts_s, (
-                "Update timestamp must be monotonically increasing, but "
-                f"last_updated_ts_s={last_updated_ts_s} and "
-                f"update.monotonic_ts_s={update.monotonic_ts_s}.")
-
-
-@dataclass
-class RequestStats:
-    """Stats associated with a request (`Request`)."""
-
-    ############################################################
-    # Metadata
-    ############################################################
-    request_id: str
-    sampling_params: Optional[SamplingParams] = None
-    num_prompt_tokens: Optional[int] = None
-
-    ############################################################
-    # Metrics and Stats
-    ############################################################
-    # Timestamp when the request was last updated.
-    last_updated_ts_s: Optional[float] = None
-
-    # Last update stats type.
-    last_update_type: Optional[RequestStatsUpdate.Type] = None
-
-    # Timestamp when the request arrived at the llm engine.
-    arrival_ts_s: Optional[float] = None
-
-    # Number of tokens cached. When part of the request prefix is cached,
-    # this will be set.
-    num_cached_tokens: int = 0
-
-    # Number of tokens computed.
-    num_computed_tokens: int = 0
-
-    # The timestamp when the request become waiting in the queue.
-    queued_ts_s: Optional[float] = None
-
-    # When the input processor is completed.
-    input_processor_end_ts_s: Optional[float] = None
-
-    # A sorted list of timestamps when the request was scheduled to prefill.
-    # This could be when:
-    # 1. the request is newly scheduled, so it's a new prefill.
-    # 2. the request was preempted and resumed. It is equivalent to running
-    #    a prefill of the original prefill tokens + generated output tokens
-    #    before preemption.
-    prefill_start_ts_s_lst: list[float] = dataclass_field(default_factory=list)
-
-    # A list of timestamps when a token is decoded by the engine core.
-    decoding_ts_s_lst: list[float] = dataclass_field(default_factory=list)
-
-    # A sorted list of timestamps for each output token.
-    output_token_ts_s_lst: list[float] = dataclass_field(default_factory=list)
-
-    # First token's timestamp.
-    first_token_ts_s: Optional[float] = None
-
-    # TODO(rickyx): we need model runner to surface these.
-    model_forward_duration_s: float = 0.0
-    # Includes model forward, block/sync across workers, cpu-gpu sync time
-    # and sampling time.
-    model_execute_duration_s: float = 0.0
-
-    # A sorted list of timestamps when the request was preempted at the
-    # scheduler.
-    # TODO(rickyx): right now, we don't actually have a good high-level
-    # metric to measure the impact of preemption other than observation of
-    # large P99 TPOT. Ideally we could quantify the impact of preemption by
-    # measuring the number of tokens re-computed due to preemption.
-    preempted_ts_s_lst: list[float] = dataclass_field(default_factory=list)
-
-    # Timestamp when the request was finished at the engine core.
-    finished_ts_s: Optional[float] = None
-
-    # Finish reason.
-    finish_reason: Optional[str] = None
-
-    ############################################################
-    # Derived properties.
-    ############################################################
-    @property
-    def prefill_ts_s(self) -> Optional[float]:
-        """The timestamp when the request started prefilling.
-        Since a request could be preempted in decoding and later resumed
-        to prefill the decoded tokens, we use the first prefill start timestamp.
-        """
-        return (self.prefill_start_ts_s_lst[0]
-                if self.prefill_start_ts_s_lst else None)
-
-    @property
-    def e2e_latency_s(self) -> Optional[float]:
-        if self.finished_ts_s is None or self.arrival_ts_s is None:
-            return None
-        assert self.finished_ts_s >= self.arrival_ts_s
-        return self.finished_ts_s - self.arrival_ts_s
-
-    @property
-    def queue_duration_s(self) -> Optional[float]:
-        """How long the request was waiting to run."""
-        if self.queued_ts_s is None or self.prefill_ts_s is None:
-            # Either not queued or not running yet.
-            return None
-        assert self.queued_ts_s <= self.prefill_ts_s
-        return self.prefill_ts_s - self.queued_ts_s
-
-    @property
-    def inference_latency_s(self) -> Optional[float]:
-        """How long the request was running inference
-        (prefill and decode)."""
-        if self.finished_ts_s is None or self.prefill_ts_s is None:
-            return None
-        assert self.finished_ts_s >= self.prefill_ts_s
-        return self.finished_ts_s - self.prefill_ts_s
-
-    @property
-    def first_token_latency_s(self) -> Optional[float]:
-        if self.first_token_ts_s is None or self.arrival_ts_s is None:
-            return None
-        assert self.first_token_ts_s >= self.arrival_ts_s
-        return self.first_token_ts_s - self.arrival_ts_s
-
-    @property
-    def prefill_latency_s(self) -> Optional[float]:
-        if self.first_token_ts_s is None or self.prefill_ts_s is None:
-            return None
-        assert self.first_token_ts_s >= self.prefill_ts_s
-        return self.first_token_ts_s - self.prefill_ts_s
-
-    @property
-    def decode_latency_s(self) -> Optional[float]:
-        if self.e2e_latency_s is None or self.first_token_latency_s is None:
-            return None
-        assert self.e2e_latency_s >= self.first_token_latency_s
-        return self.e2e_latency_s - self.first_token_latency_s
-
-    @property
-    def output_token_latency_s_lst(self) -> list[float]:
-        if len(self.output_token_ts_s_lst) == 0:
-            return []
-        latency_s_lst = []
-        for i in range(1, len(self.output_token_ts_s_lst)):
-            assert (self.output_token_ts_s_lst[i]
-                    >= self.output_token_ts_s_lst[i - 1])
-            latency_s = (self.output_token_ts_s_lst[i] -
-                         self.output_token_ts_s_lst[i - 1])
-            latency_s_lst.append(latency_s)
-        return latency_s_lst
-
-    @property
-    def num_output_tokens(self) -> int:
-        return len(self.output_token_ts_s_lst)
-
-    @property
-    def is_finished(self) -> bool:
-        return self.finished_ts_s is not None
-
-    def update_from(self, update: "RequestStatsUpdate"):
-        RequestStatsUpdate.check_valid_update(update, self.last_update_type,
-                                              self.last_updated_ts_s)
-        ts = update.monotonic_ts_s
-        self.last_updated_ts_s = ts
-        self.last_update_type = update.type
-        if update.type == RequestStatsUpdate.Type.ARRIVED:
-            self.arrival_ts_s = ts
-        elif update.type == RequestStatsUpdate.Type.INPUT_PROCESSED:
-            self.input_processor_end_ts_s = ts
-            self.sampling_params = update.sampling_params
-            self.num_prompt_tokens = update.num_prompt_tokens
-        elif update.type == RequestStatsUpdate.Type.QUEUED:
-            self.queued_ts_s = ts
-        elif update.type == RequestStatsUpdate.Type.PREFILLING:
-            self.prefill_start_ts_s_lst.append(ts)
-            self.num_cached_tokens = update.num_cached_tokens or 0
-            self.num_computed_tokens = update.num_computed_tokens or 0
-        elif update.type == RequestStatsUpdate.Type.PREEMPTED:
-            self._reset_for_preemption(ts)
-        elif update.type == RequestStatsUpdate.Type.DECODING:
-            self.decoding_ts_s_lst.append(ts)
-        elif update.type == RequestStatsUpdate.Type.DETOKENIZED:
-            self._record_detokenized_output(
-                ts,
-                update.num_new_tokens or 0,
-            )
-        elif update.type == RequestStatsUpdate.Type.FINISHED:
-            self.finished_ts_s = ts
-            self.finish_reason = update.finish_reason
-        else:
-            raise ValueError(f"Unknown update type: {update.type}")
-
-    def _record_detokenized_output(
-        self,
-        ts_s: float,
-        num_new_tokens: int,
-    ):
-        # Update if first output token is generated.
-        if len(self.output_token_ts_s_lst) == 0:
-            self.first_token_ts_s = ts_s
-            assert (
-                self.prefill_ts_s is not None
-            ), "Request must be running before generating output tokens."
-
-        # Some X new tokens were generated at the ts.
-        self.output_token_ts_s_lst.extend([ts_s] * num_new_tokens)
-
-    def _reset_for_preemption(self, ts_s: float):
-        self.preempted_ts_s_lst.append(ts_s)
-        # Reset the computed tokens since it might restart the prefill.
-        self.num_computed_tokens = 0
-        # Cached token count might also change when resumed.
-        self.num_cached_tokens = 0
-        # These stats don't change since they happen before request running.
-        # - arrival_ts_s
-        # - input_processor_end_ts_s
-        # - sampling_params
-        # - num_prompt_tokens
-        # - first_token_ts_s
-        #
-        # These stats are accumulated over preemptions:
-        # - output_token_ts_s_lst
-        # - prefill_start_ts_s_lst (after preemption, it will prefill the
-        #   original prefill tokens and any output tokens generated before
-        #   preemption.)
-
-
-@dataclass
-class KVCacheStats:
-    #   KV Cache Usage in %
-    gpu_cache_usage_sys: float = 0.0
-    gpu_prefix_cache_hit_rate: float = 0.0
-
-
-@dataclass
-class SchedulerStats:
-    """Stats associated with the scheduler."""
-
-    # Number of requests currently running.
-    num_running_reqs: int = 0
-    # Number of requests currently waiting.
-    num_waiting_reqs: int = 0
-
-    kv_cache_stats: KVCacheStats = dataclass_field(
-        default_factory=KVCacheStats)
-
-
-@dataclass
-class EngineCoreProcessStats:
-    """Stats associated with the engine core process."""
-
-    # Number of requests currently in the input queue. None if the engine core
-    # is not running in multiprocess mode.
-    input_queue_size: Optional[int] = None
-    # Number of outputs currently in the output queue. None if the engine core
-    # is not running in multiprocess mode.
-    output_queue_size: Optional[int] = None
-
-
-class EngineCoreStatsSnapshot(
-        msgspec.Struct,  # type: ignore
-        array_like=True,
-        omit_defaults=True,
-        gc=False):
-    """
-    A snapshot of the EngineCore's current stats over a period of time.
-    """
-
-    # Snapshot of the scheduler stats.
-    scheduler_stats: SchedulerStats = msgspec_field(
-        default_factory=SchedulerStats)
-
-    # Per request stats updates.
-    requests_stats_updates: list[RequestStatsUpdate] = msgspec_field(
-        default_factory=list)
-
-    # Engine core's queue stats.
-    engine_core_process_stats: EngineCoreProcessStats = msgspec_field(
-        default_factory=EngineCoreProcessStats)
-
-    # TODO(rickyx): Add other components' stats,
-    # e.g. model runner/worker and etc.
-- 
GitLab


From afe3236e90d6eb2f3aa608b3453d82fc42a02c38 Mon Sep 17 00:00:00 2001
From: Aaron Pham <contact@aarnphm.xyz>
Date: Thu, 15 May 2025 01:00:43 -0400
Subject: [PATCH 386/461] [Chore] astral's ty (#18116)

Signed-off-by: Aaron Pham <contact@aarnphm.xyz>
---
 docs/source/getting_started/quickstart.md | 4 ++--
 pyproject.toml                            | 6 ++++++
 2 files changed, 8 insertions(+), 2 deletions(-)

diff --git a/docs/source/getting_started/quickstart.md b/docs/source/getting_started/quickstart.md
index 25189b006..298ba59f7 100644
--- a/docs/source/getting_started/quickstart.md
+++ b/docs/source/getting_started/quickstart.md
@@ -19,8 +19,8 @@ If you are using NVIDIA GPUs, you can install vLLM using [pip](https://pypi.org/
 It's recommended to use [uv](https://docs.astral.sh/uv/), a very fast Python environment manager, to create and manage Python environments. Please follow the [documentation](https://docs.astral.sh/uv/#getting-started) to install `uv`. After installing `uv`, you can create a new Python environment and install vLLM using the following commands:
 
 ```console
-uv venv myenv --python 3.12 --seed
-source myenv/bin/activate
+uv venv --python 3.12 --seed
+source .venv/bin/activate
 uv pip install vllm
 ```
 
diff --git a/pyproject.toml b/pyproject.toml
index 46cf7a801..c3d0440f3 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -170,3 +170,9 @@ plugins.md013.enabled = false # line-length
 plugins.md041.enabled = false # first-line-h1
 plugins.md033.enabled = false # inline-html
 plugins.md024.allow_different_nesting = true # no-duplicate-headers
+
+[tool.ty]
+respect-ignore-files = true
+
+[tool.ty.environment]
+python = "./.venv"
-- 
GitLab


From 2dff093574427b73f360342f2cf34af5328950a5 Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Thu, 15 May 2025 13:02:23 +0800
Subject: [PATCH 387/461] [Misc] add lobe-chat support (#18177)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 docs/source/deployment/frameworks/index.md     |  1 +
 docs/source/deployment/frameworks/lobe-chat.md | 13 +++++++++++++
 2 files changed, 14 insertions(+)
 create mode 100644 docs/source/deployment/frameworks/lobe-chat.md

diff --git a/docs/source/deployment/frameworks/index.md b/docs/source/deployment/frameworks/index.md
index 6708f2c41..9744f5f4d 100644
--- a/docs/source/deployment/frameworks/index.md
+++ b/docs/source/deployment/frameworks/index.md
@@ -10,6 +10,7 @@ chatbox
 dify
 dstack
 helm
+lobe-chat
 lws
 modal
 open-webui
diff --git a/docs/source/deployment/frameworks/lobe-chat.md b/docs/source/deployment/frameworks/lobe-chat.md
new file mode 100644
index 000000000..6d86b7fa9
--- /dev/null
+++ b/docs/source/deployment/frameworks/lobe-chat.md
@@ -0,0 +1,13 @@
+(deployment-lobe-chat)=
+
+# Lobe Chat
+
+[Lobe Chat](https://github.com/lobehub/lobe-chat) is an open-source, modern-design ChatGPT/LLMs UI/Framework.
+
+Supports speech-synthesis, multi-modal, and extensible (function call) plugin system.
+
+One-click FREE deployment of your private OpenAI ChatGPT/Claude/Gemini/Groq/Ollama chat application.
+
+It supports vLLM as a AI model provider to efficiently serve large language models.
+
+For details, see the tutorial [Using vLLM in LobeChat](https://lobehub.com/docs/usage/providers/vllm).
-- 
GitLab


From 83f74c698f1f7c781ae02e3c533a52432799e717 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Luka=20Govedi=C4=8D?=
 <ProExpertProg@users.noreply.github.com>
Date: Thu, 15 May 2025 01:04:43 -0400
Subject: [PATCH 388/461] [Fix][ROCm] Enforce eager for all encoder-decoder
 models on ROCm (#18154)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Luka Govedič <lgovedic@redhat.com>
---
 vllm/config.py | 11 ++++++++---
 1 file changed, 8 insertions(+), 3 deletions(-)

diff --git a/vllm/config.py b/vllm/config.py
index 09e89c111..81cac4d04 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -906,12 +906,17 @@ class ModelConfig:
     def _verify_cuda_graph(self) -> None:
         self.max_seq_len_to_capture = min(self.max_seq_len_to_capture,
                                           self.max_model_len)
+        # CUDAGraph capture not supported for enc-dec models and mllama on ROCm
         ROCM_UNSUPPORTED_MODELS = ['mllama']
-        if (self.hf_config.model_type in ROCM_UNSUPPORTED_MODELS
-                and not self.enforce_eager and current_platform.is_rocm()):
+        unsupported_rocm = (self.hf_config.model_type
+                            in ROCM_UNSUPPORTED_MODELS
+                            or self.is_encoder_decoder)
+
+        if (unsupported_rocm and not self.enforce_eager
+                and current_platform.is_rocm()):
             logger.warning(
                 "CUDA graph is not supported for %s on ROCm yet, fallback "
-                "to the eager mode.", self.hf_config.model_type)
+                "to eager mode.", self.hf_config.model_type)
             self.enforce_eager = True
 
     def _verify_bnb_config(self) -> None:
-- 
GitLab


From 26d041930978aa0d06d565d3e1f1e41686ad0c90 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Thu, 15 May 2025 06:06:50 +0100
Subject: [PATCH 389/461] Update deprecated type hinting in `models` (#18132)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 pyproject.toml                                |  1 -
 vllm/model_executor/models/arctic.py          | 13 +--
 vllm/model_executor/models/aria.py            | 20 ++---
 vllm/model_executor/models/aya_vision.py      |  8 +-
 vllm/model_executor/models/baichuan.py        | 15 ++--
 vllm/model_executor/models/bamba.py           | 15 ++--
 vllm/model_executor/models/bart.py            |  7 +-
 vllm/model_executor/models/bert.py            | 13 +--
 vllm/model_executor/models/bert_with_rope.py  | 25 +++---
 vllm/model_executor/models/blip.py            |  9 +-
 vllm/model_executor/models/blip2.py           |  8 +-
 vllm/model_executor/models/bloom.py           |  9 +-
 vllm/model_executor/models/chameleon.py       | 20 ++---
 vllm/model_executor/models/chatglm.py         | 11 +--
 vllm/model_executor/models/clip.py            |  9 +-
 vllm/model_executor/models/commandr.py        | 11 +--
 .../models/constant_size_cache.py             | 12 +--
 vllm/model_executor/models/dbrx.py            |  9 +-
 vllm/model_executor/models/deepseek.py        | 15 ++--
 vllm/model_executor/models/deepseek_mtp.py    |  9 +-
 vllm/model_executor/models/deepseek_v2.py     | 13 +--
 vllm/model_executor/models/deepseek_vl2.py    | 18 ++--
 vllm/model_executor/models/eagle.py           |  5 +-
 vllm/model_executor/models/exaone.py          | 19 ++--
 vllm/model_executor/models/fairseq2_llama.py  |  8 +-
 vllm/model_executor/models/falcon.py          | 13 +--
 vllm/model_executor/models/florence2.py       | 24 ++---
 vllm/model_executor/models/fuyu.py            |  6 +-
 vllm/model_executor/models/gemma.py           | 15 ++--
 vllm/model_executor/models/gemma2.py          | 15 ++--
 vllm/model_executor/models/gemma3.py          | 15 ++--
 vllm/model_executor/models/gemma3_mm.py       |  6 +-
 vllm/model_executor/models/glm4.py            | 11 +--
 vllm/model_executor/models/gpt2.py            |  9 +-
 vllm/model_executor/models/gpt_bigcode.py     | 13 +--
 vllm/model_executor/models/gpt_j.py           | 13 +--
 vllm/model_executor/models/gpt_neox.py        | 13 +--
 vllm/model_executor/models/granite.py         | 17 ++--
 vllm/model_executor/models/granite_speech.py  |  7 +-
 vllm/model_executor/models/granitemoe.py      | 11 +--
 .../model_executor/models/granitemoehybrid.py | 15 ++--
 .../model_executor/models/granitemoeshared.py | 11 +--
 vllm/model_executor/models/grok1.py           | 19 ++--
 .../models/idefics2_vision_model.py           |  9 +-
 vllm/model_executor/models/idefics3.py        |  8 +-
 vllm/model_executor/models/interfaces.py      | 88 +++++++++----------
 vllm/model_executor/models/interfaces_base.py | 26 +++---
 vllm/model_executor/models/intern_vit.py      |  9 +-
 vllm/model_executor/models/internlm2.py       | 19 ++--
 vllm/model_executor/models/internlm2_ve.py    |  4 +-
 vllm/model_executor/models/internvl.py        |  6 +-
 vllm/model_executor/models/jais.py            |  9 +-
 vllm/model_executor/models/jamba.py           | 13 +--
 vllm/model_executor/models/kimi_vl.py         |  9 +-
 vllm/model_executor/models/llama.py           | 19 ++--
 vllm/model_executor/models/llama4.py          | 27 +++---
 vllm/model_executor/models/llama_eagle.py     | 10 +--
 vllm/model_executor/models/llama_eagle3.py    | 13 +--
 vllm/model_executor/models/llava.py           |  8 +-
 vllm/model_executor/models/llava_next.py      | 15 ++--
 .../model_executor/models/llava_next_video.py | 14 +--
 vllm/model_executor/models/llava_onevision.py | 21 +++--
 vllm/model_executor/models/mamba.py           | 17 ++--
 vllm/model_executor/models/mamba2.py          | 13 +--
 vllm/model_executor/models/mamba_cache.py     |  5 +-
 vllm/model_executor/models/medusa.py          | 25 +++---
 vllm/model_executor/models/mimo.py            |  9 +-
 vllm/model_executor/models/mimo_mtp.py        |  9 +-
 vllm/model_executor/models/minicpm.py         | 17 ++--
 vllm/model_executor/models/minicpm3.py        |  4 +-
 vllm/model_executor/models/minicpmo.py        |  7 +-
 vllm/model_executor/models/minicpmv.py        | 13 ++-
 vllm/model_executor/models/minimax_text_01.py | 17 ++--
 vllm/model_executor/models/minimax_vl_01.py   |  6 +-
 vllm/model_executor/models/mistral3.py        |  8 +-
 vllm/model_executor/models/mixtral.py         | 13 +--
 vllm/model_executor/models/mixtral_quant.py   |  9 +-
 vllm/model_executor/models/mllama.py          | 80 ++++++++---------
 vllm/model_executor/models/mllama4.py         | 18 ++--
 vllm/model_executor/models/mlp_speculator.py  | 10 +--
 vllm/model_executor/models/modernbert.py      | 11 +--
 vllm/model_executor/models/module_mapping.py  | 18 ++--
 vllm/model_executor/models/molmo.py           | 32 +++----
 vllm/model_executor/models/moonvit.py         |  7 +-
 vllm/model_executor/models/mpt.py             | 13 +--
 vllm/model_executor/models/nemotron.py        | 15 ++--
 vllm/model_executor/models/nemotron_nas.py    | 17 ++--
 vllm/model_executor/models/olmo.py            | 11 +--
 vllm/model_executor/models/olmo2.py           |  7 +-
 vllm/model_executor/models/olmoe.py           | 15 ++--
 vllm/model_executor/models/opt.py             | 13 +--
 vllm/model_executor/models/orion.py           | 17 ++--
 vllm/model_executor/models/ovis.py            | 10 +--
 vllm/model_executor/models/paligemma.py       |  6 +-
 vllm/model_executor/models/persimmon.py       | 13 +--
 vllm/model_executor/models/phi.py             | 13 +--
 vllm/model_executor/models/phi3_small.py      | 17 ++--
 vllm/model_executor/models/phi3v.py           | 14 +--
 vllm/model_executor/models/phi4mm.py          | 12 +--
 vllm/model_executor/models/phi4mm_audio.py    |  4 +-
 vllm/model_executor/models/phi4mm_utils.py    |  4 +-
 vllm/model_executor/models/phimoe.py          | 13 +--
 vllm/model_executor/models/pixtral.py         | 26 +++---
 vllm/model_executor/models/plamo2.py          |  7 +-
 .../models/prithvi_geospatial_mae.py          |  8 +-
 vllm/model_executor/models/qwen.py            | 13 +--
 vllm/model_executor/models/qwen2.py           | 19 ++--
 .../models/qwen2_5_omni_thinker.py            | 20 ++---
 vllm/model_executor/models/qwen2_5_vl.py      | 20 ++---
 vllm/model_executor/models/qwen2_audio.py     |  6 +-
 vllm/model_executor/models/qwen2_moe.py       | 17 ++--
 vllm/model_executor/models/qwen2_rm.py        |  7 +-
 vllm/model_executor/models/qwen2_vl.py        | 17 ++--
 vllm/model_executor/models/qwen3.py           | 11 +--
 vllm/model_executor/models/qwen3_moe.py       | 15 ++--
 vllm/model_executor/models/qwen_vl.py         |  9 +-
 vllm/model_executor/models/registry.py        | 62 ++++++-------
 vllm/model_executor/models/roberta.py         | 11 +--
 vllm/model_executor/models/siglip.py          | 11 +--
 vllm/model_executor/models/skyworkr1v.py      |  6 +-
 vllm/model_executor/models/smolvlm.py         |  4 +-
 vllm/model_executor/models/solar.py           | 13 +--
 vllm/model_executor/models/stablelm.py        | 15 ++--
 vllm/model_executor/models/starcoder2.py      | 13 +--
 vllm/model_executor/models/telechat2.py       | 12 +--
 vllm/model_executor/models/transformers.py    |  3 +-
 vllm/model_executor/models/ultravox.py        |  6 +-
 vllm/model_executor/models/utils.py           | 50 +++++------
 vllm/model_executor/models/whisper.py         | 22 ++---
 vllm/model_executor/models/zamba2.py          | 25 +++---
 130 files changed, 971 insertions(+), 901 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index c3d0440f3..9465f1e8f 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -77,7 +77,6 @@ exclude = [
 "vllm/engine/**/*.py" = ["UP006", "UP035"]
 "vllm/executor/**/*.py" = ["UP006", "UP035"]
 "vllm/model_executor/model_loader/**/*.py" = ["UP006", "UP035"]
-"vllm/model_executor/models/**/*.py" = ["UP006", "UP035"]
 "vllm/prompt_adapter/**/*.py" = ["UP006", "UP035"]
 "vllm/spec_decode/**/*.py" = ["UP006", "UP035"]
 "vllm/worker/**/*.py" = ["UP006", "UP035"]
diff --git a/vllm/model_executor/models/arctic.py b/vllm/model_executor/models/arctic.py
index c518efdb5..94a432856 100644
--- a/vllm/model_executor/models/arctic.py
+++ b/vllm/model_executor/models/arctic.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 """Inference-only Snowflake Arctic model."""
-from typing import Iterable, List, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -458,8 +459,8 @@ class ArcticForCausalLM(nn.Module, SupportsPP, SupportsQuant):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -467,8 +468,8 @@ class ArcticForCausalLM(nn.Module, SupportsPP, SupportsQuant):
             ("qkv_proj", "v_proj", "v"),
         ]
 
-        mlp_params_mapping: List[Tuple[str, str, int]] = []
-        expert_params_mapping: List[Tuple[str, str, int]] = []
+        mlp_params_mapping: list[tuple[str, str, int]] = []
+        expert_params_mapping: list[tuple[str, str, int]] = []
         num_layers = self.config.num_hidden_layers
 
         for layer in range(num_layers):
@@ -497,7 +498,7 @@ class ArcticForCausalLM(nn.Module, SupportsPP, SupportsQuant):
                         ("ws", f"experts.{expert_id}.w3.weight", expert_id))
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
 
         logger.info(
             "It will take ~10 minutes loading from the 16-bit weights. "
diff --git a/vllm/model_executor/models/aria.py b/vllm/model_executor/models/aria.py
index 7c716efab..f74e13888 100644
--- a/vllm/model_executor/models/aria.py
+++ b/vllm/model_executor/models/aria.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 from collections.abc import Iterable, Mapping, Sequence
-from typing import List, Optional, Set, Tuple, TypedDict, Union
+from typing import Optional, TypedDict, Union
 
 import torch
 import torch.nn as nn
@@ -66,8 +66,8 @@ class AriaVisionTransformer(Idefics3VisionTransformer, SupportsQuant):
         # Identity layer
         self.post_layernorm = nn.Identity()
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -75,7 +75,7 @@ class AriaVisionTransformer(Idefics3VisionTransformer, SupportsQuant):
             ("qkv_proj", "v_proj", "v"),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
 
             # NOTE: post_layernorm is not used in Aria
@@ -326,8 +326,8 @@ class AriaTextModel(LlamaModel, SupportsQuant):
 
     # Adapted from LlamaModel.load_weights with the modification of adding
     # the expert weights mapping to `stacked_params_mapping`
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             (".qkv_proj", ".q_proj", "q"),
@@ -339,7 +339,7 @@ class AriaTextModel(LlamaModel, SupportsQuant):
             ("experts.w2_weight", "experts.fc2.weight", 'w2'),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
@@ -528,7 +528,7 @@ class AriaForConditionalGeneration(nn.Module, SupportsMultiModal):
                                                 self.vocab_size, logit_scale)
 
     def _validate_image_sizes(
-            self, images: List[torch.Tensor]) -> List[torch.Tensor]:
+            self, images: list[torch.Tensor]) -> list[torch.Tensor]:
         if not all(img.shape == images[0].shape for img in images):
             raise ValueError("All images must be the same size")
         return images
@@ -578,7 +578,7 @@ class AriaForConditionalGeneration(nn.Module, SupportsMultiModal):
 
     def _process_image_input(
         self, image_input: AriaImagePixelInputs
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         assert self.vision_tower is not None
 
         pixel_values = image_input['pixel_values']
@@ -651,6 +651,6 @@ class AriaForConditionalGeneration(nn.Module, SupportsMultiModal):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         loader = AutoWeightsLoader(self)
         loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
diff --git a/vllm/model_executor/models/aya_vision.py b/vllm/model_executor/models/aya_vision.py
index d152287e8..08d49d71e 100644
--- a/vllm/model_executor/models/aya_vision.py
+++ b/vllm/model_executor/models/aya_vision.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0 Adapted from
 # https://github.com/huggingface/transformers/tree/main/src/transformers/models/aya_vision
-from typing import (Iterable, Literal, Mapping, Optional, Sequence, Set, Tuple,
-                    TypedDict, Union, cast)
+from collections.abc import Iterable, Mapping, Sequence
+from typing import Literal, Optional, TypedDict, Union, cast
 
 import torch
 from torch import nn
@@ -315,8 +315,8 @@ class AyaVisionForConditionalGeneration(nn.Module, SupportsMultiModal,
     def dtype(self):
         return next(self.parameters()).dtype
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
 
diff --git a/vllm/model_executor/models/baichuan.py b/vllm/model_executor/models/baichuan.py
index 444ed38d0..077e36176 100644
--- a/vllm/model_executor/models/baichuan.py
+++ b/vllm/model_executor/models/baichuan.py
@@ -20,7 +20,8 @@
 # limitations under the License.
 """Inference-only BaiChuan model compatible with HuggingFace weights."""
 import math
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -230,7 +231,7 @@ class BaiChuanDecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         if residual is None:
             residual = hidden_states
@@ -320,15 +321,15 @@ class BaiChuanModel(nn.Module):
         hidden_states, _ = self.norm(hidden_states, residual)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("gate_up_proj", "gate_proj", 0),
             ("gate_up_proj", "up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
@@ -421,8 +422,8 @@ class BaiChuanBaseForCausalLM(nn.Module, SupportsLoRA, SupportsPP,
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
 
diff --git a/vllm/model_executor/models/bamba.py b/vllm/model_executor/models/bamba.py
index 87e1e102e..d6a705fb1 100644
--- a/vllm/model_executor/models/bamba.py
+++ b/vllm/model_executor/models/bamba.py
@@ -1,7 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 """Inference-only Bamba model."""
 # Added by the IBM Team, 2024
-from typing import Iterable, Optional, Set, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 from torch import nn
@@ -355,8 +356,8 @@ class BambaModel(nn.Module):
         hidden_states, _ = self.final_layernorm(hidden_states, residual)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -367,7 +368,7 @@ class BambaModel(nn.Module):
         ]
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
@@ -495,7 +496,7 @@ class BambaForCausalLM(nn.Module, HasInnerState, SupportsLoRA, SupportsPP,
         return self.mamba_cache.get_seqlen_agnostic_capture_inputs(batch_size)
 
     def _get_mamba_cache_shape(
-            self) -> Tuple[Tuple[int, int], Tuple[int, int]]:
+            self) -> tuple[tuple[int, int], tuple[int, int]]:
         world_size = get_tensor_model_parallel_world_size()
         hidden_size = self.config.hidden_size
 
@@ -535,7 +536,7 @@ class BambaForCausalLM(nn.Module, HasInnerState, SupportsLoRA, SupportsPP,
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/bart.py b/vllm/model_executor/models/bart.py
index bcfbe92c3..92bbe1bb6 100644
--- a/vllm/model_executor/models/bart.py
+++ b/vllm/model_executor/models/bart.py
@@ -19,7 +19,8 @@
 # limitations under the License.
 """PyTorch BART model."""
 import math
-from typing import Iterable, Optional, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 from torch import nn
@@ -859,14 +860,14 @@ class BartForConditionalGeneration(nn.Module, SupportsV0Only, SupportsQuant):
     def _rename_stacked_param(
         self,
         name: str,
-    ) -> Tuple[str, Optional[str]]:
+    ) -> tuple[str, Optional[str]]:
         for key, mapping in self.stacked_params_mapping.items():
             if key in name:
                 name = name.replace(key, mapping["param_name"])
                 return name, mapping["shard_id"]
         return name, None
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
 
         model_params_dict = dict(self.model.named_parameters())
         top_params_dict = dict(self.named_parameters())
diff --git a/vllm/model_executor/models/bert.py b/vllm/model_executor/models/bert.py
index 111b49ab8..0c6593bbe 100644
--- a/vllm/model_executor/models/bert.py
+++ b/vllm/model_executor/models/bert.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Iterable, Optional, Set, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 from torch import nn
@@ -349,8 +350,8 @@ class BertModel(nn.Module, SupportsQuant):
                 token_type_ids=token_type_ids)
         return self.encoder(hidden_states)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "query", "q"),
@@ -359,7 +360,7 @@ class BertModel(nn.Module, SupportsQuant):
         ]
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if self.pooler is None and "pooler" in name:
                 continue
@@ -424,7 +425,7 @@ class BertEmbeddingModel(nn.Module, SupportsV0Only, SupportsQuant):
     ) -> Optional[PoolerOutput]:
         return self._pooler(hidden_states, pooling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         weights = self.hf_to_vllm_mapper.apply(weights)
         weights = ((name, data) for name, data in weights
                    if not name.startswith("lm_head."))
@@ -472,7 +473,7 @@ class BertForSequenceClassification(nn.Module, SupportsCrossEncoding,
         self._pooler = CrossEncodingPooler(config, self.classifier,
                                            self.bert.pooler)
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
 
         self_weights = []
 
diff --git a/vllm/model_executor/models/bert_with_rope.py b/vllm/model_executor/models/bert_with_rope.py
index 002949abf..af6deb3bf 100644
--- a/vllm/model_executor/models/bert_with_rope.py
+++ b/vllm/model_executor/models/bert_with_rope.py
@@ -1,5 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
-from typing import Iterable, Optional, Set, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 from torch import nn
@@ -208,7 +209,7 @@ class NomicRouter(nn.Module):
 
     def forward(
         self, x: torch.Tensor
-    ) -> Tuple[torch.Tensor, torch.Tensor, torch.LongTensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.LongTensor]:
         weights = self.layer(x.view(-1, x.shape[-1]))[0].softmax(
             dim=-1, dtype=torch.float32)
         top_weights, top_experts = torch.topk(weights, self.moe_top_k, dim=-1)
@@ -428,8 +429,8 @@ class BertWithRope(nn.Module, SupportsV0Only, SupportsQuant):
                                             token_type_ids=token_type_ids)
         return self.encoder(positions, hidden_states)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         weights = self.hf_to_vllm_mapper.apply(weights)
 
         if self.config.hidden_act in ["silu", "geglu"]:
@@ -442,7 +443,7 @@ class BertWithRope(nn.Module, SupportsV0Only, SupportsQuant):
             stacked_params_mapping = []
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "pooler" in name:
                 continue
@@ -567,7 +568,7 @@ class GteNewModel(BertWithRope):
         }
         return config
 
-    def split_up_gate_proj(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def split_up_gate_proj(self, weights: Iterable[tuple[str, torch.Tensor]]):
         n = "mlp.up_gate_proj"
         for name, weight in weights:
             if n in name:
@@ -578,14 +579,14 @@ class GteNewModel(BertWithRope):
                 yield name, weight
 
     def ignore_unnecessary_layers(self,
-                                  weights: Iterable[Tuple[str, torch.Tensor]]):
+                                  weights: Iterable[tuple[str, torch.Tensor]]):
         for name, weight in weights:
             if name.startswith("classifier"):
                 continue
             yield name, weight
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         weights = self.ignore_unnecessary_layers(weights)
         weights = self.split_up_gate_proj(weights)
         return super().load_weights(weights)
@@ -664,7 +665,7 @@ class JinaRobertaModel(BertWithRope):
                                token_type_ids=token_type_ids)
 
     @torch.inference_mode()
-    def jina_merge_lora_weights(self, weights: Iterable[Tuple[str,
+    def jina_merge_lora_weights(self, weights: Iterable[tuple[str,
                                                               torch.Tensor]]):
         # use for jina-embeddings-v3
         # Merge Lora weights into a single weight tensor.
@@ -707,7 +708,7 @@ class JinaRobertaModel(BertWithRope):
 
         return [(name, weight) for name, weight in weights.items()]
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         weights = self.jina_merge_lora_weights(weights)
         return super().load_weights(weights)
diff --git a/vllm/model_executor/models/blip.py b/vllm/model_executor/models/blip.py
index f3d488926..acbc5d04d 100644
--- a/vllm/model_executor/models/blip.py
+++ b/vllm/model_executor/models/blip.py
@@ -1,7 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 """Minimal implementation of BlipVisionModel intended to be only used 
 within a vision language model."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 import torch.nn as nn
@@ -296,8 +297,8 @@ class BlipVisionModel(nn.Module, SupportsQuant):
 
         return self.post_layernorm(hidden_states)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -305,7 +306,7 @@ class BlipVisionModel(nn.Module, SupportsQuant):
             ("qkv_proj", "v_proj", "v"),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         layer_count = len(self.encoder.layers)
 
         for name, loaded_weight in weights:
diff --git a/vllm/model_executor/models/blip2.py b/vllm/model_executor/models/blip2.py
index f44565bd2..2ff7e394a 100644
--- a/vllm/model_executor/models/blip2.py
+++ b/vllm/model_executor/models/blip2.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from collections.abc import Iterable, Mapping, Sequence
-from typing import Literal, Optional, Set, Tuple, TypedDict, Union
+from typing import Literal, Optional, TypedDict, Union
 
 import torch
 import torch.nn as nn
@@ -186,7 +186,7 @@ class Blip2QFormerAttention(nn.Module):
         self,
         hidden_states: torch.Tensor,
         encoder_hidden_states: Optional[torch.FloatTensor] = None,
-    ) -> Tuple[torch.Tensor]:
+    ) -> tuple[torch.Tensor]:
         self_output = self.attention(
             hidden_states,
             encoder_hidden_states=encoder_hidden_states,
@@ -712,7 +712,7 @@ class Blip2ForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP,
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/bloom.py b/vllm/model_executor/models/bloom.py
index 74d401b29..eb1085d6b 100644
--- a/vllm/model_executor/models/bloom.py
+++ b/vllm/model_executor/models/bloom.py
@@ -18,7 +18,8 @@
 # limitations under the License.
 """Inference-only BLOOM model compatible with HuggingFace weights."""
 import math
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -322,10 +323,10 @@ class BloomForCausalLM(nn.Module, SupportsPP, SupportsV0Only, SupportsQuant):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if name == "lm_head.weight":
                 continue
diff --git a/vllm/model_executor/models/chameleon.py b/vllm/model_executor/models/chameleon.py
index ef8b033f3..a4528ca26 100644
--- a/vllm/model_executor/models/chameleon.py
+++ b/vllm/model_executor/models/chameleon.py
@@ -2,7 +2,7 @@
 
 from collections.abc import Iterable, Mapping, Sequence
 from functools import cached_property
-from typing import Any, Dict, Literal, Optional, Set, Tuple, TypedDict, Union
+from typing import Any, Literal, Optional, TypedDict, Union
 
 import torch
 import torch.nn as nn
@@ -229,7 +229,7 @@ class ChameleonAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 4096,
         quant_config: Optional[QuantizationConfig] = None,
         bias: bool = False,
@@ -292,7 +292,7 @@ class ChameleonAttention(nn.Module):
                               prefix=f"{prefix}.attn")
 
     def _apply_qk_norm(self, q: torch.Tensor,
-                       k: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
+                       k: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
         # reshape for layernorm
         q = q.reshape(-1, self.num_heads, self.head_dim)
         k = k.reshape(-1, self.num_kv_heads, self.head_dim)
@@ -367,7 +367,7 @@ class ChameleonDecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
 
         if residual is None:
             residual = hidden_states
@@ -438,7 +438,7 @@ class ChameleonSwinDecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
 
         residual = hidden_states
         hidden_states = self.self_attn(
@@ -773,7 +773,7 @@ class ChameleonVQVAE(nn.Module):
 
     def encode(
         self, pixel_values: torch.Tensor
-    ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
         hidden_states = self.encoder(pixel_values)
         hidden_states = self.quant_conv(hidden_states)
         quant, emb_loss, indices = self.quantize(hidden_states)
@@ -786,7 +786,7 @@ class ChameleonImageVocabularyMapping:
     A class for mapping discrete image tokens from VQGAN to BPE tokens.
     """
 
-    def __init__(self, vocab_map: Dict[str, int]):
+    def __init__(self, vocab_map: dict[str, int]):
         self.vocab_map = vocab_map
         self.image_token_id = vocab_map.get("<image>")
 
@@ -1052,8 +1052,8 @@ class ChameleonForConditionalGeneration(nn.Module, SupportsMultiModal,
 
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             (".qkv_proj", ".q_proj", "q"),
@@ -1063,7 +1063,7 @@ class ChameleonForConditionalGeneration(nn.Module, SupportsMultiModal,
             (".gate_up_proj", ".up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
diff --git a/vllm/model_executor/models/chatglm.py b/vllm/model_executor/models/chatglm.py
index 233e9ee0a..4e95afe1a 100644
--- a/vllm/model_executor/models/chatglm.py
+++ b/vllm/model_executor/models/chatglm.py
@@ -3,7 +3,8 @@
 # https://github.com/THUDM/ChatGLM2-6B
 """Inference-only ChatGLM model compatible with THUDM weights."""
 import json
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -358,15 +359,15 @@ class ChatGLMModel(nn.Module, SupportsQuant):
 
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("linear_proj.merged_proj", "linear_proj.gate_proj", 0),
             ("linear_proj.merged_proj", "linear_proj.dense_h_to_4h", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
 
         for name, loaded_weight in weights:
             for (param_name, weight_name, shard_id) in stacked_params_mapping:
@@ -440,7 +441,7 @@ class ChatGLMBaseModel(nn.Module):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
 
diff --git a/vllm/model_executor/models/clip.py b/vllm/model_executor/models/clip.py
index 153054e5c..e8f3ae215 100644
--- a/vllm/model_executor/models/clip.py
+++ b/vllm/model_executor/models/clip.py
@@ -1,7 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 """Minimal implementation of CLIPVisionModel intended to be only used
 within a vision language model."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 import torch.nn as nn
@@ -368,8 +369,8 @@ class CLIPVisionModel(nn.Module, SupportsQuant):
 
     # (TODO) Add prefix argument for filtering out weights to be loaded
     #        ref: https://github.com/vllm-project/vllm/pull/7186#discussion_r1734163986
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -377,7 +378,7 @@ class CLIPVisionModel(nn.Module, SupportsQuant):
             ("qkv_proj", "v_proj", "v"),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         layer_count = len(self.vision_model.encoder.layers)
 
         for name, loaded_weight in weights:
diff --git a/vllm/model_executor/models/commandr.py b/vllm/model_executor/models/commandr.py
index 8f64e5d5c..546b5f932 100644
--- a/vllm/model_executor/models/commandr.py
+++ b/vllm/model_executor/models/commandr.py
@@ -21,7 +21,8 @@
 
 # This file is based on the LLama model definition file in transformers
 """PyTorch Cohere model."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -259,7 +260,7 @@ class CohereDecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         residual = hidden_states
         hidden_states, residual = self.input_layernorm(hidden_states, residual)
@@ -404,8 +405,8 @@ class CohereForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsQuant):
 
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -415,7 +416,7 @@ class CohereForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsQuant):
             ("gate_up_proj", "up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
 
             # Skip loading rotary embeddings since vLLM has its own
diff --git a/vllm/model_executor/models/constant_size_cache.py b/vllm/model_executor/models/constant_size_cache.py
index d073a7de6..f1cc7e0f9 100644
--- a/vllm/model_executor/models/constant_size_cache.py
+++ b/vllm/model_executor/models/constant_size_cache.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 from abc import ABC, abstractmethod
-from typing import Any, Dict, List, Tuple
+from typing import Any
 
 import torch
 
@@ -16,7 +16,7 @@ class ConstantSizeCache(ABC):
     def __init__(self, max_batch_size: int):
         # Maps between the request id and a dict that maps between the seq_id
         # and its index inside the cache
-        self.cache_indices_mapping: Dict[str, Dict[int, int]] = {}
+        self.cache_indices_mapping: dict[str, dict[int, int]] = {}
         self.free_cache_indices = list(range(max_batch_size))
 
     @property
@@ -30,7 +30,7 @@ class ConstantSizeCache(ABC):
         """Copy cache data from one index to another"""
         pass
 
-    def current_run_tensors(self, **kwargs) -> Tuple:
+    def current_run_tensors(self, **kwargs) -> tuple:
         """
         Return the tensors for the current run's conv and ssm state.
         """
@@ -117,8 +117,8 @@ class ConstantSizeCache(ABC):
             return self.cache_indices_mapping[cur_rid][seq_id]
 
     def _prepare_current_run_cache(
-            self, request_ids_to_seq_ids: Dict[str, list[int]],
-            finished_requests_ids: List[str]) -> List[int]:
+            self, request_ids_to_seq_ids: dict[str, list[int]],
+            finished_requests_ids: list[str]) -> list[int]:
         return [
             self._assign_seq_id_to_cache_index(req_id, seq_id,
                                                finished_requests_ids)
@@ -127,7 +127,7 @@ class ConstantSizeCache(ABC):
         ]
 
     def _release_finished_requests(self,
-                                   finished_seq_groups_req_ids: List[str]):
+                                   finished_seq_groups_req_ids: list[str]):
         for req_id in finished_seq_groups_req_ids:
             if req_id in self.cache_indices_mapping:
                 for seq_id in self.cache_indices_mapping[req_id]:
diff --git a/vllm/model_executor/models/dbrx.py b/vllm/model_executor/models/dbrx.py
index 850fba260..e0b4712cd 100644
--- a/vllm/model_executor/models/dbrx.py
+++ b/vllm/model_executor/models/dbrx.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 import torch.nn as nn
@@ -414,14 +415,14 @@ class DbrxForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         expert_params_mapping = [(
             "w13" if weight_name in ["w1", "v1"] else "w2",
             f"mlp.{weight_name}",
         ) for weight_name in ["w1", "v1", "w2"]]
         params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
 
         for name, loaded_weight in weights:
             if (self.quant_config is not None and
diff --git a/vllm/model_executor/models/deepseek.py b/vllm/model_executor/models/deepseek.py
index c6421143d..88d1ca9f7 100644
--- a/vllm/model_executor/models/deepseek.py
+++ b/vllm/model_executor/models/deepseek.py
@@ -22,7 +22,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only Deepseek model."""
-from typing import Any, Dict, Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Any, Optional, Union
 
 import torch
 from torch import nn
@@ -184,7 +185,7 @@ class DeepseekAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 8192,
         cache_config: Optional[CacheConfig] = None,
         quant_config: Optional[QuantizationConfig] = None,
@@ -385,8 +386,8 @@ class DeepseekModel(nn.Module):
         hidden_states, _ = self.norm(hidden_states, residual)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -397,7 +398,7 @@ class DeepseekModel(nn.Module):
         ]
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
@@ -478,7 +479,7 @@ class DeepseekForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
\ No newline at end of file
diff --git a/vllm/model_executor/models/deepseek_mtp.py b/vllm/model_executor/models/deepseek_mtp.py
index b50175cf7..6d7b52aba 100644
--- a/vllm/model_executor/models/deepseek_mtp.py
+++ b/vllm/model_executor/models/deepseek_mtp.py
@@ -1,5 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
-from typing import Iterable, Optional, Set, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 import torch.nn as nn
@@ -176,8 +177,8 @@ class DeepSeekMTP(nn.Module):
         return self.model.compute_logits(hidden_states, sampling_metadata,
                                          spec_step_idx)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             ("gate_up_proj", "gate_proj", 0),
             ("gate_up_proj", "up_proj", 1),
@@ -190,7 +191,7 @@ class DeepSeekMTP(nn.Module):
             num_experts=self.config.n_routed_experts)
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
diff --git a/vllm/model_executor/models/deepseek_v2.py b/vllm/model_executor/models/deepseek_v2.py
index 680b7e614..b78c193c1 100644
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -22,7 +22,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only DeepseekV2/DeepseekV3 model."""
-from typing import Any, Dict, Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Any, Optional, Union
 
 import torch
 from torch import nn
@@ -200,7 +201,7 @@ class DeepseekV2Attention(nn.Module):
         q_lora_rank: int,
         kv_lora_rank: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 8192,
         cache_config: Optional[CacheConfig] = None,
         quant_config: Optional[QuantizationConfig] = None,
@@ -352,7 +353,7 @@ class DeepseekV2MLAAttention(nn.Module):
         q_lora_rank: Optional[int],
         kv_lora_rank: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 8192,
         cache_config: Optional[CacheConfig] = None,
         quant_config: Optional[QuantizationConfig] = None,
@@ -736,8 +737,8 @@ class DeepseekV2ForCausalLM(nn.Module, SupportsPP):
                         device=device),
         })
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("gate_up_proj", "gate_proj", 0),
@@ -753,7 +754,7 @@ class DeepseekV2ForCausalLM(nn.Module, SupportsPP):
             num_experts=self.config.n_routed_experts)
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
diff --git a/vllm/model_executor/models/deepseek_vl2.py b/vllm/model_executor/models/deepseek_vl2.py
index 6d8f27530..164fa40ff 100644
--- a/vllm/model_executor/models/deepseek_vl2.py
+++ b/vllm/model_executor/models/deepseek_vl2.py
@@ -4,7 +4,7 @@
 """Inference-only Deepseek-VL2 model compatible with HuggingFace weights."""
 import math
 from collections.abc import Iterable, Mapping, Sequence
-from typing import List, Literal, Optional, Set, Tuple, TypedDict, Union
+from typing import Literal, Optional, TypedDict, Union
 
 import torch
 import torch.nn as nn
@@ -45,7 +45,7 @@ _IMAGE_TOKEN = "<image>"
 
 class DeepseekVL2ImagePixelInputs(TypedDict):
     type: Literal["pixel_values"]
-    data: Union[torch.Tensor, List[torch.Tensor]]
+    data: Union[torch.Tensor, list[torch.Tensor]]
     """
     Shape: `(batch_size * num_images, num_channels, height, width)`
     """
@@ -57,7 +57,7 @@ class DeepseekVL2ImagePixelInputs(TypedDict):
 
 class DeepseekVL2VImageEmbeddingInputs(TypedDict):
     type: Literal["image_embeds"]
-    data: Union[torch.Tensor, List[torch.Tensor]]
+    data: Union[torch.Tensor, list[torch.Tensor]]
     """Shape: `(batch_size * num_images, image_feature_size, hidden_size)`
 
     `hidden_size` must match the hidden size of language model backbone.
@@ -394,8 +394,8 @@ class DeepseekVLV2ForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
         return model
 
     def _validate_pixel_values(
-        self, data: Union[torch.Tensor, List[torch.Tensor]]
-    ) -> Union[torch.Tensor, List[torch.Tensor]]:
+        self, data: Union[torch.Tensor, list[torch.Tensor]]
+    ) -> Union[torch.Tensor, list[torch.Tensor]]:
 
         h = w = self.vision_config.image_size
         expected_dims = (3, h, w)
@@ -415,8 +415,8 @@ class DeepseekVLV2ForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
         return data
 
     def _validate_images_spatial_crop(
-        self, data: Union[torch.Tensor, List[torch.Tensor]]
-    ) -> Union[torch.Tensor, List[torch.Tensor]]:
+        self, data: Union[torch.Tensor, list[torch.Tensor]]
+    ) -> Union[torch.Tensor, list[torch.Tensor]]:
         expected_dims = 2
 
         def _validate_shape(d: torch.Tensor):
@@ -640,8 +640,8 @@ class DeepseekVLV2ForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
 
         loader = AutoWeightsLoader(self)
         autoloaded_weights = loader.load_weights(weights,
diff --git a/vllm/model_executor/models/eagle.py b/vllm/model_executor/models/eagle.py
index 4ff1e7854..726660796 100644
--- a/vllm/model_executor/models/eagle.py
+++ b/vllm/model_executor/models/eagle.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Iterable, Optional, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 import torch.nn as nn
@@ -183,7 +184,7 @@ class EAGLE(nn.Module):
 
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         # This implementation is incompitable with https://huggingface.co/yuhuili/EAGLE-LLaMA3-Instruct-8B
         # due to missing lm_head weights and its config being that of a
         # Llama model. Here's a compatible version with the same weights:
diff --git a/vllm/model_executor/models/exaone.py b/vllm/model_executor/models/exaone.py
index 4a6490cd1..4ffd06319 100644
--- a/vllm/model_executor/models/exaone.py
+++ b/vllm/model_executor/models/exaone.py
@@ -24,7 +24,8 @@
 # limitations under the License.
 """Inference-only Exaone model compatible with HuggingFace weights."""
 
-from typing import Any, Dict, Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Any, Optional, Union
 
 import torch
 from torch import nn
@@ -102,7 +103,7 @@ class ExaoneAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 8192,
         quant_config: Optional[QuantizationConfig] = None,
         bias: bool = False,
@@ -196,7 +197,7 @@ class ExaoneBlockAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 8192,
         quant_config: Optional[QuantizationConfig] = None,
         bias: bool = False,
@@ -282,7 +283,7 @@ class ExaoneDecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         if residual is None:
             residual = hidden_states
@@ -384,8 +385,8 @@ class ExaoneModel(nn.Module):
         hidden_states, _ = self.ln_f(hidden_states, residual)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             (".qkv_proj", ".q_proj", "q"),
@@ -395,7 +396,7 @@ class ExaoneModel(nn.Module):
             (".gate_up_proj", ".c_fc_1", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
@@ -535,8 +536,8 @@ class ExaoneForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             # With tie_word_embeddings, we can skip lm_head.weight
diff --git a/vllm/model_executor/models/fairseq2_llama.py b/vllm/model_executor/models/fairseq2_llama.py
index 310aca999..00dbbebb1 100644
--- a/vllm/model_executor/models/fairseq2_llama.py
+++ b/vllm/model_executor/models/fairseq2_llama.py
@@ -16,7 +16,7 @@
 # limitations under the License.
 """Llama model for fairseq2 weights."""
 
-from typing import Iterable, Set, Tuple
+from collections.abc import Iterable
 
 import torch
 from torch.nn import Parameter
@@ -44,8 +44,8 @@ class Fairseq2LlamaForCausalLM(LlamaForCausalLM):
             f"model.{self.tp_rank}.pt",
         ]
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         # fairseq2's serialization adds a wrapper to usual .pt state_dict's:
         # { "model_key": my_model_name, "my_model_name": state_dict }
         # which we first need to unpack
@@ -102,7 +102,7 @@ class Fairseq2LlamaForCausalLM(LlamaForCausalLM):
         name: str,
         loaded_weight: torch.Tensor,
         params: dict[str, Parameter],
-    ) -> Tuple[str, torch.Tensor]:
+    ) -> tuple[str, torch.Tensor]:
         """Reshape fairseq2's weights."""
 
         def permute(w: torch.Tensor, n_heads: int) -> torch.Tensor:
diff --git a/vllm/model_executor/models/falcon.py b/vllm/model_executor/models/falcon.py
index e7e03fc09..376793594 100644
--- a/vllm/model_executor/models/falcon.py
+++ b/vllm/model_executor/models/falcon.py
@@ -20,7 +20,8 @@
 """PyTorch Falcon model."""
 
 import math
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -394,8 +395,8 @@ class FalconModel(nn.Module):
         hidden_states = self.ln_f(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         total_num_heads = self.config.num_attention_heads
         if self.config.new_decoder_architecture:
             total_num_kv_heads = self.config.num_kv_heads
@@ -405,7 +406,7 @@ class FalconModel(nn.Module):
             total_num_kv_heads = total_num_heads
         num_query_heads_per_kv_head = total_num_heads // total_num_kv_heads
         params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             # Skip loading extra bias for GPTQ models.
             if name.endswith(".bias") and name not in params_dict:
@@ -498,8 +499,8 @@ class FalconForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head."]
diff --git a/vllm/model_executor/models/florence2.py b/vllm/model_executor/models/florence2.py
index d1a36c3f4..f8acc5670 100644
--- a/vllm/model_executor/models/florence2.py
+++ b/vllm/model_executor/models/florence2.py
@@ -3,7 +3,7 @@
 import math
 from collections import OrderedDict
 from collections.abc import Iterable, Mapping, Sequence
-from typing import List, Literal, Optional, Set, Tuple, TypedDict, Union
+from typing import Literal, Optional, TypedDict, Union
 
 import torch
 import torch.nn as nn
@@ -713,8 +713,8 @@ class Florence2LanguageForConditionalGeneration(nn.Module, SupportsV0Only):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -723,7 +723,7 @@ class Florence2LanguageForConditionalGeneration(nn.Module, SupportsV0Only):
         ]
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             for (param_name, weight_name, shard_id) in stacked_params_mapping:
                 if weight_name not in name:
@@ -922,8 +922,8 @@ class Florence2ForConditionalGeneration(nn.Module, SupportsMultiModal,
                 'Florence2 only supports COSINE as temporal embedding.')
 
     def _validate_pixel_values(
-        self, data: Union[torch.Tensor, List[torch.Tensor]]
-    ) -> Union[torch.Tensor, List[torch.Tensor]]:
+        self, data: Union[torch.Tensor, list[torch.Tensor]]
+    ) -> Union[torch.Tensor, list[torch.Tensor]]:
 
         size = self.processor_config["size"]
         h, w = size["height"], size["width"]
@@ -944,12 +944,12 @@ class Florence2ForConditionalGeneration(nn.Module, SupportsMultiModal,
         return data
 
     def _parse_and_validate_image_input(self, **kwargs: object):
-        pixel_values: Optional[Union[List[List[torch.Tensor]],
-                                     List[torch.Tensor],
+        pixel_values: Optional[Union[list[list[torch.Tensor]],
+                                     list[torch.Tensor],
                                      torch.Tensor]] = kwargs.pop(
                                          "pixel_values", None)
-        image_embeds: Optional[Union[List[List[torch.Tensor]],
-                                     List[torch.Tensor],
+        image_embeds: Optional[Union[list[list[torch.Tensor]],
+                                     list[torch.Tensor],
                                      torch.Tensor]] = kwargs.pop(
                                          "image_embeds", None)
 
@@ -1096,7 +1096,7 @@ class Florence2ForConditionalGeneration(nn.Module, SupportsMultiModal,
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/fuyu.py b/vllm/model_executor/models/fuyu.py
index d6bd6155a..fbad7f56d 100644
--- a/vllm/model_executor/models/fuyu.py
+++ b/vllm/model_executor/models/fuyu.py
@@ -18,7 +18,7 @@
 """ PyTorch Fuyu model."""
 import math
 from collections.abc import Iterable, Mapping, Sequence
-from typing import Literal, Optional, Set, Tuple, TypedDict
+from typing import Literal, Optional, TypedDict
 
 import torch
 import torch.nn as nn
@@ -382,7 +382,7 @@ class FuyuForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
             self.language_model.lm_head, hidden_states, sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/gemma.py b/vllm/model_executor/models/gemma.py
index c1cc0df11..0f6d94e75 100644
--- a/vllm/model_executor/models/gemma.py
+++ b/vllm/model_executor/models/gemma.py
@@ -15,8 +15,9 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only Gemma model compatible with HuggingFace weights."""
+from collections.abc import Iterable
 from functools import cache
-from typing import Iterable, Optional, Set, Tuple, Union
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -231,7 +232,7 @@ class GemmaDecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         if residual is None:
             residual = hidden_states
@@ -318,8 +319,8 @@ class GemmaModel(nn.Module):
         hidden_states, _ = self.norm(hidden_states, residual)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -329,7 +330,7 @@ class GemmaModel(nn.Module):
             ("gate_up_proj", "up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             for (param_name, shard_name, shard_id) in stacked_params_mapping:
                 if shard_name not in name:
@@ -413,8 +414,8 @@ class GemmaForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head."]
diff --git a/vllm/model_executor/models/gemma2.py b/vllm/model_executor/models/gemma2.py
index 7fb2e9948..b46716213 100644
--- a/vllm/model_executor/models/gemma2.py
+++ b/vllm/model_executor/models/gemma2.py
@@ -15,7 +15,8 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -218,7 +219,7 @@ class Gemma2DecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         if residual is None:
             residual = hidden_states
             hidden_states = self.input_layernorm(hidden_states)
@@ -305,8 +306,8 @@ class Gemma2Model(nn.Module):
         hidden_states, _ = self.norm(hidden_states, residual)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -316,7 +317,7 @@ class Gemma2Model(nn.Module):
             ("gate_up_proj", "up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if (self.quant_config is not None and
                 (scale_name := self.quant_config.get_cache_scale(name))):
@@ -413,8 +414,8 @@ class Gemma2ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head."]
diff --git a/vllm/model_executor/models/gemma3.py b/vllm/model_executor/models/gemma3.py
index 4e0d4f84c..3a88adcce 100644
--- a/vllm/model_executor/models/gemma3.py
+++ b/vllm/model_executor/models/gemma3.py
@@ -14,7 +14,8 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 import torch.nn.functional as F
@@ -320,7 +321,7 @@ class Gemma3DecoderLayer(nn.Module):
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
         **kwargs,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         if residual is None:
             residual = hidden_states
             hidden_states = self.input_layernorm(hidden_states)
@@ -412,8 +413,8 @@ class Gemma3Model(nn.Module):
         hidden_states, _ = self.norm(hidden_states, residual)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -423,7 +424,7 @@ class Gemma3Model(nn.Module):
             ("gate_up_proj", "up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if (self.quant_config is not None and
                 (scale_name := self.quant_config.get_cache_scale(name))):
@@ -521,8 +522,8 @@ class Gemma3ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head."]
diff --git a/vllm/model_executor/models/gemma3_mm.py b/vllm/model_executor/models/gemma3_mm.py
index 65c177f8c..743542ec8 100644
--- a/vllm/model_executor/models/gemma3_mm.py
+++ b/vllm/model_executor/models/gemma3_mm.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 import math
 from collections.abc import Iterable, Mapping, Sequence
-from typing import Any, Literal, Optional, Set, Tuple, TypedDict
+from typing import Any, Literal, Optional, TypedDict
 
 import torch
 from torch import nn
@@ -701,8 +701,8 @@ class Gemma3ForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP,
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
 
diff --git a/vllm/model_executor/models/glm4.py b/vllm/model_executor/models/glm4.py
index 290be968c..f351ce5a0 100644
--- a/vllm/model_executor/models/glm4.py
+++ b/vllm/model_executor/models/glm4.py
@@ -21,7 +21,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only GLM-4-0414 model compatible with HuggingFace weights."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -60,7 +61,7 @@ class Glm4Attention(nn.Module):
                  rope_theta: float = 10000,
                  cache_config: Optional[CacheConfig] = None,
                  quant_config: Optional[QuantizationConfig] = None,
-                 rope_scaling: Optional[Tuple] = None,
+                 rope_scaling: Optional[tuple] = None,
                  prefix: str = "",
                  attn_type: str = AttentionType.DECODER) -> None:
         super().__init__()
@@ -183,7 +184,7 @@ class Glm4DecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         if residual is None:
             residual = hidden_states
@@ -293,8 +294,8 @@ class Glm4ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head."]
diff --git a/vllm/model_executor/models/gpt2.py b/vllm/model_executor/models/gpt2.py
index e32193339..470a7053e 100644
--- a/vllm/model_executor/models/gpt2.py
+++ b/vllm/model_executor/models/gpt2.py
@@ -18,7 +18,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only GPT-2 model compatible with HuggingFace weights."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -280,10 +281,10 @@ class GPT2LMHeadModel(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if ".attn.bias" in name or ".attn.masked_bias" in name:
                 # Skip attention mask.
diff --git a/vllm/model_executor/models/gpt_bigcode.py b/vllm/model_executor/models/gpt_bigcode.py
index def6b1544..6a1d97bd7 100644
--- a/vllm/model_executor/models/gpt_bigcode.py
+++ b/vllm/model_executor/models/gpt_bigcode.py
@@ -19,7 +19,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only GPTBigCode model compatible with HuggingFace weights."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -243,10 +244,10 @@ class GPTBigCodeModel(nn.Module):
         hidden_states = self.ln_f(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if ".attn.bias" in name:
                 # Skip attention mask.
@@ -327,8 +328,8 @@ class GPTBigCodeForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head."]),
diff --git a/vllm/model_executor/models/gpt_j.py b/vllm/model_executor/models/gpt_j.py
index 3db96fb8e..69fdd90cf 100644
--- a/vllm/model_executor/models/gpt_j.py
+++ b/vllm/model_executor/models/gpt_j.py
@@ -17,7 +17,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only GPT-J model compatible with HuggingFace weights."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -228,8 +229,8 @@ class GPTJModel(nn.Module):
         hidden_states = self.ln_f(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -239,7 +240,7 @@ class GPTJModel(nn.Module):
             ("gate_up_proj", "up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "attn.bias" in name or "attn.masked_bias" in name:
                 continue
@@ -331,7 +332,7 @@ class GPTJForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata, self.lm_head.bias)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
\ No newline at end of file
diff --git a/vllm/model_executor/models/gpt_neox.py b/vllm/model_executor/models/gpt_neox.py
index 620ee66f5..401fa9f5c 100644
--- a/vllm/model_executor/models/gpt_neox.py
+++ b/vllm/model_executor/models/gpt_neox.py
@@ -17,7 +17,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only GPT-NeoX model compatible with HuggingFace weights."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -240,10 +241,10 @@ class GPTNeoXModel(nn.Module):
         hidden_states = self.final_layer_norm(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if ("attention.bias" in name or "attention.masked_bias" in name
                     or "rotary_emb.inv_freq" in name):
@@ -324,7 +325,7 @@ class GPTNeoXForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/granite.py b/vllm/model_executor/models/granite.py
index 0696a7245..eed0820a5 100644
--- a/vllm/model_executor/models/granite.py
+++ b/vllm/model_executor/models/granite.py
@@ -22,7 +22,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only IBM Granite model compatible with HuggingFace weights."""
-from typing import Any, Dict, Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Any, Optional, Union
 
 import torch
 from torch import nn
@@ -97,7 +98,7 @@ class GraniteAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 8192,
         quant_config: Optional[QuantizationConfig] = None,
         bias: bool = False,
@@ -230,7 +231,7 @@ class GraniteDecoderLayer(nn.Module):
         self,
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         residual = hidden_states
         hidden_states = self.input_layernorm(hidden_states)
@@ -321,8 +322,8 @@ class GraniteModel(nn.Module):
         hidden_states = self.norm(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             (".qkv_proj", ".q_proj", "q"),
@@ -332,7 +333,7 @@ class GraniteModel(nn.Module):
             (".gate_up_proj", ".up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if (self.quant_config is not None and
                 (scale_name := self.quant_config.get_cache_scale(name))):
@@ -475,8 +476,8 @@ class GraniteForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                         device=device),
         })
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         skip_prefixes = [
             "rotary_emb.inv_freq",
             # Models trained using ColossalAI may include these tensors in
diff --git a/vllm/model_executor/models/granite_speech.py b/vllm/model_executor/models/granite_speech.py
index b43b59da6..512ec5517 100644
--- a/vllm/model_executor/models/granite_speech.py
+++ b/vllm/model_executor/models/granite_speech.py
@@ -23,7 +23,8 @@
 # limitations under the License.
 """Inference-only IBM Granite speeech model."""
 import math
-from typing import Iterable, Mapping, Optional, Set, Tuple, TypedDict, Union
+from collections.abc import Iterable, Mapping
+from typing import Optional, TypedDict, Union
 
 import torch
 import torch.nn.functional as F
@@ -763,8 +764,8 @@ class GraniteSpeechForConditionalGeneration(
 
     def load_weights(
         self,
-        weights: Iterable[Tuple[str, torch.Tensor]],
-    ) -> Set[str]:
+        weights: Iterable[tuple[str, torch.Tensor]],
+    ) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
 
diff --git a/vllm/model_executor/models/granitemoe.py b/vllm/model_executor/models/granitemoe.py
index 7fff14cb9..f342dfff8 100644
--- a/vllm/model_executor/models/granitemoe.py
+++ b/vllm/model_executor/models/granitemoe.py
@@ -22,7 +22,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only GraniteMoe model."""
-from typing import Iterable, Optional, Set, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 from torch import nn
@@ -305,8 +306,8 @@ class GraniteMoeModel(nn.Module):
         hidden_states = self.norm(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         new_weights = {}
         for n, p in weights:
             if n.endswith('.block_sparse_moe.input_linear.weight'):
@@ -425,8 +426,8 @@ class GraniteMoeForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                         device=device),
         })
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head."]
diff --git a/vllm/model_executor/models/granitemoehybrid.py b/vllm/model_executor/models/granitemoehybrid.py
index 706e648f1..443b102c9 100644
--- a/vllm/model_executor/models/granitemoehybrid.py
+++ b/vllm/model_executor/models/granitemoehybrid.py
@@ -1,7 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 """Inference-only GraniteMoeHybrid model."""
 # Added by the IBM Team, 2025
-from typing import Iterable, Optional, Set, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 from torch import nn
@@ -381,10 +382,10 @@ class GraniteMoeHybridModel(nn.Module):
         hidden_states = self.norm(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
 
         def _load(n, p):
             param = params_dict[n]
@@ -538,7 +539,7 @@ class GraniteMoeHybridForCausalLM(nn.Module, HasInnerState, SupportsLoRA,
         return self.mamba_cache.get_seqlen_agnostic_capture_inputs(batch_size)
 
     def _get_mamba_cache_shape(
-            self) -> Tuple[Tuple[int, int], Tuple[int, int]]:
+            self) -> tuple[tuple[int, int], tuple[int, int]]:
         world_size = get_tensor_model_parallel_world_size()
         hidden_size = self.config.hidden_size
 
@@ -578,7 +579,7 @@ class GraniteMoeHybridForCausalLM(nn.Module, HasInnerState, SupportsLoRA,
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/granitemoeshared.py b/vllm/model_executor/models/granitemoeshared.py
index 4e660cbf6..817e6091d 100644
--- a/vllm/model_executor/models/granitemoeshared.py
+++ b/vllm/model_executor/models/granitemoeshared.py
@@ -4,7 +4,8 @@
 The architecture is the same as granitemoe but with the addition of shared
 experts.
 """
-from typing import Iterable, Optional, Set, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 from torch import nn
@@ -208,8 +209,8 @@ class GraniteMoeSharedModel(nn.Module):
         hidden_states = self.norm(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         new_weights = {}
         for n, p in weights:
             if n.endswith('.block_sparse_moe.input_linear.weight'):
@@ -329,8 +330,8 @@ class GraniteMoeSharedForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                         device=device),
         })
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head."]
diff --git a/vllm/model_executor/models/grok1.py b/vllm/model_executor/models/grok1.py
index 6f56eb2d5..6d2d16d09 100644
--- a/vllm/model_executor/models/grok1.py
+++ b/vllm/model_executor/models/grok1.py
@@ -21,7 +21,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only Grok1 model."""
-from typing import Iterable, List, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 import torch.nn.functional as F
@@ -263,7 +264,7 @@ class Grok1DecoderLayer(nn.Module):
         kv_cache: torch.Tensor,
         attn_metadata: AttentionMetadata,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         if residual is None:
             residual = hidden_states
@@ -340,7 +341,7 @@ class Grok1Model(nn.Module):
         self,
         input_ids: torch.Tensor,
         positions: torch.Tensor,
-        kv_caches: List[torch.Tensor],
+        kv_caches: list[torch.Tensor],
         attn_metadata: AttentionMetadata,
         intermediate_tensors: Optional[IntermediateTensors],
         inputs_embeds: Optional[torch.Tensor] = None,
@@ -371,8 +372,8 @@ class Grok1Model(nn.Module):
         hidden_states, _ = self.norm(hidden_states, residual)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -390,7 +391,7 @@ class Grok1Model(nn.Module):
             num_experts=num_experts)
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
 
         for name, loaded_weight in weights:
             if (self.quant_config is not None and
@@ -528,7 +529,7 @@ class Grok1ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         self,
         input_ids: torch.Tensor,
         positions: torch.Tensor,
-        kv_caches: List[torch.Tensor],
+        kv_caches: list[torch.Tensor],
         attn_metadata: AttentionMetadata,
         intermediate_tensors: Optional[IntermediateTensors] = None,
         inputs_embeds: Optional[torch.Tensor] = None,
@@ -547,8 +548,8 @@ class Grok1ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         skip_prefixes = ["rotary_emb.inv_freq"]
         # Skip lm_head when tie_word_embeddings is True
         if self.config.tie_word_embeddings:
diff --git a/vllm/model_executor/models/idefics2_vision_model.py b/vllm/model_executor/models/idefics2_vision_model.py
index cb0379c10..b8bdc7aa3 100644
--- a/vllm/model_executor/models/idefics2_vision_model.py
+++ b/vllm/model_executor/models/idefics2_vision_model.py
@@ -17,7 +17,8 @@
 # limitations under the License.
 """PyTorch Idefics2 model."""
 
-from typing import Iterable, Optional, Set, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 from torch import nn
@@ -342,8 +343,8 @@ class Idefics2VisionTransformer(nn.Module):
         last_hidden_state = self.post_layernorm(encoder_outputs)
         return last_hidden_state
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -351,7 +352,7 @@ class Idefics2VisionTransformer(nn.Module):
             ("qkv_proj", "v_proj", "v"),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         layer_count = len(self.encoder.layers)
 
         for name, loaded_weight in weights:
diff --git a/vllm/model_executor/models/idefics3.py b/vllm/model_executor/models/idefics3.py
index 961954c2b..fdb128ef5 100644
--- a/vllm/model_executor/models/idefics3.py
+++ b/vllm/model_executor/models/idefics3.py
@@ -17,7 +17,7 @@
 
 import math
 from collections.abc import Iterable, Mapping, Sequence
-from typing import Dict, Literal, Optional, Set, Tuple, TypedDict, Union
+from typing import Literal, Optional, TypedDict, Union
 
 import torch
 from torch import nn
@@ -85,7 +85,7 @@ class Idefics3ProcessingInfo(BaseProcessingInfo):
     def get_hf_processor(
         self,
         *,
-        size: Optional[Dict[str, int]] = None,
+        size: Optional[dict[str, int]] = None,
         **kwargs: object,
     ) -> Idefics3Processor:
         if size is not None:
@@ -752,8 +752,8 @@ class Idefics3ForConditionalGeneration(nn.Module, SupportsMultiModal,
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
 
diff --git a/vllm/model_executor/models/interfaces.py b/vllm/model_executor/models/interfaces.py
index 7fea9647e..8f33a3e29 100644
--- a/vllm/model_executor/models/interfaces.py
+++ b/vllm/model_executor/models/interfaces.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import (TYPE_CHECKING, ClassVar, Dict, List, Literal, Optional,
-                    Protocol, Type, Union, overload, runtime_checkable)
+from typing import (TYPE_CHECKING, ClassVar, Literal, Optional, Protocol,
+                    Union, overload, runtime_checkable)
 
 import torch
 from torch import Tensor
@@ -102,7 +102,7 @@ class _SupportsMultiModalType(Protocol):
 
 @overload
 def supports_multimodal(
-        model: Type[object]) -> TypeIs[Type[SupportsMultiModal]]:
+        model: type[object]) -> TypeIs[type[SupportsMultiModal]]:
     ...
 
 
@@ -112,8 +112,8 @@ def supports_multimodal(model: object) -> TypeIs[SupportsMultiModal]:
 
 
 def supports_multimodal(
-    model: Union[Type[object], object],
-) -> Union[TypeIs[Type[SupportsMultiModal]], TypeIs[SupportsMultiModal]]:
+    model: Union[type[object], object],
+) -> Union[TypeIs[type[SupportsMultiModal]], TypeIs[SupportsMultiModal]]:
     if isinstance(model, type):
         return isinstance(model, _SupportsMultiModalType)
 
@@ -134,9 +134,9 @@ class SupportsLoRA(Protocol):
     """
     # The `embedding_module` and `embedding_padding_modules`
     # are empty by default.
-    embedding_modules: ClassVar[Dict[str, str]] = {}
-    embedding_padding_modules: ClassVar[List[str]] = []
-    packed_modules_mapping: ClassVar[Dict[str, List[str]]] = {}
+    embedding_modules: ClassVar[dict[str, str]] = {}
+    embedding_padding_modules: ClassVar[list[str]] = []
+    packed_modules_mapping: ClassVar[dict[str, list[str]]] = {}
 
 
 # We can't use runtime_checkable with ClassVar for issubclass checks
@@ -145,13 +145,13 @@ class SupportsLoRA(Protocol):
 class _SupportsLoRAType(Protocol):
     supports_lora: Literal[True]
 
-    packed_modules_mapping: Dict[str, List[str]]
-    embedding_modules: Dict[str, str]
-    embedding_padding_modules: List[str]
+    packed_modules_mapping: dict[str, list[str]]
+    embedding_modules: dict[str, str]
+    embedding_padding_modules: list[str]
 
 
 @overload
-def supports_lora(model: Type[object]) -> TypeIs[Type[SupportsLoRA]]:
+def supports_lora(model: type[object]) -> TypeIs[type[SupportsLoRA]]:
     ...
 
 
@@ -161,8 +161,8 @@ def supports_lora(model: object) -> TypeIs[SupportsLoRA]:
 
 
 def supports_lora(
-    model: Union[Type[object], object],
-) -> Union[TypeIs[Type[SupportsLoRA]], TypeIs[SupportsLoRA]]:
+    model: Union[type[object], object],
+) -> Union[TypeIs[type[SupportsLoRA]], TypeIs[SupportsLoRA]]:
     result = _supports_lora(model)
 
     if not result:
@@ -191,7 +191,7 @@ def supports_lora(
     return result
 
 
-def _supports_lora(model: Union[Type[object], object]) -> bool:
+def _supports_lora(model: Union[type[object], object]) -> bool:
     if isinstance(model, type):
         return isinstance(model, _SupportsLoRAType)
 
@@ -256,7 +256,7 @@ class _SupportsPPType(Protocol):
 
 
 @overload
-def supports_pp(model: Type[object]) -> TypeIs[Type[SupportsPP]]:
+def supports_pp(model: type[object]) -> TypeIs[type[SupportsPP]]:
     ...
 
 
@@ -266,8 +266,8 @@ def supports_pp(model: object) -> TypeIs[SupportsPP]:
 
 
 def supports_pp(
-    model: Union[Type[object], object],
-) -> Union[bool, TypeIs[Type[SupportsPP]], TypeIs[SupportsPP]]:
+    model: Union[type[object], object],
+) -> Union[bool, TypeIs[type[SupportsPP]], TypeIs[SupportsPP]]:
     supports_attributes = _supports_pp_attributes(model)
     supports_inspect = _supports_pp_inspect(model)
 
@@ -298,14 +298,14 @@ def supports_pp(
     return supports_attributes and supports_inspect
 
 
-def _supports_pp_attributes(model: Union[Type[object], object]) -> bool:
+def _supports_pp_attributes(model: Union[type[object], object]) -> bool:
     if isinstance(model, type):
         return isinstance(model, _SupportsPPType)
 
     return isinstance(model, SupportsPP)
 
 
-def _supports_pp_inspect(model: Union[Type[object], object]) -> bool:
+def _supports_pp_inspect(model: Union[type[object], object]) -> bool:
     model_forward = getattr(model, "forward", None)
     if not callable(model_forward):
         return False
@@ -336,13 +336,13 @@ def has_inner_state(model: object) -> TypeIs[HasInnerState]:
 
 
 @overload
-def has_inner_state(model: Type[object]) -> TypeIs[Type[HasInnerState]]:
+def has_inner_state(model: type[object]) -> TypeIs[type[HasInnerState]]:
     ...
 
 
 def has_inner_state(
-    model: Union[Type[object], object]
-) -> Union[TypeIs[Type[HasInnerState]], TypeIs[HasInnerState]]:
+    model: Union[type[object], object]
+) -> Union[TypeIs[type[HasInnerState]], TypeIs[HasInnerState]]:
     if isinstance(model, type):
         return isinstance(model, _HasInnerStateType)
 
@@ -373,13 +373,13 @@ def is_attention_free(model: object) -> TypeIs[IsAttentionFree]:
 
 
 @overload
-def is_attention_free(model: Type[object]) -> TypeIs[Type[IsAttentionFree]]:
+def is_attention_free(model: type[object]) -> TypeIs[type[IsAttentionFree]]:
     ...
 
 
 def is_attention_free(
-    model: Union[Type[object], object]
-) -> Union[TypeIs[Type[IsAttentionFree]], TypeIs[IsAttentionFree]]:
+    model: Union[type[object], object]
+) -> Union[TypeIs[type[IsAttentionFree]], TypeIs[IsAttentionFree]]:
     if isinstance(model, type):
         return isinstance(model, _IsAttentionFreeType)
 
@@ -410,13 +410,13 @@ def is_hybrid(model: object) -> TypeIs[IsHybrid]:
 
 
 @overload
-def is_hybrid(model: Type[object]) -> TypeIs[Type[IsHybrid]]:
+def is_hybrid(model: type[object]) -> TypeIs[type[IsHybrid]]:
     ...
 
 
 def is_hybrid(
-    model: Union[Type[object], object]
-) -> Union[TypeIs[Type[IsHybrid]], TypeIs[IsHybrid]]:
+    model: Union[type[object], object]
+) -> Union[TypeIs[type[IsHybrid]], TypeIs[IsHybrid]]:
     if isinstance(model, type):
         return isinstance(model, _IsHybridType)
 
@@ -439,13 +439,13 @@ def has_noops(model: object) -> TypeIs[HasNoOps]:
 
 
 @overload
-def has_noops(model: Type[object]) -> TypeIs[Type[HasNoOps]]:
+def has_noops(model: type[object]) -> TypeIs[type[HasNoOps]]:
     ...
 
 
 def has_noops(
-    model: Union[Type[object], object]
-) -> Union[TypeIs[Type[HasNoOps]], TypeIs[HasNoOps]]:
+    model: Union[type[object], object]
+) -> Union[TypeIs[type[HasNoOps]], TypeIs[HasNoOps]]:
     if isinstance(model, type):
         return isinstance(model, _HasNoOpsType)
 
@@ -461,7 +461,7 @@ class SupportsCrossEncoding(Protocol):
 
 @overload
 def supports_cross_encoding(
-        model: Type[object]) -> TypeIs[Type[SupportsCrossEncoding]]:
+        model: type[object]) -> TypeIs[type[SupportsCrossEncoding]]:
     ...
 
 
@@ -471,8 +471,8 @@ def supports_cross_encoding(model: object) -> TypeIs[SupportsCrossEncoding]:
 
 
 def _supports_cross_encoding(
-    model: Union[Type[object], object],
-) -> Union[TypeIs[Type[SupportsCrossEncoding]], TypeIs[SupportsCrossEncoding]]:
+    model: Union[type[object], object],
+) -> Union[TypeIs[type[SupportsCrossEncoding]], TypeIs[SupportsCrossEncoding]]:
 
     if isinstance(model, type):
         return isinstance(model, SupportsCrossEncoding)
@@ -481,15 +481,15 @@ def _supports_cross_encoding(
 
 
 def supports_cross_encoding(
-    model: Union[Type[object], object],
-) -> Union[TypeIs[Type[SupportsCrossEncoding]], TypeIs[SupportsCrossEncoding]]:
+    model: Union[type[object], object],
+) -> Union[TypeIs[type[SupportsCrossEncoding]], TypeIs[SupportsCrossEncoding]]:
     return is_pooling_model(model) and _supports_cross_encoding(model)
 
 
 class SupportsQuant:
     """The interface required for all models that support quantization."""
 
-    packed_modules_mapping: ClassVar[Dict[str, List[str]]] = {}
+    packed_modules_mapping: ClassVar[dict[str, list[str]]] = {}
     quant_config: Optional[QuantizationConfig] = None
 
     def __new__(cls, *args, **kwargs) -> Self:
@@ -525,7 +525,7 @@ class SupportsTranscription(Protocol):
 
 @overload
 def supports_transcription(
-        model: Type[object]) -> TypeIs[Type[SupportsTranscription]]:
+        model: type[object]) -> TypeIs[type[SupportsTranscription]]:
     ...
 
 
@@ -535,8 +535,8 @@ def supports_transcription(model: object) -> TypeIs[SupportsTranscription]:
 
 
 def supports_transcription(
-    model: Union[Type[object], object],
-) -> Union[TypeIs[Type[SupportsTranscription]], TypeIs[SupportsTranscription]]:
+    model: Union[type[object], object],
+) -> Union[TypeIs[type[SupportsTranscription]], TypeIs[SupportsTranscription]]:
     if isinstance(model, type):
         return isinstance(model, SupportsTranscription)
 
@@ -551,7 +551,7 @@ class SupportsV0Only(Protocol):
 
 
 @overload
-def supports_v0_only(model: Type[object]) -> TypeIs[Type[SupportsV0Only]]:
+def supports_v0_only(model: type[object]) -> TypeIs[type[SupportsV0Only]]:
     ...
 
 
@@ -561,8 +561,8 @@ def supports_v0_only(model: object) -> TypeIs[SupportsV0Only]:
 
 
 def supports_v0_only(
-    model: Union[Type[object], object],
-) -> Union[TypeIs[Type[SupportsV0Only]], TypeIs[SupportsV0Only]]:
+    model: Union[type[object], object],
+) -> Union[TypeIs[type[SupportsV0Only]], TypeIs[SupportsV0Only]]:
     if isinstance(model, type):
         return isinstance(model, SupportsV0Only)
 
diff --git a/vllm/model_executor/models/interfaces_base.py b/vllm/model_executor/models/interfaces_base.py
index f141dcf3c..d325a6b67 100644
--- a/vllm/model_executor/models/interfaces_base.py
+++ b/vllm/model_executor/models/interfaces_base.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import (TYPE_CHECKING, Optional, Protocol, Type, Union, overload,
+from typing import (TYPE_CHECKING, Optional, Protocol, Union, overload,
                     runtime_checkable)
 
 import torch
@@ -20,7 +20,7 @@ logger = init_logger(__name__)
 
 # The type of hidden states
 # Currently, T = torch.Tensor for all models except for Medusa
-# which has T = List[torch.Tensor]
+# which has T = list[torch.Tensor]
 T = TypeVar("T", default=torch.Tensor)
 T_co = TypeVar("T_co", default=torch.Tensor, covariant=True)
 
@@ -48,12 +48,12 @@ class VllmModel(Protocol[T_co]):
         ...
 
 
-def _check_vllm_model_init(model: Union[Type[object], object]) -> bool:
+def _check_vllm_model_init(model: Union[type[object], object]) -> bool:
     model_init = model.__init__
     return supports_kw(model_init, "vllm_config")
 
 
-def _check_vllm_model_forward(model: Union[Type[object], object]) -> bool:
+def _check_vllm_model_forward(model: Union[type[object], object]) -> bool:
     model_forward = getattr(model, "forward", None)
     if not callable(model_forward):
         return False
@@ -75,7 +75,7 @@ def _check_vllm_model_forward(model: Union[Type[object], object]) -> bool:
 
 
 @overload
-def is_vllm_model(model: Type[object]) -> TypeIs[Type[VllmModel]]:
+def is_vllm_model(model: type[object]) -> TypeIs[type[VllmModel]]:
     ...
 
 
@@ -85,8 +85,8 @@ def is_vllm_model(model: object) -> TypeIs[VllmModel]:
 
 
 def is_vllm_model(
-    model: Union[Type[object], object],
-) -> Union[TypeIs[Type[VllmModel]], TypeIs[VllmModel]]:
+    model: Union[type[object], object],
+) -> Union[TypeIs[type[VllmModel]], TypeIs[VllmModel]]:
     return _check_vllm_model_init(model) and _check_vllm_model_forward(model)
 
 
@@ -105,7 +105,7 @@ class VllmModelForTextGeneration(VllmModel[T], Protocol[T]):
 
 @overload
 def is_text_generation_model(
-        model: Type[object]) -> TypeIs[Type[VllmModelForTextGeneration]]:
+        model: type[object]) -> TypeIs[type[VllmModelForTextGeneration]]:
     ...
 
 
@@ -116,8 +116,8 @@ def is_text_generation_model(
 
 
 def is_text_generation_model(
-    model: Union[Type[object], object],
-) -> Union[TypeIs[Type[VllmModelForTextGeneration]],
+    model: Union[type[object], object],
+) -> Union[TypeIs[type[VllmModelForTextGeneration]],
            TypeIs[VllmModelForTextGeneration]]:
     if not is_vllm_model(model):
         return False
@@ -142,7 +142,7 @@ class VllmModelForPooling(VllmModel[T], Protocol[T]):
 
 
 @overload
-def is_pooling_model(model: Type[object]) -> TypeIs[Type[VllmModelForPooling]]:
+def is_pooling_model(model: type[object]) -> TypeIs[type[VllmModelForPooling]]:
     ...
 
 
@@ -152,8 +152,8 @@ def is_pooling_model(model: object) -> TypeIs[VllmModelForPooling]:
 
 
 def is_pooling_model(
-    model: Union[Type[object], object],
-) -> Union[TypeIs[Type[VllmModelForPooling]], TypeIs[VllmModelForPooling]]:
+    model: Union[type[object], object],
+) -> Union[TypeIs[type[VllmModelForPooling]], TypeIs[VllmModelForPooling]]:
     if not is_vllm_model(model):
         return False
 
diff --git a/vllm/model_executor/models/intern_vit.py b/vllm/model_executor/models/intern_vit.py
index fdcef8b9b..d9d9002bd 100644
--- a/vllm/model_executor/models/intern_vit.py
+++ b/vllm/model_executor/models/intern_vit.py
@@ -6,8 +6,9 @@
 # Copyright (c) 2023 OpenGVLab
 # Licensed under The MIT License [see LICENSE for details]
 # --------------------------------------------------------
+from collections.abc import Iterable
 from functools import partial
-from typing import Iterable, Optional, Set, Tuple
+from typing import Optional
 
 import torch
 import torch.nn as nn
@@ -461,10 +462,10 @@ class InternVisionModel(nn.Module):
 
         return encoder_outputs
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             param = params_dict[name]
             weight_loader = getattr(param, "weight_loader",
diff --git a/vllm/model_executor/models/internlm2.py b/vllm/model_executor/models/internlm2.py
index c3d7cbfcd..3f3e3966e 100644
--- a/vllm/model_executor/models/internlm2.py
+++ b/vllm/model_executor/models/internlm2.py
@@ -1,7 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 
+from collections.abc import Iterable
 from functools import partial
-from typing import Any, Dict, Iterable, Optional, Set, Tuple, Type, Union
+from typing import Any, Optional, Union
 
 import torch
 from torch import nn
@@ -81,7 +82,7 @@ class InternLM2Attention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 8192,
         cache_config: Optional[CacheConfig] = None,
         quant_config: Optional[QuantizationConfig] = None,
@@ -225,7 +226,7 @@ class InternLMDecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         if residual is None:
             residual = hidden_states
@@ -252,7 +253,7 @@ class InternLM2Model(nn.Module):
             *,
             vllm_config: VllmConfig,
             prefix: str = "",
-            layer_type: Type[InternLMDecoderLayer] = InternLMDecoderLayer):
+            layer_type: type[InternLMDecoderLayer] = InternLMDecoderLayer):
         super().__init__()
 
         config = vllm_config.model_config.hf_config
@@ -316,7 +317,7 @@ class InternLM2ForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
                  *,
                  vllm_config: VllmConfig,
                  prefix: str = "",
-                 model_type: Type[InternLM2Model] = InternLM2Model):
+                 model_type: type[InternLM2Model] = InternLM2Model):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
@@ -361,15 +362,15 @@ class InternLM2ForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("gate_up_proj", "w1", 0),
             ("gate_up_proj", "w3", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
@@ -407,7 +408,7 @@ class InternLM2ForRewardModel(InternLM2ForCausalLM):
         *,
         vllm_config: VllmConfig,
         prefix: str = "",
-        model_type: Type[InternLM2Model] = InternLM2Model,
+        model_type: type[InternLM2Model] = InternLM2Model,
     ):
         super().__init__(vllm_config=vllm_config,
                          prefix=prefix,
diff --git a/vllm/model_executor/models/internlm2_ve.py b/vllm/model_executor/models/internlm2_ve.py
index 69b0caab8..6893d0239 100644
--- a/vllm/model_executor/models/internlm2_ve.py
+++ b/vllm/model_executor/models/internlm2_ve.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Optional, Tuple, Union
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -66,7 +66,7 @@ class InternLM2VEDecoderLayer(nn.Module):
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
         visual_token_mask: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         if residual is None:
             residual = hidden_states
diff --git a/vllm/model_executor/models/internvl.py b/vllm/model_executor/models/internvl.py
index 23b92ad2b..66e78fcc4 100644
--- a/vllm/model_executor/models/internvl.py
+++ b/vllm/model_executor/models/internvl.py
@@ -8,7 +8,7 @@
 # --------------------------------------------------------
 from abc import ABC, abstractmethod
 from collections.abc import Iterable, Mapping, Sequence
-from typing import Literal, Optional, Set, Tuple, TypedDict, TypeVar, Union
+from typing import Literal, Optional, TypedDict, TypeVar, Union
 
 import torch
 import torch.nn as nn
@@ -932,8 +932,8 @@ class InternVLChatModel(nn.Module, SupportsMultiModal, SupportsPP):
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         # unused modules appear in OpenGVLab/InternVideo2_5_Chat_8B
         skip_prefixes = [
             "action_embed", "temporal_embed", "track_embed",
diff --git a/vllm/model_executor/models/jais.py b/vllm/model_executor/models/jais.py
index e1e3f0f19..d6a1e0bb4 100644
--- a/vllm/model_executor/models/jais.py
+++ b/vllm/model_executor/models/jais.py
@@ -21,7 +21,8 @@
 """Inference-only Jais model compatible with HuggingFace weights."""
 
 import math
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -333,10 +334,10 @@ class JAISLMHeadModel(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "lm_head.weight" in name:
                 # GPT-2 ties the weights of the embedding layer and the final
diff --git a/vllm/model_executor/models/jamba.py b/vllm/model_executor/models/jamba.py
index 46335c2b3..6f9fa60c9 100644
--- a/vllm/model_executor/models/jamba.py
+++ b/vllm/model_executor/models/jamba.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 """Inference-only Jamba model."""
-from typing import Iterable, Optional, Set, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 from torch import nn
@@ -442,7 +443,7 @@ class JambaForCausalLM(nn.Module, HasInnerState, SupportsLoRA, SupportsPP,
         return self.mamba_cache.get_seqlen_agnostic_capture_inputs(batch_size)
 
     def _get_mamba_cache_shape(
-            self) -> Tuple[Tuple[int, int], Tuple[int, int]]:
+            self) -> tuple[tuple[int, int], tuple[int, int]]:
         world_size = get_tensor_model_parallel_world_size()
         hidden_size = self.config.hidden_size
         conv_state_shape = (
@@ -464,8 +465,8 @@ class JambaForCausalLM(nn.Module, HasInnerState, SupportsLoRA, SupportsPP,
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -482,7 +483,7 @@ class JambaForCausalLM(nn.Module, HasInnerState, SupportsLoRA, SupportsPP,
             num_experts=self.config.num_experts)
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
@@ -583,7 +584,7 @@ class JambaForSequenceClassification(JambaForCausalLM):
         logits = self.score(hidden_states)
         return self._pooler(logits, pooling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         # TODO: The reward weights themselves have float32 accuracy data, we
         # would like to load them in fp32 to get that extra precision.
         super().load_weights(weights)
diff --git a/vllm/model_executor/models/kimi_vl.py b/vllm/model_executor/models/kimi_vl.py
index 062926686..b575f4476 100644
--- a/vllm/model_executor/models/kimi_vl.py
+++ b/vllm/model_executor/models/kimi_vl.py
@@ -43,10 +43,9 @@
 
 import copy
 import math
-from collections.abc import Mapping
+from collections.abc import Iterable, Mapping, Sequence
 from dataclasses import dataclass
-from typing import (Any, Iterable, List, Literal, Optional, Sequence, Tuple,
-                    TypedDict, Union)
+from typing import Any, Literal, Optional, TypedDict, Union
 
 import torch
 from torch import nn
@@ -120,7 +119,7 @@ class KimiVLMultiModalProjector(nn.Module):
 
 class KimiVLImagePixelInputs(TypedDict):
     type: Literal["pixel_values"]
-    pixel_values: Union[torch.Tensor, List[torch.Tensor]]
+    pixel_values: Union[torch.Tensor, list[torch.Tensor]]
     """
     Shape:`(num_patches, num_channels, patch_size, patch_size)`
     """
@@ -447,7 +446,7 @@ class KimiVLForConditionalGeneration(nn.Module, SupportsMultiModal):
                                        sampling_metadata, **kwargs)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         config = self.config.text_config
         _KEYS_TO_MODIFY_MAPPING = {
             "language_model.lm_head": "lm_head",
diff --git a/vllm/model_executor/models/llama.py b/vllm/model_executor/models/llama.py
index c1593dcbe..c15c0213b 100644
--- a/vllm/model_executor/models/llama.py
+++ b/vllm/model_executor/models/llama.py
@@ -22,7 +22,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only LLaMA model compatible with HuggingFace weights."""
-from typing import Any, Dict, Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Any, Optional, Union
 
 import torch
 from torch import nn
@@ -103,7 +104,7 @@ class LlamaAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 8192,
         quant_config: Optional[QuantizationConfig] = None,
         bias: bool = False,
@@ -285,7 +286,7 @@ class LlamaDecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         if residual is None:
             residual = hidden_states
@@ -394,8 +395,8 @@ class LlamaModel(nn.Module):
             return hidden_states, aux_hidden_states
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             (".qkv_proj", ".q_proj", "q"),
@@ -405,7 +406,7 @@ class LlamaModel(nn.Module):
             (".gate_up_proj", ".up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
@@ -582,8 +583,8 @@ class LlamaForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head."]
@@ -599,7 +600,7 @@ class LlamaForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         self,
         name: str,
         loaded_weight: torch.Tensor,
-    ) -> Tuple[str, torch.Tensor]:
+    ) -> tuple[str, torch.Tensor]:
 
         def permute(w: torch.Tensor, n_heads: int):
             attn_in = self.config.head_dim * n_heads
diff --git a/vllm/model_executor/models/llama4.py b/vllm/model_executor/models/llama4.py
index dfd0804f2..40fdd84d8 100644
--- a/vllm/model_executor/models/llama4.py
+++ b/vllm/model_executor/models/llama4.py
@@ -16,7 +16,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only LLaMA model compatible with HuggingFace weights."""
-from typing import Any, Dict, Iterable, List, Optional, Set, Tuple
+from collections.abc import Iterable
+from typing import Any, Optional
 
 import torch
 from torch import nn
@@ -48,7 +49,7 @@ class Llama4MoE(nn.Module):
         gating_output: torch.Tensor,
         topk: int,
         renormalize: bool,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         router_scores, router_indices = fast_topk(gating_output, topk, dim=-1)
         # psuedo-standard is that the router scores are floats
         router_scores = torch.sigmoid(router_scores.float())
@@ -115,7 +116,7 @@ class Llama4Attention(nn.Module):
                  num_heads: int,
                  num_kv_heads: int,
                  rope_theta: float = 10000,
-                 rope_scaling: Optional[Dict[str, Any]] = None,
+                 rope_scaling: Optional[dict[str, Any]] = None,
                  max_position_embeddings: int = 8192,
                  quant_config: Optional[QuantizationConfig] = None,
                  bias: bool = False,
@@ -300,7 +301,7 @@ class Llama4DecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         if residual is None:
             residual = hidden_states
@@ -335,9 +336,9 @@ class Llama4Model(LlamaModel):
         self,
         name: str,
         loaded_weight: torch.Tensor,
-        params_dict: Dict[str, nn.Parameter],
-        loaded_params: Set[str],
-        expert_params_mapping: List[Tuple[str, str, int, str]],
+        params_dict: dict[str, nn.Parameter],
+        loaded_params: set[str],
+        expert_params_mapping: list[tuple[str, str, int, str]],
         fused: bool = True,
     ) -> bool:
         expert_param_loaded = False
@@ -390,8 +391,8 @@ class Llama4Model(LlamaModel):
             expert_param_loaded = True
         return expert_param_loaded
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             (".qkv_proj", ".q_proj", "q"),
@@ -412,7 +413,7 @@ class Llama4Model(LlamaModel):
             ckpt_up_proj_name="gate_up_proj",
             num_experts=1)
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "experts.gate_up_proj" in name or "experts.down_proj" in name:
                 fused_experts_params = True
@@ -489,8 +490,8 @@ class Llama4ForCausalLM(LlamaForCausalLM):
                            prefix=prefix,
                            layer_type=layer_type)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head."]
@@ -506,7 +507,7 @@ class Llama4ForCausalLM(LlamaForCausalLM):
         self,
         name: str,
         loaded_weight: torch.Tensor,
-    ) -> Tuple[str, torch.Tensor]:
+    ) -> tuple[str, torch.Tensor]:
 
         def permute(w: torch.Tensor, n_heads: int):
             attn_in = self.config.head_dim * n_heads
diff --git a/vllm/model_executor/models/llama_eagle.py b/vllm/model_executor/models/llama_eagle.py
index 4e51daa22..018ecc2a8 100644
--- a/vllm/model_executor/models/llama_eagle.py
+++ b/vllm/model_executor/models/llama_eagle.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Iterable, Set, Tuple
+from collections.abc import Iterable
 
 import torch
 import torch.nn as nn
@@ -92,8 +92,8 @@ class LlamaModel(nn.Module):
         hidden_states = hidden_states + residual
         return hidden_states, hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             (".qkv_proj", ".q_proj", "q"),
@@ -103,7 +103,7 @@ class LlamaModel(nn.Module):
             (".gate_up_proj", ".up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             for param_name, weight_name, shard_id in stacked_params_mapping:
                 if weight_name not in name:
@@ -150,7 +150,7 @@ class EagleLlamaForCausalLM(LlamaForCausalLM):
     ) -> tuple[torch.Tensor, torch.Tensor]:
         return self.model(input_ids, positions, hidden_states)
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=None,
diff --git a/vllm/model_executor/models/llama_eagle3.py b/vllm/model_executor/models/llama_eagle3.py
index 9761c8389..2302d1352 100644
--- a/vllm/model_executor/models/llama_eagle3.py
+++ b/vllm/model_executor/models/llama_eagle3.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Iterable, Optional, Set, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 import torch.nn as nn
@@ -56,7 +57,7 @@ class LlamaDecoderLayer(LlamaDecoderLayer):
         embeds: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
 
         residual = hidden_states
         embeds = self.input_layernorm(embeds)
@@ -140,8 +141,8 @@ class LlamaModel(nn.Module):
         hidden_states, hidden_prenorm = self.norm(hidden_states, residual)
         return hidden_states, hidden_prenorm
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             (".qkv_proj", ".q_proj", "q"),
@@ -151,7 +152,7 @@ class LlamaModel(nn.Module):
             (".gate_up_proj", ".up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if 'midlayer.' in name:
                 name = name.replace('midlayer.', 'layers.0.')
@@ -228,7 +229,7 @@ class Eagle3LlamaForCausalLM(LlamaForCausalLM):
         # combine multiple auxiliary hidden states returned by eagle3
         return self.model.fc(hidden_states)
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=None,
diff --git a/vllm/model_executor/models/llava.py b/vllm/model_executor/models/llava.py
index 6287fdb33..95c1a0ca0 100644
--- a/vllm/model_executor/models/llava.py
+++ b/vllm/model_executor/models/llava.py
@@ -2,8 +2,8 @@
 
 from abc import abstractmethod
 from collections.abc import Iterable, Mapping, Sequence
-from typing import (Final, Literal, Optional, Protocol, Set, Tuple, TypedDict,
-                    TypeVar, Union, cast)
+from typing import (Final, Literal, Optional, Protocol, TypedDict, TypeVar,
+                    Union, cast)
 
 import torch
 import torch.nn as nn
@@ -751,8 +751,8 @@ class LlavaForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
 
diff --git a/vllm/model_executor/models/llava_next.py b/vllm/model_executor/models/llava_next.py
index c7e8d6991..e731f1bfd 100644
--- a/vllm/model_executor/models/llava_next.py
+++ b/vllm/model_executor/models/llava_next.py
@@ -1,8 +1,9 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from abc import abstractmethod
-from typing import (Final, Iterable, List, Literal, Mapping, Optional,
-                    Protocol, Set, Tuple, TypedDict, TypeVar, Union)
+from collections.abc import Iterable, Mapping
+from typing import (Final, Literal, Optional, Protocol, TypedDict, TypeVar,
+                    Union)
 
 import torch
 import torch.nn as nn
@@ -266,8 +267,8 @@ class LlavaNextForConditionalGeneration(nn.Module, SupportsMultiModal,
         return data
 
     def _validate_pixel_values(
-        self, data: Union[torch.Tensor, List[torch.Tensor]]
-    ) -> Union[torch.Tensor, List[torch.Tensor]]:
+        self, data: Union[torch.Tensor, list[torch.Tensor]]
+    ) -> Union[torch.Tensor, list[torch.Tensor]]:
 
         h = w = self.config.vision_config.image_size
         expected_dims = (3, h, w)
@@ -450,7 +451,7 @@ class LlavaNextForConditionalGeneration(nn.Module, SupportsMultiModal,
     def _process_image_input(
         self,
         image_input: LlavaNextImageInputs,
-    ) -> Union[torch.Tensor, List[torch.Tensor]]:
+    ) -> Union[torch.Tensor, list[torch.Tensor]]:
         if image_input["type"] == "image_embeds":
             return [image_input["data"]]
 
@@ -577,7 +578,7 @@ class LlavaNextForConditionalGeneration(nn.Module, SupportsMultiModal,
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/llava_next_video.py b/vllm/model_executor/models/llava_next_video.py
index a5ff189cf..9303ea121 100644
--- a/vllm/model_executor/models/llava_next_video.py
+++ b/vllm/model_executor/models/llava_next_video.py
@@ -2,7 +2,7 @@
 
 import math
 from collections.abc import Iterable, Mapping, Sequence
-from typing import List, Literal, Optional, Set, Tuple, TypedDict, Union
+from typing import Literal, Optional, TypedDict, Union
 
 import torch
 import torch.nn as nn
@@ -35,7 +35,7 @@ from .vision import get_vision_encoder_info
 
 class LlavaNextVideoPixelInputs(TypedDict):
     type: Literal["pixel_values_videos"]
-    data: Union[torch.Tensor, List[torch.Tensor]]
+    data: Union[torch.Tensor, list[torch.Tensor]]
     """
     Shape: `(batch_size, num_frames, num_channels, height, width)`
 
@@ -300,8 +300,8 @@ class LlavaNextVideoForConditionalGeneration(nn.Module, SupportsMultiModal,
             self.language_model.model.make_empty_intermediate_tensors)
 
     def _validate_video_pixel_values(
-        self, data: Union[torch.Tensor, List[torch.Tensor]]
-    ) -> Union[torch.Tensor, List[torch.Tensor]]:
+        self, data: Union[torch.Tensor, list[torch.Tensor]]
+    ) -> Union[torch.Tensor, list[torch.Tensor]]:
 
         h = w = self.config.vision_config.image_size
         expected_dims = (3, h, w)
@@ -326,7 +326,7 @@ class LlavaNextVideoForConditionalGeneration(nn.Module, SupportsMultiModal,
         A legal video input should have the following dimensions:
         {
             "pixel_values_videos" : 
-                List[b, Tensor(nb_frames, nb_channels, height, width)]
+                list[b, Tensor(nb_frames, nb_channels, height, width)]
         }
         """
         pixel_values_videos = kwargs.pop("pixel_values_videos", None)
@@ -460,8 +460,8 @@ class LlavaNextVideoForConditionalGeneration(nn.Module, SupportsMultiModal,
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             # This model doesn't support images for now
diff --git a/vllm/model_executor/models/llava_onevision.py b/vllm/model_executor/models/llava_onevision.py
index 5c2b388e4..49f1ecb4b 100644
--- a/vllm/model_executor/models/llava_onevision.py
+++ b/vllm/model_executor/models/llava_onevision.py
@@ -2,8 +2,7 @@
 
 import math
 from collections.abc import Iterable, Mapping, Sequence
-from typing import (Final, List, Literal, Optional, Protocol, Set, Tuple,
-                    TypedDict, Union)
+from typing import Final, Literal, Optional, Protocol, TypedDict, Union
 
 import torch
 import torch.nn as nn
@@ -471,8 +470,8 @@ class LlavaOnevisionForConditionalGeneration(nn.Module, SupportsMultiModal,
         return data
 
     def _validate_image_pixel_values(
-        self, data: Union[torch.Tensor, List[torch.Tensor]]
-    ) -> Union[torch.Tensor, List[torch.Tensor]]:
+        self, data: Union[torch.Tensor, list[torch.Tensor]]
+    ) -> Union[torch.Tensor, list[torch.Tensor]]:
 
         h = w = self.config.vision_config.image_size
         expected_dims = (3, h, w)
@@ -530,8 +529,8 @@ class LlavaOnevisionForConditionalGeneration(nn.Module, SupportsMultiModal,
         raise AssertionError("This line should be unreachable.")
 
     def _validate_video_pixel_values(
-        self, data: Union[torch.Tensor, List[torch.Tensor]]
-    ) -> Union[torch.Tensor, List[torch.Tensor]]:
+        self, data: Union[torch.Tensor, list[torch.Tensor]]
+    ) -> Union[torch.Tensor, list[torch.Tensor]]:
 
         h = w = self.config.vision_config.image_size
         expected_dims = (3, h, w)
@@ -557,7 +556,7 @@ class LlavaOnevisionForConditionalGeneration(nn.Module, SupportsMultiModal,
         A legal video input should have the following dimensions:
         {
             "pixel_values_videos" : 
-                List[b, Tensor(nb_frames, nb_channels, height, width)]
+                list[b, Tensor(nb_frames, nb_channels, height, width)]
         }
         """
         pixel_values_videos = kwargs.pop("pixel_values_videos", None)
@@ -706,7 +705,7 @@ class LlavaOnevisionForConditionalGeneration(nn.Module, SupportsMultiModal,
     def _process_image_pixels(
         self,
         inputs: LlavaOnevisionImagePixelInputs,
-    ) -> Union[torch.Tensor, List[torch.Tensor]]:
+    ) -> Union[torch.Tensor, list[torch.Tensor]]:
         assert self.vision_tower is not None
 
         pixel_values = inputs["pixel_values"]
@@ -735,7 +734,7 @@ class LlavaOnevisionForConditionalGeneration(nn.Module, SupportsMultiModal,
     def _process_image_input(
         self,
         image_input: LlavaOnevisionImageInputs,
-    ) -> Union[torch.Tensor, List[torch.Tensor]]:
+    ) -> Union[torch.Tensor, list[torch.Tensor]]:
         if image_input["type"] == "image_embeds":
             return [image_input["data"]]
 
@@ -948,7 +947,7 @@ class LlavaOnevisionForConditionalGeneration(nn.Module, SupportsMultiModal,
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/mamba.py b/vllm/model_executor/models/mamba.py
index af78ece66..ce76a76b6 100644
--- a/vllm/model_executor/models/mamba.py
+++ b/vllm/model_executor/models/mamba.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 """PyTorch MAMBA model."""
-from typing import Iterable, Optional, Set, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 from torch import nn
@@ -30,7 +31,7 @@ from .utils import (AutoWeightsLoader, is_pp_missing_parameter,
                     make_empty_intermediate_tensors_factory, make_layers,
                     maybe_prefix)
 
-KVCache = Tuple[torch.Tensor, torch.Tensor]
+KVCache = tuple[torch.Tensor, torch.Tensor]
 
 
 class MambaDecoderLayer(nn.Module):
@@ -153,10 +154,10 @@ class MambaModel(nn.Module):
 
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "A_log" in name:
                 name = name.replace("A_log", "A")
@@ -247,7 +248,7 @@ class MambaForCausalLM(nn.Module, HasInnerState, IsAttentionFree, SupportsPP,
         return self.mamba_cache.get_seqlen_agnostic_capture_inputs(batch_size)
 
     def _get_mamba_cache_shape(
-            self) -> Tuple[Tuple[int, int], Tuple[int, int]]:
+            self) -> tuple[tuple[int, int], tuple[int, int]]:
         world_size = get_tensor_model_parallel_world_size()
         conv_state_shape = (
             self.config.intermediate_size // world_size,
@@ -265,7 +266,7 @@ class MambaForCausalLM(nn.Module, HasInnerState, IsAttentionFree, SupportsPP,
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/mamba2.py b/vllm/model_executor/models/mamba2.py
index 72daf34c4..858a1633b 100644
--- a/vllm/model_executor/models/mamba2.py
+++ b/vllm/model_executor/models/mamba2.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 """PyTorch MAMBA2 model."""
-from typing import Iterable, Optional, Set, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 from torch import nn
@@ -35,7 +36,7 @@ from .utils import (is_pp_missing_parameter,
                     make_empty_intermediate_tensors_factory, make_layers,
                     maybe_prefix)
 
-KVCache = Tuple[torch.Tensor, torch.Tensor]
+KVCache = tuple[torch.Tensor, torch.Tensor]
 
 
 class Mamba2DecoderLayer(nn.Module):
@@ -241,7 +242,7 @@ class Mamba2ForCausalLM(nn.Module, HasInnerState, IsAttentionFree,
         return self.mamba_cache.get_seqlen_agnostic_capture_inputs(batch_size)
 
     def _get_mamba_cache_shape(
-            self) -> Tuple[Tuple[int, int], Tuple[int, int]]:
+            self) -> tuple[tuple[int, int], tuple[int, int]]:
         world_size = get_tensor_model_parallel_world_size()
 
         conv_state_shape, temporal_state_shape = None, None
@@ -279,10 +280,10 @@ class Mamba2ForCausalLM(nn.Module, HasInnerState, IsAttentionFree,
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "A_log" in name:
                 name = name.replace("A_log", "A")
diff --git a/vllm/model_executor/models/mamba_cache.py b/vllm/model_executor/models/mamba_cache.py
index 258397278..47d0ef9cc 100644
--- a/vllm/model_executor/models/mamba_cache.py
+++ b/vllm/model_executor/models/mamba_cache.py
@@ -1,7 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
 from dataclasses import dataclass
-from typing import Tuple
 
 import torch
 
@@ -25,8 +24,8 @@ class MambaCacheParams:
 class MambaCacheManager(ConstantSizeCache):
 
     def __init__(self, vllm_config: VllmConfig, dtype: torch.dtype,
-                 num_mamba_layers: int, conv_state_shape: Tuple[int, int],
-                 temporal_state_shape: Tuple[int, int]):
+                 num_mamba_layers: int, conv_state_shape: tuple[int, int],
+                 temporal_state_shape: tuple[int, int]):
 
         # Determine max batch size to set size of MambaCache
         max_batch_size = vllm_config.scheduler_config.max_num_seqs
diff --git a/vllm/model_executor/models/medusa.py b/vllm/model_executor/models/medusa.py
index a19d7da56..ac0b281f3 100644
--- a/vllm/model_executor/models/medusa.py
+++ b/vllm/model_executor/models/medusa.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Iterable, List, Optional, Set, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 import torch.nn as nn
@@ -96,13 +97,13 @@ class Medusa(nn.Module):
         # checkpoint file has token_map tensor.
         self.token_map = None
 
-    def forward(self, hidden_states: torch.Tensor) -> List[torch.Tensor]:
+    def forward(self, hidden_states: torch.Tensor) -> list[torch.Tensor]:
         return [block(hidden_states) for block in self.blocks]
 
     def compute_logits(
-            self, hidden_states: List[torch.Tensor],
-            sampling_metadata: SamplingMetadata) -> List[torch.Tensor]:
-        logits_lst: List[torch.Tensor] = []
+            self, hidden_states: list[torch.Tensor],
+            sampling_metadata: SamplingMetadata) -> list[torch.Tensor]:
+        logits_lst: list[torch.Tensor] = []
 
         for hs, lm_head in zip(hidden_states, self.lm_heads):
             _logits = self.logits_processor(lm_head, hs, sampling_metadata)
@@ -127,9 +128,9 @@ class Medusa(nn.Module):
 
     def sample(
         self,
-        logits: List[torch.Tensor],
+        logits: list[torch.Tensor],
         sampling_metadata: SamplingMetadata,
-    ) -> List[SamplerOutput]:
+    ) -> list[SamplerOutput]:
         logits = torch.stack(logits, dim=0).float()
         logprobs = torch.log_softmax(logits, dim=-1)
         token_ids = logits.argmax(-1)  # support only top-1 for now
@@ -144,7 +145,7 @@ class Medusa(nn.Module):
             token_prob_list.append(probs[:, seq_group.sample_indices])
             token_logprob_list.append(logprobs[:, seq_group.sample_indices])
 
-        outputs: List[Optional[SamplerOutput]] = []
+        outputs: list[Optional[SamplerOutput]] = []
         for idx in range(len(sampling_metadata.seq_groups)):
             outputs.append(
                 SamplerOutput(
@@ -160,7 +161,7 @@ class Medusa(nn.Module):
         self,
         previous_hidden_states: torch.Tensor,
         sampling_metadata: SamplingMetadata,
-    ) -> List[SamplerOutput]:
+    ) -> list[SamplerOutput]:
         return self.sample(
             logits=self.compute_logits(
                 hidden_states=self.forward(previous_hidden_states),
@@ -169,10 +170,10 @@ class Medusa(nn.Module):
             sampling_metadata=sampling_metadata,
         )
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
 
         weights_map = {}
 
diff --git a/vllm/model_executor/models/mimo.py b/vllm/model_executor/models/mimo.py
index b882aeebb..49ea64e02 100644
--- a/vllm/model_executor/models/mimo.py
+++ b/vllm/model_executor/models/mimo.py
@@ -24,7 +24,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only MiMo model compatible with HuggingFace weights."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 import torch.nn as nn
@@ -87,8 +88,8 @@ class MiMoModel(Qwen2Model):
         hidden_states = hidden_states + residual
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             ("qkv_proj", "q_proj", "q"),
             ("qkv_proj", "k_proj", "k"),
@@ -97,7 +98,7 @@ class MiMoModel(Qwen2Model):
             ("gate_up_proj", "up_proj", 1),
         ]
         params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "mtp_layers" in name:
                 continue
diff --git a/vllm/model_executor/models/mimo_mtp.py b/vllm/model_executor/models/mimo_mtp.py
index c2f1cf411..adcfcaa6b 100644
--- a/vllm/model_executor/models/mimo_mtp.py
+++ b/vllm/model_executor/models/mimo_mtp.py
@@ -18,7 +18,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only MiMo-MTP model."""
-from typing import Iterable, Optional, Set, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 import torch.nn as nn
@@ -193,8 +194,8 @@ class MiMoMTP(nn.Module):
         next_tokens = self.sampler(logits, sampling_metadata)
         return next_tokens
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             ("qkv_proj", "q_proj", "q"),
             ("qkv_proj", "k_proj", "k"),
@@ -204,7 +205,7 @@ class MiMoMTP(nn.Module):
         ]
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
 
             if "rotary_emb.inv_freq" in name:
diff --git a/vllm/model_executor/models/minicpm.py b/vllm/model_executor/models/minicpm.py
index 866dc3f46..d99ae8146 100644
--- a/vllm/model_executor/models/minicpm.py
+++ b/vllm/model_executor/models/minicpm.py
@@ -23,7 +23,8 @@
 # limitations under the License.
 """Inference-only MiniCPM model compatible with HuggingFace weights."""
 import math
-from typing import Any, Dict, Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Any, Optional, Union
 
 import torch
 from torch import nn
@@ -190,7 +191,7 @@ class MiniCPMAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 8192,
         cache_config: Optional[CacheConfig] = None,
         quant_config: Optional[QuantizationConfig] = None,
@@ -329,7 +330,7 @@ class MiniCPMDecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         residual = hidden_states
         hidden_states = self.input_layernorm(hidden_states)
@@ -428,8 +429,8 @@ class MiniCPMModel(nn.Module):
         hidden_states = self.norm(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -446,7 +447,7 @@ class MiniCPMModel(nn.Module):
             for weight_name in ["w1", "w2", "w3"]
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
@@ -582,8 +583,8 @@ class MiniCPMForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head."]
diff --git a/vllm/model_executor/models/minicpm3.py b/vllm/model_executor/models/minicpm3.py
index 1b24c38ce..2a6867d12 100644
--- a/vllm/model_executor/models/minicpm3.py
+++ b/vllm/model_executor/models/minicpm3.py
@@ -23,7 +23,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only MiniCPM3 model compatible with HuggingFace weights."""
-from typing import Any, Dict, Optional
+from typing import Any, Optional
 
 import torch
 from torch import nn
@@ -58,7 +58,7 @@ class MiniCPM3Attention(nn.Module):
         q_lora_rank: int,
         kv_lora_rank: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 8192,
         cache_config: Optional[CacheConfig] = None,
         quant_config: Optional[QuantizationConfig] = None,
diff --git a/vllm/model_executor/models/minicpmo.py b/vllm/model_executor/models/minicpmo.py
index f42d48e91..ae5df0f92 100644
--- a/vllm/model_executor/models/minicpmo.py
+++ b/vllm/model_executor/models/minicpmo.py
@@ -23,8 +23,7 @@
 # limitations under the License.
 """Inference-only MiniCPM-O model compatible with HuggingFace weights."""
 from collections.abc import Iterable, Mapping, Sequence
-from typing import (Any, Callable, Literal, Optional, Set, Tuple, TypedDict,
-                    Union)
+from typing import Any, Callable, Literal, Optional, TypedDict, Union
 
 import torch
 from torch import nn
@@ -559,8 +558,8 @@ class MiniCPMO(MiniCPMV2_6):
         self.audio_encoder_layer = -1
         return model
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self, skip_prefixes=["tts"])
         return loader.load_weights(weights)
 
diff --git a/vllm/model_executor/models/minicpmv.py b/vllm/model_executor/models/minicpmv.py
index 300360f78..04cc7e35e 100644
--- a/vllm/model_executor/models/minicpmv.py
+++ b/vllm/model_executor/models/minicpmv.py
@@ -26,8 +26,7 @@ import math
 from collections import defaultdict
 from collections.abc import Iterable, Mapping, Sequence
 from functools import partial
-from typing import (Any, Callable, Literal, Optional, Set, Tuple, TypedDict,
-                    Union)
+from typing import Any, Callable, Literal, Optional, TypedDict, Union
 
 import numpy as np
 import torch
@@ -118,7 +117,7 @@ class Resampler2_5(BaseResampler):
                  num_heads: int,
                  kv_dim: Optional[int] = None,
                  norm_layer: Callable[[int], nn.LayerNorm] = DEFAULT_LN,
-                 max_size: Tuple[int, int] = (70, 70),
+                 max_size: tuple[int, int] = (70, 70),
                  quant_config: Optional[QuantizationConfig] = None,
                  prefix: str = "") -> None:
         super().__init__(num_queries,
@@ -133,7 +132,7 @@ class Resampler2_5(BaseResampler):
         self._set_2d_pos_cache(self.max_size)
 
     def _set_2d_pos_cache(self,
-                          max_size: Tuple[int, int],
+                          max_size: tuple[int, int],
                           device: torch.types.Device = "cpu") -> None:
         pos_embed_arr = get_2d_sincos_pos_embed(self.embed_dim,
                                                 max_size,
@@ -203,7 +202,7 @@ class Resampler2_5(BaseResampler):
         return x
 
 
-def get_version_by_config(config: PretrainedConfig) -> Tuple[int, ...]:
+def get_version_by_config(config: PretrainedConfig) -> tuple[int, ...]:
     version_float = getattr(config, "version", None)
 
     # The old configs do not include version number
@@ -938,8 +937,8 @@ class MiniCPMVBaseModel(nn.Module, SupportsMultiModal, SupportsPP):
     ) -> Optional[torch.Tensor]:
         return self.llm.compute_logits(hidden_states, sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
 
diff --git a/vllm/model_executor/models/minimax_text_01.py b/vllm/model_executor/models/minimax_text_01.py
index 951f4e230..0285402da 100644
--- a/vllm/model_executor/models/minimax_text_01.py
+++ b/vllm/model_executor/models/minimax_text_01.py
@@ -3,7 +3,8 @@
 import copy
 import math
 import re
-from typing import Dict, Iterable, List, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 import torch.distributed
@@ -127,7 +128,7 @@ class MiniMaxText01RMSNormTP(CustomOp):
         self,
         x: torch.Tensor,
         residual: Optional[torch.Tensor] = None,
-    ) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
+    ) -> Union[torch.Tensor, tuple[torch.Tensor, torch.Tensor]]:
         assert residual is None, "RMSNorm does not support residual connection."
         return self._forward(x)
 
@@ -178,7 +179,7 @@ class MiniMaxText01RotaryEmbedding(CustomOp):
         positions: torch.Tensor,
         query: torch.Tensor,
         key: torch.Tensor,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         from vllm import _custom_ops as ops
         self.cos_sin_cache = self.cos_sin_cache.to(positions.device)
         query_cast = query.to(self.cache_dtype)
@@ -708,11 +709,11 @@ class MiniMaxText01DecoderLayer(nn.Module):
     def forward(self,
                 hidden_states: torch.Tensor,
                 positions: torch.Tensor,
-                kv_caches: Union[List[Dict], Optional[torch.Tensor]],
+                kv_caches: Union[list[dict], Optional[torch.Tensor]],
                 attn_metadata: AttentionMetadata,
                 residual: Optional[torch.Tensor],
                 is_warmup: bool = False,
-                **kwargs) -> Tuple[torch.Tensor, torch.Tensor]:
+                **kwargs) -> tuple[torch.Tensor, torch.Tensor]:
 
         forward_context = get_forward_context()
         attn_metadata = forward_context.attn_metadata
@@ -1072,10 +1073,10 @@ class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid,
                         device=device),
         })
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
 
         def which_layer(name: str) -> int:
             if "layers" in name:
diff --git a/vllm/model_executor/models/minimax_vl_01.py b/vllm/model_executor/models/minimax_vl_01.py
index 4ac60f97b..14c1250ca 100644
--- a/vllm/model_executor/models/minimax_vl_01.py
+++ b/vllm/model_executor/models/minimax_vl_01.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 from collections.abc import Iterable, Mapping
-from typing import Literal, Optional, Set, Tuple, TypedDict, Union, cast
+from typing import Literal, Optional, TypedDict, Union, cast
 
 import torch
 import torch.nn as nn
@@ -357,7 +357,7 @@ class MiniMaxVL01ForConditionalGeneration(nn.Module, SupportsMultiModal,
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/mistral3.py b/vllm/model_executor/models/mistral3.py
index 42ec786f3..2b9cbf104 100644
--- a/vllm/model_executor/models/mistral3.py
+++ b/vllm/model_executor/models/mistral3.py
@@ -2,8 +2,8 @@
 
 from abc import abstractmethod
 from collections.abc import Iterable, Mapping, Sequence
-from typing import (Final, Literal, Optional, Protocol, Set, Tuple, TypedDict,
-                    TypeVar, Union)
+from typing import (Final, Literal, Optional, Protocol, TypedDict, TypeVar,
+                    Union)
 
 import torch
 import torch.nn as nn
@@ -589,8 +589,8 @@ class Mistral3ForConditionalGeneration(nn.Module, SupportsLoRA,
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
 
diff --git a/vllm/model_executor/models/mixtral.py b/vllm/model_executor/models/mixtral.py
index 1513c8dad..1968bf9e6 100644
--- a/vllm/model_executor/models/mixtral.py
+++ b/vllm/model_executor/models/mixtral.py
@@ -22,7 +22,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only Mixtral model."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -314,8 +315,8 @@ class MixtralModel(nn.Module):
         hidden_states, _ = self.norm(hidden_states, residual)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -332,7 +333,7 @@ class MixtralModel(nn.Module):
             num_experts=self.config.num_local_experts)
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if (self.quant_config is not None and
                 (scale_name := self.quant_config.get_cache_scale(name))):
@@ -479,7 +480,7 @@ class MixtralForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self, skip_prefixes=["rotary_emb.inv_freq"])
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/mixtral_quant.py b/vllm/model_executor/models/mixtral_quant.py
index 7c022a5b8..4de83d12b 100644
--- a/vllm/model_executor/models/mixtral_quant.py
+++ b/vllm/model_executor/models/mixtral_quant.py
@@ -22,7 +22,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only Mixtral model."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import numpy as np
 import torch
@@ -397,8 +398,8 @@ class MixtralForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -407,7 +408,7 @@ class MixtralForCausalLM(nn.Module, SupportsPP):
         ]
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
diff --git a/vllm/model_executor/models/mllama.py b/vllm/model_executor/models/mllama.py
index 0c1d61c01..713c9e8d2 100644
--- a/vllm/model_executor/models/mllama.py
+++ b/vllm/model_executor/models/mllama.py
@@ -16,7 +16,7 @@
 """PyTorch Mllama model."""
 import math
 from collections.abc import Iterable, Mapping, Sequence
-from typing import List, Literal, Optional, Set, Tuple, TypedDict, Union
+from typing import Literal, Optional, TypedDict, Union
 
 import numpy as np
 import torch
@@ -224,7 +224,7 @@ class MllamaMultiModalProcessor(EncDecMultiModalProcessor[MllamaProcessingInfo]
 
         return mm_inputs
 
-    def _get_num_image_in_last_group(self, prompt_token_ids: List[int]) -> int:
+    def _get_num_image_in_last_group(self, prompt_token_ids: list[int]) -> int:
         num_images = 0
         for token_id in prompt_token_ids[::-1]:
             if token_id == self.info.get_hf_config().image_token_index:
@@ -370,8 +370,8 @@ class ColumnParallelConv2dPatch(torch.nn.Module):
         self,
         in_channels: int,
         out_channels: int,
-        kernel_size: Union[int, Tuple[int, int]],
-        stride: Union[int, Tuple[int, int]],
+        kernel_size: Union[int, tuple[int, int]],
+        stride: Union[int, tuple[int, int]],
         bias: bool = False,
     ) -> None:
         super().__init__()
@@ -603,7 +603,7 @@ class MllamaVisionEncoder(nn.Module):
         self,
         hidden_states: torch.Tensor,
         attention_mask: Optional[torch.Tensor] = None,
-    ) -> Union[Tuple, BaseModelOutput]:
+    ) -> Union[BaseModelOutput]:
         encoder_states = ()
 
         for i, encoder_layer in enumerate(self.layers):
@@ -878,7 +878,7 @@ class MllamaTextCrossAttention(nn.Module):
         self,
         hidden_states: torch.Tensor,
         attention_mask: Optional[torch.Tensor],
-        kv_range_for_decode: Optional[List[Tuple[int, int]]],
+        kv_range_for_decode: Optional[list[tuple[int, int]]],
         cross_attention_states: Optional[torch.Tensor],
     ) -> torch.Tensor:
         q, k, v = self.qkv_proj(hidden_states, cross_attention_states)
@@ -905,7 +905,7 @@ class MllamaTextCrossAttention(nn.Module):
         k: torch.Tensor,
         v: torch.Tensor,
         attention_mask: torch.Tensor,
-        kv_range_for_decode: List[Tuple[int, int]],
+        kv_range_for_decode: list[tuple[int, int]],
     ) -> torch.Tensor:
         kv_cache = self.attn.kv_cache[self.pipeline_parallel_rank]
         attn_metadata: AttentionMetadata = get_forward_context().attn_metadata
@@ -1019,7 +1019,7 @@ class MllamaCrossAttentionDecoderLayer(torch.nn.Module):
         hidden_states: torch.Tensor,
         cross_attention_states: torch.Tensor,
         cross_attention_mask: torch.Tensor,
-        kv_range_for_decode: Optional[List[Tuple[int, int]]],
+        kv_range_for_decode: Optional[list[tuple[int, int]]],
         full_text_row_masked_out_mask: torch.Tensor,
     ) -> torch.Tensor:
         residual = hidden_states
@@ -1089,8 +1089,8 @@ class MllamaTextModel(nn.Module):
         positions: Optional[torch.LongTensor],
         cross_attention_states: Optional[torch.LongTensor],
         cross_attention_mask: Optional[torch.LongTensor],
-        kv_range_for_decode: Optional[List[Tuple[int, int]]],
-        full_text_row_masked_out_mask: Optional[Tuple[torch.Tensor,
+        kv_range_for_decode: Optional[list[tuple[int, int]]],
+        full_text_row_masked_out_mask: Optional[tuple[torch.Tensor,
                                                       torch.Tensor]],
         skip_cross_attention: bool,
     ) -> torch.Tensor:
@@ -1150,8 +1150,8 @@ class MllamaForCausalLM(nn.Module):
         positions: Optional[torch.LongTensor],
         cross_attention_states: Optional[torch.LongTensor],
         cross_attention_mask: Optional[torch.LongTensor],
-        kv_range_for_decode: Optional[List[Tuple[int, int]]],
-        full_text_row_masked_out_mask: Optional[Tuple[torch.Tensor,
+        kv_range_for_decode: Optional[list[tuple[int, int]]],
+        full_text_row_masked_out_mask: Optional[tuple[torch.Tensor,
                                                       torch.Tensor]],
         skip_cross_attention: bool,
     ) -> torch.Tensor:
@@ -1221,7 +1221,7 @@ class MllamaForConditionalGeneration(nn.Module, SupportsMultiModal,
         return logits
 
     def unpack_data(self,
-                    image_data: Union[List[torch.Tensor], torch.Tensor],
+                    image_data: Union[list[torch.Tensor], torch.Tensor],
                     padding_value=0) -> torch.Tensor:
         if isinstance(image_data, torch.Tensor):
             # torch.Tensor
@@ -1230,7 +1230,7 @@ class MllamaForConditionalGeneration(nn.Module, SupportsMultiModal,
             assert isinstance(
                 image_data[0],
                 torch.Tensor), "Image data is not properly batched."
-            # List[torch.Tensor]
+            # list[torch.Tensor]
             bsz = len(image_data)
             max_length = max(t.size(0) for t in image_data)
             trailing_dims = image_data[0].shape[1:]
@@ -1248,24 +1248,24 @@ class MllamaForConditionalGeneration(nn.Module, SupportsMultiModal,
     def _parse_and_validate_image_input(self, **kwargs: object):
         # tensor with the same shape will be batched together by
         # MultiModalKwargs.batch, so pixel_values here can be:
-        #   - List[torch.Tensor]:
+        #   - list[torch.Tensor]:
         #       with shape (num_image, num_tiles, 3, image_res, image_res)
         #   - torch.Tensor:
         #       with shape (bs, num_image, num_tiles, 3, image_res, image_res)
-        pixel_values: Optional[Union[List[List[torch.Tensor]],
-                                     List[torch.Tensor],
+        pixel_values: Optional[Union[list[list[torch.Tensor]],
+                                     list[torch.Tensor],
                                      torch.Tensor]] = kwargs.pop(
                                          "pixel_values", None)
-        image_embeds: Optional[Union[List[List[torch.Tensor]],
-                                     List[torch.Tensor],
+        image_embeds: Optional[Union[list[list[torch.Tensor]],
+                                     list[torch.Tensor],
                                      torch.Tensor]] = kwargs.pop(
                                          "image_embeds", None)
-        aspect_ratio_ids: Optional[Union[List[List[torch.Tensor]],
-                                         List[torch.Tensor],
+        aspect_ratio_ids: Optional[Union[list[list[torch.Tensor]],
+                                         list[torch.Tensor],
                                          torch.Tensor]] = kwargs.pop(
                                              "aspect_ratio_ids", None)
-        aspect_ratio_mask: Optional[Union[List[List[torch.Tensor]],
-                                          List[torch.Tensor],
+        aspect_ratio_mask: Optional[Union[list[list[torch.Tensor]],
+                                          list[torch.Tensor],
                                           torch.Tensor]] = kwargs.pop(
                                               "aspect_ratio_mask", None)
 
@@ -1293,10 +1293,10 @@ class MllamaForConditionalGeneration(nn.Module, SupportsMultiModal,
 
     def _get_and_validate_encoder_lens(
         self,
-        encoder_seq_lens: List[int],
-        num_tiles: List[List[int]],
+        encoder_seq_lens: list[int],
+        num_tiles: list[list[int]],
         num_tokens_per_tile: int,
-    ) -> List[int]:
+    ) -> list[int]:
         # Get the actual number of encoder tokens for each sample.
         # Because attn_metadata.encoder_seq_lens only counts the last
         # group of images for each sample, which is used to cheat the
@@ -1318,7 +1318,7 @@ class MllamaForConditionalGeneration(nn.Module, SupportsMultiModal,
 
     def flat_encoder_result(self, cross_attention_states: torch.Tensor,
                             attn_metadata: AttentionMetadata,
-                            actual_encoder_seq_lens: List[int]):
+                            actual_encoder_seq_lens: list[int]):
 
         cross_attention_states_flat = torch.zeros(
             sum(actual_encoder_seq_lens),
@@ -1342,8 +1342,8 @@ class MllamaForConditionalGeneration(nn.Module, SupportsMultiModal,
         self,
         image_inputs: MllamaImagePixelInputs,
         attn_metadata: AttentionMetadata,
-        actual_encoder_seq_lens: List[int],
-    ) -> Tuple[torch.Tensor]:
+        actual_encoder_seq_lens: list[int],
+    ) -> tuple[torch.Tensor]:
         # NOTE: llama's reference implementation runs vision model on CPU
         pixel_values = image_inputs['data']
         aspect_ratio_ids = image_inputs['aspect_ratio_ids']
@@ -1367,10 +1367,10 @@ class MllamaForConditionalGeneration(nn.Module, SupportsMultiModal,
         self,
         input_ids: torch.Tensor,
         attn_metadata: AttentionMetadata,
-        num_tiles: List[List[int]],
+        num_tiles: list[list[int]],
         num_tokens_per_tile: int,
         dtype: torch.dtype,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         token_ids = input_ids.tolist()
         start = 0
         batch_token_ids = []
@@ -1422,7 +1422,7 @@ class MllamaForConditionalGeneration(nn.Module, SupportsMultiModal,
         input_ids: torch.Tensor,
         positions: torch.Tensor,
         **kwargs: object,
-    ) -> Union[Tuple, CausalLMOutputWithPast]:
+    ) -> Union[CausalLMOutputWithPast]:
         attn_metadata = get_forward_context().attn_metadata
         if attn_metadata.num_prefill_tokens > 0 and \
             attn_metadata.num_decode_tokens > 0:
@@ -1476,8 +1476,8 @@ class MllamaForConditionalGeneration(nn.Module, SupportsMultiModal,
 
         return outputs
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             (".qkv_proj", ".q_proj", "q"),
@@ -1487,7 +1487,7 @@ class MllamaForConditionalGeneration(nn.Module, SupportsMultiModal,
             (".gate_up_proj", ".up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        updated_params: Set[str] = set()
+        updated_params: set[str] = set()
         for name, loaded_weight in weights:
             if 'patch_embedding.weight' in name:
                 name = name.replace('patch_embedding.weight',
@@ -1538,7 +1538,7 @@ class MllamaForConditionalGeneration(nn.Module, SupportsMultiModal,
             tower_model="vision_model")
 
 
-def skip_attention_mask(sparse_mask: List[List[int]]) -> bool:
+def skip_attention_mask(sparse_mask: list[list[int]]) -> bool:
     for mask in sparse_mask:
         # Skip text-only samples.
         if len(mask) == 0:
@@ -1556,10 +1556,10 @@ def skip_attention_mask(sparse_mask: List[List[int]]) -> bool:
 
 
 def convert_sparse_cross_attention_mask_to_dense(
-    sparse_mask: List[List[List[int]]],
-    num_tiles: List[List[int]],
-    lengths: List[int],
-) -> Tuple[np.ndarray, List[Tuple[int, int]]]:
+    sparse_mask: list[list[list[int]]],
+    num_tiles: list[list[int]],
+    lengths: list[int],
+) -> tuple[np.ndarray, list[tuple[int, int]]]:
     total_length = sum(lengths)
     total_tiles = sum([sum(tiles) for tiles in num_tiles])
     dense_mask = np.zeros(shape=(total_length, total_tiles), dtype=np.int64)
diff --git a/vllm/model_executor/models/mllama4.py b/vllm/model_executor/models/mllama4.py
index 741b98373..8c98492c0 100644
--- a/vllm/model_executor/models/mllama4.py
+++ b/vllm/model_executor/models/mllama4.py
@@ -18,7 +18,7 @@
 import math
 from collections.abc import Iterable, Mapping
 from itertools import tee
-from typing import List, Literal, Optional, Set, Tuple, TypedDict, Union
+from typing import Literal, Optional, TypedDict, Union
 
 import torch
 from torch import nn
@@ -582,7 +582,7 @@ class Mllama4MultiModalProcessor(BaseMultiModalProcessor[Mllama4ProcessingInfo]
         mm_items: MultiModalDataItems,
         hf_processor_mm_kwargs: Mapping[str, object],
         out_mm_kwargs: MultiModalKwargs,
-    ) -> List[PromptUpdate]:
+    ) -> list[PromptUpdate]:
         assert (
             mm_items.get_count("image", strict=False) == 0
             or "aspect_ratios" in out_mm_kwargs
@@ -778,26 +778,26 @@ class Llama4ForConditionalGeneration(nn.Module, SupportsMultiModal,
 
     def separate_weights(
         self,
-        weights: Iterable[Tuple[str, torch.Tensor]],
+        weights: Iterable[tuple[str, torch.Tensor]],
         prefix: str,
-    ) -> Tuple[Iterable[Tuple[str, torch.Tensor]], Iterable[Tuple[
+    ) -> tuple[Iterable[tuple[str, torch.Tensor]], Iterable[tuple[
             str, torch.Tensor]]]:
         weights1, weights2 = tee(weights, 2)
 
-        def get_prefix_weights() -> Iterable[Tuple[str, torch.Tensor]]:
+        def get_prefix_weights() -> Iterable[tuple[str, torch.Tensor]]:
             for name, data in weights1:
                 if name.startswith(prefix):
                     yield (name, data)
 
-        def get_other_weights() -> Iterable[Tuple[str, torch.Tensor]]:
+        def get_other_weights() -> Iterable[tuple[str, torch.Tensor]]:
             for name, data in weights2:
                 if not name.startswith(prefix):
                     yield (name, data)
 
         return get_prefix_weights(), get_other_weights()
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
 
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
@@ -806,7 +806,7 @@ class Llama4ForConditionalGeneration(nn.Module, SupportsMultiModal,
             (".self_attn.qkv_proj", ".self_attn.v_proj", "v"),
         ]
         params_dict = dict(self.named_parameters())
-        updated_params: Set[str] = set()
+        updated_params: set[str] = set()
 
         # language_model is an Llama4ForCausalLM instance. We load it's
         # using llama4's load_weights routine.
diff --git a/vllm/model_executor/models/mlp_speculator.py b/vllm/model_executor/models/mlp_speculator.py
index 2920427f9..a7d7aa7d4 100644
--- a/vllm/model_executor/models/mlp_speculator.py
+++ b/vllm/model_executor/models/mlp_speculator.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import math
-from typing import Iterable, List, Set, Tuple
+from collections.abc import Iterable
 
 import torch
 import torch.nn as nn
@@ -148,7 +148,7 @@ class MLPSpeculator(nn.Module):
         previous_hidden_states: torch.Tensor,
         num_predict_tokens: int,
         sampling_metadata: SamplingMetadata,
-    ) -> List[SamplerOutput]:
+    ) -> list[SamplerOutput]:
         if num_predict_tokens > self.max_speculative_tokens:
             raise ValueError(f"Max speculative tokens for model is "
                              f"{self.max_speculative_tokens}, but "
@@ -190,10 +190,10 @@ class MLPSpeculator(nn.Module):
 
         return next_tokens
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             name = name.replace("speculator.", "")
             param = params_dict.get(name)
diff --git a/vllm/model_executor/models/modernbert.py b/vllm/model_executor/models/modernbert.py
index 73effb207..86552aa05 100644
--- a/vllm/model_executor/models/modernbert.py
+++ b/vllm/model_executor/models/modernbert.py
@@ -1,5 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
-from typing import Iterable, Optional, Set, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 from torch import nn
@@ -212,11 +213,11 @@ class ModernBertModel(nn.Module):
                                        eps=config.norm_eps,
                                        bias=config.norm_bias)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         weights = self.hf_to_vllm_mapper.apply(weights)
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if name.endswith(".bias") and name not in params_dict:
                 continue
@@ -280,7 +281,7 @@ class ModernBertForSequenceClassification(nn.Module, SupportsCrossEncoding):
         self._pooler = CrossEncodingPooler(config, self.classifier,
                                            ModernBertPooler(config))
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
 
         self_weights = []
 
diff --git a/vllm/model_executor/models/module_mapping.py b/vllm/model_executor/models/module_mapping.py
index 23814e632..25e6f5940 100644
--- a/vllm/model_executor/models/module_mapping.py
+++ b/vllm/model_executor/models/module_mapping.py
@@ -4,7 +4,7 @@
 #  https://github.com/modelscope/ms-swift/blob/v2.4.2/swift/utils/module_mapping.py
 
 from dataclasses import dataclass, field
-from typing import List, Union
+from typing import Union
 
 
 @dataclass
@@ -46,17 +46,17 @@ class ModelKeys:
 
 @dataclass
 class MultiModelKeys(ModelKeys):
-    language_model: List[str] = field(default_factory=list)
-    connector: List[str] = field(default_factory=list)
+    language_model: list[str] = field(default_factory=list)
+    connector: list[str] = field(default_factory=list)
     # vision tower and audio tower
-    tower_model: List[str] = field(default_factory=list)
-    generator: List[str] = field(default_factory=list)
+    tower_model: list[str] = field(default_factory=list)
+    generator: list[str] = field(default_factory=list)
 
     @staticmethod
-    def from_string_field(language_model: Union[str, List[str]] = None,
-                          connector: Union[str, List[str]] = None,
-                          tower_model: Union[str, List[str]] = None,
-                          generator: Union[str, List[str]] = None,
+    def from_string_field(language_model: Union[str, list[str]] = None,
+                          connector: Union[str, list[str]] = None,
+                          tower_model: Union[str, list[str]] = None,
+                          generator: Union[str, list[str]] = None,
                           **kwargs) -> 'MultiModelKeys':
 
         def to_list(value):
diff --git a/vllm/model_executor/models/molmo.py b/vllm/model_executor/models/molmo.py
index 42bbb77a2..e215582a3 100644
--- a/vllm/model_executor/models/molmo.py
+++ b/vllm/model_executor/models/molmo.py
@@ -4,7 +4,7 @@ import math
 from collections.abc import Iterable, Mapping, Sequence
 from dataclasses import dataclass
 from functools import cached_property, partial
-from typing import List, Optional, Set, Tuple, TypedDict, Union
+from typing import Optional, TypedDict, Union
 
 import numpy as np
 import torch
@@ -90,7 +90,7 @@ class MolmoImageInputs(TypedDict):
 
 @dataclass
 class VisionBackboneConfig:
-    image_default_input_size: Tuple[int, int] = (336, 336)
+    image_default_input_size: tuple[int, int] = (336, 336)
     image_patch_size: int = 14
     image_pos_patch_size: int = 14
     image_emb_dim: int = 1024
@@ -267,7 +267,7 @@ class BlockCollection(nn.Module):
             for _ in range(config.image_num_layers)
         ])
 
-    def forward(self, x: torch.Tensor) -> List[torch.Tensor]:
+    def forward(self, x: torch.Tensor) -> list[torch.Tensor]:
         hidden_states = []
         for r in self.resblocks:
             x = r(x)
@@ -334,7 +334,7 @@ class VisionTransformer(nn.Module):
 
     def forward(self,
                 x: torch.Tensor,
-                patch_num: Optional[int] = None) -> List[torch.Tensor]:
+                patch_num: Optional[int] = None) -> list[torch.Tensor]:
         """
         : param x: (batch_size, num_patch, n_pixels)
         """
@@ -434,7 +434,7 @@ class MolmoAttention(nn.Module):
         )
 
     def _apply_qk_norm(self, q: torch.Tensor,
-                       k: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
+                       k: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
         if self.tp_size > 1:
             q = tensor_model_parallel_all_gather(q.contiguous())
             k = tensor_model_parallel_all_gather(k.contiguous())
@@ -570,7 +570,7 @@ class MolmoDecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, Optional[Tuple[torch.Tensor, torch.Tensor]]]:
+    ) -> tuple[torch.Tensor, Optional[tuple[torch.Tensor, torch.Tensor]]]:
         # Self Attention
         if residual is None:
             residual = hidden_states
@@ -596,7 +596,7 @@ class MolmoDecoderNormAfterLayer(MolmoDecoderLayer):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, Optional[Tuple[torch.Tensor, torch.Tensor]]]:
+    ) -> tuple[torch.Tensor, Optional[tuple[torch.Tensor, torch.Tensor]]]:
         # Self Attention
         residual = hidden_states
         hidden_states = self.self_attn(
@@ -740,15 +740,15 @@ class MolmoVisionBackbone(nn.Module, SupportsQuant):
         # image_features: (batch_size, num_image, num_patch, d_model)
         return image_features
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("merged_linear", "gate_proj", 0),
             ("merged_linear", "up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
 
         for name, loaded_weight in weights:
             for (param_name, weight_name, shard_id) in stacked_params_mapping:
@@ -855,10 +855,10 @@ class MolmoModel(nn.Module, SupportsQuant):
             hidden_states = self.norm(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
 
         for name, loaded_weight in weights:
             if name.endswith(".bias") and name not in params_dict:
@@ -1530,7 +1530,7 @@ class MolmoForCausalLM(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA,
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
 
         loader = AutoWeightsLoader(self)
         weights = _get_weights_with_merged_embedding(weights)
@@ -1548,8 +1548,8 @@ class MolmoForCausalLM(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA,
 
 
 def _get_weights_with_merged_embedding(
-    weights: Iterable[Tuple[str, torch.Tensor]]
-) -> Iterable[Tuple[str, torch.Tensor]]:
+    weights: Iterable[tuple[str, torch.Tensor]]
+) -> Iterable[tuple[str, torch.Tensor]]:
     embedding_weights = {}
     for name, weight in weights:
         if "wte.embedding" in name:
diff --git a/vllm/model_executor/models/moonvit.py b/vllm/model_executor/models/moonvit.py
index c367d90f8..9f11d4a42 100644
--- a/vllm/model_executor/models/moonvit.py
+++ b/vllm/model_executor/models/moonvit.py
@@ -42,9 +42,10 @@
 # OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
 # SOFTWARE.
 import math
+from collections.abc import Sequence
 from copy import deepcopy
 from functools import cached_property
-from typing import List, Optional, Sequence, Tuple, Union
+from typing import Optional, Union
 
 import torch
 import torch.nn as nn
@@ -222,7 +223,7 @@ class MoonVisionPatchEmbed(nn.Module):
         self,
         out_dim: int,
         in_dim: int = 3,
-        patch_size: Union[int, Tuple[int, int]] = (14, 14),
+        patch_size: Union[int, tuple[int, int]] = (14, 14),
         pos_emb_height: int = 14,
         pos_emb_width: int = 14,
     ):
@@ -526,7 +527,7 @@ def patch_merger(
         x: torch.Tensor,
         grid_hw: torch.Tensor,
         merge_kernel_size: list[int, int] = (2, 2),
-) -> List[torch.Tensor]:
+) -> list[torch.Tensor]:
     d_model = x.size(-1)
 
     outputs = []
diff --git a/vllm/model_executor/models/mpt.py b/vllm/model_executor/models/mpt.py
index 77bd79405..6c396d778 100644
--- a/vllm/model_executor/models/mpt.py
+++ b/vllm/model_executor/models/mpt.py
@@ -2,7 +2,8 @@
 
 # Adapted from https://huggingface.co/mosaicml/mpt-7b/tree/main
 import math
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 import torch.nn as nn
@@ -265,10 +266,10 @@ class MPTModel(nn.Module):
         hidden_states = self.norm_f(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             # Skip loading extra bias for GPTQ models.
             if name.endswith(".bias") and name not in params_dict:
@@ -323,7 +324,7 @@ class MPTForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/nemotron.py b/vllm/model_executor/models/nemotron.py
index 5208c0796..862c53535 100644
--- a/vllm/model_executor/models/nemotron.py
+++ b/vllm/model_executor/models/nemotron.py
@@ -22,7 +22,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only Nemotron model compatible with HuggingFace weights."""
-from typing import Any, Dict, Iterable, List, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Any, Optional, Union
 
 import torch
 from torch import nn
@@ -69,7 +70,7 @@ def _cast_if_autocast_enabled(*args):
 class NemotronLayerNorm1P(nn.LayerNorm):
 
     def __init__(self,
-                 normalized_shape: Union[int, List[int], torch.Size],
+                 normalized_shape: Union[int, list[int], torch.Size],
                  eps: float = 1e-5,
                  elementwise_affine: bool = True,
                  bias: bool = True,
@@ -133,7 +134,7 @@ class NemotronAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 8192,
         quant_config: Optional[QuantizationConfig] = None,
         bias: bool = False,
@@ -267,7 +268,7 @@ class NemotronDecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         if residual is None:
             residual = hidden_states
@@ -441,8 +442,8 @@ class NemotronForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             (".qkv_proj", ".q_proj", "q"),
@@ -450,7 +451,7 @@ class NemotronForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             (".qkv_proj", ".v_proj", "v"),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
diff --git a/vllm/model_executor/models/nemotron_nas.py b/vllm/model_executor/models/nemotron_nas.py
index 988b994b7..f4d5a77f2 100644
--- a/vllm/model_executor/models/nemotron_nas.py
+++ b/vllm/model_executor/models/nemotron_nas.py
@@ -22,7 +22,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only deci model compatible with HuggingFace weights."""
-from typing import Iterable, Optional, Set, Tuple, Type, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -135,7 +136,7 @@ class DeciLMDecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
 
         if self._is_no_op_attention:
@@ -168,7 +169,7 @@ class DeciModel(nn.Module):
         *,
         vllm_config: VllmConfig,
         prefix: str = "",
-        layer_type: Type[DeciLMDecoderLayer] = DeciLMDecoderLayer,
+        layer_type: type[DeciLMDecoderLayer] = DeciLMDecoderLayer,
     ):
         super().__init__()
 
@@ -260,8 +261,8 @@ class DeciModel(nn.Module):
         hidden_states, _ = self.norm(hidden_states, residual)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             (".qkv_proj", ".q_proj", "q"),
@@ -271,7 +272,7 @@ class DeciModel(nn.Module):
             (".gate_up_proj", ".up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
@@ -428,8 +429,8 @@ class DeciLMForCausalLM(nn.Module, SupportsLoRA, SupportsPP, HasNoOps):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head."]
diff --git a/vllm/model_executor/models/olmo.py b/vllm/model_executor/models/olmo.py
index 0781ca168..a36b62cd2 100644
--- a/vllm/model_executor/models/olmo.py
+++ b/vllm/model_executor/models/olmo.py
@@ -22,7 +22,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only OLMo model compatible with HuggingFace weights."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -209,7 +210,7 @@ class OlmoDecoderLayer(nn.Module):
         self,
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
-    ) -> Tuple[torch.Tensor, Optional[Tuple[torch.Tensor, torch.Tensor]]]:
+    ) -> tuple[torch.Tensor, Optional[tuple[torch.Tensor, torch.Tensor]]]:
         # Attention block.
         residual = hidden_states
         hidden_states = self.input_layernorm(hidden_states)
@@ -338,8 +339,8 @@ class OlmoForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -349,7 +350,7 @@ class OlmoForCausalLM(nn.Module, SupportsPP):
             ("gate_up_proj", "up_proj", 1),
         ]
         params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
diff --git a/vllm/model_executor/models/olmo2.py b/vllm/model_executor/models/olmo2.py
index 422b53d86..a41a959cd 100644
--- a/vllm/model_executor/models/olmo2.py
+++ b/vllm/model_executor/models/olmo2.py
@@ -23,8 +23,9 @@
 # limitations under the License.
 """Inference-only OLMo2 model compatible with HuggingFace weights."""
 
+from collections.abc import Iterable
 from functools import partial
-from typing import Iterable, Optional, Tuple, Union
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -135,7 +136,7 @@ class Olmo2Attention(nn.Module):
         )
 
     def _apply_qk_norm(self, q: torch.Tensor,
-                       k: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
+                       k: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
         if self.tp_size > 1:
             q = tensor_model_parallel_all_gather(q.contiguous())
             k = tensor_model_parallel_all_gather(k.contiguous())
@@ -365,7 +366,7 @@ class Olmo2ForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
diff --git a/vllm/model_executor/models/olmoe.py b/vllm/model_executor/models/olmoe.py
index e6925e125..9a07f57fd 100644
--- a/vllm/model_executor/models/olmoe.py
+++ b/vllm/model_executor/models/olmoe.py
@@ -12,7 +12,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only OLMoE model compatible with HuggingFace weights."""
-from typing import Any, Dict, Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Any, Optional, Union
 
 import torch
 from torch import nn
@@ -102,7 +103,7 @@ class OlmoeAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 4096,
         cache_config: Optional[CacheConfig] = None,
         quant_config: Optional[QuantizationConfig] = None,
@@ -307,8 +308,8 @@ class OlmoeModel(nn.Module):
         hidden_states, _ = self.norm(hidden_states, residual)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -327,7 +328,7 @@ class OlmoeModel(nn.Module):
             num_experts=self.config.num_experts)
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             for (param_name, weight_name, shard_id) in stacked_params_mapping:
                 # Skip non-stacked layers and experts (experts handled below).
@@ -439,8 +440,8 @@ class OlmoeForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=["rotary_emb.inv_freq"],
diff --git a/vllm/model_executor/models/opt.py b/vllm/model_executor/models/opt.py
index d258eddae..8376d6241 100644
--- a/vllm/model_executor/models/opt.py
+++ b/vllm/model_executor/models/opt.py
@@ -18,7 +18,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only OPT model compatible with HuggingFace weights."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -312,8 +313,8 @@ class OPTModel(nn.Module):
                             intermediate_tensors,
                             inputs_embeds=inputs_embeds)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -321,7 +322,7 @@ class OPTModel(nn.Module):
             ("qkv_proj", "v_proj", "v"),
         ]
         params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             for (param_name, weight_name, shard_id) in stacked_params_mapping:
                 if weight_name not in name:
@@ -400,8 +401,8 @@ class OPTForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head.weight"]
diff --git a/vllm/model_executor/models/orion.py b/vllm/model_executor/models/orion.py
index 8d9c00075..1ccd1fe1f 100644
--- a/vllm/model_executor/models/orion.py
+++ b/vllm/model_executor/models/orion.py
@@ -5,7 +5,8 @@
 # Copyright (c) OrionStar Inc.
 # LICENSE: https://huggingface.co/OrionStarAI/Orion-14B-Base/blob/main/LICENSE
 """Inference-only Orion-14B model compatible with HuggingFace weights."""
-from typing import Any, Dict, Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Any, Optional, Union
 
 import torch
 from torch import nn
@@ -72,7 +73,7 @@ class OrionAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 8192,
         cache_config: Optional[CacheConfig] = None,
         quant_config: Optional[QuantizationConfig] = None,
@@ -186,7 +187,7 @@ class OrionDecoderLayer(nn.Module):
         self,
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         residual = hidden_states
         hidden_states = self.input_layernorm(hidden_states)
@@ -259,8 +260,8 @@ class OrionModel(nn.Module):
         hidden_states = self.norm(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -270,7 +271,7 @@ class OrionModel(nn.Module):
             ("gate_up_proj", "up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             for (param_name, weight_name, shard_id) in stacked_params_mapping:
                 if weight_name not in name:
@@ -341,8 +342,8 @@ class OrionForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=([
diff --git a/vllm/model_executor/models/ovis.py b/vllm/model_executor/models/ovis.py
index 5204c7512..e03705d48 100644
--- a/vllm/model_executor/models/ovis.py
+++ b/vllm/model_executor/models/ovis.py
@@ -17,8 +17,8 @@
 # limitations under the License.
 """ PyTorch Ovis model."""
 import math
-from typing import (Iterable, List, Literal, Mapping, Optional, Set, Tuple,
-                    TypedDict, Union)
+from collections.abc import Iterable, Mapping
+from typing import Literal, Optional, TypedDict, Union
 
 import torch
 import torch.nn as nn
@@ -211,7 +211,7 @@ class OvisImagePatchInputs(TypedDict):
     `(batch_size * (num_patches + 1))`
     """
 
-    patches_per_image: List[int]
+    patches_per_image: list[int]
     """
     List of number of total patches for each image in the batch.
     This is used to restore the first two dimensions of `flat_data`.
@@ -545,8 +545,8 @@ class Ovis(nn.Module, SupportsMultiModal):
         logits = self.llm.compute_logits(hidden_states, sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
 
diff --git a/vllm/model_executor/models/paligemma.py b/vllm/model_executor/models/paligemma.py
index 8699ae526..427005e9b 100644
--- a/vllm/model_executor/models/paligemma.py
+++ b/vllm/model_executor/models/paligemma.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 from collections.abc import Iterable, Mapping, Sequence
-from typing import Literal, Optional, Set, Tuple, TypedDict, Union
+from typing import Literal, Optional, TypedDict, Union
 
 import torch
 from torch import nn
@@ -391,7 +391,7 @@ class PaliGemmaForConditionalGeneration(nn.Module, SupportsMultiModal,
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/persimmon.py b/vllm/model_executor/models/persimmon.py
index eacf02433..d46b95fea 100644
--- a/vllm/model_executor/models/persimmon.py
+++ b/vllm/model_executor/models/persimmon.py
@@ -21,7 +21,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only persimmon model compatible with HuggingFace weights."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -260,10 +261,10 @@ class PersimmonModel(nn.Module):
         hidden_states = self.final_layernorm(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if is_pp_missing_parameter(name, self):
                 continue
@@ -336,7 +337,7 @@ class PersimmonForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/phi.py b/vllm/model_executor/models/phi.py
index fc2b108ba..330ad5c59 100644
--- a/vllm/model_executor/models/phi.py
+++ b/vllm/model_executor/models/phi.py
@@ -36,7 +36,8 @@
 # OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
 # OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 """Inference-only Phi-1.5 model compatible with HuggingFace weights."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -248,8 +249,8 @@ class PhiModel(nn.Module):
 
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -257,7 +258,7 @@ class PhiModel(nn.Module):
             ("qkv_proj", "v_proj", "v")
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
 
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
@@ -348,7 +349,7 @@ class PhiForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                                        sampling_metadata, self.lm_head.bias)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/phi3_small.py b/vllm/model_executor/models/phi3_small.py
index 338e87b42..d00d7d886 100644
--- a/vllm/model_executor/models/phi3_small.py
+++ b/vllm/model_executor/models/phi3_small.py
@@ -1,7 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import math
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -230,8 +231,8 @@ class Phi3SmallSelfAttention(nn.Module):
         self,
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
-    ) -> Tuple[torch.Tensor, Optional[torch.Tensor],
-               Optional[Tuple[torch.Tensor]]]:
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor],
+               Optional[tuple[torch.Tensor]]]:
         qkv, _ = self.query_key_value(hidden_states)
 
         qkv = qkv.view(qkv.shape[:-1] +
@@ -352,10 +353,10 @@ class Phi3SmallModel(nn.Module):
         hidden_states = self.final_layernorm(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if name.endswith(".bias") and name not in params_dict:
                 continue
@@ -454,8 +455,8 @@ class Phi3SmallForCausalLM(nn.Module, SupportsPP):
         output_hidden_states = output_hidden_states
         return output_hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head.weight"]
diff --git a/vllm/model_executor/models/phi3v.py b/vllm/model_executor/models/phi3v.py
index a1442251b..bb4d46be3 100644
--- a/vllm/model_executor/models/phi3v.py
+++ b/vllm/model_executor/models/phi3v.py
@@ -16,7 +16,7 @@
 # limitations under the License.
 import re
 from collections.abc import Iterable, Mapping, Sequence
-from typing import Any, List, Literal, Optional, Set, Tuple, TypedDict, Union
+from typing import Any, Literal, Optional, TypedDict, Union
 
 import torch
 import torch.nn as nn
@@ -94,7 +94,7 @@ def _init_img_processor(hf_config: PretrainedConfig,
 
 class Phi3VImagePixelInputs(TypedDict):
     type: Literal["pixel_values"]
-    data: Union[torch.Tensor, List[torch.Tensor]]
+    data: Union[torch.Tensor, list[torch.Tensor]]
     """
     Shape:
     `(batch_size * num_images, 1 + num_patches, num_channels, height, width)`
@@ -113,7 +113,7 @@ class Phi3VImagePixelInputs(TypedDict):
 
 class Phi3VImageEmbeddingInputs(TypedDict):
     type: Literal["image_embeds"]
-    data: Union[torch.Tensor, List[torch.Tensor]]
+    data: Union[torch.Tensor, list[torch.Tensor]]
     """Shape: `(batch_size * num_images, image_feature_size, hidden_size)`
 
     `hidden_size` must match the hidden size of language model backbone.
@@ -571,8 +571,8 @@ class Phi3VForCausalLM(nn.Module, SupportsMultiModal, SupportsPP,
         return data
 
     def _validate_pixel_values(
-        self, data: Union[torch.Tensor, List[torch.Tensor]]
-    ) -> Union[torch.Tensor, List[torch.Tensor]]:
+        self, data: Union[torch.Tensor, list[torch.Tensor]]
+    ) -> Union[torch.Tensor, list[torch.Tensor]]:
 
         h = w = CLIP_VIT_LARGE_PATCH14_336_CONFIG.image_size
         expected_dims = (3, h, w)
@@ -707,8 +707,8 @@ class Phi3VForCausalLM(nn.Module, SupportsMultiModal, SupportsPP,
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
 
         loader = AutoWeightsLoader(self)
         autoloaded_weights = loader.load_weights(weights,
diff --git a/vllm/model_executor/models/phi4mm.py b/vllm/model_executor/models/phi4mm.py
index e5ff9cedd..fd154940e 100644
--- a/vllm/model_executor/models/phi4mm.py
+++ b/vllm/model_executor/models/phi4mm.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 import math
 from collections.abc import Iterable, Mapping, Sequence
-from typing import Any, Dict, List, Literal, Optional, Tuple, TypedDict, Union
+from typing import Any, Literal, Optional, TypedDict, Union
 
 import numpy as np
 import torch
@@ -392,7 +392,7 @@ class Phi4MMImageEncoder(nn.Module):
 
 class Phi4MMImagePixelInputs(TypedDict):
     type: Literal["pixel_values"]
-    data: Union[torch.Tensor, List[torch.Tensor]]
+    data: Union[torch.Tensor, list[torch.Tensor]]
     """
     Shape:
     `(batch_size * num_images, 1 + num_patches, num_channels, height, width)`
@@ -417,7 +417,7 @@ class Phi4MMImagePixelInputs(TypedDict):
 
 class Phi4MMImageEmbeddingInputs(TypedDict):
     type: Literal["image_embeds"]
-    data: Union[torch.Tensor, List[torch.Tensor]]
+    data: Union[torch.Tensor, list[torch.Tensor]]
     """Shape: `(batch_size * num_images, image_feature_size, hidden_size)`
 
     `hidden_size` must match the hidden size of language model backbone.
@@ -426,7 +426,7 @@ class Phi4MMImageEmbeddingInputs(TypedDict):
 
 class Phi4MMAudioFeatureInputs(TypedDict):
     type: Literal["audio_features"]
-    data: Union[torch.Tensor, List[torch.Tensor]]
+    data: Union[torch.Tensor, list[torch.Tensor]]
     """Shape: `(batch_size * num_audios, 80, M)"""
 
 
@@ -1031,7 +1031,7 @@ class Phi4MMForCausalLM(nn.Module, SupportsLoRA, SupportsMultiModal):
         return audio_embeds
 
     def _parse_and_validate_image_input(self,
-                                        **kwargs: object) -> Optional[Dict]:
+                                        **kwargs: object) -> Optional[dict]:
         input_image_embeds: NestedTensors = kwargs.get("input_image_embeds")
         if input_image_embeds is None:
             return None
@@ -1238,7 +1238,7 @@ class Phi4MMForCausalLM(nn.Module, SupportsLoRA, SupportsMultiModal):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
+    def load_weights(self, weights: Iterable[tuple[str,
                                                    torch.Tensor]]) -> None:
         weights = ((name, data) for name, data in weights
                    if "lora" not in name)
diff --git a/vllm/model_executor/models/phi4mm_audio.py b/vllm/model_executor/models/phi4mm_audio.py
index 34a7a73d0..609746b48 100644
--- a/vllm/model_executor/models/phi4mm_audio.py
+++ b/vllm/model_executor/models/phi4mm_audio.py
@@ -6,7 +6,7 @@
 #!/usr/bin/env python3
 import abc
 import math
-from typing import List, Literal, Optional
+from typing import Literal, Optional
 
 import numpy as np
 import torch
@@ -746,7 +746,7 @@ class ConformerEncoder(TransformerEncoderBase):
             attention_group_size = attenion_heads = Multi-Query Attention
     """
 
-    extra_multi_layer_output_idxs: List[int]
+    extra_multi_layer_output_idxs: list[int]
 
     def __init__(  # pylint: disable-all
         self,
diff --git a/vllm/model_executor/models/phi4mm_utils.py b/vllm/model_executor/models/phi4mm_utils.py
index 4051763ce..f468fdbd5 100644
--- a/vllm/model_executor/models/phi4mm_utils.py
+++ b/vllm/model_executor/models/phi4mm_utils.py
@@ -5,7 +5,7 @@
 # but implemented by the Phi-Speech team
 #!/usr/bin/env python3
 import math
-from typing import Optional, Tuple, Union
+from typing import Optional, Union
 
 import torch
 import torch.nn.functional as F
@@ -1586,7 +1586,7 @@ class AttModule(nn.Module):
         memory: Optional[Tensor] = None,
         pos_emb: Optional[Tensor] = None,
         att_mask: Optional[Tensor] = None,
-    ) -> Tuple[Tensor, Tensor, Optional[Tensor], Optional[Tensor]]:
+    ) -> tuple[Tensor, Tensor, Optional[Tensor], Optional[Tensor]]:
         """AttModule forward
 
         Args:
diff --git a/vllm/model_executor/models/phimoe.py b/vllm/model_executor/models/phimoe.py
index 2dc55e4c3..7f2e9fdf7 100644
--- a/vllm/model_executor/models/phimoe.py
+++ b/vllm/model_executor/models/phimoe.py
@@ -22,7 +22,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only PhiMoE model."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -505,8 +506,8 @@ class PhiMoEModel(nn.Module):
         hidden_states = self.norm(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -521,7 +522,7 @@ class PhiMoEModel(nn.Module):
             num_experts=self.config.num_local_experts)
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if (self.quant_config is not None and
                 (scale_name := self.quant_config.get_cache_scale(name))):
@@ -657,8 +658,8 @@ class PhiMoEForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["rotary_emb.inv_freq"]),
diff --git a/vllm/model_executor/models/pixtral.py b/vllm/model_executor/models/pixtral.py
index c0b492dbf..c664d2371 100644
--- a/vllm/model_executor/models/pixtral.py
+++ b/vllm/model_executor/models/pixtral.py
@@ -4,7 +4,7 @@ import math
 from collections.abc import Iterable, Mapping, Sequence
 from dataclasses import dataclass, fields
 from functools import cached_property
-from typing import List, Literal, Optional, Set, Tuple, TypedDict, Union
+from typing import Literal, Optional, TypedDict, Union
 
 import torch
 import torch.nn as nn
@@ -438,18 +438,18 @@ class PixtralForConditionalGeneration(nn.Module, SupportsMultiModal,
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
 
-        def is_vision_encoder_weights(weight: Tuple[str, torch.Tensor]):
+        def is_vision_encoder_weights(weight: tuple[str, torch.Tensor]):
             return weight[0].startswith("vision_encoder")
 
-        def is_vision_lang_adapter_weights(weight: Tuple[str, torch.Tensor]):
+        def is_vision_lang_adapter_weights(weight: tuple[str, torch.Tensor]):
             return weight[0].startswith("vision_language_adapter")
 
-        def is_patch_merger(weight: Tuple[str, torch.Tensor]):
+        def is_patch_merger(weight: tuple[str, torch.Tensor]):
             return weight[0].startswith("patch_merger")
 
-        def is_pre_mm_projector_norm(weight: Tuple[str, torch.Tensor]):
+        def is_pre_mm_projector_norm(weight: tuple[str, torch.Tensor]):
             return weight[0].startswith("pre_mm_projector_norm")
 
         # Get references to parameters for direct loading
@@ -566,7 +566,7 @@ def apply_rotary_emb_vit(
     xq: torch.Tensor,
     xk: torch.Tensor,
     freqs_cis: torch.Tensor,
-) -> Tuple[torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, torch.Tensor]:
     xq_ = torch.view_as_complex(xq.float().reshape(*xq.shape[:-1], -1, 2))
     xk_ = torch.view_as_complex(xk.float().reshape(*xk.shape[:-1], -1, 2))
     assert freqs_cis.dtype == torch.complex64
@@ -671,7 +671,7 @@ class Transformer(nn.Module):
         return x
 
 
-def position_meshgrid(patch_embeds_list: List[torch.Tensor], ) -> torch.Tensor:
+def position_meshgrid(patch_embeds_list: list[torch.Tensor], ) -> torch.Tensor:
     positions = torch.cat([
         torch.stack(
             torch.meshgrid(
@@ -733,7 +733,7 @@ class VisionTransformer(nn.Module):
 
     def forward(
         self,
-        images: List[torch.Tensor],
+        images: list[torch.Tensor],
     ) -> torch.Tensor:
         """
         Args:
@@ -1023,7 +1023,7 @@ class PixtralHFAttention(nn.Module):
         hidden_states: torch.Tensor,
         attention_mask: torch.Tensor,
         position_embeddings: torch.Tensor,
-    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
         batch, patches, _ = hidden_states.size()
 
         qkv_states, _ = self.qkv_proj(hidden_states)
@@ -1249,8 +1249,8 @@ class PixtralHFVisionModel(nn.Module):
 
     # (TODO) Add prefix argument for filtering out weights to be loaded
     #        ref: https://github.com/vllm-project/vllm/pull/7186#discussion_r1734163986
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             (".qkv_proj", ".q_proj", "q"),
@@ -1260,7 +1260,7 @@ class PixtralHFVisionModel(nn.Module):
             (".gate_up_proj", ".up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         layer_count = len(self.transformer.layers)
 
         for name, loaded_weight in weights:
diff --git a/vllm/model_executor/models/plamo2.py b/vllm/model_executor/models/plamo2.py
index 790c48ccd..55a65f807 100644
--- a/vllm/model_executor/models/plamo2.py
+++ b/vllm/model_executor/models/plamo2.py
@@ -1,7 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 """Inference-only PLaMo2 model."""
 import math
-from typing import Iterable, Optional, Tuple
+from collections.abc import Iterable
+from typing import Optional
 
 import torch
 from torch import nn
@@ -659,7 +660,7 @@ class Plamo2ForCausalLM(Plamo2PreTrainedModel, HasInnerState, IsHybrid,
         return self.mamba_cache.get_seqlen_agnostic_capture_inputs(batch_size)
 
     def _get_mamba_cache_shape(
-            self) -> Tuple[Tuple[int, int], Tuple[int, int]]:
+            self) -> tuple[tuple[int, int], tuple[int, int]]:
         world_size = get_tensor_model_parallel_world_size()
         hidden_size = (self.config.mamba_num_heads *
                        self.config.hidden_size_per_head)
@@ -682,7 +683,7 @@ class Plamo2ForCausalLM(Plamo2PreTrainedModel, HasInnerState, IsHybrid,
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         params_dict = dict(self.named_parameters())
         for name, loaded_weight in weights:
 
diff --git a/vllm/model_executor/models/prithvi_geospatial_mae.py b/vllm/model_executor/models/prithvi_geospatial_mae.py
index c10ef4544..40ac5e30a 100644
--- a/vllm/model_executor/models/prithvi_geospatial_mae.py
+++ b/vllm/model_executor/models/prithvi_geospatial_mae.py
@@ -16,7 +16,7 @@
 # limitations under the License.
 """Inference-only IBM/NASA Prithvi Geospatial model."""
 from collections.abc import Iterable, Mapping, Sequence
-from typing import Optional, Set, Tuple, Union
+from typing import Optional, Union
 
 import torch
 import torch.nn as nn
@@ -154,7 +154,7 @@ class PrithviGeoSpatialMAE(nn.Module, IsAttentionFree, SupportsMultiModal,
                 "by PrithviGeospatialMAE.")
 
     def _parse_and_validate_multimodal_data(
-            self, **kwargs) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
+            self, **kwargs) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
 
         pixel_values = kwargs.pop("pixel_values", None)
         if not isinstance(pixel_values, torch.Tensor):
@@ -195,8 +195,8 @@ class PrithviGeoSpatialMAE(nn.Module, IsAttentionFree, SupportsMultiModal,
     ) -> Optional[PoolerOutput]:
         return PoolerOutput([PoolingSequenceGroupOutput(hidden_states)])
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         params_list = []
         model_buffers = dict(self.named_buffers())
         loaded_buffers = []
diff --git a/vllm/model_executor/models/qwen.py b/vllm/model_executor/models/qwen.py
index e75294bc6..2fda87a4f 100644
--- a/vllm/model_executor/models/qwen.py
+++ b/vllm/model_executor/models/qwen.py
@@ -6,7 +6,8 @@
 # LICENSE: https://huggingface.co/Qwen/Qwen-7B/blob/main/LICENSE
 """Inference-only QWen model compatible with HuggingFace weights."""
 import json
-from typing import Any, Dict, Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Any, Optional, Union
 
 import torch
 from torch import nn
@@ -76,7 +77,7 @@ class QWenAttention(nn.Module):
         num_heads: int,
         max_position_embeddings: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         cache_config: Optional[CacheConfig] = None,
         quant_config: Optional[QuantizationConfig] = None,
         prefix: str = "",
@@ -166,7 +167,7 @@ class QWenBlock(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         if residual is None:
             residual = hidden_states
@@ -284,15 +285,15 @@ class QWenBaseModel(nn.Module):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("gate_up_proj", "w2", 0),
             ("gate_up_proj", "w1", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
diff --git a/vllm/model_executor/models/qwen2.py b/vllm/model_executor/models/qwen2.py
index 60f8a7cd7..108d002e6 100644
--- a/vllm/model_executor/models/qwen2.py
+++ b/vllm/model_executor/models/qwen2.py
@@ -23,7 +23,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only Qwen2 model compatible with HuggingFace weights."""
-from typing import Any, Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Any, Optional, Union
 
 import torch
 from torch import nn
@@ -108,7 +109,7 @@ class Qwen2Attention(nn.Module):
         rope_theta: float = 10000,
         cache_config: Optional[CacheConfig] = None,
         quant_config: Optional[QuantizationConfig] = None,
-        rope_scaling: Optional[Tuple] = None,
+        rope_scaling: Optional[tuple] = None,
         prefix: str = "",
         attn_type: str = AttentionType.DECODER,
         dual_chunk_attention_config: Optional[dict[str, Any]] = None,
@@ -245,7 +246,7 @@ class Qwen2DecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         if residual is None:
             residual = hidden_states
@@ -367,8 +368,8 @@ class Qwen2Model(nn.Module):
         hidden_states, _ = self.norm(hidden_states, residual)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -378,7 +379,7 @@ class Qwen2Model(nn.Module):
             ("gate_up_proj", "up_proj", 1),
         ]
         params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
@@ -490,8 +491,8 @@ class Qwen2ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head."]
@@ -559,7 +560,7 @@ class Qwen2EmbeddingModel(nn.Module, SupportsLoRA, SupportsPP):
     ) -> Optional[PoolerOutput]:
         return self._pooler(hidden_states, pooling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         weights = self.hf_to_vllm_mapper.apply(weights)
         weights = ((name, data) for name, data in weights
                    if not name.startswith("lm_head."))
diff --git a/vllm/model_executor/models/qwen2_5_omni_thinker.py b/vllm/model_executor/models/qwen2_5_omni_thinker.py
index d8e178f9c..d89b822dd 100644
--- a/vllm/model_executor/models/qwen2_5_omni_thinker.py
+++ b/vllm/model_executor/models/qwen2_5_omni_thinker.py
@@ -21,10 +21,10 @@
 # limitations under the License.
 """Inference-only Qwen2.5-Omni model (thinker part)."""
 
+from collections.abc import Iterable, Mapping, Sequence
 from copy import copy
 from functools import partial
-from typing import (Any, Dict, Iterable, List, Mapping, Optional, Sequence,
-                    Set, Tuple, Union)
+from typing import Any, Optional, Union
 
 import torch
 import torch.nn as nn
@@ -138,7 +138,7 @@ class Qwen2_5OmniThinkerProcessingInfo(Qwen2AudioProcessingInfo,
         min_pixels: Optional[int] = None,
         max_pixels: Optional[int] = None,
         size: Optional[dict[str, int]] = None,
-        fps: Optional[Union[float, List[float]]] = None,
+        fps: Optional[Union[float, list[float]]] = None,
         **kwargs: object,
     ) -> Qwen2_5OmniProcessor:
         if fps is not None:
@@ -550,7 +550,7 @@ class Qwen2_5OmniConditionalGenerationMixin:
 
     def _parse_and_validate_image_input(
         self,
-        **kwargs: Dict[str, Any],
+        **kwargs: dict[str, Any],
     ) -> Optional[Qwen2_5_VLImageInputs]:
         pixel_values = kwargs.pop("pixel_values", None)
         image_embeds = kwargs.pop("image_embeds", None)
@@ -589,7 +589,7 @@ class Qwen2_5OmniConditionalGenerationMixin:
 
     def _parse_and_validate_video_input(
         self,
-        **kwargs: Dict[str, Any],
+        **kwargs: dict[str, Any],
     ) -> Optional[Qwen2_5_VLVideoInputs]:
         pixel_values_videos = kwargs.pop("pixel_values_videos", None)
         video_embeds = kwargs.pop("video_embeds", None)
@@ -627,7 +627,7 @@ class Qwen2_5OmniConditionalGenerationMixin:
     def _process_audio_input(
         self,
         audio_input: Qwen2AudioInputs,
-        audio_hashes: List[str] = None,
+        audio_hashes: list[str] = None,
         cached_audio_features: torch.Tensor = None,
     ) -> torch.Tensor:
 
@@ -676,7 +676,7 @@ class Qwen2_5OmniConditionalGenerationMixin:
     def _process_video_input(
             self,
             video_input: Qwen2_5_VLVideoInputs,
-            video_hashes: List[str] = None,
+            video_hashes: list[str] = None,
             cached_video_embeds: torch.Tensor = None) -> torch.Tensor:
         if video_input["type"] == "video_embeds":
             return video_input["video_embeds"].type(self.visual.dtype)
@@ -825,7 +825,7 @@ class Qwen2_5OmniThinkerForConditionalGeneration(
         if audio_input is None and image_input is None and video_input is None:
             return None
 
-        multimodal_embeddings: List[Tuple[NestedTensors, str]] = []
+        multimodal_embeddings: list[tuple[NestedTensors, str]] = []
 
         if audio_input is not None:
             audio_embeds = self._process_audio_input(audio_input)
@@ -891,8 +891,8 @@ class Qwen2_5OmniThinkerForConditionalGeneration(
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=["talker.", "token2wav."],
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 8728de951..5904ad1f1 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -24,9 +24,9 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only Qwen2.5-VL model compatible with HuggingFace weights."""
+from collections.abc import Iterable, Mapping
 from functools import partial
-from typing import (Callable, Iterable, List, Literal, Mapping, Optional, Set,
-                    Tuple, TypedDict, Union)
+from typing import Callable, Literal, Optional, TypedDict, Union
 
 import torch
 import torch.nn as nn
@@ -91,7 +91,7 @@ class Qwen2_5_VLImageEmbeddingInputs(TypedDict):
     type: Literal["image_embeds"]
     image_embeds: torch.Tensor
     """Supported types:
-    - List[`torch.Tensor`]: A list of tensors holding all images' features.
+    - list[`torch.Tensor`]: A list of tensors holding all images' features.
         Each tensor holds an image's features.
     - `torch.Tensor`: A tensor holding all images' features
         (concatenation of all images' feature tensors).
@@ -137,7 +137,7 @@ class Qwen2_5_VLVideoEmbeddingInputs(TypedDict):
     type: Literal["video_embeds"]
     video_embeds: torch.Tensor
     """Supported types:
-    - List[`torch.Tensor`]: A list of tensors holding all videos' features.
+    - list[`torch.Tensor`]: A list of tensors holding all videos' features.
         Each tensor holds an video's features.
     - `torch.Tensor`: A tensor holding all videos' features
       (concatenation of all videos' feature tensors).
@@ -709,8 +709,8 @@ class Qwen2_5_VisionTransformer(nn.Module):
         hidden_states = hidden_states[reverse_indices, :]
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("attn.qkv.", "attn.q.", "q"),
@@ -718,7 +718,7 @@ class Qwen2_5_VisionTransformer(nn.Module):
             ("attn.qkv.", "attn.v.", "v"),
         ]
         params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
 
         for name, loaded_weight in weights:
             for (param_name, weight_name, shard_id) in stacked_params_mapping:
@@ -750,7 +750,7 @@ class Qwen2_5_VLProcessingInfo(Qwen2VLProcessingInfo):
         min_pixels: Optional[int] = None,
         max_pixels: Optional[int] = None,
         size: Optional[dict[str, int]] = None,
-        fps: Optional[Union[float, List[float]]] = None,
+        fps: Optional[Union[float, list[float]]] = None,
         **kwargs: object,
     ) -> Qwen2_5_VLProcessor:
         if fps is not None:
@@ -1116,8 +1116,8 @@ class Qwen2_5_VLForConditionalGeneration(nn.Module, SupportsMultiModal,
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
 
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
diff --git a/vllm/model_executor/models/qwen2_audio.py b/vllm/model_executor/models/qwen2_audio.py
index f30bf08ab..3182a7532 100644
--- a/vllm/model_executor/models/qwen2_audio.py
+++ b/vllm/model_executor/models/qwen2_audio.py
@@ -22,7 +22,7 @@
 # limitations under the License.
 """Inference-only Qwen2-Audio model compatible with HuggingFace weights."""
 from collections.abc import Iterable, Mapping, Sequence
-from typing import Any, Optional, Set, Tuple, TypedDict, Union
+from typing import Any, Optional, TypedDict, Union
 
 import torch
 import torch.nn as nn
@@ -403,7 +403,7 @@ class Qwen2AudioForConditionalGeneration(nn.Module, SupportsMultiModal,
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/qwen2_moe.py b/vllm/model_executor/models/qwen2_moe.py
index ae1c146cf..7cf98dc7a 100644
--- a/vllm/model_executor/models/qwen2_moe.py
+++ b/vllm/model_executor/models/qwen2_moe.py
@@ -23,7 +23,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only Qwen2MoE model compatible with HuggingFace weights."""
-from typing import Any, Dict, Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Any, Optional, Union
 
 import torch
 import torch.nn.functional as F
@@ -169,12 +170,12 @@ class Qwen2MoeAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 8192,
         cache_config: Optional[CacheConfig] = None,
         quant_config: Optional[QuantizationConfig] = None,
         prefix: str = "",
-        dual_chunk_attention_config: Optional[Dict[str, Any]] = None,
+        dual_chunk_attention_config: Optional[dict[str, Any]] = None,
     ) -> None:
         super().__init__()
         self.hidden_size = hidden_size
@@ -389,8 +390,8 @@ class Qwen2MoeModel(nn.Module):
         hidden_states, _ = self.norm(hidden_states, residual)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -409,7 +410,7 @@ class Qwen2MoeModel(nn.Module):
             num_experts=self.config.num_experts)
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             for (param_name, weight_name, shard_id) in stacked_params_mapping:
                 # Skip non-stacked layers and experts (experts handled below).
@@ -532,8 +533,8 @@ class Qwen2MoeForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["rotary_emb.inv_freq"]),
diff --git a/vllm/model_executor/models/qwen2_rm.py b/vllm/model_executor/models/qwen2_rm.py
index 90f799e67..81dc38988 100644
--- a/vllm/model_executor/models/qwen2_rm.py
+++ b/vllm/model_executor/models/qwen2_rm.py
@@ -5,7 +5,8 @@
 # Copyright 2024 The Qwen team.
 # Copyright 2023 The vLLM team.
 """Inference-only Qwen2-RM model compatible with HuggingFace weights."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -95,8 +96,8 @@ class Qwen2RewardBaseModel(nn.Module, SupportsLoRA, SupportsPP,
     ) -> Optional[PoolerOutput]:
         return self._pooler(hidden_states, pooling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self,
                                    ignore_unexpected_prefixes=["lm_head."])
         return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
index ac0a6de52..0ff0836b0 100644
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -25,8 +25,7 @@
 """Inference-only Qwen2-VL model compatible with HuggingFace weights."""
 from collections.abc import Iterable, Mapping, Sequence
 from functools import partial
-from typing import (Any, Callable, Literal, Optional, Set, Tuple, TypedDict,
-                    Union)
+from typing import Any, Callable, Literal, Optional, TypedDict, Union
 
 import torch
 import torch.nn as nn
@@ -102,7 +101,7 @@ class Qwen2VLImageEmbeddingInputs(TypedDict):
     type: Literal["image_embeds"]
     image_embeds: torch.Tensor
     """Supported types:
-    - List[`torch.Tensor`]: A list of tensors holding all images' features.
+    - list[`torch.Tensor`]: A list of tensors holding all images' features.
         Each tensor holds an image's features.
     - `torch.Tensor`: A tensor holding all images' features
         (concatenation of all images' feature tensors).
@@ -142,7 +141,7 @@ class Qwen2VLVideoEmbeddingInputs(TypedDict):
     type: Literal["video_embeds"]
     video_embeds: torch.Tensor
     """Supported types:
-    - List[`torch.Tensor`]: A list of tensors holding all videos' features.
+    - list[`torch.Tensor`]: A list of tensors holding all videos' features.
         Each tensor holds an video's features.
     - `torch.Tensor`: A tensor holding all videos' features
         (concatenation of all videos' feature tensors).
@@ -662,8 +661,8 @@ class Qwen2VisionTransformer(nn.Module):
 
         return x
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -671,7 +670,7 @@ class Qwen2VisionTransformer(nn.Module):
             ("qkv_proj", "v_proj", "v"),
         ]
         params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
 
         for name, loaded_weight in weights:
             for (param_name, weight_name, shard_id) in stacked_params_mapping:
@@ -1394,8 +1393,8 @@ class Qwen2VLForConditionalGeneration(nn.Module, SupportsMultiModal,
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
 
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
diff --git a/vllm/model_executor/models/qwen3.py b/vllm/model_executor/models/qwen3.py
index 40e0ccc1b..dbe2be8a7 100644
--- a/vllm/model_executor/models/qwen3.py
+++ b/vllm/model_executor/models/qwen3.py
@@ -21,7 +21,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only Qwen3 model compatible with HuggingFace weights."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -63,7 +64,7 @@ class Qwen3Attention(nn.Module):
                  rope_theta: float = 10000,
                  cache_config: Optional[CacheConfig] = None,
                  quant_config: Optional[QuantizationConfig] = None,
-                 rope_scaling: Optional[Tuple] = None,
+                 rope_scaling: Optional[tuple] = None,
                  prefix: str = "",
                  attn_type: str = AttentionType.DECODER) -> None:
         super().__init__()
@@ -201,7 +202,7 @@ class Qwen3DecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         if residual is None:
             residual = hidden_states
@@ -309,8 +310,8 @@ class Qwen3ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head."]
diff --git a/vllm/model_executor/models/qwen3_moe.py b/vllm/model_executor/models/qwen3_moe.py
index 1fef37a96..aae540172 100644
--- a/vllm/model_executor/models/qwen3_moe.py
+++ b/vllm/model_executor/models/qwen3_moe.py
@@ -21,7 +21,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """Inference-only Qwen3MoE model compatible with HuggingFace weights."""
-from typing import Any, Dict, Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Any, Optional, Union
 
 import torch
 from torch import nn
@@ -149,7 +150,7 @@ class Qwen3MoeAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 8192,
         head_dim: Optional[int] = None,
         rms_norm_eps: float = 1e-06,
@@ -373,8 +374,8 @@ class Qwen3MoeModel(nn.Module):
         hidden_states, _ = self.norm(hidden_states, residual)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -393,7 +394,7 @@ class Qwen3MoeModel(nn.Module):
             num_experts=self.config.num_experts)
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             for (param_name, weight_name, shard_id) in stacked_params_mapping:
                 # Skip non-stacked layers and experts (experts handled below).
@@ -527,8 +528,8 @@ class Qwen3MoeForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["rotary_emb.inv_freq"]),
diff --git a/vllm/model_executor/models/qwen_vl.py b/vllm/model_executor/models/qwen_vl.py
index 199b885a5..3701153ba 100644
--- a/vllm/model_executor/models/qwen_vl.py
+++ b/vllm/model_executor/models/qwen_vl.py
@@ -9,10 +9,9 @@ import copy
 import math
 import re
 import unicodedata
-from collections.abc import Collection, Mapping, Sequence
-from collections.abc import Set as AbstractSet
+from collections.abc import Collection, Mapping, Sequence, Set
 from functools import lru_cache, partial
-from typing import Callable, List, Literal, Optional, TypedDict, Union
+from typing import Callable, Literal, Optional, TypedDict, Union
 
 import torch
 from torch import nn
@@ -395,7 +394,7 @@ def _get_tokenizer_without_image_pad(
         def tokenize(
             self,
             text: str,
-            allowed_special: Union[AbstractSet[str], str] = "all",
+            allowed_special: Union[Set[str], str] = "all",
             disallowed_special: Union[Collection[str], str] = (),
             **kwargs,
         ) -> list[Union[bytes, str]]:
@@ -411,7 +410,7 @@ def _get_tokenizer_without_image_pad(
 
         def _decode(
             self,
-            token_ids: Union[int, List[int]],
+            token_ids: Union[int, list[int]],
             skip_special_tokens: bool = False,
             errors: Optional[str] = None,
             **kwargs,
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index 06a0e6574..c55f7ccd3 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -10,10 +10,10 @@ import subprocess
 import sys
 import tempfile
 from abc import ABC, abstractmethod
+from collections.abc import Set
 from dataclasses import dataclass, field
 from functools import lru_cache
-from typing import (AbstractSet, Callable, Dict, List, Optional, Tuple, Type,
-                    TypeVar, Union)
+from typing import Callable, Optional, TypeVar, Union
 
 import cloudpickle
 import torch.nn as nn
@@ -266,7 +266,7 @@ class _ModelInfo:
     supports_v0_only: bool
 
     @staticmethod
-    def from_model_cls(model: Type[nn.Module]) -> "_ModelInfo":
+    def from_model_cls(model: type[nn.Module]) -> "_ModelInfo":
         return _ModelInfo(
             architecture=model.__name__,
             is_text_generation_model=is_text_generation_model(model),
@@ -290,7 +290,7 @@ class _BaseRegisteredModel(ABC):
         raise NotImplementedError
 
     @abstractmethod
-    def load_model_cls(self) -> Type[nn.Module]:
+    def load_model_cls(self) -> type[nn.Module]:
         raise NotImplementedError
 
 
@@ -301,10 +301,10 @@ class _RegisteredModel(_BaseRegisteredModel):
     """
 
     interfaces: _ModelInfo
-    model_cls: Type[nn.Module]
+    model_cls: type[nn.Module]
 
     @staticmethod
-    def from_model_cls(model_cls: Type[nn.Module]):
+    def from_model_cls(model_cls: type[nn.Module]):
         return _RegisteredModel(
             interfaces=_ModelInfo.from_model_cls(model_cls),
             model_cls=model_cls,
@@ -313,7 +313,7 @@ class _RegisteredModel(_BaseRegisteredModel):
     def inspect_model_cls(self) -> _ModelInfo:
         return self.interfaces
 
-    def load_model_cls(self) -> Type[nn.Module]:
+    def load_model_cls(self) -> type[nn.Module]:
         return self.model_cls
 
 
@@ -330,7 +330,7 @@ class _LazyRegisteredModel(_BaseRegisteredModel):
         return _run_in_subprocess(
             lambda: _ModelInfo.from_model_cls(self.load_model_cls()))
 
-    def load_model_cls(self) -> Type[nn.Module]:
+    def load_model_cls(self) -> type[nn.Module]:
         mod = importlib.import_module(self.module_name)
         return getattr(mod, self.class_name)
 
@@ -339,7 +339,7 @@ class _LazyRegisteredModel(_BaseRegisteredModel):
 def _try_load_model_cls(
     model_arch: str,
     model: _BaseRegisteredModel,
-) -> Optional[Type[nn.Module]]:
+) -> Optional[type[nn.Module]]:
     from vllm.platforms import current_platform
     current_platform.verify_model_arch(model_arch)
     try:
@@ -366,15 +366,15 @@ def _try_inspect_model_cls(
 @dataclass
 class _ModelRegistry:
     # Keyed by model_arch
-    models: Dict[str, _BaseRegisteredModel] = field(default_factory=dict)
+    models: dict[str, _BaseRegisteredModel] = field(default_factory=dict)
 
-    def get_supported_archs(self) -> AbstractSet[str]:
+    def get_supported_archs(self) -> Set[str]:
         return self.models.keys()
 
     def register_model(
         self,
         model_arch: str,
-        model_cls: Union[Type[nn.Module], str],
+        model_cls: Union[type[nn.Module], str],
     ) -> None:
         """
         Register an external model to be used in vLLM.
@@ -413,7 +413,7 @@ class _ModelRegistry:
 
         self.models[model_arch] = model
 
-    def _raise_for_unsupported(self, architectures: List[str]):
+    def _raise_for_unsupported(self, architectures: list[str]):
         all_supported_archs = self.get_supported_archs()
 
         if any(arch in all_supported_archs for arch in architectures):
@@ -426,7 +426,7 @@ class _ModelRegistry:
             f"Supported architectures: {all_supported_archs}")
 
     def _try_load_model_cls(self,
-                            model_arch: str) -> Optional[Type[nn.Module]]:
+                            model_arch: str) -> Optional[type[nn.Module]]:
         if model_arch not in self.models:
             return None
 
@@ -440,8 +440,8 @@ class _ModelRegistry:
 
     def _normalize_archs(
         self,
-        architectures: Union[str, List[str]],
-    ) -> List[str]:
+        architectures: Union[str, list[str]],
+    ) -> list[str]:
         if isinstance(architectures, str):
             architectures = [architectures]
         if not architectures:
@@ -458,8 +458,8 @@ class _ModelRegistry:
 
     def inspect_model_cls(
         self,
-        architectures: Union[str, List[str]],
-    ) -> Tuple[_ModelInfo, str]:
+        architectures: Union[str, list[str]],
+    ) -> tuple[_ModelInfo, str]:
         architectures = self._normalize_archs(architectures)
 
         for arch in architectures:
@@ -471,8 +471,8 @@ class _ModelRegistry:
 
     def resolve_model_cls(
         self,
-        architectures: Union[str, List[str]],
-    ) -> Tuple[Type[nn.Module], str]:
+        architectures: Union[str, list[str]],
+    ) -> tuple[type[nn.Module], str]:
         architectures = self._normalize_archs(architectures)
 
         for arch in architectures:
@@ -484,77 +484,77 @@ class _ModelRegistry:
 
     def is_text_generation_model(
         self,
-        architectures: Union[str, List[str]],
+        architectures: Union[str, list[str]],
     ) -> bool:
         model_cls, _ = self.inspect_model_cls(architectures)
         return model_cls.is_text_generation_model
 
     def is_pooling_model(
         self,
-        architectures: Union[str, List[str]],
+        architectures: Union[str, list[str]],
     ) -> bool:
         model_cls, _ = self.inspect_model_cls(architectures)
         return model_cls.is_pooling_model
 
     def is_cross_encoder_model(
         self,
-        architectures: Union[str, List[str]],
+        architectures: Union[str, list[str]],
     ) -> bool:
         model_cls, _ = self.inspect_model_cls(architectures)
         return model_cls.supports_cross_encoding
 
     def is_multimodal_model(
         self,
-        architectures: Union[str, List[str]],
+        architectures: Union[str, list[str]],
     ) -> bool:
         model_cls, _ = self.inspect_model_cls(architectures)
         return model_cls.supports_multimodal
 
     def is_pp_supported_model(
         self,
-        architectures: Union[str, List[str]],
+        architectures: Union[str, list[str]],
     ) -> bool:
         model_cls, _ = self.inspect_model_cls(architectures)
         return model_cls.supports_pp
 
     def model_has_inner_state(
         self,
-        architectures: Union[str, List[str]],
+        architectures: Union[str, list[str]],
     ) -> bool:
         model_cls, _ = self.inspect_model_cls(architectures)
         return model_cls.has_inner_state
 
     def is_attention_free_model(
         self,
-        architectures: Union[str, List[str]],
+        architectures: Union[str, list[str]],
     ) -> bool:
         model_cls, _ = self.inspect_model_cls(architectures)
         return model_cls.is_attention_free
 
     def is_hybrid_model(
         self,
-        architectures: Union[str, List[str]],
+        architectures: Union[str, list[str]],
     ) -> bool:
         model_cls, _ = self.inspect_model_cls(architectures)
         return model_cls.is_hybrid
 
     def is_noops_model(
         self,
-        architectures: Union[str, List[str]],
+        architectures: Union[str, list[str]],
     ) -> bool:
         model_cls, _ = self.inspect_model_cls(architectures)
         return model_cls.has_noops
 
     def is_transcription_model(
         self,
-        architectures: Union[str, List[str]],
+        architectures: Union[str, list[str]],
     ) -> bool:
         model_cls, _ = self.inspect_model_cls(architectures)
         return model_cls.supports_transcription
 
     def is_v1_compatible(
         self,
-        architectures: Union[str, List[str]],
+        architectures: Union[str, list[str]],
     ) -> bool:
         model_cls, _ = self.inspect_model_cls(architectures)
         return not model_cls.supports_v0_only
diff --git a/vllm/model_executor/models/roberta.py b/vllm/model_executor/models/roberta.py
index ebefe7689..9a4d0ab2d 100644
--- a/vllm/model_executor/models/roberta.py
+++ b/vllm/model_executor/models/roberta.py
@@ -1,7 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import itertools
-from typing import Iterable, Optional, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -135,7 +136,7 @@ class RobertaEmbeddingModel(BertEmbeddingModel):
                              prefix=prefix,
                              embedding_class=RobertaEmbedding)
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         weights = self.hf_to_vllm_mapper.apply(weights)
         # Separate weights in "roberta"-prefixed and all else (not in memory).
         # For use with models like FacebookAI/roberta-base.
@@ -187,7 +188,7 @@ class RobertaForSequenceClassification(nn.Module, SupportsCrossEncoding,
         self.classifier = RobertaClassificationHead(config)
         self._pooler = CrossEncodingPooler(config, self.classifier)
 
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         bert_weights, task_weights = roberta_task_weights_filter(weights)
         bert_weights = self.jina_to_vllm_mapper.apply(bert_weights)
 
@@ -249,8 +250,8 @@ def create_position_ids_from_input_ids(input_ids,
 
 
 def roberta_task_weights_filter(
-    all_weights: Iterable[Tuple[str, torch.Tensor]]
-) -> Tuple[Iterable[Tuple[str, torch.Tensor]], Iterable[Tuple[str,
+    all_weights: Iterable[tuple[str, torch.Tensor]]
+) -> tuple[Iterable[tuple[str, torch.Tensor]], Iterable[tuple[str,
                                                               torch.Tensor]]]:
     """
     Separate task-specific weights that are applied on top
diff --git a/vllm/model_executor/models/siglip.py b/vllm/model_executor/models/siglip.py
index 75fcf540b..3b5334afa 100644
--- a/vllm/model_executor/models/siglip.py
+++ b/vllm/model_executor/models/siglip.py
@@ -3,7 +3,8 @@
 within a vision language model."""
 
 import math
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -265,7 +266,7 @@ class SiglipEncoderLayer(nn.Module):
     def forward(
         self,
         hidden_states: torch.Tensor,
-    ) -> Tuple[torch.Tensor, None]:
+    ) -> tuple[torch.Tensor, None]:
         residual = hidden_states
 
         hidden_states = self.layer_norm1(hidden_states)
@@ -480,8 +481,8 @@ class SiglipVisionModel(nn.Module):
             feature_sample_layers=feature_sample_layers,
         )
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -489,7 +490,7 @@ class SiglipVisionModel(nn.Module):
             ("qkv_proj", "v_proj", "v"),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         layer_count = len(self.vision_model.encoder.layers)
 
         for name, loaded_weight in weights:
diff --git a/vllm/model_executor/models/skyworkr1v.py b/vllm/model_executor/models/skyworkr1v.py
index e78c37b65..91f6c7753 100644
--- a/vllm/model_executor/models/skyworkr1v.py
+++ b/vllm/model_executor/models/skyworkr1v.py
@@ -8,7 +8,7 @@
 # --------------------------------------------------------
 from abc import ABC, abstractmethod
 from collections.abc import Iterable, Mapping, Sequence
-from typing import Literal, Optional, Set, Tuple, TypedDict, TypeVar, Union
+from typing import Literal, Optional, TypedDict, TypeVar, Union
 
 import torch
 import torch.nn as nn
@@ -937,8 +937,8 @@ class SkyworkR1VChatModel(nn.Module, SupportsMultiModal, SupportsPP):
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         skip_prefixes = [
             "action_embed", "temporal_embed", "track_embed",
             "track_embed_decoder", "box_token", "cg_criterion", "cg_model",
diff --git a/vllm/model_executor/models/smolvlm.py b/vllm/model_executor/models/smolvlm.py
index 17217dc9a..31dec5502 100644
--- a/vllm/model_executor/models/smolvlm.py
+++ b/vllm/model_executor/models/smolvlm.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 
-from typing import Dict, Optional
+from typing import Optional
 
 from transformers import SmolVLMProcessor
 
@@ -21,7 +21,7 @@ class SmolVLMProcessingInfo(Idefics3ProcessingInfo):
     def get_hf_processor(
         self,
         *,
-        max_image_size: Optional[Dict[str, int]] = None,
+        max_image_size: Optional[dict[str, int]] = None,
         **kwargs: object,
     ) -> SmolVLMProcessor:
         if max_image_size is not None:
diff --git a/vllm/model_executor/models/solar.py b/vllm/model_executor/models/solar.py
index f86aff7ba..1c9f3c77c 100644
--- a/vllm/model_executor/models/solar.py
+++ b/vllm/model_executor/models/solar.py
@@ -23,7 +23,8 @@
 # limitations under the License.
 """Inference-only Solar model compatible with HuggingFace weights."""
 
-from typing import Any, Dict, Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Any, Optional, Union
 
 import torch
 from torch import nn
@@ -101,7 +102,7 @@ class SolarAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         rope_theta: float = 10000,
-        rope_scaling: Optional[Dict[str, Any]] = None,
+        rope_scaling: Optional[dict[str, Any]] = None,
         max_position_embeddings: int = 8192,
         quant_config: Optional[QuantizationConfig] = None,
         bias: bool = False,
@@ -236,7 +237,7 @@ class SolarDecoderLayer(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
         residual: Optional[torch.Tensor],
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         if residual is None:
             residual = hidden_states
@@ -437,8 +438,8 @@ class SolarForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             (".qkv_proj", ".q_proj", "q"),
@@ -448,7 +449,7 @@ class SolarForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             (".gate_up_proj", ".up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             if "rotary_emb.inv_freq" in name:
                 continue
diff --git a/vllm/model_executor/models/stablelm.py b/vllm/model_executor/models/stablelm.py
index 1cbda7267..8c2ad6f19 100644
--- a/vllm/model_executor/models/stablelm.py
+++ b/vllm/model_executor/models/stablelm.py
@@ -20,7 +20,8 @@
 # https://huggingface.co/stabilityai/stablelm-3b-4e1t/blob/main/config.json
 """Inference-only StabeLM (https://github.com/Stability-AI/StableLM)
 model compatible with HuggingFace weights."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -180,7 +181,7 @@ class StablelmDecoderLayer(nn.Module):
         self,
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # Self Attention
         residual = hidden_states
         hidden_states = self.input_layernorm(hidden_states)
@@ -252,8 +253,8 @@ class StableLMEpochModel(nn.Module):
         hidden_states = self.norm(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -263,7 +264,7 @@ class StableLMEpochModel(nn.Module):
             ("gate_up_proj", "up_proj", 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             for (param_name, weight_name, shard_id) in stacked_params_mapping:
                 if weight_name not in name:
@@ -335,8 +336,8 @@ class StablelmForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             # Models trained using ColossalAI may include these tensors in
diff --git a/vllm/model_executor/models/starcoder2.py b/vllm/model_executor/models/starcoder2.py
index 6eebe4c4d..5927afa91 100644
--- a/vllm/model_executor/models/starcoder2.py
+++ b/vllm/model_executor/models/starcoder2.py
@@ -19,7 +19,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 """ PyTorch Starcoder2 model."""
-from typing import Iterable, Optional, Set, Tuple, Union
+from collections.abc import Iterable
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -255,8 +256,8 @@ class Starcoder2Model(nn.Module):
         hidden_states = self.norm(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -265,7 +266,7 @@ class Starcoder2Model(nn.Module):
         ]
 
         params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             for (param_name, weight_name, shard_id) in stacked_params_mapping:
                 if weight_name not in name:
@@ -342,8 +343,8 @@ class Starcoder2ForCausalLM(nn.Module, SupportsPP):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(
             self,
             # Models trained using ColossalAI may include these tensors in
diff --git a/vllm/model_executor/models/telechat2.py b/vllm/model_executor/models/telechat2.py
index 379e19e1b..7d713d23c 100644
--- a/vllm/model_executor/models/telechat2.py
+++ b/vllm/model_executor/models/telechat2.py
@@ -19,7 +19,7 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-from typing import Iterable, Set, Tuple
+from collections.abc import Iterable
 
 import torch
 import torch.nn as nn
@@ -50,14 +50,14 @@ class TeleChat2Model(LlamaModel):
                 layer.mlp.gate_up_proj.bias = None
                 layer.mlp.gate_up_proj.skip_bias_add = True
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             ('gate_up_proj', 'gate_proj', 0),
             ('gate_up_proj', 'up_proj', 1),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         total_num_heads = self.config.n_head
         head_dim = self.config.hidden_size // total_num_heads
         for name, loaded_weight in weights:
@@ -128,8 +128,8 @@ class TeleChat2ForCausalLM(LlamaForCausalLM):
                     layer_type: type[nn.Module] = LlamaDecoderLayer):
         return TeleChat2Model(vllm_config=vllm_config, prefix=prefix)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
 
         loader = AutoWeightsLoader(
             self,
diff --git a/vllm/model_executor/models/transformers.py b/vllm/model_executor/models/transformers.py
index 7b946ad6a..a8f30b2f2 100644
--- a/vllm/model_executor/models/transformers.py
+++ b/vllm/model_executor/models/transformers.py
@@ -15,7 +15,8 @@
 # limitations under the License.
 """Wrapper around `transformers` models"""
 import re
-from typing import Iterable, Literal, Optional, Union
+from collections.abc import Iterable
+from typing import Literal, Optional, Union
 
 import torch
 from torch import nn
diff --git a/vllm/model_executor/models/ultravox.py b/vllm/model_executor/models/ultravox.py
index 0bc5d218f..c1a4dc1b3 100644
--- a/vllm/model_executor/models/ultravox.py
+++ b/vllm/model_executor/models/ultravox.py
@@ -3,7 +3,7 @@
 # Adapted from https://github.com/fixie-ai/ultravox/blob/ecd58c4041030bae2ad15aa6bcf04ab43199ea02/ultravox/model/ultravox_model.py
 """PyTorch Ultravox model."""
 from collections.abc import Iterable, Mapping, Sequence
-from typing import Any, Literal, Optional, Set, Tuple, TypedDict, Union
+from typing import Any, Literal, Optional, TypedDict, Union
 
 import torch
 from torch import nn
@@ -619,8 +619,8 @@ class UltravoxModel(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA):
         return self.language_model.compute_logits(hidden_states,
                                                   sampling_metadata)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
 
         loader = AutoWeightsLoader(self,
                                    ignore_unexpected_prefixes=["audio_tower."])
diff --git a/vllm/model_executor/models/utils.py b/vllm/model_executor/models/utils.py
index 0458e3ce0..5cc501622 100644
--- a/vllm/model_executor/models/utils.py
+++ b/vllm/model_executor/models/utils.py
@@ -1,9 +1,9 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import itertools
+from collections.abc import Iterable, Mapping
 from dataclasses import dataclass, field
-from typing import (Callable, Dict, Iterable, List, Literal, Mapping, Optional,
-                    Protocol, Set, Tuple, Union, overload)
+from typing import Callable, Literal, Optional, Protocol, Union, overload
 
 import torch
 import torch.nn as nn
@@ -58,8 +58,8 @@ class WeightsMapper:
         return key
 
     def apply(
-        self, weights: Iterable[Tuple[str, torch.Tensor]]
-    ) -> Iterable[Tuple[str, torch.Tensor]]:
+        self, weights: Iterable[tuple[str, torch.Tensor]]
+    ) -> Iterable[tuple[str, torch.Tensor]]:
         return ((out_name, data) for name, data in weights
                 if (out_name := self._map_name(name)) is not None)
 
@@ -84,8 +84,8 @@ class AutoWeightsLoader:
         self,
         module: nn.Module,
         *,
-        skip_prefixes: Optional[List[str]] = None,
-        ignore_unexpected_prefixes: Optional[List[str]] = None,
+        skip_prefixes: Optional[list[str]] = None,
+        ignore_unexpected_prefixes: Optional[list[str]] = None,
     ) -> None:
         super().__init__()
 
@@ -95,8 +95,8 @@ class AutoWeightsLoader:
 
     def _groupby_prefix(
         self,
-        weights: Iterable[Tuple[str, torch.Tensor]],
-    ) -> Iterable[Tuple[str, Iterable[Tuple[str, torch.Tensor]]]]:
+        weights: Iterable[tuple[str, torch.Tensor]],
+    ) -> Iterable[tuple[str, Iterable[tuple[str, torch.Tensor]]]]:
         weights_by_parts = ((weight_name.split(".", 1), weight_data)
                             for weight_name, weight_data in weights)
 
@@ -129,7 +129,7 @@ class AutoWeightsLoader:
         self,
         base_prefix: str,
         param: nn.Parameter,
-        weights: Iterable[Tuple[str, torch.Tensor]],
+        weights: Iterable[tuple[str, torch.Tensor]],
     ) -> Iterable[str]:
         for weight_name, weight_data in weights:
             weight_qualname = self._get_qualname(base_prefix, weight_name)
@@ -159,7 +159,7 @@ class AutoWeightsLoader:
             yield weight_qualname
 
     def _add_loadable_non_param_tensors(self, module: nn.Module,
-                                        child_params: Dict[str, torch.Tensor]):
+                                        child_params: dict[str, torch.Tensor]):
         """
         Add tensor names that are not in the model params that may be in the
         safetensors, e.g., batch normalization stats.
@@ -182,7 +182,7 @@ class AutoWeightsLoader:
         self,
         base_prefix: str,
         module: nn.Module,
-        weights: Iterable[Tuple[str, torch.Tensor]],
+        weights: Iterable[tuple[str, torch.Tensor]],
     ) -> Iterable[str]:
         if isinstance(module, PPMissingLayer):
             return
@@ -251,10 +251,10 @@ class AutoWeightsLoader:
 
     def load_weights(
         self,
-        weights: Iterable[Tuple[str, torch.Tensor]],
+        weights: Iterable[tuple[str, torch.Tensor]],
         *,
         mapper: Optional[WeightsMapper] = None,
-    ) -> Set[str]:
+    ) -> set[str]:
         if mapper is not None:
             weights = mapper.apply(weights)
 
@@ -292,13 +292,13 @@ def flatten_bn(x: torch.Tensor) -> torch.Tensor:
 
 
 @overload
-def flatten_bn(x: List[torch.Tensor]) -> List[torch.Tensor]:
+def flatten_bn(x: list[torch.Tensor]) -> list[torch.Tensor]:
     ...
 
 
 @overload
 def flatten_bn(
-    x: Union[List[torch.Tensor], torch.Tensor],
+    x: Union[list[torch.Tensor], torch.Tensor],
     *,
     concat: Literal[True],
 ) -> torch.Tensor:
@@ -307,18 +307,18 @@ def flatten_bn(
 
 @overload
 def flatten_bn(
-    x: Union[List[torch.Tensor], torch.Tensor],
+    x: Union[list[torch.Tensor], torch.Tensor],
     *,
     concat: bool = False,
-) -> Union[List[torch.Tensor], torch.Tensor]:
+) -> Union[list[torch.Tensor], torch.Tensor]:
     ...
 
 
 def flatten_bn(
-    x: Union[List[torch.Tensor], torch.Tensor],
+    x: Union[list[torch.Tensor], torch.Tensor],
     *,
     concat: bool = False,
-) -> Union[List[torch.Tensor], torch.Tensor]:
+) -> Union[list[torch.Tensor], torch.Tensor]:
     """
     Flatten the ``B`` and ``N`` dimensions of batched multimodal inputs.
 
@@ -442,7 +442,7 @@ def merge_multimodal_embeddings(
     input_ids: torch.Tensor,
     inputs_embeds: torch.Tensor,
     multimodal_embeddings: NestedTensors,
-    placeholder_token_id: Union[int, List[int]],
+    placeholder_token_id: Union[int, list[int]],
 ) -> torch.Tensor:
     """
     Merge ``multimodal_embeddings`` into ``inputs_embeds`` by overwriting the
@@ -596,7 +596,7 @@ def make_layers(
     num_hidden_layers: int,
     layer_fn: LayerFn,
     prefix: str,
-) -> Tuple[int, int, torch.nn.ModuleList]:
+) -> tuple[int, int, torch.nn.ModuleList]:
     """Make a list of layers with the given layer function, taking
     pipeline parallelism into account.
     """
@@ -614,10 +614,10 @@ def make_layers(
 
 
 # NOTE: don't use lru_cache here because it can prevent garbage collection
-_model_to_pp_missing_layer_names: Dict[int, List[str]] = {}
+_model_to_pp_missing_layer_names: dict[int, list[str]] = {}
 
 
-def get_pp_missing_layer_names(model: torch.nn.Module) -> List[str]:
+def get_pp_missing_layer_names(model: torch.nn.Module) -> list[str]:
     """Get the names of the missing layers in a pipeline parallel model."""
     model_id = id(model)
     if model_id in _model_to_pp_missing_layer_names:
@@ -645,7 +645,7 @@ def is_pp_missing_parameter(name: str, model: torch.nn.Module) -> bool:
         for missing_layer_name in get_pp_missing_layer_names(model))
 
 
-def make_empty_intermediate_tensors_factory(keys: List[str], hidden_size: int):
+def make_empty_intermediate_tensors_factory(keys: list[str], hidden_size: int):
 
     def make_empty_intermediate_tensors(
         batch_size: int,
@@ -684,7 +684,7 @@ def extract_layer_index(layer_name: str) -> int:
     - "model.encoder.layers.0.sub.1" -> ValueError
     """
     subnames = layer_name.split(".")
-    int_vals: List[int] = []
+    int_vals: list[int] = []
     for subname in subnames:
         try:
             int_vals.append(int(subname))
diff --git a/vllm/model_executor/models/whisper.py b/vllm/model_executor/models/whisper.py
index 908cd7885..c6e303d60 100644
--- a/vllm/model_executor/models/whisper.py
+++ b/vllm/model_executor/models/whisper.py
@@ -2,7 +2,7 @@
 
 import math
 from collections.abc import Iterable, Mapping, Sequence
-from typing import List, Optional, Set, Tuple, TypedDict, Union
+from typing import Optional, TypedDict, Union
 
 import torch
 from torch import nn
@@ -382,7 +382,7 @@ class WhisperEncoder(nn.Module):
             self.embed_positions.weight.copy_(
                 sinusoids(*self.embed_positions.weight.shape))
 
-    def forward(self, input_features: Union[torch.Tensor, List[torch.Tensor]]):
+    def forward(self, input_features: Union[torch.Tensor, list[torch.Tensor]]):
         hidden_states = []
         for features in input_features:
             embeds = nn.functional.gelu(self.conv1(features))
@@ -460,7 +460,7 @@ class WhisperModel(nn.Module):
 
     def forward(
         self,
-        input_features: Optional[Union[torch.Tensor, List[torch.Tensor]]],
+        input_features: Optional[Union[torch.Tensor, list[torch.Tensor]]],
         input_ids: Optional[torch.Tensor],
         positions: torch.Tensor,
     ) -> torch.Tensor:
@@ -474,14 +474,14 @@ class WhisperModel(nn.Module):
 
     def get_encoder_outputs(
         self,
-        input_features: Optional[Union[torch.Tensor, List[torch.Tensor]]],
+        input_features: Optional[Union[torch.Tensor, list[torch.Tensor]]],
     ) -> Optional[torch.Tensor]:
         if input_features is None:
             return None
         return self.encoder(input_features)
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             (".self_attn.qkv_proj", ".self_attn.q_proj", "q"),
@@ -491,7 +491,7 @@ class WhisperModel(nn.Module):
             (".encoder_attn.kv_proj", ".encoder_attn.v_proj", "v"),
         ]
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for name, loaded_weight in weights:
             for param_name, weight_name, shard_id in stacked_params_mapping:
                 if weight_name not in name:
@@ -722,8 +722,8 @@ class WhisperForConditionalGeneration(nn.Module, SupportsTranscription,
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self, skip_prefixes=["proj_out."])
 
         # add fake zeros bias for k_proj to state_dict
@@ -732,8 +732,8 @@ class WhisperForConditionalGeneration(nn.Module, SupportsTranscription,
 
 
 def _create_fake_bias_for_k_proj(
-    weights: Iterable[Tuple[str, torch.Tensor]]
-) -> Iterable[Tuple[str, torch.Tensor]]:
+    weights: Iterable[tuple[str, torch.Tensor]]
+) -> Iterable[tuple[str, torch.Tensor]]:
     """
     Create full zeros bias for k_proj weight in self-attn and x-attn layers.
     So that the bias for k_proj in qkv_proj can be initialized with zeros.
diff --git a/vllm/model_executor/models/zamba2.py b/vllm/model_executor/models/zamba2.py
index eddccbba5..48e254bdd 100644
--- a/vllm/model_executor/models/zamba2.py
+++ b/vllm/model_executor/models/zamba2.py
@@ -6,8 +6,9 @@ https://arxiv.org/abs/2411.15242, which combines Mamba and Transformer
 architectures in a hybrid model optimized for efficient sequence modeling. The 
 model alternates between state space model layers and attention-based layers.
 """
+from collections.abc import Iterable
 from itertools import cycle
-from typing import Dict, Iterable, List, Optional, Set, Tuple, Union
+from typing import Optional, Union
 
 import torch
 from torch import nn
@@ -54,7 +55,7 @@ class Zamba2LoRA(nn.Module):
         self,
         input_dim: int,
         rank: int,
-        output_dim: Union[int, List[int]],
+        output_dim: Union[int, list[int]],
         quant_config: Optional[QuantizationConfig] = None,
     ):
         """Initialize the attention layer.
@@ -279,7 +280,7 @@ class Zamba2MLP(nn.Module):
         self,
         config: Zamba2Config,
         bare_block_idx: int,
-        num_hybrid_layers: Dict[int, int],
+        num_hybrid_layers: dict[int, int],
         quant_config: Optional[QuantizationConfig] = None,
     ) -> None:
         """Initialize the MLP layer.
@@ -769,8 +770,8 @@ class Zamba2Model(nn.Module):
         hidden_states = self.final_layernorm(hidden_states)
         return hidden_states
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("qkv_proj", "q_proj", "q"),
@@ -779,7 +780,7 @@ class Zamba2Model(nn.Module):
         ]
 
         params_dict = dict(self.named_parameters())
-        loaded_params: Set[str] = set()
+        loaded_params: set[str] = set()
         for chkpt_weight_name, loaded_weight in weights:
             for param_name, weight_name, shard_id in stacked_params_mapping:
                 if weight_name not in chkpt_weight_name:
@@ -914,9 +915,9 @@ class Zamba2ForCausalLM(nn.Module, HasInnerState, IsHybrid, SupportsV0Only):
 
         return hidden_states
 
-    def copy_inputs_before_cuda_graphs(self, input_buffers: Dict[str,
+    def copy_inputs_before_cuda_graphs(self, input_buffers: dict[str,
                                                                  torch.Tensor],
-                                       **kwargs) -> Dict[str, torch.Tensor]:
+                                       **kwargs) -> dict[str, torch.Tensor]:
         """Copy inputs before CUDA graph capture.
         
         Args:
@@ -930,7 +931,7 @@ class Zamba2ForCausalLM(nn.Module, HasInnerState, IsHybrid, SupportsV0Only):
             input_buffers, **kwargs)
 
     def get_seqlen_agnostic_capture_inputs(
-            self, batch_size: int) -> Dict[str, torch.Tensor]:
+            self, batch_size: int) -> dict[str, torch.Tensor]:
         """Get inputs for sequence-length-agnostic graph capture.
         
         Args:
@@ -941,7 +942,7 @@ class Zamba2ForCausalLM(nn.Module, HasInnerState, IsHybrid, SupportsV0Only):
         return self.mamba_cache.get_seqlen_agnostic_capture_inputs(batch_size)
 
     def _get_mamba_cache_shape(
-            self) -> Tuple[Tuple[int, int], Tuple[int, int]]:
+            self) -> tuple[tuple[int, int], tuple[int, int]]:
         """Calculate shapes for Mamba's convolutional and state caches.
         
         Returns:
@@ -1001,7 +1002,7 @@ class Zamba2ForCausalLM(nn.Module, HasInnerState, IsHybrid, SupportsV0Only):
                                        sampling_metadata)
         return logits
 
-    def load_weights(self, weights: Iterable[Tuple[str,
-                                                   torch.Tensor]]) -> Set[str]:
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
-- 
GitLab


From e6b8e65d2d68fc96871bc2f07999cb495e054ced Mon Sep 17 00:00:00 2001
From: Thomas Parnell <tpa@zurich.ibm.com>
Date: Thu, 15 May 2025 07:26:34 +0200
Subject: [PATCH 390/461] [Bugfix] Fix fp8 tests for triton_unified_attention
 for Triton 3.3 (#18013)

Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>
Co-authored-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>
---
 .../kernels/{ => attention}/test_triton_unified_attention.py  | 3 +++
 vllm/attention/ops/triton_unified_attention.py                | 4 ++++
 2 files changed, 7 insertions(+)
 rename tests/kernels/{ => attention}/test_triton_unified_attention.py (98%)

diff --git a/tests/kernels/test_triton_unified_attention.py b/tests/kernels/attention/test_triton_unified_attention.py
similarity index 98%
rename from tests/kernels/test_triton_unified_attention.py
rename to tests/kernels/attention/test_triton_unified_attention.py
index 50da8e5fd..4e15d0025 100644
--- a/tests/kernels/test_triton_unified_attention.py
+++ b/tests/kernels/attention/test_triton_unified_attention.py
@@ -99,6 +99,9 @@ def test_triton_unified_attn(
 ) -> None:
     torch.set_default_device("cuda")
 
+    if q_dtype is not None and q_dtype.itemsize < 2 and block_size < 32:
+        pytest.skip("block size must be at least 32 for fp8")
+
     current_platform.seed_everything(0)
     num_seqs = len(seq_lens)
     query_lens = [x[0] for x in seq_lens]
diff --git a/vllm/attention/ops/triton_unified_attention.py b/vllm/attention/ops/triton_unified_attention.py
index 8c0cf9267..f08000a75 100644
--- a/vllm/attention/ops/triton_unified_attention.py
+++ b/vllm/attention/ops/triton_unified_attention.py
@@ -268,6 +268,10 @@ def unified_attention(
     assert causal, "Only causal attention is supported"
     assert q_descale is None, "Q scales not supported"
 
+    block_size = v.shape[1]
+    assert q.element_size() >= 2 or block_size >= 32, \
+        "Block size must be at least 32 for fp8"
+
     use_alibi_slopes = alibi_slopes is not None
 
     block_size = v.shape[1]
-- 
GitLab


From 4f07a640759283a09862e1ad74e390b469891918 Mon Sep 17 00:00:00 2001
From: Chenheli Hua <huachenheli@outlook.com>
Date: Wed, 14 May 2025 22:26:49 -0700
Subject: [PATCH 391/461] Support custom implementations of VideoLoader
 backends. (#18091)

---
 tests/multimodal/test_video.py | 41 ++++++++++++++++++++++++++++++++++
 vllm/envs.py                   | 11 +++++++++
 vllm/multimodal/video.py       | 33 +++++++++++++++++++++++++--
 3 files changed, 83 insertions(+), 2 deletions(-)
 create mode 100644 tests/multimodal/test_video.py

diff --git a/tests/multimodal/test_video.py b/tests/multimodal/test_video.py
new file mode 100644
index 000000000..e67624ece
--- /dev/null
+++ b/tests/multimodal/test_video.py
@@ -0,0 +1,41 @@
+# SPDX-License-Identifier: Apache-2.0
+import numpy as np
+import numpy.typing as npt
+import pytest
+
+from vllm.multimodal.video import VIDEO_LOADER_REGISTRY, VideoLoader
+
+NUM_FRAMES = 10
+FAKE_OUTPUT_1 = np.random.rand(NUM_FRAMES, 1280, 720, 3)
+FAKE_OUTPUT_2 = np.random.rand(NUM_FRAMES, 1280, 720, 3)
+
+
+@VIDEO_LOADER_REGISTRY.register("test_video_loader_1")
+class TestVideoLoader1(VideoLoader):
+
+    @classmethod
+    def load_bytes(cls, data: bytes, num_frames: int = -1) -> npt.NDArray:
+        return FAKE_OUTPUT_1
+
+
+@VIDEO_LOADER_REGISTRY.register("test_video_loader_2")
+class TestVideoLoader2(VideoLoader):
+
+    @classmethod
+    def load_bytes(cls, data: bytes, num_frames: int = -1) -> npt.NDArray:
+        return FAKE_OUTPUT_2
+
+
+def test_video_loader_registry():
+    custom_loader_1 = VIDEO_LOADER_REGISTRY.load("test_video_loader_1")
+    output_1 = custom_loader_1.load_bytes(b"test")
+    np.testing.assert_array_equal(output_1, FAKE_OUTPUT_1)
+
+    custom_loader_2 = VIDEO_LOADER_REGISTRY.load("test_video_loader_2")
+    output_2 = custom_loader_2.load_bytes(b"test")
+    np.testing.assert_array_equal(output_2, FAKE_OUTPUT_2)
+
+
+def test_video_loader_type_doesnt_exist():
+    with pytest.raises(AssertionError):
+        VIDEO_LOADER_REGISTRY.load("non_existing_video_loader")
diff --git a/vllm/envs.py b/vllm/envs.py
index 9d585bf35..fe3fa91fb 100644
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -55,6 +55,7 @@ if TYPE_CHECKING:
     VLLM_IMAGE_FETCH_TIMEOUT: int = 5
     VLLM_VIDEO_FETCH_TIMEOUT: int = 30
     VLLM_AUDIO_FETCH_TIMEOUT: int = 10
+    VLLM_VIDEO_LOADER_BACKEND: str = "opencv"
     VLLM_MM_INPUT_CACHE_GIB: int = 8
     VLLM_TARGET_DEVICE: str = "cuda"
     MAX_JOBS: Optional[str] = None
@@ -446,6 +447,16 @@ environment_variables: dict[str, Callable[[], Any]] = {
     "VLLM_AUDIO_FETCH_TIMEOUT":
     lambda: int(os.getenv("VLLM_AUDIO_FETCH_TIMEOUT", "10")),
 
+    # Backend for Video IO
+    # - "opencv": Default backend that uses OpenCV stream buffered backend.
+    #
+    # Custom backend implementations can be registered
+    # via `@VIDEO_LOADER_REGISTRY.register("my_custom_video_loader")` and
+    # imported at runtime.
+    # If a non-existing backend is used, an AssertionError will be thrown.
+    "VLLM_VIDEO_LOADER_BACKEND":
+    lambda: os.getenv("VLLM_VIDEO_LOADER_BACKEND", "opencv"),
+
     # Cache size (in GiB) for multimodal input cache
     # Default is 4 GiB
     "VLLM_MM_INPUT_CACHE_GIB":
diff --git a/vllm/multimodal/video.py b/vllm/multimodal/video.py
index 72e9b65d7..3685fd4c3 100644
--- a/vllm/multimodal/video.py
+++ b/vllm/multimodal/video.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import base64
+from abc import abstractmethod
 from functools import partial
 from io import BytesIO
 from pathlib import Path
@@ -9,6 +10,8 @@ import numpy as np
 import numpy.typing as npt
 from PIL import Image
 
+from vllm import envs
+
 from .base import MediaIO
 from .image import ImageMediaIO
 
@@ -48,10 +51,35 @@ def sample_frames_from_video(frames: npt.NDArray,
 class VideoLoader:
 
     @classmethod
-    def load_bytes(self, data: bytes, num_frames: int = -1) -> npt.NDArray:
+    @abstractmethod
+    def load_bytes(cls, data: bytes, num_frames: int = -1) -> npt.NDArray:
         raise NotImplementedError
 
 
+class VideoLoaderRegistry:
+
+    def __init__(self) -> None:
+        self.name2class: dict[str, type] = {}
+
+    def register(self, name: str):
+
+        def wrap(cls_to_register):
+            self.name2class[name] = cls_to_register
+            return cls_to_register
+
+        return wrap
+
+    @staticmethod
+    def load(cls_name: str) -> VideoLoader:
+        cls = VIDEO_LOADER_REGISTRY.name2class.get(cls_name)
+        assert cls is not None, f"VideoLoader class {cls_name} not found"
+        return cls()
+
+
+VIDEO_LOADER_REGISTRY = VideoLoaderRegistry()
+
+
+@VIDEO_LOADER_REGISTRY.register("opencv")
 class OpenCVVideoBackend(VideoLoader):
 
     def get_cv2_video_api(self):
@@ -122,7 +150,8 @@ class VideoMediaIO(MediaIO[npt.NDArray]):
 
         self.image_io = image_io
         self.num_frames = num_frames
-        self.video_loader = OpenCVVideoBackend
+        video_loader_backend = envs.VLLM_VIDEO_LOADER_BACKEND
+        self.video_loader = VIDEO_LOADER_REGISTRY.load(video_loader_backend)
 
     def load_bytes(self, data: bytes) -> npt.NDArray:
         return self.video_loader.load_bytes(data, self.num_frames)
-- 
GitLab


From 420caf7557f85635fae09b3f2c27e38ac751551f Mon Sep 17 00:00:00 2001
From: Ning Xie <andy.xning@gmail.com>
Date: Thu, 15 May 2025 13:28:11 +0800
Subject: [PATCH 392/461] [UT] Add ut for none hash (#17892)

Signed-off-by: Andy Xie <andy.xning@gmail.com>
---
 tests/v1/core/test_kv_cache_utils.py | 41 +++++++++++++++++++++-------
 1 file changed, 31 insertions(+), 10 deletions(-)

diff --git a/tests/v1/core/test_kv_cache_utils.py b/tests/v1/core/test_kv_cache_utils.py
index e572100fe..43a27da2d 100644
--- a/tests/v1/core/test_kv_cache_utils.py
+++ b/tests/v1/core/test_kv_cache_utils.py
@@ -1,4 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
+import importlib
 
 import pytest
 import torch
@@ -10,8 +11,7 @@ from vllm.utils import GiB_bytes, sha256
 from vllm.v1.core.kv_cache_manager import KVCacheManager
 # disable yapf here as it formats differently than isort such that both fail
 # yapf: disable
-from vllm.v1.core.kv_cache_utils import (NONE_HASH, BlockHashType,
-                                         FreeKVCacheBlockQueue, KVCacheBlock,
+from vllm.v1.core.kv_cache_utils import (FreeKVCacheBlockQueue, KVCacheBlock,
                                          PrefixCachingMetrics,
                                          estimate_max_model_len,
                                          generate_block_hash_extra_keys,
@@ -65,13 +65,29 @@ def new_kv_cache_spec(block_size=16,
                              sliding_window=sliding_window)
 
 
-def test_none_hash():
-    assert NONE_HASH is not None
-    assert isinstance(NONE_HASH, int)
-    assert NONE_HASH != 0
+def test_none_hash(monkeypatch):
+    import vllm.v1.core.kv_cache_utils
+
+    # case 1: PYTHONHASHSEED is not set, use random
+    with monkeypatch.context() as m:
+        m.delenv('PYTHONHASHSEED', raising=False)
+        reloaded_kv_cache_utils = importlib.reload(vllm.v1.core.kv_cache_utils)
+        assert reloaded_kv_cache_utils.NONE_HASH is not None
+        assert isinstance(reloaded_kv_cache_utils.NONE_HASH, int)
+        assert reloaded_kv_cache_utils.NONE_HASH != 0
+
+    # case 2: PYTHONHASHSEED is set, use the seed
+    with monkeypatch.context() as m:
+        m.setenv('PYTHONHASHSEED', 'python hash seed')
+        reloaded_kv_cache_utils = importlib.reload(vllm.v1.core.kv_cache_utils)
+        assert reloaded_kv_cache_utils.NONE_HASH is not None
+        assert isinstance(reloaded_kv_cache_utils.NONE_HASH, int)
+        assert sha256('python hash seed') == reloaded_kv_cache_utils.NONE_HASH
 
 
 def test_kv_cache_block():
+    import vllm.v1.core.kv_cache_utils
+
     # Test KVCacheBlock initialization
     block = KVCacheBlock(block_id=0)
     assert block.block_id == 0
@@ -85,7 +101,8 @@ def test_kv_cache_block():
     assert block.ref_cnt == 0
 
     # Test block hash setting and resetting
-    block_hash = BlockHashType(hash_value=123, token_ids=(1, 2, 3))
+    block_hash = vllm.v1.core.kv_cache_utils.BlockHashType(hash_value=123,
+                                                           token_ids=(1, 2, 3))
     block.block_hash = block_hash
     assert block.block_hash == block_hash
 
@@ -259,13 +276,14 @@ def test_generate_block_hash_extra_keys_cache_salt():
 
 @pytest.mark.parametrize("hash_fn", [sha256, hash])
 def test_hash_block_tokens(hash_fn):
+    import vllm.v1.core.kv_cache_utils
     parent_block_hash = 123
     curr_block_token_ids = (1, 2, 3)
     extra_keys = ("key1", "key2")
 
     block_hash = hash_block_tokens(hash_fn, parent_block_hash,
                                    curr_block_token_ids, extra_keys)
-    assert isinstance(block_hash, BlockHashType)
+    assert isinstance(block_hash, vllm.v1.core.kv_cache_utils.BlockHashType)
     assert block_hash.hash_value == hash_fn(
         (parent_block_hash, curr_block_token_ids, extra_keys))
     assert block_hash.token_ids == curr_block_token_ids
@@ -274,6 +292,7 @@ def test_hash_block_tokens(hash_fn):
 
 @pytest.mark.parametrize("hash_fn", [sha256, hash])
 def test_hash_request_tokens(hash_fn):
+    import vllm.v1.core.kv_cache_utils
     request = make_request(
         request_id=0,
         prompt_token_ids=[_ for _ in range(6)],
@@ -288,8 +307,10 @@ def test_hash_request_tokens(hash_fn):
     block_hashes = hash_request_tokens(hash_fn, block_size, request)
 
     assert len(block_hashes) == 2
-    assert isinstance(block_hashes[0], BlockHashType)
-    assert isinstance(block_hashes[1], BlockHashType)
+    assert isinstance(block_hashes[0],
+                      vllm.v1.core.kv_cache_utils.BlockHashType)
+    assert isinstance(block_hashes[1],
+                      vllm.v1.core.kv_cache_utils.BlockHashType)
 
     # Check the first block
     assert block_hashes[0].token_ids == (0, 1, 2)
-- 
GitLab


From dd2a94596abe43eb0e556cde306fc80d442183c0 Mon Sep 17 00:00:00 2001
From: inkcherry <mingzhi.liu@intel.com>
Date: Thu, 15 May 2025 13:29:38 +0800
Subject: [PATCH 393/461] [Model] Allow the use of sliding window in Qwen2 
 (#17772)

Signed-off-by: inkcherry <mingzhi.liu@intel.com>
---
 vllm/model_executor/models/qwen2.py | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/vllm/model_executor/models/qwen2.py b/vllm/model_executor/models/qwen2.py
index 108d002e6..0d0d98c59 100644
--- a/vllm/model_executor/models/qwen2.py
+++ b/vllm/model_executor/models/qwen2.py
@@ -291,14 +291,14 @@ class Qwen2Model(nn.Module):
         # TODO (@robertgshaw2): see if this can be moved out
         if (cache_config.sliding_window is not None
                 and hasattr(config, "max_window_layers")):
-            raise ValueError("Sliding window for some but all layers is not "
-                             "supported. This model uses sliding window "
-                             "but `max_window_layers` = {} is less than "
-                             "`num_hidden_layers` = {}. Please open an issue "
-                             "to discuss this feature.".format(
-                                 config.max_window_layers,
-                                 config.num_hidden_layers,
-                             ))
+            assert config.max_window_layers == config.num_hidden_layers, (
+                "Sliding window for some but all layers is not supported. "
+                "This model uses sliding window but `max_window_layers` = {} "
+                "is less than `num_hidden_layers` = {}. Please open an issue "
+                "to discuss this feature.".format(
+                    config.max_window_layers,
+                    config.num_hidden_layers,
+                ))
 
         self.config = config
         self.quant_config = quant_config
-- 
GitLab


From 70f8b967242633f4cf38a456127f102664d1da3e Mon Sep 17 00:00:00 2001
From: Mengqing Cao <cmq0113@163.com>
Date: Thu, 15 May 2025 14:16:31 +0800
Subject: [PATCH 394/461] [Bugfix] Fix FusedMoEPrepareAndFinalize for
 cuda-disalike backends (#18178)

Signed-off-by: Mengqing Cao <cmq0113@163.com>
---
 vllm/model_executor/layers/fused_moe/layer.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index d083e0040..0b3c02d1b 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -43,6 +43,7 @@ if current_platform.is_cuda_alike():
         from .pplx_prepare_finalize import PplxPrepareAndFinalize
 else:
     fused_experts = None  # type: ignore
+    FusedMoEPrepareAndFinalize = None  # type: ignore
 if is_rocm_aiter_moe_enabled():
     from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (  # noqa: E501
         rocm_aiter_biased_group_topk as grouped_topk)
-- 
GitLab


From de71fec81b0082950ecea1e8db39125895ce44cc Mon Sep 17 00:00:00 2001
From: David Xia <david@davidxia.com>
Date: Thu, 15 May 2025 02:17:16 -0400
Subject: [PATCH 395/461] [CI] don't skip fixed `test_kv_cache_events()`
 (#18183)

Signed-off-by: David Xia <david@davidxia.com>
---
 tests/v1/engine/test_engine_core_client.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/tests/v1/engine/test_engine_core_client.py b/tests/v1/engine/test_engine_core_client.py
index 71ebd0a36..8bea032f6 100644
--- a/tests/v1/engine/test_engine_core_client.py
+++ b/tests/v1/engine/test_engine_core_client.py
@@ -256,8 +256,6 @@ async def test_engine_core_client_asyncio(monkeypatch: pytest.MonkeyPatch):
             client.shutdown()
 
 
-# TRACKING: https://github.com/vllm-project/vllm/issues/18167
-@pytest.mark.skip(reason="RE-ENABLE: this test is failing on main.")
 @pytest.mark.parametrize(
     "multiprocessing_mode,publisher_config",
     [(True, "tcp"), (False, "inproc")],
-- 
GitLab


From a8f5aec20ad685851f972847c0567db270d9845f Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Thu, 15 May 2025 02:17:57 -0400
Subject: [PATCH 396/461] [V1] Update zmq socket creation in nixl connector
 (#18148)

Signed-off-by: Russell Bryant <rbryant@redhat.com>
---
 tests/test_utils.py                           |  7 +++++-
 .../kv_connector/v1/nixl_connector.py         | 24 ++++++++-----------
 vllm/utils.py                                 | 18 ++++++++++++++
 3 files changed, 34 insertions(+), 15 deletions(-)

diff --git a/tests/test_utils.py b/tests/test_utils.py
index deff33e5c..ea7db0a79 100644
--- a/tests/test_utils.py
+++ b/tests/test_utils.py
@@ -17,7 +17,7 @@ from vllm.config import ParallelConfig, VllmConfig, set_current_vllm_config
 from vllm.utils import (CacheInfo, FlexibleArgumentParser, LRUCache,
                         MemorySnapshot, PlaceholderModule, StoreBoolean,
                         bind_kv_cache, deprecate_kwargs, get_open_port,
-                        make_zmq_socket, memory_profiling,
+                        make_zmq_path, make_zmq_socket, memory_profiling,
                         merge_async_iterators, sha256, split_zmq_path,
                         supports_kw, swap_dict_values)
 
@@ -714,3 +714,8 @@ def test_make_zmq_socket_ipv6():
     # Clean up
     zsock.close()
     ctx.term()
+
+
+def test_make_zmq_path():
+    assert make_zmq_path("tcp", "127.0.0.1", "5555") == "tcp://127.0.0.1:5555"
+    assert make_zmq_path("tcp", "::1", "5555") == "tcp://[::1]:5555"
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
index abd1ea2be..c0c03efcd 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -21,7 +21,7 @@ from vllm.distributed.parallel_state import (
     get_tensor_model_parallel_rank, get_tensor_model_parallel_world_size,
     get_tp_group)
 from vllm.logger import init_logger
-from vllm.utils import round_down
+from vllm.utils import make_zmq_path, make_zmq_socket, round_down
 from vllm.v1.core.sched.output import SchedulerOutput
 from vllm.v1.request import RequestStatus
 
@@ -379,7 +379,7 @@ class NixlConnectorWorker:
         # hack to keeps us moving. We will switch when moving to etcd
         # or where we have a single ZMQ socket in the scheduler.
         port = envs.VLLM_NIXL_SIDE_CHANNEL_PORT + rank
-        path = f"tcp://{host}:{port}"
+        path = make_zmq_path("tcp", host, port)
         logger.debug("Starting listening on path: %s", path)
         with zmq_ctx(zmq.ROUTER, path) as sock:
             ready_event.set()
@@ -397,7 +397,7 @@ class NixlConnectorWorker:
         # NOTE(rob): we need each rank to have a unique port. This is
         # a hack to keep us moving. We will switch when moving to etcd
         # or where we have a single ZMQ socket in the scheduler.
-        path = f"tcp://{host}:{port + self.rank}"
+        path = make_zmq_path("tcp", host, port + self.rank)
         logger.debug("Querying metadata on path: %s", path)
         with zmq_ctx(zmq.REQ, path) as sock:
             # Send query for the request.
@@ -741,20 +741,16 @@ class NixlConnectorWorker:
 def zmq_ctx(socket_type: Any, addr: str) -> Iterator[zmq.Socket]:
     """Context manager for a ZMQ socket"""
 
+    if socket_type not in (zmq.ROUTER, zmq.REQ):
+        raise ValueError(f"Unexpected socket type: {socket_type}")
+
     ctx: Optional[zmq.Context] = None
     try:
         ctx = zmq.Context()  # type: ignore[attr-defined]
-
-        if socket_type == zmq.ROUTER:
-            socket = ctx.socket(zmq.ROUTER)
-            socket.bind(addr)
-        elif socket_type == zmq.REQ:
-            socket = ctx.socket(zmq.REQ)
-            socket.connect(addr)
-        else:
-            raise ValueError(f"Unexpected socket type: {socket_type}")
-
-        yield socket
+        yield make_zmq_socket(ctx=ctx,
+                              path=addr,
+                              socket_type=socket_type,
+                              bind=socket_type == zmq.ROUTER)
     finally:
         if ctx is not None:
             ctx.destroy(linger=0)
diff --git a/vllm/utils.py b/vllm/utils.py
index 9a7da8067..edfbb8c94 100644
--- a/vllm/utils.py
+++ b/vllm/utils.py
@@ -2350,6 +2350,24 @@ def split_zmq_path(path: str) -> Tuple[str, str, str]:
     return scheme, host, port
 
 
+def make_zmq_path(scheme: str, host: str, port: Optional[int] = None) -> str:
+    """Make a ZMQ path from its parts.
+
+    Args:
+        scheme: The ZMQ transport scheme (e.g. tcp, ipc, inproc).
+        host: The host - can be an IPv4 address, IPv6 address, or hostname.
+        port: Optional port number, only used for TCP sockets.
+
+    Returns:
+        A properly formatted ZMQ path string.
+    """
+    if not port:
+        return f"{scheme}://{host}"
+    if is_valid_ipv6_address(host):
+        return f"{scheme}://[{host}]:{port}"
+    return f"{scheme}://{host}:{port}"
+
+
 # Adapted from: https://github.com/sgl-project/sglang/blob/v0.4.1/python/sglang/srt/utils.py#L783 # noqa: E501
 def make_zmq_socket(
     ctx: Union[zmq.asyncio.Context, zmq.Context],  # type: ignore[name-defined]
-- 
GitLab


From a9944aabfa0eb0f133cf869b3ed5defb44ed7d33 Mon Sep 17 00:00:00 2001
From: omahs <73983677+omahs@users.noreply.github.com>
Date: Thu, 15 May 2025 11:16:15 +0200
Subject: [PATCH 397/461] fix: typos (#18151)

Signed-off-by: omahs <73983677+omahs@users.noreply.github.com>
---
 csrc/attention/attention_kernels.cuh             | 4 ++--
 examples/offline_inference/chat_with_tools.py    | 4 ++--
 tests/lora/test_lora_huggingface.py              | 2 +-
 tests/model_executor/weight_utils.py             | 6 +++---
 vllm/config.py                                   | 2 +-
 vllm/lora/ops/triton_ops/lora_expand_op.py       | 2 +-
 vllm/model_executor/layers/mamba/mamba_mixer2.py | 2 +-
 vllm/model_executor/models/granite_speech.py     | 4 ++--
 vllm/model_executor/models/phi4mm_audio.py       | 8 ++++----
 vllm/v1/request.py                               | 2 +-
 10 files changed, 18 insertions(+), 18 deletions(-)

diff --git a/csrc/attention/attention_kernels.cuh b/csrc/attention/attention_kernels.cuh
index eb216dc8b..79a546554 100644
--- a/csrc/attention/attention_kernels.cuh
+++ b/csrc/attention/attention_kernels.cuh
@@ -172,7 +172,7 @@ __device__ void paged_attention_kernel(
 
   // Load the query to registers.
   // Each thread in a thread group has a different part of the query.
-  // For example, if the the thread group size is 4, then the first thread in
+  // For example, if the thread group size is 4, then the first thread in
   // the group has 0, 4, 8, ... th vectors of the query, and the second thread
   // has 1, 5, 9, ... th vectors of the query, and so on. NOTE(woosuk): Because
   // q is split from a qkv tensor, it may not be contiguous.
@@ -259,7 +259,7 @@ __device__ void paged_attention_kernel(
 
     // Load a key to registers.
     // Each thread in a thread group has a different part of the key.
-    // For example, if the the thread group size is 4, then the first thread in
+    // For example, if the thread group size is 4, then the first thread in
     // the group has 0, 4, 8, ... th vectors of the key, and the second thread
     // has 1, 5, 9, ... th vectors of the key, and so on.
     for (int i = 0; i < NUM_TOKENS_PER_THREAD_GROUP; i++) {
diff --git a/examples/offline_inference/chat_with_tools.py b/examples/offline_inference/chat_with_tools.py
index 15519bfed..b532bf42a 100644
--- a/examples/offline_inference/chat_with_tools.py
+++ b/examples/offline_inference/chat_with_tools.py
@@ -68,7 +68,7 @@ def get_current_weather(city: str, state: str, unit: 'str'):
             "partly cloudly, with highs in the 90's.")
 
 
-tool_funtions = {"get_current_weather": get_current_weather}
+tool_functions = {"get_current_weather": get_current_weather}
 
 tools = [{
     "type": "function",
@@ -122,7 +122,7 @@ messages.append({
 # above defined function
 tool_calls = json.loads(output)
 tool_answers = [
-    tool_funtions[call['name']](**call['arguments']) for call in tool_calls
+    tool_functions[call['name']](**call['arguments']) for call in tool_calls
 ]
 
 # append the answer as a tool message and let the LLM give you an answer
diff --git a/tests/lora/test_lora_huggingface.py b/tests/lora/test_lora_huggingface.py
index 0875128c4..90498c47f 100644
--- a/tests/lora/test_lora_huggingface.py
+++ b/tests/lora/test_lora_huggingface.py
@@ -30,7 +30,7 @@ def test_load_checkpoints_from_huggingface(lora_fixture_name, request):
 
     lora_path = get_adapter_absolute_path(lora_name)
 
-    # lora loading should work for either absolute path and hugggingface id.
+    # lora loading should work for either absolute path and huggingface id.
     peft_helper = PEFTHelper.from_local_dir(lora_path, 4096)
     lora_model = LoRAModel.from_local_checkpoint(
         lora_path,
diff --git a/tests/model_executor/weight_utils.py b/tests/model_executor/weight_utils.py
index 11dfe4d49..bdaba22c3 100644
--- a/tests/model_executor/weight_utils.py
+++ b/tests/model_executor/weight_utils.py
@@ -20,11 +20,11 @@ def test_hf_transfer_auto_activation():
     try:
         # enable hf hub transfer if available
         import hf_transfer  # type: ignore # noqa
-        HF_TRANFER_ACTIVE = True
+        HF_TRANSFER_ACTIVE = True
     except ImportError:
-        HF_TRANFER_ACTIVE = False
+        HF_TRANSFER_ACTIVE = False
     assert (huggingface_hub.constants.HF_HUB_ENABLE_HF_TRANSFER ==
-            HF_TRANFER_ACTIVE)
+            HF_TRANSFER_ACTIVE)
 
 
 def test_download_weights_from_hf():
diff --git a/vllm/config.py b/vllm/config.py
index 81cac4d04..19de4d054 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -297,7 +297,7 @@ class ModelConfig:
     - 1K -> 1024\n
     - 25.6k -> 25,600"""
     spec_target_max_model_len: Optional[int] = None
-    """Specify the the maximum length for spec decoding draft models."""
+    """Specify the maximum length for spec decoding draft models."""
     quantization: Optional[QuantizationMethods] = None
     """Method used to quantize the weights. If `None`, we first check the
     `quantization_config` attribute in the model config file. If that is
diff --git a/vllm/lora/ops/triton_ops/lora_expand_op.py b/vllm/lora/ops/triton_ops/lora_expand_op.py
index 13ddaaf96..9feb9e462 100644
--- a/vllm/lora/ops/triton_ops/lora_expand_op.py
+++ b/vllm/lora/ops/triton_ops/lora_expand_op.py
@@ -153,7 +153,7 @@ def _lora_expand(
         lora_token_start_loc (torch.Tensor): A cumulative sum of
             num_tokens_per_lora. lora_token_start_loc[0] is always 0 so that
             lora_token_start_loc[i], along with num_tokens_per_lora[i]
-            identifies the the region in token_indices_sorted_by_lora_ids that
+            identifies the region in token_indices_sorted_by_lora_ids that
             LoRA lora_ids[i] should process.
         lora_ids (torch.Tensor): LoRA ids to process.
         no_lora_flag_cpu (torch.Tensor): A CPU tensor of size 1, that indicates
diff --git a/vllm/model_executor/layers/mamba/mamba_mixer2.py b/vllm/model_executor/layers/mamba/mamba_mixer2.py
index 1ea65e96d..bc6e6fcdd 100644
--- a/vllm/model_executor/layers/mamba/mamba_mixer2.py
+++ b/vllm/model_executor/layers/mamba/mamba_mixer2.py
@@ -142,7 +142,7 @@ def mamba_v2_sharded_weight_loader(
 ) -> LoaderFunction:
     """Create a weight loader for mamba v2. This ensures that the projections 
     are correctly sharded so that they can be split into x, B, C. It also 
-    ensures the the all the groups corresponding to a head shard is placed 
+    ensures that all the groups corresponding to a head shard is placed 
     together with it.
     """
 
diff --git a/vllm/model_executor/models/granite_speech.py b/vllm/model_executor/models/granite_speech.py
index 512ec5517..fd8fb48c5 100644
--- a/vllm/model_executor/models/granite_speech.py
+++ b/vllm/model_executor/models/granite_speech.py
@@ -21,7 +21,7 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-"""Inference-only IBM Granite speeech model."""
+"""Inference-only IBM Granite speech model."""
 import math
 from collections.abc import Iterable, Mapping
 from typing import Optional, TypedDict, Union
@@ -626,7 +626,7 @@ class GraniteSpeechForConditionalGeneration(
         audio_embed_sizes: torch.Tensor,
     ) -> torch.Tensor:
         """Calculate the input features mask, which will generally be used
-        to mask the the padded features for all entries in the batch except
+        to mask the padded features for all entries in the batch except
         for those with the most audio features.
 
         Args:
diff --git a/vllm/model_executor/models/phi4mm_audio.py b/vllm/model_executor/models/phi4mm_audio.py
index 609746b48..98cef7506 100644
--- a/vllm/model_executor/models/phi4mm_audio.py
+++ b/vllm/model_executor/models/phi4mm_audio.py
@@ -91,9 +91,9 @@ class ConformerEncoderLayer(nn.Module):
             if set to True, use GLULinear module,
              otherwise, used GLUPointWiseConv module.
               default to False.
-        attention_innner_dim: int, optional
+        attention_inner_dim: int, optional
             if equal to -1, attention dim for linears k/q/v is
-            equal to d_model. otherwise attention_innner_dim is used.
+            equal to d_model. otherwise attention_inner_dim is used.
             default -1.
         attention_glu_type: str, optional
             activation function for glu used in the multihead attention,
@@ -148,7 +148,7 @@ class ConformerEncoderLayer(nn.Module):
         conv_glu_type="sigmoid",
         bias_in_glu=True,
         linear_glu_in_convm=False,
-        attention_innner_dim=-1,
+        attention_inner_dim=-1,
         attention_glu_type="swish",
         activation_checkpointing="",
         export=False,
@@ -169,7 +169,7 @@ class ConformerEncoderLayer(nn.Module):
             n_head,
             d_model,
             dropout_rate,
-            attention_innner_dim,
+            attention_inner_dim,
             attention_glu_type,
             bias_in_glu,
             use_pt_scaled_dot_product_attention=
diff --git a/vllm/v1/request.py b/vllm/v1/request.py
index d2843b65a..d1cdd2c52 100644
--- a/vllm/v1/request.py
+++ b/vllm/v1/request.py
@@ -72,7 +72,7 @@ class Request:
             assert len(self.mm_inputs) == len(self.mm_hashes)
 
         # Read-only views
-        # Prevent directly appending to the these lists since
+        # Prevent directly appending to these lists since
         # they should also be updated simultaneously.
         self.output_token_ids = ConstantList(self._output_token_ids)
         self.all_token_ids = ConstantList(self._all_token_ids)
-- 
GitLab


From 07ad27121f7a24ce37f7f49d9d936936844bd058 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Thu, 15 May 2025 12:00:21 +0100
Subject: [PATCH 398/461] Update deprecated type hinting in `model_loader`
 (#18130)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 pyproject.toml                                |  4 +-
 .../model_loader/bitsandbytes_loader.py       | 25 +++++-----
 .../model_loader/default_loader.py            | 11 +++--
 .../model_loader/gguf_loader.py               |  6 +--
 vllm/model_executor/model_loader/neuron.py    | 10 ++--
 .../model_loader/neuronx_distributed.py       |  6 +--
 .../model_loader/runai_streamer_loader.py     |  7 +--
 .../model_loader/sharded_state_loader.py      | 13 ++---
 .../model_executor/model_loader/tensorizer.py |  7 +--
 .../model_loader/tensorizer_loader.py         |  4 +-
 vllm/model_executor/model_loader/utils.py     | 14 +++---
 .../model_loader/weight_utils.py              | 47 ++++++++++---------
 12 files changed, 80 insertions(+), 74 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index 9465f1e8f..0b803a26b 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -71,15 +71,15 @@ exclude = [
 "vllm/third_party/**" = ["ALL"]
 "vllm/version.py" = ["F401"]
 "vllm/_version.py" = ["ALL"]
-# Python 3.8 typing. TODO: Remove these excludes after v1.0.0
+# Python 3.8 typing - skip V0 code
 "vllm/attention/**/*.py" = ["UP006", "UP035"]
 "vllm/core/**/*.py" = ["UP006", "UP035"]
 "vllm/engine/**/*.py" = ["UP006", "UP035"]
 "vllm/executor/**/*.py" = ["UP006", "UP035"]
-"vllm/model_executor/model_loader/**/*.py" = ["UP006", "UP035"]
 "vllm/prompt_adapter/**/*.py" = ["UP006", "UP035"]
 "vllm/spec_decode/**/*.py" = ["UP006", "UP035"]
 "vllm/worker/**/*.py" = ["UP006", "UP035"]
+# Python 3.8 typing - skip utils for ROCm
 "vllm/utils.py" = ["UP006", "UP035"]
 
 [tool.ruff.lint]
diff --git a/vllm/model_executor/model_loader/bitsandbytes_loader.py b/vllm/model_executor/model_loader/bitsandbytes_loader.py
index 57189bfaf..47a7a06bb 100644
--- a/vllm/model_executor/model_loader/bitsandbytes_loader.py
+++ b/vllm/model_executor/model_loader/bitsandbytes_loader.py
@@ -6,7 +6,8 @@ import glob
 import itertools
 import math
 import os
-from typing import Any, Callable, Dict, Generator, List, Optional, Tuple
+from collections.abc import Generator
+from typing import Any, Callable, Optional
 
 import numpy as np
 import torch
@@ -49,21 +50,21 @@ class BitsAndBytesModelLoader(BaseModelLoader):
         super().__init__(load_config)
 
         # Save the module names without sharding.
-        self.unsharded_weights_modules: List[str] = []
+        self.unsharded_weights_modules: list[str] = []
         # Save the module names that are sharded by column.
-        self.column_sharded_weights_modules: List[str] = []
+        self.column_sharded_weights_modules: list[str] = []
         # Store all module names (from transformers) that support
         # BNB quantization.
-        self.target_modules: List[str] = []
+        self.target_modules: list[str] = []
         # mapping weight names from transformers to vllm.
         self.weight_mapper: Callable = lambda name: name
 
     def _get_weight_files(
         self,
         model_name_or_path: str,
-        allowed_patterns: List[str],
+        allowed_patterns: list[str],
         revision: Optional[str] = None,
-    ) -> Tuple[str, List[str], str]:
+    ) -> tuple[str, list[str], str]:
         """Retrieve weight files. Download the files if necessary.
 
         Return the weight files and the file pattern."""
@@ -95,7 +96,7 @@ class BitsAndBytesModelLoader(BaseModelLoader):
             f"No model weights found in: `{model_name_or_path}`")
 
     def _prepare_weights(self, model_name_or_path: str,
-                         revision: Optional[str]) -> Tuple[List[str], bool]:
+                         revision: Optional[str]) -> tuple[list[str], bool]:
         """Prepare weight files for the model."""
 
         allowed_patterns = ["*.safetensors", "*.bin", "*.pt"]
@@ -155,7 +156,7 @@ class BitsAndBytesModelLoader(BaseModelLoader):
         revision: Optional[str],
         pre_quant: bool,
         load_8bit: bool,
-    ) -> Tuple[Generator[Tuple[str, torch.Tensor], None, None], Dict[str,
+    ) -> tuple[Generator[tuple[str, torch.Tensor], None, None], dict[str,
                                                                      Any]]:
         """Get an iterator to the model weights with bitsandbytes quantization,
         as well as the quantization state dictionary."""
@@ -175,7 +176,7 @@ class BitsAndBytesModelLoader(BaseModelLoader):
         hf_weights_files, use_safetensors = self._prepare_weights(
             model_name_or_path, revision)
 
-        quant_state_dict: Dict[str, Any] = {}
+        quant_state_dict: dict[str, Any] = {}
 
         if pre_quant:
             if load_8bit:
@@ -257,7 +258,7 @@ class BitsAndBytesModelLoader(BaseModelLoader):
 
         # Closure to parse quant_state for each prequant weight
         def _parse_quant_state(param_name: str,
-                               temp_state_dict: Dict) -> QuantState:
+                               temp_state_dict: dict) -> QuantState:
             quant_state = {}
             for k in temp_state_dict:
                 if param_name + "." in k:
@@ -415,7 +416,7 @@ class BitsAndBytesModelLoader(BaseModelLoader):
 
         # Modules whose weights might have fused on disk
         # we need their output_sizes to make shard in flight correctly with TP
-        self.maybe_fused_weights_modules: Dict[str, List[int]] = {}
+        self.maybe_fused_weights_modules: dict[str, list[int]] = {}
         self._get_bnb_target_modules(model)
         for name, module in model.named_modules():
             # Some modules like `ReplicatedLinear` should not have their weights
@@ -480,7 +481,7 @@ class BitsAndBytesModelLoader(BaseModelLoader):
         torch.cuda.empty_cache()
 
         param_dict = dict(model.named_parameters())
-        stacked_quant_state_dict: Dict[str, Dict[int, Any]] = {}
+        stacked_quant_state_dict: dict[str, dict[int, Any]] = {}
         # TODO: Change this lazy import to normal import
         # after the checks are updated to run on a new version
         from vllm.model_executor.models.utils import is_pp_missing_parameter
diff --git a/vllm/model_executor/model_loader/default_loader.py b/vllm/model_executor/model_loader/default_loader.py
index c8bc4aeca..21eb7d8a7 100644
--- a/vllm/model_executor/model_loader/default_loader.py
+++ b/vllm/model_executor/model_loader/default_loader.py
@@ -3,7 +3,8 @@ import dataclasses
 import glob
 import os
 import time
-from typing import Generator, Iterable, List, Optional, Tuple, cast
+from collections.abc import Generator, Iterable
+from typing import Optional, cast
 
 import huggingface_hub
 import torch
@@ -92,7 +93,7 @@ class DefaultModelLoader(BaseModelLoader):
         revision: Optional[str],
         fall_back_to_pt: bool,
         allow_patterns_overrides: Optional[list[str]],
-    ) -> Tuple[str, List[str], bool]:
+    ) -> tuple[str, list[str], bool]:
         """Prepare weights for the model.
 
         If the model is not local, it will be downloaded."""
@@ -138,7 +139,7 @@ class DefaultModelLoader(BaseModelLoader):
         else:
             hf_folder = model_name_or_path
 
-        hf_weights_files: List[str] = []
+        hf_weights_files: list[str] = []
         for pattern in allow_patterns:
             hf_weights_files += glob.glob(os.path.join(hf_folder, pattern))
             if len(hf_weights_files) > 0:
@@ -173,7 +174,7 @@ class DefaultModelLoader(BaseModelLoader):
 
     def _get_weights_iterator(
             self, source: "Source"
-    ) -> Generator[Tuple[str, torch.Tensor], None, None]:
+    ) -> Generator[tuple[str, torch.Tensor], None, None]:
         """Get an iterator for the model weights based on the load format."""
         hf_folder, hf_weights_files, use_safetensors = self._prepare_weights(
             source.model_or_path, source.revision, source.fall_back_to_pt,
@@ -238,7 +239,7 @@ class DefaultModelLoader(BaseModelLoader):
         self,
         model_config: ModelConfig,
         model: nn.Module,
-    ) -> Generator[Tuple[str, torch.Tensor], None, None]:
+    ) -> Generator[tuple[str, torch.Tensor], None, None]:
         primary_weights = DefaultModelLoader.Source(
             model_config.model,
             model_config.revision,
diff --git a/vllm/model_executor/model_loader/gguf_loader.py b/vllm/model_executor/model_loader/gguf_loader.py
index ace1cd371..2766c9787 100644
--- a/vllm/model_executor/model_loader/gguf_loader.py
+++ b/vllm/model_executor/model_loader/gguf_loader.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 import os
-from typing import Dict, Generator, Tuple
+from collections.abc import Generator
 
 import gguf
 import torch
@@ -84,8 +84,8 @@ class GGUFModelLoader(BaseModelLoader):
         return gguf_to_hf_name_map
 
     def _get_weights_iterator(
-        self, model_name_or_path: str, gguf_to_hf_name_map: Dict[str, str]
-    ) -> Generator[Tuple[str, torch.Tensor], None, None]:
+        self, model_name_or_path: str, gguf_to_hf_name_map: dict[str, str]
+    ) -> Generator[tuple[str, torch.Tensor], None, None]:
         return gguf_quant_weights_iterator(model_name_or_path,
                                            gguf_to_hf_name_map)
 
diff --git a/vllm/model_executor/model_loader/neuron.py b/vllm/model_executor/model_loader/neuron.py
index e4a484837..e65d16cae 100644
--- a/vllm/model_executor/model_loader/neuron.py
+++ b/vllm/model_executor/model_loader/neuron.py
@@ -5,7 +5,7 @@ import ast
 import copy
 import importlib
 import os
-from typing import Dict, List, Optional, Tuple
+from typing import Optional
 
 import torch
 import torch.nn as nn
@@ -33,7 +33,7 @@ TORCH_DTYPE_TO_NEURON_AMP = {
 }
 
 # Models supported by Neuron.
-_NEURON_SUPPORTED_MODELS: Dict[str, Tuple[str, str, str]] = {
+_NEURON_SUPPORTED_MODELS: dict[str, tuple[str, str, str]] = {
     "LlamaForCausalLM": ("transformers_neuronx.llama.model",
                          "LlamaForSampling", "LlamaForCausalLM"),
     "MistralForCausalLM": ("transformers_neuronx.mistral.model",
@@ -146,7 +146,7 @@ class NeuronSpeculationCausalLM(nn.Module):
         self,
         logits: torch.Tensor,
         sampling_metadata: SamplingMetadata,
-    ) -> Optional[List[SamplerOutput]]:
+    ) -> Optional[list[SamplerOutput]]:
         batch_size, num_steps = logits.shape
         seq_ids = [
             seq_id for sg in sampling_metadata.seq_groups
@@ -188,7 +188,7 @@ def _get_model_architecture(config: PretrainedConfig) -> str:
         f"{list(_NEURON_SUPPORTED_MODELS.keys())}")
 
 
-def _get_buckets(env: str, default_value: List[int]) -> List[int]:
+def _get_buckets(env: str, default_value: list[int]) -> list[int]:
     env_value = os.getenv(env)
     if env_value is None:
         return default_value
@@ -464,7 +464,7 @@ def get_neuron_eagle_speculation_model(model_config: ModelConfig,
 
     draft_model.eval()
 
-    token_tree: Dict[int, List[int]] = ast.literal_eval(
+    token_tree: dict[int, list[int]] = ast.literal_eval(
         speculation_config.speculative_token_tree)
 
     speculation_model = EagleSpeculativeDecoder(draft_model.model,
diff --git a/vllm/model_executor/model_loader/neuronx_distributed.py b/vllm/model_executor/model_loader/neuronx_distributed.py
index f879c99ac..1c4f66061 100644
--- a/vllm/model_executor/model_loader/neuronx_distributed.py
+++ b/vllm/model_executor/model_loader/neuronx_distributed.py
@@ -9,7 +9,7 @@ import importlib
 import multiprocessing
 import os
 import shutil
-from typing import Dict, List, Optional, Tuple
+from typing import Optional
 
 import torch
 import torch.nn as nn
@@ -46,7 +46,7 @@ TORCH_DTYPE_TO_NEURON_AMP = {
 }
 
 # Models supported by Neuronx distributed for inference.
-_NEURON_SUPPORTED_MODELS: Dict[str, Tuple[str, str]] = {
+_NEURON_SUPPORTED_MODELS: dict[str, tuple[str, str]] = {
     "LlamaForCausalLM":
     ("neuronx_distributed_inference.models.llama.modeling_llama",
      "NeuronLlamaForCausalLM"),
@@ -365,7 +365,7 @@ class NeuronSpeculationCausalLM(nn.Module):
         self,
         logits: torch.Tensor,
         sampling_metadata: SamplingMetadata,
-    ) -> Optional[List[SamplerOutput]]:
+    ) -> Optional[list[SamplerOutput]]:
         batch_size, num_steps = logits.shape
         seq_ids = [
             seq_id for sg in sampling_metadata.seq_groups
diff --git a/vllm/model_executor/model_loader/runai_streamer_loader.py b/vllm/model_executor/model_loader/runai_streamer_loader.py
index 1fbb5ca56..a695ba03b 100644
--- a/vllm/model_executor/model_loader/runai_streamer_loader.py
+++ b/vllm/model_executor/model_loader/runai_streamer_loader.py
@@ -2,7 +2,8 @@
 # ruff: noqa: SIM117
 import glob
 import os
-from typing import Generator, List, Optional, Tuple
+from collections.abc import Generator
+from typing import Optional
 
 import torch
 from torch import nn
@@ -48,7 +49,7 @@ class RunaiModelStreamerLoader(BaseModelLoader):
                 os.environ["RUNAI_STREAMER_S3_ENDPOINT"] = aws_endpoint_url
 
     def _prepare_weights(self, model_name_or_path: str,
-                         revision: Optional[str]) -> List[str]:
+                         revision: Optional[str]) -> list[str]:
         """Prepare weights for the model.
 
         If the model is not local, it will be downloaded."""
@@ -87,7 +88,7 @@ class RunaiModelStreamerLoader(BaseModelLoader):
 
     def _get_weights_iterator(
             self, model_or_path: str,
-            revision: str) -> Generator[Tuple[str, torch.Tensor], None, None]:
+            revision: str) -> Generator[tuple[str, torch.Tensor], None, None]:
         """Get an iterator for the model weights based on the load format."""
         hf_weights_files = self._prepare_weights(model_or_path, revision)
         return runai_safetensors_weights_iterator(
diff --git a/vllm/model_executor/model_loader/sharded_state_loader.py b/vllm/model_executor/model_loader/sharded_state_loader.py
index 152a3d699..913bda7e0 100644
--- a/vllm/model_executor/model_loader/sharded_state_loader.py
+++ b/vllm/model_executor/model_loader/sharded_state_loader.py
@@ -3,7 +3,8 @@
 import collections
 import glob
 import os
-from typing import Any, Dict, Generator, List, Optional, Tuple
+from collections.abc import Generator
+from typing import Any, Optional
 
 import torch
 from torch import nn
@@ -48,12 +49,12 @@ class ShardedStateLoader(BaseModelLoader):
 
     @staticmethod
     def _filter_subtensors(
-        tensors: Dict[str, torch.Tensor], ) -> Dict[str, torch.Tensor]:
+        tensors: dict[str, torch.Tensor], ) -> dict[str, torch.Tensor]:
         """
         Filter out all tensors that share the same memory or a subset of the
         memory of another tensor.
         """
-        same_storage_groups: Dict[Any, List[Tuple[str, torch.Tensor]]] = (
+        same_storage_groups: dict[Any, list[tuple[str, torch.Tensor]]] = (
             collections.defaultdict(list))
         for key, tensor in tensors.items():
             if tensor.numel():
@@ -63,7 +64,7 @@ class ShardedStateLoader(BaseModelLoader):
         def get_end_ptr(tensor: torch.Tensor) -> int:
             return tensor.view(-1)[-1].data_ptr() + tensor.element_size()
 
-        result: Dict[str, torch.Tensor] = {}
+        result: dict[str, torch.Tensor] = {}
         for group in same_storage_groups.values():
             for k, t in group:
                 a, b = t.data_ptr(), get_end_ptr(t)
@@ -160,7 +161,7 @@ class ShardedStateLoader(BaseModelLoader):
         return model.eval()
 
     def iterate_over_files(
-            self, paths) -> Generator[Tuple[str, torch.Tensor], None, None]:
+            self, paths) -> Generator[tuple[str, torch.Tensor], None, None]:
         if self.runai_model_streamer:
             yield from runai_safetensors_weights_iterator(paths, True)
         else:
@@ -188,7 +189,7 @@ class ShardedStateLoader(BaseModelLoader):
         part_idx = 0
         total_size = 0
         state_dict = ShardedStateLoader._filter_subtensors(model.state_dict())
-        state_dict_part: Dict[str, torch.Tensor] = {}
+        state_dict_part: dict[str, torch.Tensor] = {}
         for key, tensor in state_dict.items():
             param_size = tensor.nelement() * tensor.element_size()
             if max_size is not None and total_size + param_size > max_size:
diff --git a/vllm/model_executor/model_loader/tensorizer.py b/vllm/model_executor/model_loader/tensorizer.py
index 117251ccf..0ff35b3a6 100644
--- a/vllm/model_executor/model_loader/tensorizer.py
+++ b/vllm/model_executor/model_loader/tensorizer.py
@@ -6,9 +6,10 @@ import io
 import os
 import re
 import time
+from collections.abc import Generator
 from dataclasses import dataclass
 from functools import partial
-from typing import BinaryIO, Generator, Optional, Tuple, Type, Union
+from typing import BinaryIO, Optional, Union
 
 import torch
 from torch import nn
@@ -67,7 +68,7 @@ class TensorizerConfig:
     s3_access_key_id: Optional[str] = None
     s3_secret_access_key: Optional[str] = None
     s3_endpoint: Optional[str] = None
-    model_class: Optional[Type[torch.nn.Module]] = None
+    model_class: Optional[type[torch.nn.Module]] = None
     hf_config: Optional[PretrainedConfig] = None
     dtype: Optional[Union[str, torch.dtype]] = None
     _is_sharded: bool = False
@@ -365,7 +366,7 @@ class TensorizerAgent:
 
 def tensorizer_weights_iterator(
     tensorizer_args: "TensorizerArgs"
-) -> Generator[Tuple[str, torch.Tensor], None, None]:
+) -> Generator[tuple[str, torch.Tensor], None, None]:
     logger.warning("Deserializing HuggingFace models is not optimized for "
                    "loading on vLLM, as tensorizer is forced to load to CPU. "
                    "Consider deserializing a vLLM model instead for faster "
diff --git a/vllm/model_executor/model_loader/tensorizer_loader.py b/vllm/model_executor/model_loader/tensorizer_loader.py
index 7cf3940ab..4107e741f 100644
--- a/vllm/model_executor/model_loader/tensorizer_loader.py
+++ b/vllm/model_executor/model_loader/tensorizer_loader.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # ruff: noqa: SIM117
 import copy
-from typing import Generator, Tuple
+from collections.abc import Generator
 
 import torch
 from torch import nn
@@ -36,7 +36,7 @@ class TensorizerLoader(BaseModelLoader):
         self.tensorizer_config.verify_with_parallel_config(parallel_config)
 
     def _get_weights_iterator(
-        self, ) -> Generator[Tuple[str, torch.Tensor], None, None]:
+        self, ) -> Generator[tuple[str, torch.Tensor], None, None]:
         tensorizer_args = self.tensorizer_config._construct_tensorizer_args()
         return tensorizer_weights_iterator(tensorizer_args)
 
diff --git a/vllm/model_executor/model_loader/utils.py b/vllm/model_executor/model_loader/utils.py
index ddc857aeb..68b1f1ad7 100644
--- a/vllm/model_executor/model_loader/utils.py
+++ b/vllm/model_executor/model_loader/utils.py
@@ -5,7 +5,7 @@ import inspect
 import warnings
 from contextlib import contextmanager
 from dataclasses import dataclass, field
-from typing import Dict, List, Optional, Tuple, Type
+from typing import Optional
 
 import torch
 import transformers
@@ -124,7 +124,7 @@ def device_loading_context(module: torch.nn.Module,
         yield module
         return
 
-    original_device_states: Dict[str, torch.device] = {}
+    original_device_states: dict[str, torch.device] = {}
 
     # Store original device states and move parameters to GPU if they're on CPU
     for name, p in module.named_parameters():
@@ -214,7 +214,7 @@ def resolve_transformers_arch(model_config: ModelConfig,
 
 
 def get_model_architecture(
-        model_config: ModelConfig) -> Tuple[Type[nn.Module], str]:
+        model_config: ModelConfig) -> tuple[type[nn.Module], str]:
     architectures = getattr(model_config.hf_config, "architectures", [])
 
     # Special handling for quantized Mixtral.
@@ -257,8 +257,8 @@ class ParamMapping:
     It creates a bidirectional mapping between packed parameters and their 
     constituent parts.
     """
-    packed_mapping: Dict[str, List[str]]
-    inverse_packed_mapping: Dict[str, Tuple[str,
+    packed_mapping: dict[str, list[str]]
+    inverse_packed_mapping: dict[str, tuple[str,
                                             int]] = field(default_factory=dict)
 
     def __post_init__(self):
@@ -273,7 +273,7 @@ class ParamMapping:
                 )
 
     def get_sub_modules(self,
-                        module_name: str) -> Optional[Tuple[str, List[str]]]:
+                        module_name: str) -> Optional[tuple[str, list[str]]]:
         for key, value in self.packed_mapping.items():
             if module_name.endswith(key):
                 return key, value
@@ -281,7 +281,7 @@ class ParamMapping:
 
 
 def configure_quant_config(quant_config: QuantizationConfig,
-                           model_class: Type[nn.Module]):
+                           model_class: type[nn.Module]):
     """
     Pass packed_modules_mapping by reference to quant_config so that
     quant_config can properly match fused modules
diff --git a/vllm/model_executor/model_loader/weight_utils.py b/vllm/model_executor/model_loader/weight_utils.py
index 8f9d80902..a1cf43328 100644
--- a/vllm/model_executor/model_loader/weight_utils.py
+++ b/vllm/model_executor/model_loader/weight_utils.py
@@ -8,8 +8,9 @@ import os
 import tempfile
 import time
 from collections import defaultdict
+from collections.abc import Generator
 from pathlib import Path
-from typing import Any, Callable, Dict, Generator, List, Optional, Tuple, Union
+from typing import Any, Callable, Optional, Union
 
 import filelock
 import gguf
@@ -221,7 +222,7 @@ def get_sparse_attention_config(
     model_config: ModelConfig,
     load_config: LoadConfig,
     sparse_attention_config_filename: str = "sparse_attention_config.json",
-) -> Dict[str, Any]:
+) -> dict[str, Any]:
     model_name_or_path = model_config.model
     is_local = os.path.isdir(model_name_or_path)
     if not is_local:
@@ -253,9 +254,9 @@ def get_sparse_attention_config(
 def download_weights_from_hf(
     model_name_or_path: str,
     cache_dir: Optional[str],
-    allow_patterns: List[str],
+    allow_patterns: list[str],
     revision: Optional[str] = None,
-    ignore_patterns: Optional[Union[str, List[str]]] = None,
+    ignore_patterns: Optional[Union[str, list[str]]] = None,
 ) -> str:
     """Download model weights from Hugging Face Hub.
 
@@ -263,11 +264,11 @@ def download_weights_from_hf(
         model_name_or_path (str): The model name or path.
         cache_dir (Optional[str]): The cache directory to store the model
             weights. If None, will use HF defaults.
-        allow_patterns (List[str]): The allowed patterns for the
+        allow_patterns (list[str]): The allowed patterns for the
             weight files. Files matched by any of the patterns will be
             downloaded.
         revision (Optional[str]): The revision of the model.
-        ignore_patterns (Optional[Union[str, List[str]]]): The patterns to
+        ignore_patterns (Optional[Union[str, list[str]]]): The patterns to
             filter out the weight files. Files matched by any of the patterns
             will be ignored.
 
@@ -347,9 +348,9 @@ def download_safetensors_index_file_from_hf(
 # Passing both of these to the weight loader functionality breaks.
 # So, we use the index_file to
 # look up which safetensors files should be used.
-def filter_duplicate_safetensors_files(hf_weights_files: List[str],
+def filter_duplicate_safetensors_files(hf_weights_files: list[str],
                                        hf_folder: str,
-                                       index_file: str) -> List[str]:
+                                       index_file: str) -> list[str]:
     # model.safetensors.index.json is a mapping from keys in the
     # torch state_dict to safetensors file holding that weight.
     index_file_name = os.path.join(hf_folder, index_file)
@@ -372,7 +373,7 @@ def filter_duplicate_safetensors_files(hf_weights_files: List[str],
 
 
 def filter_files_not_needed_for_inference(
-        hf_weights_files: List[str]) -> List[str]:
+        hf_weights_files: list[str]) -> list[str]:
     """
     Exclude files that are not needed for inference.
 
@@ -408,9 +409,9 @@ def np_cache_weights_iterator(
     model_name_or_path: str,
     cache_dir: Optional[str],
     hf_folder: str,
-    hf_weights_files: List[str],
+    hf_weights_files: list[str],
     use_tqdm_on_load: bool,
-) -> Generator[Tuple[str, torch.Tensor], None, None]:
+) -> Generator[tuple[str, torch.Tensor], None, None]:
     """Iterate over the weights in the model np files.
 
     Will dump the model weights to numpy files if they are not already dumped.
@@ -424,7 +425,7 @@ def np_cache_weights_iterator(
     # dumping the same model weights to numpy at the same time.
     with get_lock(model_name_or_path, cache_dir):
         if not os.path.exists(weight_names_file):
-            weight_names: List[str] = []
+            weight_names: list[str] = []
             for bin_file in tqdm(
                     hf_weights_files,
                     desc="Loading np_cache checkpoint shards",
@@ -453,9 +454,9 @@ def np_cache_weights_iterator(
 
 
 def safetensors_weights_iterator(
-    hf_weights_files: List[str],
+    hf_weights_files: list[str],
     use_tqdm_on_load: bool,
-) -> Generator[Tuple[str, torch.Tensor], None, None]:
+) -> Generator[tuple[str, torch.Tensor], None, None]:
     """Iterate over the weights in the model safetensor files."""
     for st_file in tqdm(
             hf_weights_files,
@@ -470,9 +471,9 @@ def safetensors_weights_iterator(
 
 
 def runai_safetensors_weights_iterator(
-    hf_weights_files: List[str],
+    hf_weights_files: list[str],
     use_tqdm_on_load: bool,
-) -> Generator[Tuple[str, torch.Tensor], None, None]:
+) -> Generator[tuple[str, torch.Tensor], None, None]:
     """Iterate over the weights in the model safetensor files."""
     with SafetensorsStreamer() as streamer:
         for st_file in tqdm(
@@ -486,9 +487,9 @@ def runai_safetensors_weights_iterator(
 
 
 def fastsafetensors_weights_iterator(
-    hf_weights_files: List[str],
+    hf_weights_files: list[str],
     use_tqdm_on_load: bool,
-) -> Generator[Tuple[str, torch.Tensor], None, None]:
+) -> Generator[tuple[str, torch.Tensor], None, None]:
     """Iterate over the weights in the model safetensor files
     using fastsafetensor library."""
     if torch.distributed.is_initialized():
@@ -525,10 +526,10 @@ def fastsafetensors_weights_iterator(
 
 
 def pt_weights_iterator(
-    hf_weights_files: List[str],
+    hf_weights_files: list[str],
     use_tqdm_on_load: bool,
     pt_load_map_location: Union[str, dict[str, str]] = "cpu",
-) -> Generator[Tuple[str, torch.Tensor], None, None]:
+) -> Generator[tuple[str, torch.Tensor], None, None]:
     """Iterate over the weights in the model bin/pt files."""
     for bin_file in tqdm(
             hf_weights_files,
@@ -544,7 +545,7 @@ def pt_weights_iterator(
 
 
 def get_gguf_extra_tensor_names(
-        gguf_file: str, gguf_to_hf_name_map: Dict[str, str]) -> List[str]:
+        gguf_file: str, gguf_to_hf_name_map: dict[str, str]) -> list[str]:
     reader = gguf.GGUFReader(gguf_file)
     expected_gguf_keys = set(gguf_to_hf_name_map.keys())
     exact_gguf_keys = set([tensor.name for tensor in reader.tensors])
@@ -553,8 +554,8 @@ def get_gguf_extra_tensor_names(
 
 
 def gguf_quant_weights_iterator(
-    gguf_file: str, gguf_to_hf_name_map: Dict[str, str]
-) -> Generator[Tuple[str, torch.Tensor], None, None]:
+    gguf_file: str, gguf_to_hf_name_map: dict[str, str]
+) -> Generator[tuple[str, torch.Tensor], None, None]:
     """
     Iterate over the quant weights in the model gguf files and convert
     them to torch tensors
-- 
GitLab


From 451da4bcbdc2dcabf3e319b4a82b72674c33f4de Mon Sep 17 00:00:00 2001
From: hustxiayang <yangxiast@gmail.com>
Date: Thu, 15 May 2025 07:01:49 -0400
Subject: [PATCH 399/461] add tools into TokenizeChatRequest (#18187)

Signed-off-by: yangxia <yangxiast@gmail.com>
---
 tests/entrypoints/openai/test_tokenization.py | 77 +++++++++++++++++++
 vllm/entrypoints/openai/protocol.py           |  4 +
 .../openai/serving_tokenization.py            |  3 +
 3 files changed, 84 insertions(+)

diff --git a/tests/entrypoints/openai/test_tokenization.py b/tests/entrypoints/openai/test_tokenization.py
index 663b72242..9773f3e45 100644
--- a/tests/entrypoints/openai/test_tokenization.py
+++ b/tests/entrypoints/openai/test_tokenization.py
@@ -145,6 +145,83 @@ async def test_tokenize_chat(
                 }
 
 
+@pytest.mark.asyncio
+@pytest.mark.parametrize(
+    "model_name,tokenizer_name",
+    [(MODEL_NAME, MODEL_NAME), ("zephyr-lora2", "zephyr-lora2")],
+    indirect=["tokenizer_name"],
+)
+async def test_tokenize_chat_with_tools(
+    server: RemoteOpenAIServer,
+    model_name: str,
+    tokenizer_name: str,
+):
+    tokenizer = get_tokenizer(tokenizer_name=tokenizer_name,
+                              tokenizer_mode="fast")
+
+    for add_generation in [False, True]:
+        for add_special in [False, True]:
+            conversation = [{
+                "role":
+                "user",
+                "content":
+                "What's the weather like in Paris today?",
+            }]
+
+            tools = [{
+                "type": "function",
+                "function": {
+                    "name": "get_weather",
+                    "parameters": {
+                        "type": "object",
+                        "properties": {
+                            "location": {
+                                "type": "string"
+                            }
+                        },
+                    },
+                },
+            }]
+
+            for continue_final in [False, True]:
+                if add_generation and continue_final:
+                    continue
+                if continue_final:
+                    conversation.append({
+                        "role": "assistant",
+                        "content": "Sure,"
+                    })
+
+                prompt = tokenizer.apply_chat_template(
+                    add_generation_prompt=add_generation,
+                    continue_final_message=continue_final,
+                    conversation=conversation,
+                    tools=tools,
+                    tokenize=False,
+                )
+                tokens = tokenizer.encode(prompt,
+                                          add_special_tokens=add_special)
+
+                response = requests.post(
+                    server.url_for("tokenize"),
+                    json={
+                        "add_generation_prompt": add_generation,
+                        "continue_final_message": continue_final,
+                        "add_special_tokens": add_special,
+                        "messages": conversation,
+                        "model": model_name,
+                        "tools": tools,
+                    },
+                )
+                response.raise_for_status()
+
+                assert response.json() == {
+                    "tokens": tokens,
+                    "count": len(tokens),
+                    "max_model_len": 8192,
+                }
+
+
 @pytest.mark.asyncio
 @pytest.mark.parametrize(
     "model_name,tokenizer_name",
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
index 8ac653487..cd6ee3670 100644
--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -1593,6 +1593,10 @@ class TokenizeChatRequest(OpenAIBaseModel):
         default=None,
         description=("Additional kwargs to pass to the HF processor."),
     )
+    tools: Optional[list[ChatCompletionToolsParam]] = Field(
+        default=None,
+        description=("A list of tools the model may call."),
+    )
 
     @model_validator(mode="before")
     @classmethod
diff --git a/vllm/entrypoints/openai/serving_tokenization.py b/vllm/entrypoints/openai/serving_tokenization.py
index 5f4678cb0..349e0ac9e 100644
--- a/vllm/entrypoints/openai/serving_tokenization.py
+++ b/vllm/entrypoints/openai/serving_tokenization.py
@@ -65,6 +65,8 @@ class OpenAIServingTokenization(OpenAIServing):
             tokenizer = await self.engine_client.get_tokenizer(lora_request)
 
             if isinstance(request, TokenizeChatRequest):
+                tool_dicts = (None if request.tools is None else
+                              [tool.model_dump() for tool in request.tools])
                 (
                     _,
                     request_prompts,
@@ -73,6 +75,7 @@ class OpenAIServingTokenization(OpenAIServing):
                     request,
                     tokenizer,
                     request.messages,
+                    tool_dicts=tool_dicts,
                     chat_template=request.chat_template or self.chat_template,
                     chat_template_content_format=self.
                     chat_template_content_format,
-- 
GitLab


From 01c22335baa03dbbc3ae662c76a089ff1c5b5742 Mon Sep 17 00:00:00 2001
From: Thomas Parnell <tpa@zurich.ibm.com>
Date: Thu, 15 May 2025 15:39:00 +0200
Subject: [PATCH 400/461] [Kernel] [V1] Fix performance regression for triton
 unified attention (#18161)

Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>
Co-authored-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>
---
 .../attention/ops/triton_unified_attention.py |  4 ++--
 vllm/v1/attention/backends/triton_attn.py     | 19 ++++++++++++++++---
 2 files changed, 18 insertions(+), 5 deletions(-)

diff --git a/vllm/attention/ops/triton_unified_attention.py b/vllm/attention/ops/triton_unified_attention.py
index f08000a75..241e84ca6 100644
--- a/vllm/attention/ops/triton_unified_attention.py
+++ b/vllm/attention/ops/triton_unified_attention.py
@@ -56,11 +56,11 @@ def kernel_unified_attention_2d(
     stride_k_cache_0: tl.int64,  # int
     stride_k_cache_1: tl.int64,  # int
     stride_k_cache_2: tl.int64,  # int
-    stride_k_cache_3: tl.int64,  # int
+    stride_k_cache_3: tl.constexpr,  # int
     stride_v_cache_0: tl.int64,  # int
     stride_v_cache_1: tl.int64,  # int
     stride_v_cache_2: tl.int64,  # int
-    stride_v_cache_3: tl.int64,  # int
+    stride_v_cache_3: tl.constexpr,  # int
     query_start_len_ptr,  # [num_seqs+1]
     BLOCK_Q: tl.constexpr,  # int
     num_seqs: tl.int32,
diff --git a/vllm/v1/attention/backends/triton_attn.py b/vllm/v1/attention/backends/triton_attn.py
index c4922a716..908bf1274 100644
--- a/vllm/v1/attention/backends/triton_attn.py
+++ b/vllm/v1/attention/backends/triton_attn.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 """Attention layer with PagedAttention and Triton prefix prefill."""
-from typing import Any, Optional
+from typing import TYPE_CHECKING, Any, Optional
 
 import torch
 
@@ -12,10 +12,23 @@ from vllm.logger import init_logger
 from vllm.platforms import current_platform
 from vllm.v1.attention.backends.flash_attn import (
     FlashAttentionMetadata, FlashAttentionMetadataBuilder)
+from vllm.v1.kv_cache_interface import AttentionSpec
+from vllm.v1.worker.block_table import BlockTable
+
+if TYPE_CHECKING:
+    from vllm.v1.worker.gpu_model_runner import GPUModelRunner
 
 logger = init_logger(__name__)
 
 
+class TritonAttentionMetadataBuilder(FlashAttentionMetadataBuilder):
+
+    def __init__(self, runner: "GPUModelRunner", kv_cache_spec: AttentionSpec,
+                 block_table: BlockTable):
+        super().__init__(runner, kv_cache_spec, block_table)
+        self.aot_schedule = False
+
+
 class TritonAttentionBackend(AttentionBackend):
 
     accept_output_buffer: bool = True
@@ -52,8 +65,8 @@ class TritonAttentionBackend(AttentionBackend):
         return False
 
     @staticmethod
-    def get_builder_cls() -> type["FlashAttentionMetadataBuilder"]:
-        return FlashAttentionMetadataBuilder
+    def get_builder_cls() -> type["TritonAttentionMetadataBuilder"]:
+        return TritonAttentionMetadataBuilder
 
 
 class TritonAttentionImpl(AttentionImpl):
-- 
GitLab


From 566ec04c3d3fb8e8b0876f04cd3be036d1f8d3ac Mon Sep 17 00:00:00 2001
From: Alexei-V-Ivanov-AMD
 <156011006+Alexei-V-Ivanov-AMD@users.noreply.github.com>
Date: Thu, 15 May 2025 10:49:23 -0500
Subject: [PATCH 401/461] Adding "Basic Models Test" and "Multi-Modal Models
 Test (Extended) 3" in AMD Pipeline (#18106)

Signed-off-by: Alexei V. Ivanov <alexei.ivanov@amd.com>
Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>
---
 .buildkite/scripts/hardware_ci/run-amd-test.sh | 8 ++++++++
 .buildkite/test-pipeline.yaml                  | 6 +++---
 requirements/rocm-test.txt                     | 6 ++++++
 tests/models/test_transformers.py              | 8 ++++++++
 4 files changed, 25 insertions(+), 3 deletions(-)

diff --git a/.buildkite/scripts/hardware_ci/run-amd-test.sh b/.buildkite/scripts/hardware_ci/run-amd-test.sh
index 97dcc4231..bbc896ec6 100755
--- a/.buildkite/scripts/hardware_ci/run-amd-test.sh
+++ b/.buildkite/scripts/hardware_ci/run-amd-test.sh
@@ -82,6 +82,14 @@ if [[ $commands == *"pytest -v -s basic_correctness/test_basic_correctness.py"*
   commands=${commands//"pytest -v -s basic_correctness/test_basic_correctness.py"/"VLLM_USE_TRITON_FLASH_ATTN=0 pytest -v -s basic_correctness/test_basic_correctness.py"}
 fi
 
+if [[ $commands == *"pytest -v -s models/test_registry.py"* ]]; then
+  commands=${commands//"pytest -v -s models/test_registry.py"/"pytest -v -s models/test_registry.py -k 'not BambaForCausalLM and not GritLM and not Mamba2ForCausalLM and not Zamba2ForCausalLM'"}
+fi
+
+if [[ $commands == *"VLLM_USE_V1=0 pytest -v -s models/test_initialization.py -k 'not llama4 and not plamo2'"* ]]; then
+  commands=${commands//"VLLM_USE_V1=0 pytest -v -s models/test_initialization.py -k 'not llama4 and not plamo2'"/"VLLM_USE_V1=0 pytest -v -s models/test_initialization.py -k 'not llama4 and not plamo2 and not BambaForCausalLM and not Gemma2ForCausalLM and not Grok1ModelForCausalLM and not Zamba2ForCausalLM and not Gemma2Model and not GritLM'"}
+fi
+
 if [[ $commands == *"pytest -v -s compile/test_basic_correctness.py"* ]]; then
   commands=${commands//"pytest -v -s compile/test_basic_correctness.py"/"VLLM_USE_TRITON_FLASH_ATTN=0 pytest -v -s compile/test_basic_correctness.py"}
 fi
diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 1eb3e1f4c..1459156f6 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -455,7 +455,7 @@ steps:
 #####  models test  #####
 
 - label: Basic Models Test # 24min
-  mirror_hardwares: [amdexperimental]
+  mirror_hardwares: [amdexperimental, amdproduction]
   torch_nightly: true
   source_file_dependencies:
   - vllm/
@@ -527,7 +527,7 @@ steps:
     - pytest -v -s models/multimodal/generation/test_common.py -m 'split(group=0) and not core_model'
 
 - label: Multi-Modal Models Test (Extended) 3
-  mirror_hardwares: [amdexperimental]
+  mirror_hardwares: [amdexperimental, amdproduction]
   optional: true
   source_file_dependencies:
   - vllm/
@@ -537,7 +537,7 @@ steps:
     - pytest -v -s models/multimodal/generation/test_common.py -m 'split(group=1) and not core_model'
 
 - label: Quantized Models Test
-  mirror_hardwares: [amdexperimental]
+  mirror_hardwares: [amdexperimental, amdproduction]
   source_file_dependencies:
   - vllm/model_executor/layers/quantization
   - tests/models/quantization
diff --git a/requirements/rocm-test.txt b/requirements/rocm-test.txt
index abd4212c6..25f950a99 100644
--- a/requirements/rocm-test.txt
+++ b/requirements/rocm-test.txt
@@ -22,4 +22,10 @@ decord==0.6.0
 #sentence-transformers # required by entrypoints/openai/test_score.py
 sentence-transformers==3.4.1
 
+# Basic Models Test
+matplotlib==3.10.3
+
+# Multi-Modal Models Test (Extended) 3
+blobfile==3.0.0
+
 
diff --git a/tests/models/test_transformers.py b/tests/models/test_transformers.py
index 6da488897..6e38c4c7c 100644
--- a/tests/models/test_transformers.py
+++ b/tests/models/test_transformers.py
@@ -2,6 +2,8 @@
 """Test the functionality of the Transformers backend."""
 import pytest
 
+from vllm.platforms import current_platform
+
 from ..conftest import HfRunner, VllmRunner
 from ..utils import multi_gpu_test
 from .utils import check_logprobs_close
@@ -33,6 +35,9 @@ def check_implementation(
     )
 
 
+@pytest.mark.skipif(
+    current_platform.is_rocm(),
+    reason="Llama-3.2-1B-Instruct, Ilama-3.2-1B produce memory access fault.")
 @pytest.mark.parametrize(
     "model,model_impl",
     [
@@ -64,6 +69,9 @@ def test_distributed(
                          "meta-llama/Llama-3.2-1B-Instruct", **kwargs)
 
 
+@pytest.mark.skipif(
+    current_platform.is_rocm(),
+    reason="bitsandbytes quantization is currently not supported in rocm.")
 @pytest.mark.parametrize("model, quantization_kwargs", [
     (
         "meta-llama/Llama-3.2-1B-Instruct",
-- 
GitLab


From 51ff154639a31973e6a33fa6208c2b50a88d62e2 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Thu, 15 May 2025 16:57:49 +0100
Subject: [PATCH 402/461] Improve examples rendering in docs and GitHub
 (#18203)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .../disaggregated-prefill-v1/README.md         |  9 +++++++++
 .../openai_batch.md => openai_batch/README.md} | 18 +++++++++---------
 .../openai_example_batch.jsonl                 |  0
 .../disaggregated_serving/README.md            |  8 ++++++++
 .../disagg_proxy_demo.py                       |  2 +-
 .../{ => disaggregated_serving}/kv_events.sh   |  0
 .../opentelemetry/{Otel.md => README.md}       |  0
 7 files changed, 27 insertions(+), 10 deletions(-)
 create mode 100644 examples/offline_inference/disaggregated-prefill-v1/README.md
 rename examples/offline_inference/{openai/openai_batch.md => openai_batch/README.md} (94%)
 rename examples/offline_inference/{openai => openai_batch}/openai_example_batch.jsonl (100%)
 create mode 100644 examples/online_serving/disaggregated_serving/README.md
 rename examples/online_serving/{disagg_examples => disaggregated_serving}/disagg_proxy_demo.py (99%)
 rename examples/online_serving/{ => disaggregated_serving}/kv_events.sh (100%)
 rename examples/online_serving/opentelemetry/{Otel.md => README.md} (100%)

diff --git a/examples/offline_inference/disaggregated-prefill-v1/README.md b/examples/offline_inference/disaggregated-prefill-v1/README.md
new file mode 100644
index 000000000..f708eb253
--- /dev/null
+++ b/examples/offline_inference/disaggregated-prefill-v1/README.md
@@ -0,0 +1,9 @@
+# Disaggregated Prefill V1
+
+This example contains scripts that demonstrate disaggregated prefill in the offline setting of vLLM.
+
+## Files
+
+- `run.sh` - A helper script that will run `prefill_example.py` and `decode_example.py` sequentially.
+- `prefill_example.py` - A script which performs prefill only, saving the KV state to the `local_storage` directory and the prompts to `output.txt`.
+- `decode_example.py` - A script which performs decode only, loading the KV state from the `local_storage` directory and the prompts from `output.txt`.
diff --git a/examples/offline_inference/openai/openai_batch.md b/examples/offline_inference/openai_batch/README.md
similarity index 94%
rename from examples/offline_inference/openai/openai_batch.md
rename to examples/offline_inference/openai_batch/README.md
index d271573aa..42a19f71e 100644
--- a/examples/offline_inference/openai/openai_batch.md
+++ b/examples/offline_inference/openai_batch/README.md
@@ -8,7 +8,7 @@ This is a guide to performing batch inference using the OpenAI batch file format
 
 The OpenAI batch file format consists of a series of json objects on new lines.
 
-[See here for an example file.](https://github.com/vllm-project/vllm/blob/main/examples/offline_inference/openai/openai_example_batch.jsonl)
+[See here for an example file.](https://github.com/vllm-project/vllm/blob/main/examples/offline_inference/openai_batch/openai_example_batch.jsonl)
 
 Each line represents a separate request. See the [OpenAI package reference](https://platform.openai.com/docs/api-reference/batch/requestInput) for more details.
 
@@ -30,13 +30,13 @@ We currently support `/v1/chat/completions`, `/v1/embeddings`, and `/v1/score` e
 To follow along with this example, you can download the example batch, or create your own batch file in your working directory.
 
 ```console
-wget https://raw.githubusercontent.com/vllm-project/vllm/main/examples/offline_inference/openai/openai_example_batch.jsonl
+wget https://raw.githubusercontent.com/vllm-project/vllm/main/examples/offline_inference/openai_batch/openai_example_batch.jsonl
 ```
 
 Once you've created your batch file it should look like this
 
 ```console
-$ cat offline_inference/openai/openai_example_batch.jsonl
+$ cat offline_inference/openai_batch/openai_example_batch.jsonl
 {"custom_id": "request-1", "method": "POST", "url": "/v1/chat/completions", "body": {"model": "meta-llama/Meta-Llama-3-8B-Instruct", "messages": [{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "Hello world!"}],"max_completion_tokens": 1000}}
 {"custom_id": "request-2", "method": "POST", "url": "/v1/chat/completions", "body": {"model": "meta-llama/Meta-Llama-3-8B-Instruct", "messages": [{"role": "system", "content": "You are an unhelpful assistant."},{"role": "user", "content": "Hello world!"}],"max_completion_tokens": 1000}}
 ```
@@ -48,7 +48,7 @@ The batch running tool is designed to be used from the command line.
 You can run the batch with the following command, which will write its results to a file called `results.jsonl`
 
 ```console
-python -m vllm.entrypoints.openai.run_batch -i offline_inference/openai/openai_example_batch.jsonl -o results.jsonl --model meta-llama/Meta-Llama-3-8B-Instruct
+python -m vllm.entrypoints.openai.run_batch -i offline_inference/openai_batch/openai_example_batch.jsonl -o results.jsonl --model meta-llama/Meta-Llama-3-8B-Instruct
 ```
 
 ### Step 3: Check your results
@@ -65,10 +65,10 @@ $ cat results.jsonl
 
 The batch runner supports remote input and output urls that are accessible via http/https.
 
-For example, to run against our example input file located at `https://raw.githubusercontent.com/vllm-project/vllm/main/examples/offline_inference/openai/openai_example_batch.jsonl`, you can run
+For example, to run against our example input file located at `https://raw.githubusercontent.com/vllm-project/vllm/main/examples/offline_inference/openai_batch/openai_example_batch.jsonl`, you can run
 
 ```console
-python -m vllm.entrypoints.openai.run_batch -i https://raw.githubusercontent.com/vllm-project/vllm/main/examples/offline_inference/openai/openai_example_batch.jsonl -o results.jsonl --model meta-llama/Meta-Llama-3-8B-Instruct
+python -m vllm.entrypoints.openai.run_batch -i https://raw.githubusercontent.com/vllm-project/vllm/main/examples/offline_inference/openai_batch/openai_example_batch.jsonl -o results.jsonl --model meta-llama/Meta-Llama-3-8B-Instruct
 ```
 
 ## Example 3: Integrating with AWS S3
@@ -89,13 +89,13 @@ To integrate with cloud blob storage, we recommend using presigned urls.
 To follow along with this example, you can download the example batch, or create your own batch file in your working directory.
 
 ```console
-wget https://raw.githubusercontent.com/vllm-project/vllm/main/examples/offline_inference/openai/openai_example_batch.jsonl
+wget https://raw.githubusercontent.com/vllm-project/vllm/main/examples/offline_inference/openai_batch/openai_example_batch.jsonl
 ```
 
 Once you've created your batch file it should look like this
 
 ```console
-$ cat offline_inference/openai/openai_example_batch.jsonl
+$ cat offline_inference/openai_batch/openai_example_batch.jsonl
 {"custom_id": "request-1", "method": "POST", "url": "/v1/chat/completions", "body": {"model": "meta-llama/Meta-Llama-3-8B-Instruct", "messages": [{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "Hello world!"}],"max_completion_tokens": 1000}}
 {"custom_id": "request-2", "method": "POST", "url": "/v1/chat/completions", "body": {"model": "meta-llama/Meta-Llama-3-8B-Instruct", "messages": [{"role": "system", "content": "You are an unhelpful assistant."},{"role": "user", "content": "Hello world!"}],"max_completion_tokens": 1000}}
 ```
@@ -103,7 +103,7 @@ $ cat offline_inference/openai/openai_example_batch.jsonl
 Now upload your batch file to your S3 bucket.
 
 ```console
-aws s3 cp offline_inference/openai/openai_example_batch.jsonl s3://MY_BUCKET/MY_INPUT_FILE.jsonl
+aws s3 cp offline_inference/openai_batch/openai_example_batch.jsonl s3://MY_BUCKET/MY_INPUT_FILE.jsonl
 ```
 
 ### Step 2: Generate your presigned urls
diff --git a/examples/offline_inference/openai/openai_example_batch.jsonl b/examples/offline_inference/openai_batch/openai_example_batch.jsonl
similarity index 100%
rename from examples/offline_inference/openai/openai_example_batch.jsonl
rename to examples/offline_inference/openai_batch/openai_example_batch.jsonl
diff --git a/examples/online_serving/disaggregated_serving/README.md b/examples/online_serving/disaggregated_serving/README.md
new file mode 100644
index 000000000..090afd751
--- /dev/null
+++ b/examples/online_serving/disaggregated_serving/README.md
@@ -0,0 +1,8 @@
+# Disaggregated Serving
+
+This example contains scripts that demonstrate the disaggregated serving features of vLLM.
+
+## Files
+
+- `disagg_proxy_demo.py` - Demonstrates XpYd (X prefill instances, Y decode instances).
+- `kv_events.sh` - Demonstrates KV cache event publishing.
diff --git a/examples/online_serving/disagg_examples/disagg_proxy_demo.py b/examples/online_serving/disaggregated_serving/disagg_proxy_demo.py
similarity index 99%
rename from examples/online_serving/disagg_examples/disagg_proxy_demo.py
rename to examples/online_serving/disaggregated_serving/disagg_proxy_demo.py
index a701636f3..1bf4d50e2 100644
--- a/examples/online_serving/disagg_examples/disagg_proxy_demo.py
+++ b/examples/online_serving/disaggregated_serving/disagg_proxy_demo.py
@@ -4,7 +4,7 @@ This file provides a disaggregated prefilling proxy demo to demonstrate an
 example usage of XpYd disaggregated prefilling.
 We can launch multiple vllm instances (2 for prefill and 2 for decode), and
 launch this proxy demo through:
-  python3 examples/online_serving/disagg_examples/disagg_proxy_demo.py  \
+  python3 examples/online_serving/disaggregated_serving/disagg_proxy_demo.py  \
        --model $model_name  \
        --prefill localhost:8100 localhost:8101   \
        --decode localhost:8200 localhost:8201   \
diff --git a/examples/online_serving/kv_events.sh b/examples/online_serving/disaggregated_serving/kv_events.sh
similarity index 100%
rename from examples/online_serving/kv_events.sh
rename to examples/online_serving/disaggregated_serving/kv_events.sh
diff --git a/examples/online_serving/opentelemetry/Otel.md b/examples/online_serving/opentelemetry/README.md
similarity index 100%
rename from examples/online_serving/opentelemetry/Otel.md
rename to examples/online_serving/opentelemetry/README.md
-- 
GitLab


From 2aa5470ac586f1603eb9d9b30d6c41ba3b5b9cd4 Mon Sep 17 00:00:00 2001
From: Sebastian Schoennenbeck <sebastian.schoennenbeck@comma-soft.com>
Date: Thu, 15 May 2025 18:00:21 +0200
Subject: [PATCH 403/461] [Frontend] Fix chat template content format detection
 (#18190)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Sebastian Schönnenbeck <sebastian.schoennenbeck@comma-soft.com>
---
 vllm/entrypoints/chat_utils.py | 7 +++----
 1 file changed, 3 insertions(+), 4 deletions(-)

diff --git a/vllm/entrypoints/chat_utils.py b/vllm/entrypoints/chat_utils.py
index 6f5514a6f..adfacf2b4 100644
--- a/vllm/entrypoints/chat_utils.py
+++ b/vllm/entrypoints/chat_utils.py
@@ -387,7 +387,6 @@ def resolve_hf_chat_template(
 def _resolve_chat_template_content_format(
     chat_template: Optional[str],
     tools: Optional[list[dict[str, Any]]],
-    given_format: ChatTemplateContentFormatOption,
     tokenizer: AnyTokenizer,
     *,
     model_config: ModelConfig,
@@ -408,7 +407,7 @@ def _resolve_chat_template_content_format(
     detected_format = ("string" if jinja_text is None else
                        _detect_content_format(jinja_text, default="string"))
 
-    return detected_format if given_format == "auto" else given_format
+    return detected_format
 
 
 @lru_cache
@@ -451,7 +450,6 @@ def resolve_chat_template_content_format(
     detected_format = _resolve_chat_template_content_format(
         chat_template,
         tools,
-        given_format,
         tokenizer,
         model_config=model_config,
     )
@@ -462,7 +460,8 @@ def resolve_chat_template_content_format(
         detected_format=detected_format,
     )
 
-    return detected_format
+    return detected_format if given_format == "auto" else given_format
+
 
 
 ModalityStr = Literal["image", "audio", "video", "image_embeds"]
-- 
GitLab


From fadb8d5c2df1c24d891aeccfb0b11de6e03e9f27 Mon Sep 17 00:00:00 2001
From: Zhonghua Deng <abzhonghua@gmail.com>
Date: Fri, 16 May 2025 00:01:47 +0800
Subject: [PATCH 404/461] [Bugfix]Change the exception thrown by
 call_hf_processor from RuntimeError to ValueError (#18181)

Signed-off-by: Abatom <abzhonghua@gmail.com>
---
 vllm/inputs/registry.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/inputs/registry.py b/vllm/inputs/registry.py
index aecddbcd7..148b3558c 100644
--- a/vllm/inputs/registry.py
+++ b/vllm/inputs/registry.py
@@ -159,7 +159,7 @@ class InputProcessingContext(InputContext):
             msg = (f"Failed to apply {type(hf_processor).__name__} "
                    f"on data={data} with kwargs={merged_kwargs}")
 
-            raise RuntimeError(msg) from exc
+            raise ValueError(msg) from exc
 
 
 class DummyData(NamedTuple):
-- 
GitLab


From 92540529c051fe6e8f111d7688ffac84ac561a0d Mon Sep 17 00:00:00 2001
From: TJian <tunjian.tan@embeddedllm.com>
Date: Fri, 16 May 2025 00:53:18 +0800
Subject: [PATCH 405/461] [Bugfix] [ROCm]: Remove assertion logic when using
 AITER fused moe in unquantizedMethod to reenable LLama4 BF16 (#18205)

Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
---
 vllm/model_executor/layers/fused_moe/layer.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 0b3c02d1b..f1cb77f64 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -503,7 +503,6 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
             indices_type=torch.uint32 if self.moe.use_pplx_kernels else None)
 
         if self.rocm_aiter_moe_enabled:
-            assert not apply_router_weight_on_input
             assert expert_map is None
             return self.rocm_aiter_fused_experts(
                 hidden_states=x,
-- 
GitLab


From e3f3aee6f4206df0c338709614056ce2860ef039 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Nicol=C3=B2=20Lucchesi?= <nlucches@redhat.com>
Date: Thu, 15 May 2025 18:59:38 +0200
Subject: [PATCH 406/461] [Misc] Avoid cuda graph log when sizes still match
 (#18202)

Signed-off-by: NickLucche <nlucches@redhat.com>
---
 vllm/config.py | 11 ++++++-----
 1 file changed, 6 insertions(+), 5 deletions(-)

diff --git a/vllm/config.py b/vllm/config.py
index 19de4d054..dddfdabd1 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -3950,11 +3950,12 @@ class CompilationConfig:
             self.cudagraph_capture_sizes = cudagraph_capture_sizes
         else:
             # de-duplicate the sizes provided by the config
-            self.cudagraph_capture_sizes = list(
-                set(self.cudagraph_capture_sizes))
-            logger.info(("cudagraph sizes specified by model runner"
-                         " %s is overridden by config %s"),
-                        cudagraph_capture_sizes, self.cudagraph_capture_sizes)
+            dedup_sizes = list(set(self.cudagraph_capture_sizes))
+            if len(dedup_sizes) < len(self.cudagraph_capture_sizes):
+                logger.info(("cudagraph sizes specified by model runner"
+                             " %s is overridden by config %s"),
+                            cudagraph_capture_sizes, dedup_sizes)
+            self.cudagraph_capture_sizes = dedup_sizes
 
         computed_compile_sizes = []
         if self.compile_sizes is not None:
-- 
GitLab


From 0b34593017953051b3225b1483ce0f4670e3eb0e Mon Sep 17 00:00:00 2001
From: Alexei-V-Ivanov-AMD
 <156011006+Alexei-V-Ivanov-AMD@users.noreply.github.com>
Date: Thu, 15 May 2025 13:01:25 -0500
Subject: [PATCH 407/461] Adding "AMD: Tensorizer Test" to amdproduction.
 (#18216)

---
 .buildkite/test-pipeline.yaml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 1459156f6..c44597417 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -379,7 +379,7 @@ steps:
     - pytest -v -s kernels/mamba
 
 - label: Tensorizer Test # 11min
-  mirror_hardwares: [amdexperimental]
+  mirror_hardwares: [amdexperimental, amdproduction]
   soft_fail: true
   source_file_dependencies:
   - vllm/model_executor/model_loader
-- 
GitLab


From 8795eb9975561e19fe642b39b42e0c18280ac796 Mon Sep 17 00:00:00 2001
From: Lucia Fang <116399278+luccafong@users.noreply.github.com>
Date: Thu, 15 May 2025 15:59:42 -0700
Subject: [PATCH 408/461] [Bugfix] Fix test_eagle test (#18223)

Signed-off-by: Lucia Fang <fanglu@fb.com>
---
 tests/v1/spec_decode/test_eagle.py | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/tests/v1/spec_decode/test_eagle.py b/tests/v1/spec_decode/test_eagle.py
index a7e148d01..7d93a44c5 100644
--- a/tests/v1/spec_decode/test_eagle.py
+++ b/tests/v1/spec_decode/test_eagle.py
@@ -115,14 +115,15 @@ def test_prepare_inputs():
         ("eagle3", lambda k: _create_proposer("eagle3", k), eagle3_dir,
          ('model', 'embed_tokens')),
     ])
+@mock.patch('vllm.v1.spec_decode.eagle.get_pp_group')
 @mock.patch('vllm.v1.spec_decode.eagle.get_layers_from_vllm_config')
 @mock.patch('vllm.v1.spec_decode.eagle.ModelRegistry')
 @mock.patch('vllm.v1.spec_decode.eagle.get_model_loader')
 @mock.patch('vllm.v1.spec_decode.eagle.set_default_torch_dtype')
 @mock.patch('vllm.v1.spec_decode.eagle.set_current_vllm_config')
 def test_load_model(mock_set_config, mock_set_dtype, mock_get_loader,
-                    mock_registry, mock_get_layers, method, proposer_helper,
-                    draft_model_dir, target_attribute_path):
+                    mock_registry, mock_get_layers, mock_get_pp_group, method,
+                    proposer_helper, draft_model_dir, target_attribute_path):
 
     # Setup mock for model class
     mock_model_cls = mock.MagicMock()
@@ -158,6 +159,11 @@ def test_load_model(mock_set_config, mock_set_dtype, mock_get_loader,
     # Make mock_get_layers return different values for each call
     mock_get_layers.side_effect = [target_attn_layers, all_attn_layers]
 
+    # Setup mock for pp group to return the appropriate value for world size
+    mock_pp_group = mock.MagicMock()
+    mock_pp_group.world_size = 2 if method == "eagle" else 1
+    mock_get_pp_group.return_value = mock_pp_group
+
     # Setup model loader mock
     mock_loader = mock.MagicMock()
     mock_get_loader.return_value = mock_loader
-- 
GitLab


From c7852a6d9bc0a2d5ea075060af4c15a7494499b6 Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Thu, 15 May 2025 19:41:55 -0400
Subject: [PATCH 409/461] [Build] Allow shipping PTX on a per-file basis
 (#18155)

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>
---
 CMakeLists.txt    |  9 +++--
 cmake/utils.cmake | 89 ++++++++++++++++++++++++++++++++++++-----------
 2 files changed, 75 insertions(+), 23 deletions(-)

diff --git a/CMakeLists.txt b/CMakeLists.txt
index fed6e11e5..a6c54be95 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -301,7 +301,8 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
   # Only build Marlin kernels if we are building for at least some compatible archs.
   # Keep building Marlin for 9.0 as there are some group sizes and shapes that
   # are not supported by Machete yet.
-  cuda_archs_loose_intersection(MARLIN_ARCHS "8.0;8.6;8.7;8.9;9.0;10.0;10.1;12.0" "${CUDA_ARCHS}")
+  # 9.0 for latest bf16 atomicAdd PTX
+  cuda_archs_loose_intersection(MARLIN_ARCHS "8.0;9.0+PTX" "${CUDA_ARCHS}")
   if (MARLIN_ARCHS)
 
     #
@@ -445,8 +446,9 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
   #
   # For the cutlass_scaled_mm kernels we want to build the c2x (CUTLASS 2.x)
   # kernels for the remaining archs that are not already built for 3x.
+  # (Build 8.9 for FP8)
   cuda_archs_loose_intersection(SCALED_MM_2X_ARCHS
-    "7.5;8.0;8.6;8.7;8.9;9.0;10.0;10.1;12.0" "${CUDA_ARCHS}")
+    "7.5;8.0;8.9+PTX" "${CUDA_ARCHS}")
   # subtract out the archs that are already built for 3x
   list(REMOVE_ITEM SCALED_MM_2X_ARCHS ${SCALED_MM_3X_ARCHS})
   if (SCALED_MM_2X_ARCHS)
@@ -675,7 +677,8 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
     CUDA_ARCHS "${CUDA_ARCHS}")
 
   list(APPEND VLLM_MOE_EXT_SRC "${VLLM_MOE_WNA16_SRC}")
-  cuda_archs_loose_intersection(MARLIN_MOE_ARCHS "8.0;8.6;8.7;8.9;9.0;10.0;10.1;12.0" "${CUDA_ARCHS}")
+  # 9.0 for latest bf16 atomicAdd PTX
+  cuda_archs_loose_intersection(MARLIN_MOE_ARCHS "8.0;9.0+PTX" "${CUDA_ARCHS}")
   if (MARLIN_MOE_ARCHS)
 
     #
diff --git a/cmake/utils.cmake b/cmake/utils.cmake
index c9cd099b8..12e4e3902 100644
--- a/cmake/utils.cmake
+++ b/cmake/utils.cmake
@@ -228,11 +228,26 @@ macro(set_gencode_flags_for_srcs)
                         "${multiValueArgs}" ${ARGN} )
 
   foreach(_ARCH ${arg_CUDA_ARCHS})
-    string(REPLACE "." "" _ARCH "${_ARCH}")
-    set_gencode_flag_for_srcs(
-      SRCS ${arg_SRCS}
-      ARCH "compute_${_ARCH}"
-      CODE "sm_${_ARCH}")
+    # handle +PTX suffix: generate both sm and ptx codes if requested
+    string(FIND "${_ARCH}" "+PTX" _HAS_PTX)
+    if(NOT _HAS_PTX EQUAL -1)
+      string(REPLACE "+PTX" "" _BASE_ARCH "${_ARCH}")
+      string(REPLACE "." "" _STRIPPED_ARCH "${_BASE_ARCH}")
+      set_gencode_flag_for_srcs(
+        SRCS ${arg_SRCS}
+        ARCH "compute_${_STRIPPED_ARCH}"
+        CODE "sm_${_STRIPPED_ARCH}")
+      set_gencode_flag_for_srcs(
+        SRCS ${arg_SRCS}
+        ARCH "compute_${_STRIPPED_ARCH}"
+        CODE "compute_${_STRIPPED_ARCH}")
+    else()
+      string(REPLACE "." "" _STRIPPED_ARCH "${_ARCH}")
+      set_gencode_flag_for_srcs(
+        SRCS ${arg_SRCS}
+        ARCH "compute_${_STRIPPED_ARCH}"
+        CODE "sm_${_STRIPPED_ARCH}")
+    endif()
   endforeach()
 
   if (${arg_BUILD_PTX_FOR_ARCH})
@@ -251,7 +266,10 @@ endmacro()
 #
 # For the given `SRC_CUDA_ARCHS` list of gencode versions in the form 
 #  `<major>.<minor>[letter]` compute the "loose intersection" with the 
-#  `TGT_CUDA_ARCHS` list of gencodes. 
+#  `TGT_CUDA_ARCHS` list of gencodes. We also support the `+PTX` suffix in
+#  `SRC_CUDA_ARCHS` which indicates that the PTX code should be built when there
+#  is a CUDA_ARCH in `TGT_CUDA_ARCHS` that is equal to or larger than the
+#  architecture in `SRC_CUDA_ARCHS`.
 # The loose intersection is defined as:
 #   { max{ x \in tgt | x <= y } | y \in src, { x \in tgt | x <= y } != {} }
 #  where `<=` is the version comparison operator.
@@ -268,44 +286,63 @@ endmacro()
 #   cuda_archs_loose_intersection(OUT_CUDA_ARCHS SRC_CUDA_ARCHS TGT_CUDA_ARCHS)
 #   OUT_CUDA_ARCHS="8.0;8.6;9.0;9.0a"
 #
+# Example With PTX:
+#   SRC_CUDA_ARCHS="8.0+PTX"
+#   TGT_CUDA_ARCHS="9.0"
+#   cuda_archs_loose_intersection(OUT_CUDA_ARCHS SRC_CUDA_ARCHS TGT_CUDA_ARCHS)
+#   OUT_CUDA_ARCHS="8.0+PTX"
+#
 function(cuda_archs_loose_intersection OUT_CUDA_ARCHS SRC_CUDA_ARCHS TGT_CUDA_ARCHS)
-  list(REMOVE_DUPLICATES SRC_CUDA_ARCHS)
-  set(TGT_CUDA_ARCHS_ ${TGT_CUDA_ARCHS})
+  set(_SRC_CUDA_ARCHS "${SRC_CUDA_ARCHS}")
+  set(_TGT_CUDA_ARCHS ${TGT_CUDA_ARCHS})
+
+  # handle +PTX suffix: separate base arch for matching, record PTX requests
+  set(_PTX_ARCHS)
+  foreach(_arch ${_SRC_CUDA_ARCHS})
+    if(_arch MATCHES "\\+PTX$")
+      string(REPLACE "+PTX" "" _base "${_arch}")
+      list(APPEND _PTX_ARCHS "${_base}")
+      list(REMOVE_ITEM _SRC_CUDA_ARCHS "${_arch}")
+      list(APPEND _SRC_CUDA_ARCHS "${_base}")
+    endif()
+  endforeach()
+  list(REMOVE_DUPLICATES _PTX_ARCHS)
+  list(REMOVE_DUPLICATES _SRC_CUDA_ARCHS)
 
   # if x.0a is in SRC_CUDA_ARCHS and x.0 is in CUDA_ARCHS then we should
   # remove x.0a from SRC_CUDA_ARCHS and add x.0a to _CUDA_ARCHS
   set(_CUDA_ARCHS)
-  if ("9.0a" IN_LIST SRC_CUDA_ARCHS)
-    list(REMOVE_ITEM SRC_CUDA_ARCHS "9.0a")
-    if ("9.0" IN_LIST TGT_CUDA_ARCHS_)
-      list(REMOVE_ITEM TGT_CUDA_ARCHS_ "9.0")
+  if ("9.0a" IN_LIST _SRC_CUDA_ARCHS)
+    list(REMOVE_ITEM _SRC_CUDA_ARCHS "9.0a")
+    if ("9.0" IN_LIST TGT_CUDA_ARCHS)
+      list(REMOVE_ITEM _TGT_CUDA_ARCHS "9.0")
       set(_CUDA_ARCHS "9.0a")
     endif()
   endif()
 
-  if ("10.0a" IN_LIST SRC_CUDA_ARCHS)
-    list(REMOVE_ITEM SRC_CUDA_ARCHS "10.0a")
+  if ("10.0a" IN_LIST _SRC_CUDA_ARCHS)
+    list(REMOVE_ITEM _SRC_CUDA_ARCHS "10.0a")
     if ("10.0" IN_LIST TGT_CUDA_ARCHS)
-      list(REMOVE_ITEM TGT_CUDA_ARCHS_ "10.0")
+      list(REMOVE_ITEM _TGT_CUDA_ARCHS "10.0")
       set(_CUDA_ARCHS "10.0a")
     endif()
   endif()
 
-  list(SORT SRC_CUDA_ARCHS COMPARE NATURAL ORDER ASCENDING)
+  list(SORT _SRC_CUDA_ARCHS COMPARE NATURAL ORDER ASCENDING)
 
   # for each ARCH in TGT_CUDA_ARCHS find the highest arch in SRC_CUDA_ARCHS that
   # is less or equal to ARCH (but has the same major version since SASS binary
   # compatibility is only forward compatible within the same major version).
-  foreach(_ARCH ${TGT_CUDA_ARCHS_})
+  foreach(_ARCH ${_TGT_CUDA_ARCHS})
     set(_TMP_ARCH)
     # Extract the major version of the target arch
     string(REGEX REPLACE "^([0-9]+)\\..*$" "\\1" TGT_ARCH_MAJOR "${_ARCH}")
-    foreach(_SRC_ARCH ${SRC_CUDA_ARCHS})
+    foreach(_SRC_ARCH ${_SRC_CUDA_ARCHS})
       # Extract the major version of the source arch
       string(REGEX REPLACE "^([0-9]+)\\..*$" "\\1" SRC_ARCH_MAJOR "${_SRC_ARCH}")
-      # Check major-version match AND version-less-or-equal
+      # Check version-less-or-equal, and allow PTX arches to match across majors
       if (_SRC_ARCH VERSION_LESS_EQUAL _ARCH)
-        if (SRC_ARCH_MAJOR STREQUAL TGT_ARCH_MAJOR)
+        if (_SRC_ARCH IN_LIST _PTX_ARCHS OR SRC_ARCH_MAJOR STREQUAL TGT_ARCH_MAJOR)
           set(_TMP_ARCH "${_SRC_ARCH}")
         endif()
       else()
@@ -321,6 +358,18 @@ function(cuda_archs_loose_intersection OUT_CUDA_ARCHS SRC_CUDA_ARCHS TGT_CUDA_AR
   endforeach()
 
   list(REMOVE_DUPLICATES _CUDA_ARCHS)
+  
+  # reapply +PTX suffix to architectures that requested PTX
+  set(_FINAL_ARCHS)
+  foreach(_arch ${_CUDA_ARCHS})
+    if(_arch IN_LIST _PTX_ARCHS)
+      list(APPEND _FINAL_ARCHS "${_arch}+PTX")
+    else()
+      list(APPEND _FINAL_ARCHS "${_arch}")
+    endif()
+  endforeach()
+  set(_CUDA_ARCHS ${_FINAL_ARCHS})
+  
   set(${OUT_CUDA_ARCHS} ${_CUDA_ARCHS} PARENT_SCOPE)
 endfunction()
 
-- 
GitLab


From 4e1c6a02641e427a6140d33262f1467906817781 Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Thu, 15 May 2025 21:32:45 -0400
Subject: [PATCH 410/461] [Bugfix] fix rotary embedding test for
 _get_padded_tensor_shape (#18229)

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>
---
 tests/kernels/core/test_pos_encoding.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/tests/kernels/core/test_pos_encoding.py b/tests/kernels/core/test_pos_encoding.py
index 383a3c83b..f327deb0e 100644
--- a/tests/kernels/core/test_pos_encoding.py
+++ b/tests/kernels/core/test_pos_encoding.py
@@ -152,6 +152,10 @@ def test_batched_rotary_embedding(
     query = torch.randn(query_shape, dtype=dtype)
     key = torch.randn_like(query) if use_key else None
 
+    # slice tensor if required, noop otherwise
+    query = query[..., :head_size]
+    key = key[..., :head_size] if use_key else None
+
     # NOTE(woosuk): The reference implementation should be executed first
     # because the custom kernel is in-place.
     ref_query, ref_key = rope.forward_native(positions, query, key)
-- 
GitLab


From ee659e3b601e886308594b3a2ee2c6edc8d1b4c8 Mon Sep 17 00:00:00 2001
From: kliuae <17350011+kliuae@users.noreply.github.com>
Date: Fri, 16 May 2025 10:30:17 +0800
Subject: [PATCH 411/461] [Bugfix][ROCm] Use `chunked_prefill_paged_decode` as
 fallback for V1 attention on ROCm (#18093)

Signed-off-by: kf <kuanfu.liu@embeddedllm.com>
---
 vllm/v1/attention/backends/triton_attn.py | 109 +++++++++++++++-------
 1 file changed, 77 insertions(+), 32 deletions(-)

diff --git a/vllm/v1/attention/backends/triton_attn.py b/vllm/v1/attention/backends/triton_attn.py
index 908bf1274..4000f9398 100644
--- a/vllm/v1/attention/backends/triton_attn.py
+++ b/vllm/v1/attention/backends/triton_attn.py
@@ -7,6 +7,9 @@ import torch
 from vllm import _custom_ops as ops
 from vllm.attention.backends.abstract import (AttentionBackend, AttentionImpl,
                                               AttentionMetadata, AttentionType)
+from vllm.attention.ops.chunked_prefill_paged_decode import (
+    chunked_prefill_paged_decode)
+from vllm.attention.ops.paged_attn import PagedAttention
 from vllm.attention.ops.triton_unified_attention import unified_attention
 from vllm.logger import init_logger
 from vllm.platforms import current_platform
@@ -162,19 +165,40 @@ class TritonAttentionImpl(AttentionImpl):
         # Whenever making a change in this method, please benchmark the
         # performance to make sure it does not introduce any overhead.
 
+        num_queries_per_kv = query.shape[1] // key.shape[1]
+        use_prefill_decode_attn = (num_queries_per_kv &
+                                   (num_queries_per_kv - 1)) != 0
+
         num_actual_tokens = attn_metadata.num_actual_tokens
 
-        key_cache, value_cache = kv_cache.unbind(0)
-        torch.ops._C_cache_ops.reshape_and_cache_flash(
-            key,
-            value,
-            key_cache,
-            value_cache,
-            attn_metadata.slot_mapping,
-            self.kv_cache_dtype,
-            layer._k_scale,
-            layer._v_scale,
-        )
+        if use_prefill_decode_attn:
+            key_cache, value_cache = PagedAttention.split_kv_cache(
+                kv_cache, self.num_kv_heads, self.head_size)
+
+            # Reshape the input keys and values and store them in the cache.
+            PagedAttention.write_to_paged_cache(
+                key,
+                value,
+                key_cache,
+                value_cache,
+                attn_metadata.slot_mapping,
+                self.kv_cache_dtype,
+                layer._k_scale,
+                layer._v_scale,
+            )
+
+        else:
+            key_cache, value_cache = kv_cache.unbind(0)
+            torch.ops._C_cache_ops.reshape_and_cache_flash(
+                key,
+                value,
+                key_cache,
+                value_cache,
+                attn_metadata.slot_mapping,
+                self.kv_cache_dtype,
+                layer._k_scale,
+                layer._v_scale,
+            )
 
         if self.kv_cache_dtype.startswith("fp8"):
             key_cache = key_cache.view(self.fp8_dtype)
@@ -209,26 +233,47 @@ class TritonAttentionImpl(AttentionImpl):
             max_seqlen_k = attn_metadata.max_seq_len
             block_table = attn_metadata.block_table
 
-        descale_shape = (cu_seqlens_q.shape[0] - 1, key.shape[1])
-
-        unified_attention(
-            q=query[:num_actual_tokens],
-            k=key_cache,
-            v=value_cache,
-            out=output[:num_actual_tokens],
-            cu_seqlens_q=cu_seqlens_q,
-            max_seqlen_q=max_seqlen_q,
-            seqused_k=seqused_k,
-            max_seqlen_k=max_seqlen_k,
-            softmax_scale=self.scale,
-            causal=True,
-            alibi_slopes=self.alibi_slopes,
-            window_size=self.sliding_window,
-            block_table=block_table,
-            softcap=self.logits_soft_cap,
-            q_descale=None,  # Not supported
-            k_descale=layer._k_scale.expand(descale_shape),
-            v_descale=layer._v_scale.expand(descale_shape),
-        )
+        if use_prefill_decode_attn:
+            # Compute attention and update output up to `num_actual_tokens`.
+            chunked_prefill_paged_decode(query=query[:num_actual_tokens],
+                                         key=key[:num_actual_tokens],
+                                         value=value[:num_actual_tokens],
+                                         output=output[:num_actual_tokens],
+                                         kv_cache_dtype=self.kv_cache_dtype,
+                                         key_cache=key_cache,
+                                         value_cache=value_cache,
+                                         block_table=block_table,
+                                         query_start_loc=cu_seqlens_q,
+                                         seq_lens=seqused_k,
+                                         max_seq_len=max_seqlen_k,
+                                         max_query_len=max_seqlen_q,
+                                         k_scale=layer._k_scale,
+                                         v_scale=layer._v_scale,
+                                         alibi_slopes=self.alibi_slopes,
+                                         sliding_window=self.sliding_window[0],
+                                         sm_scale=self.scale)
+
+        else:
+            descale_shape = (cu_seqlens_q.shape[0] - 1, key.shape[1])
+
+            unified_attention(
+                q=query[:num_actual_tokens],
+                k=key_cache,
+                v=value_cache,
+                out=output[:num_actual_tokens],
+                cu_seqlens_q=cu_seqlens_q,
+                max_seqlen_q=max_seqlen_q,
+                seqused_k=seqused_k,
+                max_seqlen_k=max_seqlen_k,
+                softmax_scale=self.scale,
+                causal=True,
+                alibi_slopes=self.alibi_slopes,
+                window_size=self.sliding_window,
+                block_table=block_table,
+                softcap=self.logits_soft_cap,
+                q_descale=None,  # Not supported
+                k_descale=layer._k_scale.expand(descale_shape),
+                v_descale=layer._v_scale.expand(descale_shape),
+            )
 
         return output
-- 
GitLab


From f4937a51c138978928f38da6a2d3b30c53286240 Mon Sep 17 00:00:00 2001
From: Sky Lee <46676799+skylee-01@users.noreply.github.com>
Date: Fri, 16 May 2025 12:05:31 +0800
Subject: [PATCH 412/461] [Model] vLLM v1 supports Medusa (#17956)

Signed-off-by: lisiqi23 <lisiqi23@xiaomi.com>
Signed-off-by: skylee-01 <497627264@qq.com>
Co-authored-by: lisiqi23 <lisiqi23@xiaomi.com>
---
 vllm/engine/arg_utils.py             |  5 +-
 vllm/model_executor/models/medusa.py |  5 +-
 vllm/v1/spec_decode/medusa.py        | 74 ++++++++++++++++++++++++++++
 vllm/v1/worker/gpu_model_runner.py   | 26 ++++++++++
 4 files changed, 108 insertions(+), 2 deletions(-)
 create mode 100644 vllm/v1/spec_decode/medusa.py

diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 240142a1c..3e942b0f0 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1324,19 +1324,22 @@ class EngineArgs:
         # Only Ngram speculative decoding so far.
         is_ngram_enabled = False
         is_eagle_enabled = False
+        is_medusa_enabled = False
         if self.speculative_config is not None:
             # This is supported but experimental (handled below).
             speculative_method = self.speculative_config.get("method")
             if speculative_method:
                 if speculative_method in ("ngram", "[ngram]"):
                     is_ngram_enabled = True
+                elif speculative_method == "medusa":
+                    is_medusa_enabled = True
                 elif speculative_method in ("eagle", "eagle3"):
                     is_eagle_enabled = True
             else:
                 speculative_model = self.speculative_config.get("model")
                 if speculative_model in ("ngram", "[ngram]"):
                     is_ngram_enabled = True
-            if not (is_ngram_enabled or is_eagle_enabled):
+            if not (is_ngram_enabled or is_eagle_enabled or is_medusa_enabled):
                 # Other speculative decoding methods are not supported yet.
                 _raise_or_fallback(feature_name="Speculative Decoding",
                                    recommend_to_remove=False)
diff --git a/vllm/model_executor/models/medusa.py b/vllm/model_executor/models/medusa.py
index ac0b281f3..4724cbe56 100644
--- a/vllm/model_executor/models/medusa.py
+++ b/vllm/model_executor/models/medusa.py
@@ -51,7 +51,10 @@ class Medusa(nn.Module):
        needs to have truncated_vocab_size (=k) as an attribute."""
 
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
-        config = vllm_config.model_config.hf_config
+        if hasattr(vllm_config, 'draft_model_config'):
+            config = vllm_config.draft_model_config.hf_config
+        else:
+            config = vllm_config.model_config.hf_config
         super().__init__()
         self.config = config
         self.blocks = nn.ModuleList([
diff --git a/vllm/v1/spec_decode/medusa.py b/vllm/v1/spec_decode/medusa.py
new file mode 100644
index 000000000..14bc9c9e0
--- /dev/null
+++ b/vllm/v1/spec_decode/medusa.py
@@ -0,0 +1,74 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import torch
+import torch.nn as nn
+
+from vllm.config import VllmConfig, set_current_vllm_config
+from vllm.forward_context import set_forward_context
+from vllm.logger import init_logger
+from vllm.model_executor.model_loader import get_model_loader
+from vllm.model_executor.model_loader.utils import set_default_torch_dtype
+from vllm.model_executor.models.medusa import Medusa
+from vllm.v1.sample.metadata import SamplingMetadata
+
+# Initialize logger
+logger = init_logger(__name__)
+
+
+class MedusaProposer:
+    """
+    Medusa proposer class for generating token sequences
+    """
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        # Save config parameters
+        self.vllm_config = vllm_config
+        self.device = device
+        self.max_num_tokens = (
+            vllm_config.scheduler_config.max_num_batched_tokens)
+        self.hidden_size = vllm_config.speculative_config.\
+            draft_model_config.get_hidden_size(
+        )
+        self.dtype = vllm_config.model_config.dtype
+
+    def propose(
+        self,
+        target_hidden_states: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+    ) -> torch.Tensor:
+        # Generate blocks and compute logits
+        blocks = self.model(target_hidden_states)
+        logits = self.model.compute_logits(blocks, None)
+
+        # Get draft tokens and transpose the result
+        draft_tokens = [logit.argmax(dim=-1).tolist() for logit in logits]
+        return [list(row) for row in zip(*draft_tokens)]
+
+    def load_model(self, target_model: nn.Module) -> None:
+        # Get model loader and config
+        loader = get_model_loader(self.vllm_config.load_config)
+        draft_config = self.vllm_config.speculative_config.draft_model_config
+
+        # Load model with proper dtype and config
+        with set_default_torch_dtype(draft_config.dtype), \
+                set_current_vllm_config(self.vllm_config):
+            self.model = Medusa(
+                vllm_config=self.vllm_config.speculative_config).to(
+                    self.device)
+
+        # Load model weights
+        weights = loader.get_all_weights(draft_config, self.model)
+        self.model.load_weights(weights)
+
+    @torch.inference_mode()
+    def dummy_run(self, num_tokens: int) -> None:
+        hidden_states = torch.zeros((self.max_num_tokens, self.hidden_size),
+                                    dtype=self.dtype,
+                                    device=self.device)
+        with set_forward_context(None, self.vllm_config,
+                                 num_tokens=num_tokens):
+            self.model(hidden_states)
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 1b34a9fb0..0788ac5ad 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -47,6 +47,7 @@ from vllm.v1.sample.metadata import SamplingMetadata
 from vllm.v1.sample.rejection_sampler import RejectionSampler
 from vllm.v1.sample.sampler import Sampler
 from vllm.v1.spec_decode.eagle import EagleProposer
+from vllm.v1.spec_decode.medusa import MedusaProposer
 from vllm.v1.spec_decode.metadata import SpecDecodeMetadata
 from vllm.v1.spec_decode.ngram_proposer import NgramProposer
 from vllm.v1.spec_decode.utils import is_spec_decode_supported
@@ -156,6 +157,10 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                                                  self.device)  # type: ignore
                     if self.speculative_config.method == "eagle3":
                         self.use_aux_hidden_state_outputs = True
+                elif self.speculative_config.method == "medusa":
+                    self.drafter = MedusaProposer(
+                        vllm_config=self.vllm_config,
+                        device=self.device)  # type: ignore
                 else:
                     raise ValueError("Unknown speculative decoding method: "
                                      f"{self.speculative_config.method}")
@@ -1254,6 +1259,27 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             assert isinstance(self.drafter, NgramProposer)
             spec_token_ids = self.generate_draft_token_ids(
                 valid_sampled_token_ids, sampling_metadata)
+        elif self.speculative_config.method == "medusa":
+            assert isinstance(self.drafter, MedusaProposer)
+            if max_gen_len == 1:
+                hidden_states = sample_hidden_states
+            else:
+                indices = []
+                offset = 0
+                for num_draft, tokens in zip(
+                        spec_decode_metadata.num_draft_tokens,
+                        valid_sampled_token_ids):
+                    indices.append(offset + len(tokens) - 1)
+                    offset += num_draft + 1
+
+                indices = torch.tensor(indices,
+                                       device=sample_hidden_states.device)
+                hidden_states = sample_hidden_states[indices]
+
+            spec_token_ids = self.drafter.propose(
+                target_hidden_states=hidden_states,
+                sampling_metadata=sampling_metadata,
+            )
         elif self.speculative_config.use_eagle():
             assert isinstance(self.drafter, EagleProposer)
             # TODO(woosuk): Refactor the loop.
-- 
GitLab


From b18201fe060a3ddcc088f8aea3cf1d7c4b461288 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Fri, 16 May 2025 05:05:34 +0100
Subject: [PATCH 413/461] Allow users to pass arbitrary JSON keys from CLI
 (#18208)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 tests/engine/test_arg_utils.py |  4 +--
 tests/test_utils.py            | 25 ++++++++++++++++++
 vllm/engine/arg_utils.py       |  6 ++++-
 vllm/utils.py                  | 46 ++++++++++++++++++++++++++++++++++
 4 files changed, 78 insertions(+), 3 deletions(-)

diff --git a/tests/engine/test_arg_utils.py b/tests/engine/test_arg_utils.py
index ce8873d58..05d9cfc7a 100644
--- a/tests/engine/test_arg_utils.py
+++ b/tests/engine/test_arg_utils.py
@@ -181,8 +181,8 @@ def test_get_kwargs():
     # literals of literals should have merged choices
     assert kwargs["literal_literal"]["choices"] == [1, 2]
     # dict should have json tip in help
-    json_tip = "\n\nShould be a valid JSON string."
-    assert kwargs["json_tip"]["help"].endswith(json_tip)
+    json_tip = "Should either be a valid JSON string or JSON keys"
+    assert json_tip in kwargs["json_tip"]["help"]
     # nested config should should construct the nested config
     assert kwargs["nested_config"]["type"]('{"field": 2}') == NestedConfig(2)
     # from_cli configs should be constructed with the correct method
diff --git a/tests/test_utils.py b/tests/test_utils.py
index ea7db0a79..0b88d05ef 100644
--- a/tests/test_utils.py
+++ b/tests/test_utils.py
@@ -3,6 +3,7 @@
 
 import asyncio
 import hashlib
+import json
 import pickle
 import socket
 from collections.abc import AsyncIterator
@@ -138,6 +139,7 @@ def parser():
     parser.add_argument('--model-name')
     parser.add_argument('--batch-size', type=int)
     parser.add_argument('--enable-feature', action='store_true')
+    parser.add_argument('--hf-overrides', type=json.loads)
     return parser
 
 
@@ -251,6 +253,29 @@ def test_no_model_tag(parser_with_config, cli_config_file):
         parser_with_config.parse_args(['serve', '--config', cli_config_file])
 
 
+def test_dict_args(parser):
+    args = [
+        "--model-name=something.something",
+        "--hf-overrides.key1",
+        "val1",
+        "--hf-overrides.key2.key3",
+        "val2",
+        "--hf-overrides.key2.key4",
+        "val3",
+        "--hf-overrides.key5=val4",
+    ]
+    parsed_args = parser.parse_args(args)
+    assert parsed_args.model_name == "something.something"
+    assert parsed_args.hf_overrides == {
+        "key1": "val1",
+        "key2": {
+            "key3": "val2",
+            "key4": "val3",
+        },
+        "key5": "val4",
+    }
+
+
 # yapf: enable
 @pytest.mark.parametrize(
     "callable,kw_name,requires_kw_only,allow_var_kwargs,is_supported",
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 3e942b0f0..6fdb5e6c3 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -183,7 +183,11 @@ def get_kwargs(cls: ConfigType) -> dict[str, Any]:
         kwargs[name] = {"default": default, "help": help}
 
         # Set other kwargs based on the type hints
-        json_tip = "\n\nShould be a valid JSON string."
+        json_tip = """\n\nShould either be a valid JSON string or JSON keys
+        passed individually. For example, the following sets of arguments are
+        equivalent:\n\n
+        - `--json-arg '{"key1": "value1", "key2": {"key3": "value2"}}'`\n
+        - `--json-arg.key1 value1 --json-arg.key2.key3 value2`\n\n"""
         if dataclass_cls is not None:
             dataclass_init = lambda x, f=dataclass_cls: f(**json.loads(x))
             # Special case for configs with a from_cli method
diff --git a/vllm/utils.py b/vllm/utils.py
index edfbb8c94..0cd90c130 100644
--- a/vllm/utils.py
+++ b/vllm/utils.py
@@ -15,6 +15,7 @@ import importlib.metadata
 import importlib.util
 import inspect
 import ipaddress
+import json
 import multiprocessing
 import os
 import pickle
@@ -1419,6 +1420,51 @@ class FlexibleArgumentParser(ArgumentParser):
             else:
                 processed_args.append(arg)
 
+        def create_nested_dict(keys: list[str], value: str):
+            """Creates a nested dictionary from a list of keys and a value.
+
+            For example, `keys = ["a", "b", "c"]` and `value = 1` will create:
+            `{"a": {"b": {"c": 1}}}`
+            """
+            nested_dict: Any = value
+            for key in reversed(keys):
+                nested_dict = {key: nested_dict}
+            return nested_dict
+
+        def recursive_dict_update(original: dict, update: dict):
+            """Recursively updates a dictionary with another dictionary."""
+            for k, v in update.items():
+                if isinstance(v, dict) and isinstance(original.get(k), dict):
+                    recursive_dict_update(original[k], v)
+                else:
+                    original[k] = v
+
+        delete = set()
+        dict_args: dict[str, dict] = defaultdict(dict)
+        for i, processed_arg in enumerate(processed_args):
+            if processed_arg.startswith("--") and "." in processed_arg:
+                if "=" in processed_arg:
+                    processed_arg, value = processed_arg.split("=", 1)
+                    if "." not in processed_arg:
+                        # False positive, . was only in the value
+                        continue
+                else:
+                    value = processed_args[i + 1]
+                    delete.add(i + 1)
+                key, *keys = processed_arg.split(".")
+                # Merge all values with the same key into a single dict
+                arg_dict = create_nested_dict(keys, value)
+                recursive_dict_update(dict_args[key], arg_dict)
+                delete.add(i)
+        # Filter out the dict args we set to None
+        processed_args = [
+            a for i, a in enumerate(processed_args) if i not in delete
+        ]
+        # Add the dict args back as if they were originally passed as JSON
+        for dict_arg, dict_value in dict_args.items():
+            processed_args.append(dict_arg)
+            processed_args.append(json.dumps(dict_value))
+
         return super().parse_args(processed_args, namespace)
 
     def check_port(self, value):
-- 
GitLab


From 6b31c84affbcd2f672915ca2ef5bb39819566441 Mon Sep 17 00:00:00 2001
From: Will Eaton <wseaton@users.noreply.github.com>
Date: Fri, 16 May 2025 00:07:28 -0400
Subject: [PATCH 414/461] Throw better error for when running into k8s service
 discovery issue (#18209)

Signed-off-by: Will Eaton <weaton@redhat.com>
---
 tests/test_vllm_port.py | 35 +++++++++++++++++++++++++++++++++++
 vllm/envs.py            | 37 ++++++++++++++++++++++++++++++++++---
 2 files changed, 69 insertions(+), 3 deletions(-)
 create mode 100644 tests/test_vllm_port.py

diff --git a/tests/test_vllm_port.py b/tests/test_vllm_port.py
new file mode 100644
index 000000000..ccbb36bf4
--- /dev/null
+++ b/tests/test_vllm_port.py
@@ -0,0 +1,35 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import os
+from unittest.mock import patch
+
+import pytest
+
+from vllm.envs import get_vllm_port
+
+
+def test_get_vllm_port_not_set():
+    """Test when VLLM_PORT is not set."""
+    with patch.dict(os.environ, {}, clear=True):
+        assert get_vllm_port() is None
+
+
+def test_get_vllm_port_valid():
+    """Test when VLLM_PORT is set to a valid integer."""
+    with patch.dict(os.environ, {"VLLM_PORT": "5678"}, clear=True):
+        assert get_vllm_port() == 5678
+
+
+def test_get_vllm_port_invalid():
+    """Test when VLLM_PORT is set to a non-integer value."""
+    with (patch.dict(os.environ, {"VLLM_PORT": "abc"}, clear=True),
+          pytest.raises(ValueError, match="must be a valid integer")):
+        get_vllm_port()
+
+
+def test_get_vllm_port_uri():
+    """Test when VLLM_PORT is set to a URI."""
+    with (patch.dict(os.environ, {"VLLM_PORT": "tcp://localhost:5678"},
+                     clear=True),
+          pytest.raises(ValueError, match="appears to be a URI")):
+        get_vllm_port()
diff --git a/vllm/envs.py b/vllm/envs.py
index fe3fa91fb..dc23c8ea5 100644
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -139,6 +139,39 @@ def maybe_convert_int(value: Optional[str]) -> Optional[int]:
     return int(value)
 
 
+def get_vllm_port() -> Optional[int]:
+    """Get the port from VLLM_PORT environment variable.
+    
+    Returns:
+        The port number as an integer if VLLM_PORT is set, None otherwise.
+        
+    Raises:
+        ValueError: If VLLM_PORT is a URI, suggest k8s service discovery issue.
+    """
+    if 'VLLM_PORT' not in os.environ:
+        return None
+
+    port = os.getenv('VLLM_PORT', '0')
+
+    try:
+        return int(port)
+    except ValueError as err:
+        from urllib.parse import urlparse
+        try:
+            parsed = urlparse(port)
+            if parsed.scheme:
+                raise ValueError(
+                    f"VLLM_PORT '{port}' appears to be a URI. "
+                    "This may be caused by a Kubernetes service discovery issue"
+                    "check the warning in: https://docs.vllm.ai/en/stable/serving/env_vars.html"
+                )
+        except Exception:
+            pass
+
+        raise ValueError(
+            f"VLLM_PORT '{port}' must be a valid integer") from err
+
+
 # The begin-* and end* here are used by the documentation generator
 # to extract the used env vars.
 
@@ -219,10 +252,8 @@ environment_variables: dict[str, Callable[[], Any]] = {
     # Note: if VLLM_PORT is set, and some code asks for multiple ports, the
     # VLLM_PORT will be used as the first port, and the rest will be generated
     # by incrementing the VLLM_PORT value.
-    # '0' is used to make mypy happy
     'VLLM_PORT':
-    lambda: int(os.getenv('VLLM_PORT', '0'))
-    if 'VLLM_PORT' in os.environ else None,
+    get_vllm_port,
 
     # path used for ipc when the frontend api server is running in
     # multi-processing mode to communicate with the backend engine process.
-- 
GitLab


From 3d2779c29a9f5003f6fec6ca07205147e2c987d1 Mon Sep 17 00:00:00 2001
From: Lucia Fang <116399278+luccafong@users.noreply.github.com>
Date: Thu, 15 May 2025 22:28:27 -0700
Subject: [PATCH 415/461] [Feature] Support Pipeline Parallism in torchrun SPMD
 offline inference for V1 (#17827)

Signed-off-by: Lucia Fang <fanglu@fb.com>
---
 .buildkite/test-pipeline.yaml                 |  2 ++
 .../offline_inference/torchrun_example.py     | 23 ++++++++-----
 tests/distributed/test_torchrun_example.py    |  3 +-
 vllm/config.py                                |  1 -
 .../device_communicators/custom_all_reduce.py |  6 ++--
 vllm/engine/arg_utils.py                      |  5 +--
 vllm/executor/uniproc_executor.py             |  3 --
 vllm/v1/worker/gpu_model_runner.py            | 33 +++++++++++++++----
 vllm/v1/worker/gpu_worker.py                  |  6 ++--
 9 files changed, 55 insertions(+), 27 deletions(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index c44597417..461fb6d30 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -148,6 +148,8 @@ steps:
   # test with tp=2 and external_dp=2
   - VLLM_USE_V1=0 torchrun --nproc-per-node=4 distributed/test_torchrun_example.py
   - torchrun --nproc-per-node=4 distributed/test_torchrun_example.py
+  # test with tp=2 and pp=2
+  - PP_SIZE=2 torchrun --nproc-per-node=4 distributed/test_torchrun_example.py
   # test with internal dp
   - python3 ../examples/offline_inference/data_parallel.py
   - TP_SIZE=2 DP_SIZE=2 pytest -v -s v1/test_async_llm_dp.py
diff --git a/examples/offline_inference/torchrun_example.py b/examples/offline_inference/torchrun_example.py
index c6d9e6b47..bb61a0a29 100644
--- a/examples/offline_inference/torchrun_example.py
+++ b/examples/offline_inference/torchrun_example.py
@@ -8,6 +8,8 @@ the argument 2 should match the `tensor_parallel_size` below.
 see `tests/distributed/test_torchrun_example.py` for the unit test.
 """
 
+import torch.distributed as dist
+
 from vllm import LLM, SamplingParams
 
 # Create prompts, the same across all ranks
@@ -27,23 +29,26 @@ sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
 # all ranks have the same random seed, so that sampling can be
 # deterministic across ranks.
 llm = LLM(
-    model="facebook/opt-125m",
+    model="meta-llama/Llama-3.1-8B",
     tensor_parallel_size=2,
+    pipeline_parallel_size=2,
     distributed_executor_backend="external_launcher",
-    seed=0,
+    max_model_len=32768,
+    seed=1,
 )
 
 outputs = llm.generate(prompts, sampling_params)
 
 # all ranks will have the same outputs
-print("-" * 50)
-for output in outputs:
-    prompt = output.prompt
-    generated_text = output.outputs[0].text
-    print(f"Prompt: {prompt!r}\n"
-          f"Generated text: {generated_text!r}")
+if dist.get_rank() == 0:
     print("-" * 50)
-"""
+    for output in outputs:
+        prompt = output.prompt
+        generated_text = output.outputs[0].text
+        print(f"Prompt: {prompt!r}\n"
+              f"Generated text: {generated_text!r}\n")
+        print("-" * 50)
+    """
 Further tips:
 
 1. to communicate control messages across all ranks, use the cpu group,
diff --git a/tests/distributed/test_torchrun_example.py b/tests/distributed/test_torchrun_example.py
index 0420a6454..bb38e908b 100644
--- a/tests/distributed/test_torchrun_example.py
+++ b/tests/distributed/test_torchrun_example.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 
 # unit test for `examples/offline_inference/torchrun_example.py`
-
+import os
 import random
 
 import torch.distributed as dist
@@ -25,6 +25,7 @@ sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
 # to test if all ranks agree on the same kv cache configuration.
 llm = LLM(model="facebook/opt-125m",
           tensor_parallel_size=2,
+          pipeline_parallel_size=int(os.getenv("PP_SIZE", 1)),
           distributed_executor_backend="external_launcher",
           gpu_memory_utilization=random.uniform(0.7, 0.9),
           swap_space=random.randint(1, 4),
diff --git a/vllm/config.py b/vllm/config.py
index dddfdabd1..d07a1ff05 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -1695,7 +1695,6 @@ class ParallelConfig:
     """Port of the data parallel master."""
     enable_expert_parallel: bool = False
     """Use expert parallelism instead of tensor parallelism for MoE layers."""
-
     max_parallel_loading_workers: Optional[int] = None
     """Maximum number of parallel loading workers when loading model
     sequentially in multiple batches. To avoid RAM OOM when using tensor
diff --git a/vllm/distributed/device_communicators/custom_all_reduce.py b/vllm/distributed/device_communicators/custom_all_reduce.py
index 7567161b6..5c2dbcc27 100644
--- a/vllm/distributed/device_communicators/custom_all_reduce.py
+++ b/vllm/distributed/device_communicators/custom_all_reduce.py
@@ -265,7 +265,8 @@ class CustomAllreduce:
 
     def close(self):
         if not self.disabled and self._ptr:
-            ops.dispose(self._ptr)
+            if ops is not None:
+                ops.dispose(self._ptr)
             self._ptr = 0
             self.free_shared_buffer(self.meta_ptrs, rank=self.rank)
             self.free_shared_buffer(self.buffer_ptrs, rank=self.rank)
@@ -298,4 +299,5 @@ class CustomAllreduce:
                            rank: Optional[int] = 0) -> None:
         if rank is None:
             rank = dist.get_rank(group=group)
-        ops.free_shared_buffer(pointers[rank])
+        if ops is not None:
+            ops.free_shared_buffer(pointers[rank])
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 6fdb5e6c3..dc2bb3a52 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1383,9 +1383,10 @@ class EngineArgs:
             return False
 
         if (self.pipeline_parallel_size > 1
-                and self.distributed_executor_backend not in ["ray", "mp"]):
+                and self.distributed_executor_backend
+                not in ("ray", "mp", "external_launcher")):
             name = "Pipeline Parallelism without Ray distributed executor " \
-                    "or multiprocessing executor"
+                    "or multiprocessing executor or external launcher"
             _raise_or_fallback(feature_name=name, recommend_to_remove=False)
             return False
 
diff --git a/vllm/executor/uniproc_executor.py b/vllm/executor/uniproc_executor.py
index 2e4b47c1e..1d3a6e443 100644
--- a/vllm/executor/uniproc_executor.py
+++ b/vllm/executor/uniproc_executor.py
@@ -86,9 +86,6 @@ class ExecutorWithExternalLauncher(UniProcExecutor):
     def _init_executor(self) -> None:
         """Initialize the worker and load the model.
         """
-        assert self.vllm_config.parallel_config.pipeline_parallel_size == 1, \
-            ("ExecutorWithExternalLauncher does not "
-            "support pipeline parallelism.")
         assert self.vllm_config.scheduler_config.delay_factor == 0.0, \
             ("ExecutorWithExternalLauncher needs deterministic "
             "execution, so it"
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 0788ac5ad..cb802fd4f 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -22,7 +22,8 @@ from vllm.distributed.kv_transfer import (get_kv_transfer_group,
                                           has_kv_transfer_group)
 from vllm.distributed.kv_transfer.kv_connector.v1 import KVConnectorBase_V1
 from vllm.distributed.parallel_state import (
-    get_pp_group, graph_capture, prepare_communication_buffer_for_model)
+    get_pp_group, get_tp_group, graph_capture,
+    prepare_communication_buffer_for_model)
 from vllm.forward_context import get_forward_context, set_forward_context
 from vllm.logger import init_logger
 from vllm.model_executor.layers.rotary_embedding import MRotaryEmbedding
@@ -1162,13 +1163,32 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             hidden_states, aux_hidden_states = model_output
         else:
             hidden_states = model_output
-
+        # Broadcast PP output for external_launcher (torchrun)
+        # to make sure we are synced across pp ranks
+        # TODO: Support overlapping mirco-batches
+        # https://github.com/vllm-project/vllm/issues/18019
+        broadcast_pp_output = \
+            self.parallel_config.distributed_executor_backend \
+            == "external_launcher" and len(get_pp_group().ranks) > 0
         if not get_pp_group().is_last_rank:
             # For mid-pipeline stages, return the hidden states.
-            return hidden_states
-
-        sample_hidden_states = hidden_states[logits_indices]
-        logits = self.model.compute_logits(sample_hidden_states, None)
+            if not broadcast_pp_output:
+                return hidden_states
+            assert isinstance(hidden_states, IntermediateTensors)
+            get_pp_group().send_tensor_dict(hidden_states.tensors,
+                                            all_gather_group=get_tp_group())
+            logits = None
+        else:
+            sample_hidden_states = hidden_states[logits_indices]
+            logits = self.model.compute_logits(sample_hidden_states, None)
+        if broadcast_pp_output:
+            model_output_broadcast_data = {
+                "logits": logits.contiguous(),
+            } if logits is not None else {}
+            model_output_broadcast_data = get_pp_group().broadcast_tensor_dict(
+                model_output_broadcast_data, src=len(get_pp_group().ranks) - 1)
+            assert model_output_broadcast_data is not None
+            logits = model_output_broadcast_data["logits"]
 
         # Apply structured output bitmasks if present
         if scheduler_output.grammar_bitmask is not None:
@@ -1186,6 +1206,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             # creates a new tensor with separate storage from the original
             # logits tensor. This means any in-place operations on bonus_logits
             # won't affect the original logits tensor.
+            assert logits is not None
             bonus_logits = logits[spec_decode_metadata.bonus_logits_indices]
             sampler_output = self.sampler(
                 logits=bonus_logits,
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index d85701fa9..93129d987 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -275,13 +275,13 @@ class Worker(WorkerBase):
 
         output = self.model_runner.execute_model(scheduler_output,
                                                  intermediate_tensors)
-
-        if not get_pp_group().is_last_rank:
+        parallel_config = self.vllm_config.parallel_config
+        if parallel_config.distributed_executor_backend != "external_launcher" \
+            and not get_pp_group().is_last_rank:
             assert isinstance(output, IntermediateTensors)
             get_pp_group().send_tensor_dict(output.tensors,
                                             all_gather_group=get_tp_group())
             return None
-
         assert isinstance(output, ModelRunnerOutput)
         return output if self.is_driver_worker else None
 
-- 
GitLab


From 5c04bb8b863bfdef8122b193631479315cc764f5 Mon Sep 17 00:00:00 2001
From: David Xia <david@davidxia.com>
Date: Fri, 16 May 2025 02:05:34 -0400
Subject: [PATCH 416/461] [doc] fix multimodal example script (#18089)

Signed-off-by: David Xia <david@davidxia.com>
---
 ...i_chat_completion_client_for_multimodal.py | 26 +++++++++++--------
 examples/online_serving/utils.py              | 25 ++++++++++++++++++
 2 files changed, 40 insertions(+), 11 deletions(-)
 create mode 100644 examples/online_serving/utils.py

diff --git a/examples/online_serving/openai_chat_completion_client_for_multimodal.py b/examples/online_serving/openai_chat_completion_client_for_multimodal.py
index cffd093c9..2707d46f4 100644
--- a/examples/online_serving/openai_chat_completion_client_for_multimodal.py
+++ b/examples/online_serving/openai_chat_completion_client_for_multimodal.py
@@ -1,5 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
-"""An example showing how to use vLLM to serve multimodal models 
+"""An example showing how to use vLLM to serve multimodal models
 and run online serving with OpenAI client.
 
 Launch the vLLM server with the following command:
@@ -12,12 +12,18 @@ vllm serve microsoft/Phi-3.5-vision-instruct --task generate \
     --trust-remote-code --max-model-len 4096 --limit-mm-per-prompt '{"image":2}'
 
 (audio inference with Ultravox)
-vllm serve fixie-ai/ultravox-v0_5-llama-3_2-1b --max-model-len 4096
+vllm serve fixie-ai/ultravox-v0_5-llama-3_2-1b \
+    --max-model-len 4096 --trust-remote-code
+
+run the script with
+python openai_chat_completion_client_for_multimodal.py --chat-type audio
 """
+
 import base64
 
 import requests
 from openai import OpenAI
+from utils import get_first_model
 
 from vllm.utils import FlexibleArgumentParser
 
@@ -31,9 +37,6 @@ client = OpenAI(
     base_url=openai_api_base,
 )
 
-models = client.models.list()
-model = models.data[0].id
-
 
 def encode_base64_content_from_url(content_url: str) -> str:
     """Encode a content retrieved from a remote url to base64 format."""
@@ -46,7 +49,7 @@ def encode_base64_content_from_url(content_url: str) -> str:
 
 
 # Text-only inference
-def run_text_only() -> None:
+def run_text_only(model: str) -> None:
     chat_completion = client.chat.completions.create(
         messages=[{
             "role": "user",
@@ -61,7 +64,7 @@ def run_text_only() -> None:
 
 
 # Single-image input inference
-def run_single_image() -> None:
+def run_single_image(model: str) -> None:
 
     ## Use image url in the payload
     image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
@@ -117,7 +120,7 @@ def run_single_image() -> None:
 
 
 # Multi-image input inference
-def run_multi_image() -> None:
+def run_multi_image(model: str) -> None:
     image_url_duck = "https://upload.wikimedia.org/wikipedia/commons/d/da/2015_Kaczka_krzy%C5%BCowka_w_wodzie_%28samiec%29.jpg"
     image_url_lion = "https://upload.wikimedia.org/wikipedia/commons/7/77/002_The_lion_king_Snyggve_in_the_Serengeti_National_Park_Photo_by_Giles_Laurent.jpg"
     chat_completion_from_url = client.chat.completions.create(
@@ -152,7 +155,7 @@ def run_multi_image() -> None:
 
 
 # Video input inference
-def run_video() -> None:
+def run_video(model: str) -> None:
     video_url = "http://commondatastorage.googleapis.com/gtv-videos-bucket/sample/ForBiggerFun.mp4"
     video_base64 = encode_base64_content_from_url(video_url)
 
@@ -208,7 +211,7 @@ def run_video() -> None:
 
 
 # Audio input inference
-def run_audio() -> None:
+def run_audio(model: str) -> None:
     from vllm.assets.audio import AudioAsset
 
     audio_url = AudioAsset("winning_call").url
@@ -318,7 +321,8 @@ def parse_args():
 
 def main(args) -> None:
     chat_type = args.chat_type
-    example_function_map[chat_type]()
+    model = get_first_model(client)
+    example_function_map[chat_type](model)
 
 
 if __name__ == "__main__":
diff --git a/examples/online_serving/utils.py b/examples/online_serving/utils.py
new file mode 100644
index 000000000..4826e8e20
--- /dev/null
+++ b/examples/online_serving/utils.py
@@ -0,0 +1,25 @@
+# SPDX-License-Identifier: Apache-2.0
+from openai import APIConnectionError, OpenAI
+from openai.pagination import SyncPage
+from openai.types.model import Model
+
+
+def get_first_model(client: OpenAI) -> str:
+    """
+    Get the first model from the vLLM server.
+    """
+    try:
+        models: SyncPage[Model] = client.models.list()
+    except APIConnectionError as e:
+        raise RuntimeError(
+            "Failed to get the list of models from the vLLM server at "
+            f"{client.base_url} with API key {client.api_key}. Check\n"
+            "1. the server is running\n"
+            "2. the server URL is correct\n"
+            "3. the API key is correct") from e
+
+    if len(models.data) == 0:
+        raise RuntimeError(
+            f"No models found on the vLLM server at {client.base_url}")
+
+    return models.data[0].id
-- 
GitLab


From 67da5720d4ed2aa1f615ec812031f4f3753b3f62 Mon Sep 17 00:00:00 2001
From: Vadim Gimpelson <156319763+vadiklyutiy@users.noreply.github.com>
Date: Fri, 16 May 2025 10:31:02 +0400
Subject: [PATCH 417/461] [PERF] Speed up Qwen2.5-VL model by speed up rotary
 position embedding (#17973)

Signed-off-by: Vadim Gimpelson <vadim.gimpelson@centml.ai>
---
 vllm/model_executor/models/qwen2_5_vl.py | 204 ++++++++++++++---------
 1 file changed, 121 insertions(+), 83 deletions(-)

diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 5904ad1f1..68dd07820 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -25,7 +25,7 @@
 # limitations under the License.
 """Inference-only Qwen2.5-VL model compatible with HuggingFace weights."""
 from collections.abc import Iterable, Mapping
-from functools import partial
+from functools import lru_cache, partial
 from typing import Callable, Literal, Optional, TypedDict, Union
 
 import torch
@@ -478,8 +478,8 @@ class Qwen2_5_VisionRotaryEmbedding(nn.Module):
         super().__init__()
         self.dim = dim
         self.theta = theta
-        inv_freq = 1.0 / (theta
-                          **(torch.arange(0, dim, 2, dtype=torch.float) / dim))
+        inv_freq = 1.0 / (theta**(
+            torch.arange(0, dim, 2, dtype=torch.float, device='cpu') / dim))
         self.register_buffer("inv_freq", inv_freq, persistent=False)
         self._seq_len_cached = 0
         self._freqs_cached = None
@@ -520,7 +520,7 @@ class Qwen2_5_VisionTransformer(nn.Module):
         self.hidden_size = vision_config.hidden_size
         self.num_heads = vision_config.num_heads
 
-        # args for get_window_index
+        # args for get_window_index_thw
         self.window_size = vision_config.window_size
         self.patch_size = vision_config.patch_size
         self.spatial_merge_size = vision_config.spatial_merge_size
@@ -567,65 +567,71 @@ class Qwen2_5_VisionTransformer(nn.Module):
     def device(self) -> torch.device:
         return self.patch_embed.proj.weight.device
 
-    def rot_pos_emb(self, grid_thw: torch.Tensor) -> torch.Tensor:
-        pos_ids = []
-        for t, h, w in grid_thw:
-            hpos_ids = torch.arange(h).unsqueeze(1).expand(-1, w)
-            wpos_ids = torch.arange(w).unsqueeze(0).expand(h, -1)
-            hpos_ids = hpos_ids.reshape(
-                h // self.spatial_merge_size,
-                self.spatial_merge_size,
-                w // self.spatial_merge_size,
-                self.spatial_merge_size,
-            ).permute(0, 2, 1, 3).flatten()
-            wpos_ids = wpos_ids.reshape(
-                h // self.spatial_merge_size,
-                self.spatial_merge_size,
-                w // self.spatial_merge_size,
-                self.spatial_merge_size,
-            ).permute(0, 2, 1, 3).flatten()
-            pos_ids.append(
-                torch.stack([hpos_ids, wpos_ids], dim=-1).repeat(t, 1))
-        pos_ids = torch.cat(pos_ids, dim=0)
-        max_grid_size = grid_thw[:, 1:].max()
-        rotary_pos_emb_full = self.rotary_pos_emb(max_grid_size)
+    def rotary_pos_emb_thw(self, t, h, w):
+        hpos_ids = torch.arange(h).unsqueeze(1).expand(-1, w)
+        wpos_ids = torch.arange(w).unsqueeze(0).expand(h, -1)
+        hpos_ids = hpos_ids.reshape(
+            h // self.spatial_merge_size,
+            self.spatial_merge_size,
+            w // self.spatial_merge_size,
+            self.spatial_merge_size,
+        ).permute(0, 2, 1, 3).flatten()
+        wpos_ids = wpos_ids.reshape(
+            h // self.spatial_merge_size,
+            self.spatial_merge_size,
+            w // self.spatial_merge_size,
+            self.spatial_merge_size,
+        ).permute(0, 2, 1, 3).flatten()
+        pos_ids = torch.stack([hpos_ids, wpos_ids], dim=-1).repeat(t, 1)
+        max_size = max(h, w)
+        rotary_pos_emb_full = self.rotary_pos_emb(max_size)
         rotary_pos_emb = rotary_pos_emb_full[pos_ids].flatten(1)
+        rotary_pos_emb = rotary_pos_emb.reshape(
+            rotary_pos_emb.shape[0] // self.spatial_merge_unit,
+            self.spatial_merge_unit, -1)
+
         return rotary_pos_emb
 
-    def get_window_index(self, grid_thw):
-        window_index: list = []
-        cu_window_seqlens: list = [0]
-        window_index_id = 0
+    def get_window_index_thw(self, grid_t, grid_h, grid_w):
         vit_merger_window_size = (self.window_size //
                                   self.spatial_merge_size // self.patch_size)
 
-        for grid_t, grid_h, grid_w in grid_thw:
-            llm_grid_h = grid_h // self.spatial_merge_size
-            llm_grid_w = grid_w // self.spatial_merge_size
-            index = torch.arange(grid_t * llm_grid_h * llm_grid_w).reshape(
-                grid_t, llm_grid_h, llm_grid_w)
-            pad_h = vit_merger_window_size - llm_grid_h % vit_merger_window_size
-            pad_w = vit_merger_window_size - llm_grid_w % vit_merger_window_size
-            num_windows_h = (llm_grid_h + pad_h) // vit_merger_window_size
-            num_windows_w = (llm_grid_w + pad_w) // vit_merger_window_size
-            index_padded = F.pad(index, (0, pad_w, 0, pad_h), 'constant', -100)
-            index_padded = index_padded.reshape(grid_t, num_windows_h,
-                                                vit_merger_window_size,
-                                                num_windows_w,
-                                                vit_merger_window_size)
-            index_padded = index_padded.permute(0, 1, 3, 2, 4).reshape(
-                grid_t, num_windows_h * num_windows_w, vit_merger_window_size,
-                vit_merger_window_size)
-            seqlens = (index_padded != -100).sum([2, 3]).reshape(-1)
-            index_padded = index_padded.reshape(-1)
-            index_new = index_padded[index_padded != -100]
-            window_index.append(index_new + window_index_id)
-            cu_seqlens_tmp = seqlens.cumsum(
-                0) * self.spatial_merge_unit + cu_window_seqlens[-1]
-            cu_window_seqlens.extend(cu_seqlens_tmp.tolist())
-            window_index_id += (grid_t * llm_grid_h * llm_grid_w).item()
-        window_index = torch.cat(window_index, dim=0)
-        return window_index, cu_window_seqlens
+        llm_grid_h = grid_h // self.spatial_merge_size
+        llm_grid_w = grid_w // self.spatial_merge_size
+        index = torch.arange(grid_t * llm_grid_h * llm_grid_w).reshape(
+            grid_t, llm_grid_h, llm_grid_w)
+        pad_h = vit_merger_window_size - llm_grid_h % vit_merger_window_size
+        pad_w = vit_merger_window_size - llm_grid_w % vit_merger_window_size
+        num_windows_h = (llm_grid_h + pad_h) // vit_merger_window_size
+        num_windows_w = (llm_grid_w + pad_w) // vit_merger_window_size
+        index_padded = F.pad(index, (0, pad_w, 0, pad_h), 'constant', -100)
+        index_padded = index_padded.reshape(grid_t, num_windows_h,
+                                            vit_merger_window_size,
+                                            num_windows_w,
+                                            vit_merger_window_size)
+        index_padded = index_padded.permute(0, 1, 3, 2, 4).reshape(
+            grid_t, num_windows_h * num_windows_w, vit_merger_window_size,
+            vit_merger_window_size)
+        seqlens = (index_padded != -100).sum([2, 3]).reshape(-1)
+        index_padded = index_padded.reshape(-1)
+        index_new = index_padded[index_padded != -100]
+        cu_seqlens_tmp = seqlens.cumsum(0) * self.spatial_merge_unit
+        cu_seqlens_tmp = cu_seqlens_tmp.to(dtype=torch.int32)
+        cu_seqlens_tmp = torch.unique_consecutive(cu_seqlens_tmp)
+
+        return index_new, cu_seqlens_tmp
+
+    @lru_cache(maxsize=1024)  # noqa: B019
+    def get_rope_by_thw(self, t, h, w):
+        window_index_thw, cu_seqlens_window_thw = self.get_window_index_thw(
+            t, h, w)
+        rotary_pos_emb_thw = self.rotary_pos_emb_thw(t, h, w)
+        rotary_pos_emb_thw = rotary_pos_emb_thw[window_index_thw, :, :]
+        rotary_pos_emb_thw = rotary_pos_emb_thw.flatten(start_dim=0, end_dim=1)
+        cu_seqlens_thw = torch.repeat_interleave(
+            torch.tensor([h * w], dtype=torch.int32), t)
+        return (rotary_pos_emb_thw, window_index_thw, cu_seqlens_window_thw,
+                cu_seqlens_thw)
 
     def compute_attn_mask_seqlen(
         self,
@@ -641,45 +647,74 @@ class Qwen2_5_VisionTransformer(nn.Module):
     def forward(
         self,
         x: torch.Tensor,
-        grid_thw: torch.Tensor,
+        grid_thw: list[list[int]],
     ) -> torch.Tensor:
         # patchify
+        seq_len, _ = x.size()
+        rotary_pos_emb = []
+        window_index: list = []
+        cu_window_seqlens: list = [torch.tensor([0], dtype=torch.int32)]
+        cu_seqlens: list = []
+
         hidden_states = x.to(device=self.device, dtype=self.dtype)
         hidden_states = self.patch_embed(hidden_states)
 
-        # compute position embedding
-        rotary_pos_emb = self.rot_pos_emb(grid_thw)
+        window_index_id = 0
+        cu_window_seqlens_last = 0
+        for t, h, w in grid_thw:
+            t, h, w = int(t), int(h), int(w)
+            llm_h = h // self.spatial_merge_size
+            llm_w = w // self.spatial_merge_size
+
+            (
+                rotary_pos_emb_thw,
+                window_index_thw,
+                cu_seqlens_window_thw,
+                cu_seqlens_thw,
+            ) = self.get_rope_by_thw(t, h, w)
+
+            window_index.append(window_index_thw + window_index_id)
+            window_index_id += (t * llm_h * llm_w)
+
+            cu_seqlens_window_thw = (cu_seqlens_window_thw +
+                                     cu_window_seqlens_last)
+            cu_window_seqlens_last = cu_seqlens_window_thw[-1]
+            cu_window_seqlens.append(cu_seqlens_window_thw)
 
-        # windows attention
-        window_index, cu_window_seqlens = self.get_window_index(grid_thw)
-        cu_window_seqlens = torch.tensor(
-            cu_window_seqlens,
-            device=hidden_states.device,
-            dtype=grid_thw.dtype if torch.jit.is_tracing() else torch.int32)
+            rotary_pos_emb.append(rotary_pos_emb_thw)
+
+            cu_seqlens.append(cu_seqlens_thw)
+
+        rotary_pos_emb = torch.cat(rotary_pos_emb)
+        window_index = torch.cat(window_index)
+        cu_window_seqlens = torch.cat(cu_window_seqlens)
         cu_window_seqlens = torch.unique_consecutive(cu_window_seqlens)
-        seq_len, _ = hidden_states.size()
-        hidden_states = hidden_states.reshape(
-            seq_len // self.spatial_merge_unit, self.spatial_merge_unit, -1)
-        hidden_states = hidden_states[window_index, :, :]
-        hidden_states = hidden_states.reshape(seq_len, -1)
-        rotary_pos_emb = rotary_pos_emb.reshape(
-            seq_len // self.spatial_merge_unit, self.spatial_merge_unit, -1)
-        rotary_pos_emb = rotary_pos_emb[window_index, :, :]
-        rotary_pos_emb = rotary_pos_emb.reshape(seq_len, -1)
-        # compute cu_seqlens
-        cu_seqlens = torch.repeat_interleave(grid_thw[:, 1] * grid_thw[:, 2],
-                                             grid_thw[:, 0]).cumsum(
-                                                 dim=0, dtype=torch.int32)
+        cu_seqlens = torch.cat(cu_seqlens)
+        cu_seqlens = torch.cumsum(cu_seqlens, dim=0, dtype=torch.int32)
         cu_seqlens = F.pad(cu_seqlens, (1, 0), "constant", 0)
 
         # transformers
-        hidden_states = hidden_states.unsqueeze(1)
-
         # pre-compute seqlens for window/full attn to reduce cuMemcpy operations
         max_seqlen_full, seqlens_full = self.compute_attn_mask_seqlen(
             cu_seqlens)
         max_seqlen_window, seqlens_window = self.compute_attn_mask_seqlen(
             cu_window_seqlens)
+
+        cu_seqlens = cu_seqlens.to(device=self.device, non_blocking=True)
+        cu_window_seqlens = cu_window_seqlens.to(device=self.device,
+                                                 non_blocking=True)
+        rotary_pos_emb = rotary_pos_emb.to(device=self.device,
+                                           non_blocking=True)
+        window_index = window_index.to(device=hidden_states.device,
+                                       non_blocking=True)
+
+        hidden_states = hidden_states.reshape(
+            seq_len // self.spatial_merge_unit, self.spatial_merge_unit, -1)
+        hidden_states = hidden_states[window_index, :, :]
+        hidden_states = hidden_states.reshape(seq_len, -1)
+
+        hidden_states = hidden_states.unsqueeze(1)
+
         for layer_num, blk in enumerate(self.blocks):
             if layer_num in self.fullatt_block_indexes:
                 cu_seqlens_now = cu_seqlens
@@ -932,12 +967,13 @@ class Qwen2_5_VLForConditionalGeneration(nn.Module, SupportsMultiModal,
 
         grid_thw = image_input["image_grid_thw"]
         assert grid_thw.ndim == 2
+        grid_thw_list = grid_thw.tolist()
 
         if image_input["type"] == "image_embeds":
             image_embeds = image_input["image_embeds"].type(self.visual.dtype)
         else:
             pixel_values = image_input["pixel_values"].type(self.visual.dtype)
-            image_embeds = self.visual(pixel_values, grid_thw=grid_thw)
+            image_embeds = self.visual(pixel_values, grid_thw=grid_thw_list)
 
         # Split concatenated embeddings for each image item.
         merge_size = self.visual.spatial_merge_size
@@ -951,13 +987,15 @@ class Qwen2_5_VLForConditionalGeneration(nn.Module, SupportsMultiModal,
 
         grid_thw = video_input["video_grid_thw"]
         assert grid_thw.ndim == 2
+        grid_thw_list = grid_thw.tolist()
 
         if video_input["type"] == "video_embeds":
             video_embeds = video_input["video_embeds"].type(self.visual.dtype)
         else:
             pixel_values_videos = video_input["pixel_values_videos"].type(
                 self.visual.dtype)
-            video_embeds = self.visual(pixel_values_videos, grid_thw=grid_thw)
+            video_embeds = self.visual(pixel_values_videos,
+                                       grid_thw=grid_thw_list)
 
         # Split concatenated embeddings for each video item.
         merge_size = self.visual.spatial_merge_size
-- 
GitLab


From 541817670cfa6101b135cb12428bd8f875364432 Mon Sep 17 00:00:00 2001
From: Seiji Eicher <58963096+eicherseiji@users.noreply.github.com>
Date: Fri, 16 May 2025 03:02:42 -0500
Subject: [PATCH 418/461] [Misc] Add Ray Prometheus logger to V1 (#17925)

Signed-off-by: Seiji Eicher <seiji@anyscale.com>
---
 tests/v1/metrics/test_ray_metrics.py |  57 +++++++++++++
 vllm/v1/metrics/loggers.py           |  54 ++++++------
 vllm/v1/metrics/ray_wrappers.py      | 120 +++++++++++++++++++++++++++
 vllm/v1/spec_decode/metrics.py       |  27 +++---
 4 files changed, 223 insertions(+), 35 deletions(-)
 create mode 100644 tests/v1/metrics/test_ray_metrics.py
 create mode 100644 vllm/v1/metrics/ray_wrappers.py

diff --git a/tests/v1/metrics/test_ray_metrics.py b/tests/v1/metrics/test_ray_metrics.py
new file mode 100644
index 000000000..02475f7c1
--- /dev/null
+++ b/tests/v1/metrics/test_ray_metrics.py
@@ -0,0 +1,57 @@
+# SPDX-License-Identifier: Apache-2.0
+import pytest
+import ray
+
+from vllm.sampling_params import SamplingParams
+from vllm.v1.engine.async_llm import AsyncEngineArgs, AsyncLLM
+from vllm.v1.metrics.ray_wrappers import RayPrometheusStatLogger
+
+
+@pytest.fixture(scope="function", autouse=True)
+def use_v1_only(monkeypatch):
+    """
+    The change relies on V1 APIs, so set VLLM_USE_V1=1.
+    """
+    monkeypatch.setenv('VLLM_USE_V1', '1')
+
+
+MODELS = [
+    "distilbert/distilgpt2",
+]
+
+
+@pytest.mark.parametrize("model", MODELS)
+@pytest.mark.parametrize("dtype", ["half"])
+@pytest.mark.parametrize("max_tokens", [16])
+def test_engine_log_metrics_ray(
+    example_prompts,
+    model: str,
+    dtype: str,
+    max_tokens: int,
+) -> None:
+    """ Simple smoke test, verifying this can be used without exceptions.
+    Need to start a Ray cluster in order to verify outputs."""
+
+    @ray.remote(num_gpus=1)
+    class EngineTestActor:
+
+        async def run(self):
+            engine_args = AsyncEngineArgs(
+                model=model,
+                dtype=dtype,
+                disable_log_stats=False,
+            )
+
+            engine = AsyncLLM.from_engine_args(
+                engine_args, stat_loggers=[RayPrometheusStatLogger])
+
+            for i, prompt in enumerate(example_prompts):
+                engine.generate(
+                    request_id=f"request-id-{i}",
+                    prompt=prompt,
+                    sampling_params=SamplingParams(max_tokens=max_tokens),
+                )
+
+    # Create the actor and call the async method
+    actor = EngineTestActor.remote()  # type: ignore[attr-defined]
+    ray.get(actor.run.remote())
diff --git a/vllm/v1/metrics/loggers.py b/vllm/v1/metrics/loggers.py
index 6ee40850b..2b75a3a2e 100644
--- a/vllm/v1/metrics/loggers.py
+++ b/vllm/v1/metrics/loggers.py
@@ -138,6 +138,10 @@ class LoggingStatLogger(StatLoggerBase):
 
 
 class PrometheusStatLogger(StatLoggerBase):
+    _gauge_cls = prometheus_client.Gauge
+    _counter_cls = prometheus_client.Counter
+    _histogram_cls = prometheus_client.Histogram
+    _spec_decoding_cls = SpecDecodingProm
 
     def __init__(self, vllm_config: VllmConfig, engine_index: int = 0):
         self._unregister_vllm_metrics()
@@ -156,18 +160,18 @@ class PrometheusStatLogger(StatLoggerBase):
 
         max_model_len = vllm_config.model_config.max_model_len
 
-        self.spec_decoding_prom = SpecDecodingProm(
+        self.spec_decoding_prom = self._spec_decoding_cls(
             vllm_config.speculative_config, labelnames, labelvalues)
 
         #
         # Scheduler state
         #
-        self.gauge_scheduler_running = prometheus_client.Gauge(
+        self.gauge_scheduler_running = self._gauge_cls(
             name="vllm:num_requests_running",
             documentation="Number of requests in model execution batches.",
             labelnames=labelnames).labels(*labelvalues)
 
-        self.gauge_scheduler_waiting = prometheus_client.Gauge(
+        self.gauge_scheduler_waiting = self._gauge_cls(
             name="vllm:num_requests_waiting",
             documentation="Number of requests waiting to be processed.",
             labelnames=labelnames).labels(*labelvalues)
@@ -175,18 +179,18 @@ class PrometheusStatLogger(StatLoggerBase):
         #
         # GPU cache
         #
-        self.gauge_gpu_cache_usage = prometheus_client.Gauge(
+        self.gauge_gpu_cache_usage = self._gauge_cls(
             name="vllm:gpu_cache_usage_perc",
             documentation="GPU KV-cache usage. 1 means 100 percent usage.",
             labelnames=labelnames).labels(*labelvalues)
 
-        self.counter_gpu_prefix_cache_queries = prometheus_client.Counter(
+        self.counter_gpu_prefix_cache_queries = self._counter_cls(
             name="vllm:gpu_prefix_cache_queries",
             documentation=
             "GPU prefix cache queries, in terms of number of queried tokens.",
             labelnames=labelnames).labels(*labelvalues)
 
-        self.counter_gpu_prefix_cache_hits = prometheus_client.Counter(
+        self.counter_gpu_prefix_cache_hits = self._counter_cls(
             name="vllm:gpu_prefix_cache_hits",
             documentation=
             "GPU prefix cache hits, in terms of number of cached tokens.",
@@ -195,24 +199,24 @@ class PrometheusStatLogger(StatLoggerBase):
         #
         # Counters
         #
-        self.counter_num_preempted_reqs = prometheus_client.Counter(
+        self.counter_num_preempted_reqs = self._counter_cls(
             name="vllm:num_preemptions_total",
             documentation="Cumulative number of preemption from the engine.",
             labelnames=labelnames).labels(*labelvalues)
 
-        self.counter_prompt_tokens = prometheus_client.Counter(
+        self.counter_prompt_tokens = self._counter_cls(
             name="vllm:prompt_tokens_total",
             documentation="Number of prefill tokens processed.",
             labelnames=labelnames).labels(*labelvalues)
 
-        self.counter_generation_tokens = prometheus_client.Counter(
+        self.counter_generation_tokens = self._counter_cls(
             name="vllm:generation_tokens_total",
             documentation="Number of generation tokens processed.",
             labelnames=labelnames).labels(*labelvalues)
 
         self.counter_request_success: dict[FinishReason,
                                            prometheus_client.Counter] = {}
-        counter_request_success_base = prometheus_client.Counter(
+        counter_request_success_base = self._counter_cls(
             name="vllm:request_success_total",
             documentation="Count of successfully processed requests.",
             labelnames=labelnames + ["finished_reason"])
@@ -225,21 +229,21 @@ class PrometheusStatLogger(StatLoggerBase):
         # Histograms of counts
         #
         self.histogram_num_prompt_tokens_request = \
-            prometheus_client.Histogram(
+            self._histogram_cls(
                 name="vllm:request_prompt_tokens",
                 documentation="Number of prefill tokens processed.",
                 buckets=build_1_2_5_buckets(max_model_len),
                 labelnames=labelnames).labels(*labelvalues)
 
         self.histogram_num_generation_tokens_request = \
-            prometheus_client.Histogram(
+            self._histogram_cls(
                 name="vllm:request_generation_tokens",
                 documentation="Number of generation tokens processed.",
                 buckets=build_1_2_5_buckets(max_model_len),
                 labelnames=labelnames).labels(*labelvalues)
 
         self.histogram_iteration_tokens = \
-            prometheus_client.Histogram(
+            self._histogram_cls(
                 name="vllm:iteration_tokens_total",
                 documentation="Histogram of number of tokens per engine_step.",
                 buckets=[
@@ -249,7 +253,7 @@ class PrometheusStatLogger(StatLoggerBase):
                 labelnames=labelnames).labels(*labelvalues)
 
         self.histogram_max_num_generation_tokens_request = \
-            prometheus_client.Histogram(
+            self._histogram_cls(
                 name="vllm:request_max_num_generation_tokens",
                 documentation=
                 "Histogram of maximum number of requested generation tokens.",
@@ -257,14 +261,14 @@ class PrometheusStatLogger(StatLoggerBase):
                 labelnames=labelnames).labels(*labelvalues)
 
         self.histogram_n_request = \
-            prometheus_client.Histogram(
+            self._histogram_cls(
                 name="vllm:request_params_n",
                 documentation="Histogram of the n request parameter.",
                 buckets=[1, 2, 5, 10, 20],
                 labelnames=labelnames).labels(*labelvalues)
 
         self.histogram_max_tokens_request = \
-            prometheus_client.Histogram(
+            self._histogram_cls(
                 name="vllm:request_params_max_tokens",
                 documentation="Histogram of the max_tokens request parameter.",
                 buckets=build_1_2_5_buckets(max_model_len),
@@ -274,7 +278,7 @@ class PrometheusStatLogger(StatLoggerBase):
         # Histogram of timing intervals
         #
         self.histogram_time_to_first_token = \
-            prometheus_client.Histogram(
+            self._histogram_cls(
                 name="vllm:time_to_first_token_seconds",
                 documentation="Histogram of time to first token in seconds.",
                 buckets=[
@@ -285,7 +289,7 @@ class PrometheusStatLogger(StatLoggerBase):
                 labelnames=labelnames).labels(*labelvalues)
 
         self.histogram_time_per_output_token = \
-            prometheus_client.Histogram(
+            self._histogram_cls(
                 name="vllm:time_per_output_token_seconds",
                 documentation="Histogram of time per output token in seconds.",
                 buckets=[
@@ -299,34 +303,34 @@ class PrometheusStatLogger(StatLoggerBase):
             40.0, 50.0, 60.0, 120.0, 240.0, 480.0, 960.0, 1920.0, 7680.0
         ]
         self.histogram_e2e_time_request = \
-            prometheus_client.Histogram(
+            self._histogram_cls(
                 name="vllm:e2e_request_latency_seconds",
                 documentation="Histogram of e2e request latency in seconds.",
                 buckets=request_latency_buckets,
                 labelnames=labelnames).labels(*labelvalues)
         self.histogram_queue_time_request = \
-            prometheus_client.Histogram(
+            self._histogram_cls(
                 name="vllm:request_queue_time_seconds",
                 documentation=
                 "Histogram of time spent in WAITING phase for request.",
                 buckets=request_latency_buckets,
                 labelnames=labelnames).labels(*labelvalues)
         self.histogram_inference_time_request = \
-            prometheus_client.Histogram(
+            self._histogram_cls(
                 name="vllm:request_inference_time_seconds",
                 documentation=
                 "Histogram of time spent in RUNNING phase for request.",
                 buckets=request_latency_buckets,
                 labelnames=labelnames).labels(*labelvalues)
         self.histogram_prefill_time_request = \
-            prometheus_client.Histogram(
+            self._histogram_cls(
                 name="vllm:request_prefill_time_seconds",
                 documentation=
                 "Histogram of time spent in PREFILL phase for request.",
                 buckets=request_latency_buckets,
                 labelnames=labelnames).labels(*labelvalues)
         self.histogram_decode_time_request = \
-            prometheus_client.Histogram(
+            self._histogram_cls(
                 name="vllm:request_decode_time_seconds",
                 documentation=
                 "Histogram of time spent in DECODE phase for request.",
@@ -343,7 +347,7 @@ class PrometheusStatLogger(StatLoggerBase):
             self.labelname_running_lora_adapters = "running_lora_adapters"
             self.max_lora = vllm_config.lora_config.max_loras
             self.gauge_lora_info = \
-                prometheus_client.Gauge(
+                self._gauge_cls(
                     name="vllm:lora_requests_info",
                     documentation="Running stats on lora requests.",
                     labelnames=[
@@ -365,7 +369,7 @@ class PrometheusStatLogger(StatLoggerBase):
         # Info type metrics are syntactic sugar for a gauge permanently set to 1
         # Since prometheus multiprocessing mode does not support Info, emulate
         # info here with a gauge.
-        info_gauge = prometheus_client.Gauge(
+        info_gauge = self._gauge_cls(
             name=name,
             documentation=documentation,
             labelnames=metrics_info.keys()).labels(**metrics_info)
diff --git a/vllm/v1/metrics/ray_wrappers.py b/vllm/v1/metrics/ray_wrappers.py
new file mode 100644
index 000000000..a51c3ed7f
--- /dev/null
+++ b/vllm/v1/metrics/ray_wrappers.py
@@ -0,0 +1,120 @@
+# SPDX-License-Identifier: Apache-2.0
+import time
+from typing import Optional, Union
+
+from vllm.config import VllmConfig
+from vllm.v1.metrics.loggers import PrometheusStatLogger
+from vllm.v1.spec_decode.metrics import SpecDecodingProm
+
+try:
+    from ray.util import metrics as ray_metrics
+    from ray.util.metrics import Metric
+except ImportError:
+    ray_metrics = None
+
+
+class RayPrometheusMetric:
+
+    def __init__(self):
+        if ray_metrics is None:
+            raise ImportError(
+                "RayPrometheusMetric requires Ray to be installed.")
+
+        self.metric: Metric = None
+
+    def labels(self, *labels, **labelskwargs):
+        if labelskwargs:
+            for k, v in labelskwargs.items():
+                if not isinstance(v, str):
+                    labelskwargs[k] = str(v)
+
+            self.metric.set_default_tags(labelskwargs)
+
+        return self
+
+
+class RayGaugeWrapper(RayPrometheusMetric):
+    """Wraps around ray.util.metrics.Gauge to provide same API as
+    prometheus_client.Gauge"""
+
+    def __init__(self,
+                 name: str,
+                 documentation: Optional[str] = "",
+                 labelnames: Optional[list[str]] = None):
+        labelnames_tuple = tuple(labelnames) if labelnames else None
+        self.metric = ray_metrics.Gauge(name=name,
+                                        description=documentation,
+                                        tag_keys=labelnames_tuple)
+
+    def set(self, value: Union[int, float]):
+        return self.metric.set(value)
+
+    def set_to_current_time(self):
+        # ray metrics doesn't have set_to_current time, https://docs.ray.io/en/latest/_modules/ray/util/metrics.html
+        return self.metric.set(time.time())
+
+
+class RayCounterWrapper(RayPrometheusMetric):
+    """Wraps around ray.util.metrics.Counter to provide same API as
+    prometheus_client.Counter"""
+
+    def __init__(self,
+                 name: str,
+                 documentation: Optional[str] = "",
+                 labelnames: Optional[list[str]] = None):
+        labelnames_tuple = tuple(labelnames) if labelnames else None
+        self.metric = ray_metrics.Counter(name=name,
+                                          description=documentation,
+                                          tag_keys=labelnames_tuple)
+
+    def inc(self, value: Union[int, float] = 1.0):
+        if value == 0:
+            return
+        return self.metric.inc(value)
+
+
+class RayHistogramWrapper(RayPrometheusMetric):
+    """Wraps around ray.util.metrics.Histogram to provide same API as
+    prometheus_client.Histogram"""
+
+    def __init__(self,
+                 name: str,
+                 documentation: Optional[str] = "",
+                 labelnames: Optional[list[str]] = None,
+                 buckets: Optional[list[float]] = None):
+        labelnames_tuple = tuple(labelnames) if labelnames else None
+        boundaries = buckets if buckets else []
+        self.metric = ray_metrics.Histogram(name=name,
+                                            description=documentation,
+                                            tag_keys=labelnames_tuple,
+                                            boundaries=boundaries)
+
+    def observe(self, value: Union[int, float]):
+        return self.metric.observe(value)
+
+
+class RaySpecDecodingProm(SpecDecodingProm):
+    """
+    RaySpecDecodingProm is used by RayMetrics to log to Ray metrics.
+    Provides the same metrics as SpecDecodingProm but uses Ray's
+    util.metrics library.
+    """
+
+    _counter_cls = RayCounterWrapper
+
+
+class RayPrometheusStatLogger(PrometheusStatLogger):
+    """RayPrometheusStatLogger uses Ray metrics instead."""
+
+    _gauge_cls = RayGaugeWrapper
+    _counter_cls = RayCounterWrapper
+    _histogram_cls = RayHistogramWrapper
+    _spec_decoding_cls = RaySpecDecodingProm
+
+    def __init__(self, vllm_config: VllmConfig, engine_index: int = 0):
+        super().__init__(vllm_config, engine_index)
+
+    @staticmethod
+    def _unregister_vllm_metrics():
+        # No-op on purpose
+        pass
diff --git a/vllm/v1/spec_decode/metrics.py b/vllm/v1/spec_decode/metrics.py
index f71a59908..899aa9200 100644
--- a/vllm/v1/spec_decode/metrics.py
+++ b/vllm/v1/spec_decode/metrics.py
@@ -120,24 +120,30 @@ class SpecDecodingProm:
       vllm:spec_decode_num_drafts[$interval]
     """
 
-    def __init__(self, speculative_config: Optional[SpeculativeConfig],
-                 labelnames: list[str], labelvalues: list[str]):
+    _counter_cls = prometheus_client.Counter
+
+    def __init__(
+        self,
+        speculative_config: Optional[SpeculativeConfig],
+        labelnames: list[str],
+        labelvalues: list[str],
+    ):
         self.spec_decoding_enabled = speculative_config is not None
         if not self.spec_decoding_enabled:
             return
 
         self.counter_spec_decode_num_drafts = \
-            prometheus_client.Counter(
+            self._counter_cls(
                 name="vllm:spec_decode_num_drafts_total",
                 documentation="Number of spec decoding drafts.",
                 labelnames=labelnames).labels(*labelvalues)
         self.counter_spec_decode_num_draft_tokens = \
-            prometheus_client.Counter(
+            self._counter_cls(
                 name="vllm:spec_decode_num_draft_tokens_total",
                 documentation="Number of draft tokens.",
-                labelnames=labelnames).labels(*labelvalues)
+                labelnames=labelnames,).labels(*labelvalues)
         self.counter_spec_decode_num_accepted_tokens = \
-            prometheus_client.Counter(
+            self._counter_cls(
                 name="vllm:spec_decode_num_accepted_tokens_total",
                 documentation="Number of accepted tokens.",
                 labelnames=labelnames).labels(*labelvalues)
@@ -146,12 +152,13 @@ class SpecDecodingProm:
         num_spec_tokens = (speculative_config.num_speculative_tokens
                            if self.spec_decoding_enabled else 0)
         pos_labelnames = labelnames + ["position"]
-        base_counter = prometheus_client.Counter(
+        base_counter = self._counter_cls(
             name="vllm:spec_decode_num_accepted_tokens_per_pos",
             documentation="Accepted tokens per draft position.",
-            labelnames=pos_labelnames)
-        self.counter_spec_decode_num_accepted_tokens_per_pos: \
-            list[prometheus_client.Counter] = []
+            labelnames=pos_labelnames,
+        )
+        self.counter_spec_decode_num_accepted_tokens_per_pos: list[
+            prometheus_client.Counter] = []
         for pos in range(num_spec_tokens):
             pos_labelvalues = labelvalues + [str(pos)]
             self.counter_spec_decode_num_accepted_tokens_per_pos.append(
-- 
GitLab


From 390ec88905fa2c7dfbcfc5e772891e48f228bf43 Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Fri, 16 May 2025 17:18:08 +0800
Subject: [PATCH 419/461] [Misc] Consolidate Audio tests into multimodal common
 generation tests (#18214)

Signed-off-by: Isotr0py <2037008807@qq.com>
---
 .../multimodal/generation/test_common.py      |  64 ++++++++-
 .../multimodal/generation/test_ultravox.py    | 112 +--------------
 .../generation/vlm_utils/builders.py          | 133 +++++++++++++-----
 .../generation/vlm_utils/case_filtering.py    |   8 +-
 .../multimodal/generation/vlm_utils/core.py   |  29 ++--
 .../generation/vlm_utils/custom_inputs.py     |  76 +++++-----
 .../generation/vlm_utils/model_utils.py       |  12 ++
 .../generation/vlm_utils/runners.py           |  37 +++--
 .../multimodal/generation/vlm_utils/types.py  |  26 +++-
 9 files changed, 282 insertions(+), 215 deletions(-)

diff --git a/tests/models/multimodal/generation/test_common.py b/tests/models/multimodal/generation/test_common.py
index dead2edc4..d51a03dfe 100644
--- a/tests/models/multimodal/generation/test_common.py
+++ b/tests/models/multimodal/generation/test_common.py
@@ -8,14 +8,14 @@ from collections import defaultdict
 from pathlib import PosixPath
 
 import pytest
-from transformers import (AutoModelForImageTextToText,
+from transformers import (AutoModel, AutoModelForImageTextToText,
                           AutoModelForTextToWaveform, AutoModelForVision2Seq)
 
 from vllm.platforms import current_platform
 from vllm.utils import identity
 
-from ....conftest import (IMAGE_ASSETS, HfRunner, ImageTestAssets,
-                          VideoTestAssets, VllmRunner)
+from ....conftest import (IMAGE_ASSETS, AudioTestAssets, HfRunner,
+                          ImageTestAssets, VideoTestAssets, VllmRunner)
 from ....utils import (create_new_process_for_each_test, large_gpu_mark,
                        multi_gpu_marks)
 from ...utils import check_outputs_equal
@@ -158,6 +158,17 @@ VLM_TEST_SETTINGS = {
         image_size_factors=[(), (0.25,), (0.25, 0.25, 0.25), (0.25, 0.2, 0.15)],
         marks=[pytest.mark.core_model, pytest.mark.cpu_model],
     ),
+    "ultravox": VLMTestInfo(
+        models = ["fixie-ai/ultravox-v0_5-llama-3_2-1b"],
+        test_type=VLMTestType.AUDIO,
+        prompt_formatter=lambda audio_prompt: f"<|begin_of_text|><|start_header_id|>user<|end_header_id|>\n\n{audio_prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n", # noqa: E501
+        audio_idx_to_prompt=lambda idx: "<|audio|>",
+        max_model_len=4096,
+        max_num_seqs=2,
+        auto_cls=AutoModel,
+        hf_output_post_proc=model_utils.ultravox_trunc_hf_output,
+        marks=[pytest.mark.core_model, pytest.mark.cpu_model],
+    ),
     #### Extended model tests
     "aria": VLMTestInfo(
         models=["rhymes-ai/Aria"],
@@ -393,7 +404,6 @@ VLM_TEST_SETTINGS = {
                 formatter=lambda vid_prompt: f"<|im_start|>user\n{vid_prompt}<|im_end|>\n<|im_start|>assistant\n",   # noqa: E501
             ),
             limit_mm_per_prompt={"video": 4},
-            runner_mm_key="videos",
         )],
     ),
     "llava_next_video": VLMTestInfo(
@@ -706,6 +716,7 @@ VLM_TEST_SETTINGS = _mark_splits(VLM_TEST_SETTINGS, num_groups=2)
 # - multi-image
 # - image embeddings
 # - video
+# - audio
 # - custom inputs
 @pytest.mark.parametrize(
     "model_type,test_case",
@@ -803,6 +814,28 @@ def test_video_models(model_type: str, test_case: ExpandableVLMTestArgs,
     )
 
 
+@pytest.mark.parametrize(
+    "model_type,test_case",
+    get_parametrized_options(
+        VLM_TEST_SETTINGS,
+        test_type=VLMTestType.AUDIO,
+        create_new_process_for_each_test=False,
+    ))
+def test_audio_models(model_type: str, test_case: ExpandableVLMTestArgs,
+                      hf_runner: type[HfRunner], vllm_runner: type[VllmRunner],
+                      audio_assets: AudioTestAssets, monkeypatch):
+    if model_type in REQUIRES_V0_MODELS:
+        monkeypatch.setenv("VLLM_USE_V1", "0")
+    model_test_info = VLM_TEST_SETTINGS[model_type]
+    runners.run_audio_test(
+        model_test_info=model_test_info,
+        test_case=test_case,
+        hf_runner=hf_runner,
+        vllm_runner=vllm_runner,
+        audio_assets=audio_assets,
+    )
+
+
 @pytest.mark.parametrize(
     "model_type,test_case",
     get_parametrized_options(
@@ -930,6 +963,29 @@ def test_video_models_heavy(model_type: str, test_case: ExpandableVLMTestArgs,
     )
 
 
+@pytest.mark.parametrize(
+    "model_type,test_case",
+    get_parametrized_options(
+        VLM_TEST_SETTINGS,
+        test_type=VLMTestType.AUDIO,
+        create_new_process_for_each_test=True,
+    ))
+def test_audio_models_heavy(model_type: str, test_case: ExpandableVLMTestArgs,
+                            hf_runner: type[HfRunner],
+                            vllm_runner: type[VllmRunner],
+                            audio_assets: AudioTestAssets, monkeypatch):
+    if model_type in REQUIRES_V0_MODELS:
+        monkeypatch.setenv("VLLM_USE_V1", "0")
+    model_test_info = VLM_TEST_SETTINGS[model_type]
+    runners.run_audio_test(
+        model_test_info=model_test_info,
+        test_case=test_case,
+        hf_runner=hf_runner,
+        vllm_runner=vllm_runner,
+        audio_assets=audio_assets,
+    )
+
+
 @pytest.mark.parametrize(
     "model_type,test_case",
     get_parametrized_options(
diff --git a/tests/models/multimodal/generation/test_ultravox.py b/tests/models/multimodal/generation/test_ultravox.py
index 322d886a5..2c8a06688 100644
--- a/tests/models/multimodal/generation/test_ultravox.py
+++ b/tests/models/multimodal/generation/test_ultravox.py
@@ -1,20 +1,16 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import json
-from typing import Any, Optional
+from typing import Any
 
 import numpy as np
 import pytest
 import pytest_asyncio
-from transformers import AutoModel, AutoTokenizer
+from transformers import AutoTokenizer
 
-from vllm.multimodal.audio import resample_audio_librosa
-from vllm.sequence import SampleLogprobs
-
-from ....conftest import AUDIO_ASSETS, AudioTestAssets, HfRunner, VllmRunner
+from ....conftest import AUDIO_ASSETS, AudioTestAssets, VllmRunner
 from ....utils import RemoteOpenAIServer
 from ...registry import HF_EXAMPLE_MODELS
-from ...utils import check_logprobs_close
 
 MODEL_NAME = "fixie-ai/ultravox-v0_5-llama-3_2-1b"
 
@@ -88,79 +84,6 @@ def _get_prompt(audio_count, question, placeholder):
                                          add_generation_prompt=True)
 
 
-def vllm_to_hf_output(vllm_output: tuple[list[int], str,
-                                         Optional[SampleLogprobs]],
-                      model: str):
-    """Sanitize vllm output to be comparable with hf output."""
-    output_ids, output_str, out_logprobs = vllm_output
-
-    tokenizer = AutoTokenizer.from_pretrained(model)
-    eos_token_id = tokenizer.eos_token_id
-
-    hf_output_ids = output_ids[:]
-    hf_output_str = output_str
-    if hf_output_ids[-1] == eos_token_id:
-        hf_output_str = hf_output_str + tokenizer.decode(eos_token_id)
-
-    return hf_output_ids, hf_output_str, out_logprobs
-
-
-def run_test(
-    hf_runner: type[HfRunner],
-    vllm_runner: type[VllmRunner],
-    prompts_and_audios: list[tuple[str, str, AudioTuple]],
-    model: str,
-    *,
-    dtype: str,
-    max_tokens: int,
-    num_logprobs: int,
-    **kwargs,
-):
-    """Inference result should be the same between hf and vllm."""
-    model_info = HF_EXAMPLE_MODELS.find_hf_info(model)
-    model_info.check_available_online(on_fail="skip")
-    model_info.check_transformers_version(on_fail="skip")
-
-    # NOTE: take care of the order. run vLLM first, and then run HF.
-    # vLLM needs a fresh new process without cuda initialization.
-    # if we run HF first, the cuda initialization will be done and it
-    # will hurt multiprocessing backend with fork method (the default method).
-
-    with vllm_runner(model, dtype=dtype, enforce_eager=True,
-                     **kwargs) as vllm_model:
-        vllm_outputs_per_audio = [
-            vllm_model.generate_greedy_logprobs([vllm_prompt],
-                                                max_tokens,
-                                                num_logprobs=num_logprobs,
-                                                audios=[audio])
-            for vllm_prompt, _, audio in prompts_and_audios
-        ]
-
-    with hf_runner(model, dtype=dtype, auto_cls=AutoModel) as hf_model:
-        hf_outputs_per_audio = [
-            hf_model.generate_greedy_logprobs_limit(
-                [hf_prompt],
-                max_tokens,
-                num_logprobs=num_logprobs,
-                audios=[(resample_audio_librosa(audio[0],
-                                                orig_sr=audio[1],
-                                                target_sr=16000), 16000)])
-            for _, hf_prompt, audio in prompts_and_audios
-        ]
-
-    for hf_outputs, vllm_outputs in zip(hf_outputs_per_audio,
-                                        vllm_outputs_per_audio):
-        check_logprobs_close(
-            outputs_0_lst=hf_outputs,
-            outputs_1_lst=[
-                vllm_to_hf_output(vllm_output, model)
-                for vllm_output in vllm_outputs
-            ],
-            name_0="hf",
-            name_1="vllm",
-        )
-
-
 def run_multi_audio_test(
     vllm_runner: type[VllmRunner],
     prompts_and_audios: list[tuple[str, list[AudioTuple]]],
@@ -194,35 +117,6 @@ def run_multi_audio_test(
     assert all(tokens for tokens, *_ in vllm_outputs)
 
 
-@pytest.mark.core_model
-@pytest.mark.parametrize("dtype", ["bfloat16"])
-@pytest.mark.parametrize("max_tokens", [128])
-@pytest.mark.parametrize("num_logprobs", [5])
-@pytest.mark.parametrize("vllm_kwargs", [
-    pytest.param({}, marks=pytest.mark.cpu_model),
-    pytest.param(CHUNKED_PREFILL_KWARGS),
-])
-def test_models(hf_runner, vllm_runner, audio_assets: AudioTestAssets,
-                dtype: str, max_tokens: int, num_logprobs: int,
-                vllm_kwargs: dict) -> None:
-    audio_inputs = [(
-        _get_prompt(1, audio, VLLM_PLACEHOLDER),
-        _get_prompt(1, audio, HF_PLACEHOLDER),
-        audio.audio_and_sample_rate,
-    ) for audio in audio_assets]
-
-    run_test(
-        hf_runner,
-        vllm_runner,
-        audio_inputs,
-        MODEL_NAME,
-        dtype=dtype,
-        max_tokens=max_tokens,
-        num_logprobs=num_logprobs,
-        **vllm_kwargs,
-    )
-
-
 @pytest.mark.core_model
 @pytest.mark.parametrize("dtype", ["half"])
 @pytest.mark.parametrize("max_tokens", [128])
diff --git a/tests/models/multimodal/generation/vlm_utils/builders.py b/tests/models/multimodal/generation/vlm_utils/builders.py
index e3ba955a9..32117c8d8 100644
--- a/tests/models/multimodal/generation/vlm_utils/builders.py
+++ b/tests/models/multimodal/generation/vlm_utils/builders.py
@@ -7,18 +7,21 @@ from typing import Callable, Optional, Union
 
 import torch
 
+from vllm.multimodal.audio import AudioResampler
 from vllm.multimodal.image import rescale_image_size
 from vllm.multimodal.video import (rescale_video_size, resize_video,
                                    sample_frames_from_video)
 
-from .....conftest import ImageTestAssets, VideoTestAssets
-from .types import (SINGLE_IMAGE_BASE_PROMPTS, TEST_IMG_PLACEHOLDER,
+from .....conftest import AudioTestAssets, ImageTestAssets, VideoTestAssets
+from .types import (SINGLE_AUDIO_BASE_PROMPT, SINGLE_IMAGE_BASE_PROMPTS,
+                    TEST_AUDIO_PLACEHOLDER, TEST_IMG_PLACEHOLDER,
                     TEST_VIDEO_PLACEHOLDER, VIDEO_BASE_PROMPT,
-                    ImageSizeWrapper, SizeType, VLMTestInfo)
+                    ImageSizeWrapper, PromptWithMultiModalInput, SizeType,
+                    VLMTestInfo)
 
 
-def replace_test_placeholder(prompt: str, img_idx_to_prompt: Callable[[int],
-                                                                      str],
+def replace_test_placeholder(prompt: str, mm_idx_to_prompt: Callable[[int],
+                                                                     str],
                              test_placeholder: str) -> str:
     """Given a prompt, replaces each test placeholder with the
     model-specific tag.
@@ -26,7 +29,7 @@ def replace_test_placeholder(prompt: str, img_idx_to_prompt: Callable[[int],
     prompt_segments = prompt.split(test_placeholder)
     img_prompt = prompt_segments[0]
     for placeholder_idx, next_seg in enumerate(prompt_segments[1:], start=1):
-        img_prompt += img_idx_to_prompt(placeholder_idx)
+        img_prompt += mm_idx_to_prompt(placeholder_idx)
         img_prompt += next_seg
     return img_prompt
 
@@ -34,6 +37,7 @@ def replace_test_placeholder(prompt: str, img_idx_to_prompt: Callable[[int],
 def get_model_prompts(base_prompts: Iterable[str],
                       img_idx_to_prompt: Optional[Callable[[int], str]],
                       video_idx_to_prompt: Optional[Callable[[int], str]],
+                      audio_idx_to_prompt: Optional[Callable[[int], str]],
                       prompt_formatter: Callable[[str], str]) -> list[str]:
     """Given a model-agnostic base prompt and test configuration for a model(s)
     to be tested, update the media placeholders and apply the prompt formatting
@@ -60,6 +64,11 @@ def get_model_prompts(base_prompts: Iterable[str],
                                                    video_idx_to_prompt,
                                                    TEST_VIDEO_PLACEHOLDER)
 
+        if audio_idx_to_prompt:
+            base_prompt = replace_test_placeholder(base_prompt,
+                                                   audio_idx_to_prompt,
+                                                   TEST_AUDIO_PLACEHOLDER)
+
         # Apply the prompt formatter to wrap the base prompt with
         # the correct media placeholders to get the model test prompt
         model_prompt = prompt_formatter(base_prompt)
@@ -68,10 +77,11 @@ def get_model_prompts(base_prompts: Iterable[str],
 
 
 def build_single_image_inputs_from_test_info(
-        test_info: VLMTestInfo,
-        image_assets: ImageTestAssets,
-        size_wrapper: ImageSizeWrapper,
-        tmp_path: Optional[PosixPath] = None):
+    test_info: VLMTestInfo,
+    image_assets: ImageTestAssets,
+    size_wrapper: ImageSizeWrapper,
+    tmp_path: Optional[PosixPath] = None,
+) -> list[PromptWithMultiModalInput]:
     if test_info.prompt_formatter is None:
         raise ValueError(
             "Prompt formatter must be set to build single image inputs")
@@ -79,6 +89,7 @@ def build_single_image_inputs_from_test_info(
     model_prompts = get_model_prompts(test_info.single_image_prompts,
                                       test_info.img_idx_to_prompt,
                                       test_info.video_idx_to_prompt,
+                                      test_info.audio_idx_to_prompt,
                                       test_info.prompt_formatter)
 
     # For models that require a local path / URL encoded in the image; export
@@ -97,28 +108,32 @@ def build_single_image_inputs_from_test_info(
     return build_single_image_inputs(images, model_prompts, size_wrapper)
 
 
-def build_single_image_inputs(images, model_prompts,
-                              size_wrapper: ImageSizeWrapper):
+def build_single_image_inputs(
+        images, model_prompts,
+        size_wrapper: ImageSizeWrapper) -> list[PromptWithMultiModalInput]:
     # For every image / prompt pair, get a pair containing two lists of
     # length size_factors, where the first contains duplicates of the model
     # prompt [str], and the second contains copies of the image after being
     # scaled by one of the size factors.
     #
     # NOTE: rescaling preserves the image aspect ratio.
-    return [(
-        [prompt for _ in size_wrapper.data],
-        [
-            apply_image_size_scaling(image, size, size_wrapper.type)
-            for size in size_wrapper.data
-        ],
-    ) for image, prompt in zip(images, model_prompts)]
+    return [
+        PromptWithMultiModalInput(
+            prompts=[prompt for _ in size_wrapper.data],
+            image_data=[
+                apply_image_size_scaling(image, size, size_wrapper.type)
+                for size in size_wrapper.data
+            ],
+        ) for image, prompt in zip(images, model_prompts)
+    ]
 
 
 def build_multi_image_inputs_from_test_info(
-        test_info: VLMTestInfo,
-        image_assets: ImageTestAssets,
-        size_wrapper: ImageSizeWrapper,
-        tmp_path: Optional[PosixPath] = None):
+    test_info: VLMTestInfo,
+    image_assets: ImageTestAssets,
+    size_wrapper: ImageSizeWrapper,
+    tmp_path: Optional[PosixPath] = None,
+) -> list[PromptWithMultiModalInput]:
     if test_info.prompt_formatter is None:
         raise ValueError(
             "Prompt formatter must be set to build multi image inputs")
@@ -126,6 +141,7 @@ def build_multi_image_inputs_from_test_info(
     model_prompts = get_model_prompts([test_info.multi_image_prompt],
                                       test_info.img_idx_to_prompt,
                                       test_info.video_idx_to_prompt,
+                                      test_info.audio_idx_to_prompt,
                                       test_info.prompt_formatter)
 
     if test_info.prompt_path_encoder is not None:
@@ -146,15 +162,18 @@ def build_multi_image_inputs_from_test_info(
     )
 
 
-def build_multi_image_inputs(image_lists, model_prompts,
-                             size_wrapper: ImageSizeWrapper):
-    return [(
-        [prompt for _ in size_wrapper.data],
-        [[
-            apply_image_size_scaling(image, size, size_wrapper.type)
-            for image in images
-        ] for size in size_wrapper.data],
-    ) for images, prompt in zip(image_lists, model_prompts)]
+def build_multi_image_inputs(
+        image_lists, model_prompts,
+        size_wrapper: ImageSizeWrapper) -> list[PromptWithMultiModalInput]:
+    return [
+        PromptWithMultiModalInput(
+            prompts=[prompt for _ in size_wrapper.data],
+            image_data=[[
+                apply_image_size_scaling(image, size, size_wrapper.type)
+                for image in images
+            ] for size in size_wrapper.data],
+        ) for images, prompt in zip(image_lists, model_prompts)
+    ]
 
 
 def build_embedding_inputs_from_test_info(
@@ -177,6 +196,7 @@ def build_embedding_inputs_from_test_info(
         SINGLE_IMAGE_BASE_PROMPTS,
         test_info.img_idx_to_prompt,
         test_info.video_idx_to_prompt,
+        test_info.audio_idx_to_prompt,
         test_info.prompt_formatter,
     )
 
@@ -195,13 +215,14 @@ def build_video_inputs_from_test_info(
     video_assets: VideoTestAssets,
     size_wrapper: ImageSizeWrapper,
     num_frames: int,
-):
+) -> list[PromptWithMultiModalInput]:
     if test_info.prompt_formatter is None:
         raise ValueError("Prompt formatter must be set to build video inputs")
     model_prompts = get_model_prompts(
         [VIDEO_BASE_PROMPT],
         test_info.img_idx_to_prompt,
         test_info.video_idx_to_prompt,
+        test_info.audio_idx_to_prompt,
         test_info.prompt_formatter,
     )
 
@@ -213,10 +234,14 @@ def build_video_inputs_from_test_info(
     video_scaler = (resize_video if size_wrapper.type == SizeType.FIXED_SIZE
                     else rescale_video_size)
 
-    return [(
-        [prompt for _ in size_wrapper.data],
-        [video_scaler(video, size) for size in size_wrapper.data],
-    ) for video, prompt in zip(sampled_vids, model_prompts)]
+    return [
+        PromptWithMultiModalInput(
+            prompts=[prompt for _ in size_wrapper.data],
+            video_data=[
+                video_scaler(video, size) for size in size_wrapper.data
+            ],
+        ) for video, prompt in zip(sampled_vids, model_prompts)
+    ]
 
 
 def apply_image_size_scaling(image, size: Union[float, tuple[int, int]],
@@ -236,3 +261,37 @@ def apply_image_size_scaling(image, size: Union[float, tuple[int, int]],
         # We have a list of fixed sizes
         return image.resize(size)
     raise ValueError("ImageSizeWrapper type must be FIXED_SIZE or SIZE_FACTOR")
+
+
+def build_audio_inputs_from_test_info(
+    test_info: VLMTestInfo,
+    audio_assets: AudioTestAssets,
+) -> list[PromptWithMultiModalInput]:
+    if test_info.prompt_formatter is None:
+        raise ValueError("Prompt formatter must be set to build audio inputs")
+    model_prompts = get_model_prompts(
+        SINGLE_AUDIO_BASE_PROMPT,
+        test_info.img_idx_to_prompt,
+        test_info.video_idx_to_prompt,
+        test_info.audio_idx_to_prompt,
+        test_info.prompt_formatter,
+    )
+    resampler = AudioResampler(
+        target_sr=16000,
+        method="librosa",
+    )
+    audios = [asset.audio_and_sample_rate for asset in audio_assets]
+    resampled_audios = [(
+        resampler.resample(
+            audio,
+            orig_sr=sr,
+        ),
+        int(resampler.target_sr),
+    ) for audio, sr in audios]
+
+    return [
+        PromptWithMultiModalInput(
+            prompts=model_prompts,
+            audio_data=resampled_audios,
+        )
+    ]
diff --git a/tests/models/multimodal/generation/vlm_utils/case_filtering.py b/tests/models/multimodal/generation/vlm_utils/case_filtering.py
index 8e825676b..a5077a090 100644
--- a/tests/models/multimodal/generation/vlm_utils/case_filtering.py
+++ b/tests/models/multimodal/generation/vlm_utils/case_filtering.py
@@ -83,7 +83,7 @@ def get_parametrized_options(test_settings: dict[str, VLMTestInfo],
                 test_info.num_video_frames)
 
         # No sizes passed for custom inputs, since inputs are directly provided
-        if test_type != VLMTestType.CUSTOM_INPUTS:
+        if test_type not in (VLMTestType.CUSTOM_INPUTS, VLMTestType.AUDIO):
             wrapped_sizes = get_wrapped_test_sizes(test_info, test_type)
             if wrapped_sizes is None:
                 raise ValueError(
@@ -91,7 +91,7 @@ def get_parametrized_options(test_settings: dict[str, VLMTestInfo],
             iter_kwargs["size_wrapper"] = wrapped_sizes
 
         #Otherwise expand the custom test options instead
-        else:
+        elif test_type == VLMTestType.CUSTOM_INPUTS:
             if test_info.custom_test_opts is None:
                 raise ValueError("Test has type CUSTOM_INPUTS, but none given")
             iter_kwargs["custom_test_opts"] = test_info.custom_test_opts
@@ -136,8 +136,8 @@ def get_wrapped_test_sizes(
             ImageSizeWrapper(type=SizeType.SIZE_FACTOR, data=factor)
             for factor in EMBEDDING_SIZE_FACTORS
         ])
-    # Custom inputs have preprocessed inputs
-    elif test_type == VLMTestType.CUSTOM_INPUTS:
+    # Audio and Custom inputs have preprocessed inputs
+    elif test_type in (VLMTestType.AUDIO, VLMTestType.CUSTOM_INPUTS):
         return tuple()
 
     size_factors = test_info.image_size_factors \
diff --git a/tests/models/multimodal/generation/vlm_utils/core.py b/tests/models/multimodal/generation/vlm_utils/core.py
index c3d20f568..ccd2799ab 100644
--- a/tests/models/multimodal/generation/vlm_utils/core.py
+++ b/tests/models/multimodal/generation/vlm_utils/core.py
@@ -1,9 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 """Core test implementation to be shared across modalities."""
-from typing import Any, Callable, Optional, Union
+from typing import Any, Callable, Optional
 
 import torch
-from PIL.Image import Image
 from transformers.models.auto.auto_factory import _BaseAutoModelClass
 
 from vllm.config import TaskOption
@@ -11,14 +10,14 @@ from vllm.transformers_utils.tokenizer import AnyTokenizer
 
 from .....conftest import HfRunner, VllmRunner
 from ....registry import HF_EXAMPLE_MODELS
-from .types import RunnerOutput
+from .types import PromptWithMultiModalInput, RunnerOutput
 
 
 def run_test(
     *,
     hf_runner: type[HfRunner],
     vllm_runner: type[VllmRunner],
-    inputs: list[tuple[list[str], list[Union[list[Image], Image]]]],
+    inputs: list[PromptWithMultiModalInput],
     model: str,
     dtype: str,
     max_tokens: int,
@@ -38,7 +37,6 @@ def run_test(
     hf_model_kwargs: Optional[dict[str, Any]],
     patch_hf_runner: Optional[Callable[[HfRunner], HfRunner]],
     task: TaskOption = "auto",
-    runner_mm_key: str = "images",
     distributed_executor_backend: Optional[str] = None,
     tensor_parallel_size: int = 1,
     vllm_embeddings: Optional[torch.Tensor] = None,
@@ -94,10 +92,16 @@ def run_test(
         if stop_str:
             vllm_kwargs["stop"] = stop_str
 
-        for prompts, media in vllm_inputs:
-            vllm_kwargs[runner_mm_key] = media
+        for prompts, image_data, video_data, audio_data in vllm_inputs:
+            mm_data = dict(images=image_data,
+                           videos=video_data,
+                           audios=audio_data)
+            vllm_kwargs_with_mm_data = vllm_kwargs | mm_data
             vllm_output = vllm_model.generate_greedy_logprobs(
-                prompts, max_tokens, num_logprobs=num_logprobs, **vllm_kwargs)
+                prompts,
+                max_tokens,
+                num_logprobs=num_logprobs,
+                **vllm_kwargs_with_mm_data)
             vllm_outputs_per_mm.append(vllm_output)
 
     hf_model = hf_runner(model,
@@ -122,14 +126,17 @@ def run_test(
         if stop_str:
             hf_kwargs["stop_strings"] = stop_str
 
-        for prompts, media in inputs:
-            hf_kwargs[runner_mm_key] = media
+        for prompts, image_data, video_data, audio_data in inputs:
+            mm_data = dict(images=image_data,
+                           videos=video_data,
+                           audios=audio_data)
+            hf_kwargs_with_mm_data = hf_kwargs | mm_data
             hf_output = hf_model.generate_greedy_logprobs_limit(
                 prompts,
                 max_tokens,
                 num_logprobs=num_logprobs,
                 tokenizer=tokenizer,
-                **hf_kwargs)
+                **hf_kwargs_with_mm_data)
             hf_outputs_per_mm.append(hf_output)
 
     # Apply output processing / sanitation to the vLLM and HF runner results
diff --git a/tests/models/multimodal/generation/vlm_utils/custom_inputs.py b/tests/models/multimodal/generation/vlm_utils/custom_inputs.py
index 235618ae5..cc1045561 100644
--- a/tests/models/multimodal/generation/vlm_utils/custom_inputs.py
+++ b/tests/models/multimodal/generation/vlm_utils/custom_inputs.py
@@ -12,7 +12,7 @@ from vllm.multimodal.video import (rescale_video_size, resize_video,
 
 from .....conftest import IMAGE_ASSETS, VIDEO_ASSETS
 from .builders import build_multi_image_inputs, build_single_image_inputs
-from .types import ImageSizeWrapper, SizeType
+from .types import ImageSizeWrapper, PromptWithMultiModalInput, SizeType
 
 
 def multi_image_multi_aspect_ratio_inputs(formatter: Callable[[str], str]):
@@ -32,24 +32,28 @@ def multi_image_multi_aspect_ratio_inputs(formatter: Callable[[str], str]):
         "<image>\nWhat is the season?",
     ]
     formatted_prompts = [formatter(prompt) for prompt in img_prompts]
-
-    return [(
-        formatted_prompts,
+    aspect_ratio_images = [
+        [stop_sign, cherry_blossom],
+        # Images with different sizes and aspect-ratios
+        [
+            rescale_image_size(stop_sign, 0.1),
+            stop_sign,
+        ],
         [
-            [stop_sign, cherry_blossom],
-            # Images with different sizes and aspect-ratios
-            [
-                rescale_image_size(stop_sign, 0.1),
-                stop_sign,
-            ],
-            [
-                stop_sign,
-                rescale_image_size(stop_sign, 0.25),
-                cherry_blossom.resize((183, 488)),
-                cherry_blossom.resize((488, 183))
-            ],
-            cherry_blossom,
-        ])]
+            stop_sign,
+            rescale_image_size(stop_sign, 0.25),
+            cherry_blossom.resize((183, 488)),
+            cherry_blossom.resize((488, 183))
+        ],
+        cherry_blossom,
+    ]
+
+    return [
+        PromptWithMultiModalInput(
+            prompts=formatted_prompts,
+            image_data=aspect_ratio_images,
+        )
+    ]
 
 
 def multi_video_multi_aspect_ratio_inputs(formatter: Callable[[str], str],
@@ -68,24 +72,28 @@ def multi_video_multi_aspect_ratio_inputs(formatter: Callable[[str], str],
         "<video>\nWhy is this video funny?",
     ]
     formatted_prompts = [formatter(prompt) for prompt in video_prompts]
-
-    return [(
-        formatted_prompts,
+    aspect_ratio_videos = [
+        [video, video],
+        # Videos with different sizes and aspect-ratios
         [
-            [video, video],
-            # Videos with different sizes and aspect-ratios
-            [
-                rescale_video_size(video, 0.1),
-                video,
-            ],
-            [
-                video,
-                rescale_video_size(video, 0.25),
-                resize_video(video, (183, 488)),
-                resize_video(video, (488, 183))
-            ],
+            rescale_video_size(video, 0.1),
             video,
-        ])]
+        ],
+        [
+            video,
+            rescale_video_size(video, 0.25),
+            resize_video(video, (183, 488)),
+            resize_video(video, (488, 183))
+        ],
+        video,
+    ]
+
+    return [
+        PromptWithMultiModalInput(
+            prompts=formatted_prompts,
+            video_data=aspect_ratio_videos,
+        )
+    ]
 
 
 def different_patch_input_cases_internvl():
diff --git a/tests/models/multimodal/generation/vlm_utils/model_utils.py b/tests/models/multimodal/generation/vlm_utils/model_utils.py
index e31408d60..b71400fc8 100644
--- a/tests/models/multimodal/generation/vlm_utils/model_utils.py
+++ b/tests/models/multimodal/generation/vlm_utils/model_utils.py
@@ -237,6 +237,18 @@ def minimax_vl_01_hf_output(hf_output: RunnerOutput,
     return output_ids, output_str, out_logprobs
 
 
+def ultravox_trunc_hf_output(hf_output: RunnerOutput,
+                             model: str) -> RunnerOutput:
+    output_ids, output_str, out_logprobs = hf_output
+
+    tokenizer = AutoTokenizer.from_pretrained(model)
+    eos_token_id = tokenizer.eos_token_id
+    eos_token = tokenizer.decode(eos_token_id)
+    if output_str.endswith(eos_token):
+        output_str = output_str.split(eos_token)[0]
+    return output_ids, output_str, out_logprobs
+
+
 ####### Functions for converting image assets to embeddings
 def get_llava_embeddings(image_assets: ImageTestAssets):
     return [asset.image_embeds for asset in image_assets]
diff --git a/tests/models/multimodal/generation/vlm_utils/runners.py b/tests/models/multimodal/generation/vlm_utils/runners.py
index 34753121e..9e8a1262e 100644
--- a/tests/models/multimodal/generation/vlm_utils/runners.py
+++ b/tests/models/multimodal/generation/vlm_utils/runners.py
@@ -4,8 +4,8 @@ types / modalities.
 """
 from pathlib import PosixPath
 
-from .....conftest import (HfRunner, ImageTestAssets, VideoTestAssets,
-                           VllmRunner)
+from .....conftest import (AudioTestAssets, HfRunner, ImageTestAssets,
+                           VideoTestAssets, VllmRunner)
 from . import builders, core
 from .types import ExpandableVLMTestArgs, VLMTestInfo
 
@@ -30,7 +30,6 @@ def run_single_image_test(*, tmp_path: PosixPath, model_test_info: VLMTestInfo,
         num_logprobs=test_case.num_logprobs,
         limit_mm_per_prompt={"image": 1},
         distributed_executor_backend=test_case.distributed_executor_backend,
-        runner_mm_key="images",
         **model_test_info.get_non_parametrized_runner_kwargs())
 
 
@@ -53,7 +52,6 @@ def run_multi_image_test(*, tmp_path: PosixPath, model_test_info: VLMTestInfo,
         num_logprobs=test_case.num_logprobs,
         limit_mm_per_prompt={"image": len(image_assets)},
         distributed_executor_backend=test_case.distributed_executor_backend,
-        runner_mm_key="images",
         **model_test_info.get_non_parametrized_runner_kwargs())
 
 
@@ -77,7 +75,6 @@ def run_embedding_test(*, model_test_info: VLMTestInfo,
         limit_mm_per_prompt={"image": 1},
         vllm_embeddings=vllm_embeddings,
         distributed_executor_backend=test_case.distributed_executor_backend,
-        runner_mm_key="images",
         **model_test_info.get_non_parametrized_runner_kwargs())
 
 
@@ -105,7 +102,30 @@ def run_video_test(
         num_logprobs=test_case.num_logprobs,
         limit_mm_per_prompt={"video": len(video_assets)},
         distributed_executor_backend=test_case.distributed_executor_backend,
-        runner_mm_key="videos",
+        **model_test_info.get_non_parametrized_runner_kwargs())
+
+
+def run_audio_test(
+    *,
+    model_test_info: VLMTestInfo,
+    test_case: ExpandableVLMTestArgs,
+    hf_runner: type[HfRunner],
+    vllm_runner: type[VllmRunner],
+    audio_assets: AudioTestAssets,
+):
+    inputs = builders.build_audio_inputs_from_test_info(
+        model_test_info, audio_assets)
+
+    core.run_test(
+        hf_runner=hf_runner,
+        vllm_runner=vllm_runner,
+        inputs=inputs,
+        model=test_case.model,
+        dtype=test_case.dtype,
+        max_tokens=test_case.max_tokens,
+        num_logprobs=test_case.num_logprobs,
+        limit_mm_per_prompt={"audio": 1},
+        distributed_executor_backend=test_case.distributed_executor_backend,
         **model_test_info.get_non_parametrized_runner_kwargs())
 
 
@@ -120,11 +140,9 @@ def run_custom_inputs_test(*, model_test_info: VLMTestInfo,
 
     inputs = test_case.custom_test_opts.inputs
     limit_mm_per_prompt = test_case.custom_test_opts.limit_mm_per_prompt
-    runner_mm_key = test_case.custom_test_opts.runner_mm_key
-    # Inputs, limit_mm_per_prompt, and runner_mm_key should all be set
+    # Inputs and limit_mm_per_prompt should all be set
     assert inputs is not None
     assert limit_mm_per_prompt is not None
-    assert runner_mm_key is not None
 
     core.run_test(
         hf_runner=hf_runner,
@@ -136,5 +154,4 @@ def run_custom_inputs_test(*, model_test_info: VLMTestInfo,
         num_logprobs=test_case.num_logprobs,
         limit_mm_per_prompt=limit_mm_per_prompt,
         distributed_executor_backend=test_case.distributed_executor_backend,
-        runner_mm_key=runner_mm_key,
         **model_test_info.get_non_parametrized_runner_kwargs())
diff --git a/tests/models/multimodal/generation/vlm_utils/types.py b/tests/models/multimodal/generation/vlm_utils/types.py
index 566293233..1c2bb4d62 100644
--- a/tests/models/multimodal/generation/vlm_utils/types.py
+++ b/tests/models/multimodal/generation/vlm_utils/types.py
@@ -6,7 +6,6 @@ from pathlib import PosixPath
 from typing import Any, Callable, NamedTuple, Optional, Union
 
 import torch
-from PIL.Image import Image
 from pytest import MarkDecorator
 from transformers import AutoModelForCausalLM
 from transformers.models.auto.auto_factory import _BaseAutoModelClass
@@ -15,18 +14,25 @@ from vllm.config import TaskOption
 from vllm.sequence import SampleLogprobs
 from vllm.transformers_utils.tokenizer import AnyTokenizer
 
-from .....conftest import IMAGE_ASSETS, HfRunner, ImageAsset, ImageTestAssets
+from .....conftest import (AUDIO_ASSETS, IMAGE_ASSETS, HfRunner, ImageAsset,
+                           ImageTestAssets, PromptAudioInput, PromptImageInput,
+                           PromptVideoInput)
 from ....utils import check_logprobs_close
 
 # meta image tag; will be replaced by the appropriate tag for the model
 TEST_IMG_PLACEHOLDER = "<vlm_image>"
 TEST_VIDEO_PLACEHOLDER = "<vlm_video>"
+TEST_AUDIO_PLACEHOLDER = "<lmm_audio>"
 
 # yapf: disable
 SINGLE_IMAGE_BASE_PROMPTS = IMAGE_ASSETS.prompts({
     "stop_sign": f"{TEST_IMG_PLACEHOLDER}What's the content of the image?",
     "cherry_blossom": f"{TEST_IMG_PLACEHOLDER}What is the season?",
 })
+SINGLE_AUDIO_BASE_PROMPT = AUDIO_ASSETS.prompts({
+    "mary_had_lamb": f"{TEST_AUDIO_PLACEHOLDER}Transcribe this audio into English.",    # noqa: E501
+    "winning_call": f"{TEST_AUDIO_PLACEHOLDER}What is happening in this audio clip?",     # noqa: E501
+})
 
 MULTI_IMAGE_BASE_PROMPT = f"Image-1: {TEST_IMG_PLACEHOLDER}Image-2: {TEST_IMG_PLACEHOLDER}Describe the two images in detail.\n"  # noqa: E501
 VIDEO_BASE_PROMPT = f"{TEST_VIDEO_PLACEHOLDER}Why is this video funny?"
@@ -38,12 +44,21 @@ RunnerOutput = tuple[list[int], str, Optional[SampleLogprobs]]
 # yapf: enable
 
 
+class PromptWithMultiModalInput(NamedTuple):
+    """Holds the multimodal input for a single test case."""
+    prompts: list[str]
+    image_data: Optional[PromptImageInput] = None
+    video_data: Optional[PromptVideoInput] = None
+    audio_data: Optional[PromptAudioInput] = None
+
+
 class VLMTestType(Enum):
     IMAGE = 1
     MULTI_IMAGE = 2
     EMBEDDING = 3
     VIDEO = 4
-    CUSTOM_INPUTS = 5
+    AUDIO = 5
+    CUSTOM_INPUTS = 6
 
 
 class SizeType(Enum):
@@ -52,10 +67,8 @@ class SizeType(Enum):
 
 
 class CustomTestOptions(NamedTuple):
-    inputs: list[tuple[list[str], list[Union[list[Image], Image]]]]
+    inputs: list[PromptWithMultiModalInput]
     limit_mm_per_prompt: dict[str, int]
-    # kwarg to pass multimodal data in as to vllm/hf runner instances.
-    runner_mm_key: str = "images"
 
 
 class ImageSizeWrapper(NamedTuple):
@@ -75,6 +88,7 @@ class VLMTestInfo(NamedTuple):
     prompt_formatter: Optional[Callable[[str], str]] = None
     img_idx_to_prompt: Callable[[int], str] = lambda idx: "<image>\n"
     video_idx_to_prompt: Callable[[int], str] = lambda idx: "<video>\n"
+    audio_idx_to_prompt: Callable[[int], str] = lambda idx: "<audio>\n"
 
     # Most models work on the single / multi-image prompts above, but in some
     # cases the log prob check fails, e.g., for paligemma. We allow passing
-- 
GitLab


From e23564cb703916efef20d80fd1c32dd76dee0979 Mon Sep 17 00:00:00 2001
From: Lain <28486541+IwakuraRein@users.noreply.github.com>
Date: Fri, 16 May 2025 03:02:58 -0700
Subject: [PATCH 420/461] use ceil_div in cutlass block scaling shape check
 (#17918)

---
 .../cutlass_benchmarks/w8a8_benchmarks.py     | 12 +++-
 .../cutlass_w8a8/c3x/scaled_mm_helper.hpp     | 60 ++++++++++++-------
 .../layers/quantization/utils/fp8_utils.py    | 15 ++++-
 3 files changed, 62 insertions(+), 25 deletions(-)

diff --git a/benchmarks/cutlass_benchmarks/w8a8_benchmarks.py b/benchmarks/cutlass_benchmarks/w8a8_benchmarks.py
index 504c5f581..08e93837f 100644
--- a/benchmarks/cutlass_benchmarks/w8a8_benchmarks.py
+++ b/benchmarks/cutlass_benchmarks/w8a8_benchmarks.py
@@ -115,8 +115,16 @@ def bench_fp8(
     a_cont = a.contiguous()
     scale_a = torch.tensor(1.0, device="cuda", dtype=torch.float32)
     scale_b = torch.tensor(1.0, device="cuda", dtype=torch.float32)
-    block_scale_a = torch.rand((m, k // 128), device="cuda", dtype=torch.float32)
-    block_scale_b = torch.rand((k // 128, n // 128), device="cuda", dtype=torch.float32)
+
+    def ceil_div(x: int, y: int) -> int:
+        return (x + y - 1) // y
+
+    block_scale_a = torch.rand(
+        (m, ceil_div(k, 128)), device="cuda", dtype=torch.float32
+    )
+    block_scale_b = torch.rand(
+        ceil_div(k, 128), ceil_div(n, 128), device="cuda", dtype=torch.float32
+    )
     block_scale_a_M_major = block_scale_a.t().contiguous().t()
     block_scale_b_K_major = block_scale_b.t().contiguous().t()
     bias = torch.zeros((n,), device="cuda", dtype=torch.bfloat16)
diff --git a/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_helper.hpp b/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_helper.hpp
index b589a4790..2ee6a1940 100644
--- a/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_helper.hpp
+++ b/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_helper.hpp
@@ -1,5 +1,6 @@
 #include <torch/all.h>
 #include "cuda_utils.h"
+#include "cutlass_extensions/common.hpp"
 
 template <typename Fp8Func, typename Int8Func, typename BlockwiseFunc>
 void dispatch_scaled_mm(torch::Tensor& c, torch::Tensor const& a,
@@ -28,29 +29,46 @@ void dispatch_scaled_mm(torch::Tensor& c, torch::Tensor const& a,
       }
     }
   } else {
-    using GroupShape = std::array<int64_t, 2>;
-    auto make_group_shape = [](torch::Tensor const& x,
-                               torch::Tensor const& s) -> GroupShape {
-      TORCH_CHECK(s.dim() == 2, "cutlass_scaled_mm group scales must be 2D");
-      return {cuda_utils::ceil_div(x.size(0), s.size(0)),
-              cuda_utils::ceil_div(x.size(1), s.size(1))};
-    };
+    TORCH_CHECK(a_scales.dim() == 2, "a scale must be 2d tensor.");
+    TORCH_CHECK(b_scales.dim() == 2, "b scale must be 2d tensor.");
+    int32_t version_num = get_sm_version_num();
+    if (version_num >= 100) {
+      TORCH_CHECK(
+          a.size(0) == a_scales.size(0) &&
+              cuda_utils::ceil_div(a.size(1), int64_t(128)) == a_scales.size(1),
+          "a_scale_group_shape must be [1, 128].");
+      TORCH_CHECK(
+          cuda_utils::ceil_div(b.size(0), int64_t(128)) == b_scales.size(0) &&
+              cuda_utils::ceil_div(b.size(1), int64_t(128)) == b_scales.size(1),
+          "b_scale_group_shape must be [128, 128].");
+    } else {
+      // TODO: Remove this after using cutlass sm90 blockwise scaling gemm
+      // kernel, or introducing ceil_div to the load_init() of mainloop.
+      using GroupShape = std::array<int64_t, 2>;
+      auto make_group_shape = [](torch::Tensor const& x,
+                                 torch::Tensor const& s) -> GroupShape {
+        TORCH_CHECK(s.dim() == 2, "cutlass_scaled_mm group scales must be 2D");
+        return {cuda_utils::ceil_div(x.size(0), s.size(0)),
+                cuda_utils::ceil_div(x.size(1), s.size(1))};
+      };
+
+      GroupShape a_scale_group_shape = make_group_shape(a, a_scales);
+      GroupShape b_scale_group_shape = make_group_shape(b, b_scales);
 
-    GroupShape a_scale_group_shape = make_group_shape(a, a_scales);
-    GroupShape b_scale_group_shape = make_group_shape(b, b_scales);
+      // 1x128 per-token group scales for activations
+      // 128x128 blockwise scales for weights
+      TORCH_CHECK((a_scale_group_shape == GroupShape{1, 128} &&
+                   b_scale_group_shape == GroupShape{128, 128} &&
+                   a.dtype() == torch::kFloat8_e4m3fn &&
+                   b.dtype() == torch::kFloat8_e4m3fn),
+                  "cutlass_scaled_mm only supports datatype float8_e4m3fn.\n"
+                  "a_scale_group_shape must be [1, 128]. Got: [",
+                  a_scale_group_shape[0], ", ", a_scale_group_shape[1],
+                  "]\n"
+                  "b_scale_group_shape must be [128, 128]. Got: [",
+                  b_scale_group_shape[0], ", ", b_scale_group_shape[1], "]");
+    }
 
-    // 1x128 per-token group scales for activations
-    // 128x128 blockwise scales for weights
-    TORCH_CHECK((a_scale_group_shape == GroupShape{1, 128} &&
-                 b_scale_group_shape == GroupShape{128, 128} &&
-                 a.dtype() == torch::kFloat8_e4m3fn &&
-                 b.dtype() == torch::kFloat8_e4m3fn),
-                "cutlass_scaled_mm only supports datatype float8_e4m3fn.\n"
-                "a_scale_group_shape must be [1, 128]. Got: [",
-                a_scale_group_shape[0], ", ", a_scale_group_shape[1],
-                "]\n"
-                "b_scale_group_shape must be [128, 128]. Got: [",
-                b_scale_group_shape[0], ", ", b_scale_group_shape[1], "]");
     TORCH_CHECK(!bias, "Bias not yet supported blockwise scaled_mm");
     blockwise_func(c, a, b, a_scales, b_scales);
   }
diff --git a/vllm/model_executor/layers/quantization/utils/fp8_utils.py b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
index 8f525ef14..4c213f2c8 100644
--- a/vllm/model_executor/layers/quantization/utils/fp8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
@@ -115,8 +115,19 @@ def apply_w8a8_block_fp8_linear(
     output_shape = [*input.shape[:-1], weight.shape[0]]
 
     if current_platform.is_cuda():
-        use_cutlass = cutlass_block_fp8_supported and (
-            weight.shape[0] % 128 == 0 and weight.shape[1] % 128 == 0)
+        if current_platform.has_device_capability(100):
+
+            def ceil_div(x: int, y: int) -> int:
+                return (x + y - 1) // y
+
+            use_cutlass = cutlass_block_fp8_supported and (
+                ceil_div(weight.shape[0], 128) == weight_scale.shape[0]
+                and ceil_div(weight.shape[1], 128) == weight_scale.shape[1])
+        else:
+            # TODO: update this after switching to public sm90 block scale gemm
+            # as it also supports weight.shape % 128 != 0
+            use_cutlass = cutlass_block_fp8_supported and (
+                weight.shape[0] % 128 == 0 and weight.shape[1] % 128 == 0)
     else:
         use_cutlass = False
 
-- 
GitLab


From a5f8c111c261f43726f24fcd56f450c0567bff8b Mon Sep 17 00:00:00 2001
From: fxmarty-amd <felmarty@amd.com>
Date: Fri, 16 May 2025 16:52:41 +0200
Subject: [PATCH 421/461] [Fix] Fix typo in `resolve_hf_chat_template` (#18259)

Signed-off-by: Felix Marty <felmarty@amd.com>
---
 vllm/entrypoints/chat_utils.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/entrypoints/chat_utils.py b/vllm/entrypoints/chat_utils.py
index adfacf2b4..e8d10017a 100644
--- a/vllm/entrypoints/chat_utils.py
+++ b/vllm/entrypoints/chat_utils.py
@@ -339,7 +339,7 @@ def resolve_hf_chat_template(
     tools: Optional[list[dict[str, Any]]],
     *,
     model_config: ModelConfig,
-    trsut_remote_code: Optional[bool] = None,
+    trust_remote_code: Optional[bool] = None,
 ) -> Optional[str]:
     # 1st priority: The given chat template
     if chat_template is not None:
@@ -1293,4 +1293,4 @@ def apply_mistral_chat_template(
         raise ValueError from e
 
 def random_tool_call_id() -> str:
-    return f"chatcmpl-tool-{random_uuid()}"
\ No newline at end of file
+    return f"chatcmpl-tool-{random_uuid()}"
-- 
GitLab


From 87d871470de15bcf238b6e8afcbe2d2e14f21fae Mon Sep 17 00:00:00 2001
From: learner0810 <39400425+learner0810@users.noreply.github.com>
Date: Fri, 16 May 2025 22:54:13 +0800
Subject: [PATCH 422/461] [Model] Use autoweightloader for dbrx (#18251)

Signed-off-by: learner0810 <zhongjun.li@daocloud.io>
---
 vllm/model_executor/models/dbrx.py | 100 +++++++++++++++--------------
 1 file changed, 53 insertions(+), 47 deletions(-)

diff --git a/vllm/model_executor/models/dbrx.py b/vllm/model_executor/models/dbrx.py
index e0b4712cd..f21887f71 100644
--- a/vllm/model_executor/models/dbrx.py
+++ b/vllm/model_executor/models/dbrx.py
@@ -26,7 +26,7 @@ from vllm.sequence import IntermediateTensors
 from vllm.transformers_utils.configs.dbrx import DbrxConfig
 
 from .interfaces import SupportsPP
-from .utils import (is_pp_missing_parameter,
+from .utils import (AutoWeightsLoader, is_pp_missing_parameter,
                     make_empty_intermediate_tensors_factory, make_layers,
                     maybe_prefix)
 
@@ -319,6 +319,7 @@ class DbrxModel(nn.Module):
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
 
+        self.quant_config = quant_config
         self.wte = VocabParallelEmbedding(
             config.vocab_size,
             config.d_model,
@@ -364,6 +365,55 @@ class DbrxModel(nn.Module):
         hidden_states = self.norm_f(hidden_states)
         return hidden_states
 
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
+        expert_params_mapping = [(
+            "w13" if weight_name in ["w1", "v1"] else "w2",
+            f"mlp.{weight_name}",
+        ) for weight_name in ["w1", "v1", "w2"]]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+
+        for name, loaded_weight in weights:
+            if (self.quant_config is not None and
+                (scale_name := self.quant_config.get_cache_scale(name))):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader",
+                                        default_weight_loader)
+                loaded_weight = (loaded_weight if loaded_weight.dim() == 0 else
+                                 loaded_weight[0])
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+
+            if name.endswith(("w1", "w2", "v1")):
+                name = name + "_weight"
+            for param_name, weight_name in expert_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, weight_name, name)
+                break
+
+            else:
+                if is_pp_missing_parameter(name, self):
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader",
+                                        default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
 
 class DbrxForCausalLM(nn.Module, SupportsPP):
 
@@ -417,49 +467,5 @@ class DbrxForCausalLM(nn.Module, SupportsPP):
 
     def load_weights(self, weights: Iterable[tuple[str,
                                                    torch.Tensor]]) -> set[str]:
-        expert_params_mapping = [(
-            "w13" if weight_name in ["w1", "v1"] else "w2",
-            f"mlp.{weight_name}",
-        ) for weight_name in ["w1", "v1", "w2"]]
-        params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: set[str] = set()
-
-        for name, loaded_weight in weights:
-            if (self.quant_config is not None and
-                (scale_name := self.quant_config.get_cache_scale(name))):
-                # Loading kv cache quantization scales
-                param = params_dict[scale_name]
-                weight_loader = getattr(param, "weight_loader",
-                                        default_weight_loader)
-                loaded_weight = (loaded_weight if loaded_weight.dim() == 0 else
-                                 loaded_weight[0])
-                weight_loader(param, loaded_weight)
-                loaded_params.add(scale_name)
-                continue
-
-            if name.endswith(("w1", "w2", "v1")):
-                name = name + "_weight"
-            for param_name, weight_name in expert_params_mapping:
-                if weight_name not in name:
-                    continue
-                name = name.replace(weight_name, param_name)
-                if is_pp_missing_parameter(name, self):
-                    continue
-                param = params_dict[name]
-                weight_loader = param.weight_loader
-                weight_loader(param, loaded_weight, weight_name, name)
-                break
-
-            else:
-                if is_pp_missing_parameter(name, self):
-                    continue
-                # Remapping the name of FP8 kv-scale.
-                name = maybe_remap_kv_scale_name(name, params_dict)
-                if name is None:
-                    continue
-                param = params_dict[name]
-                weight_loader = getattr(param, "weight_loader",
-                                        default_weight_loader)
-                weight_loader(param, loaded_weight)
-            loaded_params.add(name)
-        return loaded_params
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights)
-- 
GitLab


From d3d91b6f714184ef387701bdc8cfd5990d9e78bb Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Fri, 16 May 2025 23:05:59 +0800
Subject: [PATCH 423/461] [Misc][MacOS] fix bfloat16 error (#18249)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 vllm/platforms/cpu.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/platforms/cpu.py b/vllm/platforms/cpu.py
index d286c8939..2d48af397 100644
--- a/vllm/platforms/cpu.py
+++ b/vllm/platforms/cpu.py
@@ -36,7 +36,7 @@ class CpuPlatform(Platform):
             # instead of checking the OS. For instance M2 shall supports bf16
             # already. But we need to modify `cpu_extension.cmake` to activate
             # the feature in the build.
-            return [torch.bfloat16, torch.float32]
+            return [torch.float16, torch.float32]
         # x86/aarch64 CPU has supported both bf16 and fp16 natively.
         return [torch.bfloat16, torch.float16, torch.float32]
 
-- 
GitLab


From 1db4f47f8128f36f43ca1b61905075ebfb4ddacb Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Fri, 16 May 2025 08:13:47 -0700
Subject: [PATCH 424/461] [BugFix] Fix multi async save in MultiConnector
 (#18246)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 .../kv_connector/v1/multi_connector.py        | 23 ++++++++++++++-----
 1 file changed, 17 insertions(+), 6 deletions(-)

diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py
index cc4a7fbad..c44fc06d4 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py
@@ -1,5 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 import copy
+from dataclasses import dataclass
 from typing import TYPE_CHECKING, Any, Optional
 
 import torch
@@ -21,9 +22,10 @@ if TYPE_CHECKING:
 logger = init_logger(__name__)
 
 
-class MultiKVConnectorMetadata(tuple[KVConnectorMetadata, ...],
-                               KVConnectorMetadata):
-    pass
+@dataclass
+class MultiKVConnectorMetadata(KVConnectorMetadata):
+    metadata: tuple[KVConnectorMetadata, ...]
+    extra_async_saves: Optional[dict[str, int]] = None
 
 
 class MultiConnector(KVConnectorBase_V1):
@@ -54,6 +56,7 @@ class MultiConnector(KVConnectorBase_V1):
         # Keeps track of *additional* remaining async saves (beyond 1) to be
         # finished per request. Not needed for async loads since we only allow
         # a single connector to load.
+        # Propagated from scheduler to worker side via the connector metadata.
         self._extra_async_saves: dict[str, int] = {}
 
     def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
@@ -66,7 +69,10 @@ class MultiConnector(KVConnectorBase_V1):
     def bind_connector_metadata(
             self, connector_metadata: KVConnectorMetadata) -> None:
         assert isinstance(connector_metadata, MultiKVConnectorMetadata)
-        for c, cm in zip(self._connectors, connector_metadata):
+        if connector_metadata.extra_async_saves:
+            self._extra_async_saves.update(
+                connector_metadata.extra_async_saves)
+        for c, cm in zip(self._connectors, connector_metadata.metadata):
             c.bind_connector_metadata(cm)
 
     def clear_connector_metadata(self) -> None:
@@ -152,8 +158,13 @@ class MultiConnector(KVConnectorBase_V1):
     def build_connector_meta(
             self,
             scheduler_output: SchedulerOutput) -> MultiKVConnectorMetadata:
-        return MultiKVConnectorMetadata(
-            c.build_connector_meta(scheduler_output) for c in self._connectors)
+        metadata = MultiKVConnectorMetadata(metadata=tuple(
+            c.build_connector_meta(scheduler_output)
+            for c in self._connectors))
+        if self._extra_async_saves:
+            metadata.extra_async_saves = self._extra_async_saves
+            self._extra_async_saves = {}
+        return metadata
 
     def request_finished(
         self,
-- 
GitLab


From 0ceaebf87b3c21a70432556d777e1c83919bdf6f Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Fri, 16 May 2025 09:20:54 -0700
Subject: [PATCH 425/461] [BugFix] Fix ordering of KVConnector finished
 send/rcv sets (#18211)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 vllm/distributed/kv_transfer/kv_connector/v1/base.py        | 3 ++-
 .../kv_transfer/kv_connector/v1/multi_connector.py          | 6 +++---
 2 files changed, 5 insertions(+), 4 deletions(-)

diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/base.py b/vllm/distributed/kv_transfer/kv_connector/v1/base.py
index 9fdb5340f..ef4460a59 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/base.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/base.py
@@ -183,7 +183,8 @@ class KVConnectorBase_V1(ABC):
         finished generating tokens.
 
         Returns:
-            ids of requests that have finished asynchronous (recving, sending).
+            ids of requests that have finished asynchronous transfer,
+            tuple of (sending/saving ids, recving/loading ids).
             The finished saves/sends req ids must belong to a set provided in a
             call to this method (this call or a prior one).
         """
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py
index c44fc06d4..cea454a0b 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py
@@ -103,10 +103,10 @@ class MultiConnector(KVConnectorBase_V1):
     def get_finished(
         self, finished_req_ids: set[str]
     ) -> tuple[Optional[set[str]], Optional[set[str]]]:
-        finished_recving: set[str] = set()
         finished_sending: set[str] = set()
+        finished_recving: set[str] = set()
         for c in self._connectors:
-            recving, sending = c.get_finished(finished_req_ids)
+            sending, recving = c.get_finished(finished_req_ids)
             if not recving and not sending:
                 continue
             # Aggregate finished recving request ids.
@@ -125,7 +125,7 @@ class MultiConnector(KVConnectorBase_V1):
                 else:
                     self._extra_async_saves[req_id] = extra_pending - 1
 
-        return finished_recving or None, finished_sending or None
+        return finished_sending or None, finished_recving or None
 
     # ==============================
     # Scheduler-side methods
-- 
GitLab


From aef94c6d077eadd7307b7991585bd9fa3ef2257f Mon Sep 17 00:00:00 2001
From: Sanger Steel <sangersteel@gmail.com>
Date: Fri, 16 May 2025 15:04:14 -0400
Subject: [PATCH 426/461] [CI] Assign reviewer to mergify with changes to
 Tensorizer files (#18278)

---
 .github/mergify.yml | 11 +++++++++++
 1 file changed, 11 insertions(+)

diff --git a/.github/mergify.yml b/.github/mergify.yml
index 15fa3660a..ccfd57162 100644
--- a/.github/mergify.yml
+++ b/.github/mergify.yml
@@ -163,6 +163,17 @@ pull_request_rules:
 
        https://docs.github.com/en/pull-requests/collaborating-with-pull-requests/working-with-forks/syncing-a-fork
 
+- name: assign reviewer for tensorizer changes
+  conditions:
+      - files~=^vllm/model_executor/model_loader/tensorizer.py
+      - files~=^vllm/model_executor/model_loader/tensorizer_loader.py
+      - files~=^tests/entrypoints/openai/test_tensorizer_entrypoint.py
+      - files~=^tests/tensorizer_loader/
+  actions:
+    assign:
+      users:
+        - "sangstar"
+
 - name: remove 'needs-rebase' label when conflict is resolved
   conditions:
       - -conflict
-- 
GitLab


From 7fdfa015304ee93ce2201acb4b8c2866ae1dafb4 Mon Sep 17 00:00:00 2001
From: Bowen Wang <abmfy@icloud.com>
Date: Fri, 16 May 2025 15:14:03 -0700
Subject: [PATCH 427/461] [Sampler] Adapt to FlashInfer 0.2.3 sampler API
 (#15777)

Signed-off-by: Bowen Wang <abmfy@icloud.com>
Co-authored-by: mgoin <mgoin64@gmail.com>
---
 docker/Dockerfile                             |  3 +-
 tests/samplers/test_rejection_sampler.py      | 14 +++-
 tests/samplers/test_sampler.py                |  2 +
 tests/v1/sample/test_topk_topp_sampler.py     | 72 ++++++++++++++++++-
 .../layers/rejection_sampler.py               | 13 ++--
 vllm/model_executor/layers/sampler.py         | 52 ++++----------
 vllm/v1/sample/ops/topk_topp_sampler.py       | 56 +++++----------
 7 files changed, 123 insertions(+), 89 deletions(-)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index 17adb7a92..3ee84eb55 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -255,9 +255,10 @@ RUN --mount=type=bind,from=build,src=/workspace/dist,target=/vllm-workspace/dist
 RUN --mount=type=cache,target=/root/.cache/uv \
 . /etc/environment && \
 if [ "$TARGETPLATFORM" != "linux/arm64" ]; then \
+    # uv pip install --system https://github.com/flashinfer-ai/flashinfer/releases/download/v0.2.4/flashinfer_python-0.2.4+cu124torch2.6-cp38-abi3-linux_x86_64.whl ; \
     # TESTING: install FlashInfer from source to test 2.7.0 final RC
     FLASHINFER_ENABLE_AOT=1 TORCH_CUDA_ARCH_LIST='7.5 8.0 8.6 8.9 9.0+PTX' \
-    uv pip install --system --no-build-isolation "git+https://github.com/flashinfer-ai/flashinfer@v0.2.2.post1" ; \
+    uv pip install --system --no-build-isolation "git+https://github.com/flashinfer-ai/flashinfer@v0.2.4" ; \
 fi
 COPY examples examples
 COPY benchmarks benchmarks
diff --git a/tests/samplers/test_rejection_sampler.py b/tests/samplers/test_rejection_sampler.py
index 8884f8ae7..6ef61f2ff 100644
--- a/tests/samplers/test_rejection_sampler.py
+++ b/tests/samplers/test_rejection_sampler.py
@@ -169,7 +169,10 @@ def test_no_crash_with_varying_dims(k: int, vocab_size: int, batch_size: int,
 @pytest.mark.parametrize("batch_size", [1, 8, 32, 128])
 @pytest.mark.parametrize("n_rep", [100])
 @pytest.mark.parametrize("device", CUDA_DEVICES)
-@pytest.mark.parametrize("use_flashinfer", [True, False])
+# @pytest.mark.parametrize("use_flashinfer", [True, False])
+# Not testing FlashInfer now, since 0.2.3 API removed the ability
+# to pass in uniform samples.
+@pytest.mark.parametrize("use_flashinfer", [False])
 @torch.inference_mode()
 def test_deterministic_when_seeded(k: int, vocab_size: int, batch_size: int,
                                    frac_seeded: float, n_rep: int, device: str,
@@ -214,7 +217,10 @@ def test_deterministic_when_seeded(k: int, vocab_size: int, batch_size: int,
 @pytest.mark.parametrize("vocab_size", [30_000, 50_000])
 @pytest.mark.parametrize("batch_size", [3, 8, 32, 128])
 @pytest.mark.parametrize("device", CUDA_DEVICES)
-@pytest.mark.parametrize("use_flashinfer", [True, False])
+# @pytest.mark.parametrize("use_flashinfer", [True, False])
+# Not testing FlashInfer now, since 0.2.3 API removed the ability
+# to pass in uniform samples.
+@pytest.mark.parametrize("use_flashinfer", [False])
 @torch.inference_mode()
 def test_mixed_seeded_batch(k: int, vocab_size: int, batch_size: int,
                             device: str, use_flashinfer: bool):
@@ -284,6 +290,10 @@ def test_compare_nonflashinfer_backend(k: int, vocab_size: int,
     Test the flashinfer and nonflashinfer backend generate 
     the same output metrics.
     """
+
+    pytest.skip("Not testing FlashInfer now, since 0.2.3 API removed "
+                "the ability to pass in uniform samples.")
+
     torch.set_default_device(device)
     torch.manual_seed(0)
     draft_probs = torch.rand(batch_size, k, vocab_size, dtype=torch.float32)
diff --git a/tests/samplers/test_sampler.py b/tests/samplers/test_sampler.py
index 90340f8cf..7b19d5750 100644
--- a/tests/samplers/test_sampler.py
+++ b/tests/samplers/test_sampler.py
@@ -647,6 +647,8 @@ def test_flashinfer_fallback(seed: int, device: str):
     if not envs.VLLM_USE_FLASHINFER_SAMPLER:
         pytest.skip("Flashinfer sampler is disabled")
 
+    pytest.skip("After FlashInfer 0.2.3, sampling will never fail")
+
     set_random_seed(seed)
     torch.set_default_device(device)
     batch_size = random.randint(1, 256)
diff --git a/tests/v1/sample/test_topk_topp_sampler.py b/tests/v1/sample/test_topk_topp_sampler.py
index 8a5076412..a8a713d44 100644
--- a/tests/v1/sample/test_topk_topp_sampler.py
+++ b/tests/v1/sample/test_topk_topp_sampler.py
@@ -1,14 +1,20 @@
 # SPDX-License-Identifier: Apache-2.0
+import pytest
 import torch
+from flashinfer.sampling import top_k_renorm_probs, top_p_renorm_probs
 from torch import Generator
 
-from vllm.v1.sample.ops.topk_topp_sampler import apply_top_k_top_p
+from vllm.platforms import current_platform
+from vllm.v1.sample.ops.topk_topp_sampler import (apply_top_k_top_p,
+                                                  is_flashinfer_available)
 
 DEVICE = "cuda"
 
 BATCH_SIZE = 1024
 VOCAB_SIZE = 128 * 1024
 
+FLASHINFER_ENABLED = current_platform.is_cuda() and is_flashinfer_available
+
 
 def test_topk_impl_equivalance():
 
@@ -35,3 +41,67 @@ def test_topk_impl_equivalance():
         result2 = apply_top_k_top_p(logits=logits.clone(), k=k, p=no_op_top_p)
 
         assert torch.allclose(result1, result2)
+
+
+def test_flashinfer_sampler():
+    '''
+    This test verifies that the FlashInfer top-k and top-p sampling
+    implementation produces the same results as the Python implementation.
+
+    NOTE: FlashInfer did not directly expose an interface for fused top-k and 
+    top-p prob renorm (it did provide fused sampling but we cannot compare 
+    sampling results due to randomness), so we will compare the probability
+    renormed consequently by top-k and then top-p of FlashInfer implementation.
+    '''
+
+    if not FLASHINFER_ENABLED:
+        pytest.skip(
+            "FlashInfer not installed or not available on this platform.")
+
+    with torch.device(DEVICE):
+        generator = Generator(device=DEVICE).manual_seed(42)
+
+        # Generate random logits
+        logits = torch.rand((BATCH_SIZE, VOCAB_SIZE), generator=generator)
+
+        # Generate various top-k and top-p values
+        k_values = torch.randint(1, 1000, (BATCH_SIZE, ), generator=generator)
+        p_values = torch.rand(
+            (BATCH_SIZE, ),
+            generator=generator) * 0.5 + 0.5  # range in [0.5, 1.0]
+
+        # Sometimes disable top-k (k=vocab_size)
+        k_values.masked_fill_(
+            torch.randint(0,
+                          2, (BATCH_SIZE, ),
+                          generator=generator,
+                          dtype=torch.bool), VOCAB_SIZE)
+
+        # Sometimes disable top-p (p=1.0)
+        p_values.masked_fill_(
+            torch.randint(0,
+                          2, (BATCH_SIZE, ),
+                          generator=generator,
+                          dtype=torch.bool), 1.0)
+
+        python_logits = apply_top_k_top_p(
+            logits=logits.clone(),
+            k=k_values,
+            p=p_values,
+        )
+        python_probs = torch.softmax(python_logits, dim=-1)
+
+        # FlashInfer only exposed renorm interfaces for probs so convert first
+        flashinfer_probs = torch.softmax(logits.clone(), dim=-1)
+        flashinfer_probs = top_k_renorm_probs(
+            probs=flashinfer_probs,
+            top_k=k_values,
+        )
+        flashinfer_probs = top_p_renorm_probs(
+            probs=flashinfer_probs,
+            top_p=p_values,
+        )
+
+        # Compare the results
+        assert torch.allclose(python_probs, flashinfer_probs, atol=2e-2), \
+            "FlashInfer and Python sampling implementations do not match!"
diff --git a/vllm/model_executor/layers/rejection_sampler.py b/vllm/model_executor/layers/rejection_sampler.py
index 26a2760f7..af82b9dc9 100644
--- a/vllm/model_executor/layers/rejection_sampler.py
+++ b/vllm/model_executor/layers/rejection_sampler.py
@@ -123,12 +123,13 @@ class RejectionSampler(SpecDecodeStochasticBaseSampler):
         # for rejection sampling
         if self.use_flashinfer and chain_speculative_sampling is not None:
             batch_size, k, _ = draft_probs.shape
-            uniform_samples = self._create_uniform_samples(
-                seeded_seqs, batch_size, k, draft_probs.device)
-            output_token_ids, accepted_token_num, emitted_token_num \
-                = chain_speculative_sampling(
-                draft_probs, draft_token_ids, uniform_samples,
-                target_with_bonus_probs)
+
+            (output_token_ids, accepted_token_num,
+             emitted_token_num) = chain_speculative_sampling(
+                 draft_probs,
+                 draft_token_ids,
+                 target_with_bonus_probs,
+             )
 
             # num_emitted_tokens returned by flashinfer
             # does not include the bonus token
diff --git a/vllm/model_executor/layers/sampler.py b/vllm/model_executor/layers/sampler.py
index 2e2c46edf..d6b910e4b 100644
--- a/vllm/model_executor/layers/sampler.py
+++ b/vllm/model_executor/layers/sampler.py
@@ -1,7 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 """A layer that samples the next tokens from the model's outputs."""
 import itertools
-import warnings
 from collections.abc import Iterator
 from dataclasses import dataclass
 from importlib.util import find_spec
@@ -24,7 +23,6 @@ from vllm.sequence import (VLLM_INVALID_TOKEN_ID,
 from vllm.spec_decode.metrics import SpecDecodeWorkerMetrics
 
 if envs.VLLM_USE_FLASHINFER_SAMPLER and find_spec("flashinfer"):
-    import flashinfer.sampling
     # yapf: disable
     from flashinfer.sampling import (
         top_k_top_p_sampling_from_probs as flashinfer_top_k_top_p_sampling)
@@ -33,6 +31,10 @@ if envs.VLLM_USE_FLASHINFER_SAMPLER and find_spec("flashinfer"):
 else:
     flashinfer_top_k_top_p_sampling = None
 
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
 
 def get_sampler() -> torch.nn.Module:
     if envs.VLLM_USE_V1:
@@ -545,38 +547,15 @@ def _multinomial(
 def _top_k_top_p_multinomial_with_flashinfer(
         probs: torch.Tensor, top_ks: torch.Tensor, top_ps: torch.Tensor,
         num_samples: int, seq_groups: Optional[list[SequenceGroupToSample]]):
-    max_top_k_round = 32
     if num_samples > 1:
         probs = probs.repeat_interleave(num_samples, dim=0)
         top_ks = top_ks.repeat_interleave(num_samples)
         top_ps = top_ps.repeat_interleave(num_samples)
-    batch_size = probs.shape[0]
-    uniform_samples = torch.empty((max_top_k_round, batch_size),
-                                  device=probs.device)
-    if seq_groups is None:
-        uniform_samples.uniform_()
-    else:
-        sample_idx = 0
-        for seq_group in seq_groups:
-            seq_ids = seq_group.seq_ids
-            stride = len(seq_ids) * num_samples
-            assert seq_group.generator is not None
-            uniform_samples[:, sample_idx:sample_idx +
-                            stride].uniform_(generator=seq_group.generator)
-            sample_idx += stride
-    batch_next_token_ids, success = flashinfer_top_k_top_p_sampling(
+    batch_next_token_ids = flashinfer_top_k_top_p_sampling(
         probs,
-        uniform_samples,
         top_ks,
         top_ps,
     )
-    if not success.all():
-        warnings.warn("FlashInfer rejection sampling failed, fallback.",
-                      stacklevel=1)
-        probs = flashinfer.sampling.top_k_renorm_prob(probs, top_ks)
-        probs = flashinfer.sampling.top_p_renorm_prob(probs, top_ps)
-        batch_next_token_ids = flashinfer.sampling.sampling_from_probs(
-            probs, uniform_samples[0])
     return batch_next_token_ids.view(-1, num_samples)
 
 
@@ -712,19 +691,14 @@ def _sample_with_torch(
                               seq_groups)
 
             if flashinfer_top_k_top_p_sampling is not None:
-                multinomial_samples[
-                    sampling_type] = _top_k_top_p_multinomial_with_flashinfer(
-                        probs[long_sample_indices],
-                        sampling_tensors.top_ks[long_sample_indices],
-                        sampling_tensors.top_ps[long_sample_indices],
-                        max_n_in_batch,
-                        seq_groups_arg,
-                    )
-            else:
-                multinomial_samples[sampling_type] = _multinomial(
-                    probs[long_sample_indices],
-                    max_n_in_batch,
-                    seq_groups=seq_groups_arg)
+                logger.warning("FlashInfer 0.2.3+ does not support "
+                               "per-request generators. Falling back to "
+                               "PyTorch-native implementation.")
+
+            multinomial_samples[sampling_type] = _multinomial(
+                probs[long_sample_indices],
+                max_n_in_batch,
+                seq_groups=seq_groups_arg)
 
             if sampled_token_ids_tensor is not None:
                 # Store sampled tokens in output tensor.
diff --git a/vllm/v1/sample/ops/topk_topp_sampler.py b/vllm/v1/sample/ops/topk_topp_sampler.py
index 745b81ded..5d8b3f423 100644
--- a/vllm/v1/sample/ops/topk_topp_sampler.py
+++ b/vllm/v1/sample/ops/topk_topp_sampler.py
@@ -31,21 +31,10 @@ class TopKTopPSampler(nn.Module):
         if current_platform.is_cuda():
             if is_flashinfer_available:
                 flashinfer_version = flashinfer.__version__
-                if flashinfer_version >= "0.2.3":
-                    # FIXME(DefTruth): Currently, we have errors when using
-                    # FlashInfer>=v0.2.3 for top-p & top-k sampling. As a
-                    # workaround, we disable FlashInfer for top-p & top-k
-                    # sampling by default while FlashInfer>=v0.2.3.
-                    # The sampling API removes the success return value
-                    # of all sampling API, which is not compatible with
-                    # earlier design.
-                    # https://github.com/flashinfer-ai/flashinfer/releases/
-                    # tag/v0.2.3
-                    logger.info(
-                        "Currently, FlashInfer top-p & top-k sampling sampler "
-                        "is disabled because FlashInfer>=v0.2.3 is not "
-                        "backward compatible. Falling back to the PyTorch-"
-                        "native implementation of top-p & top-k sampling.")
+                if flashinfer_version < "0.2.3":
+                    logger.warning(
+                        "FlashInfer version >= 0.2.3 required. "
+                        "Falling back to default sampling implementation.")
                     self.forward = self.forward_native
                 elif envs.VLLM_USE_FLASHINFER_SAMPLER is not False:
                     # NOTE(woosuk): The V0 sampler doesn't use FlashInfer for
@@ -106,6 +95,11 @@ class TopKTopPSampler(nn.Module):
             # not needed. This is because `random_sample` does not require
             # CPU-GPU synchronization while `flashinfer_sample` does.
             return random_sample(probs, generators)
+        if generators:
+            logger.warning("FlashInfer 0.2.3+ does not support "
+                           "per-request generators. Falling back to "
+                           "PyTorch-native implementation.")
+            return self.forward_native(logits, generators, k, p)
         return flashinfer_sample(probs, k, p, generators)
 
     def forward_tpu(
@@ -280,36 +274,18 @@ def flashinfer_sample(
     the synchronization overhead.
     """
     assert not (k is None and p is None)
-    max_top_k_round = 32
-    batch_size = probs.shape[0]
-    uniform_samples = torch.empty((max_top_k_round, batch_size),
-                                  device=probs.device)
-    if len(generators) != batch_size:
-        uniform_samples.uniform_()
-    if generators:
-        for i, generator in generators.items():
-            uniform_samples[:, i].uniform_(generator=generator)
 
     if k is None:
         # Top-p only.
-        next_token_ids, success = flashinfer.sampling.top_p_sampling_from_probs(
-            probs, uniform_samples, p, deterministic=True)
+        next_token_ids = flashinfer.sampling.top_p_sampling_from_probs(
+            probs, p, deterministic=True)
     elif p is None:
         # Top-k only.
-        next_token_ids, success = flashinfer.sampling.top_k_sampling_from_probs(
-            probs, uniform_samples, k, deterministic=True)
+        next_token_ids = flashinfer.sampling.top_k_sampling_from_probs(
+            probs, k, deterministic=True)
     else:
         # Both top-k and top-p.
-        next_token_ids, success = (
-            flashinfer.sampling.top_k_top_p_sampling_from_probs(
-                probs, uniform_samples, k, p, deterministic=True))
-
-    # NOTE: CPU-GPU synchronization happens here.
-    if not success.all():
-        if k is not None:
-            probs = flashinfer.sampling.top_k_renorm_prob(probs, k)
-        if p is not None:
-            probs = flashinfer.sampling.top_p_renorm_prob(probs, p)
-        next_token_ids = flashinfer.sampling.sampling_from_probs(
-            probs, uniform_samples[0], deterministic=True)
+        next_token_ids = (flashinfer.sampling.top_k_top_p_sampling_from_probs(
+            probs, k, p, deterministic=True))
+
     return next_token_ids.view(-1)
-- 
GitLab


From e73b7dfd69ae353711362b58180aa32b86a32095 Mon Sep 17 00:00:00 2001
From: Jinzhen Lin <linjinzhen@hotmail.com>
Date: Sat, 17 May 2025 07:02:44 +0800
Subject: [PATCH 428/461] [Bugfix] fix `an illegal memory access was
 encountered` of marlin kernel + act_order  (#18245)

---
 csrc/moe/marlin_moe_wna16/marlin_template.h   | 25 +++++++++++--------
 .../gptq_marlin/marlin_template.h             | 24 ++++++++++--------
 tests/weight_loading/models.txt               |  2 +-
 3 files changed, 29 insertions(+), 22 deletions(-)

diff --git a/csrc/moe/marlin_moe_wna16/marlin_template.h b/csrc/moe/marlin_moe_wna16/marlin_template.h
index fdf0f51cd..1c2553960 100644
--- a/csrc/moe/marlin_moe_wna16/marlin_template.h
+++ b/csrc/moe/marlin_moe_wna16/marlin_template.h
@@ -1767,17 +1767,20 @@ __global__ void Marlin(
 
       if constexpr (has_act_order) {
         slice_k_start += tb_k * stages;
-        slice_k_start_shared_fetch += tb_k * stages;
-        int first_group_id = g_idx[slice_k_start];
-        int last_g_idx = slice_k_start + stages * tb_k * 2;
-        if (last_g_idx >= prob_k) {
-          last_g_idx = prob_k - 1;
-        }
-        int last_group_id = g_idx[last_g_idx];
-        if (last_group_id >= sh_first_group_id + sh_num_groups) {
-          fetch_act_order_scales_to_shared(false, first_group_id,
-                                           last_group_id);
-          __syncthreads();
+
+        if (slice_k_start < prob_k) {
+          slice_k_start_shared_fetch += tb_k * stages;
+          int first_group_id = g_idx[slice_k_start];
+          int last_g_idx = slice_k_start + stages * tb_k * 2;
+          if (last_g_idx >= prob_k) {
+            last_g_idx = prob_k - 1;
+          }
+          int last_group_id = g_idx[last_g_idx];
+          if (last_group_id >= sh_first_group_id + sh_num_groups) {
+            fetch_act_order_scales_to_shared(false, first_group_id,
+                                             last_group_id);
+            __syncthreads();
+          }
         }
       }
       if (slice_iters == 0) {
diff --git a/csrc/quantization/gptq_marlin/marlin_template.h b/csrc/quantization/gptq_marlin/marlin_template.h
index c49898210..e416d5a76 100644
--- a/csrc/quantization/gptq_marlin/marlin_template.h
+++ b/csrc/quantization/gptq_marlin/marlin_template.h
@@ -1588,16 +1588,20 @@ __global__ void Marlin(
 
     if constexpr (has_act_order) {
       slice_k_start += tb_k * stages;
-      slice_k_start_shared_fetch += tb_k * stages;
-      int first_group_id = g_idx[slice_k_start];
-      int last_g_idx = slice_k_start + stages * tb_k * 2;
-      if (last_g_idx >= prob_k) {
-        last_g_idx = prob_k - 1;
-      }
-      int last_group_id = g_idx[last_g_idx];
-      if (last_group_id >= sh_first_group_id + sh_num_groups) {
-        fetch_act_order_scales_to_shared(false, first_group_id, last_group_id);
-        __syncthreads();
+
+      if (slice_k_start < prob_k) {
+        slice_k_start_shared_fetch += tb_k * stages;
+        int first_group_id = g_idx[slice_k_start];
+        int last_g_idx = slice_k_start + stages * tb_k * 2;
+        if (last_g_idx >= prob_k) {
+          last_g_idx = prob_k - 1;
+        }
+        int last_group_id = g_idx[last_g_idx];
+        if (last_group_id >= sh_first_group_id + sh_num_groups) {
+          fetch_act_order_scales_to_shared(false, first_group_id,
+                                           last_group_id);
+          __syncthreads();
+        }
       }
     }
 
diff --git a/tests/weight_loading/models.txt b/tests/weight_loading/models.txt
index 9164f8595..1b7970740 100644
--- a/tests/weight_loading/models.txt
+++ b/tests/weight_loading/models.txt
@@ -2,7 +2,7 @@ gptq_marlin, robertgshaw2/zephyr-7b-beta-channelwise-gptq, main
 gptq_marlin, TheBloke/Llama-2-7B-GPTQ, main
 gptq_marlin, TheBloke/TinyLlama-1.1B-Chat-v1.0-GPTQ, main
 gptq_marlin, TheBloke/TinyLlama-1.1B-Chat-v1.0-GPTQ, gptq-8bit--1g-actorder_True
-#gptq_marlin, TheBloke/TinyLlama-1.1B-Chat-v1.0-GPTQ, gptq-8bit-32g-actorder_True
+gptq_marlin, TheBloke/TinyLlama-1.1B-Chat-v1.0-GPTQ, gptq-8bit-32g-actorder_True
 gptq_marlin, TechxGenus/gemma-1.1-2b-it-GPTQ, main
 gptq, robertgshaw2/zephyr-7b-beta-channelwise-gptq, main
 gptq, TheBloke/Llama-2-7B-GPTQ, main
-- 
GitLab


From fabe89bbc41b34558558c0d5401e23776460eecb Mon Sep 17 00:00:00 2001
From: Woosuk Kwon <woosuk.kwon@berkeley.edu>
Date: Fri, 16 May 2025 16:10:27 -0700
Subject: [PATCH 429/461] [Spec Decode] Don't fall back to V0 when spec
 decoding is enabled (#18265)

---
 vllm/engine/arg_utils.py | 10 +---------
 1 file changed, 1 insertion(+), 9 deletions(-)

diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index dc2bb3a52..f0c6b15b7 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1325,7 +1325,7 @@ class EngineArgs:
                                recommend_to_remove=False)
             return False
 
-        # Only Ngram speculative decoding so far.
+        # V1 supports N-gram, Medusa, and Eagle speculative decoding.
         is_ngram_enabled = False
         is_eagle_enabled = False
         is_medusa_enabled = False
@@ -1390,14 +1390,6 @@ class EngineArgs:
             _raise_or_fallback(feature_name=name, recommend_to_remove=False)
             return False
 
-        # ngram is supported on V1, but off by default for now.
-        if is_ngram_enabled and _warn_or_fallback("ngram"):
-            return False
-
-        # Eagle is under development, so we don't support it yet.
-        if is_eagle_enabled and _warn_or_fallback("Eagle"):
-            return False
-
         # Non-[CUDA, TPU] may be supported on V1, but off by default for now.
         v0_hardware = not any(
             (current_platform.is_cuda(), current_platform.is_tpu()))
-- 
GitLab


From fd195b194e43ebd736182224f5904d9790d3db91 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Fri, 16 May 2025 21:16:33 -0400
Subject: [PATCH 430/461] [V1][P/D] Local attention optimization for NIXL
 (#18170)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 .../kv_connector/v1/nixl_connector.py         | 101 ++++++++++++++++--
 1 file changed, 90 insertions(+), 11 deletions(-)

diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
index c0c03efcd..e6c83a0fc 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -96,7 +96,8 @@ class NixlConnector(KVConnectorBase_V1):
             self.connector_worker: Optional[NixlConnectorWorker] = None
         elif role == KVConnectorRole.WORKER:
             self.connector_scheduler = None
-            self.connector_worker = NixlConnectorWorker(str(self.engine_id))
+            self.connector_worker = NixlConnectorWorker(
+                vllm_config, str(self.engine_id))
 
     ############################################################
     # Scheduler Side Methods
@@ -302,7 +303,7 @@ class NixlConnectorScheduler:
 class NixlConnectorWorker:
     """Implementation of Worker side methods"""
 
-    def __init__(self, engine_id: str):
+    def __init__(self, vllm_config: VllmConfig, engine_id: str):
         if NixlWrapper is None:
             logger.error("NIXL is not available")
             raise RuntimeError("NIXL is not available")
@@ -329,6 +330,7 @@ class NixlConnectorWorker:
         # Number of NIXL regions. Currently one region per cache
         # (so 1 per layer for MLA, otherwise 2 per layer)
         self.num_regions = 0
+        self.num_layers = 0
 
         # nixl_prepped_dlist_handle (int).
         self.src_xfer_side_handle: int = 0
@@ -355,6 +357,14 @@ class NixlConnectorWorker:
         # Background thread for establishing new connections.
         self._nixl_handshake_listener_t: Optional[threading.Thread] = None
 
+        self.vllm_config = vllm_config
+        self.block_size = vllm_config.cache_config.block_size
+
+        # TODO(mgoin): remove this once we have hybrid memory allocator
+        # Optimization for models with local attention (Llama 4)
+        # List of block window sizes for each layer for local attention
+        self.block_window_per_layer: list[Optional[int]] = []
+
     @staticmethod
     def _nixl_handshake_listener(metadata: NixlAgentMetadata,
                                  ready_event: threading.Event, rank: int):
@@ -465,6 +475,27 @@ class NixlConnectorWorker:
                 kv_caches_base_addr.append(base_addr)
         self.kv_caches_base_addr[self.engine_id] = kv_caches_base_addr
         self.num_regions = len(caches_data)
+        self.num_layers = len(self.kv_caches.keys())
+
+        # TODO(mgoin): remove this once we have hybrid memory allocator
+        # Optimization for models with local attention (Llama 4)
+        if self.vllm_config.model_config.hf_config.model_type == "llama4":
+            from transformers import Llama4TextConfig
+            assert isinstance(self.vllm_config.model_config.hf_text_config,
+                              Llama4TextConfig)
+            llama4_config = self.vllm_config.model_config.hf_text_config
+            no_rope_layers = llama4_config.no_rope_layers
+            chunk_size = llama4_config.attention_chunk_size
+            chunk_block_size = math.ceil(chunk_size / self.block_size)
+            for layer_idx in range(self.num_layers):
+                # no_rope_layers[layer_idx] == 0 means NoPE (global)
+                # Any other value means RoPE (local chunked)
+                is_local_attention = no_rope_layers[layer_idx] != 0
+                block_window = chunk_block_size if is_local_attention else None
+                self.block_window_per_layer.append(block_window)
+            logger.debug("Llama 4 block window per layer mapping: %s",
+                         self.block_window_per_layer)
+            assert len(self.block_window_per_layer) == self.num_layers
 
         descs = self.nixl_wrapper.get_reg_descs(caches_data, "VRAM")
         logger.debug("Registering descs: %s", caches_data)
@@ -699,10 +730,39 @@ class NixlConnectorWorker:
         remote_xfer_side_handle = self.dst_xfer_side_handles[dst_engine_id]
 
         # Get descs ids.
-        remote_block_descs_ids = self._get_block_descs_ids(
-            dst_engine_id, remote_block_ids)
-        local_block_descs_ids = self._get_block_descs_ids(
-            self.engine_id, local_block_ids)
+        local_block_descs_ids: list[int] = []
+        remote_block_descs_ids: list[int] = []
+        if not self.block_window_per_layer:
+            # Default case: assume global attention
+            remote_block_descs_ids = self._get_block_descs_ids(
+                dst_engine_id, remote_block_ids)
+            local_block_descs_ids = self._get_block_descs_ids(
+                self.engine_id, local_block_ids)
+        else:
+            # TODO(mgoin): remove this once we have hybrid memory allocator
+            # Optimization for models with local attention (Llama 4)
+            for layer_idx, block_window in enumerate(
+                    self.block_window_per_layer):
+                # For each layer:
+                if block_window is None:
+                    # If not chunked, we just use the
+                    # full block lists (global attention)
+                    layer_local_block_ids = local_block_ids
+                    layer_remote_block_ids = remote_block_ids
+                else:
+                    # If chunked, get the last block_window blocks
+                    layer_local_block_ids = local_block_ids[-block_window:]
+                    layer_remote_block_ids = remote_block_ids[-block_window:]
+
+                # Get descs ids for the layer.
+                layer_local_desc_ids = self._get_block_descs_ids(
+                    self.engine_id, layer_local_block_ids, layer_idx)
+                layer_remote_desc_ids = self._get_block_descs_ids(
+                    dst_engine_id, layer_remote_block_ids, layer_idx)
+
+                local_block_descs_ids.extend(layer_local_desc_ids)
+                remote_block_descs_ids.extend(layer_remote_desc_ids)
+
         assert len(local_block_descs_ids) == len(remote_block_descs_ids)
 
         # Prepare transfer with Nixl.
@@ -721,12 +781,31 @@ class NixlConnectorWorker:
         # Use handle to check completion in future step().
         self._recving_transfers[request_id].append(handle)
 
-    def _get_block_descs_ids(self, engine_id: str,
-                             block_ids: list[int]) -> list[int]:
-        """Get the descs ids for a set of block ids."""
+    def _get_block_descs_ids(self,
+                             engine_id: str,
+                             block_ids: list[int],
+                             layer_idx: Optional[int] = None) -> list[int]:
+        """
+        Get the descs ids for a set of block ids.
+        If layer_idx is provided, we use the region_ids for the given layer.
+        Otherwise, we use all regions.
+        """
+
+        if layer_idx is None:
+            region_ids = range(self.num_regions)
+        else:
+            assert layer_idx < self.num_layers
+            if self.num_layers < self.num_regions:
+                # If we have more regions than layers, we assume that
+                # the regions are organized as [K0, V0, K1, V1, ...]
+                # and we select K_i and V_i
+                assert 2 * self.num_layers == self.num_regions
+                region_ids = range(2 * layer_idx, 2 * layer_idx + 2)
+            else:
+                # Otherwise, we assume we have MLA and select i-th layer
+                assert self.num_layers == self.num_regions
+                region_ids = range(layer_idx, layer_idx + 1)
 
-        # range(1) for MLA, range(2) otherwise.
-        region_ids = range(self.num_regions)
         num_blocks = self.dst_num_blocks[engine_id]
 
         # Compute the desc ids for each block.
-- 
GitLab


From 55f1a468d97fbf9387e577e901b3f290ed8aa15b Mon Sep 17 00:00:00 2001
From: Trevor Royer <trevorroyer@gmail.com>
Date: Fri, 16 May 2025 19:43:45 -0700
Subject: [PATCH 431/461] Move cli args docs to its own page (#18228) (#18264)

Signed-off-by: Trevor Royer <troyer@redhat.com>
---
 docs/source/index.md                          |  1 +
 docs/source/serving/engine_args.md            |  2 +
 .../serving/openai_compatible_server.md       | 50 +------------------
 docs/source/serving/serve_args.md             | 47 +++++++++++++++++
 4 files changed, 51 insertions(+), 49 deletions(-)
 create mode 100644 docs/source/serving/serve_args.md

diff --git a/docs/source/index.md b/docs/source/index.md
index bbff7361f..0470a43a9 100644
--- a/docs/source/index.md
+++ b/docs/source/index.md
@@ -117,6 +117,7 @@ training/rlhf.md
 
 serving/offline_inference
 serving/openai_compatible_server
+serving/serve_args
 serving/multimodal_inputs
 serving/distributed_serving
 serving/metrics
diff --git a/docs/source/serving/engine_args.md b/docs/source/serving/engine_args.md
index 97ea01cd3..9325a2406 100644
--- a/docs/source/serving/engine_args.md
+++ b/docs/source/serving/engine_args.md
@@ -7,6 +7,8 @@ Engine arguments control the behavior of the vLLM engine.
 - For [offline inference](#offline-inference), they are part of the arguments to `LLM` class.
 - For [online serving](#openai-compatible-server), they are part of the arguments to `vllm serve`.
 
+For references to all arguments available from `vllm serve` see the [serve args](#serve-args) documentation.
+
 Below, you can find an explanation of every engine argument:
 
 <!--- pyml disable-num-lines 7 no-space-in-emphasis -->
diff --git a/docs/source/serving/openai_compatible_server.md b/docs/source/serving/openai_compatible_server.md
index 07bd211c2..61f7e98bf 100644
--- a/docs/source/serving/openai_compatible_server.md
+++ b/docs/source/serving/openai_compatible_server.md
@@ -4,7 +4,7 @@
 
 vLLM provides an HTTP server that implements OpenAI's [Completions API](https://platform.openai.com/docs/api-reference/completions), [Chat API](https://platform.openai.com/docs/api-reference/chat), and more! This functionality lets you serve models and interact with them using an HTTP client.
 
-In your terminal, you can [install](../getting_started/installation.md) vLLM, then start the server with the [`vllm serve`](#vllm-serve) command. (You can also use our [Docker](#deployment-docker) image.)
+In your terminal, you can [install](../getting_started/installation.md) vLLM, then start the server with the [`vllm serve`](#serve-args) command. (You can also use our [Docker](#deployment-docker) image.)
 
 ```bash
 vllm serve NousResearch/Meta-Llama-3-8B-Instruct --dtype auto --api-key token-abc123
@@ -168,54 +168,6 @@ completion = client.completions.create(
 print(completion._request_id)
 ```
 
-## CLI Reference
-
-(vllm-serve)=
-
-### `vllm serve`
-
-The `vllm serve` command is used to launch the OpenAI-compatible server.
-
-:::{tip}
-The vast majority of command-line arguments are based on those for offline inference.
-
-See [here](configuration-options) for some common options.
-:::
-
-:::{argparse}
-:module: vllm.entrypoints.openai.cli_args
-:func: create_parser_for_docs
-:prog: vllm serve
-:::
-
-#### Configuration file
-
-You can load CLI arguments via a [YAML](https://yaml.org/) config file.
-The argument names must be the long form of those outlined [above](#vllm-serve).
-
-For example:
-
-```yaml
-# config.yaml
-
-model: meta-llama/Llama-3.1-8B-Instruct
-host: "127.0.0.1"
-port: 6379
-uvicorn-log-level: "info"
-```
-
-To use the above config file:
-
-```bash
-vllm serve --config config.yaml
-```
-
-:::{note}
-In case an argument is supplied simultaneously using command line and the config file, the value from the command line will take precedence.
-The order of priorities is `command line > config file values > defaults`.
-e.g. `vllm serve SOME_MODEL --config config.yaml`, SOME_MODEL takes precedence over `model` in config file.
-:::
-
 ## API Reference
 
 (completions-api)=
diff --git a/docs/source/serving/serve_args.md b/docs/source/serving/serve_args.md
new file mode 100644
index 000000000..edb49f4ba
--- /dev/null
+++ b/docs/source/serving/serve_args.md
@@ -0,0 +1,47 @@
+(serve-args)=
+
+# Server Arguments
+
+The `vllm serve` command is used to launch the OpenAI-compatible server.
+
+## CLI Arguments
+
+The following are all arguments available from the `vllm serve` command:
+
+<!--- pyml disable-num-lines 7 no-space-in-emphasis -->
+```{eval-rst}
+.. argparse::
+    :module: vllm.entrypoints.openai.cli_args
+    :func: create_parser_for_docs
+    :prog: vllm serve
+    :nodefaultconst:
+    :markdownhelp:
+```
+
+## Configuration file
+
+You can load CLI arguments via a [YAML](https://yaml.org/) config file.
+The argument names must be the long form of those outlined [above](#serve-args).
+
+For example:
+
+```yaml
+# config.yaml
+
+model: meta-llama/Llama-3.1-8B-Instruct
+host: "127.0.0.1"
+port: 6379
+uvicorn-log-level: "info"
+```
+
+To use the above config file:
+
+```bash
+vllm serve --config config.yaml
+```
+
+:::{note}
+In case an argument is supplied simultaneously using command line and the config file, the value from the command line will take precedence.
+The order of priorities is `command line > config file values > defaults`.
+e.g. `vllm serve SOME_MODEL --config config.yaml`, SOME_MODEL takes precedence over `model` in config file.
+:::
-- 
GitLab


From 60017dc84195a8c854ce833b95679523dcac8bb8 Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Sat, 17 May 2025 10:46:18 +0800
Subject: [PATCH 432/461] [Misc] reformat the collect-env output (#18285)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 vllm/collect_env.py | 85 ++++++++++++++++++++++++++++-----------------
 1 file changed, 54 insertions(+), 31 deletions(-)

diff --git a/vllm/collect_env.py b/vllm/collect_env.py
index 9cfceb7c4..85746b7ef 100644
--- a/vllm/collect_env.py
+++ b/vllm/collect_env.py
@@ -637,33 +637,50 @@ def get_env_info():
 
 
 env_info_fmt = """
-PyTorch version: {torch_version}
-Is debug build: {is_debug_build}
-CUDA used to build PyTorch: {cuda_compiled_version}
-ROCM used to build PyTorch: {hip_compiled_version}
-
-OS: {os}
-GCC version: {gcc_version}
-Clang version: {clang_version}
-CMake version: {cmake_version}
-Libc version: {libc_version}
-
-Python version: {python_version}
-Python platform: {python_platform}
-Is CUDA available: {is_cuda_available}
-CUDA runtime version: {cuda_runtime_version}
-CUDA_MODULE_LOADING set to: {cuda_module_loading}
-GPU models and configuration: {nvidia_gpu_models}
-Nvidia driver version: {nvidia_driver_version}
-cuDNN version: {cudnn_version}
-HIP runtime version: {hip_runtime_version}
-MIOpen runtime version: {miopen_runtime_version}
-Is XNNPACK available: {is_xnnpack_available}
-
-CPU:
+==============================
+        System Info
+==============================
+OS                           : {os}
+GCC version                  : {gcc_version}
+Clang version                : {clang_version}
+CMake version                : {cmake_version}
+Libc version                 : {libc_version}
+
+==============================
+       PyTorch Info
+==============================
+PyTorch version              : {torch_version}
+Is debug build               : {is_debug_build}
+CUDA used to build PyTorch   : {cuda_compiled_version}
+ROCM used to build PyTorch   : {hip_compiled_version}
+
+==============================
+      Python Environment
+==============================
+Python version               : {python_version}
+Python platform              : {python_platform}
+
+==============================
+       CUDA / GPU Info
+==============================
+Is CUDA available            : {is_cuda_available}
+CUDA runtime version         : {cuda_runtime_version}
+CUDA_MODULE_LOADING set to   : {cuda_module_loading}
+GPU models and configuration : {nvidia_gpu_models}
+Nvidia driver version        : {nvidia_driver_version}
+cuDNN version                : {cudnn_version}
+HIP runtime version          : {hip_runtime_version}
+MIOpen runtime version       : {miopen_runtime_version}
+Is XNNPACK available         : {is_xnnpack_available}
+
+==============================
+          CPU Info
+==============================
 {cpu_info}
 
-Versions of relevant libraries:
+==============================
+Versions of relevant libraries
+==============================
 {pip_packages}
 {conda_packages}
 """.strip()
@@ -671,17 +688,23 @@ Versions of relevant libraries:
 # both the above code and the following code use `strip()` to
 # remove leading/trailing whitespaces, so we need to add a newline
 # in between to separate the two sections
-env_info_fmt += "\n"
+env_info_fmt += "\n\n"
 
 env_info_fmt += """
-ROCM Version: {rocm_version}
-Neuron SDK Version: {neuron_sdk_version}
-vLLM Version: {vllm_version}
+==============================
+         vLLM Info
+==============================
+ROCM Version                 : {rocm_version}
+Neuron SDK Version           : {neuron_sdk_version}
+vLLM Version                 : {vllm_version}
 vLLM Build Flags:
-{vllm_build_flags}
+  {vllm_build_flags}
 GPU Topology:
-{gpu_topo}
+  {gpu_topo}
 
+==============================
+     Environment Variables
+==============================
 {env_vars}
 """.strip()
 
-- 
GitLab


From 4ee4826ede9706ca33492ead69fef99d0b0b0667 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E6=B1=AA=E5=BF=97=E9=B9=8F?= <wangzhipeng628@gmail.com>
Date: Fri, 16 May 2025 21:20:13 -0700
Subject: [PATCH 433/461] [BugFix] Correct max_model_len derivation from
 config.json for Mistral format  (#17937)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: 汪志鹏 <wangzhipeng628@gmail.com>
Co-authored-by: tracelogfb <48808670+tracelogfb@users.noreply.github.com>
Co-authored-by: Stephen Chen <tracelog@meta.com>
---
 vllm/transformers_utils/config.py | 21 ++++++++++++++++++---
 1 file changed, 18 insertions(+), 3 deletions(-)

diff --git a/vllm/transformers_utils/config.py b/vllm/transformers_utils/config.py
index 02034bf02..5f45ff133 100644
--- a/vllm/transformers_utils/config.py
+++ b/vllm/transformers_utils/config.py
@@ -686,9 +686,24 @@ def load_params_config(model: Union[str, Path], revision: Optional[str],
     config_dict["hidden_act"] = config_dict.get("activation", "silu")
     config_dict["tie_word_embeddings"] = config_dict.get(
         "tie_embeddings", False)
-    config_dict["max_seq_len"] = config_dict.get("max_seq_len", 128_000)
-    config_dict["max_position_embeddings"] = config_dict.get(
-        "max_position_embeddings", 128_000)
+
+    if config_dict.get("max_position_embeddings") is None:
+        max_position_embeddings = 128_000
+        try:
+            trust_remote_code_val = kwargs.get("trust_remote_code", False)
+            hf_config = get_config(model=model,
+                                   trust_remote_code=trust_remote_code_val,
+                                   revision=revision,
+                                   config_format=ConfigFormat.HF)
+            if hf_value := hf_config.get_text_config().max_position_embeddings:
+                max_position_embeddings = hf_value
+        except Exception as e:
+            logger.warning(
+                "The params.json file is missing 'max_position_embeddings'"
+                " and could not get a value from the HF config."
+                " Defaulting to 128000",
+                exc_info=e)
+        config_dict["max_position_embeddings"] = max_position_embeddings
 
     if config_dict.get("quantization") is not None:
         quantization = config_dict.get("quantization", {})
-- 
GitLab


From 3e0d435027f7585afbbc8b44ca1e386c0a88ae47 Mon Sep 17 00:00:00 2001
From: David Ben-David <sdavidbd@gmail.com>
Date: Sat, 17 May 2025 09:40:39 +0300
Subject: [PATCH 434/461] [P/D][V1] Support dynamic loading of external KV
 connector implementations (#18142)

Signed-off-by: David Ben-David <davidb@pliops.com>
Co-authored-by: David Ben-David <davidb@pliops.com>
---
 vllm/config.py                                      |  4 ++++
 .../distributed/kv_transfer/kv_connector/factory.py | 13 +++++++++++--
 2 files changed, 15 insertions(+), 2 deletions(-)

diff --git a/vllm/config.py b/vllm/config.py
index d07a1ff05..3a1598f57 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -3524,6 +3524,10 @@ class KVTransferConfig:
     kv_connector_extra_config: dict[str, Any] = field(default_factory=dict)
     """any extra config that the connector may need."""
 
+    kv_connector_module_path: Optional[str] = None
+    """The Python module path to dynamically load the KV connector from.
+    Only supported in V1."""
+
     def compute_hash(self) -> str:
         """
         WARNING: Whenever a new field is added to this config,
diff --git a/vllm/distributed/kv_transfer/kv_connector/factory.py b/vllm/distributed/kv_transfer/kv_connector/factory.py
index f998f5dd7..06b3983ed 100644
--- a/vllm/distributed/kv_transfer/kv_connector/factory.py
+++ b/vllm/distributed/kv_transfer/kv_connector/factory.py
@@ -58,8 +58,17 @@ class KVConnectorFactory:
             raise ValueError("Attempting to initialize a V1 Connector, "
                              f"but found {envs.VLLM_USE_V1=}")
 
-        connector_name = config.kv_transfer_config.kv_connector
-        connector_cls = cls._registry[connector_name]()
+        kv_transfer_config = config.kv_transfer_config
+        connector_name = kv_transfer_config.kv_connector
+        if connector_name in cls._registry:
+            connector_cls = cls._registry[connector_name]()
+        else:
+            connector_module_path = kv_transfer_config.kv_connector_module_path
+            if connector_module_path is None:
+                raise ValueError(
+                    f"Unsupported connector type: {connector_name}")
+            connector_module = importlib.import_module(connector_module_path)
+            connector_cls = getattr(connector_module, connector_name)
         assert issubclass(connector_cls, KVConnectorBase_V1)
         logger.info("Creating v1 connector with name: %s", connector_name)
         # NOTE(Kuntai): v1 connector is explicitly separated into two roles.
-- 
GitLab


From 48ac2bed5b6271f82187de61245a85d987197c6f Mon Sep 17 00:00:00 2001
From: Siyuan Liu <lsiyuan@google.com>
Date: Sat, 17 May 2025 00:23:12 -0700
Subject: [PATCH 435/461] [Hardware][TPU] Optionally import for TPU backend
 (#18269)

Signed-off-by: Siyuan Liu <lsiyuan@google.com>
Signed-off-by: Jade Zheng <zheng.shoujian@outlook.com>
Co-authored-by: Carol Zheng <cazheng@google.com>
Co-authored-by: Jade Zheng <zheng.shoujian@outlook.com>
Co-authored-by: Hongmin Fan <fanhongmin@google.com>
---
 .../distributed/device_communicators/tpu_communicator.py | 9 +++++++++
 vllm/platforms/tpu.py                                    | 8 ++++++++
 vllm/v1/worker/tpu_worker.py                             | 8 ++++++++
 3 files changed, 25 insertions(+)

diff --git a/vllm/distributed/device_communicators/tpu_communicator.py b/vllm/distributed/device_communicators/tpu_communicator.py
index de66ceaee..a17752796 100644
--- a/vllm/distributed/device_communicators/tpu_communicator.py
+++ b/vllm/distributed/device_communicators/tpu_communicator.py
@@ -91,3 +91,12 @@ class TpuCommunicator(DeviceCommunicatorBase):
     def all_gather(self, input_: torch.Tensor, dim: int = -1) -> torch.Tensor:
         assert dim == -1, "TPUs only support dim=-1 for all-gather."
         return xm.all_gather(input_, dim=dim)
+
+
+try:
+    from tpu_commons.distributed.device_communicators import (
+        TpuCommunicator as TpuCommonsCommunicator)
+    TpuCommunicator = TpuCommonsCommunicator  # type: ignore
+except ImportError:
+    logger.info("tpu_commons not found, using vLLM's TpuCommunicator")
+    pass
diff --git a/vllm/platforms/tpu.py b/vllm/platforms/tpu.py
index 41ed94fb6..6c573c1b3 100644
--- a/vllm/platforms/tpu.py
+++ b/vllm/platforms/tpu.py
@@ -194,3 +194,11 @@ class TpuPlatform(Platform):
             if params.sampling_type == SamplingType.RANDOM_SEED:
                 raise ValueError(
                     "Torch XLA does not support per-request seed.")
+
+
+try:
+    from tpu_commons.platforms import TpuPlatform as TpuCommonsPlatform
+    TpuPlatform = TpuCommonsPlatform  # type: ignore
+except ImportError:
+    logger.info("tpu_commons not found, using vLLM's TpuPlatform")
+    pass
diff --git a/vllm/v1/worker/tpu_worker.py b/vllm/v1/worker/tpu_worker.py
index 25715407c..ae3735ab0 100644
--- a/vllm/v1/worker/tpu_worker.py
+++ b/vllm/v1/worker/tpu_worker.py
@@ -267,3 +267,11 @@ def init_tpu_worker_distributed_environment(
     ensure_model_parallel_initialized(parallel_config.tensor_parallel_size,
                                       parallel_config.pipeline_parallel_size,
                                       parallel_config.enable_expert_parallel)
+
+
+try:
+    from tpu_commons.worker import TPUWorker as TPUCommonsWorker
+    TPUWorker = TPUCommonsWorker  # type: ignore
+except ImportError:
+    logger.info("tpu_commons not found, using vLLM's TPUWorker.")
+    pass
-- 
GitLab


From dcfe95234c1154abec9144266c66d137b12d4689 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Sat, 17 May 2025 03:23:25 -0400
Subject: [PATCH 436/461] Update Dockerfile to build for Blackwell (#18095)

---
 docker/Dockerfile | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index 3ee84eb55..bc3b9f336 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -77,7 +77,7 @@ RUN --mount=type=cache,target=/root/.cache/uv \
 # can be useful for both `dev` and `test`
 # explicitly set the list to avoid issues with torch 2.2
 # see https://github.com/pytorch/pytorch/pull/123243
-ARG torch_cuda_arch_list='7.0 7.5 8.0 8.6 8.9 9.0+PTX'
+ARG torch_cuda_arch_list='7.0 7.5 8.0 8.9 9.0 10.0+PTX'
 ENV TORCH_CUDA_ARCH_LIST=${torch_cuda_arch_list}
 # Override the arch list for flash-attn to reduce the binary size
 ARG vllm_fa_cmake_gpu_arches='80-real;90-real'
@@ -257,8 +257,8 @@ RUN --mount=type=cache,target=/root/.cache/uv \
 if [ "$TARGETPLATFORM" != "linux/arm64" ]; then \
     # uv pip install --system https://github.com/flashinfer-ai/flashinfer/releases/download/v0.2.4/flashinfer_python-0.2.4+cu124torch2.6-cp38-abi3-linux_x86_64.whl ; \
     # TESTING: install FlashInfer from source to test 2.7.0 final RC
-    FLASHINFER_ENABLE_AOT=1 TORCH_CUDA_ARCH_LIST='7.5 8.0 8.6 8.9 9.0+PTX' \
-    uv pip install --system --no-build-isolation "git+https://github.com/flashinfer-ai/flashinfer@v0.2.4" ; \
+    FLASHINFER_ENABLE_AOT=1 TORCH_CUDA_ARCH_LIST='7.5 8.0 8.9 9.0 10.0+PTX' \
+    uv pip install --system --no-build-isolation "git+https://github.com/flashinfer-ai/flashinfer@e00e8cedbfcb220f328fd36aa8f529f869b01e6b" ; \
 fi
 COPY examples examples
 COPY benchmarks benchmarks
-- 
GitLab


From f880d42582749ce9fbde3a3557bf983c7e093810 Mon Sep 17 00:00:00 2001
From: Nishidha <nishidha.panpaliya@partner.ibm.com>
Date: Sat, 17 May 2025 12:53:46 +0530
Subject: [PATCH 437/461] Fixed build on ppc64le due to openssl conflicts
 (#18262)

Signed-off-by: Nishidha Panpaliya <nishidha.panpaliya@partner.ibm.com>
---
 docker/Dockerfile.ppc64le | 8 ++------
 1 file changed, 2 insertions(+), 6 deletions(-)

diff --git a/docker/Dockerfile.ppc64le b/docker/Dockerfile.ppc64le
index ec9792278..14043eb7a 100644
--- a/docker/Dockerfile.ppc64le
+++ b/docker/Dockerfile.ppc64le
@@ -21,12 +21,8 @@ ENV UV_LINK_MODE=copy
 # Note: A dummy file 'control' is created in /tmp/ to artificially create dependencies between stages when building stages in parallel
 #       when `--jobs=<N>` is passed with podman build command
 RUN microdnf install -y openssl-devel dnf \
-    && dnf install -y https://mirror.stream.centos.org/9-stream/BaseOS/`arch`/os/Packages/centos-gpg-keys-9.0-24.el9.noarch.rpm \
-        https://mirror.stream.centos.org/9-stream/BaseOS/`arch`/os/Packages/centos-stream-repos-9.0-24.el9.noarch.rpm \
-        https://dl.fedoraproject.org/pub/epel/epel-release-latest-9.noarch.rpm \
-    && dnf config-manager --add-repo https://mirror.stream.centos.org/9-stream/BaseOS/`arch`/os \
-    && dnf config-manager --add-repo https://mirror.stream.centos.org/9-stream/AppStream/`arch`/os \
-    && dnf config-manager --set-enabled crb \
+    && dnf install -y  https://dl.fedoraproject.org/pub/epel/epel-release-latest-9.noarch.rpm \
+    && dnf config-manager --set-enabled codeready-builder-for-rhel-9-ppc64le-rpms \
     && dnf install -y \
        git tar gcc-toolset-13 automake libtool numactl-devel lapack-devel \
        pkgconfig xsimd zeromq-devel kmod findutils protobuf* \
-- 
GitLab


From 9214e60631a79506e7669650de87806a123e0b0b Mon Sep 17 00:00:00 2001
From: "rongfu.leng" <rongfu.leng@daocloud.io>
Date: Sat, 17 May 2025 15:24:17 +0800
Subject: [PATCH 438/461] [Model] use AutoWeightsLoader for solar (#18113)

---
 vllm/model_executor/models/mixtral_quant.py | 100 ++++++++-------
 vllm/model_executor/models/nemotron.py      | 128 ++++++++++---------
 vllm/model_executor/models/olmo.py          | 103 ++++++++-------
 vllm/model_executor/models/olmo2.py         |  96 +++++++-------
 vllm/model_executor/models/solar.py         | 132 +++++++++++---------
 5 files changed, 299 insertions(+), 260 deletions(-)

diff --git a/vllm/model_executor/models/mixtral_quant.py b/vllm/model_executor/models/mixtral_quant.py
index 4de83d12b..b6a0c9ec6 100644
--- a/vllm/model_executor/models/mixtral_quant.py
+++ b/vllm/model_executor/models/mixtral_quant.py
@@ -51,7 +51,7 @@ from vllm.model_executor.sampling_metadata import SamplingMetadata
 from vllm.sequence import IntermediateTensors
 
 from .interfaces import SupportsPP
-from .utils import (is_pp_missing_parameter,
+from .utils import (AutoWeightsLoader, is_pp_missing_parameter,
                     make_empty_intermediate_tensors_factory, make_layers,
                     maybe_prefix)
 
@@ -354,50 +354,6 @@ class MixtralModel(nn.Module):
         hidden_states, _ = self.norm(hidden_states, residual)
         return hidden_states
 
-
-class MixtralForCausalLM(nn.Module, SupportsPP):
-    fall_back_to_pt_during_load = False
-
-    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
-        super().__init__()
-        config = vllm_config.model_config.hf_config
-        quant_config = vllm_config.quant_config
-        self.config = config
-        self.quant_config = quant_config
-        self.model = MixtralModel(vllm_config=vllm_config,
-                                  prefix=maybe_prefix(prefix, "model"))
-        self.lm_head = ParallelLMHead(config.vocab_size,
-                                      config.hidden_size,
-                                      quant_config=quant_config)
-        if self.config.tie_word_embeddings:
-            self.lm_head.weight = self.model.embed_tokens.weight
-        self.logits_processor = LogitsProcessor(config.vocab_size)
-        self.make_empty_intermediate_tensors = (
-            self.model.make_empty_intermediate_tensors)
-
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
-
-    def forward(
-        self,
-        input_ids: torch.Tensor,
-        positions: torch.Tensor,
-        intermediate_tensors: Optional[IntermediateTensors] = None,
-        inputs_embeds: Optional[torch.Tensor] = None,
-    ) -> Union[torch.Tensor, IntermediateTensors]:
-        hidden_states = self.model(input_ids, positions, intermediate_tensors,
-                                   inputs_embeds)
-        return hidden_states
-
-    def compute_logits(
-        self,
-        hidden_states: torch.Tensor,
-        sampling_metadata: SamplingMetadata,
-    ) -> Optional[torch.Tensor]:
-        logits = self.logits_processor(self.lm_head, hidden_states,
-                                       sampling_metadata)
-        return logits
-
     def load_weights(self, weights: Iterable[tuple[str,
                                                    torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
@@ -410,8 +366,6 @@ class MixtralForCausalLM(nn.Module, SupportsPP):
         params_dict = dict(self.named_parameters())
         loaded_params: set[str] = set()
         for name, loaded_weight in weights:
-            if "rotary_emb.inv_freq" in name:
-                continue
             if name.endswith("scale"):
                 # Remapping the name of FP8 kv-scale.
                 name = maybe_remap_kv_scale_name(name, params_dict)
@@ -446,3 +400,55 @@ class MixtralForCausalLM(nn.Module, SupportsPP):
                 weight_loader(param, loaded_weight)
             loaded_params.add(name)
         return loaded_params
+
+
+class MixtralForCausalLM(nn.Module, SupportsPP):
+    fall_back_to_pt_during_load = False
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.model = MixtralModel(vllm_config=vllm_config,
+                                  prefix=maybe_prefix(prefix, "model"))
+        self.lm_head = ParallelLMHead(config.vocab_size,
+                                      config.hidden_size,
+                                      quant_config=quant_config)
+        if self.config.tie_word_embeddings:
+            self.lm_head.weight = self.model.embed_tokens.weight
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors)
+
+    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.get_input_embeddings(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: Optional[IntermediateTensors] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+    ) -> Union[torch.Tensor, IntermediateTensors]:
+        hidden_states = self.model(input_ids, positions, intermediate_tensors,
+                                   inputs_embeds)
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        sampling_metadata: SamplingMetadata,
+    ) -> Optional[torch.Tensor]:
+        logits = self.logits_processor(self.lm_head, hidden_states,
+                                       sampling_metadata)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["rotary_emb.inv_freq"]),
+        )
+        return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/nemotron.py b/vllm/model_executor/models/nemotron.py
index 862c53535..0b5a102ea 100644
--- a/vllm/model_executor/models/nemotron.py
+++ b/vllm/model_executor/models/nemotron.py
@@ -48,7 +48,7 @@ from vllm.sequence import IntermediateTensors
 from vllm.transformers_utils.configs import NemotronConfig
 
 from .interfaces import SupportsLoRA, SupportsPP
-from .utils import (PPMissingLayer, is_pp_missing_parameter,
+from .utils import (AutoWeightsLoader, PPMissingLayer, is_pp_missing_parameter,
                     make_empty_intermediate_tensors_factory, make_layers,
                     maybe_prefix)
 
@@ -300,6 +300,7 @@ class NemotronModel(nn.Module):
         lora_config = vllm_config.lora_config
 
         self.config = config
+        self.quant_config = quant_config
         lora_vocab = (lora_config.lora_extra_vocab_size *
                       (lora_config.max_loras or 1)) if lora_config else 0
         self.vocab_size = config.vocab_size + lora_vocab
@@ -362,6 +363,63 @@ class NemotronModel(nn.Module):
         hidden_states, _ = self.norm(hidden_states, residual)
         return hidden_states
 
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if (self.quant_config is not None and
+                (scale_name := self.quant_config.get_cache_scale(name))):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader",
+                                        default_weight_loader)
+                loaded_weight = (loaded_weight if loaded_weight.dim() == 0 else
+                                 loaded_weight[0])
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for (param_name, weight_name, shard_id) in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader",
+                                        default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
 
 class NemotronForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
     packed_modules_mapping = {
@@ -444,64 +502,14 @@ class NemotronForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
 
     def load_weights(self, weights: Iterable[tuple[str,
                                                    torch.Tensor]]) -> set[str]:
-        stacked_params_mapping = [
-            # (param_name, shard_name, shard_id)
-            (".qkv_proj", ".q_proj", "q"),
-            (".qkv_proj", ".k_proj", "k"),
-            (".qkv_proj", ".v_proj", "v"),
-        ]
-        params_dict = dict(self.named_parameters())
-        loaded_params: set[str] = set()
-        for name, loaded_weight in weights:
-            if "rotary_emb.inv_freq" in name:
-                continue
-            if ("rotary_emb.cos_cached" in name
-                    or "rotary_emb.sin_cached" in name):
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=([
+                "rotary_emb.inv_freq",
                 # Models trained using ColossalAI may include these tensors in
                 # the checkpoint. Skip them.
-                continue
-            if (self.quant_config is not None and
-                (scale_name := self.quant_config.get_cache_scale(name))):
-                # Loading kv cache quantization scales
-                param = params_dict[scale_name]
-                weight_loader = getattr(param, "weight_loader",
-                                        default_weight_loader)
-                loaded_weight = (loaded_weight if loaded_weight.dim() == 0 else
-                                 loaded_weight[0])
-                weight_loader(param, loaded_weight)
-                loaded_params.add(scale_name)
-                continue
-            for (param_name, weight_name, shard_id) in stacked_params_mapping:
-                if weight_name not in name:
-                    continue
-                name = name.replace(weight_name, param_name)
-                # Skip loading extra bias for GPTQ models.
-                if name.endswith(".bias") and name not in params_dict:
-                    continue
-
-                if is_pp_missing_parameter(name, self):
-                    continue
-
-                param = params_dict[name]
-                weight_loader = param.weight_loader
-                weight_loader(param, loaded_weight, shard_id)
-
-                break
-            else:
-                # Skip loading extra bias for GPTQ models.
-                if name.endswith(".bias") and name not in params_dict:
-                    continue
-                # Remapping the name of FP8 kv-scale.
-                name = maybe_remap_kv_scale_name(name, params_dict)
-                if name is None:
-                    continue
-
-                if is_pp_missing_parameter(name, self):
-                    continue
-
-                param = params_dict[name]
-                weight_loader = getattr(param, "weight_loader",
-                                        default_weight_loader)
-                weight_loader(param, loaded_weight)
-            loaded_params.add(name)
-        return loaded_params
+                "rotary_emb.cos_cached",
+                "rotary_emb.sin_cached"
+            ]),
+        )
+        return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/olmo.py b/vllm/model_executor/models/olmo.py
index a36b62cd2..26ca770d8 100644
--- a/vllm/model_executor/models/olmo.py
+++ b/vllm/model_executor/models/olmo.py
@@ -47,7 +47,7 @@ from vllm.model_executor.sampling_metadata import SamplingMetadata
 from vllm.sequence import IntermediateTensors
 
 from .interfaces import SupportsPP
-from .utils import (is_pp_missing_parameter,
+from .utils import (AutoWeightsLoader, is_pp_missing_parameter,
                     make_empty_intermediate_tensors_factory, make_layers,
                     maybe_prefix)
 
@@ -285,6 +285,45 @@ class OlmoModel(nn.Module):
         hidden_states = self.norm(hidden_states)
         return hidden_states
 
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            for (param_name, weight_name, shard_id) in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader",
+                                        default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
 
 class OlmoForCausalLM(nn.Module, SupportsPP):
     """
@@ -341,51 +380,21 @@ class OlmoForCausalLM(nn.Module, SupportsPP):
 
     def load_weights(self, weights: Iterable[tuple[str,
                                                    torch.Tensor]]) -> set[str]:
-        stacked_params_mapping = [
-            # (param_name, shard_name, shard_id)
-            ("qkv_proj", "q_proj", "q"),
-            ("qkv_proj", "k_proj", "k"),
-            ("qkv_proj", "v_proj", "v"),
-            ("gate_up_proj", "gate_proj", 0),
-            ("gate_up_proj", "up_proj", 1),
-        ]
-        params_dict = dict(self.named_parameters(remove_duplicate=False))
-        loaded_params: set[str] = set()
-        for name, loaded_weight in weights:
-            if "rotary_emb.inv_freq" in name:
-                continue
-            if ("rotary_emb.cos_cached" in name
-                    or "rotary_emb.sin_cached" in name):
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=([
+                "rotary_emb.inv_freq",
                 # Models trained using ColossalAI may include these tensors in
                 # the checkpoint. Skip them.
-                continue
-            # With tie_word_embeddings, we can skip lm_head.weight
-            # The weight might appear unnecessarily in the files if the model is
-            # processed with quantization, LoRA, fine-tuning, etc.
-            if self.config.tie_word_embeddings and "lm_head.weight" in name:
-                continue
-            for (param_name, weight_name, shard_id) in stacked_params_mapping:
-                if weight_name not in name:
-                    continue
-                name = name.replace(weight_name, param_name)
-                # Skip loading extra bias for GPTQ models.
-                if name.endswith(".bias") and name not in params_dict:
-                    continue
-                if is_pp_missing_parameter(name, self):
-                    continue
-                param = params_dict[name]
-                weight_loader = param.weight_loader
-                weight_loader(param, loaded_weight, shard_id)
-                break
-            else:
-                # Skip loading extra bias for GPTQ models.
-                if name.endswith(".bias") and name not in params_dict:
-                    continue
-                if is_pp_missing_parameter(name, self):
-                    continue
-                param = params_dict[name]
-                weight_loader = getattr(param, "weight_loader",
-                                        default_weight_loader)
-                weight_loader(param, loaded_weight)
-            loaded_params.add(name)
-        return loaded_params
+                "rotary_emb.cos_cached",
+                "rotary_emb.sin_cached",
+                "lm_head.weight"
+            ] if self.config.tie_word_embeddings else [
+                "rotary_emb.inv_freq",
+                # Models trained using ColossalAI may include these tensors in
+                # the checkpoint. Skip them.
+                "rotary_emb.cos_cached",
+                "rotary_emb.sin_cached"
+            ]),
+        )
+        return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/olmo2.py b/vllm/model_executor/models/olmo2.py
index a41a959cd..e4dc0e0cc 100644
--- a/vllm/model_executor/models/olmo2.py
+++ b/vllm/model_executor/models/olmo2.py
@@ -49,8 +49,8 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.model_executor.models.interfaces import SupportsPP
 from vllm.model_executor.models.utils import (
-    is_pp_missing_parameter, make_empty_intermediate_tensors_factory,
-    make_layers, maybe_prefix)
+    AutoWeightsLoader, is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory, make_layers, maybe_prefix)
 from vllm.model_executor.sampling_metadata import SamplingMetadata
 from vllm.sequence import IntermediateTensors
 
@@ -314,6 +314,40 @@ class Olmo2Model(nn.Module):
         hidden_states = self.norm(hidden_states)
         return hidden_states
 
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        for name, loaded_weight in weights:
+            if is_pp_missing_parameter(name, self):
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader  # type: ignore
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader",
+                                        default_weight_loader)
+                weight_loader(param, loaded_weight)
+
 
 class Olmo2ForCausalLM(nn.Module, SupportsPP):
     """
@@ -367,47 +401,21 @@ class Olmo2ForCausalLM(nn.Module, SupportsPP):
         return logits
 
     def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
-        stacked_params_mapping = [
-            # (param_name, shard_name, shard_id)
-            ("qkv_proj", "q_proj", "q"),
-            ("qkv_proj", "k_proj", "k"),
-            ("qkv_proj", "v_proj", "v"),
-            ("gate_up_proj", "gate_proj", 0),
-            ("gate_up_proj", "up_proj", 1),
-        ]
-
-        params_dict = dict(self.named_parameters(remove_duplicate=False))
-        for name, loaded_weight in weights:
-            if "rotary_emb.inv_freq" in name:
-                continue
-            if ("rotary_emb.cos_cached" in name
-                    or "rotary_emb.sin_cached" in name):
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=([
+                "rotary_emb.inv_freq",
                 # Models trained using ColossalAI may include these tensors in
                 # the checkpoint. Skip them.
-                continue
-            if is_pp_missing_parameter(name, self):
-                continue
-            # With tie_word_embeddings, we can skip lm_head.weight
-            # The weight might appear unnecessarily in the files if the model is
-            # processed with quantization, LoRA, fine-tuning, etc.
-            if self.config.tie_word_embeddings and "lm_head.weight" in name:
-                continue
-            for param_name, weight_name, shard_id in stacked_params_mapping:
-                if weight_name not in name:
-                    continue
-                name = name.replace(weight_name, param_name)
-                # Skip loading extra bias for GPTQ models.
-                if name.endswith(".bias") and name not in params_dict:
-                    continue
-                param = params_dict[name]
-                weight_loader = param.weight_loader  # type: ignore
-                weight_loader(param, loaded_weight, shard_id)
-                break
-            else:
-                # Skip loading extra bias for GPTQ models.
-                if name.endswith(".bias") and name not in params_dict:
-                    continue
-                param = params_dict[name]
-                weight_loader = getattr(param, "weight_loader",
-                                        default_weight_loader)
-                weight_loader(param, loaded_weight)
+                "rotary_emb.cos_cached",
+                "rotary_emb.sin_cached",
+                "lm_head.weight"
+            ] if self.config.tie_word_embeddings else [
+                "rotary_emb.inv_freq",
+                # Models trained using ColossalAI may include these tensors in
+                # the checkpoint. Skip them.
+                "rotary_emb.cos_cached",
+                "rotary_emb.sin_cached"
+            ]),
+        )
+        return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/solar.py b/vllm/model_executor/models/solar.py
index 1c9f3c77c..8c78c8463 100644
--- a/vllm/model_executor/models/solar.py
+++ b/vllm/model_executor/models/solar.py
@@ -50,7 +50,7 @@ from vllm.model_executor.sampling_metadata import SamplingMetadata
 from vllm.sequence import IntermediateTensors
 
 from .interfaces import SupportsLoRA, SupportsPP
-from .utils import (PPMissingLayer, is_pp_missing_parameter,
+from .utils import (AutoWeightsLoader, PPMissingLayer, is_pp_missing_parameter,
                     make_empty_intermediate_tensors_factory, make_layers,
                     maybe_prefix)
 
@@ -269,6 +269,7 @@ class SolarModel(nn.Module):
         lora_config = vllm_config.lora_config
 
         self.config = config
+        self.quant_config = quant_config
         lora_vocab = ((lora_config.lora_extra_vocab_size *
                        (lora_config.max_loras or 1)) if lora_config else 0)
         self.vocab_size = config.vocab_size + lora_vocab
@@ -360,6 +361,65 @@ class SolarModel(nn.Module):
         hidden_states, _ = self.norm(hidden_states, residual)
         return hidden_states
 
+    def load_weights(self, weights: Iterable[tuple[str,
+                                                   torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if (self.quant_config is not None and
+                (scale_name := self.quant_config.get_cache_scale(name))):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader",
+                                        default_weight_loader)
+                loaded_weight = (loaded_weight if loaded_weight.dim() == 0 else
+                                 loaded_weight[0])
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader",
+                                        default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
 
 class SolarForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
     packed_modules_mapping = {
@@ -440,66 +500,14 @@ class SolarForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
 
     def load_weights(self, weights: Iterable[tuple[str,
                                                    torch.Tensor]]) -> set[str]:
-        stacked_params_mapping = [
-            # (param_name, shard_name, shard_id)
-            (".qkv_proj", ".q_proj", "q"),
-            (".qkv_proj", ".k_proj", "k"),
-            (".qkv_proj", ".v_proj", "v"),
-            (".gate_up_proj", ".gate_proj", 0),
-            (".gate_up_proj", ".up_proj", 1),
-        ]
-        params_dict = dict(self.named_parameters())
-        loaded_params: set[str] = set()
-        for name, loaded_weight in weights:
-            if "rotary_emb.inv_freq" in name:
-                continue
-            if ("rotary_emb.cos_cached" in name
-                    or "rotary_emb.sin_cached" in name):
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=([
+                "rotary_emb.inv_freq",
                 # Models trained using ColossalAI may include these tensors in
                 # the checkpoint. Skip them.
-                continue
-            if (self.quant_config is not None and
-                (scale_name := self.quant_config.get_cache_scale(name))):
-                # Loading kv cache quantization scales
-                param = params_dict[scale_name]
-                weight_loader = getattr(param, "weight_loader",
-                                        default_weight_loader)
-                loaded_weight = (loaded_weight if loaded_weight.dim() == 0 else
-                                 loaded_weight[0])
-                weight_loader(param, loaded_weight)
-                loaded_params.add(scale_name)
-                continue
-            for param_name, weight_name, shard_id in stacked_params_mapping:
-                if weight_name not in name:
-                    continue
-                name = name.replace(weight_name, param_name)
-                # Skip loading extra bias for GPTQ models.
-                if name.endswith(".bias") and name not in params_dict:
-                    continue
-
-                if is_pp_missing_parameter(name, self):
-                    continue
-
-                param = params_dict[name]
-                weight_loader = param.weight_loader
-                weight_loader(param, loaded_weight, shard_id)
-
-                break
-            else:
-                # Skip loading extra bias for GPTQ models.
-                if name.endswith(".bias") and name not in params_dict:
-                    continue
-                # Remapping the name of FP8 kv-scale.
-                name = maybe_remap_kv_scale_name(name, params_dict)
-                if name is None:
-                    continue
-
-                if is_pp_missing_parameter(name, self):
-                    continue
-
-                param = params_dict[name]
-                weight_loader = getattr(param, "weight_loader",
-                                        default_weight_loader)
-                weight_loader(param, loaded_weight)
-            loaded_params.add(name)
-        return loaded_params
+                "rotary_emb.cos_cached",
+                "rotary_emb.sin_cached"
+            ]),
+        )
+        return loader.load_weights(weights)
-- 
GitLab


From 66e63e86ecd650f40ece667851f08de5378d6d1b Mon Sep 17 00:00:00 2001
From: Ning Xie <andy.xning@gmail.com>
Date: Sun, 18 May 2025 01:52:09 +0800
Subject: [PATCH 439/461] [MISC] fix typo (#18305)

Signed-off-by: Andy Xie <andy.xning@gmail.com>
---
 vllm/usage/usage_lib.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/usage/usage_lib.py b/vllm/usage/usage_lib.py
index 67b834533..90af0c63c 100644
--- a/vllm/usage/usage_lib.py
+++ b/vllm/usage/usage_lib.py
@@ -161,7 +161,7 @@ class UsageMessage:
                              usage_context: UsageContext,
                              extra_kvs: dict[str, Any]) -> None:
         self._report_usage_once(model_architecture, usage_context, extra_kvs)
-        self._report_continous_usage()
+        self._report_continuous_usage()
 
     def _report_usage_once(self, model_architecture: str,
                            usage_context: UsageContext,
@@ -219,7 +219,7 @@ class UsageMessage:
         self._write_to_file(data)
         self._send_to_server(data)
 
-    def _report_continous_usage(self):
+    def _report_continuous_usage(self):
         """Report usage every 10 minutes.
 
         This helps us to collect more data points for uptime of vLLM usages.
-- 
GitLab


From 9ab2c02ff8ef05cb6c4b2bdc9a4faaee61892450 Mon Sep 17 00:00:00 2001
From: cascade <cascade812@outlook.com>
Date: Sat, 17 May 2025 15:47:25 -0700
Subject: [PATCH 440/461] Support sequence parallelism combined with pipeline
 parallelism (#18243)

Signed-off-by: cascade812 <cascade812@outlook.com>
---
 tests/distributed/test_sequence_parallel.py | 37 ++++++++++++++-
 vllm/config.py                              | 12 -----
 vllm/v1/worker/gpu_model_runner.py          | 52 +++++++++++++++------
 3 files changed, 74 insertions(+), 27 deletions(-)

diff --git a/tests/distributed/test_sequence_parallel.py b/tests/distributed/test_sequence_parallel.py
index bbf3ed584..c9eba2b43 100644
--- a/tests/distributed/test_sequence_parallel.py
+++ b/tests/distributed/test_sequence_parallel.py
@@ -26,6 +26,7 @@ VLLM_MULTI_NODE = os.getenv("VLLM_MULTI_NODE", "0") == "1"
 
 class ParallelSetup(NamedTuple):
     tp_size: int
+    pp_size: int
     sp_enabled: bool
     eager_mode: bool
     chunked_prefill: bool
@@ -60,6 +61,7 @@ class SPTestSettings:
     def detailed(
         *,
         tp_base: int = 2,
+        pp_base: int = 1,
         multi_node_only: bool = False,
         task: TaskOption = "auto",
         load_format: Optional[str] = None,
@@ -67,18 +69,42 @@ class SPTestSettings:
         return SPTestSettings(
             parallel_setups=[
                 ParallelSetup(tp_size=tp_base,
+                              pp_size=pp_base,
                               sp_enabled=True,
                               eager_mode=False,
                               chunked_prefill=False),
                 ParallelSetup(tp_size=tp_base,
+                              pp_size=pp_base,
                               sp_enabled=True,
                               eager_mode=False,
                               chunked_prefill=True),
                 ParallelSetup(tp_size=tp_base,
+                              pp_size=pp_base,
                               sp_enabled=True,
                               eager_mode=True,
                               chunked_prefill=False),
                 ParallelSetup(tp_size=tp_base,
+                              pp_size=pp_base,
+                              sp_enabled=True,
+                              eager_mode=True,
+                              chunked_prefill=True),
+                ParallelSetup(tp_size=tp_base,
+                              pp_size=2 * pp_base,
+                              sp_enabled=True,
+                              eager_mode=False,
+                              chunked_prefill=False),
+                ParallelSetup(tp_size=tp_base,
+                              pp_size=2 * pp_base,
+                              sp_enabled=True,
+                              eager_mode=False,
+                              chunked_prefill=True),
+                ParallelSetup(tp_size=tp_base,
+                              pp_size=2 * pp_base,
+                              sp_enabled=True,
+                              eager_mode=True,
+                              chunked_prefill=False),
+                ParallelSetup(tp_size=tp_base,
+                              pp_size=2 * pp_base,
                               sp_enabled=True,
                               eager_mode=True,
                               chunked_prefill=True)
@@ -94,6 +120,7 @@ class SPTestSettings:
     def fast(
         *,
         tp_base: int = 2,
+        pp_base: int = 1,
         task: TaskOption = "auto",
         multi_node_only: bool = False,
         load_format: Optional[str] = None,
@@ -101,6 +128,12 @@ class SPTestSettings:
         return SPTestSettings(
             parallel_setups=[
                 ParallelSetup(tp_size=tp_base,
+                              pp_size=pp_base,
+                              sp_enabled=True,
+                              eager_mode=False,
+                              chunked_prefill=False),
+                ParallelSetup(tp_size=tp_base,
+                              pp_size=2 * pp_base,
                               sp_enabled=True,
                               eager_mode=False,
                               chunked_prefill=False),
@@ -136,6 +169,7 @@ def _compare_sp(
 ):
     (
         tp_size,
+        pp_size,
         sp_enabled,
         eager_mode,
         chunked_prefill,
@@ -167,7 +201,6 @@ def _compare_sp(
     else:
         model_info.check_available_online(on_fail="skip")
 
-    pp_size = 1
     if num_gpus_available < tp_size * pp_size:
         pytest.skip(f"Need at least {tp_size} x {pp_size} GPUs")
     if VLLM_MULTI_NODE and distributed_backend == "mp":
@@ -256,7 +289,7 @@ def _compare_sp(
 
 SP_TEXT_GENERATION_MODELS = {
     # [Decoder-only]
-    "meta-llama/Llama-3.2-1B-Instruct": SPTestSettings.detailed(),
+    "meta-llama/Llama-3.2-1B-Instruct": SPTestSettings.fast(),
 }
 
 SP_TEST_MODELS = [
diff --git a/vllm/config.py b/vllm/config.py
index 3a1598f57..a185a75c6 100644
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -4287,18 +4287,6 @@ class VllmConfig:
             self.compilation_config.level = CompilationLevel.PIECEWISE
             self.compilation_config.set_splitting_ops_for_v1()
 
-        if self.parallel_config is not None and \
-            self.parallel_config.tensor_parallel_size > 1 and \
-            self.parallel_config.pipeline_parallel_size > 1 and \
-            self.compilation_config is not None and \
-                self.compilation_config.pass_config is not None and \
-            self.compilation_config.pass_config.enable_sequence_parallelism:
-            logger.warning_once(
-                "Sequence parallelism is not supported with pipeline "
-                "parallelism. Disabling sequence parallelism.")
-            self.compilation_config.pass_config.\
-                enable_sequence_parallelism = False
-
         self._set_cudagraph_sizes()
 
         if self.cache_config is not None and \
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index cb802fd4f..201796c96 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -1056,6 +1056,40 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             indices=out_indices,
         )
 
+    def sync_and_slice_intermediate_tensors(
+            self, num_tokens: int, intermediate_tensors: IntermediateTensors,
+            sync_self: bool) -> IntermediateTensors:
+
+        assert self.intermediate_tensors is not None
+
+        tp = self.vllm_config.parallel_config.tensor_parallel_size
+        enabled_sp = self.vllm_config.compilation_config.pass_config. \
+            enable_sequence_parallelism
+        if enabled_sp:
+            # When sequence parallelism is enabled, we always pad num_tokens
+            # to be a multiple of tensor_parallel_size (tp) earlier
+            assert num_tokens % tp == 0
+        is_residual_scattered = tp > 1 and enabled_sp \
+            and num_tokens % tp == 0
+
+        # When sequence parallelism is enabled, the "residual" tensor is sharded
+        # across tensor parallel ranks, so each rank only needs its own slice.
+        if sync_self:
+            assert intermediate_tensors is not None
+            for k, v in intermediate_tensors.items():
+                is_scattered = "residual" and is_residual_scattered
+                copy_len = num_tokens // tp if is_scattered else \
+                    num_tokens
+                self.intermediate_tensors[k][:copy_len].copy_(
+                    v[:copy_len], non_blocking=True)
+
+        return IntermediateTensors({
+            k:
+            v[:num_tokens // tp]
+            if k == "residual" and is_residual_scattered else v[:num_tokens]
+            for k, v in self.intermediate_tensors.items()
+        })
+
     @torch.inference_mode()
     def execute_model(
         self,
@@ -1131,15 +1165,8 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         if get_pp_group().is_first_rank:
             intermediate_tensors = None
         else:
-            assert intermediate_tensors is not None
-            assert self.intermediate_tensors is not None
-            for k, v in intermediate_tensors.items():
-                self.intermediate_tensors[k][:num_input_tokens].copy_(
-                    v[:num_input_tokens], non_blocking=True)
-            intermediate_tensors = IntermediateTensors({
-                k: v[:num_input_tokens]
-                for k, v in self.intermediate_tensors.items()
-            })
+            intermediate_tensors = self.sync_and_slice_intermediate_tensors(
+                num_input_tokens, intermediate_tensors, True)
 
         # Run the decoder.
         # Use persistent buffers for CUDA graphs.
@@ -1658,10 +1685,9 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                             batch_size=self.max_num_tokens,
                             dtype=self.model_config.dtype,
                             device=self.device))
-                intermediate_tensors = IntermediateTensors({
-                    k: v[:num_tokens]
-                    for k, v in self.intermediate_tensors.items()
-                })
+
+                intermediate_tensors = self.sync_and_slice_intermediate_tensors(
+                    num_tokens, None, False)
 
             with set_forward_context(attn_metadata,
                                      self.vllm_config,
-- 
GitLab


From 1a8f68bb9035b5c399b6074a00e6e2f20dcdcced Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Sun, 18 May 2025 21:59:14 +0800
Subject: [PATCH 441/461] [doc] update reasoning doc (#18306)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 docs/source/features/reasoning_outputs.md | 7 +++----
 1 file changed, 3 insertions(+), 4 deletions(-)

diff --git a/docs/source/features/reasoning_outputs.md b/docs/source/features/reasoning_outputs.md
index 3c2571298..7a761ff9a 100644
--- a/docs/source/features/reasoning_outputs.md
+++ b/docs/source/features/reasoning_outputs.md
@@ -231,13 +231,12 @@ For more examples, please refer to <gh-file:examples/online_serving/openai_chat_
 
 ## How to support a new reasoning model
 
-You can add a new `ReasoningParser` similar to <gh-file:vllm/entrypoints/openai/reasoning_parsers/deepseek_r1_reasoning_parser.py>.
+You can add a new `ReasoningParser` similar to <gh-file:vllm/reasoning/deepseek_r1_reasoning_parser.py>.
 
 ```python
 # import the required packages
 
-from vllm.entrypoints.openai.reasoning_parsers.abs_reasoning_parsers import (
-    ReasoningParser, ReasoningParserManager)
+from vllm.reasoning import ReasoningParser, ReasoningParserManager
 from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
                                               DeltaMessage)
 
@@ -288,7 +287,7 @@ class ExampleParser(ReasoningParser):
         """
 ```
 
-Additionally, to enable structured output, you'll need to create a new `Reasoner` similar to the one in <gh-file:vllm/model_executor/guided_decoding/reasoner/deepseek_reasoner.py>.
+Additionally, to enable structured output, you'll need to create a new `Reasoner` similar to the one in <gh-file:vllm/reasoning/deepseek_r1_reasoning_parser.py>.
 
 ```python
 @dataclass
-- 
GitLab


From 908733aca703f90476f91f400a77cbe31fc81d3f Mon Sep 17 00:00:00 2001
From: 22quinn <33176974+22quinn@users.noreply.github.com>
Date: Sun, 18 May 2025 07:00:09 -0700
Subject: [PATCH 442/461] [Model] Use sigmoid for single-label classification
 (#18313)

Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com>
---
 vllm/model_executor/layers/pooler.py | 11 +++++++++--
 1 file changed, 9 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/layers/pooler.py b/vllm/model_executor/layers/pooler.py
index c5bf603a1..6abbc9081 100644
--- a/vllm/model_executor/layers/pooler.py
+++ b/vllm/model_executor/layers/pooler.py
@@ -242,9 +242,16 @@ class PoolerHead(nn.Module):
 
         if self.softmax:
             if isinstance(pooled_data, list):
-                pooled_data = [F.softmax(data, dim=-1) for data in pooled_data]
+                pooled_data = [
+                    F.softmax(data, dim=-1)
+                    if data.shape[-1] >= 2 else F.sigmoid(data)
+                    for data in pooled_data
+                ]
             else:
-                pooled_data = F.softmax(pooled_data, dim=-1)
+                if pooled_data.shape[-1] >= 2:
+                    pooled_data = F.softmax(pooled_data, dim=-1)
+                else:
+                    pooled_data = F.sigmoid(pooled_data)
 
         return pooled_data
 
-- 
GitLab


From 4fb349f66afc2587d470d4d1974d58f801db16af Mon Sep 17 00:00:00 2001
From: Lifu Huang <lifu.hlf@gmail.com>
Date: Sun, 18 May 2025 07:00:12 -0700
Subject: [PATCH 443/461] Fix copy-paste error in phi4mm image processing
 (#18315)

Signed-off-by: Lifu Huang <lifu.hlf@gmail.com>
---
 vllm/model_executor/models/phi4mm.py | 26 +++++++-------------------
 1 file changed, 7 insertions(+), 19 deletions(-)

diff --git a/vllm/model_executor/models/phi4mm.py b/vllm/model_executor/models/phi4mm.py
index fd154940e..b7bb3c45c 100644
--- a/vllm/model_executor/models/phi4mm.py
+++ b/vllm/model_executor/models/phi4mm.py
@@ -415,15 +415,6 @@ class Phi4MMImagePixelInputs(TypedDict):
     """Shape: `(batch_size * num_images, H_mask, W_mask)`"""
 
 
-class Phi4MMImageEmbeddingInputs(TypedDict):
-    type: Literal["image_embeds"]
-    data: Union[torch.Tensor, list[torch.Tensor]]
-    """Shape: `(batch_size * num_images, image_feature_size, hidden_size)`
-
-    `hidden_size` must match the hidden size of language model backbone.
-    """
-
-
 class Phi4MMAudioFeatureInputs(TypedDict):
     type: Literal["audio_features"]
     data: Union[torch.Tensor, list[torch.Tensor]]
@@ -436,7 +427,6 @@ class Phi4MMAudioEmbeddingInputs(TypedDict):
     """Shape: `(batch_size, num_audios, audio_feature_size, hidden_size)"""
 
 
-Phi4MMImageInput = Union[Phi4MMImagePixelInputs, Phi4MMImageEmbeddingInputs]
 Phi4MMAudioInputs = Union[Phi4MMAudioFeatureInputs, Phi4MMAudioEmbeddingInputs]
 
 
@@ -1112,15 +1102,13 @@ class Phi4MMForCausalLM(nn.Module, SupportsLoRA, SupportsMultiModal):
 
     def _process_image_input(
             self, image_input: Phi4MMImagePixelInputs) -> list[torch.Tensor]:
-        if image_input["type"] == "image_embeds":
-            image_embeds = image_input["image_embeds"].type(self.visual.dtype)
-        else:
-            dtype = next(self.vision_encoder.parameters()).dtype
-            pixel_values = image_input['data'].to(dtype)
-            image_sizes = image_input['image_sizes']
-            image_attention_mask = image_input['image_attention_mask']
-            image_embeds = self.vision_encoder(pixel_values, image_sizes,
-                                               image_attention_mask)
+
+        dtype = next(self.vision_encoder.parameters()).dtype
+        pixel_values = image_input['data'].to(dtype)
+        image_sizes = image_input['image_sizes']
+        image_attention_mask = image_input['image_attention_mask']
+        image_embeds = self.vision_encoder(pixel_values, image_sizes,
+                                           image_attention_mask)
         return image_embeds
 
     def get_multimodal_embeddings(
-- 
GitLab


From b6a6e7a529d72e50cbe0c0b5360cf890124260e6 Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Sun, 18 May 2025 23:32:30 +0800
Subject: [PATCH 444/461] [Misc] add litellm integration (#18320)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 docs/source/deployment/frameworks/index.md   |  1 +
 docs/source/deployment/frameworks/litellm.md | 75 ++++++++++++++++++++
 2 files changed, 76 insertions(+)
 create mode 100644 docs/source/deployment/frameworks/litellm.md

diff --git a/docs/source/deployment/frameworks/index.md b/docs/source/deployment/frameworks/index.md
index 9744f5f4d..3408c6c10 100644
--- a/docs/source/deployment/frameworks/index.md
+++ b/docs/source/deployment/frameworks/index.md
@@ -10,6 +10,7 @@ chatbox
 dify
 dstack
 helm
+litellm
 lobe-chat
 lws
 modal
diff --git a/docs/source/deployment/frameworks/litellm.md b/docs/source/deployment/frameworks/litellm.md
new file mode 100644
index 000000000..6dd3607ca
--- /dev/null
+++ b/docs/source/deployment/frameworks/litellm.md
@@ -0,0 +1,75 @@
+(deployment-litellm)=
+
+# LiteLLM
+
+[LiteLLM](https://github.com/BerriAI/litellm) call all LLM APIs using the OpenAI format [Bedrock, Huggingface, VertexAI, TogetherAI, Azure, OpenAI, Groq etc.]
+
+LiteLLM manages:
+
+- Translate inputs to provider's `completion`, `embedding`, and `image_generation` endpoints
+- [Consistent output](https://docs.litellm.ai/docs/completion/output), text responses will always be available at `['choices'][0]['message']['content']`
+- Retry/fallback logic across multiple deployments (e.g. Azure/OpenAI) - [Router](https://docs.litellm.ai/docs/routing)
+- Set Budgets & Rate limits per project, api key, model [LiteLLM Proxy Server (LLM Gateway)](https://docs.litellm.ai/docs/simple_proxy)
+
+And LiteLLM supports all models on VLLM.
+
+## Prerequisites
+
+- Setup vLLM and litellm environment
+
+```console
+pip install vllm litellm
+```
+
+## Deploy
+
+### Chat completion
+
+- Start the vLLM server with the supported chat completion model, e.g.
+
+```console
+vllm serve qwen/Qwen1.5-0.5B-Chat
+```
+
+- Call it with litellm:
+
+```python
+import litellm 
+
+messages = [{ "content": "Hello, how are you?","role": "user"}]
+
+# hosted_vllm is prefix key word and necessary
+response = litellm.completion(
+            model="hosted_vllm/qwen/Qwen1.5-0.5B-Chat", # pass the vllm model name
+            messages=messages,
+            api_base="http://{your-vllm-server-host}:{your-vllm-server-port}/v1",
+            temperature=0.2,
+            max_tokens=80)
+
+print(response)
+```
+
+### Embeddings
+
+- Start the vLLM server with the supported embedding model, e.g.
+
+```console
+vllm serve BAAI/bge-base-en-v1.5
+```
+
+- Call it with litellm:
+
+```python
+from litellm import embedding   
+import os
+
+os.environ["HOSTED_VLLM_API_BASE"] = "http://{your-vllm-server-host}:{your-vllm-server-port}/v1"
+
+# hosted_vllm is prefix key word and necessary
+# pass the vllm model name
+embedding = embedding(model="hosted_vllm/BAAI/bge-base-en-v1.5", input=["Hello world"])
+
+print(embedding)
+```
+
+For details, see the tutorial [Using vLLM in LiteLLM](https://docs.litellm.ai/docs/providers/vllm).
-- 
GitLab


From d1211f8794c28da64f80e55464b4ce6f97b2c0cb Mon Sep 17 00:00:00 2001
From: Robin <863579016@qq.com>
Date: Mon, 19 May 2025 07:04:07 +0800
Subject: [PATCH 445/461] [Doc] Add doc to explain the usage of Qwen3 thinking
 (#18291)

Signed-off-by: WangErXiao <863579016@qq.com>
---
 docs/source/features/reasoning_outputs.md | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/docs/source/features/reasoning_outputs.md b/docs/source/features/reasoning_outputs.md
index 7a761ff9a..bf4f8901a 100644
--- a/docs/source/features/reasoning_outputs.md
+++ b/docs/source/features/reasoning_outputs.md
@@ -19,6 +19,7 @@ vLLM currently supports the following reasoning models:
 
 :::{note}
 IBM Granite 3.2 reasoning is disabled by default; to enable it, you must also pass `thinking=True` in your `chat_template_kwargs`.
+The reasoning feature for the Qwen3 series is enabled by default. To disable it, you must pass `enable_thinking=False` in your `chat_template_kwargs`.
 :::
 
 ## Quickstart
@@ -49,6 +50,8 @@ model = models.data[0].id
 # Round 1
 messages = [{"role": "user", "content": "9.11 and 9.8, which is greater?"}]
 # For granite, add: `extra_body={"chat_template_kwargs": {"thinking": True}}`
+# For Qwen3 series, if you want to disable thinking in reasoning mode, add:
+# extra_body={"chat_template_kwargs": {"enable_thinking": False}}
 response = client.chat.completions.create(model=model, messages=messages)
 
 reasoning_content = response.choices[0].message.reasoning_content
@@ -104,6 +107,8 @@ model = models.data[0].id
 
 messages = [{"role": "user", "content": "9.11 and 9.8, which is greater?"}]
 # For granite, add: `extra_body={"chat_template_kwargs": {"thinking": True}}`
+# For Qwen3 series, if you want to disable thinking in reasoning mode, add:
+# extra_body={"chat_template_kwargs": {"enable_thinking": False}}
 stream = client.chat.completions.create(model=model,
                                         messages=messages,
                                         stream=True)
-- 
GitLab


From 9da1095daf1710a41da3f79f7954f5dee956ce62 Mon Sep 17 00:00:00 2001
From: wwl2755 <wangwenlong2755@gmail.com>
Date: Sun, 18 May 2025 21:49:46 -0500
Subject: [PATCH 446/461] [Spec Decode][V0] Fix spec decode correctness test in
 V0 eagle/medusa (#18175)

Signed-off-by: wwl2755 <wangwenlong2755@gmail.com>
---
 tests/spec_decode/e2e/test_eagle_correctness.py |  2 --
 vllm/model_executor/models/eagle.py             | 11 +++++++++++
 vllm/model_executor/models/medusa.py            |  9 ++++++++-
 vllm/sequence.py                                |  2 ++
 4 files changed, 21 insertions(+), 3 deletions(-)

diff --git a/tests/spec_decode/e2e/test_eagle_correctness.py b/tests/spec_decode/e2e/test_eagle_correctness.py
index 2814bb6d3..eee535a14 100644
--- a/tests/spec_decode/e2e/test_eagle_correctness.py
+++ b/tests/spec_decode/e2e/test_eagle_correctness.py
@@ -178,8 +178,6 @@ def test_eagle_e2e_greedy_correctness_cuda_graph(
                                   batch_size, output_len, seed)
 
 
-# TRACKING: https://github.com/vllm-project/vllm/issues/18166
-@pytest.mark.skip(reason="RE-ENABLE: Failing on main.")
 @pytest.mark.parametrize(
     "common_llm_kwargs",
     [{
diff --git a/vllm/model_executor/models/eagle.py b/vllm/model_executor/models/eagle.py
index 726660796..fb1675d29 100644
--- a/vllm/model_executor/models/eagle.py
+++ b/vllm/model_executor/models/eagle.py
@@ -146,6 +146,17 @@ class EAGLE(nn.Module):
         if inputs_embeds is None:
             inputs_embeds = self.get_input_embeddings(input_ids)
 
+        # Handle both empty previous_hidden_states
+        # and mismatched batch size
+        batch_size = inputs_embeds.size(0)
+        if previous_hidden_states.size(0) == 0 or \
+           previous_hidden_states.size(0) != batch_size:
+            hidden_dim = self.config.model.hidden_size
+            device = inputs_embeds.device
+            # Create zero tensor with matching batch size
+            previous_hidden_states = \
+                torch.zeros(batch_size, hidden_dim, device=device)
+
         if self.add_para_norm:
             inputs_embeds = torch.cat([
                 self.enorm(inputs_embeds),
diff --git a/vllm/model_executor/models/medusa.py b/vllm/model_executor/models/medusa.py
index 4724cbe56..588bcb628 100644
--- a/vllm/model_executor/models/medusa.py
+++ b/vllm/model_executor/models/medusa.py
@@ -164,7 +164,14 @@ class Medusa(nn.Module):
         self,
         previous_hidden_states: torch.Tensor,
         sampling_metadata: SamplingMetadata,
-    ) -> list[SamplerOutput]:
+    ) -> Optional[list[SamplerOutput]]:
+        # During preemption, we may receive an empty tensor (batch_size=0)
+        if previous_hidden_states.size(0) == 0:
+            # Return None to signal the Top1Proposer that no proposals
+            # were generated for this batch, allowing it to handle this
+            # special case appropriately
+            return None
+
         return self.sample(
             logits=self.compute_logits(
                 hidden_states=self.forward(previous_hidden_states),
diff --git a/vllm/sequence.py b/vllm/sequence.py
index 91f769d6d..5aa9ae62f 100644
--- a/vllm/sequence.py
+++ b/vllm/sequence.py
@@ -1330,6 +1330,8 @@ class HiddenStates(msgspec.Struct, array_like=True,
         # may be "paused" then "resumed" later. This should only prune sequences
         # which are confirmed to be aborted.
         seq_ids = get_all_seq_ids(seq_group_metadata_list)
+        # Only keep sequence IDs that exist in self._seq_ids
+        seq_ids = [seq_id for seq_id in seq_ids if seq_id in self._seq_ids]
         if seq_ids != self._seq_ids:
             # Batch contents changed - prune removed sequences.
             index = [self._seq_ids.index(seq_id) for seq_id in seq_ids]
-- 
GitLab


From 221cfc2feaf6ad60b59882249de80eeba66446a6 Mon Sep 17 00:00:00 2001
From: Nan Qin <nan@protopia.ai>
Date: Sun, 18 May 2025 22:18:05 -0500
Subject: [PATCH 447/461] Feature/vllm/input embedding completion api (#17590)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Andrew Sansom <andrew@protopia.ai>
Signed-off-by: Nan2018 <nan@protopia.ai>
Co-authored-by: 临景 <linjing.yx@alibaba-inc.com>
Co-authored-by: Bryce1010 <bryceyx@gmail.com>
Co-authored-by: Andrew Sansom <andrew@protopia.ai>
Co-authored-by: Andrew Sansom <qthequartermasterman@gmail.com>
Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>
---
 docs/source/index.md                          |   1 +
 docs/source/serving/prompt_embeds.md          | 142 ++++++++++
 .../test_completion_with_prompt_embeds.py     | 257 ++++++++++++++++++
 vllm/entrypoints/logger.py                    |   9 +-
 vllm/entrypoints/openai/cli_args.py           |   3 +
 vllm/entrypoints/openai/protocol.py           |  11 +-
 vllm/entrypoints/openai/serving_completion.py |  45 ++-
 vllm/entrypoints/openai/serving_engine.py     | 191 +++++++++++--
 .../openai/serving_tokenization.py            |   5 +-
 vllm/inputs/data.py                           |  13 +-
 10 files changed, 637 insertions(+), 40 deletions(-)
 create mode 100644 docs/source/serving/prompt_embeds.md
 create mode 100644 tests/entrypoints/openai/test_completion_with_prompt_embeds.py

diff --git a/docs/source/index.md b/docs/source/index.md
index 0470a43a9..7e5b73c96 100644
--- a/docs/source/index.md
+++ b/docs/source/index.md
@@ -119,6 +119,7 @@ serving/offline_inference
 serving/openai_compatible_server
 serving/serve_args
 serving/multimodal_inputs
+serving/prompt_embeds
 serving/distributed_serving
 serving/metrics
 serving/engine_args
diff --git a/docs/source/serving/prompt_embeds.md b/docs/source/serving/prompt_embeds.md
new file mode 100644
index 000000000..483ca1664
--- /dev/null
+++ b/docs/source/serving/prompt_embeds.md
@@ -0,0 +1,142 @@
+# Prompt Embedding Inputs
+
+This page teaches you how to pass prompt embedding inputs to vLLM.
+
+## What are prompt embeddings?
+
+The traditional flow of text data for a Large Language Model goes from text to token ids (via a tokenizer) then from token ids to prompt embeddings. For a traditional decoder-only model (such as meta-llama/Llama-3.1-8B-Instruct), this step of converting token ids to prompt embeddings happens via a look-up from a learned embedding matrix, but the model is not limited to processing only the embeddings corresponding to its token vocabulary.
+
+:::{note}
+Prompt embeddings are currently only supported in the v0 engine.
+:::
+
+## Offline Inference
+
+To input multi-modal data, follow this schema in {class}`vllm.inputs.EmbedsPrompt`:
+
+- `prompt_embeds`: A torch tensor representing a sequence of prompt/token embeddings. This has the shape (sequence_length, hidden_size), where sequence length is the number of tokens embeddings and hidden_size is the hidden size (embedding size) of the model.
+
+### Hugging Face Transformers Inputs
+
+You can pass prompt embeddings from Hugging Face Transformers models to the  `'prompt_embeds'` field of the prompt embedding dictionary, as shown in the following examples:
+
+```python
+from vllm import LLM
+import transformers
+
+model_name = "meta-llama/Llama-3.2-1B-Instruct"
+
+# Transformers
+tokenizer = transformers.AutoTokenizer.from_pretrained(model_name)
+transformers_model = transformers.AutoModelForCausalLM.from_pretrained(model_name)
+
+llm = LLM(model=model_name, enable_prompt_embeds=True)
+
+# Refer to the HuggingFace repo for the correct format to use
+chat = [{"role": "user", "content": "Please tell me about the capital of France."}]
+token_ids = tokenizer.apply_chat_template(chat, add_generation_prompt=True, return_tensors='pt')
+
+prompt_embeds = embedding_layer(token_ids).squeeze(0)
+
+# Single prompt inference
+outputs = llm.generate({
+    "prompt_embeds": prompt_embeds,
+})
+
+for o in outputs:
+    generated_text = o.outputs[0].text
+    print(generated_text)
+
+# Batch inference
+
+chats = [
+    [{"role": "user", "content": "Please tell me about the capital of France."}],
+    [{"role": "user", "content": "When is the day longest during the year?"}],
+    [{"role": "user", "content": "Where is bigger, the moon or the sun?"}]
+]
+
+token_ids_list = [
+    tokenizer.apply_chat_template(chat, add_generation_prompt=True, return_tensors='pt') for chat in chats
+]
+prompt_embeds_list = [embedding_layer(token_ids).squeeze(0) for token_ids in token_ids_list]
+
+outputs = llm.generate(
+    [
+        {
+            "prompt_embeds": prompt_embeds,
+        } for prompt_embeds in prompt_embeds_list
+    ]
+)
+
+for o in outputs:
+    generated_text = o.outputs[0].text
+    print(generated_text)
+```
+
+## Online Serving
+
+Our OpenAI-compatible server accepts prompt embeddings inputs via the [Completions API](https://platform.openai.com/docs/api-reference/completions). Prompt embeddings inputs are added via a new `'prompt_embeds'` key in the JSON package.
+
+When a mixture of `'prompt_embeds'` and `'prompt'` inputs are provided in a single request, the prompt embeds are always returned first.
+
+Prompt embeddings are passed in as base64 encoded torch tensors.
+
+### Transformers Inputs via OpenAI Client
+
+First, launch the OpenAI-compatible server:
+
+```bash
+vllm serve meta-llama/Llama-3.2-1B-Instruct --task generate \
+  --max-model-len 4096 --enable-prompt-embeds
+```
+
+Then, you can use the OpenAI client as follows:
+
+```python
+from openai import OpenAI
+import transformers
+import torch
+
+openai_api_key = "EMPTY"
+openai_api_base = "http://localhost:8000/v1"
+
+client = OpenAI(
+    api_key=openai_api_key,
+    base_url=openai_api_base,
+)
+
+model_name = "meta-llama/Llama-3.2-1B-Instruct"
+
+# Transformers
+tokenizer = transformers.AutoTokenizer.from_pretrained(model_name)
+transformers_model = transformers.AutoModelForCausalLM.from_pretrained(model_name)
+
+
+# Refer to the HuggingFace repo for the correct format to use
+chat = [{"role": "user", "content": "Please tell me about the capital of France."}]
+token_ids = tokenizer.apply_chat_template(chat, add_generation_prompt=True, return_tensors='pt')
+
+prompt_embeds = embedding_layer(token_ids).squeeze(0)
+
+# Prompt embeddings
+buffer = io.BytesIO()
+torch.save(prompt_embeds, buffer)
+buffer.seek(0)
+binary_data = buffer.read()
+encoded_embeds = base64.b64encode(binary_data).decode('utf-8')
+
+
+completion = client_with_prompt_embeds.completions.create(
+    model=model_name,
+    # NOTE: The OpenAI client does not allow `None` as an input to 
+    # `prompt`. Use an empty string if you have no text prompts.
+    prompt="",  
+    max_tokens=5,
+    temperature=0.0,
+    # NOTE: The OpenAI client allows passing in extra JSON body via the
+    # `extra_body` argument.
+    extra_body={"prompt_embeds": encoded_embeds}
+)
+
+print(completion.choices[0].text)
+```
diff --git a/tests/entrypoints/openai/test_completion_with_prompt_embeds.py b/tests/entrypoints/openai/test_completion_with_prompt_embeds.py
new file mode 100644
index 000000000..b7ee3e33c
--- /dev/null
+++ b/tests/entrypoints/openai/test_completion_with_prompt_embeds.py
@@ -0,0 +1,257 @@
+# SPDX-License-Identifier: Apache-2.0
+
+import base64
+import io
+import shutil
+from tempfile import TemporaryDirectory
+
+import openai  # use the official client for correctness check
+import pytest
+import pytest_asyncio
+import torch
+# downloading lora to test lora requests
+from huggingface_hub import snapshot_download
+from openai import BadRequestError
+from transformers import AutoConfig, AutoTokenizer
+
+from ...utils import RemoteOpenAIServer
+
+# any model with a chat template should work here
+MODEL_NAME = "HuggingFaceH4/zephyr-7b-beta"
+LORA_NAME = "typeof/zephyr-7b-beta-lora"
+
+CONFIG = AutoConfig.from_pretrained(MODEL_NAME)
+
+
+@pytest.fixture(scope="module")
+def zephyr_lora_files():
+    return snapshot_download(repo_id=LORA_NAME)
+
+
+@pytest.fixture(scope="module")
+def zephyr_lora_added_tokens_files(zephyr_lora_files):
+    tmp_dir = TemporaryDirectory()
+    tmp_model_dir = f"{tmp_dir.name}/zephyr"
+    shutil.copytree(zephyr_lora_files, tmp_model_dir)
+    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+    # Copy tokenizer to adapter and add some unique tokens
+    # 32000, 32001, 32002
+    added = tokenizer.add_tokens(["vllm1", "vllm2", "vllm3"],
+                                 special_tokens=True)
+    assert added == 3
+    tokenizer.save_pretrained(tmp_model_dir)
+    yield tmp_model_dir
+    tmp_dir.cleanup()
+
+
+@pytest.fixture(scope="module")
+def default_server_args(
+    zephyr_lora_files,
+    zephyr_lora_added_tokens_files,
+) -> list[str]:
+    return [
+        # use half precision for speed and memory savings in CI environment
+        "--dtype",
+        "bfloat16",
+        "--max-model-len",
+        "8192",
+        "--max-num-seqs",
+        "128",
+        "--enforce-eager",
+        # Prompt Embeds server args
+        "--enable-prompt-embeds",
+        "--no-enable-chunked-prefill",
+    ]
+
+
+@pytest.fixture(scope="module",
+                params=["", "--disable-frontend-multiprocessing"])
+def server_with_prompt_embeds(default_server_args, request):
+    if request.param:
+        default_server_args.append(request.param)
+
+    with RemoteOpenAIServer(MODEL_NAME, default_server_args) as remote_server:
+        yield remote_server
+
+
+@pytest_asyncio.fixture
+async def client_with_prompt_embeds(server_with_prompt_embeds):
+    async with server_with_prompt_embeds.get_async_client() as async_client:
+        yield async_client
+
+
+def create_dummy_embeds(num_tokens: int = 5) -> str:
+    """Create dummy embeddings and return them as base64 encoded string."""
+    dummy_embeds = torch.randn(num_tokens, CONFIG.hidden_size)
+    buffer = io.BytesIO()
+    torch.save(dummy_embeds, buffer)
+    return base64.b64encode(buffer.getvalue()).decode('utf-8')
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+async def test_completions_with_prompt_embeds(
+        client_with_prompt_embeds: openai.AsyncOpenAI, model_name: str):
+    # Test case: Single prompt embeds input
+    encoded_embeds = create_dummy_embeds()
+    completion = await client_with_prompt_embeds.completions.create(
+        model=model_name,
+        prompt="",  # Add empty prompt as required parameter
+        max_tokens=5,
+        temperature=0.0,
+        extra_body={"prompt_embeds": encoded_embeds})
+    assert len(completion.choices[0].text) >= 1
+    assert completion.choices[0].prompt_logprobs is None
+
+    # Test case: batch completion with prompt_embeds
+    encoded_embeds2 = create_dummy_embeds()
+    completion = await client_with_prompt_embeds.completions.create(
+        model=model_name,
+        prompt="",  # Add empty prompt as required parameter
+        max_tokens=5,
+        temperature=0.0,
+        extra_body={"prompt_embeds": [encoded_embeds, encoded_embeds2]})
+    assert len(completion.choices) == 2
+    assert len(completion.choices[0].text) >= 1
+    assert len(completion.choices[1].text) >= 1
+
+    # Test case: streaming with prompt_embeds
+    encoded_embeds = create_dummy_embeds()
+    single_completion = await client_with_prompt_embeds.completions.create(
+        model=model_name,
+        prompt="",  # Add empty prompt as required parameter
+        max_tokens=5,
+        temperature=0.0,
+        extra_body={"prompt_embeds": encoded_embeds})
+    single_output = single_completion.choices[0].text
+
+    stream = await client_with_prompt_embeds.completions.create(
+        model=model_name,
+        prompt="",  # Add empty prompt as required parameter
+        max_tokens=5,
+        temperature=0.0,
+        stream=True,
+        extra_body={"prompt_embeds": encoded_embeds})
+    chunks = []
+    finish_reason_count = 0
+    async for chunk in stream:
+        chunks.append(chunk.choices[0].text)
+        if chunk.choices[0].finish_reason is not None:
+            finish_reason_count += 1
+    assert finish_reason_count == 1
+    assert chunk.choices[0].finish_reason == "length"
+    assert chunk.choices[0].text
+    assert "".join(chunks) == single_output
+
+    # Test case: batch streaming with prompt_embeds
+    encoded_embeds2 = create_dummy_embeds()
+    stream = await client_with_prompt_embeds.completions.create(
+        model=model_name,
+        prompt="",  # Add empty prompt as required parameter
+        max_tokens=5,
+        temperature=0.0,
+        stream=True,
+        extra_body={"prompt_embeds": [encoded_embeds, encoded_embeds2]})
+    chunks_stream_embeds: list[list[str]] = [[], []]
+    finish_reason_count = 0
+    async for chunk in stream:
+        chunks_stream_embeds[chunk.choices[0].index].append(
+            chunk.choices[0].text)
+        if chunk.choices[0].finish_reason is not None:
+            finish_reason_count += 1
+    assert finish_reason_count == 2
+    assert chunk.choices[0].finish_reason == "length"
+    assert chunk.choices[0].text
+    assert len(chunks_stream_embeds[0]) > 0
+    assert len(chunks_stream_embeds[1]) > 0
+
+    # Test case: mixed text and prompt_embeds
+    encoded_embeds = create_dummy_embeds()
+    completion_mixed = await client_with_prompt_embeds.completions.create(
+        model=model_name,
+        prompt="This is a prompt",
+        max_tokens=5,
+        temperature=0.0,
+        extra_body={"prompt_embeds": encoded_embeds})
+    assert len(completion.choices) == 2
+    completion_text_only = await client_with_prompt_embeds.completions.create(
+        model=model_name,
+        prompt="This is a prompt",
+        max_tokens=5,
+        temperature=0.0,
+    )
+    completion_embeds_only = await client_with_prompt_embeds.completions.create(
+        model=model_name,
+        prompt="",
+        max_tokens=5,
+        temperature=0.0,
+        extra_body={"prompt_embeds": encoded_embeds})
+    # Embeddings responses should be handled first
+    assert completion_mixed.choices[0].text == completion_embeds_only.choices[
+        0].text
+    assert completion_mixed.choices[1].text == completion_text_only.choices[
+        0].text
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+async def test_completions_errors_with_prompt_embeds(
+        client_with_prompt_embeds: openai.AsyncOpenAI, model_name: str):
+    # Test error case: invalid prompt_embeds
+    with pytest.raises(BadRequestError):
+        await client_with_prompt_embeds.completions.create(
+            prompt="",
+            model=model_name,
+            max_tokens=5,
+            temperature=0.0,
+            extra_body={"prompt_embeds": "invalid_base64"})
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize("logprobs_arg", [1, 0])
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+async def test_completions_with_logprobs_and_prompt_embeds(
+        client_with_prompt_embeds: openai.AsyncOpenAI, logprobs_arg: int,
+        model_name: str):
+    # Test case: Logprobs using prompt_embeds
+    encoded_embeds = create_dummy_embeds()
+    completion = await client_with_prompt_embeds.completions.create(
+        model=model_name,
+        prompt="",  # Add empty prompt as required parameter
+        max_tokens=5,
+        temperature=0.0,
+        echo=False,
+        logprobs=logprobs_arg,
+        extra_body={"prompt_embeds": encoded_embeds})
+
+    logprobs = completion.choices[0].logprobs
+    assert logprobs is not None
+    assert len(logprobs.text_offset) == 5
+    assert len(logprobs.token_logprobs) == 5
+    assert len(logprobs.top_logprobs) == 5
+    for top_logprobs in logprobs.top_logprobs[1:]:
+        assert max(logprobs_arg, 1) <= len(top_logprobs) <= logprobs_arg + 1
+    assert len(logprobs.tokens) == 5
+
+    # Test case: Log probs with batch completion and prompt_embeds
+    encoded_embeds2 = create_dummy_embeds()
+    completion = await client_with_prompt_embeds.completions.create(
+        model=model_name,
+        prompt="",  # Add empty prompt as required parameter
+        max_tokens=5,
+        temperature=0.0,
+        echo=False,
+        logprobs=logprobs_arg,
+        extra_body={"prompt_embeds": [encoded_embeds, encoded_embeds2]})
+
+    assert len(completion.choices) == 2
+    for choice in completion.choices:
+        logprobs = choice.logprobs
+        assert logprobs is not None
+        assert len(logprobs.text_offset) == 5
+        assert len(logprobs.token_logprobs) == 5
+        assert len(logprobs.top_logprobs) == 5
+        for top_logprobs in logprobs.top_logprobs[1:]:
+            assert max(logprobs_arg,
+                       1) <= len(top_logprobs) <= logprobs_arg + 1
+        assert len(logprobs.tokens) == 5
diff --git a/vllm/entrypoints/logger.py b/vllm/entrypoints/logger.py
index ea5759152..d4655dd5e 100644
--- a/vllm/entrypoints/logger.py
+++ b/vllm/entrypoints/logger.py
@@ -2,6 +2,8 @@
 
 from typing import Optional, Union
 
+import torch
+
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
 from vllm.pooling_params import PoolingParams
@@ -23,6 +25,7 @@ class RequestLogger:
         request_id: str,
         prompt: Optional[str],
         prompt_token_ids: Optional[list[int]],
+        prompt_embeds: Optional[torch.Tensor],
         params: Optional[Union[SamplingParams, PoolingParams,
                                BeamSearchParams]],
         lora_request: Optional[LoRARequest],
@@ -39,6 +42,8 @@ class RequestLogger:
         logger.info(
             "Received request %s: prompt: %r, "
             "params: %s, prompt_token_ids: %s, "
+            "prompt_embeds shape: %s, "
             "lora_request: %s, prompt_adapter_request: %s.", request_id,
-            prompt, params, prompt_token_ids, lora_request,
-            prompt_adapter_request)
+            prompt, params, prompt_token_ids,
+            prompt_embeds.shape if prompt_embeds is not None else None,
+            lora_request, prompt_adapter_request)
diff --git a/vllm/entrypoints/openai/cli_args.py b/vllm/entrypoints/openai/cli_args.py
index d8cec2202..d01af5e42 100644
--- a/vllm/entrypoints/openai/cli_args.py
+++ b/vllm/entrypoints/openai/cli_args.py
@@ -286,6 +286,9 @@ def validate_parsed_serve_args(args: argparse.Namespace):
     if args.enable_auto_tool_choice and not args.tool_call_parser:
         raise TypeError("Error: --enable-auto-tool-choice requires "
                         "--tool-call-parser")
+    if args.enable_prompt_embeds and args.enable_prompt_adapter:
+        raise ValueError(
+            "Cannot use prompt embeds and prompt adapter at the same time.")
 
 
 def log_non_default_args(args: argparse.Namespace):
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
index cd6ee3670..5ab2356a0 100644
--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -745,7 +745,8 @@ class CompletionRequest(OpenAIBaseModel):
     # Ordered by official OpenAI API documentation
     # https://platform.openai.com/docs/api-reference/completions/create
     model: Optional[str] = None
-    prompt: Union[list[int], list[list[int]], str, list[str]]
+    prompt: Optional[Union[list[int], list[list[int]], str, list[str]]] = None
+    prompt_embeds: Optional[Union[bytes, list[bytes]]] = None
     best_of: Optional[int] = None
     echo: Optional[bool] = False
     frequency_penalty: Optional[float] = 0.0
@@ -1025,6 +1026,14 @@ class CompletionRequest(OpenAIBaseModel):
 
         return data
 
+    @model_validator(mode="before")
+    @classmethod
+    def validate_prompt_and_prompt_embeds(cls, data):
+        if data.get("prompt") is None and data.get("prompt_embeds") is None:
+            raise ValueError(
+                "At least one of `prompt` or `prompt_embeds` must be set.")
+        return data
+
 
 class EmbeddingCompletionRequest(OpenAIBaseModel):
     # Ordered by official OpenAI API documentation
diff --git a/vllm/entrypoints/openai/serving_completion.py b/vllm/entrypoints/openai/serving_completion.py
index 0b3bdf7d4..7beaae287 100644
--- a/vllm/entrypoints/openai/serving_completion.py
+++ b/vllm/entrypoints/openai/serving_completion.py
@@ -8,6 +8,7 @@ from typing import Optional, Union, cast
 
 import jinja2
 from fastapi import Request
+from typing_extensions import assert_never
 
 from vllm.config import ModelConfig
 from vllm.engine.protocol import EngineClient
@@ -25,8 +26,11 @@ from vllm.entrypoints.openai.protocol import (CompletionLogProbs,
                                               UsageInfo)
 # yapf: enable
 from vllm.entrypoints.openai.serving_engine import (OpenAIServing,
-                                                    clamp_prompt_logprobs)
+                                                    clamp_prompt_logprobs,
+                                                    is_text_tokens_prompt)
 from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.inputs.data import (EmbedsPrompt, TokensPrompt, is_embeds_prompt,
+                              is_tokens_prompt)
 from vllm.logger import init_logger
 from vllm.outputs import RequestOutput
 from vllm.sampling_params import BeamSearchParams, SamplingParams
@@ -90,6 +94,10 @@ class OpenAIServingCompletion(OpenAIServing):
             return self.create_error_response(
                 "suffix is not currently supported")
 
+        if request.echo and request.prompt_embeds is not None:
+            return self.create_error_response(
+                "Echo is unsupported with prompt embeds.")
+
         request_id = f"cmpl-{self._base_request_id(raw_request)}"
         created_time = int(time.time())
 
@@ -130,8 +138,24 @@ class OpenAIServingCompletion(OpenAIServing):
         try:
             for i, engine_prompt in enumerate(engine_prompts):
                 sampling_params: Union[SamplingParams, BeamSearchParams]
-                default_max_tokens = self.max_model_len - len(
-                    engine_prompt["prompt_token_ids"])
+                # Mypy does not infer that engine_prompt will have only one of
+                # "prompt_token_ids" or "prompt_embeds" defined, and both of
+                # these as Union[object, the expected type], where it infers
+                # object if engine_prompt is a subclass of one of the
+                # typeddicts that defines both keys. Worse, because of
+                # https://github.com/python/mypy/issues/8586, mypy does not
+                # infer the type of engine_prompt correctly because of the
+                # enumerate. So we need an unnecessary cast here.
+                engine_prompt = cast(Union[EmbedsPrompt, TokensPrompt],
+                                     engine_prompt)
+                if is_embeds_prompt(engine_prompt):
+                    input_length = len(engine_prompt["prompt_embeds"])
+                elif is_tokens_prompt(engine_prompt):
+                    input_length = len(engine_prompt["prompt_token_ids"])
+                else:
+                    assert_never(engine_prompt)
+                default_max_tokens = self.max_model_len - input_length
+
                 if request.use_beam_search:
                     sampling_params = request.to_beam_search_params(
                         default_max_tokens, self.default_sampling_params)
@@ -152,6 +176,11 @@ class OpenAIServingCompletion(OpenAIServing):
                 trace_headers = (None if raw_request is None else await
                                  self._get_trace_headers(raw_request.headers))
 
+                # Mypy inconsistently requires this second cast in different
+                # environments. It shouldn't be necessary (redundant from above)
+                # but pre-commit in CI fails without it.
+                engine_prompt = cast(Union[EmbedsPrompt, TokensPrompt],
+                                     engine_prompt)
                 if isinstance(sampling_params, BeamSearchParams):
                     generator = self.engine_client.beam_search(
                         prompt=engine_prompt,
@@ -211,7 +240,11 @@ class OpenAIServingCompletion(OpenAIServing):
                 # We did not pass it into vLLM engine to avoid being redundant
                 # with the inputs token IDs
                 if final_res.prompt is None:
-                    final_res.prompt = request_prompts[i]["prompt"]
+                    request_prompt = request_prompts[i]
+                    if is_text_tokens_prompt(request_prompt):
+                        final_res.prompt = request_prompt["prompt"]
+                    else:
+                        final_res.prompt = None
 
             final_res_batch_checked = cast(list[RequestOutput],
                                            final_res_batch)
@@ -276,8 +309,8 @@ class OpenAIServingCompletion(OpenAIServing):
                 prompt_text = res.prompt
 
                 # Prompt details are excluded from later streamed outputs
-                if res.prompt_token_ids is not None:
-                    num_prompt_tokens[prompt_idx] = len(res.prompt_token_ids)
+                if prompt_token_ids is not None:
+                    num_prompt_tokens[prompt_idx] = len(prompt_token_ids)
 
                 delta_token_ids: GenericSequence[int]
                 out_logprobs: Optional[GenericSequence[Optional[dict[
diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
index f9eebde37..93de9f3a5 100644
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -1,5 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
-
+import base64
+import io
 import json
 import sys
 import time
@@ -8,11 +9,18 @@ from collections.abc import (AsyncGenerator, Iterable, Iterator, Mapping,
 from concurrent.futures.thread import ThreadPoolExecutor
 from http import HTTPStatus
 from typing import (Annotated, Any, Callable, ClassVar, Generic, Optional,
-                    TypeVar, Union)
+                    TypeVar, Union, cast, overload)
 
+import torch
 from fastapi import Request
 from pydantic import BaseModel, ConfigDict, Field
 from starlette.datastructures import Headers
+from typing_extensions import TypeIs
+
+if sys.version_info >= (3, 12):
+    from typing import TypedDict
+else:
+    from typing_extensions import TypedDict
 
 if sys.version_info >= (3, 12):
     from typing import TypedDict
@@ -53,7 +61,8 @@ from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
 from vllm.entrypoints.openai.serving_models import OpenAIServingModels
 from vllm.entrypoints.openai.tool_parsers import ToolParser
 # yapf: enable
-from vllm.inputs import TokensPrompt
+from vllm.inputs.data import EmbedsPrompt as EngineEmbedsPrompt
+from vllm.inputs.data import TokensPrompt as EngineTokensPrompt
 from vllm.inputs.parse import parse_and_batch_prompt
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
@@ -100,7 +109,22 @@ class TextTokensPrompt(TypedDict):
     prompt_token_ids: list[int]
 
 
-RequestPrompt = Union[list[int], str, TextTokensPrompt]
+class EmbedsPrompt(TypedDict):
+    prompt_embeds: torch.Tensor
+
+
+RequestPrompt = Union[list[int], str, TextTokensPrompt, EmbedsPrompt]
+
+
+def is_text_tokens_prompt(prompt: RequestPrompt) -> TypeIs[TextTokensPrompt]:
+    return (isinstance(prompt, dict) and "prompt_token_ids" in prompt
+            and "prompt_embeds" not in prompt)
+
+
+def is_embeds_prompt(prompt: RequestPrompt) -> TypeIs[EmbedsPrompt]:
+    return (isinstance(prompt, dict) and "prompt_token_ids" not in prompt
+            and "prompt_embeds" in prompt)
+
 
 RequestT = TypeVar("RequestT", bound=AnyRequest)
 
@@ -112,8 +136,9 @@ class RequestProcessingMixin(BaseModel):
     """
     request_prompts: Optional[Sequence[RequestPrompt]] = \
                             Field(default_factory=list)
-    engine_prompts: Optional[list[TokensPrompt]] = \
-                            Field(default_factory=list)
+    engine_prompts: Optional[Union[list[EngineTokensPrompt],
+                                   list[EngineEmbedsPrompt]]] = Field(
+                                       default_factory=list)
 
     model_config = ConfigDict(arbitrary_types_allowed=True)
 
@@ -311,6 +336,12 @@ class OpenAIServing:
                     lora_request=ctx.lora_request,
                     prompt_adapter_request=ctx.prompt_adapter_request)
 
+                # Mypy has an existing bug related to inferring the variance of
+                # TypedDicts with `builtins.enumerate`:
+                # https://github.com/python/mypy/issues/8586#issuecomment-2867698435
+                engine_prompt = cast(
+                    Union[EngineTokensPrompt, EngineEmbedsPrompt],
+                    engine_prompt)
                 generator = self.engine_client.encode(
                     engine_prompt,
                     pooling_params,
@@ -596,10 +627,11 @@ class OpenAIServing:
         self,
         request: AnyRequest,
         tokenizer: AnyTokenizer,
-        input_or_inputs: Union[str, list[str], list[int], list[list[int]]],
+        input_or_inputs: Optional[Union[str, list[str], list[int],
+                                        list[list[int]]]],
         truncate_prompt_tokens: Optional[Annotated[int, Field(ge=-1)]] = None,
         add_special_tokens: bool = True,
-    ) -> list[TextTokensPrompt]:
+    ) -> tuple[list[TextTokensPrompt], list[EmbedsPrompt]]:
         """
         Tokenize/detokenize depending on the input format.
 
@@ -607,11 +639,25 @@ class OpenAIServing:
         , each input can be a string or array of tokens. Note that each request
         can pass one or more inputs.
         """
+        inputs_embeds = list[EmbedsPrompt]()
+        inputs_text = list[TextTokensPrompt]()
+
+        if (isinstance(request, CompletionRequest)
+                and request.prompt_embeds is not None):
+            inputs_embeds.extend(
+                self._load_prompt_embeds(request.prompt_embeds,
+                                         truncate_prompt_tokens))
+
+        # Empty prompts are okay as long as there are prompt embeddings
+        if input_or_inputs is None or (inputs_embeds
+                                       and input_or_inputs == ""):
+            return [], inputs_embeds
+
         # Although our type checking is based on mypy,
         # VSCode Pyright extension should still work properly
-        # "is True" is required for Pyright to perform type narrowing
+        # "is False" is required for Pyright to perform type narrowing
         # See: https://github.com/microsoft/pyright/issues/7672
-        return [
+        inputs_text.extend([
             self._normalize_prompt_text_to_input(
                 request,
                 tokenizer,
@@ -625,29 +671,88 @@ class OpenAIServing:
                 prompt_ids=prompt_input["content"],
                 truncate_prompt_tokens=truncate_prompt_tokens)
             for prompt_input in parse_and_batch_prompt(input_or_inputs)
-        ]
+        ])
+
+        return inputs_text, inputs_embeds
 
+    @overload
     async def _preprocess_completion(
         self,
-        request: CompletionLikeRequest,
+        request: Union[DetokenizeRequest, EmbeddingCompletionRequest,
+                       RerankRequest, ClassificationRequest, ScoreRequest,
+                       TokenizeCompletionRequest],
         tokenizer: AnyTokenizer,
         input_or_inputs: Union[str, list[str], list[int], list[list[int]]],
+        truncate_prompt_tokens: Optional[Annotated[int, Field(ge=-1)]] = ...,
+        add_special_tokens: bool = ...,
+    ) -> tuple[list[TextTokensPrompt], list[EngineTokensPrompt]]:
+        ...
+
+    @overload
+    async def _preprocess_completion(
+        self,
+        request: CompletionRequest,
+        tokenizer: AnyTokenizer,
+        input_or_inputs: Optional[Union[str, list[str], list[int],
+                                        list[list[int]]]],
+        truncate_prompt_tokens: Optional[Annotated[int, Field(ge=-1)]] = ...,
+        add_special_tokens: bool = ...,
+    ) -> tuple[list[Union[TextTokensPrompt, EmbedsPrompt]], list[Union[
+            EngineTokensPrompt, EngineEmbedsPrompt]]]:
+        ...
+
+    async def _preprocess_completion(
+        self,
+        request: CompletionLikeRequest,
+        tokenizer: AnyTokenizer,
+        input_or_inputs: Optional[Union[str, list[str], list[int],
+                                        list[list[int]]]],
         truncate_prompt_tokens: Optional[Annotated[int, Field(ge=-1)]] = None,
         add_special_tokens: bool = True,
-    ) -> tuple[list[TextTokensPrompt], list[TokensPrompt]]:
-        request_prompts = await self._tokenize_prompt_input_or_inputs_async(
-            request,
-            tokenizer,
-            input_or_inputs,
-            truncate_prompt_tokens=truncate_prompt_tokens,
-            add_special_tokens=add_special_tokens,
-        )
+    ) -> tuple[Union[list[TextTokensPrompt], list[Union[
+            TextTokensPrompt, EmbedsPrompt]]], Union[
+                list[EngineTokensPrompt], list[Union[EngineTokensPrompt,
+                                                     EngineEmbedsPrompt]]]]:
+        if not isinstance(request,
+                          CompletionRequest) and input_or_inputs is None:
+            raise ValueError(
+                "Prompt embeds with non-completion requests is not"
+                " currently supported.")
+
+        (request_prompts_text, request_prompts_embeds
+         ) = await self._tokenize_prompt_input_or_inputs_async(
+             request,
+             tokenizer,
+             input_or_inputs,
+             truncate_prompt_tokens=truncate_prompt_tokens,
+             add_special_tokens=add_special_tokens,
+         )
+
+        engine_prompts_text = [
+            EngineTokensPrompt(
+                prompt_token_ids=request_prompt_text["prompt_token_ids"])
+            for request_prompt_text in request_prompts_text
+        ]
 
-        engine_prompts = [
-            TokensPrompt(prompt_token_ids=request_prompt["prompt_token_ids"])
-            for request_prompt in request_prompts
+        # This check is equivalent to simply checking if
+        # `request_prompts_embeds` is empty, but it's difficult to propagate
+        # overloads to the private helper functions to enable this check.
+        # This overload is needed because only TextPrompts are allowed for
+        # non-completion requests and if we don't add the overload here,
+        # everywhere this function is used outside of serving_completion will
+        # need logic asserting that only text prompts are in the request.
+        if not isinstance(request,
+                          CompletionRequest) and input_or_inputs is not None:
+            return request_prompts_text, engine_prompts_text
+
+        engine_prompts_embeds = [
+            EngineEmbedsPrompt(
+                prompt_embeds=request_prompt_embeds["prompt_embeds"])
+            for request_prompt_embeds in request_prompts_embeds
         ]
 
+        request_prompts = request_prompts_embeds + request_prompts_text
+        engine_prompts = engine_prompts_embeds + engine_prompts_text
         return request_prompts, engine_prompts
 
     async def _preprocess_chat(
@@ -666,7 +771,7 @@ class OpenAIServing:
         truncate_prompt_tokens: Optional[Annotated[int, Field(ge=1)]] = None,
         add_special_tokens: bool = False,
     ) -> tuple[list[ConversationMessage], Sequence[RequestPrompt],
-               list[TokensPrompt]]:
+               list[EngineTokensPrompt]]:
         model_config = self.model_config
 
         resolved_content_format = resolve_chat_template_content_format(
@@ -739,7 +844,7 @@ class OpenAIServing:
                 prompt=tokenizer.decode(request_prompt),
                 prompt_token_ids=request_prompt)
 
-        engine_prompt = TokensPrompt(
+        engine_prompt = EngineTokensPrompt(
             prompt_token_ids=prompt_inputs["prompt_token_ids"])
         if mm_data is not None:
             engine_prompt["multi_modal_data"] = mm_data
@@ -751,6 +856,35 @@ class OpenAIServing:
 
         return conversation, [request_prompt], [engine_prompt]
 
+    def _load_prompt_embeds(
+        self,
+        prompt_embeds: Optional[Union[bytes, list[bytes]]],
+        truncate_prompt_tokens: Optional[Annotated[int, Field(ge=1)]] = None
+    ) -> list[EmbedsPrompt]:
+
+        def _load_and_validate_embed(embed: bytes) -> EmbedsPrompt:
+            tensor = torch.load(io.BytesIO(base64.b64decode(embed)),
+                                weights_only=True)
+            assert isinstance(
+                tensor,
+                (torch.FloatTensor, torch.BFloat16Tensor, torch.HalfTensor))
+            if tensor.dim() > 2:
+                tensor = tensor.squeeze(0)
+                assert tensor.dim() == 2
+            if truncate_prompt_tokens is not None:
+                tensor = tensor[-truncate_prompt_tokens:]
+            return {"prompt_embeds": tensor}
+
+        if prompt_embeds:
+            if isinstance(prompt_embeds, list):
+                return [
+                    _load_and_validate_embed(embed) for embed in prompt_embeds
+                ]
+            else:
+                return [_load_and_validate_embed(prompt_embeds)]
+        else:
+            return []
+
     def _log_inputs(
         self,
         request_id: str,
@@ -762,13 +896,13 @@ class OpenAIServing:
     ) -> None:
         if self.request_logger is None:
             return
-
+        prompt, prompt_token_ids, prompt_embeds = None, None, None
         if isinstance(inputs, str):
             prompt = inputs
-            prompt_token_ids = None
         elif isinstance(inputs, list):
-            prompt = None
             prompt_token_ids = inputs
+        elif 'prompt_embeds' in inputs:
+            prompt_embeds = inputs.get("prompt_embeds")
         else:
             prompt = inputs["prompt"]
             prompt_token_ids = inputs["prompt_token_ids"]
@@ -777,6 +911,7 @@ class OpenAIServing:
             request_id,
             prompt,
             prompt_token_ids,
+            prompt_embeds,
             params=params,
             lora_request=lora_request,
             prompt_adapter_request=prompt_adapter_request,
diff --git a/vllm/entrypoints/openai/serving_tokenization.py b/vllm/entrypoints/openai/serving_tokenization.py
index 349e0ac9e..5ef1a486d 100644
--- a/vllm/entrypoints/openai/serving_tokenization.py
+++ b/vllm/entrypoints/openai/serving_tokenization.py
@@ -106,8 +106,9 @@ class OpenAIServingTokenization(OpenAIServing):
 
             # Silently ignore prompt adapter since it does not affect
             # tokenization (Unlike in Embeddings API where an error is raised)
-
-            input_ids.extend(engine_prompt["prompt_token_ids"])
+            if isinstance(engine_prompt,
+                          dict) and "prompt_token_ids" in engine_prompt:
+                input_ids.extend(engine_prompt["prompt_token_ids"])
 
         return TokenizeResponse(tokens=input_ids,
                                 count=len(input_ids),
diff --git a/vllm/inputs/data.py b/vllm/inputs/data.py
index c83ab73b6..3b58ec47d 100644
--- a/vllm/inputs/data.py
+++ b/vllm/inputs/data.py
@@ -3,7 +3,7 @@ from collections.abc import Iterable
 from typing import TYPE_CHECKING, Any, Generic, Literal, Optional, Union, cast
 
 import torch
-from typing_extensions import NotRequired, TypedDict, TypeVar
+from typing_extensions import NotRequired, TypedDict, TypeIs, TypeVar
 
 if TYPE_CHECKING:
     from vllm.multimodal.inputs import MultiModalDataDict, MultiModalInputs
@@ -98,6 +98,17 @@ where the decoder-prompt is not specified explicitly, or
 more than one prompt, i.e. {class}`ExplicitEncoderDecoderPrompt`
 """
 
+
+def is_tokens_prompt(prompt: SingletonPrompt) -> TypeIs[TokensPrompt]:
+    return (isinstance(prompt, dict) and "prompt_token_ids" in prompt
+            and "prompt_embeds" not in prompt)
+
+
+def is_embeds_prompt(prompt: SingletonPrompt) -> TypeIs[EmbedsPrompt]:
+    return (isinstance(prompt, dict) and "prompt_token_ids" not in prompt
+            and "prompt_embeds" in prompt)
+
+
 _T1_co = TypeVar("_T1_co",
                  bound=SingletonPrompt,
                  default=SingletonPrompt,
-- 
GitLab


From 27d09526006a8d437874628d6905df12f80a194f Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Mon, 19 May 2025 12:06:26 +0800
Subject: [PATCH 448/461] [Misc] extract parser.parse_args() (#18323)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 examples/offline_inference/qwen2_5_omni/only_thinker.py   | 8 ++++++--
 .../disaggregated_serving/disagg_proxy_demo.py            | 8 ++++++--
 2 files changed, 12 insertions(+), 4 deletions(-)

diff --git a/examples/offline_inference/qwen2_5_omni/only_thinker.py b/examples/offline_inference/qwen2_5_omni/only_thinker.py
index c2c28d5ae..52b6e977e 100644
--- a/examples/offline_inference/qwen2_5_omni/only_thinker.py
+++ b/examples/offline_inference/qwen2_5_omni/only_thinker.py
@@ -140,7 +140,7 @@ def main(args):
         print(generated_text)
 
 
-if __name__ == "__main__":
+def parse_args():
     parser = FlexibleArgumentParser(
         description='Demo on using vLLM for offline inference with '
         'audio language models')
@@ -155,5 +155,9 @@ if __name__ == "__main__":
                         default=None,
                         help="Set the seed when initializing `vllm.LLM`.")
 
-    args = parser.parse_args()
+    return parser.parse_args()
+
+
+if __name__ == "__main__":
+    args = parse_args()
     main(args)
diff --git a/examples/online_serving/disaggregated_serving/disagg_proxy_demo.py b/examples/online_serving/disaggregated_serving/disagg_proxy_demo.py
index 1bf4d50e2..c6d26778e 100644
--- a/examples/online_serving/disaggregated_serving/disagg_proxy_demo.py
+++ b/examples/online_serving/disaggregated_serving/disagg_proxy_demo.py
@@ -414,7 +414,7 @@ class ProxyServer:
         server.run()
 
 
-if __name__ == "__main__":
+def parse_args():
     # Todo: allow more config
     parser = argparse.ArgumentParser("vLLM disaggregated proxy server.")
     parser.add_argument("--model",
@@ -445,6 +445,10 @@ if __name__ == "__main__":
         default=8000,
         help="Server port number",
     )
-    args = parser.parse_args()
+    return parser.parse_args()
+
+
+if __name__ == "__main__":
+    args = parse_args()
     proxy_server = ProxyServer(args=args)
     proxy_server.run_server()
-- 
GitLab


From 47fda6d089ff8d2aa1f9f8c7b4c558a4baebd2ca Mon Sep 17 00:00:00 2001
From: Simon Mo <simon.mo@hey.com>
Date: Sun, 18 May 2025 23:19:33 -0700
Subject: [PATCH 449/461] [Build] Supports CUDA 12.6 and 11.8 after Blackwell
 Update (#18316)

Signed-off-by: simon-mo <simon.mo@hey.com>
---
 .buildkite/release-pipeline.yaml | 4 ++--
 docker/Dockerfile                | 9 +++++++--
 2 files changed, 9 insertions(+), 4 deletions(-)

diff --git a/.buildkite/release-pipeline.yaml b/.buildkite/release-pipeline.yaml
index 4cc9c70a6..2118cf459 100644
--- a/.buildkite/release-pipeline.yaml
+++ b/.buildkite/release-pipeline.yaml
@@ -14,7 +14,7 @@ steps:
     agents:
       queue: cpu_queue_postmerge
     commands:
-      - "DOCKER_BUILDKIT=1 docker build --build-arg max_jobs=16 --build-arg USE_SCCACHE=1 --build-arg GIT_REPO_CHECK=1 --build-arg CUDA_VERSION=12.6.3 --tag vllm-ci:build-image --target build --progress plain -f docker/Dockerfile ."
+      - "DOCKER_BUILDKIT=1 docker build --build-arg max_jobs=16 --build-arg USE_SCCACHE=1 --build-arg GIT_REPO_CHECK=1 --build-arg CUDA_VERSION=12.6.3 --build-arg torch_cuda_arch_list='7.0 7.5 8.0 8.9 9.0+PTX' --tag vllm-ci:build-image --target build --progress plain -f docker/Dockerfile ."
       - "mkdir artifacts"
       - "docker run --rm -v $(pwd)/artifacts:/artifacts_host vllm-ci:build-image bash -c 'cp -r dist /artifacts_host && chmod -R a+rw /artifacts_host'"
       - "bash .buildkite/scripts/upload-wheels.sh"
@@ -31,7 +31,7 @@ steps:
     agents:
       queue: cpu_queue_postmerge
     commands:
-      - "DOCKER_BUILDKIT=1 docker build --build-arg max_jobs=16 --build-arg USE_SCCACHE=1 --build-arg GIT_REPO_CHECK=1 --build-arg CUDA_VERSION=11.8.0 --tag vllm-ci:build-image --target build --progress plain -f docker/Dockerfile ."
+      - "DOCKER_BUILDKIT=1 docker build --build-arg max_jobs=16 --build-arg USE_SCCACHE=1 --build-arg GIT_REPO_CHECK=1 --build-arg CUDA_VERSION=11.8.0 --build-arg torch_cuda_arch_list='7.0 7.5 8.0 8.9 9.0+PTX' --tag vllm-ci:build-image --target build --progress plain -f docker/Dockerfile ."
       - "mkdir artifacts"
       - "docker run --rm -v $(pwd)/artifacts:/artifacts_host vllm-ci:build-image bash -c 'cp -r dist /artifacts_host && chmod -R a+rw /artifacts_host'"
       - "bash .buildkite/scripts/upload-wheels.sh"
diff --git a/docker/Dockerfile b/docker/Dockerfile
index bc3b9f336..97a7879da 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -257,8 +257,13 @@ RUN --mount=type=cache,target=/root/.cache/uv \
 if [ "$TARGETPLATFORM" != "linux/arm64" ]; then \
     # uv pip install --system https://github.com/flashinfer-ai/flashinfer/releases/download/v0.2.4/flashinfer_python-0.2.4+cu124torch2.6-cp38-abi3-linux_x86_64.whl ; \
     # TESTING: install FlashInfer from source to test 2.7.0 final RC
-    FLASHINFER_ENABLE_AOT=1 TORCH_CUDA_ARCH_LIST='7.5 8.0 8.9 9.0 10.0+PTX' \
-    uv pip install --system --no-build-isolation "git+https://github.com/flashinfer-ai/flashinfer@e00e8cedbfcb220f328fd36aa8f529f869b01e6b" ; \
+    if [[ "$CUDA_VERSION" == 12.8* ]]; then \
+        export TORCH_CUDA_ARCH_LIST='7.5 8.0 8.9 9.0 10.0+PTX'; \
+    else \
+        export TORCH_CUDA_ARCH_LIST='7.5 8.0 8.9 9.0+PTX'; \
+    fi && \
+    export FLASHINFER_ENABLE_AOT=1; \
+    uv pip install --system --no-build-isolation "git+https://github.com/flashinfer-ai/flashinfer@21ea1d2545f74782b91eb8c08fd503ac4c0743fc" ; \
 fi
 COPY examples examples
 COPY benchmarks benchmarks
-- 
GitLab


From 275c5daeb0048c3b3f359bb5d9478b1e75e02857 Mon Sep 17 00:00:00 2001
From: CYJiang <86391540+googs1025@users.noreply.github.com>
Date: Mon, 19 May 2025 14:42:17 +0800
Subject: [PATCH 450/461] fix: Add type specifications for CLI arguments in
 tensorizer options (#18314)

---
 vllm/model_executor/model_loader/tensorizer.py | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/vllm/model_executor/model_loader/tensorizer.py b/vllm/model_executor/model_loader/tensorizer.py
index 0ff35b3a6..459c4b439 100644
--- a/vllm/model_executor/model_loader/tensorizer.py
+++ b/vllm/model_executor/model_loader/tensorizer.py
@@ -214,6 +214,7 @@ class TensorizerArgs:
 
         group.add_argument(
             "--tensorizer-uri",
+            type=str,
             help="Path to serialized model tensors. Can be a local file path,"
             " or an HTTP(S) or S3 URI.",
         )
@@ -226,6 +227,7 @@ class TensorizerArgs:
         )
         group.add_argument(
             "--encryption-keyfile",
+            type=str,
             default=None,
             help="The file path to a binary file containing a binary key to "
             "use for decryption. Can be a file path or S3 network URI.")
@@ -239,18 +241,21 @@ class TensorizerArgs:
             "and model size. This greatly increases performance.")
         group.add_argument(
             "--s3-access-key-id",
+            type=str,
             default=None,
             help="The access key for the S3 bucket. Can also be set via the "
             "S3_ACCESS_KEY_ID environment variable.",
         )
         group.add_argument(
             "--s3-secret-access-key",
+            type=str,
             default=None,
             help="The secret access key for the S3 bucket. Can also be set via "
             "the S3_SECRET_ACCESS_KEY environment variable.",
         )
         group.add_argument(
             "--s3-endpoint",
+            type=str,
             default=None,
             help="The endpoint for the S3 bucket. Can also be set via the "
             "S3_ENDPOINT_URL environment variable.",
-- 
GitLab


From d637b960994119907b41c82d79f5a71c96dd419b Mon Sep 17 00:00:00 2001
From: Shaoyu Yang <shaoyuyoung@gmail.com>
Date: Mon, 19 May 2025 16:31:23 +0800
Subject: [PATCH 451/461] [BugFix] [Vul] Add missing `usedforsecurity=False` in
 MD5 hashing to enable FIPS (#18319)

Signed-off-by: cascade812 <cascade812@outlook.com>
Signed-off-by: shaoyuyoung <shaoyuyoung@gmail.com>
Co-authored-by: cascade <cascade812@outlook.com>
---
 .../model_loader/neuronx_distributed.py              | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/vllm/model_executor/model_loader/neuronx_distributed.py b/vllm/model_executor/model_loader/neuronx_distributed.py
index 1c4f66061..fee8c10b6 100644
--- a/vllm/model_executor/model_loader/neuronx_distributed.py
+++ b/vllm/model_executor/model_loader/neuronx_distributed.py
@@ -143,8 +143,8 @@ class NeuronCausalLM(nn.Module):
         config = neuronx_model_cls.get_config_cls()(
             neuron_config,
             load_config=load_pretrained_config(model_name_or_path))
-        hashed_config = hashlib.md5(
-            config.to_json_string().encode('utf-8')).hexdigest()
+        hashed_config = hashlib.md5(config.to_json_string().encode('utf-8'),
+                                    usedforsecurity=False).hexdigest()
         if os.getenv("NEURON_COMPILED_ARTIFACTS") is not None:
             compiled_model_path = os.getenv("NEURON_COMPILED_ARTIFACTS")
         elif os.path.exists(model_name_or_path):
@@ -263,8 +263,8 @@ class NeuronMllamaForCausalLM(nn.Module):
         config = neuronx_model_cls.get_config_cls()(
             neuron_config,
             load_config=load_pretrained_config(model_name_or_path))
-        hashed_config = hashlib.md5(
-            config.to_json_string().encode('utf-8')).hexdigest()
+        hashed_config = hashlib.md5(config.to_json_string().encode('utf-8'),
+                                    usedforsecurity=False).hexdigest()
         if os.getenv("NEURON_COMPILED_ARTIFACTS") is not None:
             compiled_model_path = os.getenv("NEURON_COMPILED_ARTIFACTS")
         elif os.path.exists(model_name_or_path):
@@ -426,8 +426,8 @@ class NeuronSpeculationCausalLM(nn.Module):
         config.fused_spec_config = fused_spec_config
         self.config.neuron_config = neuron_config
 
-        hashed_config = hashlib.md5(
-            config.to_json_string().encode('utf-8')).hexdigest()
+        hashed_config = hashlib.md5(config.to_json_string().encode('utf-8'),
+                                    usedforsecurity=False).hexdigest()
         if os.getenv("NEURON_COMPILED_ARTIFACTS") is not None:
             compiled_model_path = os.getenv("NEURON_COMPILED_ARTIFACTS")
         elif os.path.exists(model_name_or_path):
-- 
GitLab


From c5bb0ebdc656bdf89013936b4a29666b143eb6a5 Mon Sep 17 00:00:00 2001
From: Li Wang <wangli858794774@gmail.com>
Date: Mon, 19 May 2025 21:48:16 +0800
Subject: [PATCH 452/461] [Doc] Fix prompt embedding examples (#18350)

Signed-off-by: wangli <wangli858794774@gmail.com>
---
 docs/source/serving/prompt_embeds.md | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/docs/source/serving/prompt_embeds.md b/docs/source/serving/prompt_embeds.md
index 483ca1664..4e4648d17 100644
--- a/docs/source/serving/prompt_embeds.md
+++ b/docs/source/serving/prompt_embeds.md
@@ -36,6 +36,7 @@ llm = LLM(model=model_name, enable_prompt_embeds=True)
 chat = [{"role": "user", "content": "Please tell me about the capital of France."}]
 token_ids = tokenizer.apply_chat_template(chat, add_generation_prompt=True, return_tensors='pt')
 
+embedding_layer = transformers_model.get_input_embeddings()
 prompt_embeds = embedding_layer(token_ids).squeeze(0)
 
 # Single prompt inference
@@ -116,6 +117,7 @@ transformers_model = transformers.AutoModelForCausalLM.from_pretrained(model_nam
 chat = [{"role": "user", "content": "Please tell me about the capital of France."}]
 token_ids = tokenizer.apply_chat_template(chat, add_generation_prompt=True, return_tensors='pt')
 
+embedding_layer = transformers_model.get_input_embeddings()
 prompt_embeds = embedding_layer(token_ids).squeeze(0)
 
 # Prompt embeddings
-- 
GitLab


From 43b5f61dceb4ec1ac17e08d847162cd86344aba1 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Mon, 19 May 2025 23:08:39 +0800
Subject: [PATCH 453/461] [Doc] Move input-related docs to Features (#18353)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 docs/source/{serving => features}/multimodal_inputs.md | 0
 docs/source/{serving => features}/prompt_embeds.md     | 0
 docs/source/index.md                                   | 4 ++--
 3 files changed, 2 insertions(+), 2 deletions(-)
 rename docs/source/{serving => features}/multimodal_inputs.md (100%)
 rename docs/source/{serving => features}/prompt_embeds.md (100%)

diff --git a/docs/source/serving/multimodal_inputs.md b/docs/source/features/multimodal_inputs.md
similarity index 100%
rename from docs/source/serving/multimodal_inputs.md
rename to docs/source/features/multimodal_inputs.md
diff --git a/docs/source/serving/prompt_embeds.md b/docs/source/features/prompt_embeds.md
similarity index 100%
rename from docs/source/serving/prompt_embeds.md
rename to docs/source/features/prompt_embeds.md
diff --git a/docs/source/index.md b/docs/source/index.md
index 7e5b73c96..db2192e87 100644
--- a/docs/source/index.md
+++ b/docs/source/index.md
@@ -90,6 +90,8 @@ models/extensions/index
 :maxdepth: 1
 
 features/quantization/index
+features/multimodal_inputs
+features/prompt_embeds
 features/lora
 features/tool_calling
 features/reasoning_outputs
@@ -118,8 +120,6 @@ training/rlhf.md
 serving/offline_inference
 serving/openai_compatible_server
 serving/serve_args
-serving/multimodal_inputs
-serving/prompt_embeds
 serving/distributed_serving
 serving/metrics
 serving/engine_args
-- 
GitLab


From 1b15df2546e97c409668da92954d8802c48d13af Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Mon, 19 May 2025 09:03:25 -0700
Subject: [PATCH 454/461] [BugFix] Fix handling of num_computed_tokens with
 connector (#18232)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Nick Hill <nhill@redhat.com>
Co-authored-by: Nicolò Lucchesi <nicolo.lucchesi@gmail.com>
---
 .../kv_connector/v1/nixl_connector.py         | 16 ++++++----
 vllm/v1/core/sched/scheduler.py               | 29 ++++++++++++-------
 2 files changed, 29 insertions(+), 16 deletions(-)

diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
index e6c83a0fc..9c2e82b29 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -209,7 +209,17 @@ class NixlConnectorScheduler:
             rounded_num_prompt_tokens = round_down(
                 len(request.prompt_token_ids), self.block_size)
             count = max(rounded_num_prompt_tokens - num_computed_tokens, 0)
-            return count, count > 0
+            if count > 0:
+                return count, True
+
+            # NOTE: if count is 0 here, we have less than block_size
+            # tokens to pull after subtracting the local prefix cache hit.
+            # The remote only sends fully computed blocks, so there is
+            # nothing to transfer but we still need to notify the
+            # prefill worker so that the remote blocks are freed.
+            if all(p in params for p in ("remote_engine_id", "remote_host",
+                                         "remote_port")):
+                self._reqs_need_recv[request.request_id] = (request, [])
 
         # No remote prefill for this request.
         return 0, False
@@ -225,10 +235,6 @@ class NixlConnectorScheduler:
             num_external_tokens, params)
 
         if params is not None and params.get("do_remote_prefill"):
-            # NOTE(rob): if prompt < block_size, no remote blocks
-            # since the remote only sends fully computed blocks, so
-            # skip recving for this request. num_external_tokens
-            # should be 0 if there are no remote blocks.
             if params.get("remote_block_ids"):
                 if all(p in params for p in ("remote_engine_id", "remote_host",
                                              "remote_port")):
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 5ad05485e..d8fd67e23 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -345,32 +345,38 @@ class Scheduler(SchedulerInterface):
                     skipped_waiting_requests.appendleft(request)
                     continue
 
+                num_external_computed_tokens = 0
+                load_kv_async = False
+
                 # Get already-cached tokens.
                 if num_prealloc_computed_tokens == 0:
                     new_computed_blocks, num_native_computed_tokens = \
                         self.kv_cache_manager.get_computed_blocks(
                             request)
+
+                    # Get externally-cached tokens if using a KVConnector.
+                    if self.connector is not None:
+                        num_external_computed_tokens, load_kv_async = (
+                            self.connector.get_num_new_matched_tokens(
+                                request, num_native_computed_tokens))
+
+                    # Total computed tokens (local + external).
+                    num_computed_tokens = (num_native_computed_tokens +
+                                           num_external_computed_tokens)
                 else:
                     # P/D: skip checking prefix cache if loaded from remote kvs.
                     new_computed_blocks = KVCacheBlocks.create_empty()
                     num_native_computed_tokens = 0
 
-                # Get externally-cached tokens if using a KVConnector.
-                num_external_computed_tokens, load_kv_async = (
-                    (0, False) if self.connector is None else
-                    self.connector.get_num_new_matched_tokens(
-                        request, num_native_computed_tokens))
-
-                # Total computed tokens (local + external).
-                num_computed_tokens = (num_native_computed_tokens +
-                                       num_external_computed_tokens +
-                                       num_prealloc_computed_tokens)
+                    # Total computed tokens (allocated in prior step).
+                    num_computed_tokens = num_prealloc_computed_tokens
 
                 encoder_inputs_to_schedule = None
                 new_encoder_budget = encoder_budget
 
                 # P/D: loading remote KV, do not allocate for new work.
                 if load_kv_async:
+                    assert num_external_computed_tokens > 0
                     num_new_tokens = 0
                 # Number of tokens to be scheduled.
                 else:
@@ -411,7 +417,8 @@ class Scheduler(SchedulerInterface):
                 # KVConnector: update internal state after allocation.
                 # This information is used to determine if a load is
                 # needed for this request.
-                if self.connector is not None:
+                if num_external_computed_tokens:
+                    assert self.connector is not None
                     self.connector.update_state_after_alloc(
                         request,
                         new_computed_blocks + new_blocks,
-- 
GitLab


From 6781af56081303bfa319a1f5eba6cd9e291a047b Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Tue, 20 May 2025 00:03:43 +0800
Subject: [PATCH 455/461] [Quantization] Pool model support bitsandbytes
 (#18087)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 tests/quantization/test_bitsandbytes.py       | 66 ++++++++++++++++++-
 .../model_loader/bitsandbytes_loader.py       | 16 ++++-
 2 files changed, 79 insertions(+), 3 deletions(-)

diff --git a/tests/quantization/test_bitsandbytes.py b/tests/quantization/test_bitsandbytes.py
index 8d9ae2821..0f20f42d8 100644
--- a/tests/quantization/test_bitsandbytes.py
+++ b/tests/quantization/test_bitsandbytes.py
@@ -8,9 +8,11 @@ import gc
 
 import pytest
 import torch
+from transformers import BitsAndBytesConfig
 
 from tests.quantization.utils import is_quant_method_supported
 
+from ..models.utils import check_embeddings_close
 from ..utils import compare_two_settings, create_new_process_for_each_test
 
 models_4bit_to_test = [
@@ -19,6 +21,10 @@ models_4bit_to_test = [
      "quantize inflight model with both HF and Mistral format weights")
 ]
 
+models_4bit_to_embedding_test = [
+    ("intfloat/e5-mistral-7b-instruct", "quantize embedding model inflight"),
+]
+
 models_pre_qaunt_4bit_to_test = [
     ('PrunaAI/Einstein-v6.1-Llama3-8B-bnb-4bit-smashed',
      'read pre-quantized 4-bit FP4 model'),
@@ -31,6 +37,12 @@ models_pre_quant_8bit_to_test = [
     ("yec019/fbopt-350m-8bit", "read pre-quantized 8-bit opt model"),
 ]
 
+models_pre_quant_8bit_to_test = [
+    ('meta-llama/Llama-Guard-3-8B-INT8',
+     'read pre-quantized llama 8-bit model'),
+    ("yec019/fbopt-350m-8bit", "read pre-quantized 8-bit opt model"),
+]
+
 
 @pytest.mark.skipif(not is_quant_method_supported("bitsandbytes"),
                     reason='bitsandbytes is not supported on this GPU type.')
@@ -39,7 +51,8 @@ models_pre_quant_8bit_to_test = [
 def test_load_4bit_bnb_model(hf_runner, vllm_runner, example_prompts,
                              model_name, description) -> None:
 
-    hf_model_kwargs = {"load_in_4bit": True}
+    hf_model_kwargs = dict(quantization_config=BitsAndBytesConfig(
+        load_in_4bit=True))
     validate_generated_texts(hf_runner, vllm_runner, example_prompts[:1],
                              model_name, False, hf_model_kwargs)
 
@@ -77,7 +90,8 @@ def test_load_8bit_bnb_model(hf_runner, vllm_runner, example_prompts,
 def test_load_tp_4bit_bnb_model(hf_runner, vllm_runner, example_prompts,
                                 model_name, description) -> None:
 
-    hf_model_kwargs = {"load_in_4bit": True}
+    hf_model_kwargs = dict(quantization_config=BitsAndBytesConfig(
+        load_in_4bit=True))
     validate_generated_texts(hf_runner,
                              vllm_runner,
                              example_prompts[:1],
@@ -113,6 +127,54 @@ def test_load_pp_4bit_bnb_model(model_name, description) -> None:
     compare_two_settings(model_name, common_args, pp_args)
 
 
+@pytest.mark.skipif(not is_quant_method_supported("bitsandbytes"),
+                    reason='bitsandbytes is not supported on this GPU type.')
+@pytest.mark.parametrize("model_name, description",
+                         models_4bit_to_embedding_test)
+@pytest.mark.parametrize("dtype", ["half"])
+@create_new_process_for_each_test()
+def test_4bit_bnb_embedding_model(
+    model_name,
+    description,
+    hf_runner,
+    vllm_runner,
+    example_prompts,
+    dtype: str,
+) -> None:
+
+    # The example_prompts has ending "\n", for example:
+    # "Write a short story about a robot that dreams for the first time.\n"
+    # sentence_transformers will strip the input texts, see:
+    # https://github.com/UKPLab/sentence-transformers/blob/v3.1.1/sentence_transformers/models/Transformer.py#L159
+    # This makes the input_ids different between hf_model and vllm_model.
+    # So we need to strip the input texts to avoid test failing.
+    example_prompts = [str(s).strip() for s in example_prompts]
+
+    # Inflight 4bit quantization
+    hf_model_kwargs = dict(quantization_config=BitsAndBytesConfig(
+        load_in_4bit=True))
+    with hf_runner(
+            model_name,
+            dtype=dtype,
+            model_kwargs=hf_model_kwargs,
+            is_sentence_transformer=True,
+    ) as hf_model:
+        hf_outputs = hf_model.encode(example_prompts)
+
+    with vllm_runner(model_name,
+                     task="embed",
+                     dtype=dtype,
+                     quantization="bitsandbytes") as vllm_model:
+        vllm_outputs = vllm_model.encode(example_prompts)
+    check_embeddings_close(
+        embeddings_0_lst=hf_outputs,
+        embeddings_1_lst=vllm_outputs,
+        name_0="hf",
+        name_1="vllm",
+        tol=5e-2,
+    )
+
+
 def log_generated_texts(prompts, outputs, runner_name):
     logged_texts = []
     for i, (_, generated_text) in enumerate(outputs):
diff --git a/vllm/model_executor/model_loader/bitsandbytes_loader.py b/vllm/model_executor/model_loader/bitsandbytes_loader.py
index 47a7a06bb..6771c128c 100644
--- a/vllm/model_executor/model_loader/bitsandbytes_loader.py
+++ b/vllm/model_executor/model_loader/bitsandbytes_loader.py
@@ -35,6 +35,7 @@ from vllm.model_executor.model_loader.weight_utils import (
     download_safetensors_index_file_from_hf, download_weights_from_hf,
     filter_duplicate_safetensors_files, filter_files_not_needed_for_inference,
     pt_weights_iterator, safetensors_weights_iterator)
+from vllm.model_executor.models import is_pooling_model
 from vllm.model_executor.utils import set_weight_attrs
 from vllm.platforms import current_platform
 
@@ -133,6 +134,16 @@ class BitsAndBytesModelLoader(BaseModelLoader):
         return hf_weights_files, use_safetensors
 
     def _hf_weight_iter(self, hf_weights_files, use_safetensors: bool):
+        def _maybe_pool_model(module_name:str):
+            # For pool model, we need to add the prefix `model.`
+            # for the weight name if possible.
+            if self.is_pool_model and self.target_modules[0]. \
+                startswith("model.") and not module_name.startswith(
+                    "model."):
+                return "model."+module_name
+
+            return module_name
+
         if use_safetensors:
             iterator = safetensors_weights_iterator(
                 hf_weights_files,
@@ -148,6 +159,9 @@ class BitsAndBytesModelLoader(BaseModelLoader):
             # mapping weight names from transformers to vllm while preserving
             # original names.
             mapped_name = self.weight_mapper(org_name)
+            mapped_name=_maybe_pool_model(mapped_name)
+
+
             yield org_name, mapped_name, param
 
     def _get_quantized_weights_iterator(
@@ -405,7 +419,7 @@ class BitsAndBytesModelLoader(BaseModelLoader):
             raise AttributeError(
                 f"Model {type(model).__name__} does not support BitsAndBytes "
                 "quantization yet. No 'packed_modules_mapping' found.")
-
+        self.is_pool_model=is_pooling_model(model)
         self.modules_mapping = ParamMapping(
             copy.deepcopy(model.packed_modules_mapping))
 
-- 
GitLab


From 84ab4feb7e994ee6c692957e6d80a528af072e49 Mon Sep 17 00:00:00 2001
From: Elad Segal <eladsegal@users.noreply.github.com>
Date: Mon, 19 May 2025 19:05:16 +0300
Subject: [PATCH 456/461] [Doc] Fix typo (#18355)

---
 docs/source/models/supported_models.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/source/models/supported_models.md b/docs/source/models/supported_models.md
index 80eccfd03..4d5742162 100644
--- a/docs/source/models/supported_models.md
+++ b/docs/source/models/supported_models.md
@@ -54,7 +54,7 @@ For a model to be compatible with the Transformers backend for vLLM it must:
 
 If the compatible model is:
 
-- on the Hugging Face Model Hub, simply set `trust_remote_code=True` for <project:#offline-inference> or `--trust-remode-code` for the <project:#openai-compatible-server>.
+- on the Hugging Face Model Hub, simply set `trust_remote_code=True` for <project:#offline-inference> or `--trust-remote-code` for the <project:#openai-compatible-server>.
 - in a local directory, simply pass directory path to `model=<MODEL_DIR>` for <project:#offline-inference> or `vllm serve <MODEL_DIR>` for the <project:#openai-compatible-server>.
 
 This means that, with the Transformers backend for vLLM, new models can be used before they are officially supported in Transformers or vLLM!
-- 
GitLab


From 20d8ce81eb9ab8c9a259278d588b73dfb04b7e50 Mon Sep 17 00:00:00 2001
From: Reid <61492567+reidliu41@users.noreply.github.com>
Date: Tue, 20 May 2025 00:36:13 +0800
Subject: [PATCH 457/461] [Frontend] add --quick option for vllm chat/complete
 (#18297)

Signed-off-by: reidliu41 <reid201711@gmail.com>
Co-authored-by: reidliu41 <reid201711@gmail.com>
---
 vllm/entrypoints/cli/openai.py | 29 +++++++++++++++++++++++++++++
 1 file changed, 29 insertions(+)

diff --git a/vllm/entrypoints/cli/openai.py b/vllm/entrypoints/cli/openai.py
index 1d1bba1d4..215fcf3c3 100644
--- a/vllm/entrypoints/cli/openai.py
+++ b/vllm/entrypoints/cli/openai.py
@@ -101,9 +101,18 @@ class ChatCommand(CLISubcommand):
         model_name, client = _interactive_cli(args)
         system_prompt = args.system_prompt
         conversation: list[ChatCompletionMessageParam] = []
+
         if system_prompt is not None:
             conversation.append({"role": "system", "content": system_prompt})
 
+        if args.quick:
+            conversation.append({"role": "user", "content": args.quick})
+
+            chat_completion = client.chat.completions.create(
+                model=model_name, messages=conversation)
+            print(chat_completion.choices[0].message.content)
+            return
+
         print("Please enter a message for the chat model:")
         while True:
             try:
@@ -136,6 +145,12 @@ class ChatCommand(CLISubcommand):
             default=None,
             help=("The system prompt to be added to the chat template, "
                   "used for models that support system prompts."))
+        chat_parser.add_argument("-q",
+                                 "--quick",
+                                 type=str,
+                                 metavar="MESSAGE",
+                                 help=("Send a single prompt as MESSAGE "
+                                       "and print the response, then exit."))
         return chat_parser
 
 
@@ -149,6 +164,13 @@ class CompleteCommand(CLISubcommand):
     @staticmethod
     def cmd(args: argparse.Namespace) -> None:
         model_name, client = _interactive_cli(args)
+
+        if args.quick:
+            completion = client.completions.create(model=model_name,
+                                                   prompt=args.quick)
+            print(completion.choices[0].text)
+            return
+
         print("Please enter prompt to complete:")
         while True:
             input_prompt = input("> ")
@@ -168,6 +190,13 @@ class CompleteCommand(CLISubcommand):
                          "via the running API server."),
             usage="vllm complete [options]")
         _add_query_options(complete_parser)
+        complete_parser.add_argument(
+            "-q",
+            "--quick",
+            type=str,
+            metavar="PROMPT",
+            help=
+            "Send a single prompt and print the completion output, then exit.")
         return complete_parser
 
 
-- 
GitLab


From e2ee1e8e9ee54279848b8fe8d86824bbab25a0f2 Mon Sep 17 00:00:00 2001
From: Wenhua Cheng <wenhua.cheng@intel.com>
Date: Tue, 20 May 2025 00:38:53 +0800
Subject: [PATCH 458/461] [Feature]Add support for models quantized with
 AutoRound (#17850)

Signed-off-by: wenhuach21 <wenhua.cheng@intel.com>
---
 tests/quantization/test_auto_round.py         |  30 ++
 .../layers/quantization/__init__.py           |   3 +
 .../layers/quantization/auto_round.py         | 306 ++++++++++++++++++
 3 files changed, 339 insertions(+)
 create mode 100644 tests/quantization/test_auto_round.py
 create mode 100644 vllm/model_executor/layers/quantization/auto_round.py

diff --git a/tests/quantization/test_auto_round.py b/tests/quantization/test_auto_round.py
new file mode 100644
index 000000000..81ceecdb4
--- /dev/null
+++ b/tests/quantization/test_auto_round.py
@@ -0,0 +1,30 @@
+# SPDX-License-Identifier: Apache-2.0
+"""Test model set-up and inference for quantized HF models supported
+ on the AutoRound.
+
+ Validating the configuration and printing results for manual checking.
+
+ Run `pytest tests/quantization/test_auto_round.py`.
+"""
+
+import pytest
+
+from vllm.platforms import current_platform
+
+MODELS = [
+    "OPEA/Qwen2.5-0.5B-Instruct-int4-sym-inc",  ##auto_round:auto_gptq
+    "Intel/Qwen2-0.5B-Instruct-int4-sym-AutoRound"  ##auto_round:auto_awq
+]
+
+
+@pytest.mark.skipif(not current_platform.is_cpu()
+                    and not current_platform.is_xpu()
+                    and not current_platform.is_cuda(),
+                    reason="only supports CPU/XPU/CUDA backend.")
+@pytest.mark.parametrize("model", MODELS)
+def test_auto_round(vllm_runner, model):
+    with vllm_runner(model) as llm:
+        output = llm.generate_greedy(["The capital of France is"],
+                                     max_tokens=8)
+    assert output
+    print(f"{output[0][1]}")
diff --git a/vllm/model_executor/layers/quantization/__init__.py b/vllm/model_executor/layers/quantization/__init__.py
index a713b1e93..a22f8103e 100644
--- a/vllm/model_executor/layers/quantization/__init__.py
+++ b/vllm/model_executor/layers/quantization/__init__.py
@@ -33,6 +33,7 @@ QuantizationMethods = Literal[
     "quark",
     "moe_wna16",
     "torchao",
+    "auto-round",
 ]
 QUANTIZATION_METHODS: list[str] = list(get_args(QuantizationMethods))
 
@@ -84,6 +85,7 @@ def get_quantization_config(quantization: str) -> type[QuantizationConfig]:
     from vllm.model_executor.layers.quantization.quark.quark import QuarkConfig
 
     from .aqlm import AQLMConfig
+    from .auto_round import AutoRoundConfig
     from .awq import AWQConfig
     from .awq_marlin import AWQMarlinConfig
     from .bitblas import BitBLASConfig
@@ -138,6 +140,7 @@ def get_quantization_config(quantization: str) -> type[QuantizationConfig]:
         "quark": QuarkConfig,
         "moe_wna16": MoeWNA16Config,
         "torchao": TorchAOConfig,
+        "auto-round": AutoRoundConfig,
     }
     # Update the `method_to_config` with customized quantization methods.
     method_to_config.update(_CUSTOMIZED_METHOD_TO_QUANT_CONFIG)
diff --git a/vllm/model_executor/layers/quantization/auto_round.py b/vllm/model_executor/layers/quantization/auto_round.py
new file mode 100644
index 000000000..a5e63843c
--- /dev/null
+++ b/vllm/model_executor/layers/quantization/auto_round.py
@@ -0,0 +1,306 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from fractions import Fraction
+from typing import Any, Optional, Union
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import (LinearBase,
+                                               UnquantizedLinearMethod)
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig)
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.platforms import current_platform
+from vllm.scalar_type import scalar_types
+
+logger = init_logger(__name__)
+
+
+class AutoRoundConfig(QuantizationConfig):
+    """Config class for AutoRound.
+    Reference: https://arxiv.org/pdf/2309.05516
+    """
+
+    SUPPORTED_BITS = {2, 3, 4, 8}
+    SUPPORTED_DTYPES = {"int"}
+    SUPPORTED_FORMATS = {"auto_round:auto_gptq", "auto_round:auto_awq"}
+    SUPPORTED_BACKENDS = {
+        "auto", "gptq", "gptq:marlin", "awq", "awq:marlin", "marlin", "ipex"
+    }
+
+    def __init__(
+        self,
+        weight_bits: int,
+        group_size: int,
+        sym: bool = True,
+        packing_format: str = "auto_round:auto_gptq",
+        block_name_to_quantize: Optional[Union[str, list[str]]] = None,
+        extra_config: Optional[dict[str, Any]] = None,
+        data_type: str = "int",
+        backend: str = "auto",
+    ) -> None:
+        super().__init__()
+        if weight_bits not in self.SUPPORTED_BITS:
+            raise ValueError(f"Unsupported weight_bits: {weight_bits}, "
+                             f"currently only support  {self.SUPPORTED_BITS}")
+        if data_type not in self.SUPPORTED_DTYPES:
+            raise ValueError(
+                f"Unsupported data_type: {data_type},"
+                f" currently only support  {self.SUPPORTED_DTYPES}")
+        if packing_format not in self.SUPPORTED_FORMATS:
+            raise ValueError(
+                f"Unsupported packing_format: {packing_format}, "
+                f"currently only support  {self.SUPPORTED_FORMATS}")
+        if backend not in self.SUPPORTED_BACKENDS:
+            raise ValueError(
+                f"Unsupported backend: {backend},  "
+                f"currently only support  {self.SUPPORTED_BACKENDS}")
+
+        self.weight_bits = weight_bits
+        self.group_size = group_size
+        self.sym = sym
+        self.packing_format = packing_format
+        self.block_name_to_quantize = (block_name_to_quantize.split(",") if
+                                       isinstance(block_name_to_quantize, str)
+                                       else block_name_to_quantize)
+        self.extra_config = extra_config
+        self.data_type = data_type
+        self.backend = backend
+        self.pack_factor = Fraction(32, weight_bits)
+
+    def __repr__(self) -> str:
+        return (f"AutoRoundConfig(weight_bits={self.weight_bits}, "
+                f"group_size={self.group_size}, sym={self.sym})")
+
+    @classmethod
+    def get_name(cls):  ## use str will trigger preci issue
+        return "auto-round"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.half, torch.bfloat16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 60
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["quantization_config.json"]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "AutoRoundConfig":
+        return cls(
+            weight_bits=cls.get_from_keys(config, ["bits"]),
+            group_size=cls.get_from_keys(config, ["group_size"]),
+            sym=cls.get_from_keys(config, ["sym"]),
+            packing_format=cls.get_from_keys_or(config, ["packing_format"],
+                                                "auto_round:auto_gptq"),
+            block_name_to_quantize=cls.get_from_keys_or(
+                config, ["block_name_to_quantize", "to_quant_block_names"],
+                None),
+            extra_config=cls.get_from_keys_or(config, ["extra_config"], None),
+            data_type=cls.get_from_keys_or(config, ["data_type"], "int"),
+            backend=cls.get_from_keys_or(config, ["backend", "vllm_backend"],
+                                         "auto"),
+        )
+
+    def get_layer_config(self, layer, layer_name: str):
+        # Priority: extra_config > block_name_to_quantize > type fallback
+        if self.extra_config and layer_name in self.extra_config:
+            cfg = self.extra_config[layer_name]
+            return cfg.get("bits", self.weight_bits), cfg.get(
+                "group_size", self.group_size), cfg.get("sym", self.sym)
+
+        quantized = True
+        if self.block_name_to_quantize:
+            quantized = any(name in layer_name
+                            for name in self.block_name_to_quantize)
+        elif isinstance(layer, ParallelLMHead):
+            quantized = False
+
+        return (self.weight_bits, self.group_size,
+                self.sym) if quantized else (16, -1, True)
+
+    def check_quantized(self, weight_bits: int) -> bool:
+        return weight_bits < 16
+
+    def apply_awq_quant_layer(self, layer, prefix: str, backend: str = "auto"):
+        from vllm.model_executor.layers.fused_moe import FusedMoE
+        from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+            check_marlin_supported, check_moe_marlin_supports_layer)
+
+        weight_bits, group_size, sym = self.get_layer_config(layer, prefix)
+        if not self.check_quantized(weight_bits):
+            if isinstance(layer, (LinearBase, ParallelLMHead)):
+                return UnquantizedLinearMethod()
+            else:
+                return None
+
+        logger.debug("[%s] Type: %s, Bits: %s, Group Size: %s, Sym: %s",
+                     prefix, layer.__class__.__name__, weight_bits, group_size,
+                     sym)
+        if backend == "auto" or "marlin" in backend:
+            if isinstance(layer, FusedMoE):
+                use_marlin = check_moe_marlin_supports_layer(layer, group_size)
+            else:
+
+                AWQ_TYPE_MAP = {
+                    4: scalar_types.uint4,
+                    8: scalar_types.uint8,
+                }
+                use_marlin = ((weight_bits, sym) in AWQ_TYPE_MAP
+                              and check_marlin_supported(
+                                  AWQ_TYPE_MAP[(weight_bits)], group_size,
+                                  not sym))
+        else:
+            use_marlin = False
+        if use_marlin:
+            from vllm.model_executor.layers.quantization.awq_marlin import (
+                AWQMarlinConfig, AWQMarlinLinearMethod, AWQMoEMethod)
+            quant_args_marlin = AWQMarlinConfig(weight_bits=weight_bits,
+                                                group_size=group_size,
+                                                zero_point=not sym,
+                                                lm_head_quantized=False,
+                                                full_config={},
+                                                modules_to_not_convert=[])
+        else:
+            from vllm.model_executor.layers.quantization.awq import (
+                AWQConfig, AWQLinearMethod)
+            quant_args = AWQConfig(
+                weight_bits=weight_bits,
+                group_size=group_size,
+                zero_point=not sym,
+            )
+
+        if isinstance(layer, FusedMoE):
+            if use_marlin:
+                return AWQMoEMethod(quant_args_marlin)
+            from vllm.model_executor.layers.quantization.moe_wna16 import (
+                MoeWNA16Config)
+            config = {
+                "linear_quant_method": "awq",
+                "weight_bits": weight_bits,
+                "group_size": group_size,
+                "zero_point": not sym,
+            }
+            return MoeWNA16Config.from_config(config).get_quant_method(
+                layer, prefix)
+
+        if isinstance(layer, (LinearBase, ParallelLMHead)):
+            if use_marlin:
+                return AWQMarlinLinearMethod(quant_args_marlin)
+            else:
+                return AWQLinearMethod(quant_args)
+        return None
+
+    def apply_gptq_quant_layer(self,
+                               layer,
+                               prefix: str,
+                               backend: str = "auto"):
+        from vllm.model_executor.layers.fused_moe import FusedMoE
+        from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+            check_marlin_supported, check_moe_marlin_supports_layer)
+        weight_bits, group_size, sym = self.get_layer_config(layer, prefix)
+        if not self.check_quantized(weight_bits):
+            if isinstance(layer, (LinearBase, ParallelLMHead)):
+                return UnquantizedLinearMethod()
+            else:
+                return None
+
+        logger.debug("[%s] Type: %s, Bits: %s, Group Size: %s, Sym: %s",
+                     prefix, layer.__class__.__name__, weight_bits, group_size,
+                     sym)
+        if backend == "auto" or "marlin" in backend:
+            if isinstance(layer, FusedMoE):
+                use_marlin = check_moe_marlin_supports_layer(layer, group_size)
+            else:
+                GPTQ_TYPE_MAP = {
+                    (4, True): scalar_types.uint4b8,
+                    (8, True): scalar_types.uint8b128,
+                }
+                use_marlin = ((weight_bits, sym) in GPTQ_TYPE_MAP
+                              and check_marlin_supported(
+                                  GPTQ_TYPE_MAP[(weight_bits, sym)],
+                                  group_size,
+                                  has_zp=not sym))
+        else:
+            use_marlin = False
+        if use_marlin:
+            from vllm.model_executor.layers.quantization.gptq_marlin import (
+                GPTQMarlinConfig, GPTQMarlinLinearMethod, GPTQMarlinMoEMethod)
+            quant_args_marlin = GPTQMarlinConfig(weight_bits=weight_bits,
+                                                 group_size=group_size,
+                                                 is_sym=sym,
+                                                 lm_head_quantized=False,
+                                                 desc_act=False,
+                                                 dynamic={},
+                                                 full_config={})
+        else:
+            from vllm.model_executor.layers.quantization.gptq import (
+                GPTQConfig, GPTQLinearMethod)
+            quant_args = GPTQConfig(weight_bits=weight_bits,
+                                    group_size=group_size,
+                                    lm_head_quantized=False,
+                                    desc_act=False,
+                                    dynamic={})
+
+        if isinstance(layer, FusedMoE):
+            if use_marlin:
+                from vllm.model_executor.layers.quantization.moe_wna16 import (
+                    MoeWNA16Config)
+                config = {
+                    "linear_quant_method": "gptq",
+                    "weight_bits": weight_bits,
+                    "group_size": group_size,
+                    "sym": sym,
+                    "lm_head_quantized": False,
+                }
+                return MoeWNA16Config.from_config(config).get_quant_method(
+                    layer, prefix)
+            return GPTQMarlinMoEMethod(quant_args_marlin)
+
+        if isinstance(layer, (LinearBase, ParallelLMHead)):
+            if use_marlin:
+                return GPTQMarlinLinearMethod(quant_args_marlin)
+            else:
+                return GPTQLinearMethod(quant_args)
+
+        return None
+
+    def apply_ipex_quant_layer(self, layer, prefix: str):
+        weight_bits, group_size, sym = self.get_layer_config(layer, prefix)
+        if not self.check_quantized(weight_bits):
+            if isinstance(layer, (LinearBase, ParallelLMHead)):
+                return UnquantizedLinearMethod()
+            else:
+                return None
+        from vllm.model_executor.layers.quantization.ipex_quant import (
+            IPEXAWQLinearMethod, IPEXConfig, IPEXGPTQLinearMethod)
+        if isinstance(layer, (LinearBase, ParallelLMHead)):
+            if "awq" in self.packing_format:
+                config = IPEXConfig(method="awq",
+                                    weight_bits=weight_bits,
+                                    group_size=group_size)
+                return IPEXAWQLinearMethod(config)
+            elif "gptq" in self.packing_format:
+                config = IPEXConfig(method="gptq",
+                                    weight_bits=weight_bits,
+                                    group_size=group_size)
+                return IPEXGPTQLinearMethod(config)
+            else:
+                raise ValueError(
+                    f"ipex backend only supports awq "
+                    f"and gtpq format,but got {self.packing_format}")
+        else:
+            return None
+
+    def get_quant_method(self, layer: torch.nn.Module, prefix: str):
+        if (current_platform.is_cpu() or current_platform.is_xpu()
+                or self.backend == "ipex"):
+            return self.apply_ipex_quant_layer(layer, prefix)
+        if "gptq" in self.packing_format or "gptq" in self.backend:
+            return self.apply_gptq_quant_layer(layer, prefix)
+        if "awq" in self.packing_format or "awq" in self.backend:
+            return self.apply_awq_quant_layer(layer, prefix)
-- 
GitLab


From 7937c2fd52716c668bb9ed433813ca623d59d6d9 Mon Sep 17 00:00:00 2001
From: sunyicode0012 <116338547+sunyicode0012@users.noreply.github.com>
Date: Tue, 20 May 2025 00:49:57 +0800
Subject: [PATCH 459/461] Add files via uploadAdd fused MoE kernel tuning
 configs (fp8_w8a8) for DeepSeek V3/R1 on a single-node 8x NVIDIA H20 96GB
 setup (#18337)

---
 ...,dtype=fp8_w8a8,block_shape=[128,128].json | 146 ++++++++++++++++++
 1 file changed, 146 insertions(+)
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json

diff --git a/vllm/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json b/vllm/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 000000000..3e0ad0d5a
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,146 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
-- 
GitLab


From 81712218341ce09d555579829e8903e7a9aa4880 Mon Sep 17 00:00:00 2001
From: Gong Shufan <2624542821@qq.com>
Date: Tue, 20 May 2025 00:51:01 +0800
Subject: [PATCH 460/461] [Misc] Fix typo (#18330)

---
 .../lmcache/disagg_prefill_lmcache_v1/disagg_vllm_launcher.sh   | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/examples/lmcache/disagg_prefill_lmcache_v1/disagg_vllm_launcher.sh b/examples/lmcache/disagg_prefill_lmcache_v1/disagg_vllm_launcher.sh
index 831ef0bb5..5719fa821 100644
--- a/examples/lmcache/disagg_prefill_lmcache_v1/disagg_vllm_launcher.sh
+++ b/examples/lmcache/disagg_prefill_lmcache_v1/disagg_vllm_launcher.sh
@@ -54,6 +54,6 @@ elif [[ $1 == "decoder" ]]; then
 
 else
     echo "Invalid role: $1"
-    echo "Should be either prefill, decode"
+    echo "Should be either prefiller, decoder"
     exit 1
 fi
-- 
GitLab


From dc1440cf9f8f6233a3c464e1a01daa12207f8680 Mon Sep 17 00:00:00 2001
From: Satyajith Chilappagari <satchill@amazon.com>
Date: Mon, 19 May 2025 09:54:47 -0700
Subject: [PATCH 461/461] Neuron up mistral (#18222)

Signed-off-by: Satyajith Chilappagari <satchill@amazon.com>
---
 tests/neuron/2_core/test_mistral.py           | 32 +++++++++++++++++++
 .../model_loader/neuronx_distributed.py       |  3 ++
 vllm/platforms/neuron.py                      |  3 +-
 3 files changed, 36 insertions(+), 2 deletions(-)
 create mode 100644 tests/neuron/2_core/test_mistral.py

diff --git a/tests/neuron/2_core/test_mistral.py b/tests/neuron/2_core/test_mistral.py
new file mode 100644
index 000000000..8acd082f2
--- /dev/null
+++ b/tests/neuron/2_core/test_mistral.py
@@ -0,0 +1,32 @@
+# SPDX-License-Identifier: Apache-2.0
+
+from vllm import LLM, SamplingParams
+
+
+def test_mistral():
+    llm = LLM(model="mistralai/Mistral-7B-v0.1",
+              tensor_parallel_size=2,
+              max_num_seqs=4,
+              max_model_len=512,
+              use_v2_block_manager=True,
+              override_neuron_config={
+                  "sequence_parallel_enabled": False,
+                  "skip_warmup": True
+              },
+              device="neuron")
+
+    prompts = [
+        "The president of the United States is",
+        "The capital of France is",
+    ]
+    outputs = llm.generate(prompts, SamplingParams(top_k=1))
+
+    expected_outputs = [
+        " the most powerful person in the world. He is the head of state "
+        "and head",
+        " a city of many faces. It is a city of history, culture, art"
+    ]
+
+    for expected_output, output in zip(expected_outputs, outputs):
+        generated_text = output.outputs[0].text
+        assert (expected_output == generated_text)
diff --git a/vllm/model_executor/model_loader/neuronx_distributed.py b/vllm/model_executor/model_loader/neuronx_distributed.py
index fee8c10b6..b98cea7fe 100644
--- a/vllm/model_executor/model_loader/neuronx_distributed.py
+++ b/vllm/model_executor/model_loader/neuronx_distributed.py
@@ -48,6 +48,9 @@ TORCH_DTYPE_TO_NEURON_AMP = {
 # Models supported by Neuronx distributed for inference.
 _NEURON_SUPPORTED_MODELS: dict[str, tuple[str, str]] = {
     "LlamaForCausalLM":
+    ("neuronx_distributed_inference.models.llama.modeling_llama",
+     "NeuronLlamaForCausalLM"),
+    "MistralForCausalLM":
     ("neuronx_distributed_inference.models.llama.modeling_llama",
      "NeuronLlamaForCausalLM"),
     "DbrxForCausalLM":
diff --git a/vllm/platforms/neuron.py b/vllm/platforms/neuron.py
index 71f7c718c..e08337b83 100644
--- a/vllm/platforms/neuron.py
+++ b/vllm/platforms/neuron.py
@@ -51,8 +51,7 @@ class NeuronPlatform(Platform):
         assert (vllm_config.lora_config
                 is None), "LoRA is not supported for Neuron backend."
 
-        cache_config = vllm_config.cache_config
-        if cache_config:
+        if vllm_config.cache_config and vllm_config.model_config:
             # neuron needs block_size = max_model_len
             vllm_config.cache_config.block_size = \
                 vllm_config.model_config.max_model_len  # type: ignore
-- 
GitLab